Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Linguagem de Programação Aplicada R
Aula 04: Introdução à Visualização de 
Dados e Funções e Dados Públicos
prof.: Sérgio Monteiro, DSc
smonteiro@unicarioca.edu.br
REFORÇANDO A 
APRENDIZAGEM
PONTOS PRINCIPAIS
Agenda
• Introdução à Visualização de Dados
• Funções e Dados Públicos
T01: Introdução à Visualização de 
Dados
Introdução à Visualização de Dados
Histograma
• Um histograma contém uma área retangular para exibir a 
informação estatística que é proporcional à freqüência de 
uma variável e sua largura em intervalos numéricos 
sucessivos. 
• Uma representação gráfica que gerencia um grupo de 
pontos de dados em diferentes intervalos especificados. 
Ele tem um recurso especial que não mostra lacunas entre 
as barras e é semelhante a um gráfico de barras verticais.
Introdução à Visualização de Dados
Histograma
• Sintaxe:
hist(v, main, xlab, xlim, ylim, breaks, col, border)
• Parâmetros:
➢v: Este parâmetro contém valores numéricos usados no 
histograma.
➢main: este parâmetro é o título do gráfico.
➢ col: Este parâmetro é usado para definir a cor das 
barras.
Introdução à Visualização de Dados
Histograma (continuação)
• Sintaxe:
hist(v, main, xlab, xlim, ylim, breaks, col, border)
• Parâmetros:
➢ xlab: Este parâmetro é o rótulo do eixo horizontal.
➢ xlim: Este parâmetro é usado para representar os 
valores do eixo x.
➢ylim: Este parâmetro é usado para representar os 
valores do eixo y.
Introdução à Visualização de Dados
Histograma (continuação)
• Sintaxe:
hist(v, main, xlab, xlim, ylim, breaks, col, border)
• Parâmetros:
➢border: Este parâmetro é usado para definir a cor da 
borda de cada barra.
➢breaks: Este parâmetro é usado como largura de cada 
barra.
Introdução à Visualização de Dados
Exemplo
# Criar dados para o gráficos.
v <- c(19, 23, 11, 5, 16, 21, 32, 14, 19, 27, 39)
# Criar o histograma.
hist(v, xlab = "Quantidade de Livros", col = "green", border = 
"black")
Introdução à Visualização de Dados
Exemplo
# Criar dados para o gráficos.
v <- c(19, 23, 11, 5, 16, 21, 32, 14, 19, 27, 39)
# Criar o histograma. Restrições sobre os “bins”.
hist(v, xlab = "Quantidade de Livros", col = "green",
border = "black", xlim = c(0, 50),
ylim = c(0, 5), breaks = 5)
Introdução à Visualização de Dados
Exemplo
# Criar dados para o gráficos.
v <- c(19, 23, 11, 5, 16, 21, 32, 14, 19, 27, 39, 120, 40, 70, 90)
# Criar o histograma.
m<-hist(v, xlab = "Quantidade de Livros", ylab ="Frequência",
col = "darkmagenta", border = "pink", breaks = 5)
# Dar nomes para os rótulos
text(m$mids, m$counts, labels = m$counts, adj = c(0.5, -0.5))
Introdução à Visualização de Dados
Exemplo
# Criar dados para o gráficos.
v <- c(19, 23, 11, 5, 16, 21, 32, 14, 19, 27, 39, 120, 40, 70, 90)
# Criar o histograma.
m<-hist(v, xlab = "Largura", ylab ="Frequência", xlim = c(50, 
100), col = "darkmagenta", border = "pink", breaks = c(5, 55, 
60, 70, 75, 80, 100, 140)) 
Introdução à Visualização de Dados
Gráfico de Barras
• Um gráfico de barras é uma representação pictórica de 
dados que apresenta dados categóricos com barras 
retangulares com alturas ou comprimentos proporcionais 
aos valores que representam;
• Em outras palavras, é a representação pictórica do 
conjunto de dados. Esses conjuntos de dados contêm os 
valores numéricos das variáveis que representam o 
comprimento ou altura.
Introdução à Visualização de Dados
Gráfico de Barras
• Sintaxe:
barplot (v, xlab, ylab, main, names.arg, col)
• Parâmetros:
➢v: Este parâmetro é um vetor ou matriz contendo 
valores numéricos que são usados no gráfico de barras.
➢ xlab: Este parâmetro é o rótulo do eixo x no gráfico de 
barras.
➢ylab: este parâmetro é o rótulo do eixo y no gráfico de 
barras.
Introdução à Visualização de Dados
Gráfico de Barras (continuação)
• Sintaxe:
barplot (v, xlab, ylab, main, names.arg, col)
• Parâmetros:
➢main: este parâmetro é o título do gráfico de barras.
➢names.arg: este parâmetro é um vetor de nomes que 
aparecem em cada barra no gráfico de barras.
➢ col: Este parâmetro é usado para dar cores às barras no 
gráfico.
Introdução à Visualização de Dados
Exemplo - Gráfico de Barras
# Criar dados para o gráfico
v <- c(17, 32, 8, 53, 1)
# Gráfico de Barras
barplot(v, xlab = "eixo X", ylab = "eixo Y", main ="Gráfico de 
Barras")
Introdução à Visualização de Dados
Exemplo - Gráfico de Barras - Horizontal
# Criar dados para o gráfico
v <- c(17, 32, 8, 53, 1)
# Gráfico de Barras - horizontal
barplot(A, horiz = TRUE, xlab = "eixo X",
ylab = "eixo Y", main ="Gráfico de Barras")
Introdução à Visualização de Dados
Exemplo - Gráfico de Barras ( Imprimir Rótulos)
# Criar dados para o gráfico
A <- c(17, 2, 8, 13, 1, 22)
B <- c("Jan", "Fev", "Mar", "Abr", "Mai", "Jun")
# Gráfico de Barras
barplot(A, names.arg = B, xlab ="Mês",
ylab ="Livros Lidos", col ="green",
main ="Gráfico de Barras")
Introdução à Visualização de Dados
Exemplo - Gráfico de Barras ( Imprimir Rótulos)
# Criar dados para o gráfico
cores = c("green", "orange", "brown")
meses <- c("Mar", "Abr", "Mai", "Jun", "Jul")
regioes <- c("SE", "NE", "N")
# Criar a matriz de valores
v <- matrix(c(2, 9, 3, 11, 9, 4, 8, 7, 3, 12, 5, 2, 8, 10, 11),
nrow = 3, ncol = 5, byrow = TRUE)
Introdução à Visualização de Dados
Exemplo - Gráfico de Barras ( Imprimir Rótulos)
# Criar gráfico de barras
barplot(v, main = "Total de Vendas", names.arg = meses,
xlab = "Mês", ylab = "Venda", col = colors, beside = TRUE)
# Acrescentar legenda no gráfico
legend("topleft", regioes, cex = 0.7, fill = cores)
Introdução à Visualização de Dados
Exemplo - Gráfico de Barras
cores = c("green", "orange", "brown")
meses <- c("Mar", "Abr", "Mai", "Jun", "Jul")
regioes <- c("SE", "NE", "N")
# Criar a matriz de valores
v <- matrix(c(2, 9, 3, 11, 9, 4, 8, 7, 3, 12, 5, 2, 8, 10, 11),
nrow = 3, ncol = 5, byrow = TRUE)
Introdução à Visualização de Dados
Exemplo - Gráfico de Barras
# Criar o gráfico de barras
barplot(v, main = "Total de Vendas", names.arg = meses,
xlab = "Mês", ylab = "Venda", col = cores)
# Acrescentar legenda no gráfico
legend("topleft", regioes, cex = 0.7, fill = cores)
Introdução à Visualização de Dados
Boxplot
• Boxplot é provavelmente o tipo de gráfico mais comumente 
usado para comparar a distribuição de vários grupos. No 
entanto, devemos ter em mente que a distribuição de dados 
está oculta atrás de cada caixa.
Introdução à Visualização de Dados
Boxplot
• A sintaxe básica para criar um boxplot em R é:
boxplot (x, data, notch, varwidth, names, main)
• Descrição dos parâmetros:
➢x: é um vetor ou uma fórmula.
➢data: é o quadro de dados.
➢notch: é um valor lógico. Defina como TRUE 
para desenhar um entalhe.
Introdução à Visualização de Dados
Boxplot
• A sintaxe básica para criar um boxplot em R
boxplot (x, dados, notch, varwidth, names, main)
• Descrição dos parâmetros:
➢varwidth: é um valor lógico. Defina como 
verdadeiro para desenhar a largura da caixa 
proporcional ao tamanho da amostra.
➢names: são os rótulos dos grupos que serão 
impressos em cada boxplot.
➢main: é usado para dar um título ao gráfico.
Introdução à Visualização de Dados
Exemplo – Box Plot
# Criar o gráfico BoxPlot
entradaDados <- mtcars[,c('mpg', 'cyl')]
print(head(entradaDados))
# Boxplot de Milhas Por Galão Por Cilindros de Carro
boxplot(mpg~cyl, data= entradaDados, main="Dados de Milhas 
por Carro", xlab="Número de Cilindros", ylab="Milhas Por Galão")
Introdução à Visualização de Dados
Exercícios
1. Ler um arquivo excel com as seguintes colunas:
Classe Altura (m) Quantidade de alunos 
Sendo que:
• Classe: existem 10 categorias
• Altura (m): são categorias, onde a primeira é “1,45 a 1,50” 
e a última é “1,90 a 1,95” 
• Quantidade de alunos: quantos alunos estão em uma 
categoria
2. Imprimir um gráfico de barras com “Classes de Altura x 
Qtde de Pessoas”
T02: Funções e Dados Públicos
Implementar Funções
Como Implementar uma Função no R
funcao_moda<- function(v) {
valores_unicos <- unique(v)
valores_unicos[which.max(tabulate(match(v, valores_unicos)))]
}
num <- rnorm(10, mean=1000, sd=5)
print("números aleatórios: ")
print(num)
moda <- funcao_moda(num)
print(moda)
Implementar Funções
Como Implementar uma Função no R
funcao_imprimir <- function(original, predito) {
x=1:length(original)
plot(x, original, pch=19, col="blue")
lines(x, predito, col="red")
legend("topleft", legend = c("y-original", "y-predito"),
col = c("blue", "red"), pch = c(19,NA), lty = c(NA,1), cex = 0.7)
}
original <- c(3, 5, 4, 3, 6, 6, 5, 7, 3, 5, 8)
predito <- c(2, 6, 5, 3, 6, 5, 5, 7, 2, 6, 8)
grafico <- funcao_imprimir(original, predito)
print(grafico)
Métricas de Validação de Modelos
R-quadrado (R2)
Fórmula é dada por:
𝑅2 = 1 −
σ𝑖=1
𝑁 𝑦𝑖 − ො𝑦𝑖
2
σ𝑖=1
𝑁 𝑦𝑖 − 𝑦
2
Sendo que:
✓ ො𝑦 representa o valor estimado de 𝑦, ou seja, o valor obtido por um dos
métodos de regressão;
✓ 𝑦 representa a média de 𝑦.
Métricas de Validação de Modelos
Raiz do Erro Quadrático Médio
Fórmula é dada por:
𝑅𝑀𝑆𝐸 =
σ𝑖=1
𝑁 𝑦𝑖 − ො𝑦𝑖
2
𝑁
Sendo que:
✓ ො𝑦 representa o valor estimado de 𝑦, ou seja, o valor obtido por um dos
métodos de regressão;
✓ 𝑦 representa os dados originais.
Métricas de Validação de Modelos
Erro absoluto médio
Fórmula é dada por:
𝑀𝐴𝐸 =
1
𝑁
෍
𝑖=1
𝑁
|𝑦𝑖 − ො𝑦𝑖|
Sendo que:
✓ ො𝑦 representa o valor estimado de 𝑦, ou seja, o valor obtido por um dos
métodos de regressão;
✓ 𝑦 representa os dados originais.
Métricas de Validação de Modelos
Erro quadrático médio
Fórmula é dada por:
𝑀𝑆𝐸 =
1
𝑁
෍
𝑖=1
𝑁
(𝑦𝑖 − ො𝑦𝑖)
2
Sendo que:
✓ ො𝑦 representa o valor estimado de 𝑦, ou seja, o valor obtido por um dos
métodos de regressão;
✓ 𝑦 representa os dados originais.
Implementar Funções
Implementação de Métricas
#install.packages("caret")
library(caret)
#install.packages("Metrics")
library(Metrics)
#install.packages("sjmisc")
library(sjmisc)
Implementar Funções
Implementação de Métricas
#Métricas
funcao_metricas <- function(original, predito) {
fmse <- mse(predito, original)
fmae <- mae(predito, original)
frmse <- rmse(predito, original)
fr2 <- R2(predito, original)
resultado<-data.frame(fmae,fmse,frmse, fr2)
return (resultado)
}
Implementar Funções
Implementação de Métricas
#Imprimir Métricas
r<-funcao_metricas(original, predito)
cat(" MAE:", r$fmae, "\n", "MSE:", r$fmse, "\n", 
"RMSE:", r$frmse, "\n", "R-squared:", r$fr2, "\n")
print(r)
Dados Disponíveis no R
Explorar Dados Disponíveis
# Dados disponíveis: lista de dados pré-carregados
>> data()
#Listar todos os conjuntos de dados disponíveis.
>> data(package = .packages(all.available = TRUE))
Dados Disponíveis no R
Carregar Dados
# Carregar dados
>> data(mtcars)
# Imprimir as 5 primeiras linhas
>> head(mtcars, 5)
# Obter mais informações sobre o conjunto de dados
>> ?mtcars
# Obter os metadados
>> nrow(mtcars)
>> ncol(mtcars)
>> names(mtcars)
Dados Disponíveis no R
Alguns Conjuntos de Dados
mtcars
Os dados foram extraídos da revista Motor Trend US de 1974 e 
abrangem o consumo de combustível e 10 aspectos do design e 
desempenho de automóveis para 32 automóveis (modelos de 
1973 a 1974)
>> data(mtcars)
>> head(mtcars, 5)
Dados Disponíveis no R
Alguns Conjuntos de Dados
iris
O conjunto de dados da íris fornece as medidas em centímetros 
das variáveis ​​comprimento da sépala, largura da sépala, 
comprimento da pétala e largura da pétala, respectivamente, para 
50 flores de cada uma das 3 espécies de íris. As espécies são Iris 
setosa, versicolor e virginica.
>> data("iris") 
>> head(iris, 5)
Dados Disponíveis no R
Alguns Conjuntos de Dados
ToothGrowth
O conjunto de dados ToothGrowth contém o resultado de um 
experimento que estudou o efeito da vitamina C no crescimento 
dentário em 60 porquinhos-da-índia. Cada animal recebeu um dos 
três níveis de dose de vitamina C (0,5; 1 e 2 mg/dia) por um dos 
dois métodos de entrega (suco de laranja ou ácido ascórbico (uma 
forma de vitamina C e codificada como VC).
>> data("ToothGrowth")
>> head(ToothGrowth, 5)
Dados Disponíveis no R
Alguns Conjuntos de Dados
PlantGrowth (crescimento da planta)
Resultados obtidos de um experimento para comparar 
rendimentos (medidos pelo peso seco das plantas) obtidos sob um 
controle e duas condições de tratamento diferentes.
>> data("PlantGrowth")
>> head(PlantGrowth, 5)
Dados Disponíveis no R
Alguns Conjuntos de Dados
USArests
Este conjunto de dados contém estatísticas, em prisões por 
100.000 residentes por agressão, assassinato e estupro em cada 
um dos 50 estados dos EUA em 1973. Também é fornecido o 
percentual da população que vive em áreas urbanas.
>> data("USArrests")
>> head(USArrests, 5)
Métricas de Validação
Exercícios
Implementar funções para as métricas MSE, RMSE, MAE e R-
quadrado. Usar os dados do atributo GNP da base longley. 
Utilizar a função rnorm para estimar os dados da variável 
dependente.

Mais conteúdos dessa disciplina