Prévia do material em texto
BOXPLOT
Uma maneira simples,
rápida e poderosa
de representar
seus dados
apostila_Boxplot.indd 1 22/10/2019 10:19
apostila_Boxplot.indd 2 22/10/2019 10:19
3
BoxPlot
Sumário
• Como representar esses dados? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
• O que é . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
• Box plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
• Representação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
• Métrica fundamental: Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
• Calculando os quartis… . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
• Montando o Box Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
• Qual a vantagem? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
• O que o Box-plot não mostra? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
• Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
• Como decidir quando um dado será um outlier? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
• Resumindo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
• Exercitando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
• Resolução: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
• Representando os 4 conjuntos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
• Box Plot no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
• Correlação utilizando box plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
• ANOVA auxiliado pelo Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
• Exemplo prático 1: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
• Exemplo prático 2: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
• Exercitando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
apostila_Boxplot.indd 3 22/10/2019 10:19
apostila_Boxplot.indd 4 22/10/2019 10:19
5
BoxPlot
Como representar
esses dados?
17 31 12 5 17 22 29 6 31 31 17 33
5 25 20 33 13 13 18 26 29 12 34 22
32 8 27 28 29 6 35 7 32 6 19 15
24 16 21 14 19 19 30 11 5 10 31 23
DoTPloT:
HisToGrama:
BOX PLOT
Nos dias de hoje possuir a habilidade para lidar com dados é um grande diferencial para qualquer
indivíduo e empresa . Grande parte das análises resultam da interpretação correta dos números,
buscando encontrar padrões ou comportamentos que revelem alguma informação valiosa .
Existem diversas maneiras que podem ser
utilizadas para representar de maneira
gráfica os dados, algumas bem conhecidas e
difundidas e outras menos . Algumas delas são
as exemplificadas acima, como a utilização
de dotplot e histograma . Todos os gráficos
apresentam vantagens e desvantagens,
facilitando algumas interpretações e
representações . Não existe gráfico perfeito: um
gráfico existe para facilitar uma interpretação
ou evidenciar alguma característica . De
maneira geral, caso um gráfico não facilite a
interpretação dos dados ou deixe sua análise
mais rápida, provavelmente o gráfico utilizado
não é o mais adequado .
Um gráfico muito interessante para representar
dados é o Box Plot . Apesar de não muito
conhecido, quando dominado sua interpretação
e montagem o Box Plot traz muitas vantagens
e clareza, principalmente quando envolve
comparação de dados . Essa ferramenta auxilia
em muitas outras análises, como realizar
correlações, análises de variância, etc .
apostila_Boxplot.indd 5 22/10/2019 10:19
6
BoxPlot
O que é
» Representação gráfica de uma variável
numérica, utilizando quartis .
» Recurso muito útil para realizar
comparações de dados, principalmente a
variação destes;
» Útil para evidenciar correlação entre
variáveis;
» Permite representar dados sem que estes
obedeçam a determinada distribuição
específica;
» Também conhecido como diagrama de
caixa, diagrama de extremos e quartis
O Box Plot é uma maneira de representar
graficamente uma variável numérica baseado
em quartis (assunto abordado em seguida) .
Conforme já citado, é utilizado principalmente
quando envolve a realização de comparações
de dados buscando, entre outras coisas,
enfatizar suas variações/dispersões . Além
disso, apresenta grande potencial para revelar
correlações entre variáveis, tornando fácil
evidenciá-las, caso existam .
Uma característica muito importante que torna
o Box Plot versátil é o fato deste não exigir que
os dados obedeçam a determinada distribuição .
Qualquer tipo de dado numérico pode ser
representado através dele .
O Box Plot pode ser referenciado com outras
nomenclaturas, tais como “diagrama de caixa”,
“diagrama de extremos e quartis” ou, no inglês,
“box and whiskers plot” .
apostila_Boxplot.indd 6 22/10/2019 10:19
7
BoxPlot
Box plot
A fim de justificar o nome dadoa esse tipo de representação, observe a representação do Box Plot .
Traduzindo-se do inglês, “Box” refere-se à palavra “caixa”, conforme há muita similaridade entre a
estrutura do gráfico e uma caixa no formato de um paralelepípedo .
apostila_Boxplot.indd 7 22/10/2019 10:19
8
BoxPlot
Representação
Whisker;
“Fio de
bigode”
Whisker;
“Fio de
bigode”
“CAIXA”
Limite
Superior
3º
quartil
Mediana
1º
quartil
Limite
Inferior
De maneira geral, o Box Plot apresenta uma
estrutura conforme mostrada pela imagem .
Na sua representação, são ilustrados 5
características: limite inferior; 1º quartil;
mediana; 3º quartil; limite superior .
A fim de facilitar o diálogo, a estrutura em azul
é referenciada como “Caixa” . Do topo e base da
caixa existem duas estruturas (linhas) que vão
até os limites inferior e superior . Tais linhas são
conhecidas como “Whisker” ou, coloquialmente,
“fio de bigode” .
apostila_Boxplot.indd 8 22/10/2019 10:19
9
BoxPlot
Métrica
fundamental: Quartis
Andar nº funcionários
1º 42
2º 19
3º 44
4º 53
5º 28
6º 19
7º 22
8º 23
9º 39
10º 35
11º 39
Entender como se constrói um Box Plot é de
suma importância para seu entendimento e
interpretação . Para confeccioná-lo é necessário
ter claro o conceito fundamental em que o
gráfico se baseia: os quartis . Essa métrica é
a base para a construção e representação de
qualquer Box Plot .
» Os quartis (Q1; Q2; Q3) dividem uma
distribuição de dados em 4 partes iguais .
EXemPlo:
» Observe a distribuição abaixo que
representa o número de funcionários
alocados em cada andar de um prédio
comercial .
Para facilitar o entendimento dos conceitos
sobre quartis, considere o exemplo mostrado .
Nele, tem-se representado em uma tabela o
número de funcionários alocados em cada
andar de uma prédio comercial . Observe que a
tabela contempla até o 11º andar . Por exemplo,
no 1º andar existem 42 funcionários alocados;
no 5º andar, 28; e assim por diante .
Esses dados podem ser representados através
de um Box Plot .
apostila_Boxplot.indd 9 22/10/2019 10:19
10
BoxPlot
Calculando
os quartis…
1º Passo: Ordenar os dados.
2º Passo: LoCaliZar a mediana.
19 19 22 23 28 35 39 39 42 44 53
19 19 22 23 28 35 39 39 42 44 53
MEDIANA
50%50%
Para a construção do Box Plot é necessário ter conhecimento de quais são
os quartis dos dados . Para isso, é necessário calculá-los . Durante o cálculo
destes, seus conceitos serão explicados .
» Como 1º passo, deve-se ordenar os dados numa sequência crescente,
conforme observado . Ordenando os números, parte-se do valor mais
baixo (19) até o mais alto (53) .
» O 2º passo fundamental é localizar a mediana dos dados . A mediana
é o número que divide a distribuição dos dados ao meio, ou seja,
metade dos valores encontram-se abaixo da mediana e a outra
metade acima desta . Observe os dados do exemplo: tem-se 11
valores que representam os 11 andares do prédio comercial . A
mediana equivale ao valor de 35, pois esse valor divide os dados de
tal modo que 5 dados ficam localizados abaixo de 35 e os outros 5
restantes, acima do 35 . Falando-se em termos de porcentagem, a
mediana divide os dados de modo que 50% dos valores estão abaixo
dela e os outros 50% acima .
apostila_Boxplot.indd 10 22/10/2019 10:19
11
BoxPlot
Calculando
os quartis…
3º Passo: CalCUlar o Primeiro e TerCeiro QUarTis.
19 19 22 23 28 35 39 39 42 44 53
19 19 22 23 28 35 39 39 42 44 53
MEDIANA
2º quartil
1º quartil 3º quartil
1/4
25%
1/4
25%
1/4
25%
1/4
25%
» O 3º passo é o cálculo dos 1º e 3º quatis . Mas e o 2º quartil? (você pode
se perguntar) . O 2º quartil já foi calculado . Ele é equivalente à mediana .
A mediana é o segundo quartil; dois nomes para o mesmo número .
» O 1º quartil é definido como o valor que divide a primeira metade
dos dados ao meio . Observando-se o exemplo, a primeira metade
representa os valores que estão à esquerda da mediana, ou seja, os
valores 19, 19, 22, 23 e 28 . Nessa metade, que contém 5 números,
deve-se determinar o meio dela . O meio de um conjunto que
apresenta 5 números é aquele que deixa 2 números à sua esquerda
e 2 números à sua direita . Do exemplo, tem-se que o 1º quartil,
portanto, é o número 22 .
» Para o cálculo do 3º quartil, o raciocínio é análogo, só que para a metade
superior dos dados . Para essa metade, tem-se os valores 39, 39, 42, 44
e 53 . O terceiro quartil é o valor que dividirá esses 5 valores ao meio, ou
seja, dois para cada lado . Esse valor corresponde ao número 42 .
» Finalizando o processo de calcular os três quartis, também
referenciados como Q1, Q2 (ou mediana) e Q3, os dados estão
divididos em 4 grupos de mesmo tamanho, cada um com 1/4 da
quantidade total de valores, ou 25% dos dados .
apostila_Boxplot.indd 11 22/10/2019 10:19
12
BoxPlot
Calculando
os quartis…
19 19 22 23 28 35 39 39 42 44 53
19 19 22 23 28 35 39 39 42 44 53
19 19 22 23 28 35 39 39 42 44 53
Q2 ou mediana
Q1
Q3
1/4= 25%
1/4= 25%
2/4= 50%
3/4= 75%
3/4= 75%
2/4= 50%
ResUmindo:
» O primeiro quartil, Q1, é o valor que divide a distribuição dos dados em
duas partes distintas . Conforme o próprio nome, primeiro quartil remete
ao “um quarto”, ou 25% . Ou seja, o primeiro quartil divide os dados de
modo que um quarto, ou 25%, dos dados estejam abaixo desse valor e
os outros três quartos ou 75% restantes acima desse valor .
» O segundo quartil, Q2, equivalente à mediana, divide a distribuição
dos dados em dois grupos iguais . É o meio dos dados . Conforme o
nome “segundo quartil” remete, dois quartos dos dados (ou 50%)
se localizam abaixo desse valor e os outros dois quartos (ou 50%)
restantes, acima desse valor .
» Por fim, o terceiro quartil, Q3, é o valor que divide a distribuição dos
dados em dois grupos distintos . Agora, três quartos, ou 75% dos
dados, estão localizados abaixo do Q3, enquanto que o um quarto
restante (ou 25%) acima deste .
apostila_Boxplot.indd 12 22/10/2019 10:19
13
BoxPlot
Montando
o Box Plot
19 19 22 23 28 35 39 39 42 44 53
» 1º quartil 22
» 2º quartil 35
» 3º quartil 42
» mínimo 19
» máximo 53
Com o cálculo dos três quartis é possível montar o Box Plot que
representa o nº de funcionários alocados em andares do prédio comercial .
» Do exemplo, obteve-se Q1 = 22; Q2 = 35; Q3 = 42; mínimo = 19 e
máximo = 53 .
» Representando a caixa do Box Plot tem-se que a base desta refere-se
ao Q1, ou seja, 22 . O topo da caixa refere-se ao Q3, ou seja, 42 . A linha
intermediária da caixa representa a mediana dos dados ou o Q2 .
Portanto, essa linha remete ao valor 35 .
» Por fim, o whisker (ou fio de bigode) inferior liga a base da caixa
até o mínimo dos dados . Portanto, uma linha ligando a base até o
valor de 19; e o whisker superior compreende o topo da caixa até
o valor máximo dos dados . Logo, uma linha do topo até o valor
correspondente à 53 .
Pronto, o Box Plot está montado . Com ele conclui-se que o prédio
comercial apresenta em seus andares desde 19 funcionários até 53 . Sabe-
se que 25% dos andares apresentam de 19 a 22 funcionários alocados;
25% entre 22 e 35; 25% entre 35 e 42; e 25% entre 42 e 55 funcionários .
Obs: os extremos dos whiskers nem sempre abrangerão desde o mínimo
ao máximo dos dados . Isso acontece quando outliers estão presentes .
Esse assunto será abordado em seguida .
apostila_Boxplot.indd 13 22/10/2019 10:19
14
BoxPlot
Qual a
vantagem?
Fácil compreensão Simples Entendimento da dispersão
» Primeiramente o gráfico é de fácil
compreensão .
» Através do exemplo mostrado, onde é feita
a comparação entre as alturas de dois times
de futebol, A e B, é possível perceber isso .
» De maneira muito rápida, é fácil concluir
que o time de futebol B apresenta, em
geral, jogadores mais altos quando
comparados com o time A .
» Além disso, é uma maneira simples de
mostrar as distribuições das alturas dos
times .
Um dos principais diferenciais do Box Plot é a nitidez para se perceber a dispersãodos dados . No
caso, tem-se que o time de futebol A apresenta uma dispersão muito maior das alturas quando
comparado com o time B . Este, é muito mais constante . Todo o time apresenta alturas desde 1,90
até 2,05m, enquanto que o time A apresenta alturas de aproximadamente 1,60 a 2,00m .
QUal a vanTaGem em rePresenTar os dados UTiliZando o BoX PloT?
apostila_Boxplot.indd 14 22/10/2019 10:19
15
BoxPlot
O que o Box-plot
não mostra?
» É possível saber qual a média de altura do
time A? NÃO
» É possível saber qual a média de altura do
time B? NÃO
» É possível saber quantos jogadores tem o
time A? NÃO
» É possível saber quantos jogadores tem o
time B? NÃO
BoX-PloT não mosTra
O Box Plot é um gráfico completo que representa tudo? Não! Como qualquer ferramenta gráfica, o
Box Plot apresenta vantagens e desvantagens . As primeira vimos anteriormente .
O que o Box Plot não mostra, por exemplo, é a média dos dados . Observando os Box Plots das
alturas dos times, é possível saber qual a média de altura dos jogadores do time A? Não . E do time
B? Também não! Média é uma estatística que, por padrão, não é mostrada no Box Plot .
Além disso, é possível afirmar quantos jogadores o time de futebol A apresenta? Não! E a mesmo
vale para o time B . A quantidade de dados não é mostrada no Box Plot .
Portanto, o Box Plot é uma excelente ferramenta quando deseja-se comparar distribuições de
dados, evidenciando, por exemplo, a dispersão destes . Porém, valores como a média e o tamanho
amostral não é possível afirmar nada à respeito . Caso esses valores sejam interessantes de se
conhecer, o Box Plot deve ser complementado com outra ferramenta .
apostila_Boxplot.indd 15 22/10/2019 10:19
16
BoxPlot
Outliers
» Um empresa de logística
monitora o tempo que os
entregadores levam para
realizar uma rota entre
duas cidades próximas .
» Os dados coletados
durante um mês estão
representados pelo box
plot ao lado
Outlier
Valor atípico“pon-
to fora da curva”
Observando-se um Box Plot é possível que, em alguns casos, apareça o chamado outlier . Este é
representado através de um * (asterisco) ou um ponto .
» Como outlier entende-se um valor atípico, popularmente chamado de “ponto fora da curva” . É
um valor que se distanciou muito dos demais .
Para entender sua representação, observe o exemplo de uma empresa logística que monitora
o tempo que os entregadores levam para realizar uma rota entre duas cidades próximas . Esses
valores foram resumidos através do Box Plot mostrado . Nele há a presença de um outlier .
apostila_Boxplot.indd 16 22/10/2019 10:19
17
BoxPlot
Outliers
Observemos os dados:
Semana
1ª 2ª 3ª 4ª
45 57 48 51
55 52 50 55
49 39 55 42
42 42 55 111
44 44
Outlier!
Para entender o conceito de outlier observe os
valores que geraram o Box Plot . São mostrados
valores de tempos para quatro semanas .
» Repare que o outlier representa a
observação de valor 111 . Observando-se
os dados como um todo, tem-se que estes
giravam em torno de 39 a 55 . Porém o 111
“fugiu” desse padrão . Logo esse valor é
mostrado pelo Box Plot como um outlier .
Quando presente, cabe ao responsável por
interpretar os dados entender o que ocorreu
para que um valor discrepante ocorresse . Algo
aconteceu especificamente nessa entrega .
Alguma rota precisou ser alterada, aconteceu
algum acidente, etc .
» Importante salientar que um outlier nem
sempre é um erro de amostragem ou
um defeito/problema . Ele é um valor que
se distanciou dos demais e precisa ser
entendido o que o ocasionou . Seu descarte
fica à cargo do responsável pelos dados .
apostila_Boxplot.indd 17 22/10/2019 10:19
18
BoxPlot
Como decidir quando um
dado será um outlier?
Calculemos: Q3 + 1,5 (Q3 – Q1)
Q3 + 1,5 (Q3 – Q1)
55,00 + 1,5 (11,50)
= 72,25
Q1 - 1,5 (Q3 – Q1)
43,50 - 1,5 (11,50)
= 26,25
Calculemos: Q1 - 1,5 (Q3 – Q1)
Q3 – Q1 =
(55,00 – 43,50) = 11,50
39 42 42 42 44 44 45 48 49 50 51 52 55 55 55 55 57 111
Q1 = 43,50
Q2 ou mediana = 49,50
Q3 = 55,00
PorTanTo
OUTliers são Todos os valores abaiXo de 26,25 e aCima de 72,25
Como determinar com exatidão se um dado
observado representa um outlier? Como saber
se um valor é muito distante dos demais ao
ponto de ser considerado um valor atípico?
Como o conceito de “estar distante” é muito
subjetivo, há uma maneira matemática de se
descobrir a presença de outlier(s) .
Para isso é necessário realizar dois cálculos,
conforme mostrado .
Com os valores dos quartis calculados,
primeiramente deve-se calcular o valor da
expressão Q3 + 1,5 (Q3 - Q1) . A subtração Q3 - Q1
é também chamada de Amplitude Interquartil .
Observando a representação de um Box Plot,
essa amplitude representa a altura da caixa .
» Portanto, o primeiro passo é calcular Q3 +
1,5 * Amplitude Interquartil .
Calculando a Amplitude Interquartil, tem-se (55
- 43,5) = 11,50 . Multiplicando-se esse valor por
1,5 e acrescentando Q3 obtém-se 72,25 .
» O segundo passo é realizar uma outra
análise para a expressão Q1 - 1,5 (Q3 - Q1) .
» Substituindo-se os valores, obtém-se 26,25 .
Com esses dois valores obtidos, consegue-se
fazer a análise da presença ou ausência de
outliers .
Um outlier será qualquer valor dos dados que
deseja-se representar por um Box Plot que não
esteja compreendido entre esse intervalo obtido .
Ou seja, para esse exemplo, um outlier será um
(ou mais) valor dos dados que esteja fora do
intervalo compreendido entre 26,25 e 72,25 .
Portando, observando-se os dados dos tempos
de entrega, que correspondem valores de 39
até 111, tem-se que o 111 é o valor que não está
compreendido no intervalo entre 26,25 e 72,25 .
Logo, 111 é um outlier .
» Sua representação no Box Plot é dada
através de um asterisco (*) .
apostila_Boxplot.indd 18 22/10/2019 10:19
19
BoxPlot
Resumindo
Limite Superior = mín { max
(dados); Q3 + 1,5 (Q3 – Q1) }
3º quartil
Mediana
1º quartil
Limite Inferior = máx { min
(dados); Q1 – 1,5 (Q3 – Q1)
Finalizado a compreensão dos outliers, é
possível resumir, de maneira completa, como é
a representação do Box Plot .
Os conceitos explicados até aqui para o que
a caixa representa são os mesmos: a base
representa o Q1; a linha intermediária a
mediana ou Q2; e o topo, Q3 .
As novidades são as extensões dos whiskers .
O whisker nem sempre compreende todos os
valores dos dados . Isso porque um whisker não
pode ser traçado até um outlier, por exemplo .
Logo, uma análise mais cautelosa deve ser
realizada para descobrir sua extensão .
» O Limite Inferior, ou seja, o comprimento
do whisker que parte da base da caixa será
o valor máximo entre o mínimo dos dados
ou Q1 - 1,5 (Q3 - Q1) . Em outras palavras: a
extensão do whisker inferior é até o valor
mínimo dos dados caso a distribuição
não apresente outliers à esquerda da
mediana ou será Q1 - 1,5 (Q3 - Q1) caso seja
confirmada a presença do outlier .
» O Limite Superior, ou seja, o comprimento
do whisker que parte do topo da caixa será
o mínimo entre o máximo dos dados ou Q3
+ 1,5 (Q3 - Q1) . Em outras palavras: o limite
superior é o máximo dos dados caso não
há presença de outlier acima da mediana
ou será Q3 + 1,5 (Q3 - Q1) quando o outlier
estiver presente .
apostila_Boxplot.indd 19 22/10/2019 10:19
20
BoxPlot
Exercitando
É hora de praticar . São fornecidos 4 conjuntos
(A, B, C e D) . Represente os 4 conjuntos através
de Box Plots .
» Considere os quatro conjuntos de dados
mostrados ao lado .
» Represente esses conjuntos utilizando-se
box plots .
A B C D
1 3 1 1
1 4 4 2
1 5 6 3
2 5 10 4
4 6 12 5
5 7 14 6
6 8 14 7
7 10 14 8
10 12 15 9
11 12 16 10
13 15 16 11
14 21 12
14 22 13
15 27 13
16 30 13
17 30 30
18 30
20
25
apostila_Boxplot.indd 20 22/10/2019 10:19
21
BoxPlot
Resolução:
A
1
1
1
2
4
5
6
7
10
11
13
14
14
15
16
17
18
20
25
» Q1 = 4
» Q2 = 11
» Q3 = 16
Há Presença de OUTliers? VERIFICAR!
QUal o TamanHo dos WHisKers?
Q3 + 1,5 (Q3 – Q1)
16 + 1,5 (16 - 4) = 34
Q1 - 1,5 (Q3 – Q1)4 - 1,5 (16 - 4) = - 14
Outiliers são dados
que estão fora desse
intervalo
PORTANTO NÃO HÁ OUTLIERS
» Limite Superior = mín { max (dados); Q3 + 1,5 (Q3 – Q1) }
• Limite Superior = min { 25 ; 34 } = 25
» Limite Inferior = máx { min (dados); Q1 – 1,5 (Q3 – Q1)
• Limite Inferior = máx { 1 ; -14 } = 1
CalCUlando-se os TrÊs QUarTis, obTÉm-
se Q1 = 4; Q2 = 11 e Q3 = 16.
O segundo passo é verificar a presença de outlier . Para isso realiza-se
as duas expressões: Q3 + 1,5 (Q3 - Q1) e Q1 - 1,5 (Q3 - Q1) . Desse passo,
obtém-se o intervalo entre -14 e 34 . Como o conjunto A apresenta valores
de 1 a 25, não há a presença de outlier .
O último passo é saber a extensão dos whiskers . Como não há a presença
de outlier, o limite inferior será o mínimo dos dados e o superior o máximo
destes .
Com todos os valores calculados fica fácil traçar o Box Plot
correspondente ao conjunto A .
apostila_Boxplot.indd 21 22/10/2019 10:19
22
BoxPlot
Resolução:
B
3
4
5
5
6
7
8
10
12
12
15
» Q1 = 5
» Q2 = 7
» Q3 = 12
Há Presença de OUTliers? VERIFICAR!
QUal o TamanHo dos WHisKers?
Q3 + 1,5 (Q3 – Q1)
12 + 1,5 (12 - 5) = 22,5
Q1 - 1,5 (Q3 – Q1)
5 - 1,5 (12 - 5) = - 5,5
Outiliers são dados
que estão fora desse
intervalo
PORTANTO NÃO HÁ OUTLIERS
» Limite Superior = mín { max (dados); Q3 + 1,5 (Q3 – Q1) }
• Limite Superior = min { 15 ; 22,5 } = 15
» Limite Inferior = máx { min (dados); Q1 – 1,5 (Q3 – Q1)
• Limite Inferior = máx { 3 ; - 5,5} = 3
Para o ConJUnTo B obTeve-se Q1 = 5; Q2 = 7 e Q3 = 12.
O segundo passo é verificar a presença de outlier . Para isso realiza-se
as duas expressões: Q3 + 1,5 (Q3 - Q1) e Q1 - 1,5 (Q3 - Q1) . Desse passo,
obtém-se o intervalo entre -5,5 e 22,5 . Como o conjunto B apresenta
valores de 3 a 15, não há a presença de outlier .
O último passo é saber a extensão dos whiskers . Como não há a presença
de outlier, o limite inferior será o mínimo dos dados e o superior o máximo
destes .
Com todos os valores calculados fica fácil traçar o Box Plot
correspondente ao conjunto B .
apostila_Boxplot.indd 22 22/10/2019 10:19
23
BoxPlot
Resolução:
C
1
4
6
10
12
14
14
14
15
16
16
21
22
27
30
30
30
» Q1 = 11
» Q2 = 15
» Q3 = 24,5
Há Presença de OUTliers? VERIFICAR!
QUal o TamanHo dos WHisKers?
Q3 + 1,5 (Q3 – Q1)
24,5 + 1,5 (24,5 - 11) = 44,75
Q1 - 1,5 (Q3 – Q1)
11 - 1,5 (24,5 - 11) = -9,25
Outiliers são dados
que estão fora desse
intervalo
PORTANTO NÃO HÁ OUTLIERS
» Limite Superior = mín { max (dados); Q3 + 1,5 (Q3 – Q1) }
• Limite Superior = min { 30 ; 44,75 } = 30
» Limite Inferior = máx { min (dados); Q1 – 1,5 (Q3 – Q1)
• Limite Inferior = máx { 1 ; - 9,25} = 1
Para o ConJUnTo C obTeve-se Q1 = 11; Q2 = 15 e Q3 = 24,5.
O segundo passo é verificar a presença de outlier . Para isso realiza-se
as duas expressões: Q3 + 1,5 (Q3 - Q1) e Q1 - 1,5 (Q3 - Q1) . Desse passo,
obtém-se o intervalo entre -9,25 e 44,75 . Como o conjunto C apresenta
valores de 1 a 30, não há a presença de outlier .
O último passo é saber a extensão dos whiskers . Como não há a presença
de outlier, o limite inferior será o mínimo dos dados e o superior o máximo
destes .
Com todos os valores calculados fica fácil traçar o Box Plot
correspondente ao conjunto C .
apostila_Boxplot.indd 23 22/10/2019 10:19
24
BoxPlot
Resolução:
D
1
2
3
4
5
6
7
8
9
10
11
12
13
13
13
30
» Q1 = 4,25
» Q2 = 8,50
» Q3 = 12,75
Há Presença de OUTliers? VERIFICAR!
QUal o TamanHo dos WHisKers?
Q3 + 1,5 (Q3 – Q1)
12,75 + 1,5 (12,75 – 4,25) = 25,5
Q1 - 1,5 (Q3 – Q1)
4,25 - 1,5 (12,75 – 4,25) = - 8,5
Outiliers são dados
que estão fora desse
intervalo
PORTANTO HÁ OUTLIERS
» Limite Superior = mín { max (dados); Q3 + 1,5 (Q3 – Q1) }
• Limite Superior = min { 13 ; 25,5 } = 13
» Limite Inferior = máx { min (dados); Q1 – 1,5 (Q3 – Q1)
• Limite Inferior = máx { 1 ; - 8,5 } = 1
Para o ConJUnTo D obTeve-se Q1 = 4,25; Q2 = 8,50 e Q3 = 12,75.
O segundo passo é verificar a presença de outlier . Para isso realiza-se as
duas expressões: Q3 + 1,5 (Q3 - Q1) e Q1 - 1,5 (Q3 - Q1) . Desse passo, obtém-
se o intervalo entre -8,5 e 25,5 . Como o conjunto B apresenta valores de 1 a
30, há a presença de outlier . O outlier corresponde ao valor de 30 pois esse
valor é superior ao valor de 25,5 encontrado anteriormente .
O último passo é saber a extensão dos whiskers . Como não há a presença de
outlier abaixo da mediana, o limite inferior será o mínimo dos dados . Já para
o limite superior, tem-se a presença de outlier . Portanto, deve-se analisar qual
valor é menor: o máximo dos dados ou Q3 + 1,5 (Q3 - Q1)? Importante frisar
que o máximo dos dados é 13 . O valor de 30, conforme visto anteriormente, é
um outlier . Por definição outlier não faz parte do conjunto de dados . Logo, o
mínimo entre 13 e 25,5 é 13 .
Com todos os valores calculados fica fácil traçar o Box Plot correspondente ao
conjunto D . O outlier é representado como um asterisco no valor referente à 30 .
apostila_Boxplot.indd 24 22/10/2019 10:19
25
BoxPlot
Representando
os 4 conjuntos:
» Resumindo os 4 conjuntos na mesma representação, todos na
mesma escala, utilizando-se um soft ware .
» É possível realizar a comparação dos quatro conjuntos . Uma
conclusão possível de perceber é que o conjunto C é o que apresenta
a maior variação de valores dado a extensão de seu Box Plot .
» Os conjuntos B e C se parecem bastante em termos de variação . Para
o conjunto D tem-se a presença do outlier .
apostila_Boxplot.indd 25 22/10/2019 10:19
26
BoxPlot
Box Plot
no Excel
Sabe-se que na prática, na maior parte das vezes, o Box Plot será realizado com a ajuda de um
soft ware . A utilização destes traz vantagens uma vez que torna o processo mais rápido, além de
conseguir um resultado esteticamente mais agradável .
Um dos soft wares possíveis de realizar o Box Plot é o tão conhecido Microsoft Excel, muito utilizado
e difundido nas empresas e universidades . Nesse soft ware o Box Plot é denominado de “Caixa
Estreita” . O recurso é encontrado na seção Gráficos, abaixo do Histograma, conforme mostrado .
» O Microsoft Excel traz em seu pacote de recursos a opção para construir um gráfico box plot .
» No caso, ele é denominado “Caixa Estreita”
apostila_Boxplot.indd 26 22/10/2019 10:19
27
BoxPlot
Box Plot
no Excel
RealiZando o eXemPlo dos QUaTro ConJUnTos no EXCel:
1. Selecione o conjunto de dados; 2. Inserir → Gráficos → Caixa Estreia
A aplicação do Box Plot via Excel é muito rápida e simples .
» O primeiro passo é inserir os dados que se deseja representar . Para ilustrar é mostrado o
exemplo dos quatro conjuntos realizado anteriormente . Com os dados inseridos, deve-se
selecioná-los de modo que fiquem conforme mostrado na imagem . Em seguida, clicar nos
comandos Inserir --> Gráficos --> Caixa Estreita .
» Instantaneamente o Box Plot dos quatro conjuntos será gerado conforme mostrado .
apostila_Boxplot.indd 27 22/10/2019 10:19
28
BoxPlot
Box Plot
no Excel
» É possível alterar o que é mostrado no box plot . Clique sobre alguma caixa e as opções serão
mostradas ao lado .
» Por exemplo: por padrão, o Excel mostra (através de um símbolo “x”) a média dos dados .
Como todo recurso do Microsoft Excel, várias
possibilidades de personalização são possíveis .
Para o Box Plot não é diferente .
Observando-se o resultado gráfico mostrado,
é possível perceber que o Excel traz, no Box
Plot, um símbolo análogo à letra “x” . Essa
representação corresponde à média do conjunto
de dados . É uma representação “extra” que o
Excel traz . Isso é possível de ser personalizado .
Caso deseja-se editar o Box Plot mostrado,
basta selecioná-lo e uma janela de opções de
formatação será mostrada ao lado direito da
tela, conforme pode ser visto pela imagem .
Nas opções é possível desabilitar a opção de
mostrar a média dos dados . Além disso, é
possível ocultar os outliers . No Excel eles são
chamados de “pontos de exceção” .
apostila_Boxplot.indd 28 22/10/2019 10:19
29BoxPlot
Correlação
utilizando box plot
» Correlação é a “interdependência entre
duas variáveis”
» Exemplo: Uma empresa que produz
canecas plásticas estava enfrentando
problemas com tempos excessivos de
setup . Como a variedade de modelos era
elevada, o setup é considerado crítico
para a produção . Os responsáveis por um
projeto de melhoria estavam desconfiados
que havia diferentes nos tempos de setup
entre os três turnos . Buscando verificar se
havia correlação entre o tempo de setup e
o turno de trabalho, foram coletados dados
conformes mostrado ao lado:
1º turno 2º turno 3º turno
20 24 29
19 23 24
21 28 26
21 22 28
22 24 27
18 24 27
20 23 25
20 21 29
19 25 25
19 23 26
23 26 28
21 27 26
19 22 28
20 22 27
22 25 25
18 26 30
Outra utilidade bastante interessante do Box
Plot é o poder de facilitar o reconhecimento de
correlações entre variáveis .
O conceito de correlação basicamente é a
existência de interdependência entre duas
variáveis . Como exemplo pode-se citar a venda
de picolés nas praias . Será que existe correlação
entre o número de picolés vendidos e a estação
do ano? Será que no verão há um aumento no
número de vendas? Isso é buscar correlacionar
variáveis . Usando bom senso, sabe-se que no
verão as temperaturas são mais elevadas, mais
pessoas vão às praias . Logo, é comum de se
esperar que a venda de picolés seja maior desse
período do ano . Portanto, há correlação entre o
período do ano e o número de picolés vendidos .
Uma maneira de mostrar essa correlação
poderia ser através de um Box Plot .
Como exemplo que é mostrado, tem-se uma
empresa que produz canecas plásticas . Esta
estava enfrentando problemas devido à tempos
excessivos de setup (preparação da máquina) .
Uma equipe estava desconfiada que o tempo
de setup variava entre os três turnos . A fim de
evidenciar alguma correlação entre os tempos
de setup e o turno correspondente, foram
coletados dados conforme mostrado na tabela .
apostila_Boxplot.indd 29 22/10/2019 10:19
30
BoxPlot
Correlação
utilizando box plot
Como TradUZir esses dados de maneira a evidenCiar
se eXisTe Correlação? BOX-PLOT!!
» A análise dos números mostrados na tabela
sem um recurso gráfico fica difícil de se
perceber padrões e correlações . O Box
Plot é um excelente recurso para traduzir
os números numa imagem, facilitando a
interpretação .
» Conforme mostrado, os três Box Plot
representam os três turnos . Os gráficos
foram realizados no Microsoft Excel .
» Através da imagem obtida, fica fácil
perceber a presença de correlação:
os tempos de setup realmente estão
relacionados ao turno de trabalho .
Claramente pelo gráfico é possível perceber
que os tempos do 1º turno são inferiores
em sua maioria que os tempos do 2º turno e
esses mais rápidos que o do 3º turno . Além
disso, o Excel traz a média das observações,
comprovando ainda mais essa conclusão .
Logo, a equipe deve investigar o que
acontece no 1º turno que torna os tempos
de setup mais rápidos a fim de instruir os
demais turnos à fazerem o mesmo .
apostila_Boxplot.indd 30 22/10/2019 10:19
31
BoxPlot
ANOVA auxiliado
pelo Box-Plot
ANOVA = Análise de Variação
» Análise para comparar as médias de mais
de duas populações
» Exemplo: Um médico deseja comparar
os efeitos de três diferentes remédios na
recuperação de pacientes idosos, que
sofreram derrame devido a um ataque
do coração de média intensidade . Um
total de 18 pacientes foi selecionado
procurando manter constantes parâmetros
como idade, condição física, motivação,
etc . . . Esses pacientes foram divididos
aleatoriamente em três grupos e, após
um período de seis meses, eles foram
avaliados por um especialista que não
tinha conhecimento a que grupo pertencia
cada paciente .
Remédio A Remédio B Remédio C
80 56 97
73 72 90
79 61 75
88 64 87
68 80 88
75 74 83
Outro recurso em que o Box Plot aparece como protagonista é na ANOVA .
ANOVA significa análise de variação . Esse tipo de análise é muito útil quando deseja-se comparar
as médias de mais de duas populações a fim de afirmar se, estatisticamente, alguma é distinta das
demais . Não é o escopo desse curso entrar no detalhe desse tipo de análise .
Como exemplo é mostrado um experimento realizado por um médico que deseja comparar três
diferentes remédios na recuperação de pacientes idosos que sofreram derrame devido a um ataque
do coração de média intensidade . Um total de 18 pacientes foi selecionado . Foram divididos em 3
grupos, cada um referente a um tipo de remédio (A, B e C) . Foram anotados os resultados .
Buscando analisar se os medicamentos tinham o mesmo efeito ou se algum era significativamente
diferente, realizou-se uma ANOVA .
apostila_Boxplot.indd 31 22/10/2019 10:19
32
BoxPlot
ANOVA auxiliado
pelo Box-Plot
» Com o auxílio
de um soft ware
estatístico, sua
análise fica fácil e
rápida, e o Box-
plot é utilizado
para auxiliar a
análise conforme
vemos
Análise de variância
Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P
C6 2 1064,1 532,06 8,78 0,003
Erro 15 909,0 60,60
Total 17 1973,1
Nessa análise de variância, o Box Plot se faz
presente para ajudar a elucidar os resultados .
» Para a análise foi utilizado um soft ware
estatístico (Minitab) . Dentre os diferentes
resultados apresentados pelo soft ware,
um deles é um Box Plot comparando os
resultados dos três grupos analisados
no experimento . A partir deles, fica
mais fácil perceber como os resultados
variaram entre os pacientes e entre os
medicamentos . Porém, para uma ANOVA
é necessário um complemento na análise,
representado pela tabela ao lado . Não é do
interesse do curso especificar o significado
de cada valor mostrado . Porém, o valor de
0,003 na coluna “Valor-P” é o responsável
por dizer que a média de pelo menos uma
população é diferente .
Novamente o Box Plot está presente como uma
ferramenta de apoio em uma análise muito
importante e utilizada em projetos de melhoria,
estudos acadêmicos e artigos científicos .
apostila_Boxplot.indd 32 22/10/2019 10:19
33
BoxPlot
Exemplo
prático 1:
» Um pesquisador realizou um experimento para comparar três tipos de fertilizantes . O intuito
era descobrir qual deles contribuia mais para o crescimento de mudas de cana de açúcar . Cada
fertilizante foi aplicado em dez mudas . Após duas semanas, anotou-se o comprimento de cada
muda . As condições ambientais (temperatura, luminosidade, umidade, etc) foram mantidas
idênticas . O resultado do experimento é mostrado no box-plot abaixo:
Observando-se o gráfico é possível ver de
maneira clara a comparação entre os três
fertilizantes .
Claramente o fertilizante 3 foi aquele que
provocou os maiores resultados de crescimento .
Podemos notar um outlier para esse fertilizante .
No caso, uma das mudas apresentou um
comportamento anormal . Este ponto deve
ser investigado o que de fato aconteceu .
Provavelmente essa medida será excluída .
apostila_Boxplot.indd 33 22/10/2019 10:19
34
BoxPlot
Exemplo
prático 2:
» Uma grande rede de shoppings, com cinco unidades localizadas em regiões distintas da cidade
de São Paulo, monitora a quantidade diária de pessoas que frequentam o shopping . Os dados
comparativos das cinco unidades são mostrados abaixo para o mês de agosto .
Conforme mostrado no Box Plot é possível notar
que o shopping de maior público é o localizado
na Zona Oeste, com movimento superior à
20 .000 pessoas todos os dias de agosto . Em
contrapartida, a unidade localizada no Centro é
a de menor movimento .
Comparando-se as variações, tem-se que as
unidades do Centro e da Zona Norte são as que
menos variaram seu movimento . Por outro lado,
o shopping da Zona Leste apresentou a maior
variação, com dias de aproximadamente 13 .500
pessoas, chegando a dias com 22 .000 pessoas .
apostila_Boxplot.indd 34 22/10/2019 10:19
35
BoxPlot
Exercitando
» Os números abaixo representam a idade dos funcionários de determinada empresa . Qualo
Box-plot que representa corretamente esses valores?
21 23 23 26 28 29 30 30 31 33 36 38 39 40 45
a)
b)
c)
» Q1 = 26
» Q2 = 30
» Q3 = 38
» Não há presença de outliers .
Resposta correta: C
apostila_Boxplot.indd 35 22/10/2019 10:19
36
BoxPlot
Exercitando
» Considerando os dados mostrados abaixo, qual o Box-plot que representa corretamente esses
valores?
0 5 6 7 8 10 12 12 15 16 22 43 43
a)
b)
c)
» Q1 = 6,5
» Q2 = 12
» Q3 = 19
» Há presença de outlier: intervalo a ser
analisado: -12,25 a 37,75 . Portando dois
outliers de valor 43 .
Resposta correta: B
apostila_Boxplot.indd 36 22/10/2019 10:19
apostila_Boxplot.indd 37 22/10/2019 10:19
A EDTI, com base em uma longa experiência de trabalho
de consultoria em diversas indústrias, está plenamente
capacitada para treinar e orientar equipes em atividades
de melhoria, desenvolver processos de inovação e dar
suporte à análise de dados (inteligência analítica) para
subsidiar decisões de negócios.
Para permanecer no negócio e crescer as organizações
precisam canalizar esforços para produzir produtos e
serviços que os clientes desejam e pelos quais estão
dispostos a pagar. Um desafio permanente da liderança
é identificar oportunidades para aumentar o valor de
seus produtos e serviços sob a ótica dos clientes e
envolver seus colaboradores em atividades que
transformem as oportunidades em realidade. Isso
requer o domínio por parte da organização de um
método eficiente e eficaz de realizar melhorias.
A EDTI acredita que a formação sólida de seus
consultores, aliada à experiência e conhecimento do
mercado, são fundamentais para ajudar a liderança
da organização na exploração de oportunidades
de crescimento.
Dr. Ademir José Petenate, Sócio fundador da Escola EDTI
e Professor da UNICAMP desde 1974
apostila_Boxplot.indd 38 22/10/2019 10:19
Exercitando
Exemplo prático 2:
Exemplo prático 1:
ANOVA auxiliado pelo Box-Plot
Correlação utilizando box plot
Box Plot no Excel
Representando os 4 conjuntos:
Resolução:
Exercitando
Resumindo
Como decidir quando um dado será um outlier?
Outliers
O que o Box-plot não mostra?
Qual a vantagem?
Montando o Box Plot
Calculando os quartis…
Métrica fundamental: Quartis
Representação
Box plot
O que é
Como representar esses dados?