Logo Passei Direto
Buscar

Introdução À Estatística - Aplicações Em Ciências Ex

User badge image
Tulio

em

Ferramentas de estudo

Questões resolvidas

Com base nesses dados, avalie as afirmacoes seguintes.
A taxa média nacional é de, aproximadamente, 36%.
O setor de comércio e o de serviços, cujas taxas de rotatividade estão acima da taxa média nacional, têm ativa importância na taxa de rotatividade, em razão do volume de vínculos trabalhistas por eles estabelecidos.
As taxas anuais de rotatividade da indústria de transformação são superiores à taxa média nacional.
A construção civil é o setor que apresenta a maior taxa de rotatividade no mercado formal brasileiro no período considerado.
I e II;
I e III;
III e IV;
I, II e IV;
II, III e IV.

Considere as possíveis justificativas para as afirmativas acima (não necessariamente na mesma ordem): porque a distância interquartílica dos volumes está próxima ao valor de 200 ml; porque o traço horizontal dentro das caixas box plots está próximo ao valor de 2.000 ml; porque o valor mediano dos volumes está abaixo do especificado; porque a variabilidade dos volumes despendidos cresceu. Escolha a alternativa que associa as afirmativas com suas justificativas corretas:
o volume mediano manteve-se próximo do valor nominal até o quarto dia;
o processo do segundo ao quarto dia não pode ser considerado satisfatório;
o ajuste feito nas máquinas ao final do quarto dia teve o efeito de retornar a variabilidade do processo ao nível considerado satisfatório;
o processo no quinto e no sexto dia não pode ser considerado satisfatório.
a) A1 com R2 e A2 com R3;
b) A1 com R2 e A3 com R1;
c) A1 com R4 e A3 com R1;
d) A2 com R2 e A4 com R3;
e) A2 com R4 e A4 com R4.

Em uma empresa de informática, o salário médio anual dos funcionários é de R$ 120.000,00 com desvio padrão de R$ 12.000,00. Após determinado período, todos os salários obtiveram um aumento de 10%. Qual o novo salário médio anual?

A variável y é normalmente distribuída. Qual é o coeficiente de correlação por postos mais antigo e conhecido para variáveis mensuradas no nível ordinal?

a) Coeficiente de correlação de Pearson.
b) Coeficiente de correlação de Spearman.
c) Coeficiente de correlação de Kendall.

Ao conferir as planilhas de registro dos testes no laboratório, verifica-se que foram utilizados dois tipos de cimento na confecção do concreto: CPI25 e CPI34, razão pela qual as amostras foram separadas, e os procedimentos, refeitos. Qual é a informação correta sobre a distribuição das resistências à compressão de concretos feitos com cimento CPI 25 e CPI 32?

A AED sugere que as distribuições apresentam tendência central e variabilidades diferentes, ambas com indicativos de assimetria moderada e comportamentos diferentes em relação à curtose.
A AED sugere que as distribuições apresentam tendência central e variabilidades iguais, ambas com indicativos de assimetria moderada e comportamentos diferentes em relação à curtose.
A AED sugere que as distribuições apresentam tendência central e variabilidades diferentes, ambas com indicativos de assimetria moderada e comportamentos iguais em relação à curtose.

Deseja-se encontrar a nota máxima entre as 15% piores notas em um grupo de 50 alunos. A nota máxima entre as 15% piores notas é dada pelo décimo quinto centil (C15) ou quantil de ordem 0,15. Sua posição será:

a) 6,0
b) 7,0
c) 8,0
d) 9,0
e) 10,0
f) 11,0
g) 12,0

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Com base nesses dados, avalie as afirmacoes seguintes.
A taxa média nacional é de, aproximadamente, 36%.
O setor de comércio e o de serviços, cujas taxas de rotatividade estão acima da taxa média nacional, têm ativa importância na taxa de rotatividade, em razão do volume de vínculos trabalhistas por eles estabelecidos.
As taxas anuais de rotatividade da indústria de transformação são superiores à taxa média nacional.
A construção civil é o setor que apresenta a maior taxa de rotatividade no mercado formal brasileiro no período considerado.
I e II;
I e III;
III e IV;
I, II e IV;
II, III e IV.

Considere as possíveis justificativas para as afirmativas acima (não necessariamente na mesma ordem): porque a distância interquartílica dos volumes está próxima ao valor de 200 ml; porque o traço horizontal dentro das caixas box plots está próximo ao valor de 2.000 ml; porque o valor mediano dos volumes está abaixo do especificado; porque a variabilidade dos volumes despendidos cresceu. Escolha a alternativa que associa as afirmativas com suas justificativas corretas:
o volume mediano manteve-se próximo do valor nominal até o quarto dia;
o processo do segundo ao quarto dia não pode ser considerado satisfatório;
o ajuste feito nas máquinas ao final do quarto dia teve o efeito de retornar a variabilidade do processo ao nível considerado satisfatório;
o processo no quinto e no sexto dia não pode ser considerado satisfatório.
a) A1 com R2 e A2 com R3;
b) A1 com R2 e A3 com R1;
c) A1 com R4 e A3 com R1;
d) A2 com R2 e A4 com R3;
e) A2 com R4 e A4 com R4.

Em uma empresa de informática, o salário médio anual dos funcionários é de R$ 120.000,00 com desvio padrão de R$ 12.000,00. Após determinado período, todos os salários obtiveram um aumento de 10%. Qual o novo salário médio anual?

A variável y é normalmente distribuída. Qual é o coeficiente de correlação por postos mais antigo e conhecido para variáveis mensuradas no nível ordinal?

a) Coeficiente de correlação de Pearson.
b) Coeficiente de correlação de Spearman.
c) Coeficiente de correlação de Kendall.

Ao conferir as planilhas de registro dos testes no laboratório, verifica-se que foram utilizados dois tipos de cimento na confecção do concreto: CPI25 e CPI34, razão pela qual as amostras foram separadas, e os procedimentos, refeitos. Qual é a informação correta sobre a distribuição das resistências à compressão de concretos feitos com cimento CPI 25 e CPI 32?

A AED sugere que as distribuições apresentam tendência central e variabilidades diferentes, ambas com indicativos de assimetria moderada e comportamentos diferentes em relação à curtose.
A AED sugere que as distribuições apresentam tendência central e variabilidades iguais, ambas com indicativos de assimetria moderada e comportamentos diferentes em relação à curtose.
A AED sugere que as distribuições apresentam tendência central e variabilidades diferentes, ambas com indicativos de assimetria moderada e comportamentos iguais em relação à curtose.

Deseja-se encontrar a nota máxima entre as 15% piores notas em um grupo de 50 alunos. A nota máxima entre as 15% piores notas é dada pelo décimo quinto centil (C15) ou quantil de ordem 0,15. Sua posição será:

a) 6,0
b) 7,0
c) 8,0
d) 9,0
e) 10,0
f) 11,0
g) 12,0

Prévia do material em texto

As autoras e a editora empenharam-se para citar adequadamente e dar o devido crédito a todos os detentores dos direitos autorais de
qualquer material utilizado neste livro, dispondo-se a possíveis acertos caso, inadvertidamente, a identificação de algum deles tenha sido
omitida.
Não é responsabilidade das autoras nem dos autores a ocorrência de eventuais perdas ou danos a pessoas ou bens que tenham origem no
uso desta publicação.
Apesar dos melhores esforços das autoras, do editor e dos revisores, é inevitável que surjam erros no texto. Assim, são bem-vindas as
comunicações de usuários sobre correções ou sugestões referentes ao conteúdo ou ao nível pedagógico que auxiliem o aprimoramento de
edições futuras. Os comentários dos leitores podem ser encaminhados à LTC — Livros Técnicos e Científicos Editora pelo e-mail
ltc@grupogen.com.br.
Direitos exclusivos para a língua portuguesa
Copyright © 2017 by
LTC — Livros Técnicos e Científicos Editora Ltda.
Uma editora integrante do GEN | Grupo Editorial Nacional
Reservados todos os direitos. É proibida a duplicação ou reprodução deste volume, no todo ou em parte, sob quaisquer formas ou por
quaisquer meios (eletrônico, mecânico, gravação, fotocópia, distribuição na internet ou outros), sem permissão expressa da editora.
Travessa do Ouvidor, 11
Rio de Janeiro, RJ — CEP 20040-040
Tels.: 21-3543-0770 / 11-5080-0770
Fax: 21-3543-0896
ltc@grupogen.com.br
www.ltceditora.com.br
Designer de capa: Nilton Masoni
Produção digital: Geethik
CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
M393i
Mattos, Viviane Leite Dias de
Introdução à estatística: aplicações em ciências exatas / Viviane Leite Dias de Mattos,Andréa Cristina Konrath, Ana Maria Volkmer
de Azambuja. – 1. ed. – Rio de Janeiro : LTC, 2017.
Inclui apêndice
Inclui bibliografia e índice
ISBN 978-85-216-3354-9
1. Estatística. I. Konrath, Andréa Cristina. II. Azambuja, Ana Maria Volkmer de. III. Título.
16-37255 CDD: 519.5
CDU: 519.2
1
1.1
1.2
1.3
1.3.1
1.4
1.4.1
1.4.2
1.4.3
1.4.4
1.5
1.6
2
2.1
2.2
2.2.1
2.2.2
2.3
2.4
2.5
2.6
3
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
SUMÁRIO
Prefácio
Introdução
Breve histórico da estatística
Por que estudar estatística?
A pesquisa estatística
Fases da pesquisa estatística
Explorando conceitos da estatística
População e amostra
Tipos de variáveis
Confiabilidade dos dados
Arredondamento de dados
Software estatístico
Considerações finais
Aplicações
Representação Tabular
Descrição e exploração de dados
Tabelas de frequências
Dados qualitativos
Dados quantitativos
 Dados quantitativos discretos
Tipos de frequências
Dados quantitativos contínuos
Considerações finais
Aplicações
Representação Gráfica
Introdução
Tipos de gráficos
Diagramas
Diagrama em colunas
Diagrama em barras
Diagrama em setores
Diagrama polar
Diagrama em linhas
Histograma
Polígono de frequência
Ogiva
3.12
3.13
3.14
3.15
3.16
4
4.1
4.2
4.3
4.3.1
4.3.2
4.3.3
4.3.4
4.3.5
4.3.6
4.3.7
4.3.8
4.3.9
4.4
4.4.1
4.4.2
4.4.3
4.5
4.6
5
5.1
5.2
5.2.1
5.2.2
5.2.3
5.2.4
5.2.5
5.3
5.3.1
5.4
5.5
6
6.1
6.2
6.3
6.3.1
6.3.2
6.3.3
6.3.4
Ramo e folhas
Diagrama de dispersão
Diagrama de Pareto
Escala logarítmica
Considerações finais
Aplicações
Medidas de Posição
Introdução
Medidas de posição
Medidas de tendência central
Média aritmética simples
Média aritmética ponderada
Propriedades da média aritmética
Média harmônica
 Média geométrica
Relação entre médias
Moda
Mediana
Utilização das medidas de tendência central
Separatrizes ou quantis
Quartis
Decis
Percentis ou centis
Cálculo das medidas para dados agrupados
Considerações finais
Aplicações
Medidas de Dispersão
Introdução
Medidas de dispersão absoluta
Amplitude total
Desvio médio
Variância
Desvio padrão
Desvio interquartílico
Medidas de dispersão relativa
Coeficiente de variabilidade
Dados agrupados
Considerações finais
Aplicações
Propriedades de uma Distribuição
Introdução
Momentos
Assimetria
Coeficiente de assimetria de Pearson
Coeficiente de assimetria de Yule
 Coeficiente de assimetria de Kelley
Coeficiente de assimetria de Fisher
6.4
6.4.1
6.4.2
6.5
6.6
6.6.1
6.6.2
6.6.3
6.6.4
6.7
6.8
6.9
7
7.1
7.2
7.3
7.4
7.5
7.6
8
8.1
8.2
8.3
8.3.1
8.3.2
8.3.3
8.4
8.5
9
9.1
9.2
9.3
9.4
9.5
Curtose
Coeficiente de curtose a partir dos momentos
Coeficiente percentílico de curtose
Outlier ou valor fora do padrão
Métodos gráficos para avaliação de algumas propriedades
Histograma
Ramo e folhas
Box plot ou diagrama de caixas
Diagrama dos quantis
Transformações matemáticas
Transformação z
Considerações finais
Aplicações
Análises de Correlação
Introdução
Diagrama de dispersão
Coeficiente de correlação linear de Pearson
Correlação linear por postos ou Spearman
Coeficiente de contingência modificado
Considerações finais
Aplicações
Análise Exploratória de Dados
Introdução
Análise exploratória de dados
O caso da montadora Toyord
Variáveis qualitativas: modelo adquirido e opcionais solicitados
Variáveis quantitativas: idade do cliente e renda declarada
Associação entre variáveis qualitativas e quantitativas
Teste de resistência em concreto
Considerações finais
 A Estatística Utilizando o Software R
Importância de um software estatístico
O software R
Comandos básicos
A Estatística com a utilização do software R
Considerações finais
Apêndice I – Lista de símbolos
Apêndice II – Considerações sobre quantis
Apêndice III – Respostas
Anexo – Banco de dados: Megamontadora Toyord
Referências
PREFÁCIO
Este livro, introdutório ao aprendizado da Estatística, é resultado de nossa experiência como professoras em Instituições de
Ensino Superior, onde ministramos disciplinas de Probabilidade e Estatística, oferecidas a cursos de graduação e pós-graduação
em diversas áreas do conhecimento.
Ele foi elaborado com o objetivo de apresentar os conteúdos de maneira amigável, sem se afastar muito do rigor
matemático. Apresenta técnicas de Estatística Descritiva, que são usadas para organizar e resumir informações, e faz algumas
considerações sobre Análise Exploratória de Dados e Análise de Correlação. Além da abordagem conceitual formal, o livro
apresenta diversas aplicações, principalmente nas áreas de Ciências Exatas e Engenharia, em sua maioria oriundas de atividades
extraclasse desenvolvidas nas disciplinas ministradas.
Os conteúdos estão organizados em nove capítulos, complementados por apêndices, anexo, índice remissivo e referências
bibliográficas. Em cada capítulo, procurou-se fazer a construção do conhecimento estatístico mostrando os fundamentos dos
diversos conceitos e técnicas, com respectivas fórmulas e cálculos, de maneira simples e objetiva, mas não superficial. Os
diversos conceitos são apresentados acompanhados de exemplos, com a respectiva solução passo a passo. Aplicações
elaboradas a partir de um banco de dados também foram propostas. Ao final de cada capítulo, foi feita uma síntese,
evidenciando os principais conceitos apresentados, que é seguida de uma lista de exercícios com algumas aplicações práticas.
A obra pode servir como livro-texto ou como referencial bibliográfico para disciplinas de Estatística, oferecidas a cursos de
graduação e pós-graduação que abordem os conteúdos apresentados. Também pode ser utilizado por professores do ensino
médio, assim como por profissionais que tomam decisões baseadas em informações.
Gostaríamos de agradecer a todas as pessoas que contribuíram direta ou indiretamente para a elaboração deste texto. Entre
elas, destacamos Débora Spenassato, autora do capítulo sobre o software R, e Leonardo da Costa Coelho, que revisou os
exercícios. Também gostaríamos de agradecer a todos os nossos alunos pela apresentação de suas dúvidas e questionamentos
durante nossas aulas e, em especial, àqueles que disponibilizaram dados de seus trabalhos didáticos.
Também gostaríamos de solicitar aos leitores que entrem em contato conosco para dar sua opinião sobre o texto, além de
sugestões, críticas e correções de eventuais erros. Isso certamente contribuirá para a melhoriada próxima edição.
O contato com as autoras pode ser feito pelos e-mails:
vivianemattos@furg.br; andrea.ck@ufsc.br; anaazambuja@furg.br.
1.1
1
INTRODUÇÃO
 Breve histórico da estatística
Não se sabe ao certo a origem da palavra estatística. Ela pode ter vindo da expressão latina statisticum collegium, que
significa “Conselho de Estado”; da palavra italiana statista, que significa “homem de Estado” ou “político”; ou da palavra latina
status, que significa “Estado”. Acredita-se que tenha sido introduzida, inicialmente, pelo alemão Gottfried Achenwall (1719-
1772), um importante continuador dos estudos de Hermann Conrig (1606-1681) (ESTATÍSTICA UFRN, 2012). Gottfried, que
era filósofo, historiador, economista, jurista e estatístico, determinou os objetivos da estatística e suas relações com as demais
ciências. Essa primeira definição para a estatística versava, até aquele período, sobre a coleta, análise e organização de dados
para serem fornecidos ao Estado, os quais quase exclusivamente demográficos e econômicos. Somente em 1797 a palavra
estatística apareceu como vocabulário na Enciclopédia Britânica (ESTATÍSTICA UFRN, 2012).
Desde a Antiguidade, vários povos já faziam estimativas, coletando e organizando dados referentes a número de
nascimentos e óbitos, número de habitantes, assim como de riquezas pessoais e sociais. No antigo Egito, por exemplo, os faraós
fizeram uso sistemático da informação de caráter estatístico, conforme evidenciam pesquisas arqueológicas. Algo similar
acontecia com as civilizações pré-colombianas dos Maias, Astecas e Incas. Do mesmo modo, na China, no Japão, na Índia
Antiga e na cidade de Roma, foram encontrados registros de recenseamentos, com o objetivo principal de conhecer a população,
principalmente para fins tributários e militares (FERREIRA; TAVARES, 2013).
Conforme Bédarida et al. (1987), apud Ferreira e Tavares (2013), pode-se atribuir ao grego Aristóteles o princípio da
estatística descritiva, pois ele não se contentava apenas com a descrição da cidade, do país, do governo ou do Estado de um
modo distinto e único, mas se preocupava com a comparação de Atenas a outros Estados.
No século XVI, o estudo dos acontecimentos sociais adquiriu aspecto científico, as tabelas tornaram-se mais complexas e
completas, surgiram representações gráficas e o cálculo de probabilidades. A estatística passou a ser utilizada para tirar
conclusões e não apenas como coleta de informação. Começou a se tornar uma área do conhecimento independente do Estado.
Os denominados “jogos de azar”, apesar de usados desde as Civilizações Antigas, como mostram vários documentos de
tipo arqueológico ou histórico, nunca haviam sido objeto de estudo até a Idade Média (FERREIRA; TAVARES, 2013).
Segundo esses autores, a abordagem matemática do acaso, do azar e do risco só se iniciou há pouco mais de 500 anos. A
disciplina que assim foi constituída, a Teoria das Probabilidades, nasceu das tentativas de quantificação dos riscos dos seguros e
de avaliar as possibilidades de se ganhar em jogos de azar. No século XVI, os algebristas Pacioli, Cardano e Tartáglia
elaboraram as primeiras notações matemáticas sobre jogos de azar, limitando-se a resolver alguns problemas com dados
estritamente numéricos, não elaborando teoremas.
No século XVII, o primeiro grande problema das probabilidades foi proposto a Pascal pelo Cavaleiro de Meré. Tratava-se
de um jogo envolvendo três dados, e cuja lógica dos resultados Meré não conseguia entender. Pascal iniciou uma troca de
correspondência com Fermat, apresentando-lhe o problema; ambos, separadamente, chegaram a uma solução. A solução que
Fermat apresentou era mais abrangente que a de Pascal, razão pela qual o primeiro método geral do cálculo de probabilidades é
atribuído a Fermat. Esse marco abriu caminho para o advento da estatística moderna por meio da “Lei dos Grandes Números”
(FERREIRA; TAVARES, 2013).
Huygens (1629-1695) introduziu o conceito de “valor médio” ou “esperança” em 1654. Nesse mesmo ano, ocorreu o
desenvolvimento da geometria analítica e da teoria das probabilidades, conduzido por Abraham de Moivre (1667-1754). Na
1.2
área da Teoria das Probabilidades, os estudiosos que mais se destacaram foram Jacob Bernoulli, Thomas Bayes e Pierre Simon
Laplace (FERREIRA; TAVARES, 2013).
Data do século XVIII o surgimento de duas escolas, uma na Alemanha e outra na Inglaterra. A Escola Descritiva Alemã,
como ficou conhecida, teve como representante Gottfried Achenwall (1712-1772), a quem se atribui a criação do termo
estatística. Entretanto, a palavra utilizada na escola alemã denotava apenas o método utilizado nos estudos destinados à
descrição dos Estados políticos (FERREIRA; TAVARES, 2013). A segunda escola, a Escola de Aritméticos Políticos, foi
fundada na Inglaterra e desenvolvia estudo numérico dos fenômenos políticos e sociais. Nessa escola, surgiram alguns nomes
importantes como John Graunt e William Petty. O trabalho realizado por John Graunt (1620-1674) foi o estudo da mortalidade
na cidade de Londres e suas causas sociais e políticas, bem como o estudo da natalidade, tendo William Petty como colaborador
durante três anos. Eles são considerados os precursores para o advento da estatística moderna do início do século XX, uma vez
que foram os primeiros a tentar tirar conclusões e raciocinar a partir de dados numéricos. Podem-se citar ainda William Farr
(1807-1883), o primeiro a contribuir para a estatística médica, e Edmond Halley (1656-1742) e Richard Price (1723-1791), que
criaram os fundamentos da ciência atuária.
O surgimento da estatística moderna se deu em meados do século XIX. Os alemães Helmert (1843-1917) e Wilhelm Lexis
(1837-1914), o dinamarquês Thorvald Nicolai Thiele (1838-1910) e o inglês Francis Ysidro Edgeworth (1845-1926)
conseguiram resultados interessantes para o desenvolvimento da inferência estatística – muitos desses resultados, porém, só
foram entendidos posteriormente. No entanto, para Ferreira e Tavares (2013), o avanço determinante dessa ciência se deve a
Francis Galton (1822-1911), Karl Pearson (1857-1936), William S. Gosset (1876-1937) e, principalmente, a Ronald A. Fisher
(1890-1962).
Francis Galton é considerado o fundador da Escola Biométrica, tendo introduzido o conceito estatístico de correlação e a
sua medição por um coeficiente. Seus trabalhos eram fundamentados na medição quantitativa a partir da lei normal de Gauss.
Karl Pearson, matemático britânico, inicialmente se dedicou ao estudo da evolução de Darwin, aplicando os métodos
estatísticos e desenvolvendo a teoria de Galton. Pearson foi o fundador da Biometrika, revista até hoje conhecida
internacionalmente. Dentre as contribuições de Pearson, podemos citar o estudo das distribuições de frequência que não seguem
o modelo normal. Ele também instituiu o “método dos momentos” como método de estimação de parâmetros de uma
distribuição e o sistema de “curvas de frequência”, bastante utilizado na descrição matemática dos fenômenos naturais.
Ressalta-se que seus estudos levaram ao desenvolvimento da regressão e da correlação múltiplas. Além disso, desenvolveu a
teoria da correlação aplicada aos problemas de hereditariedade e da evolução, bem como o Teste qui-quadrado (FERREIRA;
TAVARES, 2013).
Outro matemático importante para a evolução da estatística moderna é o inglês William Sealey Gosset, mais conhecido
como Student. Ele trabalhou como químico na Cervejaria Guinness, onde fez várias experiências relacionadas com o controle de
qualidade da cerveja. Com a necessidade de manipular dados oriundos de pequenas amostras, extraídas para melhorar a
qualidade da bebida, Gosset desenvolveu o Teste t de Student, fundamentado na distribuição de probabilidades. Mais tarde, seu
trabalho seria reconhecido por Fisher, mas não por Pearson, para quem as pequenas amostras não tinham importância
(FERREIRA; TAVARES, 2013).
Um importante estatístico, considerado um dos fundadores da estatística moderna, foi Ronald Aylmer Fisher (1890-1962).
Formado em astronomia pela Universidadede Cambridge em 1912, contribuiu valiosamente para o desenvolvimento da
estatística, bem como para o da Genética. Seus trabalhos estavam voltados à teoria da evolução e seleção, sobretudo em
genética. Ele introduziu conceitos de planejamento de experimentos, aleatorização e análise da variância, que, nos dias atuais,
são bastante utilizados (FERREIRA; TAVARES, 2013).
De acordo com Rao (1999) apud Memória (2004), na segunda metade do século passado aconteceu uma mudança na
pesquisa estatística, fundamentada basicamente em modelos, para a utilização de métodos não paramétricos, aplicáveis a
amostras provenientes de qualquer distribuição, e para métodos paramétricos robustos, não influenciados por valores atípicos ou
pela contaminação de dados. Embora os métodos não paramétricos, baseados em estatísticas de postos (rank), sejam de fácil
utilização, não têm a eficiência dos métodos paramétricos.
Nas últimas décadas, a estatística tem se aperfeiçoado muito, principalmente em função do desenvolvimento da
computação, que atua como agente facilitador na operacionalização de diversas análises.
 Por que estudar estatística?
Conforme a definição do Aurélio (2008), estatística é a parte da matemática em que se investigam os processos de
1.3
obtenção, organização e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar
conclusões, possibilitando a realização de predições com base nesses dados.
Para Crespo (2002), a estatística é uma parte da matemática aplicada que fornece métodos para coleta, organização,
descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões.
De acordo com Reis e Lino (2013), para o estatístico Paul Velleman, a estatística é a ciência que permite obter conclusões
a partir de dados.
Conforme a ENCE – Escola Nacional de Ciências Estatísticas (2012), o que modernamente se conhece como ciências
estatísticas, ou simplesmente estatística, é um conjunto de técnicas e métodos de pesquisa que, entre outros tópicos, envolve o
planejamento do experimento/levantamento a ser realizado, a coleta qualificada dos dados, a inferência, o processamento, a
análise e a disseminação das informações. O desenvolvimento e o aperfeiçoamento de técnicas estatísticas de obtenção e análise
de informações permitem o controle e o estudo adequado de fenômenos, fatos, eventos e ocorrências em diversas áreas do
conhecimento, tornando-se uma poderosa ferramenta para a tomada de decisão.
Esses conceitos fazem com que a estatística seja um instrumento de trabalho importantíssimo, fundamental para a
realização de pesquisas nas mais diversas áreas que envolvam dados/informações, permitindo, dessa forma, o desenvolvimento
da ciência. A estatística fornece um conjunto de métodos e técnicas que não só facilita a leitura e o entendimento dos dados
como permite fazer análises mais específicas e profundas, fazendo interpretações, inferências e previsões, além de tirar
conclusões. Assim, pelas suas características, pode ser aplicada em todas as áreas da ciência.
Na área tecnológica, a corrida espacial criou diversos problemas relacionados à posição de astronaves, cujos cálculos
dependem de teorias estatísticas mais avançadas. Essas informações, tais como sinais de satélite, são recebidas de forma
aleatória e incerta (ENCE, 2012).
Na engenharia agronômica, a estatística tem sido utilizada de forma constante em diferentes aplicações. A Empresa
Brasileira de Pesquisas Agropecuárias (EMBRAPA) utiliza métodos estatísticos visando ao aprimoramento de produtos
agrícolas para definir quais os modos mais eficientes de produzir alimentos (IGNÁCIO, 2010).
Técnicas estatísticas também são empregadas na área da saúde, permitindo definir a eficiência de um novo tratamento no
combate a determinada doença, por exemplo. Estas possibilitam a identificação de situações críticas, exercendo papel
fundamental no estudo da evolução e incidência de doenças, como, por exemplo, a AIDS (ENCE, 2012).
De acordo com Ignácio (2010), em diversos setores da indústria, tais como farmacêutico, químico, siderúrgico, têxtil e
alimentício, entre outros, as técnicas estatísticas são utilizadas desde a fase de definição dos produtos até a produção final, por
meio de pesquisas de mercado, controle de qualidade dos processos envolvidos, análise de custos e previsão de vendas.
Outro exemplo é o levantamento de informações sociais, demográficas e econômicas, realizado pelo IBGE (2013), que
envolve estatísticas de âmbito social e demográfico, estatísticas da agropecuária, estatísticas econômicas e índices de preços.
Dessa forma, estuda-se estatística porque é uma ferramenta essencial na tomada de decisão. Segundo Doane e Seward
(2012), Jon Kettenring, presidente da American Statistical Association, disse: “eu gosto de pensar na estatística como a ciência
de aprendizagem a partir dos dados”.
De modo geral, pode-se dizer que a estatística se divide em duas partes: a estatística descritiva, que se preocupa com a
descrição de dados, organizando-os e resumindo-os, e a estatística inferencial, que cuida da análise e interpretação dos dados
propriamente ditas. O ponto central da análise estatística moderna é a tomada de decisões sob condições de incerteza,
possibilitada pela estatística inferencial, que permite que suas conclusões transcendam os dados analisados. As técnicas
utilizadas com essa finalidade baseiam-se na teoria da probabilidade.
 A pesquisa estatística
Alguns autores, entre os quais Crespo (2002) e Reis e Lino (2013), classificam a pesquisa estatística em pesquisa de
levantamento e pesquisa por experimento. Na pesquisa de levantamento são observadas as características ou fenômenos
presentes na população, com mínima intervenção por parte do pesquisador. Nesse tipo de pesquisa, não é possível evidenciar
relações de causa e efeito, apenas se medem as variáveis em estudo, sendo possível somente afirmar relações entre elas.
Na pesquisa experimental, o pesquisador tem um controle sobre as condições de pesquisa, conseguindo eliminar quase
todas as causas de variação mediante um planejamento do experimento (REIS; LINO, 2013). Dessa forma, a pesquisa
experimental é o único tipo de pesquisa que permite selecionar as variáveis capazes de influenciar a característica em estudo e
1.3.1
a)
b)
c)
d)
e)
f)
1.4
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
definir as formas de controle e de observação dos efeitos que essas variáveis produzem nessa característica.
 Fases da pesquisa estatística
Quando se pretende empreender um estudo estatístico, existem diversas fases da pesquisa que devem ser desenvolvidas
para a obtenção dos resultados finais do estudo. Essas etapas ou operações são chamadas fases da pesquisa estatística. Com base
em Crespo (2002), são elas:
definição do problema: determinação do que se quer pesquisar;
planejamento: definição dos procedimentos necessários para o desenvolvimento da pesquisa;
coleta de dados: obtenção, reunião e registro sistemático de dados, podendo ser direta ou indireta;
apuração dos dados: resumo dos dados, mediante a sua contagem ou agrupamento;
apresentação dos dados: pode ser por meio de tabelas, gráficos ou medidas;
análise e interpretação dos dados: conclusões que auxiliam na resolução do problema.
Conforme apresentado, a estatística está interessada nos métodos científicos para coleta, organização, resumo,
apresentação e análise dos dados, bem como na obtenção de conclusões válidas e na tomada de decisões baseadas nas análises
(SPIEGEL, 2009).
 Explorando conceitos da estatística
De acordo com Reis (2012), a megamontadora fictícia Toyord conduz regularmente pesquisas de mercado com os clientes
que compraram carros zero km diretamente de suas concessionárias. O objetivo é avaliar a satisfação dos clientes em relação
aos diferentes modelos, design e adequação ao perfil. A última pesquisa foi encerrada em julho de 2010: foram 250 clientes
entrevistados de um total de 30.000 que adquiriram veículos novos no ano de 2012. A pesquisarestringiu-se aos modelos mais
vendidos e que já estão no mercado há dez anos. As dez variáveis pesquisadas foram:
modelo adquirido: a) o compacto Chiconaultla, b) o sedan médio DeltaForce3, c) a perua familiar Valentiniana, d) a
van SpaceShuttle ou e) o esportivo LuxuriousCar;
opcionais: a) inexistentes (apenas os itens de série), b) ar-condicionado e direção hidráulica, c) ar-condicionado,
direção hidráulica e trio elétrico, d) ar-condicionado, direção hidráulica, trio elétrico e freios ABS;
opinião sobre o design: se os clientes consideram o design do veículo comprado a) ultrapassado, b) atualizado ou c)
adiante dos concorrentes;
opinião sobre a concessionária onde comprou o veículo (incluindo atendimento na venda, manutenção programada e
eventuais problemas imprevistos): a) muito insatisfatória, b) insatisfatória, c) não causou impressão, d) satisfatória
ou e) bastante satisfatória;
opinião geral sobre o veículo adquirido: a) muito insatisfeito, b) insatisfeito, c) satisfeito ou d) bastante satisfeito;
renda declarada pelo cliente em salários mínimos;
número de pessoas geralmente transportadas no veículo;
quilometragem mensal média percorrida com o veículo;
percepção do cliente de há quantos anos o veículo comprado teve a sua última remodelação de design, em anos
completos (se há menos de um ano, o entrevistador anotou zero);
idade do cliente em anos completos.
O banco de dados anexo apresenta informações sobre os 250 consumidores investigados no último levantamento realizado
pela montadora Toyord. Na primeira coluna desse banco de dados foi registrado o código atribuído a cada consumidor. Essas
informações serão utilizadas para exemplificar alguns dos conceitos apresentados ao longo deste texto.
1.4.1
1.4.2
 População e amostra
População é o conjunto de todos os itens, objetos ou pessoas, enfim, entes que se pretende analisar – razão pela qual devem
apresentar pelo menos uma propriedade em comum. Uma população pode ser formada por pessoas, famílias, estabelecimentos
comerciais ou industriais, contas-correntes, peças de uma linha de produção ou qualquer outro tipo de elemento.
Quando se analisa uma parte dessa população, tem-se uma “amostra”, que é subconjunto do todo. A amostra é definida
previamente e obtida com a consideração de alguns critérios, a fim de que seja significativa (quanto ao número de elementos) e
se mostre representativa, apresentando as mesmas propriedades da população. As melhores técnicas de amostragem são aquelas
que usam a ideia de aleatoriedade. O banco de dados anexo apresenta alguns dados sobre o perfil de 250 clientes da montadora
de automóveis Toyord: uma amostra.
Ao se realizar um levantamento de dados, deve ser definido se este será realizado em toda a população (“censo”) ou em
uma amostra dessa população (“levantamento por amostragem”). De maneira geral, opta-se pelo levantamento por amostragem
por ser mais rápido e mais econômico.
É bastante usual representar as observações de uma característica presente em toda a população por uma medida
denominada de “parâmetro”, obtida a partir de um conjunto de observações de todo o grupo, ou seja, a população. Os mais
utilizados para representar a população são: a média (µ), a variância (σ2) e a proporção de sucesso (π). Tratando-se de uma
amostra, tem-se a “estatística”, que é uma medida obtida para um subconjunto de observações ou amostra. As estatísticas mais
usuais para representar dados amostrais são as mesmas usadas para representar populações: a média ( ), a variância (s2) e a
proporção de sucesso (p), sendo representadas, entretanto, por símbolos distintos por apresentarem propriedades diferentes: um
parâmetro é uma constante, enquanto uma estatística é uma variável aleatória.
 Tipos de variáveis
Variáveis são características estudadas em uma população ou amostra que podem assumir diferentes valores numéricos ou
categóricos. Dados ou observações são as informações inerentes às variáveis que caracterizam os elementos que constituem a
população ou a amostra em estudo. Por exemplo: quilometragem é uma variável; 530 km é um dado.
Uma variável é “qualitativa” quando seus resultados são expressos por atributos. Esses dados não têm a preocupação com a
quantificação, mas com a descrição das características, pois o ato de medir consiste em enquadrar o elemento mensurado em
uma classe ou categoria.
Uma variável “qualitativa” pode ser classificada em “nominal” ou “ordinal”, conforme a escala utilizada para a
categorização, que se diferenciam pela existência (“ordinal”) ou não (“nominal”) de hierarquia entre as categorias. Em uma
escala nominal, existe apenas a possibilidade de estabelecimento de relação de semelhança ou diferença entre os elementos
mensurados. Já na escala ordinal, além desse tipo de relação, também é possível estabelecer relação de superioridade ou
inferioridade entre os elementos mensurados.
Modelo do carro adquirido (Chiconaultla, SpaceShuttle, Deltaforce3...) é exemplo de variável qualitativa nominal. Se dois
clientes adquiriram o modelo SpaceShuttle, eles possuem carros semelhantes (mesmo modelo). Se um outro cliente adquiriu o
modelo Chiconaultla, ele possui um carro de modelo diferente.
Opinião geral sobre o veículo (muito insatisfeito, insatisfeito, satisfeito, bastante satisfeito) é exemplo de variável
qualitativa ordinal. Se um cliente está satisfeito e outro está bastante satisfeito, é possível concluir não apenas que eles
apresentam níveis de satisfação diferentes, como também que o primeiro está menos satisfeito que o segundo.
Outro tipo de variável é a “quantitativa”, quando o resultado da mensuração é um número. Se os valores numéricos
puderem ser enumerados, a variável é dita “discreta”; caso contrário, “contínua”. Em geral, é possível dizer que as medições
dão origem a variáveis contínuas e as contagens ou enumerações originam variáveis discretas.
Quantidade de pessoas geralmente transportadas no veículo {0,1,2,3,4,5}, quantidade de funcionários {0,1,2,...500},
quantidade de itens defeituosos/hora em uma linha de produção {0,1,2,3,...100}, quantidade de itens/dia produzidos por uma
máquina {0,1,2,3,...1.000}, quantidade de pessoas/hora que acessam determinado site {0,1,2,3...} são exemplos de variáveis
discretas.
Idade (em anos) dos funcionários de uma empresa {18 ≤ x ≤ 65}, salário (em unidades monetárias) dos mesmos {640,00 ≤
x ≤ 15.000,00}, tensão de ruptura (em MPa) de corpos de prova de concreto {10 ≤ x ≤ 12}, comprimento (em cm) de blocos
cerâmicos {18 ≤ x ≤ 20}, tempo (em minutos) de permanência em um site {0 ≤ x ≤ 10} são exemplos de variáveis contínuas.
1.4.3
Ao mensurar quantitativamente uma variável, podem ser utilizadas as escalas “intervalar” ou “de razão”, e o que as
diferencia é o significado do valor zero. A escala intervalar apresenta zero relativo (o resultado da mensuração é zero de acordo
com determinados critérios), enquanto a escala de razão apresenta zero absoluto (o zero representa o nada).
A temperatura, medida em graus centígrados, é um exemplo de escala intervalar. Quando a temperatura for zero grau
centígrado, não significa que não existe temperatura: ela existe e, de acordo com determinados critérios, seu valor é zero. No
caso de graus centígrados, o zero grau está associado à temperatura de solidificação da água. Nesse tipo de escala, além de ser
possível estabelecer relação de semelhança/diferença e superioridade/inferioridade, é possível comparar a intensidade das
diferenças entre dois resultados. Considere, por exemplo, as temperaturas: t1 = 2°C, t2 = 4°C e t3 = 8°C. É possível definir que:
– t1 ≠ t2 ≠ t3;
– t1 < t2 < t3;
– (t3 – t2) = 2(t2 – t1).
A distância medida em centímetros é um exemplo de escala de razão. Quando a distância for zero centímetro, isso significa
que ela não existe. Nesse tipo de escala, além das relações já citadas, também é possível comparar os valores entre si,
estabelecendo relações de dobro, triplo, metade etc. Sejam três distâncias: d1 = 2 cm, d2 = 4 cm e d3 = 8 cm. É possível definirque:
– d1 ≠ d2 ≠ d3;
– d1 < d2 < d3;
– (d3 – d2) = 2(d2 – d1);
– d2 = 2d1.
 Confiabilidade dos dados
Ao resumir um conjunto de dados, deve-se observar se são consistentes, ou seja, verificar se os resultados estão de acordo
com o esperado, ou se alguma mudança relativamente forte pode ter ocorrido. Muitas vezes, tem-se uma expectativa em relação
aos dados, porém os resultados e a análise se apresentam diferentes do esperado. Tal fato de forma alguma invalida o estudo,
mas muito provavelmente contradirá uma ou mais hipóteses iniciais.
Durante a coleta de dados, deve-se sempre ter em mente que estes dependem do método utilizado. Muitas vezes,
especialmente na área da Engenharia, os dados são coletados por meio de um equipamento de medição, que é um dos elementos
que constituem um sistema de medição. O pesquisador deve saber como usá-lo corretamente, além de saber como analisar e
interpretar os resultados. Entretanto, devido às diversas fontes de variação que afetam um sistema de medição, leituras repetidas
sobre a mesma peça, por exemplo, podem não produzir um mesmo e idêntico resultado. Dessa forma, os efeitos das distintas
fontes de variação sobre o sistema de medição devem ser avaliados.
Uma das ferramentas utilizadas com essa finalidade são os estudos de “repetibilidade” e “reprodutibilidade” (R&R). Nos
estudos de R&R, o instrumento de medição é utilizado para medir, repetidas vezes, a grandeza de interesse. Conforme o VIM
(2012), podemos definir a repetibilidade como: condição de medição num conjunto de condições, as quais incluem o mesmo
procedimento de medição, os mesmos operadores, o mesmo sistema de medição, as mesmas condições de operação e o mesmo
local, assim como medições repetidas no mesmo objeto ou em objetos similares durante um curto período de tempo. Já a
reprodutibilidade é definida como: condição de medição num conjunto de condições, as quais incluem diferentes locais,
diferentes operadores, diferentes sistemas de medição e medições repetidas no mesmo objeto ou em objetos similares (VIM,
2012).
A repetibilidade estima a variabilidade dos resultados obtidos por um mesmo operador, usando o mesmo equipamento de
medição segundo um mesmo procedimento. Pode-se interpretar a repetibilidade como a menor variabilidade que pode ser
entregue por um sistema de medição. Uma repetibilidade ruim pode estar relacionada à manutenção falha ou à falta de robustez
do equipamento de medição, local inadequado para a realização da medição, ou, ainda, a uma variação dentro da própria
amostra.
Por outro lado, a reprodutibilidade avalia, caso diferentes operadores sejam envolvidos no estudo, a variabilidade das
1.4.4
a)
b)
1.5
médias das medições feitas por operador. Tem-se, assim, uma indicação da robustez do sistema de medição, do grau de
treinamento dos operadores, da uniformidade dos métodos empregados pelos operadores (AMERICAN SOCIETY FOR
QUALITY CONTROL, 2010).
Em suma, o pesquisador deve estar bastante atento aos seus dados e, em especial, a como foram coletados.
 Arredondamento de dados
Arredondar um número significa reduzir a quantidade de algarismos significativos após a vírgula. Esse procedimento deve
ser feito de maneira padronizada para diminuir os erros por arredondamento, principalmente quando o volume de números a
arredondar é grande.
Essa padronização, determinada pelo Instituto Nacional de Pesos e Medidas (INPM, 1965), conforme a Portaria no 36, de 3
de agosto de 1965, estabelece as regras apresentadas a seguir:
 
Regra 1: Quando o primeiro algarismo a ser desprezado é 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a permanecer.
Exemplo 1.1: 2,34856 = 2,3
Exemplo 1.2: 8,1213 = 8,121
Regra 2: Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se de uma unidade o algarismo a permanecer.
Exemplo 1.3: 2,2734 = 2,3
Exemplo 1.4: 7,586 = 7,59
Regra 3: Se o algarismo à direita do último dígito que se pretende representar for igual a 5, tem-se as seguintes situações:
acrescenta-se uma unidade ao último dígito representado e desprezam-se os demais dígitos à direita se este dígito for ímpar;
 somente são desprezados os demais dígitos à direita se este dígito for originalmente par ou zero.
Exemplo 1.5: 4,1415926 = 4,142
Exemplo 1.6: 11,625 = 11,62
Observação 1.1: Cabe lembrar que não se devem realizar arredondamentos sucessivos.
 Software estatístico
O software estatístico é de suma importância tanto no meio acadêmico como no empresarial, quer pela sua facilidade de
utilização, quer pela eficiência no tratamento de grandes conjuntos de dados. Atualmente, há uma concordância entre os
educadores de que as disciplinas de estatística devem ser auxiliadas por algum tipo de tecnologia para reduzir a necessidade de
execução de cálculos manuais e fornecer aos alunos o acesso a conjuntos de dados de casos práticos e situações reais
(BECKER, 1996; MALTBY, 2001; SCHUYTEN; THAS, 2007; VERZANI, 2008; GOULD, 2010). Entretanto, o uso de um
software estatístico, em processos de aprendizagem, deve ser fundamentado por certo conhecimento das técnicas estatísticas
envolvidas ou conduzido por quem possui esses conhecimentos (ALVES; CUNHA, 2013).
Existem diversos softwares estatísticos, alguns de uso gratuito. Entre os gratuitos destacam-se: INSTAT, Biostat, R e
SEstatNet. Entre os pagos destacam-se: Minitab, SAS, SPSS e Statistica.
O INSTAT é um pacote estatístico geral. É simples o suficiente para ser útil no ensino da estatística, como também pode
auxiliar a pesquisa que requer uma análise de dados. Tem sido amplamente utilizado no Reino Unido e em outros lugares por
uma série de empresas, institutos de pesquisa, escolas, faculdades e universidades. Também tem sido utilizado como apoio em
cursos de estatística e cursos relacionados a agricultura, saúde e climatologia (INSTAT, 2013).
O Biostat é um software desenvolvido por professores da Universidade Federal do Pará e possui vários pacotes estatísticos
de fácil aplicabilidade para iniciantes. De acordo com Ayres et al. (2007), autores do software, seu uso é bastante facilitado,
principalmente pelo help do programa, que, na verdade, é um livro de apoio. Nele podem ser encontrados diversos testes
1.6
estatísticos, dimensionamento de amostras e tipos de experimento. Ainda, para facilitar sua aprendizagem e consequente
utilização, cada procedimento abordado em cada pacote vem acompanhado de um exemplo.
O R é uma linguagem e um ambiente de software livre para análises estatísticas. É muito utilizado porque, além de ser um
software livre, pode ser usado sem custos de licença, contendo versões para Windows, MacOS, GNU/Linux e Unix. Seu
download pode ser feito diretamente da Internet por meio do site do CRAN (Comprehensive R Archive Network) – Rede
Completa de Arquivos do R – no endereço: <http://www.r-project.org>. Conforme Kataoka et al. (2008), o R é o resultado de
um trabalho de pesquisadores de vários locais do mundo, dos quais podem-se destacar: estatísticos, engenheiros de software,
dentre outros profissionais. Nesse software, existe uma grande diversidade de pacotes que contêm um conjunto de funções que
permitem ou facilitam a realização das análises estatísticas. No Capítulo 9 deste livro, podem ser encontradas algumas
informações interessantes sobre a sua utilização.
O SEstatNet é um ambiente on-line que pode contribuir para o processo de ensino-aprendizagem de estatística. Conforme
Nassar et al. (2014), ele oferece procedimentos de descrição, estimação, testes de hipóteses e modelos de regressão para
variáveis qualitativas e quantitativas. O processo dinâmico de ensino-aprendizagem possibilita, em cada sessão, que o estudante
aprenda os conceitos estatísticos aplicando-os aos seus próprios dados. Além disso, a aprendizagem é livre, uma vez que os
conteúdos não têm uma sequência pré-definida de apresentação (NASSAR et al., 2014).
O Minitab é um software estatístico que se caracteriza pela simplicidade e interface amigável. Conforme Alves e Cunha
(2013), esse software oferece um grandenúmero de procedimentos para análise estatística de dados, permitindo obter
estatísticas descritivas, simulações e distribuições, inferência estatística, análise da variância, regressão, análise de dados
categóricos, testes não paramétricos, análise de séries temporais, ferramentas de planejamento de experimentos e ferramentas de
controle de qualidade, bem como vários tipos de gráficos.
O SAS (Statistical Analysis System) é um sistema integrado de aplicações para o processamento e a análise estatística de
dados. De acordo com Alves e Cunha (2013), o programa trabalha com quatro formas básicas sobre os dados: acessar,
manipular, analisar e apresentar. O núcleo de todo o sistema é o SAS base, o qual permite criar tabelas e proceder à
manipulação dos dados. Um de seus pontos fortes é o fornecimento de ferramentas para simulação.
O SPSS (Statistical Package for the Social Sciences) é um software para análise estatística de dados. Possui uma interface
muito amigável, que se utiliza de menus, janelas e caixas de diálogo e permite realizar cálculos complexos e visualizar seus
resultados de forma simples. Inicialmente, o SPSS foi desenvolvido para tratar dados da área de ciências sociais, mas
atualmente é muito utilizado nos meios acadêmico e empresarial (ALVES; CUNHA, 2013). É comercializado em módulos, e o
mais simples, o módulo básico, permite executar tabulações, cruzamentos, gráficos, cálculo de medidas, testes de hipóteses
paramétricos e não paramétricos, regressão e correlação, entre outros.
O software Statistica é desenvolvido pela Statsoft. Conforme Alves e Cunha (2013), é um aplicativo que inclui estatísticas
descritivas, correlações, testes t e outros testes para as diferenças entre grupos, tabelas de frequências, cruzamentos, métodos de
regressão múltipla, métodos não paramétricos, rotinas de Anova/Manova, módulos de ajustamento das distribuições e um vasto
conjunto de ferramentas para gráficos. Ainda contempla módulos adicionais compostos por modelos lineares/não lineares
avançados, técnicas exploratórias multivariadas, gráficos para controle de qualidade, índices de capacidade de processo e
planejamento de experimentos, dentre outros (ALVES; CUNHA, 2013). Esse software se destaca pela qualidade dos gráficos
construídos.
Existem vários softwares estatísticos. A escolha do mais indicado para auxiliar em uma análise a ser desenvolvida depende
de algumas de suas propriedades, bem como do conhecimento e do bom senso do pesquisador.
 Considerações finais
Neste capítulo foram apresentados alguns conceitos fundamentais da estatística. De maneira geral, é possível dividir a
pesquisa estatística em dois tipos: pesquisa de levantamento e pesquisa por experimento, que devem obedecer a algumas fases:
definição do problema, planejamento, coleta de dados, apuração e apresentação de dados e análise dos resultados. A
generalização dos resultados fica a cargo da estatística indutiva ou inferencial. Foram também apresentados alguns conceitos
básicos, como: população, que compreende todo o conjunto a ser pesquisado; amostra, que é um subconjunto da população;
variáveis, que são as características investigadas; e dados ou observações, que são as informações obtidas.
As variáveis podem ser classificadas como qualitativas (nominal ou ordinal) ou quantitativas (discreta ou contínua) e ainda
podem ser classificadas em função do nível de mensuração: nominal, ordinal, intervalar e razão. Foram também apresentadas
algumas considerações sobre a precisão dos dados e ferramentas que possam auxiliar o pesquisador no desenvolvimento de suas
1.3
a)
b)
c)
d)
e)
f)
g)
1.1
1.2
1.4
análises estatísticas: os softwares estatísticos. Vale salientar que vai do bom senso do pesquisador usufruir dessas ferramentas
que não substituem o conhecimento das técnicas estatísticas utilizadas.
Aplicações
Conceitue, exemplificando: a) população; b) amostra.
Como a pesquisa estatística pode ser classificada? Explique essa classificação.
A descrição de determinadas características de um grupo pertence a que parte da estatística? Que técnicas podem ser
utilizadas?
Classifique as variáveis em qualitativa (nominal ou ordinal) ou quantitativa (contínua ou discreta):
População: alunos de uma universidade.
Variável: cor dos cabelos (louro, castanho, ruivo, preto).
População: funcionários de uma empresa.
Variável: escolaridade (ensino fundamental, ensino médio, ensino superior, pós-graduação).
População: peças produzidas por certa máquina.
Variável: diâmetro externo (2 mm ≤ x ≤ 4 mm).
População: estação meteorológica de uma cidade.
Variável: precipitação pluviométrica, durante um ano (250 mm ≤ x ≤ 300 mm).
População: Bolsa de Valores de São Paulo.
Variável: quantidade de ações negociadas (0,1,2,3,...).
 População: pregos produzidos por uma máquina.
Variável: comprimento (1,5 cm ≤ x ≤ 2,8 cm).
População: aparelhos produzidos em uma linha de montagem.
Variável: número de defeitos por unidade (0,1,2,3,...).
2.1
2.2
2.2.1
2
REPRESENTAÇÃO TABULAR
 Descrição e exploração de dados
Ao fazer um levantamento de dados, obtém-se um volume muito grande de informações que, para serem mais facilmente
entendidas, precisam ser organizadas e resumidas. Para tanto, extrai-se o máximo de informação não apenas em relação à
variável investigada propriamente dita, como também em relação a algumas de suas propriedades: forma da distribuição,
tendência central, variabilidade, presença de lacunas e de outliers (valores fora do padrão).
Nessas situações são especialmente indicadas as tabelas estatísticas, além de técnicas gráficas, como o histograma, e
técnicas analíticas, que se utilizam de medidas descritivas.
 Tabelas de frequências
Normalmente, o resumo dos dados se inicia com a construção de tabelas estatísticas. Uma tabela é uma disposição de
dados sistemática, simples e clara, em linhas e colunas. Elas conseguem resumi-los em pequeno espaço, facilitando sua
compreensão e análise, bem como sua comparação com outras informações. Podem ser utilizadas simplesmente em caráter
informativo, em forma de síntese, como também podem consistir na primeira etapa de uma análise estatística mais sofisticada.
Apresentam a vantagem de serem mais breves que as exposições descritivas e mais exatas que as representações gráficas.
As tabelas são organizadas com pelo menos cinco partes: título, cabeçalho, coluna indicadora, corpo e fonte. O “título”
deve ser colocado em cima da tabela, apresentando o fato estudado, o local e a época em que foram registrados os dados, da
forma mais clara possível. Podem ser incluídos subtítulos que devem ser apresentados do geral para o particular. Logo abaixo
do título, aparece o “cabeçalho”, indicando o que cada coluna contém, podendo ser representado por uma única linha ou várias,
quando existirem subdivisões da série apresentada. Nesse caso, também se deve partir do geral para o particular. A “coluna
indicadora” é a primeira coluna da tabela e indica o que cada linha contém, enquanto o “corpo” é a parte numérica da tabela,
onde estão as informações propriamente ditas. Já a “fonte” é o organismo responsável pelas informações contidas na tabela,
aparecendo logo abaixo desta.
Quando necessário, as tabelas também podem apresentar “notas” ou “observações de rodapé”. Essas são informações de
natureza geral ou específica, que servem para esclarecer ou conceituar alguma parte ou a totalidade do conteúdo da tabela. No
caso de se relacionar apenas a uma parte, deverá ser indicado por um número arábico entre parênteses à esquerda do valor.
Essas notas ou observações podem vir abaixo da fonte. Mais detalhes sobre formatação de tabelas podem ser encontrados em
INSTITUTO PARANAENSE DE DESENVOLVIMENTO ECONÔMICO E SOCIAL (2000b).
A construção de tabelas deve obedecer a alguns critérios, conforme tratem de dados qualitativos ou quantitativos.
Considere os dados apresentados no anexo deste livro, já mencionados no capítulo anterior, que se referem aos dados
brutos coletados e que compõem uma amostra a ser analisada. Obanco de dados fornece informações sobre clientes da
montadora de automóveis Toyord e serve para ilustrar os conceitos apresentados neste capítulo.
 Dados qualitativos
Tabela 2.1 –
Fonte:
Tabela 2.2 –
Fonte:
Dados qualitativos são dados categóricos. Para sua tabulação, basta associar cada categoria a um valor que informa o
número de vezes que ela apareceu no conjunto de dados. Se a escala for nominal, a apresentação das informações é ordenada
pela frequência de ocorrência das categorias (normalmente ordem decrescente); caso seja ordinal, pela hierarquia existente entre
as categorias (normalmente ordem crescente).
A Tabela 2.1 apresenta a distribuição de frequência dos veículos comercializados, de acordo com o modelo, ficando
evidenciado que entre os 250 veículos da amostra, o modelo mais frequente foi o Chiconaultla (32,8%), seguido do DeltaForce3
(24,0%) e do SpaceShuttle (19,6%). O modelo menos comercializado foi o LuxuriousCar, apenas 23 veículos (9,2%).
Em uma mesma tabela, podem ser apresentados dados referentes a duas variáveis qualitativas, sendo construídas as
chamadas tabelas de contingência ou de dupla entrada. Por meio dessas, é possível representar uma distribuição conjunta de
frequências, estudando a sua associação. A Tabela 2.2 apresenta uma distribuição de frequências conjunta das variáveis modelo
e opinião geral sobre a qualidade do veículo adquirido.
 Distribuição dos veículos comercializados de acordo com o modelo, Toyord, 2012
Modelo Veículos Percentual
Chiconaultla 82 32,8
DeltaForce3 60 24,0
SpaceShuttle 49 19,6
Valentiniana 36 14,4
LuxuriousCar 23 9,2
Total 250 100
Banco de dados anexo.
 Distribuição dos veículos comercializados de acordo com o modelo e satisfação do cliente, Toyord, 2012
Modelo
Quantidade de clientes
Muito
insatisfeito
Insatisfeito Satisfeito Muito satisfeito Total
Chiconaultla 68 12 1 1 82
DeltaForce3 26 29 5 0 60
SpaceShuttle 7 26 14 2 49
Valentiniana 7 6 12 11 36
LuxuriousCar 1 5 3 14 23
Total 109 78 35 28 250
Banco de dados anexo.
Ao construir uma tabela de contingência, o interesse pode estar nos percentuais de cada célula do cruzamento, sendo
possível calculá-los em relação aos totais das linhas, aos totais das colunas e ao total geral. Esses valores são muito úteis para
avaliar associações. Na Tabela 2.3 são apresentadas frequências percentuais calculadas em relação ao total das linhas.
A análise desses valores evidencia que, na amostra investigada, composta por 250 clientes, modelo adquirido e satisfação
do cliente, parecem estar associados. Os clientes que possuem o modelo Chiconaultla parecem estar mais insatisfeitos que os
demais, pois 83% dos clientes que adquiriram esse modelo estão muito insatisfeitos. Já os clientes mais satisfeitos parecem ser
os que adquiriram o modelo Luxurious, pois 61% estão muito satisfeitos.
Tabela 2.3 –
Fonte:
2.2.2
2.3
Tabela 2.4 –
 Distribuição dos veículos comercializados de acordo com o modelo e satisfação do usuário, Toyord, 2012
Modelo
Percentual de clientes (%)
Muito
insatisfeito
Insatisfeito Satisfeito Muito satisfeito Total
Chiconaultla 83 15 1 1 100
DeltaForce3 43 48 8 0 100
LuxuriousCar 4 22 13 61 100
Valentiniana 19 17 33 31 100
SpaceShuttle 14 53 29 4 100
Total 44 31 14 11 100
Banco de dados anexo.
 Dados quantitativos
Dados quantitativos são dados numéricos. Um conjunto de dados referente a uma variável quantitativa pode se apresentar
na forma bruta, em rol ou em tabelas de frequências. Têm-se dados brutos quando os dados originais (coletados) ainda não se
encontram numericamente organizados (ordenados). Os dados abaixo se referem às dez primeiras observações da idade dos
clientes em anos completos, apresentadas no banco de dados no anexo deste livro.
Dados brutos: {20, 20, 18, 18, 18, 21, 21, 19, 19, 19}
Se os valores forem dispostos em determinada ordem, crescente ou decrescente, tem-se um rol. As dez primeiras
observações referentes à idade dos clientes em anos completos, ordenadas crescentemente, fornecem o rol apresentado a seguir.
Rol: {18, 18, 18, 19, 19, 19, 20, 20, 21, 21}
A maneira de construir tabelas de frequência para dados quantitativos depende de os dados serem discretos ou contínuos, e,
no caso de serem discretos, do fato de existirem poucos ou muitos diferentes valores. Veja as Seções 2.3 e 2.5.
 Dados quantitativos discretos
A tabulação de dados resultantes de variáveis discretas, quando não houver uma quantidade muito grande de diferentes
valores observados, pode ser feita da mesma forma que em uma distribuição de frequência de dados qualitativos ordinais.
Uma das variáveis apresentadas no banco de dados anexo é o número de pessoas, geralmente transportadas no veículo. A
variável “número de pessoas” é discreta, pois procede de uma contagem. A organização desses dados, mediante a construção de
uma distribuição de frequência, facilita sua compreensão, conforme pode ser visualizado na Tabela 2.4.
 Distribuição dos veículos comercializados de acordo com a quantidade de pessoas que transporta usualmente,
Toyord, 2012
Número de pessoas (xi) Número de veículos (fi)
1 19
2 35
3 47
Fonte:
a)
b)
c)
2.4
Tabela 2.5 –
4 42
5 52
6 55
Total 250
Banco de dados anexo.
Nessa tabela observa-se que, na amostra investigada, 19 veículos transportam usualmente uma pessoa, 35 veículos
transportam usualmente duas pessoas, 47 veículos transportam usualmente três pessoas, e assim em diante.
Por convenção, denota-se por:
x (minúsculo) – a variável;
f (minúsculo) – a frequência simples absoluta;
 o índice i para x e para f tem a finalidade de referência, indicando sua posição na tabela, ou seja, a i-ésima posição que
está associada a uma categoria ou classe. Se houver k categorias ou classes, então i = 1,2,3,...,k. Na Tabela 2.4, por
exemplo, x3 = 3 e f3 = 47.
Pela Tabela 2.4, observa-se que 55 veículos da amostra de 250 clientes da montadora de automóveis Toyord usualmente
transportam seis pessoas. Esse é um número absoluto, resultando da contagem feita dentre os 250 clientes. Existem outros tipos
de frequências, decorrentes desta frequência simples absoluta, que podem auxiliar na interpretação e análise dos dados
tabulados.
 Tipos de frequências
A frequência simples absoluta da i-ésima classe ou categoria, denotada por fi, é o número de ocorrências de uma
categoria/valor em um conjunto de dados e simplesmente representa a quantidade de vezes que uma observação se repete nesse
conjunto.
Algumas vezes, tem-se interesse em conhecer essa frequência em termos relativos, expressando-a em relação ao total,
obtendo-se a (fri). Por definição, a frequência simples relativa da i-ésima classe ou categoria é dada por:
onde e k é a quantidade de categorias.
Frequentemente, este valor é expresso em percentagem, bastando multiplicá-lo por 100, obtendo-se a frequência simples
percentual (fpi). Por definição, a frequência simples percentual da i-ésima classe ou categoria é dada por:
Salienta-se que as Expressões 2.1 e 2.2 são resultado de uma regra de três, considerando o total (soma de todas as
frequências simples ou quantidade de dados) equivalente a, respectivamente, 1 ou 100%.
Na Tabela 2.5 são apresentadas frequências simples relativas e frequências simples percentuais na quarta e quinta colunas,
respectivamente.
 Distribuição dos veículos comercializados, de acordo com a quantidade de pessoas que geralmente transporta,
com frequências absolutas, relativas e percentuais, simples e acumuladas
Fonte:
2.5
i xi fi fri fpi (%) faci facpi (%)
1 1 19 0,076 7,6 19 7,6
2 2 35 0,14 14 54 21,6
3 3 47 0,188 18,8 101 40,4
4 4 42 0,168 16,8 143 57,2
5 5 52 0,208 20,8 195 78
6 6 55 0,22 22 250 100
 Total 250 1,0 100,0 
Banco de dados anexo.
Observe que a soma das frequências relativas é 1, e a das frequências percentuais é 100, ou seja:
Suponha que se deseja saber a quantidade de clientes que possuem veículos que transportam duas pessoas ou menos, três
pessoas ou menos, e assim sucessivamente. Existe uma frequência chamada “frequênciaacumulada absoluta”, denotada por
faci, que dá essa informação. Por definição, a frequência acumulada absoluta da i-ésima classe ou categoria é dada por:
Na sexta coluna da Tabela 2.5 são apresentadas as frequências acumuladas absolutas.
Observação 2.1: A frequência acumulada da primeira classe ou categoria, localizada na primeira linha do corpo da tabela, será
sempre igual à frequência simples absoluta da mesma linha, e a frequência acumulada da última linha da tabela será sempre
igual ao total de dados observados.
Assim como na frequência simples absoluta, é possível conhecer o valor relativo e o valor percentual da frequência
acumulada, denominados, respectivamente, de “frequência acumulada relativa” (facri) e “frequência acumulada percentual”
(facpi), determinadas por:
Na sétima coluna da Tabela 2.5 são apresentadas as frequências acumuladas percentuais.
A interpretação dos dados é de suma importância por possibilitar um melhor entendimento das informações, o que é
facilitado pela utilização dessas frequências. Por exemplo, pelas informações da quarta linha da Tabela 2.5, é possível afirmar
que, dentre os 250 clientes, 42 possuem veículo que transporta exatamente quatro pessoas; 16,8% dos clientes possuem veículo
que transporta exatamente quatro pessoas; 143 clientes possuem veículo que transporta até quatro pessoas; 57,2% dos clientes
possuem veículo que transporta até quatro pessoas.
 Dados quantitativos contínuos
Tabela 2.6 –
Fonte:
Até o presente momento, foi apresentada uma forma de organizar e resumir dados discretos. Para dados contínuos, deve-se
recorrer a tabelas de frequência com “intervalos de classe”. Essas são uma representação tabular dos dados e de suas frequências
similar à que vimos na seção anterior. A diferença é que, devido à grande variabilidade de resultados, não são listados cada um
dos diferentes resultados observados da variável, ordenados de forma crescente, e sim intervalos de resultados da variável
ordenados de forma crescente. Essa forma de representação também é recomendada para dados discretos que podem assumir
muitos diferentes valores.
No exemplo considerado dos dados do banco anexo, selecionou-se a variável “idade”. Na Tabela 2.6, essa variável está
distribuída em intervalos (coluna 1). A segunda coluna mostra o resultado da contagem de valores pertencentes a cada intervalo,
correspondendo à frequência simples absoluta de cada classe.
 Distribuição da idade dos clientes que adquiriram veículos na empresa Toyord, 2012
Idades (anos) Clientes
18 ⊢ 23 12
23 ⊢ 28 30
28 ⊢ 33 47
33 ⊢ 38 59
38 ⊢ 43 54
43 ⊢ 48 37
48 ⊢ 53 9
53 ⊢ 58 2
Total 250
Banco de dados anexo.
A análise das informações apresentadas como na Tabela 2.6 permite entender o fenômeno, embora perca precisão na
informação. Por exemplo, a leitura da primeira linha informa que 12 clientes têm idade entre 18 e 23 anos, exclusive este
último; todavia, a tabela não informa a idade exata de cada um deles.
A notação usual utilizada para definir intervalo de classe são os símbolos ⊢ e . Para o primeiro símbolo (⊢), o intervalo
é dito fechado à esquerda e aberto à direita, indicando que o extremo inferior pertence ao intervalo, enquanto o extremo superior
não pertence. Por exemplo, na Tabela 2.6, um funcionário com 23 anos pertence ao segundo intervalo de classe da distribuição,
pois esse é fechado à esquerda. Já um cliente com 28 anos não pertence a esse intervalo de classe, pois esse é aberto à direita. O
outro símbolo ( ) é usualmente utilizado na última classe quando for conveniente fechá-la.
Cada classe apresenta dois limites: o inferior (menor valor), representado por LIi e o superior (maior valor), representado
por LSi. Para efeito de cálculo, ignora-se o fato de o intervalo que define a classe ser aberto ou fechado, o mesmo não
acontecendo na hora da tabulação.
Chama-se “amplitude” da i-ésima classe (Ai) a diferença entre o limite superior e o limite inferior da classe, enquanto o
“ponto médio” da i-ésima classe (Pmi) é o valor central da classe, podendo ser encontrados, respectivamente, pelas Expressões
2.8 e 2.9:
Observação 2.2: Frequentemente, é necessário encontrar um valor representativo de uma classe que não tenda nem para o
limite superior e nem para o inferior, um valor neutro e não tendencioso. Esse valor é o seu ponto médio.
Observação 2.3: Outras notações também podem ser utilizadas para definir um intervalo de classe, desde que não deem
margem à dupla interpretação.
A construção de uma distribuição de frequência com intervalos de classe pode seguir o seguinte algoritmo:
Etapa 1 – ordenar os dados a serem tabulados;
Etapa 2 – identificar o maior e menor valor para calcular a amplitude total;
Etapa 3 – determinar a quantidade de classes (k) a serem utilizadas;
Etapa 4 – calcular a amplitude dos intervalos de classe (h);
Etapa 5 – definir as classes;
Etapa 6 – determinar a frequência simples absoluta de cada classe (fi).
Se for conveniente, podem ser determinados os demais tipos de frequências, bem como informações sobre as classes
(limites, amplitude e ponto médio).
Considere que o engenheiro responsável pelo setor de controle de qualidade da indústria de blocos cerâmicos MMT está
interessado em analisar o comportamento térmico de um forno túnel utilizado no processo produtivo. A temperatura é
monitorada ao longo de sua extensão em nove pontos. Na última semana, o ponto 5, localizado no início da zona de queima,
apresentou os seguintes resultados, em °C, durante dois dias de monitoramento:
768 784 786 792 799 803 812 821
773 784 786 793 800 804 812 821
781 784 786 794 800 806 817 824
781 785 790 794 801 807 818 825
782 785 790 796 802 810 818 825
783 785 790 798 803 811 819 831
Para melhor entender o comportamento da temperatura, os dados devem ser tabulados.
Etapa 1 – Ordenar os dados a serem tabulados
Inicialmente, os dados devem passar pelo processo de ordenação. Neste exemplo, eles já se encontram ordenados.
Etapa 2 – Identificar o maior e menor valor para calcular a amplitude total
Mediante a ordenação dos dados, identifica-se facilmente que a menor e a maior temperatura são 768°C e 831°C,
respectivamente.
Xmín = X1 = 768°C
Xmáx = X48 = 831°C
A diferença entre as temperaturas fornecerá a amplitude total, que representa o tamanho do intervalo que contém os dados.
AT = Xmáx – Xmín = 831 – 768 = 63°C
Etapa 3 – Determinar a quantidade de classes (k) a serem utilizadas
A quantidade de classes ou intervalos de classe (k) é determinada em função da quantidade de valores observados ou dados
que serão tabulados (n). Vários critérios podem ser utilizados com essa finalidade. O mais simples é o critério da raiz, que
determina essa quantidade pela expressão:
O conjunto analisado é formado por 48 dados (n = 48), logo 
Observe que se obteve 6,93, mas é impossível trabalhar com 6,93 intervalos. Deve-se optar por 6 ou 7 intervalos.
Normalmente, arredonda-se para o inteiro mais próximo. Neste caso, sete seria a quantidade recomendada.
Etapa 4 – Calcular a amplitude dos intervalos de classe (h)
Na organização de uma distribuição com intervalos de classe, é recomendável que todos tenham a mesma amplitude (h), e,
para calculá-la, basta dividir a amplitude total (AT) pelo número de classes a serem utilizadas (k), conforme a Expressão 2.11.
Dessa forma, a amplitude total fica distribuída igualmente por todas as classes.
Para aplicar a Expressão 2.11, deve-se usar o valor já arredondado de k = 7; portanto, no exemplo considerado:
Serão organizadas 7 classes (k) de amplitude 9 (h). Se a tabulação está sendo feita para apresentação de resultados, é
aconselhável que a precisão de h seja, no mínimo, a mesma precisão dos dados. No exemplo considerado, como os dados são
inteiros, é aconselhável considerar h inteiro.
Etapa 5 – Definir as classes
Para determinar os intervalos de classe, ou melhor, os limites inferior e superior de cada uma das classes, é preciso lembrar
que cada valor da variável deve pertencer a um único intervalo.
Normalmente, o primeirointervalo de classe tem início no menor valor da variável, sendo associado ao seu limite inferior
(LI1).
O limite superior dessa primeira classe é encontrado somando-se a amplitude da classe (h) a esse limite inferior.
O limite inferior da segunda classe é igual ao limite superior da primeira classe.
Os demais limites são determinados da mesma maneira, ou seja:
Desse modo, da segunda classe em diante, o limite inferior de uma classe é o limite superior da classe imediatamente
anterior a esta, e assim sucessivamente. Observe que as sequências de limites inferiores e limites superiores de uma distribuição
de frequências formarão progressões aritméticas de razão h.
Considerando os dados relativos à variável “temperatura”, o limite inferior da primeira classe é 768, e o limite superior,
768 + h = 768 + 9 = 777. Assim, obtém-se o primeiro intervalo de classe 768 ⊢ 777. O limite superior dessa classe (777) é o
inferior da segunda classe, que terá como limite superior 777 + h = 777 + 9 = 786, ou seja, a segunda classe será 777 ⊢ 786, e
assim sucessivamente.
Os intervalos de classe a serem considerados nesta distribuição são:768 ⊢ 777; 777 ⊢ 786; 786 ⊢ 795; 795 ⊢ 804; 804 ⊢
Tabela 2.7 –
Fonte:
Tabela 2.8 –
813; 813 ⊢ 822;822 ⊢ 831, conforme apresentado na Tabela 2.7.
Observe que, como não houve arredondamento no valor da amplitude de classe, o limite superior da última classe
coincidiu com o maior valor dos dados, razão pela qual o intervalo foi fechado em seu limite superior, ou seja, 822 831.
Etapa 6 – Determinar a frequência simples absoluta de cada classe (fi)
A frequência simples absoluta do i-ésimo intervalo de classe é o número de ocorrências de todos os valores pertencentes
àquele intervalo. Assim, essa frequência da primeira classe será o número de repetições dos valores pertencentes ao intervalo
768 ⊢ 777. Logo, serão contadas todas as temperaturas entre 768 e 777°C, exclusive esta última, ou seja, 768 e 773 (duas
medições). A f2 será a quantidade de observações de temperaturas entre 777 e 786°C, exclusive esta última (dez medições), e
assim sucessivamente.
A Tabela 2.7 apresenta a distribuição de frequências simples absolutas das temperaturas do ponto 5 do forno de queima da
indústria MMT.
 Distribuição das temperaturas no ponto 5 do forno de queima, Indústria MMT, 2013
Temperaturas (°C) Medições (fi)
768 ⊢ 777 2
777 ⊢ 786 10
786 ⊢ 795 10
795 ⊢ 804 9
804 ⊢ 813 7
813 ⊢ 822 6
822 831 4
Total 48
Fictícia.
Observação 2.4: Qualquer um dos tipos de frequência apresentados anteriormente pode ser usado na construção de uma
distribuição. A Tabela 2.8 apresenta, além das frequências simples absolutas, as frequências simples percentuais (fpi), as
frequências acumuladas absolutas (fac) e as frequências acumuladas percentuais (facri). Também apresenta o ponto médio de
cada classe.
 Distribuição das temperaturas no ponto 5 do forno de queima utilizando frequências absolutas e percentuais
simples e acumuladas e ponto médio, Indústria MMT
i Idades (anos) fi fpi (%) faci facpi (%) xi
1 768 ⊢ 777 2 4,2 2 4,2 772,5
2 777 ⊢ 786 10 20,8 12 25,0 781,5
3 786 ⊢ 795 10 20,8 22 45,8 790,5
4 795 ⊢ 804 9 18,8 31 64,6 799,5
5 804 ⊢ 813 7 14,6 38 79,2 808,5
6 813 ⊢ 822 6 12,5 44 91,7 817,5
7 822 831 4 8,3 48 100,0 826,5
Fonte:
–
–
–
2.6
 48 100 
Fictícia.
Esses resultados podem ser muito úteis para o entendimento dos dados. Por exemplo, com base nas informações
apresentadas na segunda linha da Tabela 2.8, é possível afirmar que, dentre as 48 medições da temperatura, 10 são maiores ou
iguais a 777°C e menores que 786°C; 20,8% são maiores ou iguais a 777°C e menores que 786°C; 12 medições são maiores ou
iguais a 768°C e menores que 786°C, correspondendo a 25% das medições. A mesma interpretação pode ser feita para as
demais classes.
Observação 2.5: Outros critérios podem ser utilizados para determinar a quantidade de classes. A regra de Sturges, por
exemplo, especialmente indicada para amostras de tamanho maior que 70, aconselha que k seja definido pela Expressão 2.17:
No caso, no exemplo considerado, tem-se:
k = 1 + 3, 3 log 48
k = 1 + 3, 3 (1,681241)
k = 6,548096 = 7
Outro critério bastante utilizado consiste em considerar que, para uma amostra de tamanho n, k é o menor inteiro tal que 2k
≥ n.
Neste caso, como 25 = 32 e 26 = 64, como n = 48, então k = 6.
Observação 2.6: Observe que a quantidade de classes utilizada em uma tabulação deve ser definida de tal forma que os dados
não fiquem muito compactados nem muito dispersos, facilitando o seu entendimento, e que o resultado encontrado para a
quantidade de classes pode não ser o mesmo para todos os critérios. Em termos práticos, vários autores, entre os quais Silveira
Junior et al. (1989), recomendam que essa quantidade fique entre 5 e 15 (5 ≤ k ≤ 15), obtida pelo critério que melhor se ajusta à
situação a analisar, além de bom senso.
Observação 2.7: O valor de h pode ser arredondado. Nesse caso, é possível que a distribuição fique com uma classe a mais ou a
menos do que o recomendado inicialmente.
Observação 2.8: Existe ainda um critério de determinação de classes bastante utilizado na prática. Partindo do princípio de que
5 ≤ k ≤ 15, considera-se que h pode assumir qualquer valor dentro do intervalo Nesse caso, o contexto seria
utilizado para identificar o melhor valor para a amplitude das classes. No exemplo considerado, poderia assumir qualquer valor
do intervalo [4,2;12,6].
Observação 2.9: Os critérios adotados para determinar intervalos de classe não são rígidos, podendo ser adaptados ao contexto
em que estão sendo utilizados.
Observação 2.10: Em algumas situações, é aconselhável utilizar intervalo de classe de amplitude variável, tais como:
quando existir uma grande concentração de valores em determinada faixa de tal forma que se formem algumas classes com
frequências muito altas e outras com frequências muito baixas ou até mesmo nulas. Nesse caso, classes com frequências
muito altas podem ser segregadas e classes com frequências muito baixas ou nulas podem ser aglutinadas;
 quando, devido à natureza do fenômeno observado, for conveniente reunir casos semelhantes;
quando, devido à natureza dos dados, for conveniente dispor os limites das classes de acordo com uma progressão geométrica.
 Considerações finais
2.1
2.2
( )
( )
( )
( )
( )
( )
2.3
Neste capítulo, foram apresentadas algumas técnicas para organizar e sintetizar os dados coletados utilizando tabelas, o que
pode ser feito para dados qualitativos e quantitativos, que seguem regras semelhantes. Para ambos os tipos de dados,
frequências de vários tipos podem ser associadas a classes ou categorias. No caso de dados quantitativos, as tabelas podem ser
construídas com ou sem intervalos de classe. Lembre que, na construção da distribuição de frequência com intervalos de classe,
sempre há uma perda de informação, pois não se trabalha com os dados originais. No próximo capítulo, serão apresentadas
técnicas gráficas utilizadas com essa mesma finalidade: organizar e sintetizar os dados coletados.
Aplicações
Substituir por uma tabela o trecho do relatório anual da Empresa M&T Construções: “Finalizando, conclui-se que esta
empresa, em 2012, contou com a colaboração de 465 funcionários, distribuídos pelas nossas cinco unidades, localizadas
em: Rio Grande, 105; Porto Alegre, 192; Pelotas, 98; Caxias do Sul, 43; e Bagé, 27. Em Bagé não existiam funcionárias,
mas em Rio Grande trabalharam 51 delas, enquanto em Pelotas, apenas 13. Em Caxias do Sul, 38 eram do sexo
masculino, e em Porto Alegre, 137.”
(Adaptado de SILVA, E. M. et al., 2010) Considere os dados na tabela apresentada a seguir e determine: total de dados,
frequências simples relativas e frequências absolutas acumuladas.
i
xi fi
1 2 6
2 3 2
3 4 7
4 5 12
5 6 10
6 7 9
7 8 4
Com base nos resultados obtidos, coloque V para verdadeiro ou F para falso, nas afirmações apresentadas a seguir.
Foram utilizadas 50 observações.
Os resultados obtidos no cálculo da frequênciasimples relativa são, por classe, respectivamente: 12%; 5%; 15%;
25%; 21%; 18%; 9%.
A soma de todos os dados corresponde a 35.
Os resultados obtidos no cálculo da frequência simples relativa são, por classe, respectivamente: 12,0%; 4,0%;
14,0%; 24,0%; 20,0%; 18,0%; 8,0%.
Os resultados obtidos no cálculo da frequência acumulada absoluta são, por classe, respectivamente: 6; 8; 14; 29; 36;
45; 50.
Os resultados obtidos no cálculo da frequência acumulada absoluta são, por classe, respectivamente: 6; 8; 15; 27; 37;
46; 50.
O gestor de um site deseja conhecer o provedor utilizado pelas pessoas que o acessam. No último mês, em uma amostra de
80 usuários, foram encontrados os resultados apresentados a seguir. Construa uma distribuição com frequências simples
absolutas, relativas e percentuais.
Indivíduo Provedor Indivíduo Provedor Indivíduo Provedor Indivíduo Provedor
1 POP 21 POP 41 IG 61 TERRA
2.4
2.5
2 TERRA 22 TERRA 42 TERRA 62 TERRA
3 TERRA 23 IG 43 TERRA 63 IG
4 IG 24 UOL 44 IG 64 POP
5 POP 25 TERRA 45 TERRA 65 IG
6 IG 26 IG 46 TERRA 66 UOL
7 UOL 27 IG 47 IG 67 IG
8 IG 28 POP 48 UOL 68 IG
9 IG 29 UOL 49 UOL 69 IG
10 TERRA 30 IG 50 POP 70 POP
11 POP 31 POP 51 IG 71 TERRA
12 TERRA 32 TERRA 52 TERRA 72 TERRA
13 TERRA 33 IG 53 TERRA 73 IG
14 IG 34 UOL 54 IG 74 POP
15 POP 35 TERRA 55 TERRA 75 IG
16 IG 36 IG 56 TERRA 76 UOL
17 UOL 37 IG 57 IG 77 IG
18 IG 38 POP 58 UOL 78 IG
19 IG 39 UOL 59 UOL 79 IG
20 TERRA 40 IG 60 POP 80 POP
(SILVA, E. M. et al., 2010) Uma empresa automobilística selecionou, ao acaso, uma amostra de 40 revendedores
autorizados em todo o Brasil e anotou, em determinado mês, o número de quantidades adquiridas por estes
revendedores. Construa a distribuição de frequência usando intervalos de classes.
10 15 25 21 5 23 21 15 26 32
9 14 19 20 32 18 16 26 24 20
7 18 17 28 35 22 19 39 18 21
15 18 22 20 25 28 30 16 12 20
 (Adaptado de ALBUQUERQUE; BRISTOT, 2011) Os valores abaixo se referem à cargas (kN) suportadas por blocos de
calçamento em Ensaios de Ruptura de Blocos de Pavimentação, tipo Unistein, realizado no Laboratório de Controle
Tecnológico em Materiais de Construção Civil, Concreto, Geotecnia e Pavimentos da FURG. Organizar as informações
em uma tabela com frequências absolutas e percentuais.
260 126 224 230 282 194 192 249 232 213 158 183 233 226 204 274
228 263 153 220 196 221 213 213 210 253 164 194 218 110 160 228
194 218 213 180 203 207 190 232 122 232 168 242 278 174 224 280
270 248 218 156 213 168 268 233 185 151 230 177 
2.6
a) ( )
b) ( )
c) ( )
d) ( )
e) ( )
f) ( )
2.7
2.8
a)
b)
c)
d)
e)
No último mês, nas planilhas do setor de controle de qualidade, foram registradas as seguintes quantidades de componentes
eletrônicos com defeito em lotes de 1.000 unidades:
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1
1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2
2 2 2 2 3 3 3 3 3 4 4 4 6 6 9 
Construa uma tabela com frequências simples e acumuladas absolutas e percentuais, e identifique as sentenças a seguir
como falsas ou verdadeiras.
A variável investigada, quantidade de componentes eletrônicos com defeitos em lotes de 1.000 unidades, pode
assumir sete valores distintos.
O menor e maior valores assumidos pela variável investigada são, respectivamente, 0 e 9.
f1 = 14, e é possível interpretar que, dentre os 49 lotes analisados, em cada um de 14 lotes não houve
componentes eletrônicos com defeito.
fp2 = 28,57%, e é possível interpretar que, dentre os 49 lotes analisados, em 28,57% deles (em cada um) o
número de componentes eletrônicos com defeito foi 1.
 fac3 = 38, e é possível interpretar que, dentre os 49 lotes analisados, em cada um dos 38 lotes o número de
componentes eletrônicos com defeito é de, no máximo, 2.
facp4 = 87,76%, e é possível interpretar que, dentre os 49 lotes analisados, em 87,76% deles o número de
componentes eletrônicos com defeito foi menor ou igual a 3.
Complete a distribuição de frequências apresentada a seguir com os valores de limite inferior, limite superior, ponto médio,
frequência absoluta simples, frequência percentual, frequência absoluta acumulada e frequência percentual acumulada.
i LIi LSi xi fi fpi (%) faci facpi (%)
1 2 
2 20 10 
3 35 19 
4 75
5 6 
6 3 
7 4 
8 48 
(ENADE/2006) A tabela abaixo mostra como se distribui o tipo de ocupação dos jovens de 16 a 24 anos que trabalham em 5
Regiões Metropolitanas e no Distrito Federal. Das regiões estudadas, aquela que apresenta o maior percentual de jovens
sem carteira assinada, dentre os jovens que são assalariados do setor privado, é:
Belo Horizonte;
Distrito Federal;
Recife;
Salvador;
São Paulo.
Distribuição dos jovens ocupados, de 16 a 24 anos, segundo posição na ocupação
Fonte:
2.9
Regiões Metropolitanas e Distrito Federal – 2005
(em porcentagem)
Regiões
Metropolitanas
e Distrito
Federal
Assalariados Autônomos 
Total
Setor privado Empregado
doméstico
Outros
Total Com
carteira
assinada
Sem
carteira
assinada
Setor
público
Total Trabalha
para o
público
Trabalha
para
empresas
Belo Horizonte 79,0 72,9 53,2 19,7 6,1 12,5 7,9 4,6 7,4 (1)
Distrito Federal 80,0 69,8 49,0 20,8 10,2 9,8 5,2 4,6 7,1 (1)
Porto Alegre 86,0 78,0 58,4 19,6 8,0 7,7 4,5 3,2 3,0 (1)
Recife 69,8 61,2 36,9 24,3 8,6 17,5 8,4 9,1 7,1 (1)
Salvador 71,6 64,5 39,8 24,7 7,1 18,6 14,3 4,3 7,2 (1)
São Paulo 80,4 76,9 49,3 27,6 3,5 11,3 4,0 7,4 5,3 (1)
Convênio DIEESE/Seade, MTE/FAT e convênios regionais. PED – Pesquisa de Emprego e Desemprego.
Elaboração: DIEESE.
(ENADE/2012) A tabela abaixo apresenta a taxa de rotatividade no mercado formal brasileiro entre 2007 e 2009. Com
relação a esse mercado, sabe-se que setores como o da construção civil e o da agricultura têm baixa participação no total
de vínculos trabalhistas e que os setores de comércio e serviços concentram a maior parte das ofertas. A taxa média
nacional é a taxa média de rotatividade brasileira no período, excluídos transferências, aposentadorias, falecimentos e
desligamentos voluntários.
Taxa de rotatividade por setores de atividade econômica: 2007-2009
Setores
Taxa de rotatividade (%), excluídos transferências, aposentadorias,
falecimentos e desligamentos voluntários
 2007 2008 2009
Total 34,3 37,5 36,0
Extrativismo mineral 19,3 22,0 20,0
Indústria de transformação 34,5 38,6 36,8
Serviço industrial de utilidade pública 13,3 14,4 17,2
Construção civil 83,4 92,2 86,2
Comércio 40,3 42,5 41,6
Serviços 37,6 39,8 37,7
Administração pública direta e autárquica 8,4 11,4 10,6
Agricultura, silvicultura, criação de animais,
extrativismo vegetal
79,9 78,6 74,4
Disponível em: <http://portalmte.gov.br>. Acesso em: 12 jul. 2012 (adaptado).
I.
II.
III.
IV.
a)
b)
c)
d)
e)
2.10
I.
II.
III.
IV.
a)
b)
c)
d)
e)
Com base nesses dados, avalie as afirmações seguintes.
A taxa média nacional é de, aproximadamente, 36%.
O setor de comércio e o de serviços, cujas taxas de rotatividade estão acima da taxa média nacional, têm ativa
importância na taxa de rotatividade, em razão do volume de vínculos trabalhistas por eles estabelecidos.
As taxas anuais de rotatividade da indústria de transformação são superiores à taxa média nacional.
A construção civil é o setor que apresenta a maior taxa de rotatividade no mercado formal brasileiro no período
considerado.
É correto apenas o que se afirma em:
 I e II;
I e III;
III e IV;
I, II e IV;
II, III e IV.
(ENADE/2013) Na tabela a seguir, é apresentada a distribuição do número de empregos formais registrados em uma cidade
brasileira, consideradas as variáveis setores de atividade e gênero, de acordo com a Relação Anual de Informações
Sociais (RAIS). Com base nas informações da tabela apresentada, avalie as afirmações a seguir.
O setor com o melhor desempenho em termos percentuais foi o da Administração Pública, com a geração de 7.490
postos de trabalho entre 2010 e 2011.
De uma forma geral, comparando-se os dados de gênero, as mulheres vêm ocupando mais postosde trabalho na
Administração Pública e perdendo postos na Construção civil.
Entre 2010 e 2011, o aumento na distribuição dos postos de trabalho entre homens e mulheres foi mais equilibrado
que o ocorrido entre 2009 e 2010.
O setor com o pior desempenho total entre 2010 e 2011 foi o da Agropecuária, extração vegetal, caça e pesca, que
apresentou aumento de somente 7 postos de trabalho.
É correto apenas o que se afirma em:
I e II;
I e IV;
III e IV;
I, II e III;
II, III e IV.
Número de empregos formais por total de atividades e gênero, de 2009 a 2011
IBGE Setor
Número de empregos formais
por total das atividades –
2009
Número de empregos formais
por total das atividades –
2010
Número de empregos formais
por total das atividades –
2011
Total Masculino Feminino Total Masculino Feminino Total Masculino Feminino
Total 106.347 78.980 27.367 115.775 85.043 30.732 132.709 93.710 38.999
1 – Extrativa
mineral
24.504 22.186 2.318 26.786 24.236 2.550 26.518 23.702 2.816
2 – Indústria
de
transformação
12.629 10.429 2.200 14.254 12.031 2.223 14.696 12.407 2.289
Fonte:
3 – Serviços
industriais de
utilidade
pública
421 363 58 612 543 69 813 703 110
4 –
Construção
civil
9.279 8.242 1.037 7.559 6.587 972 7.563 7.070 493
5 – Comércio 12.881 7.869 5.012 14.440 8.847 5.593 15.436 9.516 5.920
6 – Serviços 38.945 26.460 12.485 43.148 29.044 14.104 51.210 34.304 16.906
7 –
Administração
pública
7.217 2.996 4.221 8.527 3.343 5.184 16.017 5.599 10.418
8 –
Agropecuária,
extração
vegetal, caça
e pesca
471 435 36 449 412 37 456 409 47
RAIS/MTE (adaptado).
3.1
Figura 3.1 –
3
REPRESENTAÇÃO GRÁFICA
 Introdução
A representação gráfica consiste em organizar os dados coletados em desenhos, tendo o objetivo de dar uma clara e rápida
interpretação a esses dados, embora muitas vezes não transmita ideias com exatidão. Seu traçado deve ser preciso, simples e
claro, evitando interpretações errôneas.
Na sua apresentação, o desenho deve vir acompanhado de título e fonte, e, quando necessário, legenda e observações ou
notas de rodapé (Figura 3.1). O título, a fonte e as notas seguem as mesmas instruções das tabelas, e sua identificação pode ser
feita como gráfico ou como figura. Já a legenda deve ser utilizada quando, num mesmo gráfico, são apresentadas duas ou mais
variáveis identificadas por linhas, cores ou hachuras diferentes. Esses elementos podem se apresentar envoltos por uma moldura.
Mais detalhes sobre formatação de gráficos podem ser encontrados em INSTITUTO PARANAENSE DE
DESENVOLVIMENTO ECONÔMICO E SOCIAL (2000a).
 Principais elementos de um gráfico
O traçado de um gráfico exige a adoção de uma escala que é uma relação entre uma medida de distância real e a quantidade
que está sendo representada. Ela é arbitrária e interfere em seu tamanho. No eixo vertical do gráfico da Figura 3.1, por exemplo,
uma unidade de medida está representando uma taxa de desmatamento de 5.000 km2/ano.
Figura 3.2 –
3.2
Figura 3.3 –
Frequentemente, em virtude da magnitude dos dados a serem representados, é possível ocorrer um espaço inútil entre o
desenho que representa o fato e um dos eixos, que pode ser eliminado. Quando isso acontecer, é aconselhável evidenciar
utilizando o símbolo corta papel ou uma linha em zigue-zague (Figura 3.2). O uso de uma escala interrompida, entretanto, deve
ser feito com cautela, uma vez que ela distorce parcialmente a perspectiva do gráfico, isto é, uma pequena variação na intensidade
do fenômeno pode parecer de grandes proporções.
 Símbolos para evidenciar escala interrompida
 Tipos de gráficos
Existem vários tipos de gráficos: diagramas, estereogramas, pictogramas, cartogramas, fluxogramas e organogramas.
Os diagramas são gráficos geométricos construídos em duas dimensões (Figura 3.1), enquanto os estereogramas são gráficos
geométricos construídos em três dimensões (Figura 3.3). Os pictogramas utilizam ilustrações do fato que está sendo apresentado
(Figura 3.4). Os cartogramas são representações em cima de cartas geográficas (Figura 3.5). Os fluxogramas mostram a sequência
de um processo (Figura 3.6), enquanto os organogramas servem para mostrar a hierarquia dentro de uma organização (Figura
3.7).
 Influência da adição das fontes de nitrogênio e fósforo na atividade da poligalacturonase para 30 horas de
fermentação, fixando-se a umidade em 40% – Laboratório X – 2007
Fonte:
Figura 3.4 –
Fonte:
Figura 3.5 –
Adaptada de Santos et al. (2008).
 Gap tecnológico: tempo para as inovações tecnológicas chegarem ao Brasil – 1878-2008
Adaptada de <http://www.projetoderedes.com.br/aulas/apresentacoes>.
 Clima no Brasil – 2010
Fonte:
Figura 3.6 –
<http://www.guianet.com.br/>.
 Etapas da produção de peças de fundição – Empresa X – 2012
Fonte:
Figura 3.7 –
Silva e Morabito (2004).
 Estrutura organizacional da Universidade Federal Fluminense – Niterói – 2012
Fonte:
3.3
3.4
Figura 3.8 –
<http://www.uff.br/sites/default/files/images/uff-organograma-geral-1.jpg>.
 Diagramas
Os gráficos mais utilizados em trabalhos científicos para apresentação de resultados são os diagramas e, entre estes, os
diagramas em colunas, em barras e em setores para variáveis qualitativas; e histograma e gráfico em linhas para variáveis
quantitativas. O diagrama de Pareto também é bastante utilizado por ser muito útil para a tomada de decisão.
Para análise de algumas propriedades técnicas dos dados são muito empregados o histograma, o ramo e folhas, o diagrama
de caixas (box plot), o diagrama dos quantis e o diagrama de dispersão.
 Diagrama em colunas
Neste tipo de diagrama (Figura 3.8), são traçadas várias colunas ou barras verticais, uma para cada categoria, que devem
apresentar a mesma largura. A altura deve ser proporcional a sua frequência (absoluta ou percentual), e os espaços entre elas
costumam variar de metade até 2/3 de sua largura. É usual organizá-las de uma forma sistemática para facilitar a interpretação do
fato apresentado: se a escala for nominal, as colunas devem ser ordenadas pela sua magnitude; se for ordinal, pela hierarquia
entre as categorias. Se for utilizado para representar uma série histórica, deve ser utilizada a ordem cronológica. Categorias gerais
(“outros”, “demais” etc.) aparecerão representadas na última ou primeira coluna, mesmo que sua altura exceda a de alguma outra
barra vertical, uma vez que aquela representa o agrupamento de classes menos importantes.
A Figura 3.8 apresenta a opinião dos concluintes, em determinado ano, dos cursos de Engenharia Civil no Brasil sobre a
extensão da prova ENADE, de acordo com o tempo para sua realização, onde é possível constatar que uma maior quantidade de
alunos considerou sua extensão adequada. O diagrama em colunas também pode ser usado para representar séries compostas
(mais de uma variável), sendo possível o traçado de colunas justapostas, superpostas ou complementares.
Na construção do diagrama com colunas justapostas, para cada categoria da variável colocada no eixo horizontal, são
traçadas diversas colunas: uma para cada categoria da outra variável. Seu uso é indicado quando se deseja comparar as categorias
de uma variável com categorias da outra variável, possibilitando que se tenha ideia da distribuição dos resultados em cada
categoria desta variável. A Figura 3.9 apresenta a opinião dos concluintes dos cursos de Engenharia Civil no Brasil e de uma
instituição de ensino superior (FURG) sobre a extensão da prova ENADE, de acordo com o tempo para sua realização, onde é
possível constatar que, tanto para alunos da FURG, como para alunos do Brasil, um maior percentual de alunos considerou o
tempo para realização da prova adequado. Também é possível constatar que nas categorias extensão muito longa e curta, o
percentual de alunos é maior na FURG. Nessa instituição, nenhum aluno considerou a prova muito curta.
 Opinião dos concluintes dos cursos de Engenharia Civil sobre a extensão da prova ENADE, de acordo com o
tempo para sua realização – Brasil – 2008
Fonte:
Figura 3.9 –
Fonte:
Figura 3.10 –Fonte:
Relatório INEP sobre avaliação do curso de Engenharia Civil/FURG.
Na construção do diagrama com colunas superpostas, para cada categoria da variável colocada no eixo horizontal, é traçada
uma única coluna dividida em tantas partes quantas categorias existirem na outra variável. Dessa forma, fica evidenciada a
distribuição dos resultados de uma das variáveis por categoria da outra variável. A Figura 3.10 apresenta a distribuição das
viagens urbanas na cidade do Rio de Janeiro em dois anos: 1950-2005, na qual é possível constatar, por exemplo, que de
aproximadamente 1,7 bilhão de viagens realizadas de ônibus, aproximadamente 200 milhões ocorreram em 1950 e
aproximadamente 1,5 bilhão ocorreram em 2005.
 Opinião dos concluintes dos cursos de Engenharia Civil sobre a extensão da prova ENADE, de acordo com o
tempo para sua realização – FURG/Brasil – 2008
Relatório INEP sobre avaliação do curso de Engenharia Civil/FURG.
 Distribuição das viagens urbanas na cidade do Rio de Janeiro – 1950-2005
Brasil (2011).
Na construção do diagrama com colunas complementares, o eixo vertical é graduado em percentagem, sendo traçada uma
coluna para cada categoria de uma das variáveis com altura de 100%, que será dividida em partes proporcionais às categorias da
outra variável. A Figura 3.11 apresenta a distribuição das viagens urbanas na cidade do Rio de Janeiro, na qual é possível
constatar, por exemplo, que do total de viagens realizadas de ônibus, aproximadamente 12% ocorreram em 1950 e
Figura 3.11 –
Fonte:
3.5
Figura 3.12 –
Fonte:
3.6
aproximadamente 88% ocorreram em 2005.
 Distribuição das viagens urbanas na cidade do Rio de Janeiro – 1950-2005
Brasil (2011).
 Diagrama em barras
No diagrama em barras (Figura 3.12), a formação das barras horizontais segue o mesmo critério das colunas. A escolha entre
barras e colunas, normalmente, é feita em função da forma de identificação (nome) das categorias. Se forem extensas, são usadas
barras; caso contrário, colunas. A Figura 3.12 apresenta o consumo de alguns tipos de matérias-primas, ocorrido na indústria de
plásticos brasileira no ano de 2010, ficando evidenciado que a mais consumida é resina poliéster, seguida de fibra de vidro.
 Consumo de algumas matérias-primas, Indústria de Plásticos – Brasil – 2010
Adaptada de <http://blogdoplastico.wordpress.com/tag/compositos/>.
 Diagrama em setores
Esse tipo de gráfico (Figuras 3.13 e 3.14) é utilizado quando se deseja evidenciar as frequências percentuais associadas a
cada categoria de uma variável qualitativa. Um círculo, representando o total de observações (360°), é dividido em setores
Figura 3.13 –
Fonte:
Figura 3.14 –
Fonte:
associados a cada uma das categorias, com tamanhos proporcionais às suas frequências de ocorrência. O tamanho de cada um é
determinado pela transformação de cada frequência em graus por meio de uma regra de três simples. O nome das categorias pode
ser colocado ao lado de cada setor ou esses podem ser marcados com cores ou hachuras diferentes para identificação em uma
legenda.
Da mesma forma que nos gráficos anteriores, é usual organizá-lo de uma forma sistemática para facilitar a interpretação do
fato apresentado: se a escala for nominal, os setores devem ser ordenados por sua magnitude; se for ordinal, pela hierarquia entre
as categorias. Esse tipo de gráfico não é recomendado quando a quantidade de categorias for muito grande (mais que oito).
A Figura 3.13 apresenta as mesmas informações apresentadas na Figura 3.12, mas utilizando valores percentuais, ficando as
predominâncias da resina poliéster e da fibra de vidro mais evidentes. A Figura 3.14 apresenta uma série composta: são as
mesmas informações relativas a dois anos, sendo possível constatar que, de um ano para outro, houve uma diminuição na
proporção de utilização de resina poliéster e fibra de vidro e um aumento na proporção de utilização das demais, principalmente
da resina epóxi.
 Consumo de matérias-primas, Indústria de Plásticos – Brasil – 2010
Adaptada de <http://blogdoplastico.wordpress.com/tag/compositos/>.
 Consumo de matérias-primas – Brasil – 2010-2011
Adaptada de <http://blogdoplastico.wordpress.com/tag/compositos/>.
3.7
Figura 3.15 –
Fonte:
Obs.:
3.8
Figura 3.16 –
 Diagrama polar
Esse tipo de gráfico (Figura 3.15) é utilizado para representar séries temporais cíclicas, isto é, que apresentam determinada
periodicidade. Os dados se distribuem ao longo dos dias da semana, dos meses do ano, das horas do dia etc. Esses são construídos
sobre uma circunferência que é dividida em tantas partes quantas houver no ciclo, traçando-se raios graduados. Sobre cada raio
são marcados os valores observados que, posteriormente, devem ser unidos. É bastante usual traçar uma circunferência com raio
igual à média aritmética dos valores a serem representados.
A Figura 3.15 apresenta as temperaturas mínimas previstas para a cidade de Rio Grande na primeira semana de julho de
2012, na qual é possível constatar que houve uma variação muito grande: de três a 16 graus centígrados.
 Previsão da temperatura mínima (°C) para Rio Grande/RS – primeira semana de julho/2012
<http://tempo1.cptec.inpe.br/cidades/tempo/4397>.
A previsão foi realizada no último dia do mês de junho.
 Diagrama em linhas
Este diagrama (Figura 3.16) é traçado em um sistema de coordenadas cartesianas, sendo especialmente útil na representação
de variáveis que mudam em função do tempo (séries temporais ou cronológicas). Marcam-se pontos que têm como abscissa o
tempo, e, como ordenada, a variável que será apresentada, unindo posteriormente esses pontos. As linhas, normalmente, são mais
eficientes do que as colunas/barras quando existirem flutuações intensas ou necessidade de serem representadas várias séries em
um mesmo gráfico.
A Figura 3.16 apresenta números-índices dos indicadores econômicos no Brasil no período de janeiro de 2000 até dezembro
de 2010, ficando evidenciado que, até o início de 2005, o número-índice oscilou mais, atingindo o valor ligeiramente superior a
quatro em dezembro de 2002. A partir de 2005, os números-índices diminuem e se inicia um período de relativa estabilidade,
havendo uma turbulência entre maio de 2008 e abril de 2009.
 Números-Índices dos Indicadores Econômicos, obtidos do Sistema Nacional de Pesquisa de Custos e Índices
da Construção Civil – Brasil – 2000-2010
Fonte:
3.9
Figura 3.17 –
Fonte:
<http://www.ibge.gov.br/home/>.
 Histograma
O histograma (Figura 3.17) é um tipo de gráfico utilizado para representar variáveis quantitativas contínuas. Pode também
ser utilizado para representar variáveis discretas com uma grande quantidade de diferentes valores, caracterizando-se por ser um
diagrama de área.
 Distribuição do número de tuítes diários postados por duas empresas do setor de eletroeletrônicos com maior
número de seguidores – maio de 2012
Adaptada de Casagrande Júnior (2012).
Esse tipo de gráfico é especialmente útil por fornecer uma ideia da forma da distribuição e seus picos, tendência central,
dispersão e simetria. Ele é composto por colunas que têm como base os intervalos de classes e áreas proporcionais às frequências.
A altura das colunas é associada a uma medida denominada densidade (di), que representa a frequência média de cada classe por
unidade de medida, sendo determinada por: onde ni e Ai representam, respectivamente, a frequência absoluta e a
Figura 3.18 –
Fonte:
Tabela 3.1 –
amplitude da i-ésima classe. Na prática, é usual construí-lo com frequências absolutas (Figura 3.18), frequências relativas
(proporção) e frequências percentuais (porcentagem), o que é permitido se as classes apresentarem a mesma amplitude.
Os dados apresentados na Figura 3.17 se referem à distribuição do número de tuítes diários postados pelas duas empresas do
setor de eletroeletrônicos com maior número de seguidores no Twitter. Existe um pico no intervalo 14 ⊢ 18, com distribuição
similar dos dados acima e abaixo do pico, caracterizando-se por ser aproximadamente simétrica. Fica evidenciadoque o mais
frequente é tuitarem entre 14 e 18 vezes por dia, exclusive este último, o que acontece com uma densidade de 4,5. Isso significa
que cada quantidade de tuítes nesse intervalo (14 ⊢ 18) ocorreu em média em 4,5 dias. As quantidades de tuítes/dia entre 6 ⊢ 14
e entre 22 ⊢ 26 ocorreram com a mesma intensidade, densidade de 2,25. Já as quantidades de tuítes/dia que menos ocorreram
foram entre 2 ⊢ 6 e entre 26 ⊢ 30, com densidade 1,25.
Observação 3.1: Quando a amplitude das classes for constante, o que ocorre na maioria das situações por facilitar a leitura das
informações, a altura das colunas torna-se proporcional à frequência, proporção ou porcentagem, possibilitando a construção do
histograma a partir dessas frequências.
No exemplo considerado, como a distribuição possui intervalo de classe constante, na Figura 3.18, o mesmo diagrama é
construído diretamente das frequências absolutas. Observe que sua forma e suas proporções não se modificam. Entretanto, em
distribuições de frequência com intervalos de classe variável, esta propriedade não se verifica, razão pela qual o histograma deve
ser construído com a estatística d.
 Distribuição do número de tuítes diários postados por duas empresas do setor de eletroeletrônicos com maior
número de seguidores – maio de 2012
Adaptado de Casagrande Júnior (2012).
A Figura 3.19 apresenta o histograma da distribuição de frequências com intervalo de classe variável apresentada na Tabela
3.1. Observe que a relação entre as frequências não é a mesma que entre os valores da estatística d.
Observação 3.2: Se o histograma se apresentar muito irregular e houver uma quantidade suficientemente grande de observações,
essa irregularidade pode ser amenizada com o aumento da amplitude das classes. Esse diagrama é chamado de histograma
alisado.
Observação 3.3: É bastante usual construir o histograma com densidades calculadas a partir de frequências percentuais, o que é
especialmente útil para as funções densidades de probabilidade.
 Distribuição de frequência com intervalo de classe variável
Classes Frequências di
Fonte:
Figura 3.19 –
Fonte:
3.10
Figura 3.20 –
10 ⊢ 20 15 1,5
20 ⊢ 30 22 2,2
30 ⊢ 40 57 5,7
40 ⊢ 50 35 3,5
50 ⊢ 70 26 1,3
70 ⊢ 90 17 0,85
90 ⊢ 100 10 1
Fictícia.
 Histograma de uma distribuição de frequência com intervalo de classe variável
Fictícia.
 Polígono de frequência
O traçado deste diagrama (Figura 3.20) é similar ao traçado do histograma, caracterizando-se por ser também um gráfico de
área. Marcam-se pontos que têm como coordenadas o ponto médio de uma classe e sua densidade. Unem-se os pontos e,
posteriormente, os extremos da linha traçada com o eixo das abscissas (ponto médio das classes imediatamente inferior à primeira
e imediatamente posterior à última com amplitudes de classe iguais, respectivamente, a primeira e última classe). O polígono
traçado tem área igual à do histograma, podendo ser interpretado de maneira similar (Figura 3.21).
Diferentemente do histograma, entretanto, tem-se uma densidade ou frequência para cada valor da variável considerada no
eixo horizontal. Também é possível construí-lo a partir das frequências absolutas se as classes apresentarem a mesma amplitude
(Figura 3.22).
No gráfico da Figura 3.20, que representa os mesmos dados apresentados nas Figuras 3.17 e 3.18, é possível constatar que o
valor 14 tuítes está associado a uma densidade 3,5, o valor 16 tuítes a uma densidade 4,75 e o valor 18 tuítes a uma densidade
3,25, que correspondem às frequências 14, 19 e 13, respectivamente.
 Distribuição do número de tuítes diários postados por duas empresas do setor de eletroeletrônicos com maior
número de seguidores – maio de 2012
Fonte:
Figura 3.21 –
Fonte:
Figura 3.22 –
Adaptada de Casagrande Júnior (2012).
 Histograma e polígono de frequência da distribuição mostrados nas Figuras 3.17 e 3.20
Adaptada de Casagrande Júnior (2012).
 Distribuição do número de tuítes diários postados por duas empresas do setor de eletroeletrônicos com maior
número de seguidores – maio de 2012
Fonte:
3.11
Figura 3.23 –
Fonte:
3.12
Adaptada de Casagrande Júnior (2012).
 Ogiva
Esse diagrama (Figura 3.23) também é traçado em um sistema de coordenadas cartesianas que apresenta o eixo das abscissas
graduado de acordo com a variável apresentada em classes e o eixo das ordenadas em valores acumulados de frequências. A
partir do limite inferior da primeira classe, associado à frequência zero, traça-se uma linha poligonal ascendente definida por
pontos que têm como coordenadas o limite superior da classe e a respectiva frequência acumulada.
De acordo com o gráfico apresentado na Figura 3.23, é possível constatar que em cinco dias a quantidade de tuítes foi
inferior a 6; em 14 dias, a quantidade de tuítes foi inferior a 10; em 23 dias, a quantidade de tuítes foi inferior a 14; em 42 dias, a
quantidade de tuítes foi inferior a 18; e assim sucessivamente. Esse gráfico é útil para determinar a quantidade de ocorrências
inferiores a qualquer valor pertencente ao intervalo [xmín; xi].
 Distribuição do número de tuítes diários postados pelas duas empresas do setor de eletroeletrônicos com maior
número de seguidores – maio de 2012
Adaptada de Casagrande Júnior (2012).
 Ramo e folhas
Esse tipo de gráfico é especialmente útil no estudo de variáveis quantitativas por fornecer uma ideia da forma da distribuição
Figura 3.24 –
Fonte:
Figura 3.25 –
e seus picos, tendência central, dispersão, simetria, lacunas e outliers. Sua construção consiste em uma reorganização espacial das
informações, dividindo cada uma dessas em duas partes: a primeira, colocada à esquerda de uma linha vertical, é denominada
ramo, e a segunda, colocada à direita dessa linha, é denominada folha. Essa divisão, normalmente, é feita separando dezenas e
unidades, centenas e dezenas, e assim sucessivamente.
O usual é considerar uma linha por ramo, caso em que as folhas poderiam ser de 0 a 9 ou iniciar com esses dígitos.
Entretanto, existe a possibilidade de subdividir um ramo em mais linhas, desde que se preserve o seu comprimento. Para duas
linhas por ramo, por exemplo, as folhas seriam de 0 a 4 para a primeira linha e de 5 a 9 para a segunda. Para cinco linhas por
ramo, as folhas seriam 0 e 1 para a primeira linha, 2 e 3 para a segunda linha, 4 e 5 para a terceira linha, 6 e 7 para a quarta linha e
8 e 9 para a quinta linha.
Os valores a seguir, obtidos no caderno de registro de notas de uma universidade, referem-se às notas obtidas por 70
estudantes na avaliação do primeiro bimestre da disciplina de Probabilidade e Estatística aplicada à Engenharia.
0 23 28 32 39 49 54 63 67 72
0 24 28 32 40 49 55 63 67 74
0 25 28 32 41 50 56 64 67 77
0 25 30 34 41 52 58 64 68 78
0 26 30 36 44 53 58 65 70 85
0 26 30 38 45 53 59 66 70 86
19 26 30 38 46 53 62 66 72 87
Os dados representados por meio do ramo e folhas estão na Figura 3.24, sendo consideradas as dezenas como ramos e as
unidades como folhas. O gráfico sugere que existem dois picos: um no ramo 3 e outro no ramo 6.
 Notas na disciplina de Probabilidade e Estatística aplicada à Engenharia, primeiro bimestre – FURG – 2011.
0 0 0 0 0 0 0 
1 9 
2 3 4 5 5 6 6 6 8 8 8 
3 0 0 0 0 2 2 2 4 6 8 8 9
4 0 1 1 4 5 6 9 9 
5 0 2 3 3 3 4 5 6 8 8 9 
6 2 3 3 4 4 5 6 6 7 7 7 8
7 0 0 2 2 4 7 8 
8 5 6 7 
Caderno de registro de notas.
Os ramos 2 e 5 também aparecem com muitas folhas, razão pela qual optou-se por dividi-los (Figura 3.25). Neste segundo
gráfico, os dois picos ficam mais evidentes, sendo também possível identificar duas lacunas.
Observação 3.4: É importante representar todos os ramos independentemente de não existirem informações a serem
representadas.
Observação 3.5: É bastante usual apresentar a quantidade de folhas existentes em cada ramo, o que pode ser feito em uma coluna
à esquerda da identificação dos ramos (Figura 3.26).
 Notas na disciplina de Probabilidade e Estatística aplicada à Engenharia, primeiro bimestre – FURG – 2011
Fonte:Figura 3.26 –
Fonte:
0 0 0 0 0 0 0 
0 
1 
1 9 
2 3 4 
2 5 5 6 6 6 8 8 8
3 0 0 0 0 2 2 2 4
3 6 8 8 9 
4 0 1 1 4 
4 5 6 9 9 
5 0 2 3 3 3 4 
5 5 6 8 8 9 
6 2 3 3 4 4 
6 5 6 6 7 7 7 8 
7 0 0 2 2 4 
7 7 8 
8 
8 5 6 7 
Caderno de registro de notas.
 Notas na disciplina de Probabilidade e Estatística aplicada à Engenharia, primeiro bimestre – FURG – 2011
Freq. Ramo Folhas
6 0 0 0 0 0 0 0 
1 1 9 
10 2 3 4 5 5 6 6 6 8 8 8 
12 3 0 0 0 0 2 2 2 4 6 8 8 9
8 4 0 1 1 4 5 6 9 9 
11 5 0 2 3 3 3 4 5 6 8 8 9 
12 6 2 3 3 4 4 5 6 6 7 7 7 8
7 7 0 0 2 2 4 7 8 
3 8 5 6 7 
Caderno de registro de notas.
Observação 3.6: Outra informação que pode ser registrada neste gráfico é a profundidade, representando a menor posição do
elemento em relação às duas extremidades do conjunto. Nesse caso, o ramo que contém o elemento central é identificado com a
Figura 3.27 –
Fonte:
Figura 3.28 –
respectiva frequência que é colocada entre parênteses (Figura 3.27).
Observação 3.7: A escolha do número de ramos depende de critérios adotados pelo autor do gráfico. Um dos possíveis
procedimentos, proposto por Dixon e Kronmal, consiste em considerar o número de ramos (k) igual ao maior inteiro inferior a
10*log n, onde n representa o número de observações. Esse procedimento é considerado ideal se 20 ≤ n ≤ 300. Já Velleman
propõe que o número de ramos seja o maior inteiro inferior a . Usando k como limite para o número de linhas, necessita-se
determinar os comprimentos dos intervalos correspondentes a cada linha, o que pode ser feito dividindo-se a amplitude total (xmáx
– xmín) por k. O resultado normalmente é arredondado até a potência de 10 mais próxima.
Por exemplo: se n = 70, o número de ramos será: k = 10*log 70 = 18,45 = 18. O comprimento ideal de cada linha é dado por
c = (87 – 0)/18 = 4,83. As potências de 10 mais próximas desse resultado são 1 (= 100) e 10 (= 101). No exemplo apresentado nas
Figuras 3.24, 3.25 e 3.26, optou-se por considerar cada ramo como uma dezena.
 Notas na disciplina de Probabilidade e Estatística aplicada à Engenharia, primeiro bimestre – FURG – 2011
Prof. Ramo Folhas
6 0 0 0 0 0 0 0 
7 1 9 
17 2 3 4 5 5 6 6 6 8 8 8 
29 3 0 0 0 0 2 2 2 4 6 8 8 9
(8) 4 0 1 1 4 5 6 9 9 
33 5 0 2 3 3 3 4 5 6 8 8 9 
22 6 2 3 3 4 4 5 6 6 7 7 7 8
10 7 0 0 2 2 4 7 8 
3 8 5 6 7 
Caderno de registro de notas.
Observação 3.8: Quando o conjunto analisado for formado por valores com ordem de grandeza muito diferentes, é possível fazer
variar o critério para determinação dos ramos. Por exemplo, suponha que o conjunto de informações analisadas possui valores
entre 70 e 5.100. É possível considerar inicialmente os ramos como sendo as dezenas, posteriormente, alterar para as centenas e,
posteriormente, para milhar. Nesse caso, deve existir uma linha horizontal evidenciando a mudança de critério (Figura 3.28).
 Produção, em toneladas de dado produto – Empresa X – 2012
Ramo Folhas
7 0 
8 
9 0 
1 20 70 80 80
2 00 40 50 80
3 60 
4 80 
5 00 60 
6 
Fonte:
3.13
Figura 3.29 –
Fonte:
Figura 3.30 –
7 
8 70 
9 
1 000 050 100 
2 
3 
4 200 
5 100 
Adaptada de Bussab e Moretin (2002).
 Diagrama de dispersão
Esse tipo de diagrama é utilizado para mostrar como os dados variam. Na prática, o diagrama de dispersão bivariado,
envolvendo duas variáveis, é bastante utilizado por permitir uma primeira avaliação, ainda que superficial, da relação entre essas
variáveis. É construído em um sistema de coordenadas cartesianas. Nesse sistema, são plotados pontos que representam um par
de resultados das variáveis observadas.
A Figura 3.29 apresenta um diagrama de dispersão bivariado com informações a respeito do fator água/cimento (quantidade
de água e cimento colocados em um concreto) e a respectiva carga suportada pelo corpo de prova (kgf/cm2) aos 21 dias do
processo de cura. A análise gráfica sugere que o aumento no fator água/cimento diminui a carga suportada pelo corpo de prova.
 Relação entre fator água/cimento e carga suportada pelo corpo de prova de concreto – Laboratório de Materiais
de Construção – FURG – 2011
Ahrens et al. (2011).
Esse tipo de diagrama pode ser construído para apenas uma variável (diagrama de dispersão univariado), como o mostrado
na Figura 3.30, onde apenas a variabilidade da carga suportada pelo corpo de prova pode ser analisada. Nesse gráfico, fica
evidenciado que a variável não apresenta grande variabilidade.
 Carga suportada pelo corpo de prova de concreto – Laboratório de Materiais de Construção – FURG – 2011
Fonte:
3.14
Figura 3.31 –
Ahrens et al. (2011).
 Diagrama de Pareto
Baseia-se no Princípio de Pareto: “os poucos vitais e os muitos triviais”, sendo recomendado para definir prioridades entre
categorias de variáveis qualitativas (identificação das poucas vitais). É construído de maneira similar aos gráficos em
colunas/barras, colocando-as em ordem decrescente de acordo com a frequência de ocorrência da categoria que representam.
Também é traçada uma linha para representar a frequência percentual acumulada dessas categorias.
A Figura 3.31 apresenta defeitos identificados em uma amostra de blocos cerâmicos de uma olaria de Pelotas, onde é
possível observar que o defeito mais frequente é a ocorrência de fissuras, seguido de ocorrência de fendas, problemas de
esquadro, planeza e amassamentos.
Pelo diagrama, também é possível concluir que, se forem desenvolvidas ações que eliminem a ocorrência de fissuras, são
eliminados em torno de 61% dos defeitos. Se forem implementadas ações que eliminem também a ocorrência de fendas, são
eliminados 75% dos defeitos, e assim sucessivamente.
 Defeitos em blocos cerâmicos – Olaria Y – Pelotas – 1997
Fonte:
3.15
Figura 3.32 –
Figura 3.33 –
Adaptada de Mattos (1997).
 Escala logarítmica
Os gráficos apresentados anteriormente utilizaram escala decimal, evidenciando a variabilidade dos resultados em termos de
valores absolutos: variações iguais são representadas por distâncias iguais (Figura 3.32 (a)).
Quando for conveniente evidenciar a proporção com que os resultados variam, deve ser utilizada a escala logarítmica, onde
variações iguais nas proporções são representadas por distâncias iguais (Figura 3.32 (b)).
 Tipos de escala
Na construção dessa escala, cada valor é marcado em seu logaritmo. Por exemplo: log 1 = 0, então o valor um é marcado no
ponto zero; log 2 = 0.3010, então o valor dois é marcado no ponto 0,3010; log 3 = 0,4771, então o três é marcado no ponto
0,4771; log 4 = 0,6020, então o quatro é marcado no ponto 0,6020; e assim sucessivamente. Observe que de um para dois há um
aumento de 100%, o mesmo ocorrendo de dois para quatro. Isso significa que a distância entre um e dois (0,3010 – 0 = 0,3010)
deve ser a mesma que entre dois e quatro (0,6020 – 0,3010 = 0,3010).
Os gráficos da Figura 3.33 apresentam dados que se referem aos lucros anuais de uma empresa no período 2000-2009. No
gráfico (a) foi utilizada uma escala decimal, ficando evidenciado que os lucros anuais estão aumentando de maneira constante:
um milhão de reais a cada ano. Entretanto, embora essa informação seja verdadeira, é interessante considerar que, mesmo que os
lucros estejam aumentando, isso está ocorrendo em proporções cada vez menores.
 Lucros anuais da Empresa ABC – 2000-2009
Fonte:
Tabela 3.2 –
Fictícia.
De 2000 para 2001, houve um aumento de 100%; de 2001 para 2002, houve um aumento de 50%; de 2002 para 2003, o
aumento foi de 33,33%; de 2003 para 2004, o aumento foi de 25%, e assim sucessivamente. Essa variação percentual fica
evidenciada com a utilização de escala logarítmica (gráfico (b)).
 Lucros anuais da Empresa ABC e seus logaritmos – 2000-2009
Ano Lucro (milhões de reais) y log y 10 (log y)
2000 1 – –
2001 2 0,3010 3,0
2002 3 0,4771 4,8
2003 4 0,6021 6,0
2004 50,6990 7,0
2005 6 0,7782 7,8
2006 7 0,8451 8,5
2007 8 0,9031 9,0
2008 9 0,9542 9,5
2009 10 1,0000 10,0
Fonte:
3.16
3.1
a)
b)
c)
d)
e)
Fonte:
Fictícia.
 Considerações finais
Neste capítulo, foi abordada a representação gráfica. Foi visto que a representação gráfica consiste em organizar os dados
coletados em desenhos, tendo o objetivo de dar uma clara e rápida interpretação dos dados, embora muitas vezes não transmita
ideias com precisão. Foram também apresentados vários tipos de gráficos, dos quais podemos destacar: diagramas,
estereogramas, pictogramas, cartogramas, fluxogramas e organogramas. Ênfase especial foi dada aos diagramas, os mais
utilizados em trabalhos científicos. Ao se trabalhar com a representação gráfica, deve-se ter cuidado na definição da escala
utilizada na representação dos dados. Há situações em que se utiliza a escala decimal, evidenciando a variabilidade dos resultados
em termos de valores absolutos. Entretanto, quando é necessário evidenciar a proporção com a qual os resultados variam, deve
ser utilizada a escala logarítmica.
Aplicações
(ENADE/2004) Os países em desenvolvimento fazem grandes esforços para promover a inclusão digital, ou seja, o acesso, por
parte de seus cidadãos, às tecnologias da era da informação. Um dos indicadores empregados é o número de hosts, ou
seja, número de computadores que estão conectados à Internet. A tabela e o gráfico abaixo mostram a evolução do
número de hosts nos três países que lideram o setor na América Latina.
Dos três países, os que apresentaram, respectivamente, o maior e o menor crescimento percentual no número de hosts no
período 2000-2004 foram:
Brasil e México;
Brasil e Argentina;
Argentina e México;
Argentina e Brasil;
México e Argentina.
Número de hosts
País 2000 2001 2002 2003 2004
Brasil 446.444 876.596 1.644.575 2.237.527 3.163.349
México 404.873 559.165 918.288 1.107.795 1.333.406
Argentina 142.470 270.275 465.359 495.920 742.358
Internet Systems Consortium, 2004.
Fonte:
3.2
3.3
Internet Systems Consortium, 2004.
 (ENADE/2005, adaptado de questão discursiva) Nos dias atuais, as novas tecnologias se desenvolvem de forma acelerada e a
Internet ganha papel importante na dinâmica do cotidiano das pessoas e da economia mundial. No entanto, as conquistas
tecnológicas, ainda que representem avanços, promovem consequências ameaçadoras. Apresente uma conclusão que
possa ser extraída da análise dos dois gráficos que fornecem informações sobre internautas em diferentes países.
 (ENADE/2006, adaptada) A legislação de trânsito brasileira, em 2006, considerava que o condutor de um veículo estava
dirigindo alcoolizado quando o teor alcoólico de seu sangue excedia 0,6 gramas de álcool por litro de sangue. O gráfico
abaixo mostra o processo de absorção e eliminação do álcool quando um indivíduo bebe, em um curto espaço de tempo,
de uma a quatro latas de cerveja.
a)
b)
c)
d)
e)
3.4
a)
b)
c)
d)
e)
Considere as afirmativas a seguir.
I – O álcool é absorvido pelo organismo muito mais lentamente do que é eliminado.
II – De acordo com a legislação vigente em 2006, uma pessoa que fosse dirigir imediatamente após a ingestão da bebida
poderia consumir, no máximo, duas latas de cerveja.
III – Se uma pessoa toma rapidamente quatro latas de cerveja, o álcool contido na bebida só é completamente eliminado
após se passarem cerca de sete horas da ingestão.
Está(ão) correta(s) a(s) afirmativa(s):
II;
I e II;
I e III;
II e III;
I, II e III.
 (ENADE/2007) Os países em desenvolvimento fazem grandes esforços para promover a inclusão digital, ou seja, o acesso,
por parte de seus cidadãos, às tecnologias da era da informação. Um dos indicadores empregados é o número de hosts,
isto é, o número de computadores que estão conectados à Internet. A tabela e o gráfico abaixo mostram a evolução do
número de hosts nos três países que lideram o setor na América do Sul. Dos três países, os que apresentaram,
respectivamente, o maior e o menor crescimento percentual no número de hosts, no período 2003-2007, foram:
Brasil e Colômbia;
Brasil e Argentina;
Argentina e Brasil;
Colômbia e Brasil;
Colômbia e Argentina.
País 2003 2004 2005 2006 2007
Brasil 2.237.527 3.163.349 3.934.577 5.094.730 7.422.440
Fonte:
Fonte:
3.5
a)
b)
c)
d)
e)
Argentina 495.920 742.358 1.050.639 1.464.719 1.837.050
Colômbia 55.626 115.158 324.889 440.585 721.114
IBGE (Network Wizards, 2007).
IBGE (Network Wizards, 2007).
(ENADE/2008) Apesar do progresso verificado nos últimos anos, o Brasil continua sendo um país em que há uma grande
desigualdade de renda entre os cidadãos. Uma forma de se constatar este fato é por meio da Curva de Lorenz, que fornece,
para cada valor de x entre 0 e 100, o percentual da renda total do país auferido pelos x% de brasileiros de menor renda.
Por exemplo, na Curva de Lorenz para 2004, apresentada a seguir, constata-se que a renda total dos 60% de menor renda
representou apenas 20% da renda total. De acordo com o mesmo gráfico, o percentual da renda total correspondente aos
20% de maior renda foi, aproximadamente, igual a:
20%;
40%;
50%;
60%;
80%.
3.6
a)
b)
c)
d)
e)
(ENADE/2011) O ritmo de desmatamento na Amazônia Legal diminuiu no mês de junho de 2011, segundo levantamento feito
pela organização ambiental brasileira Imazon (Instituto do Homem e Meio Ambiente da Amazônia). O relatório elaborado
pela ONG, a partir de imagens de satélite, apontou desmatamento de 99 km2 no bioma em junho de 2011, uma redução de
42% no comparativo com junho de 2010. No acumulado entre agosto de 2010 e junho de 2011, o desmatamento foi de
1.534 km2, aumento de 15% em relação a agosto de 2009 e junho de 2010. O estado de Mato Grosso foi responsável por
derrubar 38% desse total e é líder no ranking do desmatamento, seguido do Pará (25%) e de Rondônia (21%). De acordo
com as informações do mapa e do texto:
foram desmatados 1.534 km2 na Amazônia Legal nos últimos dois anos;
não houve aumento do desmatamento no último ano na Amazônia Legal;
 três estados brasileiros responderam por 84% do desmatamento na Amazônia Legal entre agosto de 2010 e junho de
2011;
o estado do Amapá apresenta alta taxa de desmatamento em comparação aos demais estados da Amazônia Legal;
o desmatamento na Amazônia Legal, em junho de 2010, foi de 140 km2, comparando-se o índice de junho de 2011 ao
índice de junho de 2010.
3.7
a)
b)
c)
d)
e)
(ENADE/2010) Levantamento feito pelo jornal Folha de S. Paulo e publicado em 11 de abril de 2009, com base em dados de
2008, revela que o índice de homicídios por 100 mil habitantes no Brasil varia de 10,6 a 66,2. O levantamento inclui
dados de 23 estados e do Distrito Federal. De acordo com a Organização Mundial da Saúde (OMS), áreas com índices
superiores a 10 assassinatos a cada 100.000 habitantes são consideradas zonas epidêmicas de homicídios. A partir das
informações do texto e do gráfico a seguir, pode-se concluir:
 o índice de homicídios em 2008 no estado da Paraíba é superior ao do estado de São Paulo;
os estados que não divulgaram os seus dados de homicídios encontram-se na região Centro-Oeste;
a média aritmética das taxas de homicídios por 100 mil habitantes da região Sul é superior à taxa média aproximada do
Brasil;
a taxa de homicídios por 100 mil habitantes do estado da Bahia, em 2008, supera a do Rio Grande do Norte em mais de
100%;
Roraima é o estado com menor taxa de homicídios por 100 mil habitantes, não se caracterizando como zona epidêmica
de homicídios.
3.8
a)
b)
c)
d)
e)
 (ENADE/2012) Segundo a pesquisa Retratos da Leitura no Brasil, realizada pelo Instituto Pró-Livro, a média anual brasileira
de livros lidos por habitante era, em 2011, de 4,0. Em 2007, esse mesmo parâmetro correspondia a 4,7 livros por
habitante/ano. De acordo com as informações apresentadas no texto e no gráfico, verifica-se que:
metade da população brasileira é constituída de leitores que tendem a ler mais livros a cada ano;
o Nordeste é a região do Brasil em que há a maiorproporção de leitores em relação à sua população;
o número de leitores, em cada região brasileira, corresponde a mais da metade da população da região;
o Sudeste apresenta o maior número de leitores do país, mesmo tendo diminuído esse número em 2011;
a leitura está disseminada em um universo cada vez menor de brasileiros, independentemente da região do país.
Tabela 3.9 –
Fonte:
3.9
3.10
Construir um histograma e um polígono de frequência a partir das informações apresentadas na Tabela 3.9.
 Quantidade de trabalhadores/dia atendidos pelo funcionário da Secretaria de Obras e Meio Ambiente – Rio
Grande, 2013
Trabalhadores Número de dias
10 ⊢ 14 12
14 ⊢ 18 18
18 ⊢ 22 25
22 ⊢ 26 32
26 ⊢ 34 24
34 ⊢ 42 19
42 ⊢ 54 16
54 ⊢ 66 10
Fichas de registro.
Apresentar as informações mostradas no diagrama abaixo em uma distribuição de frequência.
3.11
a)
b)
c)
d)
e)
3.12
(ENADE/2009) O dono de uma lan house quer saber se o tempo de uso da internet por sessão é diferente entre clientes
adultos e jovens. Para isto, ele contratou um Estatístico que coletou uma amostra de clientes nos dois grupos e mediu o
tempo em minutos que cada cliente gastou em sua sessão. Os dados coletados estão resumidos nas duas ogivas mostradas
na figura a seguir.
 
Ogivas do tempo de uso da internet a cada sessão, para jovens e adultos
Com base neste gráfico, o Estatístico pode concluir:
cerca de 50% dos clientes jovens utilizam a internet por 70 minutos a cada sessão;
mais de 50% dos clientes adultos utilizam a internet por mais de 30 minutos a cada sessão;
menos de 5% dos clientes jovens utilizam a internet por mais de 80 minutos a cada sessão;
menos de 10% dos clientes adultos utilizam a internet por até 10 minutos a cada sessão;
menos de 30% dos clientes adultos utilizam a internet de 30 a 60 minutos a cada sessão.
(ENADE/2009) Uma empresa de refrigerantes enche garrafas especificadas para conter dois litros de bebida. O processo de
envasamento é mecanizado. Sendo assim, existe uma variação no volume que é dispensado pela máquina. Para evitar
desperdício de bebida ou garrafas com volume muito abaixo do especificado, o Estatístico responsável pelo controle de
qualidade da empresa acompanha diariamente esse processo de produção. Para tanto, a cada dia, ele seleciona uma
amostra aleatória de 50 garrafas envasadas e mede o volume de seu conteúdo. A figura a seguir mostra os resultados das
amostras em 7 dias consecutivos, resumidos em box plots. Os resultados do primeiro dia mostram um processo de
envasamento satisfatório. Ao final do quarto dia, foi feito um ajuste nas máquinas envasadoras.
A1.
A2.
A3.
A4.
R1.
R2.
R3.
R4.
a)
b)
c)
d)
e)
 
Box plots do volume dispensado
Considere as seguintes afirmativas baseadas na figura:
o volume mediano manteve-se próximo do valor nominal até o quarto dia;
o processo do segundo ao quarto dia não pode ser considerado satisfatório;
o ajuste feito nas máquinas ao final do quarto dia teve o efeito de retornar a variabilidade do processo ao nível
considerado satisfatório;
o processo no quinto e no sexto dia não pode ser considerado satisfatório.
Considere as possíveis justificativas para as afirmativas acima (não necessariamente na mesma ordem):
 porque a distância interquartílica dos volumes está próxima ao valor de 200 ml;
porque o traço horizontal dentro das caixas box plots está próximo ao valor de 2.000 ml;
porque o valor mediano dos volumes está abaixo do especificado;
porque a variabilidade dos volumes despendidos cresceu.
Escolha a alternativa que associa as afirmativas com suas justificativas corretas:
A1 com R2 e A2 com R3;
A1 com R2 e A3 com R1;
A1 com R4 e A3 com R1;
A2 com R2 e A4 com R3;
A2 com R4 e A4 com R4.
4.1
4.2
4.3
4.3.1
4
MEDIDAS DE POSIÇÃO
 Introdução
Nem sempre uma tabela ou um gráfico são convenientes ou suficientes para a síntese de um fenômeno medido
quantitativamente. Muitas vezes, é necessário representar o fato estudado de maneira mais sistemática, o que pode ser feito por
meio das medidas descritivas. Essas representam ou resumem todas as observações de determinado conjunto, descrevendo-o
como um todo, ou seja, sintetizam as propriedades de sua distribuição.
Essas propriedades, normalmente, são representadas pelas seguintes medidas descritivas: medidas de posição, medidas de
dispersão e medidas de forma ou distribuição, podendo ser calculadas considerando dados não agrupados ou dados agrupados.
Atualmente, as medidas calculadas a partir de dados agrupados são muito pouco utilizadas, pois chegam a resultados
aproximados da medida que se quer encontrar, enquanto aquelas calculadas a partir de dados não agrupados são mais exatas. Em
vista disso, o detalhamento de seus cálculos será apresentado sempre ao final de cada capítulo.
A seguir, são apresentadas as principais medidas de posição. Nos Capítulos 5 e 6 são mostradas, respectivamente, as
medidas de dispersão e as medidas de forma ou distribuição.
 Medidas de posição
As medidas de posição são estatísticas que orientam quanto à posição da distribuição dos dados em relação a um eixo
horizontal, subdividindo-se em medidas de tendência central e medidas separatrizes ou quantis.
De maneira geral, os dados tendem a ser mais numerosos em torno de um valor central (valor típico), diminuindo
gradativamente sua frequência à medida que se afastam desse valor. As medidas de tendência central tentam localizar esse valor
central. Assim, essas tendem a ficar no centro de um conjunto de dados. As principais são: média aritmética, moda e mediana.
Já as medidas separatrizes ou quantis são aquelas que dividem o conjunto em partes que contêm determinada proporção de
dados, sendo especialmente úteis quando o conjunto não é simétrico. Os quantis mais usados são: quartis, decis e percentis
(centis).
 Medidas de tendência central
 Média aritmética simples
Em função de suas propriedades matemáticas, a medida de tendência central mais utilizada é a média aritmética, ou
simplesmente média, que pode ser definida como: média aritmética (µ) de um conjunto de N observações x1,x2,...,xN é, por
definição, o quociente entre a soma de todas as observações e o número delas, ou seja:
Exemplo 4.1: Na disciplina anual de Probabilidade e Estatística aplicada à Engenharia, cada estudante recebe uma nota em cada
um dos quatro bimestres e, para ser aprovado sem a realização de exame, deve obter média igual ou superior a 7. Suponha que
um estudante obteve as notas 6,0; 6,3; 7,0 e 7,5.
Considerando que essas foram todas as notas recebidas por esse estudante nessa disciplina, pode-se considerar esse conjunto
de notas como uma população. Assim, aplicando a Expressão 4.1, tem-se:
A nota média desse estudante foi de 6,7, significando que ele necessita fazer exame.
Observação 4.1: Quando o conjunto de dados considerado x1,x2,...,xn representa uma amostra, o símbolo utilizado para
representar a média aritmética é x, logo:
sendo n a quantidade de observações na amostra.
Exemplo 4.2: Em Almeida e Morita (2012), foi relatado um experimento para avaliar a influência da tensão na corrente que fluía
em um circuito, mensurada em Volts (V) por meio de um multímetro. Os dados observados relativos à corrente foram:
0,64 1,24 1,85 2,40 2,99 3,56
Considerando que esses dados representam uma amostra das possíveis correntes, tem-se:
A corrente média é de 2,11 Volts.
Observação 4.2: Quando em um conjunto de dados há observações que se repetem, a quantidade de operações matemáticas a
serem realizadas no cálculo da média aritmética pode ser diminuída. Em vez de somar o mesmo valor várias vezes, é possível
multiplicá-lo por sua frequência de ocorrência. Neste caso, a média pode ser calculada pela Expressão (4.3) se o conjunto de
dados representar uma amostra.
onde: xi é a i-ésima observação da variável; fi é a frequência absoluta associada à i-ésima observação e k é a quantidade de
diferentes observações na amostra. Em se tratando de uma população, basta substituir por µ.Exemplo 4.3: As notas obtidas por 20 alunos na segunda avaliação de uma das turmas da disciplina de Estatística são mostradas
na Tabela 4.1. Calcule a nota média da turma.
Tabela 4.1 –
4.3.2
 Nota dos 20 estudantes na 2a prova de Estatística
Nota (xi) Frequência (fi)
3 1
5 4
6 6
8 5
9 4
Σ 20
Para encontrar a média da turma, as notas obtidas devem ser multiplicadas pela respectiva frequência de ocorrência, ou seja:
A nota média dessa turma na segunda prova foi 6,75.
 Média aritmética ponderada
No cálculo da média aritmética simples, todas as observações têm a mesma importância. Entretanto, algumas vezes, é
conveniente atribuir maior importância para algumas observações, o que pode ser feito por meio de uma média aritmética
ponderada, representada por µp quando representar uma população ou por p quando representar uma amostra. A expressão
utilizada nesse caso é similar à utilizada para o cálculo da média aritmética para dados com repetições, sendo as frequências
substituídas pelos pesos. Logo:
onde: xi é a i-ésima observação da variável; pei é o peso associado à i-ésima observação e k é a quantidade de diferentes
observações na amostra.
Exemplo 4.4: Supondo que as notas do estudante citado no Exemplo 4.1 tivessem pesos diferentes, ou seja, que as notas: 6,0;
6,3; 7,0 e 7,5 tivessem pesos 1; 1; 3 e 4, respectivamente, a nota média desse estudante seria:
Com a utilização da média aritmética ponderada, esse estudante estaria aprovado sem a realização do exame, considerando
que a média para aprovação deve ser maior ou igual a 7,0.
4.3.3
a)
b)
c)
d)
e)
f)
g)
4.3.4
Exemplo 4.5: Na disciplina citada no Exemplo 4.1, quando o estudante não alcançar a média 7,0, deve fazer exame. Para ser
aprovado no exame, deve obter média maior ou igual a 5,0 entre a média aritmética simples das quatro avaliações e a nota do
exame, com pesos respectivamente iguais a 6,0 e 4,0. Se o estudante obteve média 6,7, qual a nota mínima no exame para ser
aprovado?
xi pei
6,7 6
xe 4
xe ≥ 2,45 A nota mínima para ser aprovado é 2,45.
Observação 4.3: Quando em um conjunto de dados uma ou mais observações se repetem, as frequências com que cada uma
aparece podem ser consideradas pesos. Assim, as Expressões 4.3 e 4.4 se equivalem.
 Propriedades da média aritmética
A ampla utilização desta medida se deve a suas propriedades matemáticas, algumas das quais são apresentadas a seguir:
a média de um conjunto de observações é única e definida por uma expressão matemática;
a média é influenciada por todas as observações da série. Assim, se um valor se modifica, a média também se
modifica;
se for adicionada ou subtraída uma constante a todas as observações da variável, a média do novo conjunto fica
adicionada ou subtraída dessa constante;
ao multiplicar ou dividir todas as observações da variável por uma constante, a média do novo conjunto fica
multiplicada ou dividida pela constante;
 a soma dos desvios das observações individuais do conjunto em relação à média é igual a zero, isto é, 
a soma dos quadrados dos desvios das observações individuais em relação à média é um ponto de mínimo na
função, isto é, 
é uma medida que tende a se aproximar dos locais de grande acúmulo de observações, porém é também afetada
pelos valores extremos das observações.
 Média harmônica
Média harmônica (µH) de um conjunto de N observações x1,x2,...,xN é, por definição, o inverso da média aritmética dos
•
•
•
4.3.5
inversos dessas observações, ou seja:
Exemplo 4.6: A média harmônica das notas do exemplo 4.1 é:
Esta medida é indicada para encontrar a tendência central de variáveis que utilizam o quociente entre duas unidades como
unidade de mensuração, tais como: m/s; km/s2; milha/h, entre outros.
Exemplo 4.7: (Adaptado de Matemática didática, 2013c) Um condutor percorre o trajeto entre a cidade de Porto Alegre e Rio
Grande (318 km) em três etapas:
na primeira etapa percorre 106 km a 96 km/h;
na segunda etapa percorre 106 km a 80 km/h;
na terceira etapa percorre 106 km a 75 km/h.
Qual é a velocidade média do deslocamento?
Logo, a velocidade média do deslocamento é de 82,76 km/h.
 Média geométrica
Média geométrica (µG) de um conjunto de N observações x1,x2,...,xN é, por definição, a raiz de índice N do produto dessas
observações, ou seja:
Chama-se a atenção para o fato de que o log µG é igual à média aritmética do logaritmo das observações, ou seja:
Essa propriedade faz com que esta medida seja indicada para identificar o valor central de um conjunto de dados que
represente variações percentuais.
Exemplo 4.8: A média geométrica entre 2 e 8 é:
Exemplo 4.9: (Adaptado de Matemática didática, 2013a) A empresa de informática AVA Ltda. reajustou, cinco vezes, durante
um ano, o salário de seus funcionários de acordo com os seguintes índices percentuais: 4%, 9%, 13%, 8% e 17%. Qual a taxa
média mensal de reajuste?
Para determinar a média geométrica, deve-se entender que todo aumento percentual é calculado sobre um valor salarial
anterior (100%), o qual será acrescido do aumento percentual indicado. Os aumentos de 4%, 9%, 13%, 8% e 17%, transformados
em taxas unitárias, equivalem a 1,04; 1,09; 1,13; 1,08 e 1,17, respectivamente.
Determinando a média geométrica:
Tem-se que 1,101107 corresponde a uma taxa média mensal de aumento de 10,11% (1,101107 – 1 = 0,101107 * 100% =
10,1107%).
Supondo que o salário do trabalhador, antes de receber aumento, seja de R$ 1.000,00 mensais, vamos verificar a veracidade
dos cálculos comparando os aumentos sucessivos de 4%, 9%, 13%, 8% e 17% com o aumento médio mensal de 10,1107%,
determinado pela média geométrica.
Usando os sucessivos aumentos percentuais, tem-se:
 
Salário (R$) Aumento Total (R$)
1.000,00 4% 1.040,00
1.040,00 9% 1.133,60
1.133,60 13% 1.280,96
1.280,96 8% 1.383,43
1.383,43 17% 1.618,63
 
Calculando pelo aumento médio mensal de 10,1107%, tem-se:
 
Salário (R$) Aumento Total (R$)
1.000,00 10,1107% 1.101,11
1.101,11 10,1107% 1.212,44
1.212,44 10,1107% 1.335,02
1.335,02 10,1107% 1.470,00
1.470,00 10,1107% 1.618,63
 
Verifica-se que o resultado final de R$ 1.618,63 é o mesmo nos dois casos.
4.3.6
4.3.7
–
–
Tabela 4.2 –
 Relação entre médias
A igualdade entre os resultados das três médias só ocorrerá quando o conjunto de dados for formado por observações
idênticas. À medida que a variabilidade entre as observações aumentar, crescerá a diferença entre os resultados desses três tipos
de média, que se relacionam de acordo com a expressão: µH ≤ µG ≤ µ. A média aritmética se deixa influenciar mais pelos valores
mais altos das observações, enquanto a média harmônica, pelos valores mais baixos.
 Moda
A moda (MO) é o valor ou atributo que ocorre com maior frequência em um conjunto de dados. Essa não necessariamente
existe e, se existir, pode não ser única. Um conjunto de dados pode ser:
amodal, quando não apresenta moda, isto é, todas as observações da variável em estudo ocorrem com a mesma
frequência;
plurimodal ou multimodal, quando o conjunto ou distribuição apresenta mais de uma observação predominante, ou seja,
mais de uma moda.
Exemplo 4.10: Definir a(s) moda(s) para os seguintes conjuntos de dados:
a) Notas de um estudante durante o ano na disciplina de Probabilidade e Estatística:
6,0 6,3 7,0 7,5
Nesse caso, o conjunto é amodal, pois todas as observações apresentam a mesma frequência, não existindo um resultado que
predomina no conjunto.
b) Notas de 11 estudantes na 1a Prova de Probabilidade e Estatística:
4,5 5,1 5,5 6,0 6,5 7,0 7,0 7,0 7,5 8,0 8,5
Esse conjunto possui uma moda (unimodal): MO = 7,0. Isso significa que a nota mais frequente entre esses estudantes é 7,0.
c) Notas de 13 estudantes na 1a Prova de Probabilidade e Estatística:
4,5 5,1 5,5 6,0 6,5 7,0 7,0 7,0 7,5 8,0 8,0 8,0 8,5
Esse conjunto possui duas modas (bimodal): MO1 = 7,0 e MO2 = 8,0. Isso significa que as notas mais frequentes entre esses
estudantes são: 7,0 e 8,0.
d) Uma empresadeseja avaliar o período definido para a garantia de vida de sua produção de pendrives. Para isso, seleciona
uma amostra de 12 unidades e avalia a ocorrência de falhas no período pretendido para a garantia de vida do produto. Os
resultados encontrados são apresentados a seguir, onde S significa resultado satisfatório, e F, a ocorrência de falha.
S S S S S S F F S S F S
Nesse conjunto, tem-se uma moda, onde: MO = S. Isso significa que, nessa avaliação, predominam resultados satisfatórios.
Observação 4.4: Salienta-se que a moda é uma medida de tendência central que pode ser utilizada para dados qualitativos, pois
verifica o(s) resultado(s) mais frequente(s).
No caso de distribuições de frequência sem intervalos de classes, basta observar as frequências simples absolutas de cada
classe; a(s) moda(s) será(ão) o(s) valor(es) com maior frequência.
Exemplo 4.11: Considere os dados apresentados na Tabela 4.1, referentes às notas de 20 estudantes em uma prova de Estatística.
Neste caso, a moda é 6,0, significando que é 6,0 a nota mais frequente nessa prova.
Exemplo 4.12: O banco de dados anexo também apresenta a opinião dos compradores em relação ao veículo adquirido pelos 250
clientes da montadora Toyord. Essas informações foram organizadas e resumidas na Tabela 4.2, onde é possível constatar que MO
= Muito Insatisfeito foi a resposta que apareceu com maior frequência.
 Satisfação do Cliente em relação ao veículo adquirido da Montadora Toyord
Fonte:
4.3.8
Figura 4.1 –
Satisfação do Cliente Frequência
Muito insatisfeito 109
Insatisfeito 78
Satisfeito 35
Bastante satisfeito 28
Σ 250
Banco de dados anexo.
 Mediana
A mediana (Md) é o valor central de uma série, isto é, é a medida que divide o rol (observações colocadas em ordem
crescente) em duas partes iguais, com a mesma quantidade de observações. Essa medida é muito utilizada na análise de dados,
especialmente quando se atribui pouca importância às observações extremas da variável. A Figura 4.1 ilustra a identificação
dessa medida.
 Representação gráfica da mediana
Se a quantidade de observações (n) em um rol é ímpar, existe um termo central “puro” e único que ocupa a posição definida
pela Expressão 4.8. O valor que ocupa essa posição é a mediana.
Se a quantidade de observações (n) em um rol é par, não existe um termo central “puro” e único. Nesse caso, a mediana é a
média aritmética entre as duas observações centrais.
Exemplo 4.13: Considere as notas de 11 estudantes na 1a Prova de Probabilidade e Estatística:
4,5 5,1 5,5 6,0 6,5 7,0 7,0 7,0 7,5 8,0 8,5
Veja que as observações da série estão colocadas em rol. A posição da mediana é:
O valor que se encontra na sexta posição é 7,0. Assim, Md = 7,0. Isso significa que 50% dos estudantes tiveram nota igual
ou menor a 7,0, e 50% dos estudantes tiveram nota igual ou maior que 7,0.
Exemplo 4.14: As temperaturas mínimas durante dez dias do mês de julho/2013, em determinado município, foram muito baixas
e estão expressas abaixo em graus centígrados (°C). Calcule a mediana.
Figura 4.2 –
Tabela 4.3 –
9 6 7 7 4 5 2 4 8 7
Lembre que as observações devem estar ordenadas para que se localize o elemento que ocupa a posição fornecida por:
Nesse caso, a mediana será a média aritmética simples das observações que se encontram nas 5a e 6a posições (Figura 4.2),
portanto:
 Localização da mediana
Pode-se concluir que, no período observado, 50% das temperaturas foram menores ou iguais a 6,5°C, e os outros 50% foram
iguais ou maiores que 6,5°C.
Observação 4.5: Se os dados estão organizados na forma de uma distribuição de frequências sem intervalos de classe, basta
calcular a posição utilizando a Expressão 4.8 e verificar o valor da variável que ocupa esta posição, o que pode ser facilitado pela
utilização de frequências acumuladas.
Exemplo 4.15: Considere a idade (em anos) dos 250 clientes que adquiriram um veículo da montadora Toyord, apresentada no
banco de dados anexo.
 Idade dos 250 clientes da montadora Toyord com suas respectivas frequências simples e acumuladas
Idade Frequência
simples
Frequência
acumulada
Idade Frequência
simples
Frequência
acumulada
18 3 3 36 11 136
19 3 6 37 12 148
20 2 8 38 9 157
21 2 10 39 12 169
22 2 12 40 12 181
23 3 15 41 15 196
24 4 19 42 6 202
25 5 24 43 8 210
26 10 34 44 11 221
Fonte:
4.3.9
Figura 4.3 –
27 8 42 45 10 231
28 2 44 46 6 237
29 10 54 47 2 239
30 8 62 48 4 243
31 15 77 49 2 245
32 12 89 50 3 248
33 14 103 53 1 249
34 9 112 55 1 250
35 13 125 Σ 250 
Banco de dados anexo.
A posição da mediana é:
A posição 125,5 se localiza entre as posições 125 e 126, que ficam entre as frequências acumuladas 125 e 136. O 125o valor
corresponde à idade de 35 anos e o 126o valor corresponde à idade de 36 anos, assim:
Interpretando, 50% dos clientes têm 35,5 anos ou menos e 50% dos clientes têm 35,5 anos ou mais.
 Utilização das medidas de tendência central
A média aritmética é a medida de tendência central mais utilizada em função de suas propriedades matemáticas. Deve ser
empregada quando a distribuição dos dados for simétrica ou não apresentar assimetria acentuada, existindo uma forte
concentração de dados na área central da série.
Já a mediana pode ser utilizada para representar a tendência central em distribuições assimétricas, com forte concentração de
dados no início ou no final da série. Porém, não é aconselhável quando existirem observações com repetições.
A moda, pelas suas propriedades, normalmente é usada como um complemento, uma informação a mais, apresentando a
vantagem de poder ser usada com dados com nível nominal de mensuração. Deve ser usada como medida de tendência central
apenas quando houver um elemento típico, cuja frequência seja muito superior à frequência das demais observações.
A média considera em seu cálculo todas as observações da série e, por essa razão, pode ser afetada pelos valores extremos
dessas observações. A moda e a mediana não têm esse inconveniente.
Em distribuições simétricas, a média, a mediana e a moda são iguais. Em distribuições assimétricas, a média tende a se
deslocar bastante para o lado da cauda mais longa da curva (Figura 4.3).
 Representação das medidas média, mediana e moda em distribuições assimétricas e simétricas
4.4
Tabela 4.4 –
Fonte:
Figura 4.4 –
 Separatrizes ou quantis
As separatrizes ou quantis são medidas que dividem o conjunto de dados em partes que contêm determinada proporção de
dados. Denominaremos quantil de ordem p de um conjunto com n dados, representado por q(p), o valor que apresentar p% dos
dados menores ou iguais a ele. Por exemplo, q(0,25) é o quantil de ordem 0,25, apresentando 25% dos dados menores ou iguais a
ele.
Em Bussab e Morettin (2002), a descrição do cálculo dessas medidas é feita conforme o descrito a seguir. Considere o
conjunto apresentado na Tabela 4.4: são sete observações que não se repetem. As frequências absolutas acumuladas representam
a posição do elemento no grupo: 32 é o primeiro, 47 é o segundo, e assim sucessivamente. Essas posições podem ser
transformadas em valores percentuais. Isso significa que 14,29% dos dados são menores ou iguais a 32; 28,57% dos dados são
menores ou iguais a 47; e assim sucessivamente.
Observe que a mediana deste conjunto é 58, mas, de acordo com os cálculos feitos, o percentual de valores menores ou
iguais a este valor no grupo é 57,14% e não 50%, como deveria ser.
Observe também que a representação gráfica dos dados na Figura 4.4 mostra uma curva descontínua. Em análises de dados
que apresentam essa propriedade é comum transformar a curva que os representa em contínua, o que pode ser feito conforme o
gráfico (a) da Figura 4.5. Entretanto, a mediana continua na posição 4, que corresponde a 57,14%. Se essa curva for deslocada
0,5 posição para baixo, conforme o gráfico (b) da Figura 4.5, a mediana fica correspondendo exatamente ao percentual de 50%.
 Observações
x fi faci facpi
32 1 1 14,29
47 1 228,57
51 1 3 42,86
58 1 4 57,14
63 1 5 71,43
71 1 6 85,71
84 1 7 100,00
Fictícia.
 Representação gráfica das observações
Fonte:
Figura 4.5 –
Fonte:
Tabela 4.4.
 Representação gráfica das observações
Tabela 4.4.
Diante do exposto, considera-se o percentual de valores menor ou igual ao valor que ocupa a i-ésima posição num conjunto
com n valores como:
Considerando a determinação desse percentual dessa forma, o cálculo do quantil de ordem p é dado por:
O valor de fi expressa a diferença (p – pi) como valor relativo da diferença (pi + 1 – pi), sendo utilizado para localizar um
valor entre aqueles que ocupam as posições i e i + 1, que será o quantil procurado.
Exemplo 4.16: Considere o conjunto de dados apresentado na Tabela 4.4. A seguir, mostram-se os cálculos para encontrar o
primeiro quartil e o sexagésimo percentil.
i xi pi
1 32 0,0714
2 47 0,2143
3 51 0,3571
4 58 0,5000
5 63 0,6429
6 71 0,7857
7 84 0,9286
Q1 = q(0,25) = ?
Observe que 0,2143 < 0,25 < 0,3571, logo:
Observe que fi foi igual a 0,25. Isso significa que a diferença entre o valor 47 e o Q1 = q(0,25) é 25% da diferença entre os
valores 47 e 51. Como essa diferença é 4 (= 51 – 47) e 0,25(4) = 1, o quantil de ordem 25 é igual a 48 (= 47 + 1).
C60 = q(0,60) = ?
Considere que 0,50 < 0,60 < 0,6429, logo:
Ribeiro e Caten (2000) sistematizam este procedimento da seguinte maneira: depois de ordenar os dados e calcular sua
posição por os quantis de ordem p, q(p) podem ser encontrados pela expressão:
Exemplo 4.17: Considerando os dados do Exemplo 4.16, tem-se:
i xi pi
1 32 0,0714
2 47 0,2143
3 51 0,3571
4 58 0,5000
5 63 0,6429
6 71 0,7857
7 84 0,9286
Q1 = q(0,25) = ?
Observe que 0,2143 < 0,25 < 0,3571, logo:
4.4.1
Figura 4.6 –
Fonte:
4.4.2
Figura 4.7 –
C60 = q(0,60) = ?
Considere que 0,50 < 0,60 < 0,6429, logo:
Observação 4.6: Salienta-se que, quando a ordem do quantil for menor que a posição do menor valor (p < p1), considera-se a
medida procurada igual ao primeiro valor, q(p) = x1. De maneira similar, quando a ordem do quantil for maior que a posição do
maior valor (p > pn), considera-se a medida procurada igual ao maior valor, q(p) = xn.
Os quantis recebem denominações especiais quando são usados para dividir um conjunto em certa quantidade de grupos que
contenham a mesma quantidade de observações. A mediana, por exemplo, que divide a sequência ordenada em dois grupos, cada
um deles contendo 50% das observações, é uma medida separatriz. Além dela, são muito usados os quartis, decis e percentis ou
centis.
 Quartis
Dividem a distribuição em quatro partes com a mesma quantidade de observações, ficando cada parte com 25% das
observações. Assim, podem ser calculados três quartis: Q1, Q2 e Q3, conforme mostrado na Figura 4.6.
Observe que Q1 = q(0,25), pois apresenta 25% das observações menores ou iguais a ele; Q2 = q(0,50) = Md, pois apresenta
50% das observações menores ou iguais a ele e Q3 = q(0,75), pois apresenta 75% das observações menores ou iguais a ele.
 Representação dos quartis em uma distribuição assimétrica
Adaptada de Barbetta et al. (2010).
 Decis
Dividem a distribuição em dez partes com a mesma quantidade de observações, ficando cada parte com 10% das
observações. Assim, podem ser calculados nove decis: D1, D2, ..., D9, conforme Figura 4.7.
 Representação dos decis em uma distribuição assimétrica
Fonte:
4.4.3
Figura 4.8 –
Fonte:
Adaptada de Barbetta et al. (2010).
Observe que D5 = q(0,50) = Q2 = Md, pois apresenta 50% das observações menores ou iguais a ele.
 Percentis ou centis
Dividem a distribuição em 100 partes com a mesma quantidade de observações, ficando cada parte com 1% das
observações. Assim, podem ser calculados 99 centis: C1, C2, ..., C99, conforme Figura 4.8.
 Representação dos centis em uma distribuição assimétrica
Adaptada de Barbetta et al. (2010).
Observe que C25 = q(0,25) = Q1, pois apresenta 25% das observações menores ou iguais a ele e que C50 = q(0,50) = D5 = Q2
= Md, pois apresenta 50% das observações menores ou iguais a ele.
Exemplo 4.18: As observações abaixo se referem à resistência à compressão, mensurada em kgf/cm2, em corpos de prova de
concreto. Calcular o Q1 e o D6.
13.700 14.000 14.100 14.400 14.800 15.000 15.600 16.600 17.600 21.000 21.000
Veja que as observações da série já estão colocadas na forma de rol.
Xi i pi
13.700 1 0,0455
Tabela 4.5 –
14.000 2 0,1364
14.100 3 0,2273
14.400 4 0,3182
14.800 5 0,4091
15.000 6 0,5000
15.600 7 0,5909
16.600 8 0,6818
17.600 9 0,7727
21.000 10 0,8636
21.000 11 0,9545
No cálculo do primeiro quartil, p = 0,25. Como 0,2243 < 0,25 < 0,3182, tem-se:
Q1 = q(0,25) = 14.174,92
Isso significa que esta medida é Q1 = 14.174,92 kgf/cm2. Logo, 25% dos corpos de prova apresentaram resistência à
compressão igual ou menor a 14.174,92 kgf/cm2.
No cálculo do sexto decil, p = 0,60. Como 0,5909 < 0,60 < 0,6818, tem-se:
D6 = q(0,60) = 15.700,11
Isso significa que esta medida é D6 = q(0,60) = 15.700,11 kgf/cm2. Logo, 60% dos corpos de prova apresentaram resistência
à compressão igual ou menor a 15.700,11 kgf/cm2.
No cálculo do nonagésimo centil, p = 0,90. Como 0,8636 < 0,90 < 0,9545, tem-se:
C90 = q(0,90) = 21.000
Isso significa que esta medida é C90 = q(0,90) = 21.000 kgf/cm2. Logo, 90% dos corpos de prova apresentaram resistência à
compressão igual ou menor a 21.000 kgf/cm2.
Exemplo 4.19: Observe a distribuição de frequências da Tabela 4.5. Ela apresenta a nota de 50 alunos numa prova de Estatística.
Encontre a nota máxima entre as 15% piores notas.
 Notas de 50 estudantes em uma prova de Estatística
Nota fi fai pi
4 2 2 0,03
5 4 6 0,11
6 3 9 0,17
7 6 15 0,29
8 8 23 0,45
9 15 38 0,75
10 12 50 0,99
Σ 50 
 
A nota máxima entre as 15% piores notas é dada pelo décimo quinto centil, ou seja, C15 = q(0,15). Observe que essa
distribuição apresenta muitos dados com repetições, então a identificação do quantil pode ser feita com o auxílio das frequências
acumuladas, pois esta possibilita identificar o maior posto associado a um valor, o mesmo acontecendo em relação aos
percentuais de valores menores ou iguais (pi).
Como 0,11 < 0,15 < 0,17, o décimo quinto centil fica entre a sexta e nona observação. Observe que, no conjunto
considerado, x6 = 5 e x7 = x8 = x9 = 6. Ainda, o percentual associado x7 = 6 é 0,13, ainda menor que 0,15, então C15 = 6,0.
Assim, pode-se afirmar que 15% dos alunos tiraram nota menor ou igual a 6, e 85%, nota maior ou igual a 6. Então, a nota
máxima dos 15% com piores notas é igual a 6,0.
Exemplo 4.20: Calcular o Q3, D2 e C89 para a idade dos 250 clientes da Montadora Toyord, apresentadas na Tabela 4.3.
No cálculo do terceiro quartil, p = 0,75. Como 0,722 < 0,75 < 0,782, o terceiro quartil fica entre x181 e x196. Como x182 = x183
= ... = x196 = 41 e o percentual associado a x182 é 0,726, então Q3 = C75 = 41. Assim, pode-se concluir que 75% dos clientes
possuem 41 anos ou menos e 25% dos clientes possuem 41 anos ou mais.
No cálculo do segundo decil, p = 0,20. Como 0,174 < 0,20 < 0,214, o segundo decil fica entre x44 e x54. Como x45 = x46 = ... =
x54 = 29 e o percentual associado a x45 é 0,178, então D2 = C20 = 29. Pode-se concluir que 20% dos clientes possuem 29 anos ou
menos e 80% dos clientes possuem 29 anos ou mais.
No cálculo de C89, tem-se p = 0,89. Como 0,882 < 0,89 < 0,922, o octagésimo nono centil fica entre x221 e x231. Como x222 =
x223 = ... = x231 = 45 e o percentual associado a x222 é 0,886, então C89 = 45. Pode-se concluir que 89% dos clientes possuem 45
anos ou menos e 11% dos clientes possuem 45 anos ou mais.
Esses cálculos basearam-se nas posições pi, apresentadas a seguir:
 
Idade Frequência
simples
Frequência
acumulada
pi Idade Frequência
simples
Frequência
acumulada
pi
18 3 3 0,01 36 11 136 0,542
19 3 6 0,022 37 12 148 0,59
20 2 8 0,03 38 9 157 0,626
21 2 10 0,038 39 12 169 0,674
22 2 12 0,046 40 12 181 0,722
23 3 15 0,058 41 15 196 0,782
24 4 19 0,074 42 6 202 0,806
25 5 24 0,09443 8 210 0,838
4.5
Tabela 4.6 –
26 10 34 0,134 44 11 221 0,882
27 8 42 0,166 45 10 231 0,922
28 2 44 0,174 46 6 237 0,946
29 10 54 0,214 47 2 239 0,954
30 8 62 0,246 48 4 243 0,97
31 15 77 0,306 49 2 245 0,978
32 12 89 0,354 50 3 248 0,99
33 14 103 0,41 53 1 249 0,994
34 9 112 0,446 55 1 250 0,998
35 13 125 0,498 S 150 
 Cálculo das medidas para dados agrupados
Se os dados estiverem agrupados em classes, é possível encontrar estimativas das medidas de posição sem que se conheça o
conjunto de observações.
Para encontrar a média aritmética, basta substituir cada classe pelo seu ponto central, denominado ponto médio (Pmi) e
considerar como se esse se repetisse tantas vezes quanto a frequência associada a essa classe (fi). Tratando-se de uma amostra,
tem-se:
Observe que esta expressão é bastante similar à Expressão 4.3, bastando substituir xi por Pmi.
Exemplo 4.21: Considere o conjunto de dados apresentado a seguir:
0 1 2 2 3 4 4 5 6 6
7 7 7 7 8 8 9 9 9 9
Essas observações podem ser resumidas e apresentadas conforme as duas primeiras colunas da Tabela 4.6, aplicando as
técnicas apresentadas no Capítulo 2.
 Cálculo da média aritmética para dados agrupados
Classes
Frequência absoluta
simples (fi)
Ponto médio (Pmi) Pmi . fi
Frequência absoluta
acumulada (fai)
0,0 ⊢ 1,8 2 0,9 1,8 2
1,8 ⊢ 3,6 3 2,7 8,1 5
3,6 ⊢ 5,4 3 4,5 13,5 8
5,4 ⊢ 7,2 5 6,3 31,5 13
7,2 9,0 7 8,1 56,7 20
Σ 20 111,6 
Substituindo as classes pelos pontos médios, a média aritmética calculada a partir destes dados tabulados é:
Observe que o valor encontrado, = 5,58, é bastante próximo do valor real da média aritmética calculada para esses
mesmos dados não agrupados, = 5,70.
Para a média harmônica e média geométrica, o procedimento é similar. Para a moda, é bastante usual utilizar a expressão
atribuída a Czuber (Expressão 4.15). Depois de identificar a classe de maior frequência (classe j), determina-se um valor relativo
do afastamento da frequência anterior a essa frequência máxima (fj – fj–1) em relação à soma dos afastamentos das frequências
anterior e posterior a essa frequência máxima (fj – fj–1)+(fj – fj+1), o que é equivalente a uma regra de três, ou seja:
Este valor, que representa o quanto a medida se afasta do limite inferior da classe de maior frequência, é multiplicado pelo
intervalo de classe (i) e adicionado ao limite inferior da mesma, ou seja:
onde:
j – posição da classe de maior frequência;
LIj – limite inferior da classe de maior frequência;
fj – frequência absoluta da classe de maior frequência;
fj – 1 – frequência absoluta da classe anterior a de maior frequência;
fj + 1 – frequência absoluta da classe posterior a de maior frequência.
O valor identificado como moda pertence ao intervalo de classe de maior frequência. Ele fica mais próximo do seu limite
inferior se a classe anterior apresentar maior frequência que a posterior, ou mais próximo do seu limite superior se a classe
posterior apresentar frequência maior que a anterior.
Exemplo 4.22: Considerando os dados do Exemplo 4.21, têm-se duas modas para os dados não agrupados: Mo1 = 7 e Mo2 = 9. Já
para os dados agrupados (Tabela 4.6), tem-se apenas uma moda, Mo = 7,6, pois:
Observe que novamente os resultados encontrados para dados agrupados e não agrupados são próximos, mas diferentes.
Para encontrar as medidas separatrizes ou quantis, inicialmente determinam-se as frequências acumuladas em ordem
Tabela 4.7 –
4.6
crescente de cada classe ou categoria e, em seguida, a posição correspondente, utilizando a expressão que
representa o percentual de valores menor ou igual ao limite superior da classe considerada. Para encontrá-lo, basta utilizar a
Expressão 4.16, ou seja:
Exemplo 4.23: Considerando os dados do Exemplo 4.21, o terceiro quartil, Q3 = q(0,75) está entre o 15o e 16o valor, pois 0,725 <
0,75 < 0,775. Ainda, como x15 = x16 = 8, pode-se concluir que Q3 = q(0,75)= 8. Considerando os dados tabulados (Tabela 4.7),
tem-se:
 Cálculo dos quantis
Classes Frequência absoluta
simples (fi)
Frequência absoluta
acumulada (fai)
pi
0,0 ⊢ 1,8 2 2 0,075
1,8 ⊢ 3,6 3 5 0,225
3,6 ⊢ 5,4 3 8 0,375
5,4 ⊢ 7,2 5 13 0,625
7,2 9,0 7 20 0,975
O terceiro quartil, Q3 = q(0,75), pertence à quinta classe, pois 0,625 < 0,75 < 0,975. Logo:
Novamente, pode-se perceber que os resultados obtidos para as medidas separatrizes calculadas para dados agrupados se
aproximam daquelas calculadas com os dados não agrupados. Porém, cabe lembrar que aquelas são aproximações, dando-se
sempre preferência para os resultados obtidos a partir de dados não agrupados.
 Considerações finais
Neste capítulo, foram apresentadas as principais medidas de posição que possibilitam resumir um conjunto de dados: as
medidas de tendência central e as separatrizes.
As principais medidas de tendência central são a média aritmética, a moda e a mediana. A média aritmética é a mais
importante por suas propriedades matemáticas. Ela não é tendenciosa, pois seu cálculo considera todas as observações da série.
Foi mostrado como calcular e interpretar a média aritmética ponderada, bem como distinguir quando há necessidade da simples
ou da ponderada. Algumas propriedades dessa medida foram vistas. Também foram abordadas média harmônica e média
geométrica.
A moda é o valor de maior frequência de uma distribuição. Algumas distribuições podem ser amodais ou multimodais. A
mediana é o termo central de uma distribuição, deixando à sua esquerda a mesma quantidade de observações que à sua direita.
Tanto a moda quanto a mediana não são afetadas pelos valores extremos das observações, pois a moda somente considera o valor
mais comum, e a mediana, o do meio.
Finalizando, foi mostrado como calcular e interpretar as medidas separatrizes ou quantis – mediana, quartis, decis e centis –
que dividem o conjunto de dados em partes com determinado percentual de observações.
No próximo capítulo são apresentadas as medidas de dispersão que complementam as medidas aqui apresentadas.
a)
d)
g)
4.2
a)
d)
g)
4.3
Fonte:
4.1
Aplicações
Uma amostra de 10 peças retiradas de um lote apresentou os seguintes comprimentos (em mm):
75 65 71 64 62 55 53 72 55 60
Determine:
média aritmética; b) média harmônica; c) média geométrica;
moda; e) mediana; f) primeiro quartil;
sétimo decil; h) octagésimo percentil.
A amostra da Montadora Toyord apresenta o número de pessoas geralmente transportadas em cada um dos 250 veículos, que
estão apresentadas na tabela abaixo.
Determine:
média aritmética; b) média harmônica; c) média geométrica;
moda; e) mediana; f) terceiro quartil;
terceiro decil; h) septuagésimo oitavo percentil.
Quantidade de pessoas transportadas no veículo Quantidade de veículos
1 19
2 35
3 47
4 42
5 52
6 55
A tabela a seguir apresenta a localização de deflagração de escorregamentos em taludes a montante e a jusante das pistas de
rolamento da Rodovia Federal BR116/RJ ocorridos em novembro de 2011.
Determine:
a) média aritmética; b) média harmônica; c) média geométrica; d) moda; e) mediana; f) segundo quartil; g) sexto decil; h)
trigésimo segundo percentil.
Localização (km) Deslizamentos
84,0 ⊢ 86,5 03
86,5 ⊢ 89,0 07
89,0 ⊢ 91,5 23
91,5 ⊢ 94,0 28
94,0 ⊢ 96,5 29
96,5 ⊢ 99,0 15
99,0 ⊢ 101,5 17
101,5 ⊢ 104,0 03
Adaptada de D’Orsi (2011).
4.4
4.5
a)
b)
4.7
4.8
4.9
4.10
a)
b)
c)
d)
e)
f)
4.12
a)
b)
c)
d)
e)
f)
4.13
4.6
4.11
(Adaptado de Borges e Mota, 2011) Em novembro de 2011, foi desenvolvido estudo com o objetivo de avaliar o fluxo de
veículos motorizados que passam na Avenida Rio Grande, localizada na praia do Cassino. Em um dos horários em que foi
feito monitoramento, entre 18h e 18h15min, do dia 09/11/2011, foram encontrados os seguintes resultados para
veículos/minuto: 14; 9; 10; 8; 7; 8; 9; 12; 10; 7; 10; 11; 8; 6 e 10. Encontre a média aritmética, a moda e a mediana.
(Adaptado de Arango, 2001) Os valores abaixo se referem ao tempo de carga de um aplicativoem três salas do Laboratório de
Informática, em segundos:
sala A: 0,6 0,4 0,5 0,8 0,2 0,8
sala B: 0,7 0,8 0,6 0,9 0,5 1,1 0,3
sala C: 0,6 0,7 2,0 0,5 0,8 0,9 0,9
 Encontre a média, a moda e a mediana para as observações de cada uma das salas.
Escolha, justificando, uma medida para comparar os resultados.
Se a quantidade média de funcionários de três empresas é 28, pode uma delas ter 85 funcionários?
Em recente estudo desenvolvido pelo setor de controle de qualidade de uma empresa, foi determinado que a resistência à
compressão mediana de uma amostra de blocos cerâmicos de 21 furos era de 105,04 kgf/cm2. O que significa isso?
(Adaptado de Popiolek e Cardoso, 2011) Um pesquisador analisou o tempo de ordenação, em ordem crescente, de dois
algoritmos Bubble Sort e Quick Sort em vetores com 256 posições, determinando o tempo médio para 120 experimentos
de ordenação. Para o algoritmo Bubble Sort foram realizadas 20 simulações com 120 experimentos de ordenação,
enquanto para o Quick Sort, apenas 15. O tempo médio de ordenação para os dois algoritmos foi de 1,72983 × 10-4
segundos. Se o tempo médio das simulações com o algoritmo Bubble Sort foi de 2,862692 × 10–4 segundos, qual o tempo
médio das simulações com o algoritmo Quick Sort?
(Adaptado de Matemática didática, 2013b) Um fabricante pretende lançar um produto de qualidade intermediária que custará
R$ 12,00. Para tal, necessita utilizar 25 kg do produto A, que custa R$ 17,00/kg, e um produto B, que custa R$ 8,00/kg.
Quantos quilogramas do produto B serão utilizados nessa mistura?
(Adaptado de Santos e Wieczoreck, 2011) Um experimento desenvolvido para avaliar o tempo de inicialização de um
software (x) em um processador Core 3 gerou resultados que apresentaram média de 7,7367 segundos e variância de
1,8725 segundos2. Se a variável y é dada por y = 2x + 5, qual a média de y?
O que acontece com a média de um conjunto de dados quando:
cada valor é multiplicado por 2?
cada valor é acrescido de 2?
cada valor é dividido por 2?
 de cada valor é subtraído 2?
de cada valor é subtraída a média aritmética?
de cada valor subtrai-se a média e o resultado é dividido pelo desvio padrão?
Um banco de dados possui 365 observações referentes à precipitação pluviométrica ocorrida em 2013 em determinada
localidade. Considerando que os dados foram ordenados de forma crescente, encontre a quantidade aproximada de
observações que se situam:
acima de C90;
abaixo de D4;
acima de Q1;
entre C20 e C75;
entre Q1 e Q3;
entre C90 e C92.
Em uma empresa de informática, o salário médio anual dos funcionários é de R$ 120.000,00 com desvio padrão de R$
4.14
4.15
4.16
4.17
4.18
12.000,00. Após determinado período, todos os salários obtiveram um aumento de 10%. Qual o novo salário médio
anual?
Em uma disciplina serão realizadas quatro avaliações. Cada uma das duas primeiras avaliações tem peso 2, a terceira tem
peso 3, o mesmo acontecendo com a quarta avaliação. Um estudante obteve 7, 8 e 6, respectivamente na primeira,
segunda e terceira avaliações. Quanto ele obteve na quarta avaliação se sua média final foi 6,3?
(LAPPONI, 2005) O capital de uma empresa está formado pelo aporte dos acionistas, por financiamentos de longo prazo e
pela emissão de debêntures. Cada tipo de capital tem um custo diferente, dado por uma taxa de juros anual. Com os dados
apresentados na tabela abaixo, pede-se calcular a taxa de juros média das fontes de capital da empresa.
 
Fonte de capital Participação (R$) Taxa de juros (%)
Acionistas 1.000.000,00 12
Financiamentos de Longo Prazo 600.000,00 8
Debêntures 400.000,00 14
 
 O gerente de uma imobiliária está analisando os valores cobrados pelos aluguéis dos imóveis residenciais de três dormitórios
disponibilizados em um município. Encontra para os três quartis os seguintes valores, em reais: 1.500,00; 2.250,00 e
3.275,00. Na sua imobiliária, 27% dos imóveis têm aluguéis inferiores ou iguais a R$ 1.500,00, 35% dos imóveis têm
aluguéis entre R$ 1.500,00 e R$ 2.250,00; 20% têm aluguéis entre R$ 2.250,00 e R$ 3.275,00; e os restantes superiores, a
R$ 3.275,00. O que ele pode concluir sobre o preço dos aluguéis dos imóveis residenciais de três dormitórios cobrados
em sua imobiliária?
Os valores a seguir representam a localização (km) de deflagração de escorregamentos em taludes a montante e a jusante das
pistas de rolamento na Rodovia Federal BR116/RJ, apresentados no Exercício 4.3. Calcule a média aritmética, a moda, a
mediana, segundo quartil, sexto decil e trigésimo segundo percentil, compare com os resultados encontrados em 4.3 e
comente.
 
84,0 89,7 90,4 91,9 93,0 93,8 94,6 96,0 97,8 99,1 101,0
86,0 89,9 90,48 92,2 93,0 94,0 94,65 96,05 98,0 99,2 101,0
86,0 89,9 90,5 92,3 93,08 94,0 94,8 96,05 98,0 99,2 102,0
86,5 89,95 90,8 92,5 93,08 94,07 95,0 96,2 98,1 99,3 102,1
87,0 90,0 90,9 92,5 93,08 94,15 95,0 96,22 98,7 99,5 104,0
87,0 90,0 91,0 92,6 93,3 94,3 95,0 96,3 98,8 99,5 
87,9 90,0 91,0 92,8 93,4 94,3 95,4 96,5 98,8 100,0 
88,0 90,0 91,05 92,8 93,5 94,34 95,5 96,6 98,9 100,1 
88,5 90,0 91,3 92,8 93,7 94,34 95,6 97,0 98,9 100,7 
88,8 90,0 91,5 92,8 93,7 94,39 95,6 97,0 99,0 100,75 
89,0 90,0 91,75 93,0 93,8 94,45 95,65 97,0 99,0 100,8 
89,5 90,2 91,8 93,0 93,8 94,5 95,9 97,5 99,1 100,9 
Um determinado investimento rendeu 8% no primeiro mês, 4% no segundo mês e 6% no terceiro mês. Qual o rendimento
médio desse investimento?
4.19
4.20
4.21
4.22
 (Adaptado de Matemática didática, 2013a) A direção da empresa de informática AVA Ltda. decidiu aumentar o salário de
um dos seus funcionários, pois o mesmo atingiu as metas propostas. Para tanto, aumentou seu salário sucessivamente em
12% no primeiro mês, 10% no segundo mês e 15% no terceiro mês. Qual a taxa média mensal de aumento? Supondo que
o salário do trabalhador, antes de receber aumento, seja de R$ 1.500,00 mensais, verificar a veracidade dos cálculos
comparando os aumentos sucessivos de 12%, 10% e 15% com o aumento médio mensal obtido pela média geométrica.
(Adaptado de Matemática didática, 2013c) Um carro realizou o trajeto de ida e volta entre as cidades de Porto Alegre e
Santa Maria. Na ida, a uma velocidade média de 80 km/h, e na volta, com a velocidade média de 90 km/h. Determinar a
velocidade média para realizar todo o percurso de ida e volta, considerando que o percurso de ida e volta tem a mesma
distância.
Os tempos de saída de todo o estoque de determinado notebook de última geração em três lojas de informática de uma
mesma franquia foram: Loja 1: 4 meses; Loja 2: 6 meses; Loja 3: 7 meses. Determinar o tempo médio de saída dos
estoques nas três lojas.
A distribuição de frequência a seguir apresenta a nota de 32 alunos numa prova de Estatística. Calcule a nota máxima entre
as 30% das piores notas.
 
Nota 2 3 5 6 7 8 9 10
Alunos 3 5 2 3 6 8 3 2
5.1
Tabela 5.1 –
Fonte:
Figura 5.1 –
Fonte:
5
MEDIDAS DE DISPERSÃO
 Introdução
De maneira geral, observações costumam ser mais numerosas em torno de um valor central, diminuindo gradativamente à
medida que se afastam desse valor. Quando a variabilidade é grande, a medida de tendência central tem um grau de
confiabilidade tão pequeno que se torna insuficiente para descrevê-la, evidenciando a necessidade de utilização de medidas que
representem esta maior ou menor concentração de observações em torno da tendência central.
As observações apresentadas na Tabela 5.1 e na Figura 5.1, por exemplo, representam a quantidade de erros que estudantes
de duas turmas do primeiro ano do curso de Engenharia de Automação cometeram antes de executar um programa proposto
pelo professor, no qual era necessário criar um código na linguagem de programação C. Embora a quantidade média de erros
das duas turmas seja a mesma, quatro erros, os resultados dos estudantes da turma A têm uma variabilidade menor, ou seja, a
dispersão em torno da média é menor. Assim, para medir essa variabilidade, podem ser utilizadas as medidas de dispersão.
 Número de erros de compilação cometidos por alunos das turmas Ae B
Turma Erros Média
A 3 3 3 3 4 4 4 4 5 5 5 5 4
B 0 1 2 3 3 4 4 5 5 6 7 8 4
Adaptada de Franco e Magistralli (2011).
 Número de erros de compilação cometidos por alunos das turmas A e B
Adaptada de Franco e Magistralli (2011).
Essas medidas permitem um conhecimento mais completo do fenômeno a ser analisado, mostrando o quanto esses valores
5.2
5.2.1
Tabela 5.2 –
Fonte:
estão afastados de sua tendência central, o que pode ser feito por meio de medidas absolutas ou relativas.
Como no capítulo anterior, as medidas de dispersão serão apresentadas inicialmente para dados não agrupados.
 Medidas de dispersão absoluta
 Amplitude total
Amplitude total (AT) de um conjunto de N valores x1,x2,x3,x4, ... ,xN é, por definição, a diferença entre o maior e o menor
desses valores, ou seja:
onde xmáx e xmín representam, respectivamente, o maior e o menor valor do conjunto de observações.
Exemplo 5.1: Considerando as observações da Tabela 5.1, a amplitude total da quantidade de erros de compilação das turmas A
e B são, respectivamente, 2 e 8 erros, pois:
Turma A: AT = 5 – 3 = 2 erros
Turma B: AT = 8 – 0 = 8 erros
Conclui-se que existe uma variabilidade maior na quantidade de erros cometidos pelos estudantes da turma B.
Essa medida representa a amplitude do intervalo onde estão contidas todas as observações do conjunto analisado. É
bastante simples, porém, grosseira, porque se baseia apenas nos dois valores extremos do conjunto, ignorando totalmente sua
distribuição. Considerando que em uma série de valores os extremos são, em geral, uma questão de acaso, essa medida varia
muito, apresentando a tendência de aumentar quando se eleva a quantidade de elementos. Ainda, não indica (nem permite
verificar) se há concentração de dados em torno de algum ponto.
A amplitude total é bastante utilizada no estudo de fenômenos meteorológicos, como a identificação de temperaturas
mínima e máxima diárias, por exemplo, e em monitoramento de processos produtivos por meio de gráficos de controle, onde
são utilizadas pequenas amostras.
Exemplo 5.2: Para as notas dos estudantes apresentadas na Tabela 5.2, a amplitude total é 4, pois:
AT = 10 – 6 = 4
 Notas dos alunos da turma A de Probabilidade e Estatística/FURG – 2011
Notas Estudantes
6 6
7 10
8 15
9 10
10 9
Fictícia.
Exemplo 5.3: Considere que na situação analisada no Exemplo 5.1 existe uma terceira turma, a turma C, cujos alunos
cometeram as seguintes quantidades de erros de compilação:
1 2 3 5 9
A quantidade média de erros e a amplitude total são, respectivamente, 4 e 8 erros, os mesmos resultados encontrados para a
5.2.2
turma B, que apresenta distribuição da quantidade de erros bastante diferente. Tal fato evidencia as limitações dessa medida
para representar a variabilidade.
 Desvio médio
Mensurações mais precisas da variabilidade de um conjunto de observações são feitas em função de seus afastamentos em
relação a sua média aritmética (µ), sendo encontradas pela diferença entre o valor considerado (xi) e esta medida, ou seja, (xi –
µ).
Esse procedimento fornece uma informação para cada valor do conjunto de observações. Para ficar com uma informação a
respeito do conjunto de observações analisado, a primeira ideia foi usar a sua média aritmética. Entretanto, uma das
propriedades dessa medida diz que a soma destes afastamentos é sempre nula, ou seja:
O artifício matemático utilizado para contornar esse problema foi a utilização do módulo dos afastamentos, originando
uma medida denominada desvio médio.
Desvio médio (DM) de um conjunto de N valores, x1,x2,x3,x4, ... ,xN, é, por definição, a média aritmética do módulo dos
afastamentos desses valores em relação a sua média aritmética (µ), ou seja:
Lembrando que: Se o conjunto de observações representa uma amostra, , sendo 
.
Exemplo 5.4: O desvio médio das quantidades de erros de compilação cometidos pelos estudantes das turmas B e C (Exemplos
5.1 e 5.3) é:
Turma B:
i xi xi – µ |xi – µ|
1 0 –4 4
2 1 –3 3
3 2 –2 2
4 3 –1 1
5 3 –1 1
6 4 0 0
7 4 0 0
8 5 1 1
9 5 1 1
10 6 2 2
11 7 3 3
12 8 4 4
Σ 48 0 22
Turma C:
i xi xi – µ |xi – µ|
1 1 –3 3
2 2 –2 2
3 3 –1 1
4 5 1 1
5 9 5 5
Σ 20 0 12
Assim, conclui-se que a turma C apresenta maior variabilidade nas quantidades de erros dos estudantes do que a turma B, o
que não foi mostrado pela amplitude total.
Observe que, quando aparecem dados com repetições, é possível diminuir a quantidade de operações matemáticas
realizadas usando as Expressões 5.3 e 5.4:
5.2.3
Exemplo 5.5: O desvio médio das quantidades de erros de compilação cometidos pelos estudantes da turma A (Exemplo 5.1) é:
i xi fi xi . fi xi – µ |xi – µ|. fi
1 3 4 12 –1 4
2 4 4 16 0 0
3 5 4 20 1 4
Σ 12 48 8
Observação 5.1: O desvio médio também pode ser calculado em relação à mediana. Nesse caso, em se tratando de uma
amostra, tem-se:
Observação 5.2: O desvio médio costuma ser utilizado quando o objetivo da análise é somente conhecer a dispersão para
descrever um conjunto de observações, não apresentando, entretanto, as propriedades matemáticas necessárias para sua
utilização na inferência estatística.
 Variância
Para a representação da variabilidade de um conjunto de observações, também foi utilizado um outro artifício matemático
para contornar o fato de que que consistiu em elevá-los ao quadrado, originando uma medida denominada
Variância.
Variância (Var(x) ou σ2) de um conjunto de N valores, x1,x2,x3,x4, ... ,xN, é, por definição, a média aritmética do quadrado
dos afastamentos desses valores em relação a sua média aritmética (µ), ou seja:
O numerador da expressão (5.6) pode ser desenvolvido e algebricamente modificado, conforme demonstrado a seguir,
resultando na Expressão 5.7.
Portanto:
Se o conjunto de observações representa uma amostra, tem-se:
Observação 5.3: O valor (n – 1) representa o número de graus de liberdade, um conceito associado à quantidade de valores
independentes considerados em uma análise. De acordo com Silveira Junior et al. (1989), o número de graus de liberdade
associado a uma estatística é a quantidade de elementos da amostra (n), menos o número de medidas da população estimadas a
partir dessa mesma amostra e utilizadas em seu cálculo. Observe que, ao se calcular a variância amostral, são utilizados (n – 1)
valores independentes, pois como o último afastamento a ser determinado só pode assumir o valor que falta
para a soma ser zero. Além disso, os afastamentos são obtidos a partir da média amostral ( ), que é um estimador da média
populacional (µ). A utilização desse denominador garante que o valor esperado de s2 seja o melhor estimador de σ2, isto é, um
estimador não viesado de σ2.
De modo análogo, pode-se obter a variância amostral pela Expressão 5.9:
Exemplo 5.6: A variância das quantidades de erros de compilação cometidos pelos estudantes da turma C (Exemplo 5.3) é:
Turma C:
i xi xi – µ (xi – µ)2
1 1 –3 9
2 2 –2 4
3 3 –1 1
4 5 1 1
5 9 5 25
Σ 20 0 40
Outra forma de calcular:
i xi xi
2
1 1 1
2 2 4
3 3 9
4 5 25
5 9 81
Σ 20 120
Observação 5.4: Se este grupo de cinco alunos fosse uma amostra de alunos da turma C, a variância amostral seria:
para um conjunto de dados com repetições, a variância populacional e amostral pode ser encontrada pelas Expressões 5.10
e 5.11, respectivamente.
1.
Exemplo 5.7: A variância das quantidades de erros de compilação cometidos pelos estudantes da turma A (Exemplo 5.1) é:
Turma A:
i xi fi xi. fi xi – µ (xi – µ)2. fi
1 3 4 12 –1 4
2 4 4 16 0 0
3 5 4 20 1 4
Σ 12 48 8
Outra maneira de calcular:
i xi fi xi . fi xi
2. fi
1 3 4 12 36
2 4 4 16 64
3 5 4 20 100
Σ 12 48 200
Observação 5.5: Se este grupo de 12 alunos fosse uma amostra de estudantes da turma A, a variância amostral seria:
A variância é uma das medidas de dispersão mais utilizadas por suas propriedades matemáticas que possibilitam seu
emprego na inferência estatística. Entre estas propriedades, citam-se:
somando ou subtraindo uma constante c de todas as observaçõesde um conjunto, a variância não se altera;
2.
5.2.4
Figura 5.2 –
multiplicando por uma constante c todas as observações de um conjunto, a variância fica multiplicada por c2.
Entretanto, sua unidade elevada ao quadrado dificulta a interpretação, o que originou a criação de uma outra medida
denominada desvio padrão.
 Desvio padrão
Desvio padrão (σ quando se refere a uma população e s quando se refere a uma amostra) de um conjunto de N valores,
x1,x2,x3,x4, ... ,xN, é, por definição, a raiz quadrada da variância. Na prática, essa medida normalmente é preferida em relação à
variância por ser mais fácil de interpretar em função de utilizar a mesma unidade de medida das observações originais.
Exemplo 5.8: O desvio padrão das quantidades de erros de compilação cometidos pelos estudantes da turma C (Exemplo 5.3) é:
Se o grupo de 5 estudantes fosse uma amostra dos estudantes da turma C:
A interpretação dessa medida está vinculada à média aritmética. De acordo com Kazmier (2004), pelo teorema de
Chebyshey, num conjunto de valores com média µ e desvio padrão σ, pelo menos das observações estão
compreendidos no intervalo μ ± κσ, com κ > 1, onde κ é o número de desvios padrões. Se, por exemplo, κ = 2, pode-se afirmar
que pelo menos 75% dos valores estão compreendidos no intervalo μ ± 2σ.
Caso as observações apresentem a distribuição teórica conhecida como distribuição normal (Figura 5.2), pode-se dizer que
68,26% dos valores pertencem a um intervalo que admite a variação de um desvio padrão em torno da média aritmética (μ ±
1σ), 95,45% dos valores pertencem a um intervalo que admite a variação de dois desvios padrões em torno da média aritmética
(μ ± 2σ) e 99,73% dos valores pertencem a um intervalo que admite a variação de três desvios padrões em torno da média
aritmética (μ ± 3σ).
 Distribuição simétrica na forma de sino
5.2.5
5.3
5.3.1
Ressalta-se que os percentuais: 68,26%; 95,45% e 99,73%, mencionados nesta interpretação, são abordados em maiores
detalhes em estudos de distribuições de probabilidades, mais especificamente no estudo da Distribuição Normal.
Exemplo 5.9: De acordo com seu fabricante, a corrente elétrica máxima média suportada por um disjuntor é 45,3A com desvio
padrão de 0,35A. Considerando que essa variável apresenta distribuição normal, isso significa que em 99,73% das mensurações
a corrente elétrica máxima ficou entre 44,25A e 46,35A.
 Desvio interquartílico
Desvio interquartílico (dq) de um conjunto de N valores, x1,x2,x3,x4, ... ,xN, é, por definição, a amplitude do intervalo onde
estão contidos 50% dos valores centrais do conjunto de observações, sendo encontrado pela expressão:
onde Q1 e Q3 são o primeiro e terceiro quartis, respectivamente.
Exemplo 5.10: O desvio interquartílico das quantidades de erros de compilação cometidos pelos estudantes da turma B
(Exemplo 5.1) é:
dq = 5,5 – 2,5 = 3 erros,
considerando que Q1 = 2,5 erros e Q3 = 5,5 erros. Isso significa que 50% dos estudantes cometeram uma quantidade de erros
compreendida num intervalo de amplitude de três erros.
 Medidas de dispersão relativa
As medidas de dispersão relativa, além de avaliar a dispersão, permitem comparar duas ou mais distribuições que se
refiram a fenômenos diferentes e sejam expressas em métricas distintas.
 Coeficiente de variabilidade
Coeficiente de variabilidade (CV) de um conjunto de N valores, x1,x2,x3,x4, ... ,xN, é, por definição, o desvio padrão desse
conjunto (s ou σ) expresso como valor relativo da média aritmética ( ou µ), ou seja:
–
–
–
5.4
Esses resultados podem ser expressos em percentagem, bastando que, para isso, sejam multiplicados por 100.
Segundo Martins (2008), quando não se tem conhecimento anterior em relação à dispersão da variável em estudo, pode-se
utilizar o critério apresentado a seguir para classificá-la como baixa, média ou alta. Cabe lembrar que, dependendo da variável
em análise, essa classificação pode não ser aplicável.
CV < 15% → baixa dispersão;
15% ≤ CV ≤ 30% → média dispersão;
CV > 30% → alta dispersão.
Exemplo 5.11: O coeficiente de variabilidade das quantidades de erros de compilação dos estudantes das turmas A, B e C
(Exemplos 5.1 e 5.3) são:
Utilizando a classificação apresentada acima, as quantidades de erros cometidos pelos estudantes da turma A apresentam
dispersão média. Já as quantidades de erros dos estudantes das turmas B e C têm dispersão alta; porém, os da turma C foram os
que apresentaram maior dispersão.
Se os conjuntos analisados representassem amostras dos estudantes das turmas A, B e C, os coeficientes de variabilidade
seriam:
 Dados agrupados
Se as observações se apresentarem agrupadas em classes de frequência, o desvio médio e a variância podem ser calculados
pelas expressões apresentadas a seguir. Observe que são quase as mesmas expressões utilizadas para o cálculo das medidas para
dados com repetições, mas com a substituição de xi pelo ponto médio da classe, Pmi, e n ou N por ∑ fi.
Desvio médio:
5.5
Variância:
ou
para representar uma população e
ou
para representar uma amostra. Lembre que k é a quantidade de classes e .
 Considerações finais
Neste capítulo, foram apresentadas as medidas de dispersão. Percebe-se que conjuntos de observações podem ter a mesma
tendência central, mas distribuições bastante diferenciadas, sendo necessária a utilização de outras medidas que representem
essa variabilidade para complementar a informação. Dessa forma, o conjunto de observações é descrito com mais propriedade.
Dentre as medidas apresentadas neste capítulo, as mais utilizadas são variância e desvio padrão que, juntamente com a média
5.1
5.2
5.3
5.4
a)
b)
c)
d)
e)
f)
5.6
5.7
a)
b)
c)
d)
e)
5.8
5.9
5.5
aritmética, são muito utilizadas na inferência estatística. Quando o uso dessas medidas não for aconselhado pelas propriedades
matemáticas das observações, pode ser utilizado o desvio interquartílico, acompanhando a mediana.
Aplicações
João está cursando a disciplina Probabilidade e Estatística aplicada à Engenharia. No cálculo do desvio padrão de
observações que representam o fator água cimento usado em corpos de prova de concreto, encontra como afastamentos
dos valores em relação à média aritmética: – 0,03; 0,04; 0,08; 0,01; – 0,05; – 0,02; – 0,02. Esses resultados estão
corretos? Justifique.
Considerando as observações do Exercício 4.1, determine: a) amplitude total; b) desvio médio; c) variância; d) desvio
padrão; e) coeficiente de variabilidade; f) desvio interquartílico.
Considerando as observações do Exercício 4.2, determine: a) amplitude total; b) desvio médio; c) variância; d) desvio
padrão; e) coeficiente de variabilidade; f) desvio interquartílico.
Considerando as observações do Exercício 4.3, determine: a) amplitude total; b) desvio médio; c) variância; d) desvio
padrão; e) coeficiente de variabilidade; f) desvio interquartílico.
O que acontece com a variância de um conjunto de dados quando:
cada valor é multiplicado por 2?
cada valor é acrescido de 2?
cada valor é dividido por 2?
de cada valor é subtraído 2?
de cada valor é subtraída a média aritmética?
de cada valor subtrai-se a média e o resultado é dividido pelo desvio padrão?
Um experimento desenvolvido para avaliar o tempo de inicialização de um software (x) em um processador Core 3 gerou
resultados que apresentaram média de 7,7367 segundos e variância de 1,8725 segundos2. Se a variável y é dada por y =
2x + 5, qual a variância de y?
(ENADE/2009) Um laboratório está avaliando a compra de uma estufa de certa marca que possui temperatura média de
operação igual a 200 graus Fahrenheit, com desvio padrão de 10 graus Fahrenheit. Para elaborar um manual de
operação, a temperatura deve ser medida em graus Celsius. Usando a expressão simplificada C = 0,6F – 18 para
converter graus Fahrenheit em graus Celsius, o estatístico responsável encontrou que a média e o desvio padrão da
temperatura de operação da estufa são, respectivamente:
102 graus Celsius e 6 graus Celsius;
102 graus Celsius e 36 graus Celsius;120 graus Celsius e 6 graus Celsius;
120 graus Celsius e 36 graus Celsius;
182 graus Celsius e 6 graus Celsius.
Calcule a variância, o desvio padrão e o coeficiente de variabilidade para o número de acidentes diários, observados em um
cruzamento, durante 50 dias.
No de acidentes por dia 0 1 2 3 4
No de dias 35 7 5 2 1
Em Recife, a temperatura média em determinado ano foi de 27ºC e o desvio padrão foi 8ºC. Neste mesmo ano, no Rio de
Janeiro, a temperatura média foi de 24ºC e o desvio padrão foi 6ºC. Qual cidade apresentou temperaturas com menor
dispersão relativa?
5.10
5.11
5.12
5.13
5.14
5.15
5.16
(Adaptado de <http://www.educ.fc.ul.pt/icm/icm2003/icm24/probexerc.htm>). O Sr. Malaquias, que possui somente até o
4o ano de escolaridade, respondeu a dois anúncios de oferta de emprego. As empresas trabalham no mesmo ramo. O Sr.
Malaquias resolveu se informar sobre os salários pagos nas duas empresas e obteve a seguinte informação:
Medidas
Salários (em reais)
Empresa A Empresa B
Média 1.335,00 1.425,00
Mediana 1.200,00 1.050,00
Desvio padrão 480,00 570,00
Qual das empresas aconselharia o Sr. Malaquias a escolher? Explique por quê.
Considerando os dados apresentados no banco em anexo, referentes a idade, renda e quilometragem da amostra de 250
clientes da Toyord, verifique pelo coeficiente de variabilidade qual das variáveis possui maior dispersão relativa.
Em um processo produtivo, foi encontrada a altura média de 19,54 cm para blocos cerâmicos de 12 furos com desvio
padrão de 0,21 cm. Considerando essa variável normalmente distribuída, dentro de que limites estarão as alturas de
aproximadamente 95,45% dos blocos cerâmicos centrais oriundos desta linha de produção?
(Autor desconhecido) Em um grupo de 600 hóspedes de determinado hotel, têm-se os seguintes valores com relação ao
tempo de permanência: média = 9 dias; 1o quartil = 5 dias; 3o quartil = 15 dias; coeficiente de variabilidade = 20%.
Pede-se: a) quantos hóspedes permaneceram mais de 15 dias; b) quantos hóspedes permaneceram entre 5 e 15 dias; c) o
desvio padrão para o tempo de permanência; d) supondo que todos os hóspedes permaneçam mais dois dias, calcule a
nova média, desvio padrão e coeficiente de variação.
(Adaptado de Borges e Mota, 2011) Em novembro de 2011, foi desenvolvido estudo com o objetivo de avaliar o fluxo de
veículos motorizados que passam na Avenida Rio Grande, localizada na praia do Cassino. Em um dos horários em que
foi feito monitoramento, entre 18:15h e 19:00h do dia 9/11/2011, foi encontrada a média de 9,2 carros por minuto. Os
afastamentos tomados em relação a esta média foram: 4,8; – 0,2; 0,8; – 2,2; – 2,2; –1,2; – 0,2; 2,8; 0,8; – 2,2; 0,8; 1,8; –
1,2; –3,2; 0,8. Determine o conjunto de dados, sua variância, desvio padrão e coeficiente de variabilidade.
(Adaptado de Albuquerque e Bristot, 2012) No Laboratório de Controle Tecnológico em Materiais de Construção Civil,
Concreto, Geotecnia e Pavimentos da FURG, foram realizados ensaios para determinar a resistência à compressão de
blocos de pavimentação, tipo Unistein, em dois lotes de blocos de calçamento, sendo encontrados os resultados
apresentados a seguir:
Lote Tamanho (n) Média (MPa) Desvio padrão (MPa)
Lote 1 30 33,25 5,94
Lote 2 30 32,78 6,67
Em qual dos lotes devem ser encontrados corpos de prova com maior resistência à compressão?
Considerando os dados apresentados em 4.17, calcule o desvio padrão, compare com o resultado encontrado em 5.4 e
comente.
6.1
6.2
6
PROPRIEDADES DE UMA DISTRIBUIÇÃO
 Introdução
A maior parte das diversas técnicas utilizadas em análises estatísticas faz suposições sobre algumas propriedades da
distribuição das observações, razão pela qual devem ser investigadas. Por exemplo, ao representar um conjunto de observações
por medidas descritivas, deve-se optar entre a utilização de medidas clássicas ou medidas fundamentadas em sua ordenação. As
medidas clássicas (média, variância e desvio padrão), normalmente, são escolhidas por apresentarem boas propriedades
algébricas, além de ampla utilização na inferência estatística. Entretanto, não são indicadas quando a distribuição das
observações apresenta, por exemplo, uma assimetria acentuada.
Existem diversas propriedades importantes. Neste capítulo, são apresentadas algumas técnicas para avaliar a assimetria e a
curtose de um conjunto de observações, além de outras para a identificação de valor fora do padrão ou outlier.
 Momentos
Momentos são medidas que servem para caracterizar um conjunto de observações, sendo muito úteis no estudo de algumas
de suas propriedades. É bastante usual dizer que, quanto mais momentos de um conjunto de observações forem conhecidos,
melhor esse conjunto será caracterizado.
Chama-se momento de ordem r centrado em a de um conjunto de N observações, x1,x2,x3,x4, ... ,xN, ao valor encontrado
pela Expressão 6.1:
Exemplo 6.1:
 xi xi – 4 (xi – 4)2
 2 –2 4
 4 0 0
 6 2 4
 8 4 16
 10 6 36
Σ = 30 10 60
Momento de primeira ordem centrado em 4:
6.3
Figura 6.1 –
Momento de segunda ordem centrado em 4:
Existem duas categorias de momentos que são especiais: os centrados na origem e os centrados na média. A principal
medida de tendência central, a média aritmética, é o momento centrado na origem de ordem 1. Se r = 1 e 
Já a principal medida de dispersão, a variância, é o momento centrado na média aritmética de segunda ordem. Se r = 2 e a
= μ, então portanto, m(2, μ) = σ2. Se os dados forem amostrais, basta substituir N, μ e σ2 por n, e
s2.
 Assimetria
Para análises estatísticas, um conjunto ideal de observações é aquele que apresenta uma exata repartição em torno de um
ponto central. Nesse caso, o conjunto é dito simétrico. A assimetria é, então, uma informação a respeito da igualdade ou
desigualdade da distribuição das observações em torno da média.
A Figura 6.1 apresenta três distribuições: a representada em (a) mostra um conjunto de observações simétrico, com exata
repartição de valores em torno da média. As distribuições representadas em (b) e (c) mostram conjuntos de observações
assimétricos. Em (b), existe uma maior concentração de valores à esquerda, abaixo da média, caracterizando uma assimetria
positiva, enquanto em (c), uma maior concentração de valores acima da média, caracterizando uma assimetria negativa.
Representação gráfica de distribuições simétricas (a) e assimétricas (b) e (c)
A maneira mais simples de avaliar a assimetria de uma distribuição consiste na comparação de três medidas de tendência
central: a média aritmética, a mediana e a moda. Numa distribuição simétrica, elas são iguais. Quando a média > mediana >
moda, a distribuição é assimétrica positiva. Caso contrário, média < mediana < moda, a distribuição é assimétrica negativa.
Na prática, um conjunto de observações exatamente simétrico dificilmente é encontrado e, para análises estatísticas,
conjuntos de observações com assimetria não muito acentuada podem ser tratados como simétricos, tendo em vista a
superioridade das técnicas para observações com essa propriedade. Em vista disso, é interessante medir a intensidade da
assimetria, o que pode ser feito por meio de um coeficiente.
Diferentemente da quase totalidade das medidas descritivas já estudadas, um coeficiente de assimetria é um valor abstrato
6.3.1
–
–
–
6.3.2
–
–
6.3.3
que não tem unidade. Dessa forma, permite que sejam comparadas entre si várias distribuições. Quando a distribuição é
simétrica, o coeficiente de assimetria é nulo. Caso contrário, existe assimetria. Alguns coeficientes usados em sua mensuração
fornecem sinal algébrico (+ ou –), relacionados à assimetria positiva ou negativa, permitindo indicar o lado da distribuição em
que existe maior concentração de resultados. A seguir, são apresentados alguns coeficientes de assimetria.
 Coeficiente de assimetria de Pearson
Mede a assimetria pela diferença entre a média aritmética ( ) e a moda (Mo) do conjunto de observações, expressando-a
em unidades de desvio padrão (s), ou seja:
Quando uma distribuição formoderadamente assimétrica, demonstra-se que Mo = – 3( – Md), e o coeficiente de
Pearson pode ser reescrito como na Expressão 6.3:
A razão varia entre –1 e +1; logo, esse coeficiente variará entre –3 e +3, e, para interpretá-lo, alguns autores
sugerem adotar o seguinte critério:
 |aPearson| ≤ 0,15 – distribuição das observações pode ser considerada simétrica;
0,15 < |aPearson| ≤ 1,00 – distribuição das observações moderadamente assimétrica;
|aPearson| > 1,00 – distribuição das observações acentuadamente assimétrica.
 Coeficiente de assimetria de Yule
Mede a assimetria a partir de medidas baseadas na ordenação das observações: mediana (Md) e quartis (Q1 e Q3). Esse
coeficiente considera a diferença entre Q3 – Md e Md – Q1 como medida da assimetria, dividindo-a pela soma dessas parcelas
para transformá-la em valor relativo, logo:
Se a distribuição das observações for simétrica, então Q3 – Md = Md – Q1. Quando a mediana coincide com um dos
quartis, esse coeficiente assume seus valores extremos: –1 e +1, ou seja:
se Md = Q3, então aYale = –1,0 e a distribuição das observações é assimétrica negativa;
se Md = Q1, então aYale = 1,0 e a distribuição das observações é assimétrica positiva.
Essa medida apresenta o inconveniente de levar em consideração apenas 50% dos valores centrais do conjunto de
observações.
 Coeficiente de assimetria de Kelley
Kelley tentou melhorar o coeficiente de Yule, expandindo seu cálculo para 80% dos valores centrais, com a substituição
dos primeiro e terceiro quartis pelos décimo (C10) e nonagésimo (C90) percentis, respectivamente. Portanto:
6.3.4
–
–
–
–
Esse coeficiente assume seus valores extremos (+1 e –1) quando a mediana coincide com o percentil 10 ou com o percentil
90, respectivamente.
 Coeficiente de assimetria de Fisher
Mede a intensidade da assimetria de um conjunto de observações a partir dos momentos centrados na média, mais
especificamente de m(3, μ). Em uma distribuição simétrica, os afastamentos dos valores em relação a sua média aritmética (xi –
μ) são simétricos dois a dois e se anulam. Essa propriedade faz com que, em distribuições simétricas, a soma de todos os
momentos de ordem ímpar seja nula. Fisher propôs medir a assimetria pelo terceiro momento centrado na média aritmética,
dividindo-o pelo cubo do desvio padrão para transformá-lo em valor relativo, ou seja:
onde: 
De acordo com Silveira Junior et al. (1989), se |a3| < 0,5, as observações podem ser tratadas como simétricas.
Exemplo 6.2 (Adaptado de Hermann e Cardoso, 2011) Uma contagem de veículos em um cruzamento no centro de uma cidade
forneceu as seguintes observações (em veículos/minuto):
9 10 10 8 7 7 7 11 4 8 5 9 9 4
que apresentam: = 7,714 veículos; Md = 8,00 veículos; s = 2,199 veículos; Q1 = 7,00 veículos; Q3 = 9,00 veículos; C10 = 4,00
veículos; C90 = 10,10 veículos; m(2, ) = 4,490 veículos2; m(3, ) = – 4,128 veículos3; m(4, ) = 43,93 veículos4.
Portanto:
pelo coeficiente de assimetria de Pearson,
pelo coeficiente de assimetria de Yule,
pelo coeficiente de assimetria de Kelley,
pelo coeficiente de assimetria de Fisher,
Esses resultados indicam a existência de uma assimetria negativa e moderada na distribuição das observações.
6.4
Figura 6.2 –
6.4.1
–
–
–
6.4.2
 Curtose
Uma outra propriedade habitualmente investigada em análises de propriedades de distribuições de observações é a curtose,
que se refere ao seu maior ou menor achatamento em relação a uma distribuição normal, considerada ideal. Essa análise permite
classificá-la em platicúrtica, mesocúrtica ou leptocúrtica (Figura 6.2). Essa propriedade está associada à dispersão: quanto maior
a dispersão, maior o achatamento de uma curva.
 Representação gráfica de distribuições platicúrtica (a), mesocúrtica (b) e leptocúrtica (c)
A seguir, são apresentados alguns coeficientes que medem o grau de achatamento de uma distribuição.
 Coeficiente de curtose a partir dos momentos
Diferentemente da assimetria, o maior ou menor grau de curtose de uma distribuição pode ser mensurado por momentos de
ordem par, mais especificamente m(4, μ), que é dividido pelo momento de segunda ordem ao quadrado para se transformar em
valor relativo.
De acordo com Silveira Junior et al. (1989), a interpretação desse resultado é feita da seguinte maneira:
a4 < 3 – a curva denomina-se leptocúrtica, indicando distribuição de observações com pouca variabilidade;
a4 = 3 – a curva denomina-se mesocúrtica, indicando distribuição de observações com uma variabilidade ideal;
a4 > 3 – a curva denomina-se platicúrtica, indicando distribuição de observações com muita variabilidade.
No cálculo desse coeficiente, alguns autores consideram a expressão para tomar o valor zero como referência
na classificação do tipo de distribuição.
 Coeficiente percentílico de curtose
Esse coeficiente é calculado pelo quociente entre dois intervalos: a metade do intervalo que contém os 50% dos valores
–
–
–
–
–
6.5
–
centrais, determinado a partir do primeiro (Q1) e terceiro quartil (Q3), e o intervalo que contém os 80% dos valores centrais,
determinado a partir do décimo (C10) e nonagésimo (C90) percentil.
A interpretação é feita com o valor 0,263 como referência, relacionado a uma distribuição mesocúrtica ou normal, ou seja:
a4 < 0,263 – a curva denomina-se leptocúrtica;
a4 = 0,263 – a curva denomina-se mesocúrtica;
a4 > 0,263 – a curva denomina-se platicúrtica.
Exemplo 6.3: Considerando as observações apresentadas no Exemplo 6.2, em relação à curtose, pode-se concluir que:
pelo coeficiente de curtose a4, encontra-se o resultado
pelo coeficiente percentílico de curtose, encontra-se o resultado
Esses indicam que a distribuição das observações é leptocúrtica.
 Outlier ou valor fora do padrão
Outliers são valores de um conjunto de observações que se diferenciam muito dos demais, despertando a suspeita de que
foram gerados por um mecanismo diferente. Sua detecção é fundamental em qualquer análise exploratória de observações por
sua presença poder afetar consideravelmente os resultados. Esses têm o poder de influenciar mais os resultados de uma análise
do que as outras observações envolvidas, interferindo nas estimativas e significância dos achados.
Na prática, a técnica usada com maior frequência em análises exploratórias para detectar a presença de outliers é aquela
que emprega medidas baseadas na ordenação das observações: primeiro quartil (Q1), mediana (Md), terceiro quartil (Q3) e
desvio interquartílico (dq), além de valores mínimo e máximo. Se uma observação for maior que Q3 + 1,5dq ou menor que Q1 –
1,5dq, pode ser considerada como suspeita de ser outlier. Se for maior que Q3 + 3dq ou menor que Q1 – 3dq, pode ser
considerada como outlier.
Para observações que apresentam distribuição normal, a identificação pode ser feita a partir da média e do desvio padrão.
São considerados possíveis outliers observações que fiquem fora do intervalo [ ± 3 · s]. Alguns autores propõem limites
relacionados ao tamanho da amostra avaliada: se o conjunto de observações for pequeno (inferior a 50), resultados que fiquem
fora do intervalo [ ± 2,5 · s] já podem ser considerados outliers; em amostras maiores, observações que fiquem fora do
intervalo [ ± 3,3 · s] são outliers.
Outras técnicas analíticas, denominadas testes de discordância, como o teste de Dixon e o teste de Grubbs, também podem
ser utilizadas para essa finalidade. Ressalta-se que essas técnicas não são abordadas neste livro.
Exemplo 6.4: Considerando as observações apresentadas no Exemplo 6.2, em relação à presença de outliers, pode-se concluir
que:
como a amostra possui menos de 50 observações, = 7,714 veículos e s = 2,199 veículos, optou-se por considerar
–
6.6
6.6.1
Figura 6.3 –
6.6.2
Figura 6.4 –
outliers observações que extrapolassem o intervalo definido por [ ± 2,5 · s] = [2,2165;13,2115]. Esse critério não
identifica outliers.
considerando as medidas baseadas na ordenação das observações, seriam possíveis outliers valores queextrapolassem o
intervalo [Q1 – 1,5dq; Q3 + 1,5dq] = [2,375;13,375]. Esse critério também não identifica outliers.
 Métodos gráficos para avaliação de algumas propriedades
Existem alguns gráficos que podem ser utilizados para avaliar, ainda que subjetivamente, as propriedades tratadas neste
capítulo. São eles o histograma e o ramo e folhas, já apresentados no Capítulo 3, e o box plot ou diagrama de caixas e o
diagrama de quantis. O gráfico de probabilidade normal também pode ser bastante útil nesse tipo de análise.
 Histograma
Este tipo de gráfico pode ser utilizado para fornecer uma ideia da assimetria da distribuição das observações. Também
pode ser útil para fornecer informações sobre a forma da distribuição e seus picos, a tendência central e a dispersão.
A Figura 6.3 mostra alguns histogramas. O gráfico (a) sugere observações simétricas. Os gráficos (b) e (c) sugerem
observações com assimetria positiva e negativa, respectivamente. O gráfico (d) apresenta uma distribuição de observações com
dois picos, sugerindo a possibilidade de estratificação da amostra ou população. Já o gráfico (e) sugere, além de certa
assimetria, observações com muita variabilidade (caudas muito longas).
 Histogramas
 Ramo e folhas
Similar ao histograma, este tipo de gráfico pode ser utilizado para fornecer uma ideia da assimetria da distribuição das
observações, sua forma e picos, tendência central e dispersão. A Figura 6.4 mostra dois gráficos desse tipo. O gráfico (a) sugere
observações simétricas, enquanto o (b), assimétricas e com presença de lacuna.
 Ramo e folhas
6.6.3
Figura 6.5 –
 Box plot ou diagrama de caixas
Este gráfico é bastante útil no estudo de variáveis quantitativas por fornecer uma ideia da assimetria, tendência central,
dispersão e presença de outliers. É traçado a partir de algumas medidas: mediana (md), quartis (Q1 e Q3), desvio interquartílico
(dq), além de valores mínimo e máximo (xmín e xmáx).
Depois de adotar uma escala para um eixo vertical, traça-se uma caixa de qualquer largura, com base no primeiro quartil e
topo no terceiro quartil, colocando-se uma linha horizontal mais grossa na altura da mediana. Na base da caixa (primeiro
quartil), traça-se uma linha perpendicular, para baixo, que pode ter comprimento máximo de 1,5 dq ou ir até o menor valor, se
esse estiver a uma distância inferior a 1,5 dq. No topo da caixa (terceiro quartil), traça-se uma outra linha, também
perpendicular, mas para cima, que pode ter comprimento máximo de 1,5 dq ou ir até o maior valor se esse estiver a uma
distância inferior a 1,5 dq (Figura 6.5).
 Construção de um box plot
Figura 6.6 –
Os valores que ficarem fora da área de abrangência dessas linhas são plotados como º, quando estiverem a uma distância
entre 1,5 dq e 3 dq abaixo do primeiro quartil ou acima do terceiro quartil, ou como *, quando estiverem a uma distância
superior a 3 dq abaixo do primeiro quartil ou acima do terceiro quartil, sendo identificados como possíveis outliers no primeiro
caso e outliers no segundo.
A Figura 6.6 apresenta quatro box plots: o primeiro (a) representa observações simétricas; o segundo (b), observações com
assimetria positiva por apresentar o Q1 mais próximo da mediana; o terceiro (c), observações com assimetria negativa por
apresentar o Q3 mais próximo da mediana; já o quarto (d) apresenta um possível outlier inferior.
 Exemplos de box plots
As observações apresentadas na Figura 6.7 se referem ao exemplo apresentado no Capítulo 3 sobre notas obtidas por
alunos em uma avaliação. O gráfico sugere que as observações apresentam uma levíssima assimetria negativa (a mediana está
um pouco mais próxima do terceiro quartil e da extremidade superior), além de não identificar outliers. O valor central fica
ligeiramente abaixo do grau 50, os 50% centrais estão entre aproximadamente 30 e 62, enquanto a totalidade das observações
está entre 0 e aproximadamente 90.
A Figura 6.8 apresenta quatro box plots representando as notas obtidas por alunos em quatro bimestres de uma disciplina
anual. Com relação à tendência central, observa-se que ela foi aumentando no decorrer do ano. Em relação à variabilidade,
observa-se que ela foi maior no segundo e terceiro bimestres, sendo neste último maior a variabilidade dos 50% dos valores
Figura 6.7 –
Fonte:
Figura 6.8 –
Fonte:
centrais.
Os resultados, no primeiro bimestre, foram praticamente simétricos, enquanto houve maior concentração de notas menores
no segundo bimestre, caracterizando uma assimetria positiva; e no terceiro e quarto bimestres, maior concentração de notas
maiores, caracterizando assimetria negativa. No último bimestre, ocorreram alguns possíveis outliers.
 Box plot para notas na disciplina de Probabilidade e Estatística aplicada à Engenharia, primeiro bimestre –
FURG – 2011
Caderno de registro de notas.
Box plots para notas na disciplina de Probabilidade e Estatística aplicada à Engenharia, turma A – FURG – 2011
Caderno de registro de notas.
Figura 6.9 –
Figura 6.10 –
Figura 6.11 –
Observação 6.1: Se for conveniente, é possível traçar o box plot horizontalmente (Figura 6.9).
Observação 6.2: Uma versão simplificada do box plot é o diagrama de extremos e quartis, onde o comprimento das hastes é
determinado pelos valores extremos, o superior e o inferior (Figura 6.10).
Box plot
Construção de um box plot simplificado
Observação 6.3: Outra forma de representar as medidas consideradas na construção de um box plot é mediante o esquema dos
cinco números, organizados conforme a Figura 6.11. Por meio desse, é possível tirar conclusões sobre a simetria das
observações, sua tendência central (Md) e dispersão (dq). Se as observações forem simétricas, a diferença entre mediana e
primeiro quartil deve ser igual à diferença entre mediana e terceiro quartil. O mesmo deve acontecer em relação aos valores
máximo e mínimo.
Representação do esquema dos cinco números
6.6.4
Figura 6.12 –
Fonte:
 Diagrama dos quantis
Este tipo de diagrama, construído a partir dos quantis, também é muito aplicado no estudo de variáveis quantitativas,
possibilitando avaliar assimetria e presença de possíveis outliers. É construído em um sistema de coordenadas cartesianas. No
eixo das abscissas, marcam-se os percentis empíricos (pi) que representam as posições das observações, enquanto o eixo vertical
é graduado de acordo com a métrica usada na mensuração das observações (xi), sendo plotados os pontos (pi; xi).
Se as observações forem simétricas, os pontos ficam igualmente espaçados da mediana e com a mesma inclinação. Se as
observações apresentarem assimetria positiva, os pontos que se localizam acima da mediana são mais inclinados; no caso de
assimetria negativa, os pontos abaixo da mediana são mais inclinados.
Para determinar os percentis empíricos (pi), pode ser usada a expressão (BUSSAB; MORETTIN, 2002):
onde i é o posto ocupado pela observação no conjunto ordenado e n é a quantidade de observações.
Exemplo 6.5 (Adaptado de Gelatti e Longaray, 2011) Em um experimento, foram gerados números aleatórios, utilizando a
função rand( ) presente na biblioteca cstdlib na linguagem de programação C++. Foram realizadas 11 simulações em que foram
gerados 1.000.000 de dígitos aleatórios (0, 1, 2,..., 9), sendo registrado o tempo gasto, em segundos, para gerá-los. Os resultados
registrados foram: 0,64; 1,03; 1,43; 1,85; 2,21; 2,60; 2,99; 3,38; 3,76; 4,14; 4,53.
O diagrama de quantis, gerado a partir dessas informações, está apresentado na Figura 6.12, evidenciando que as
observações são simétricas, não existem lacunas nem outliers.
Tempo gasto para geração de números aleatórios usando a linguagem de programação C++ – FURG – 2012
Gelatti e Longaray (2011).
6.7
Quadro 6.1 –
Fonte:
 Transformações matemáticas
Conforme já mencionado, a seleção da técnica estatística mais adequada a ser utilizada em uma análise está relacionada a
algumas propriedades da distribuição das observações a serem analisadas, como, por exemplo, normalidade, que supõe simetria
e grau de achatamentomesocúrtico. Na prática, quando as observações não cumprem as suposições do modelo teórico
escolhido, é comum contornar problemas dessa natureza modificando a métrica da resposta por meio de uma transformação
matemática. A transformação logarítmica, por exemplo, proposta por Bartlett e Kendall (1946), é uma das mais utilizadas para
corrigir problemas de assimetria positiva.
Algumas transformações são apresentadas no Quadro 6.1. Esse quadro apenas sugere algumas transformações,
relacionando-as ao problema a ser corrigido. A escolha dependerá de como a distribuição amostral está se afastando da
normalidade. Na prática, é bastante usual, em função dos recursos disponíveis, aplicar mais de uma transformação e avaliar qual
a que melhor ameniza o problema. Além das transformações apresentadas no Quadro 6.1, também são bastante utilizadas: |x|;
x2/3; x1/3 e x1/2.
É importante salientar que, algumas vezes, a utilização das transformações pode resultar no aparecimento de novos
problemas, como, por exemplo, os inliers, que são outliers gerados por uma transformação matemática. A transformação
logarítmica, por exemplo, pode originar inliers quando existirem valores muito próximos de zero, pois geram valores negativos
e de alta magnitude.
 Transformações matemáticas
Problema a ser contornado Transformação sugerida
Proporcionalidade média/variância
Variâncias heterogêneas
Efeitos multiplicativos
Assimetria positiva
Coeficiente de variabilidade constante
x′ = log x
ou
x′ = log(x + 1)
Proporcionalidade média/variância: estabilização da variância
Não normalidade das distribuições de percentagens ou proporções
Não normalidade das distribuições de percentagens ou proporções
(sobretudo com valores extremos)
Desvio padrão diretamente proporcional à raiz quadrada da média
Desvio padrão inversamente proporcional à média x′ = x2
Observações com distribuição binomial negativa
Almeida (2004).
6.8
6.9
a)
b)
6.2
6.3
a)
b)
6.1
 Transformação z
A transformação z representa o número de desvios padrão com que um valor se situa acima ou abaixo da média, sendo
definida pela expressão:
onde μ e σ são, respectivamente, a média e o desvio padrão do conjunto de observações que representam uma população. Para
amostras, devem ser utilizados os símbolos e s. Essa transformação é uma medida de posição relativa, podendo ser utilizada
na comparação de distribuições, assim como na identificação de valores atípicos (|z| ≥ 3 ou |z|) ≥ 2,5).
 Considerações finais
Neste capítulo, vimos que as diversas técnicas utilizadas em análises estatísticas fazem suposições sobre algumas
propriedades da distribuição das observações; assim, torna-se importante o seu estudo. Foram descritos diferentes métodos
analíticos e gráficos para avaliar a assimetria, a curtose e a presença de valor fora do padrão (outlier), entre outros. Também
foram discutidas as transformações matemáticas, que podem ser utilizadas quando as observações não cumprem as suposições
do modelo teórico escolhido.
Aplicações
O consumo mensal de energia elétrica (em KWh) de uma família por um período de três anos foi:
618 302 361 334 465 233 555 341 530 753 470 491
492 314 337 379 954 459 302 412 544 637 458 385
517 344 369 307 371 343 301 302 322 430 524 620
Avalie a assimetria pelos coeficientes de Pearson, Yule, Kelley e Fisher.
Avalie a curtose pelo coeficiente dos momentos e percentílico.
(Adaptado de Pedroso e Lucena, 2012) Hidróxido de sódio é uma base muito empregada em medições rotineiras em
laboratórios de pesquisas. Na padronização dessa substância, foram obtidos os seguintes valores para ph:
3,7 3,9 4,0 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9 5,0
5,1 5,1 5,2 5,3 5,5 5,6 5,7 5,9 6,3 7,0 10,0 10,5
10,7 10,9 11,0 11,1 11,2 11,2 11,3 
Construa um ramo e folhas e um box plot, avaliando a assimetria e a presença de outlier.
 (Adaptado de Almeida e Morita, 2011) Os valores abaixo se referem à corrente, em amperes, que fluía em um circuito com
uma tensão que variava entre 5 e 20 V.
0,64 0,82 1,03 1,24 1,43 1,61 1,85 2,00 2,21 2,40 2,60 1,79
2,99 3,17 3,38 3,56 3,76 3,95 4,14 4,34 4,53 
Avalie:
A assimetria desse conjunto de observações por meio do coeficiente de Pearson.
A presença de outliers por meio da transformação z.
6.4
a)
b)
(Adaptado de Soares e Meregalli, 2011) Em um ensaio realizado no laboratório de física, foi mensurado o tempo (em
segundos) que um móvel, lançado 30 vezes com impulso eletromagnético, levou para percorrer 20 centímetros sobre
uma superfície com atrito quase desprezível. Os resultados obtidos foram:
1,11 1,12 1,14 1,20 1,18 1,17 1,50 1,21 1,09 2,05 1,41 1,16
1,29 1,27 1,08 1,12 1,07 1,13 1,12 1,21 1,19 1,16 1,2 1,22
1,13 1,16 1,22 1,21 1,19 1,18 
Avalie:
a assimetria pelo coeficiente de Kelley; e
a curtose pelo coeficiente percentílico.
7.1
7.2
Tabela 7.1 –
7
ANÁLISES DE CORRELAÇÃO
 Introdução
No desenvolvimento de trabalhos científicos, é bastante comum investigar a existência de relação entre as variáveis
envolvidas para saber com precisão o quanto alterações nos resultados de uma variável podem estar associadas à transformação
nos resultados de outras variáveis. Por exemplo, espera-se que a velocidade do vento em um parque eólico possa estar associada
à geração de corrente, assim como o peso e a altura de indivíduos, o tempo de estudo e a nota na prova de estudantes, o
rendimento de um motor e o tempo de sua última regulagem, o desempenho de um indivíduo na universidade e seu desempenho
no ensino médio etc.
Nesse tipo de investigação, podem ser usadas técnicas de análise de correlação e análise de regressão. Com a primeira,
investiga-se a possibilidade de existência de associação, bem como seu sentido (direto ou inverso) e intensidade, enquanto, com
a segunda, o relacionamento é descrito por meio de uma expressão matemática.
O termo, inicialmente “co-relação”, foi assim proposto por Galton em 1888 (SCHULTZ; SCHULTZ, 1992). Essa
propriedade foi observada e analisada em medidas antropométricas, sendo definida da seguinte forma: “Dois órgãos são ditos
correlacionados quando a variação de um deles é geralmente acompanhada pela variação do outro, e na mesma direção,
enquanto a proximidade da relação difere em diferentes pares de órgãos”1 (GALTON, 1889, p. 238). Assim, o termo
correlação significa relação nos dois sentidos e é utilizado na estatística para indicar a força que mantém unidos dois conjuntos
de valores. A constatação da existência e do grau de relação entre as variáveis é parte do estudo da correlação. Entretanto, essas
técnicas avaliam apenas a possibilidade de existência de uma associação numérica entre os dados, não implicando uma relação
de causa e efeito.
Os métodos pertinentes à análise de correlação representam uma ferramenta essencial nas mais diversas áreas do
conhecimento. Além do coeficiente de correlação linear de Pearson, serão estudados, neste capítulo, os coeficientes de
Spearman e de Contingência.
 Diagrama de dispersão
Para avaliar a existência de correlação entre duas variáveis ou até mesmo verificar se ela pode ser linear ou não, e ainda ter
uma ideia de sua intensidade e sentido, é possível recorrer a uma representação gráfica muito simples: os pares de observações
das duas variáveis são plotados num diagrama cartesiano chamado “diagrama de dispersão”. Trata-se de um gráfico onde são
representados os pares (xi, yi) de duas variáveis, sendo i = 1,2,...,n, onde n representa a quantidade de pares de observações. O
gráfico de dispersão, na maioria das vezes, dá uma boa ideia de como as duas variáveis se relacionam.
As informações apresentadas na Tabela 7.1 se referem à idade de 10 indivíduos e o tempo que permanecem, diariamente,
em frente a um computador. Ao plotar essas variáveis em um diagrama de dispersão (Figura 7.1), observa-se que, quanto menor
a idade, maior o tempo de permanência na frente de um computador, sugerindo a existência de uma relação negativa entre essas
variáveis. O gráfico também indica que esta relação é linear.
 Idade e tempode permanência diário na frente de um computador de 10 indivíduos
Fonte:
Figura 7.1 –
Fonte:
7.3
Indivíduo Idade, em anos (x) Tempo de permanência, em minutos (y)
1 32 290
2 44 150
3 26 340
4 44 100
5 40 130
6 36 180
7 28 290
8 40 200
9 34 220
10 20 380
Dados fictícios.
Diagrama de dispersão
Dados fictícios.
 Coeficiente de correlação linear de Pearson
O diagrama de dispersão mostra se existe correlação entre duas variáveis, o sentido desse relacionamento e se esse é linear
ou não linear. Embora esse diagrama forneça uma ideia do relacionamento entre duas variáveis x e y, é interessante medir sua
intensidade quantitativamente, o que pode ser feito por um coeficiente que expresse o grau de associação entre as variáveis.
Quando a correlação é linear, a mensuração pode ser feita pelo coeficiente de correlação linear de Pearson, representado
por rxy, quando for determinado a partir de uma amostra. Esse coeficiente será uma estimativa do coeficiente de correlação
populacional: ρ.
Esse coeficiente pode variar entre –1 e + 1. A correlação será tanto mais forte quanto mais próximo o coeficiente estiver
desses valores e será tanto mais fraca quanto mais próximo estiver de zero. Assim, pode-se interpretá-lo conforme descrito a
seguir:
–
–
–
Figura 7.2 –
Fonte:
Correlação linear positiva (0 < rxy < 1): será considerada positiva se valores crescentes de x estiverem associados a
valores crescentes de y de forma linear (Figura 7.2a). No caso de uma correlação linear positiva perfeita (rxy = 1), os
pontos (x, y) estão perfeitamente alinhados (Figura 7.2b).
Correlação linear nula (rxy = 0): quando não houver relação entre as variáveis x e y, ou seja, quando os valores de x e y
ocorrerem independentemente (Figura 7.2f). Quando a relação entre as duas variáveis for não linear (Figura 7.2e), o
coeficiente de correlação linear de Pearson (rxy) deverá ser próximo de zero, indicando que não existe correlação
linear entre as duas variáveis.
Correlação linear negativa (–1 < rxy < 0): será considerada linear negativa quando valores crescentes da variável x
estiverem associados a valores decrescentes da variável y ou valores decrescentes de x associados a valores
crescentes de y (Figura 7.2c). Quando os pontos estiverem perfeitamente alinhados, mas em sentido inverso, a
correlação é denominada linear perfeita negativa (rxy = –1) (Figura 7.2d).
 Diagramas de dispersão para diferentes tipos de correlação
Dados fictícios.
Encontram-se na literatura diversas classificações para interpretação do coeficiente de correlação linear de Pearson, em
relação à intensidade. Devore (2006) classifica esse coeficiente da seguinte forma:
|rxy | ≤ 0,50 – correlação fraca;
0,50 < | rxy | < 0,80 – correlação média;
| rxy | ≥ 0,80 – correlação forte.
Figura 7.3 –
Fonte:
Figura 7.4 –
Exemplo 7.1: Considere que os valores abaixo correspondem ao tempo de experiência em manutenção de caldeiras, medido em
meses, de uma amostra de oito funcionários e o resultado de uma avaliação de desempenho em uma prova prática de manuseio
do equipamento.
Funcionário 1 2 3 4 5 6 7 8
Tempo de
experiência (x)
6 8 10 10 10 12 12 15
Desempenho (y) 85 80 100 105 95 105 110 110
As observações plotadas no diagrama de dispersão (Figura 7.3) sugerem a existência de correlação linear e positiva, que
pode ser mensurada pelo Coeficiente de Correlação Linear de Pearson.
Diagrama de dispersão entre tempo de experiência e desempenho
Fictícia.
Esse coeficiente avalia a intensidade da correlação comparando a variação das observações de cada uma das variáveis em
torno de suas respectivas médias: 10,375 meses para o tempo e 98,75 para a avaliação do desempenho, representadas na Figura
7.4. Observe que, nas primeiras mensurações, ambas as variáveis apresentam resultados abaixo da média e, nas últimas
observações, ambas apresentam resultados acima da média, o que sugere que elas variaram de maneira similar em torno de suas
respectivas médias.
Variação do tempo de experiência e do desempenho em torno das respectivas médias
Fonte:
Figura 7.5 –
Fictícia.
Uma das medidas estudadas no Capítulo 5 para representar a variabilidade de um conjunto de observações é a variância,
calculada a partir dos afastamentos dessas observações em relação a sua média, ou seja:
A comparação da variabilidade de ambas as variáveis pode ser feita também a partir dos afastamentos das observações em
relação às suas respectivas médias, por meio de uma medida denominada covariância, calculada por:
Trabalhar com afastamentos é equivalente a alterar a origem do sistema de coordenadas cartesianas utilizado na construção
do diagrama de dispersão para o ponto de coordenadas ( ; ), conforme Figura 7.5. Se a observação assume valor maior que a
média, o afastamento é positivo; se assume valor menor que a média, o afastamento é negativo.
Se neste novo sistema de referência as coordenadas dos pontos plotados (xi – ; yi – ) tiverem o mesmo sinal (ambas
positivas ou ambas negativas), o ponto se localizará no primeiro ou no terceiro quadrante, e o produto (xi – ) · (yi – ) será
positivo. Caso contrário, será negativo.
Se a soma dos produtos for positiva, existirá maior concentração de pontos no primeiro e terceiro quadrantes indicando
covariância positiva, ou seja, as variáveis mudam de maneira similar. Maiores valores de uma correspondem a maiores valores
da outra e vice-versa. Caso contrário, tem-se maior concentração no segundo e quarto quadrantes indicando covariância
negativa, ou seja, a maiores valores de uma correspondem menores valores da outra.
Diagrama de dispersão com alteração da origem do sistema de coordenadas cartesianas
Fonte:
Tabela 7.2 –
Fonte:
Fictícia.
No exemplo considerado na Figura 7.5, percebe-se a maior concentração de pontos no primeiro e terceiro quadrantes,
caracterizando uma associação positiva. Para esse exemplo = 10,375 meses e = 98,75. A Tabela 7.2 apresenta os cálculos
para a determinação da covariância, que é 26,25, confirmando a existência de associação positiva. Entretanto, como interpretar
esse resultado em termos de intensidade? Essa correlação é forte? É fraca?
 Detalhamento do cálculo da covariância
Observação x y xi – yi – (xi – ) · (yi – )
1 6 85 –4,375 –13,75 60,15625
2 8 80 –2,375 –18,75 44,53125
3 10 100 –0,375 1,25 –0,46875
4 10 105 –0,375 6,25 –2,34375
5 10 95 –0,375 –3,75 1,40625
6 12 105 1,625 6,25 10,15625
7 12 110 1,625 11,25 18,28125
8 15 110 4,625 11,25 52,03125
Total 83 790 – – 183,75
Observações do Exemplo 7.1.
A soma dos produtos dos afastamentos é influenciada pela métrica utilizada, razão pela qual fica difícil comparar duas
covariâncias calculadas a partir de observações mensuradas com métricas diferentes. No exemplo considerado, analisando esses
afastamentos, percebe-se que a variação em y é bem maior que a de x, razão pela qual o produto ficaria bem mais afetado pelos
valores de y do que de x. Para resolver esse problema, pode-se dividir a covariância pelo desvio padrão das observações de x e
desvio padrão das observações de y, ou seja:
Tem-se então uma medida que independe da métrica utilizada na mensuração e varia entre [–1;+1]: o coeficiente de
correlação linear de Pearson. No exemplo considerado, sx = 2,72 meses e sy = 11,26, logo:
Outra maneira de desenvolver esse procedimento consiste em reduzir as duas variáveis à mesma escala, transformando os
afastamentos em variáveis padronizadas, conforme visto no Capítulo 6, ou seja:
Tabela 7.3 –
Fonte:
A Tabela 7.3 apresenta os cálculos necessários. Nas colunas 4 e 5, são apresentadas as novas coordenadas (afastamentos).
Nas colunas 6 e 7, as coordenadas reduzidas, e, na coluna 8, o produto das coordenadas reduzidas. O resultado encontrado é
exatamente o mesmo, ou seja:
 Detalhamento do cálculo do coeficiente de correlação linear de Pearson
Observação x y x – y – Zx · Zy
1 6 85 –4,375 –13,75 –1,61 –1,22 1,96
2 8 80 –2,375 –18,75 –0,87 –1,67 1,45
3 10 100 –0,375 1,25 –0,14 0,11 –0,02
4 10 105 –0,375 6,25 –0,14 0,56 –0,085 10 95 –0,375 –3,75 –0,14 –0,33 0,05
6 12 105 1,625 6,25 0,60 0,56 0,34
7 12 110 1,625 11,25 0,60 1,00 0,60
8 15 110 4,625 11,25 1,70 1,00 1,70
Total 83 790 0 0 6,00
Observações do Exemplo 7.1.
Pode-se considerar, então, que a correlação é a média dos produtos dos valores reduzidos das variáveis, ou seja:
No exemplo considerado, o coeficiente de correlação amostral é 0,857, indicando que nos dados amostrais existe
correlação linear, positiva e forte, o que pode ser interpretado como uma tendência de melhor desempenho associado a mais
tempo de experiência.
O coeficiente de correlação linear de Pearson, apresentado na Expressão 7.3, pode ser convertido para outra expressão, que
diminui a quantidade de operações matemáticas necessárias para chegar ao resultado.
7.4
onde: n – quantidade de pares de observações; xi – i-ésima observação da variável x; yi – i-ésima observação da variável y; rxy –
coeficiente de correlação linear de Pearson amostral.
Exemplo 7.2: Para as variáveis idade e tempo de permanência na frente de um computador, referente a dez indivíduos,
apresentadas na Tabela 7.1, o coeficiente de correlação linear de Pearson será:
Existe uma correlação amostral linear, negativa e forte, indicando que, na amostra investigada, quanto maior a idade,
menor o tempo de permanência em frente ao computador. O resultado concorda com a interpretação do gráfico apresentado na
Figura 7.1.
Observação 7.1: Cabe lembrar que a suposição fundamental para uso desse coeficiente de correlação é que o relacionamento
entre as duas variáveis seja linear. Caso a relação não seja linear, o valor desse coeficiente pode ser zero ou próximo de zero. A
segunda suposição é de que as variáveis envolvidas sejam aleatórias e medidas, no mínimo, em escala de intervalo. A terceira
suposição é de que a distribuição conjunta das duas variáveis seja normal bivariada. Isso é equivalente a dizer que para cada x
dado, a variável y é normalmente distribuída.
Observação 7.2: Karl Pearson desenvolveu a expressão matemática para o cálculo desse coeficiente de correlação que é
utilizado até hoje e tem seu nome em homenagem. O símbolo do coeficiente de correlação amostral “r” vem da primeira letra da
palavra regressão, em reconhecimento ao trabalho desenvolvido por Galton (SCHULTZ; SCHULTZ, 1992), que publicou em
1869 o livro Hereditary genius, sobre a teoria da regressão. Apesar de, neste livro, não se abordar a teoria da regressão, essa se
originou dos conceitos de correlação aqui descritos.
 Correlação linear por postos ou Spearman
Segundo Lira (2004), dentre as estatísticas baseadas em postos, o coeficiente de correlação por postos de Spearman é o
mais antigo e também o mais conhecido para variáveis mensuradas, pelo menos, no nível ordinal. Ou seja, em vez do valor
observado, o cálculo dessa medida usa apenas a ordem das observações.
Esse coeficiente não paramétrico destina-se a determinar o grau de associação entre duas variáveis x e y, dispostas em
pontos ordenados, ou seja, o objetivo é estudar a correlação entre duas classificações. Aplica-se, igualmente, em variáveis
intervalares e de razão como alternativa ao coeficiente de correlação linear de Pearson, quando, neste último, viola-se a
suposição de normalidade.
Nos casos em que os dados não formam uma nuvem “bem comportada”, com alguns pontos muito afastados dos restantes,
ou em que parece existir uma relação crescente ou decrescente em forma de curva, o coeficiente de correlação de Spearman é
mais apropriado. Esse coeficiente não é sensível à presença de assimetria nem de outliers, não exigindo, portanto, que os dados
provenham de duas populações normais.
Bunchaft e Kellner (1999), apud Lira (2004), ressaltam que as correlações ordinais não podem ser interpretadas da mesma
maneira que as correlações de Pearson. Isso porque não mostram, necessariamente, tendência linear; ainda, o quadrado do
índice de correlação não pode ser interpretado como a proporção de variância comum às duas variáveis.
Segundo Siegel (1975), apud Lira (2004), o estimador do coeficiente de correlação de Spearman foi derivado a partir do
coeficiente de correlação linear de Pearson. Considere que o coeficiente de correlação linear de Pearson pode também ser
calculado pela Expressão 7.9, pois:
Sejam xi os postos ocupados pelas observações: x1, x2, ..., xn, ou seja: 1,2,3,...,n, xi
2 os respectivos quadrados desses postos.
Tem-se que:
Considere que:
Substituindo as Expressões 7.10 e 7.11 em 7.12, tem-se:
Da mesma forma:
′ ′
Considerando que a diferença de postos é dada por di = xi – yi , tem-se:
Fazendo o somatório:
Lembrando que: 
Substituindo 7.13, 7.14 e 7.16 em 7.15, tem-se:
Assim, obtém-se:
onde di é a diferença entre os números de ordem (ranks) para o i-ésimo par de dados.
Quando um valor particular aparece mais que uma vez, ou seja, quando ocorrem “empates”, todos os valores que forem
designados naquela ordem receberão a média de seus números de ordem antes de computar di. No caso de em uma amostra
ocorrer um número considerável de empates, deve ser utilizado um fator de correção, e o coeficiente pode ser encontrado pela
expressão:
sendo , onde g e l são a quantidade de agrupamentos de diferentes postos
empatados para cada variável e ti e tj são as quantidades de postos empatados no i-ésimo e j-ésimo agrupamentos,
respectivamente.
Os valores do coeficiente de correlação de Spearman rs também estão compreendidos entre – 1,0 e +1,0.
Observação 7.3: Outro coeficiente de correlação por postos que pode ser utilizado para dados em escala ordinal é o coeficiente
de correlação de Kendall. Para mais detalhes, consultar Siegel e Castellan (2006).
Exemplo 7.3: Os dados abaixo, obtidos em <www.estgv.ipv.pt>, se referem ao número de juvenis de certa espécie de mosquito
recolhidos em 13 nascentes de rios onde também foi medida a dureza da água do rio.
Dureza da água 17 20 22 28 42 55 55 75 80 90 145 145 170
Figura 7.6 –
Fonte:
Tabela 7.4 –
No de juvenis 42 40 30 7 12 10 7 7 3 7 5 2 4
Verifique se as variáveis estão correlacionadas.
Primeiramente, é de interesse analisar o diagrama de dispersão. O gráfico indica uma relação negativa, porém a relação
parece ser melhor representada por uma curva do que por uma reta. Assim, o coeficiente de correlação de Spearman é mais
apropriado para medir essa associação.
Diagrama de dispersão entre dureza da água e número de juvenis
Observações do Exemplo 7.3.
 Detalhamento do cálculo do coeficiente de correlação de Spearman
Dureza da Água Posto No Juvenis Posto di
2
17 1 42 13 (1 – 13)2 = 144,00
20 2 40 12 (2 – 12)2 = 100,00
22 3 30 11 (3 – 11)2 = 64,00
28 4 7 6,5 (4 – 6,5)2 = 6,25
42 5 12 10 (5 – 10)2 = 25,00
55 6,5 10 9 (6,5 – 9)2 = 6,25
55 6,5 7 6,5 (6,5 – 6,5)2 = 0,00
75 8 7 6,5 (8 – 6,5)2 = 5,06
80 9 3 2 (9 – 2)2 = 49,00
90 10 7 6,5 (10 – 6,5)2 = 12,25
145 11,5 5 4 (11,5 – 4)2 = 56,25
Fonte:
7.5
Tabela 7.5 –
145 11,5 2 1 (11,5 – 1)2 = 110,25
170 13 4 3 (13 – 3)2 = 100,00
Total 91 176 91 678,31
Observações do Exemplo 7.3.
Conclui-se que, na amostra analisada, existe uma correlação não linear, forte e negativa entre a dureza da água e o número
de juvenis, ou seja, à medida que aumenta a dureza da água do rio, diminui o número de juvenis de mosquito presentes.
 Coeficiente de contingência modificado
Ao serem estudadas variáveis qualitativas, é comum registrar as frequências da combinação de duas variáveis em uma
tabela de dupla entrada ou tabela de contingência, onde uma variável categoriza as linhas e a outra categoriza as colunas.
A utilização da tabela de contingência permite avaliar a “força” do relacionamento e, caso haja uma associação forte,
podem-se prever os valores de uma variável por meio da outra. Em situações em que há independência entre as variáveis, as
frequências na tabela de contingência devem distribuir-se de forma a seguir o padrão dos totais marginais. No entanto, se
houver uma associação entre as variáveis, ou seja, dependência, as frequências deverão seguir algum padrão diferentedaquele
apresentado pelos totais marginais. Ou seja, contam-se os números de casos de uma variável que ocorrem nas várias categorias
da outra variável e comparam-se as distribuições das proporções de casos de uma variável nas várias categorias da outra
variável. Se as proporções são semelhantes, então não existe interação; se as proporções diferem, existe uma interação. Verifica-
se, então, se as diferenças nas proporções excedem àquelas esperadas como desvios de proporcionalidade devido ao acaso ou
aleatórios (SIEGEL; CASTELLAN, 2006).
Bussab e Morettin (2002) apresentam, a partir da suposição de independência entre as variáveis qualitativas, a dedução
para se chegar à estatística que mede o grau de associação entre essas variáveis. A Tabela 7.5 apresenta a notação utilizada para
o cálculo das frequências esperadas.
Sejam x e y duas variáveis qualitativas, onde x tem “r” categorias de A1, A2, ..., Ar e y tem “t” categorias de B1, B2, ..., Bt.
Ainda:
fij é número de elementos pertencentes à i-ésima categoria de x e j-ésima categoria de y;
 é número de elementos da i-ésima categoria de x;
 é número de elementos da j-ésima categoria de y;
 é número total de elementos.
 Notação em tabelas de contingência
y
B1 B2 ... Bj ... Bt Total
x
A1 f11 f12 ... f1j ... f1t f1.
Fonte:
A2 f21 f22 ... f2j ... f2t f2.
. . . . . . . .
. . . . . . . .
. . . . . . . .
Ai fi1 fi2 ... fij ... fit fi.
. . . . . . . .
. . . . . . . .
. . . . . . . .
Ar fr1 fr2 ... frj ... frt fr.
Total f.1 f.2 ... f.j ... f.t f..
Bussab e Morettin (2002).
Sob a hipótese de que não há associação (independência) entre as variáveis x e y, tem-se que:
ou seja, a proporção de casos é a mesma em todas as colunas. Ou ainda:
Isso significa que o número de elementos encontrados em cada célula dividido pelo total de sua coluna é igual ao total da
linha dividido pelo total geral, de onde se deduz que:
Lembre que feij é a frequência esperada para cada célula, considerando independência entre as variáveis. Também se pode
representar o cálculo das frequências esperadas utilizando a seguinte fórmula (REIS, 2013):
onde feij é a frequência esperada, sob a condição de independência entre as variáveis, em uma célula qualquer da tabela de
contingência.
As frequências esperadas em cada célula são, então, comparadas com as frequências observadas, sendo essa comparação
consolidada em uma estatística, chamada de qui-quadrado, dada por:
onde foij é a frequência observada em uma célula qualquer da tabela de contingência, r é o número total de linhas da tabela de
contingência e t é o número total de colunas da tabela.
Assim, para cada célula da tabela de contingência, calcula-se a diferença entre a frequência observada e a esperada. Para
Tabela 7.6 –
Fonte:
Tabela 7.7 –
impedir que as diferenças positivas anulem as negativas, todas são elevadas ao quadrado, e para evitar que uma diferença
grande em termos absolutos, mas pequena em termos relativos, ou, ainda, que uma diferença pequena em termos absolutos, mas
grande em termos relativos, tenha sua influência aumentada ou diminuída, divide-se o quadrado da diferença pela frequência
esperada, transformando o resultado em um valor relativo. A soma desses valores relativos de todas as células fornecerá o valor
da estatística qui-quadrado que servirá para calcular um coeficiente de contingência, que irá mensurar a intensidade da
associação. Se não houver associação entre as variáveis, espera-se que o valor do χ2 seja pequeno, próximo de zero. Se as
variáveis estiverem associadas, espera-se que o valor do χ2 seja grande.
O coeficiente de contingência proposto inicialmente apresenta o inconveniente de não variar entre zero e um. Seu valor
máximo depende do número de linhas e de colunas da tabela de contingência. Para evitar esse inconveniente que dificulta a sua
interpretação, foi criado o coeficiente de contingência modificado, dado por:
onde: χ2 é a estatística qui-quadrado, calculada a partir das frequências observadas e esperadas (sob a condição de
independência) em tabelas de contingência; N é a quantidade total de observações da tabela de contingência e w é o menor
número entre o número de linhas (t) e colunas (r) da tabela de contingência.
Esse coeficiente varia entre zero (completa independência) e 1,0 (associação perfeita). Valores acima de 0,5 indicam uma
associação de moderada para forte, o que, de acordo com Reis (2013), basta para considerar que existe associação estatística
entre as variáveis.
Observação 7.4: A quantidade total de observações em uma tabela de contingência pode ser representada por N, quando tratar
de uma população, ou por n, quando tratar de uma amostra.
Exemplo 7.4: Montgomery e Runger (2008) apresentam estudo desenvolvido sobre falhas de um componente eletrônico em um
processo de montagem. Há quatro tipos possíveis de falha, identificados como A, B, C e D e duas posições de montagem do
componente, 1 e 2. A distribuição dos tipos de falha nas duas posições de montagem de 134 peças é apresentada na Tabela 7.6.
Os dados indicam a existência de associação entre o tipo de falha e a posição da montagem?
 Tipo de falha x posição da montagem
Posição da montagem
Tipo de falha
Total
A B C D
1 22 46 18 9 95
2 4 17 6 12 39
Total 26 63 24 21 134
Montgomery e Runger (2008).
Inicialmente, calculam-se as frequências esperadas pela Expressão 7.22, obtendo-se os dados apresentados entre parênteses
na Tabela 7.7.
 Frequências observadas e esperadas para tipo de falha x posição da montagem
Posição da montagem
Tipo de falha
Total
A B C D
1 22 (18,43) 46 (44,66) 18 (17,02) 9 (14,89) 95
2 4 (7,57) 17 (18,33) 6 (6,99) 12 (6,11) 39
7.6
7.1
a)
b)
c)
d)
Total 26 63 24 21 134
Pela Expressão 7.23, calcula-se a estatística qui-quadrado:
Esse resultado é usado para mensurar a força do relacionamento entre as variáveis, por meio do coeficiente de contingência
modificado. Logo:
Conclui-se que, apesar do valor do χ2 ser elevado, sugerindo associação entre a posição de montagem e o tipo de falha, o
coeficiente de contingência modificado informa que essa associação amostral pode ser considerada fraca.
 Considerações finais
É comum o interesse em saber se duas variáveis consideradas em um estudo estão relacionadas e, em caso afirmativo,
conhecer melhor esse relacionamento em termos de intensidade e sentido. Neste capítulo, foram apresentadas algumas das
técnicas que são utilizadas para estudar tais situações.
Assim, para variáveis quantitativas, as técnicas mais utilizadas são análise de correlação linear (coeficiente de correlação
linear de Pearson) e correlação por postos (coeficiente de correlação de Spearman). Tratando-se de variáveis qualitativas,
podem-se utilizar tabelas de contingência e a estatística qui-quadrado para encontrar o coeficiente de contingência modificado e
verificar se existe associação entre as variáveis. Salienta-se, entretanto, que essas análises consideram apenas associações
numéricas e não implicam a relação de causa e efeito. Ainda, as análises apresentadas se referem à correlação amostral. Para
inferências para a população, existe a necessidade de análise complementar.
Aplicações
Em uma amostra aleatória de 50 chips, foi observada a vida útil e a respectiva temperatura média do ambiente de sua
utilização, encontrando-se rxy = –0,85. A partir dessas informações, determine se as sentenças apresentadas abaixo são
verdadeiras ou falsas, justificando a escolha.
Não existe relação entre vida útil do chip e ambiente de trabalho, pois o coeficiente de correlação linear de Pearson
não foi igual a 1,00.
Existe relação linear, negativa e forte entre vida útil do chip e temperatura média do ambiente de trabalho, indicando
que em temperaturas muito elevadas nenhum chip terá uma vida útil longa.
Existe relação linear, negativa e forte entre vida útil do chip e temperatura média do ambiente de trabalho, indicando
tendência de uma vida útil curta para chips utilizados em ambientes com temperaturas baixas.
Existe relação linear, negativae forte entre vida útil do chip e temperatura média do ambiente de trabalho, indicando
que a causa de uma vida útil curta de um chip é sua utilização em ambiente com temperatura elevada.
e)
7.2
a)
b)
7.3
a)
Existe relação linear, negativa e forte entre vida útil do chip e temperatura média do ambiente de trabalho, indicando
tendência de uma vida útil curta para chips utilizados em ambientes com temperaturas altas.
 Almeida e Morita (2011) fizeram um experimento para estudar a relação entre voltagem e corrente elétrica em um circuito
formado por bateria, resistor e protoboard. Ao aplicar uma tensão, a corrente elétrica foi medida por meio de um
multímetro, obtendo-se os dados abaixo:
Observação Tensão (V) Corrente (A) Observação Tensão (V) Corrente (A)
1 5 0,64 7 17 2,99
2 7 1,03 8 19 3,38
3 9 1,43 9 21 3,76
4 11 1,85 10 23 4,14
5 13 2,21 11 25 4,53
6 15 2,60 
Construa o diagrama de dispersão para ilustrar a relação entre voltagem e corrente elétrica, interpretando-o.
Conforme conclusão do item (a), escolha um coeficiente de correlação e calcule-o para medir o relacionamento entre
as variáveis, interpretando o resultado.
Verifique se existe correlação entre fator água-cimento (a/c) e resistência à compressão (kg/m3) em corpos de prova
moldados com concreto.
Fator A/C Resistência Fator A/C Resistência
0,65 20 0,70 13
0,58 44 0,52 28
0,53 41 0,54 48
0,54 42 0,57 35
0,86 15 0,53 34
0,87 13 0,61 27
0,90 11 0,58 20
0,50 46 0,67 14
0,57 30 0,58 15
0,79 13 0,86 12
0,79 14 0,70 15
0,59 32 0,55 38
0,50 45 0,50 40
0,75 12 0,82 14
0,53 42 0,78 12
 construa o diagrama de dispersão para ilustrar a relação entre fator a/c e resistência à compressão;
b)
c)
d)
7.4
7.5
7.6
a partir do diagrama de dispersão, verifique se a relação é linear ou não linear;
conforme conclusão do item (b), calcule o coeficiente de correlação;
utilizando o valor do coeficiente de correlação, conclua sobre a intensidade da relação entre essas variáveis.
O resultado de uma pesquisa com 600 eleitores, relacionando o candidato a presidente e classe social, está apresentado no
quadro abaixo.
Candidato Baixa Alta Total
A 150 26 176
B 40 84 124
C 190 110 300
Total 380 220 600
Pode-se afirmar que, nesta amostra, existe relação entre o candidato escolhido e a classe social?
Daldon e Conte (2011) investigaram o número de gols de bola parada para seis times de futebol nos campeonatos brasileiros
dos anos de 2010 e 2011, obtendo os resultados apresentados no quadro abaixo:
Ano
Gols de bola parada
Total
Pênaltis Escanteios Faltas
2010 75 80 126 281
2011 61 90 120 271
Total 136 170 246 552
Para esses seis times, a distribuição de gols de bola parada foi diferente nos dois anos, sugerindo associação entre tipo
de gol e ano em que ocorreu o campeonato?
(Adaptado de Preci, Pelissaro e Ferla, 2011) Um levantamento sobre peso e espessura de celulares de determinada marca,
comercializados no ano de 2010, são apresentados a seguir. Faça uma análise da associação entre essas duas variáveis.
Modelo Peso (g) Espessura (mm) Modelo Peso (g) Espessura (mm)
2115 85 21 3125 74 16
2280 99 21 3152 114 25
2855 105,3 25 3205 90 20
2865 98 18 3220 86 18,7
3100 85 19,6 3250 115 19,8
3120 87 19 3660 130 26
5140 101 20 6060 93 24
5200 106,5 17 6061 93 22
5700 84 23 6066 86 18
6012 92 20 6070 88 16
6020 90 24 6085 94 16
6030 89 24 6088 94 13
6100 76 24 
______________
1 Tradução livre: Two organs are said to be co-related or correlated, when variations in the one are generally accompanied by variations
in the other, in the same direction, while the closeness of the relation differs in different pairs of organs.
8.1
8.2
8
ANÁLISE EXPLORATÓRIA DE DADOS
 Introdução
A extração de informações dos dados resultantes de um estudo observacional ou experimental não é uma tarefa simples.
Em função disso, qualquer análise estatística inicia com uma análise exploratória para que o analista se familiarize com as
observações. Essa análise fornece as primeiras informações sobre os dados sem se preocupar com suposições de algum modelo
probabilístico.
Normalmente, inicia com a aplicação de técnicas de Estatística Descritiva, que têm o objetivo de descrever os dados por
meio de tabelas, gráficos e medidas. Essas técnicas organizam e resumem as observações, já possibilitando, muitas vezes, a
obtenção de algumas respostas para o que está sendo investigado. Podem também descobrir algum padrão de comportamento na
distribuição não evidente nos dados brutos. Também é possível conhecer algumas de suas propriedades, tais como: tendência
central, dispersão, assimetria, curtose, presença de outliers e presença de lacunas, entre outras. Normalmente, nesta etapa,
também se decide sobre a alteração, ou não, da métrica das observações por meio de transformações matemáticas.
É importante salientar que uma Análise Exploratória de Dados (AED) não se reduz à Estatística Descritiva. Técnicas mais
sofisticadas também podem ser utilizadas nessa etapa para conhecer outras propriedades da distribuição dos dados, tais como:
normalidade, linearidade e homocedasticidade, entre outras. Também podem ser aplicadas técnicas bivariadas e multivariadas
para avaliar, por exemplo, a correlação ou associação existente entre variáveis.
 Análise exploratória de dados
Para grandes conjuntos de observações, depois de construir um banco de dados, é recomendável iniciar a AED com
análises univariadas. Se a variável for “qualitativa”, basta organizar distribuições de frequência, com frequências absolutas e
percentuais. Em determinadas situações, alguns gráficos podem ser interessantes. Se a variável for “quantitativa”, podem ser
organizadas distribuições de frequência com frequências absolutas, percentuais e acumuladas. Quando é necessário identificar
propriedades em uma distribuição, os gráficos histograma, ramo e folhas e box plot são recomendados. As medidas descritivas
também são muito úteis.
Em sequência, normalmente são utilizadas técnicas bivariadas para avaliar associações entre as variáveis envolvidas no
estudo. Procedimentos diferenciados devem ser aplicados conforme estejam sendo consideradas duas variáveis qualitativas,
duas variáveis quantitativas ou uma variável qualitativa e outra quantitativa.
Se forem duas variáveis “qualitativas”, devem ser construídas tabelas de contingência com frequências absolutas e
percentuais. Gráficos compostos também podem ser utilizados, bem como o coeficiente de contingência. Se forem duas
variáveis “quantitativas”, deve ser construído o diagrama de dispersão, seguido do cálculo de um coeficiente de correlação:
Pearson ou Spearman. Existem outros coeficientes que também podem ser utilizados com essa finalidade. Se uma variável for
“qualitativa” e outra “quantitativa”, os dados devem ser divididos em grupos, por categoria da variável qualitativa. Em cada
grupo, análises univariadas são feitas para a variável quantitativa, sendo os resultados comparados.
Salienta-se que as técnicas gráficas são especialmente indicadas para uma AED, pois são facilmente interpretadas, embora
possuam certo grau de subjetividade. Técnicas estatísticas mais sofisticadas também podem ser utilizadas, mas fogem do escopo
deste capítulo. A seguir, serão apresentados dois exemplos de aplicação utilizando a AED.
8.3
8.3.1
Tabela 8.1 –
Fonte:
Tabela 8.2 –
Fonte:
Tabela 8.3 –
 O caso da montadora Toyord
O banco de dados anexo apresenta informações sobre 250 consumidores investigados em levantamento realizado pela
montadora Toyord. Nesse banco de dados, foram selecionadas quatro variáveis: duas qualitativas (modelo adquirido e opcionais
solicitados) e duas quantitativas (renda declarada pelo cliente, em salários mínimos, e idade do cliente, em anos) para serem
analisadas.
 Variáveis qualitativas: modelo adquirido e opcionais solicitados
Inicialmente, foram construídas distribuições com frequências absolutas, percentuais e percentuais acumuladas
apresentadas nas Tabelas 8.1 e 8.2, não havendo necessidade decomplementá-las com a construção de gráficos.
De acordo com as informações apresentadas na Tabela 8.1, o modelo de carro mais vendido é o Chiconaultla (82
unidades), seguido do Deltaforce3 (60 unidades), responsáveis por mais da metade das vendas (56,8%). O modelo menos
vendido é o LuxuriousCar (apenas 23 unidades que correspondem a 9,2% das vendas). Já a Tabela 8.2 evidencia que, em quase
a metade dos carros comercializados (45,6%), não foram solicitados opcionais e, quando solicitados, na maioria das vezes,
restringiram-se a ar-condicionado e direção hidráulica (29,6%).
 Distribuição das vendas de acordo com o modelo de carro adquirido
Modelo Quantidade de carros % % acumulada
Chiconaultla 82 32,8 32,8
Deltaforce3 60 24,0 56,8
Valentiniana 49 19,6 76,4
SpaceShuttle 36 14,4 90,8
LuxuriousCar 23 9,2 100,00
Total 250 100,0 
Banco de dados anexo.
 Distribuição das vendas de acordo com os opcionais solicitados para o carro adquirido
Opcionais Quantidade de carros % % acumulada
Inexistentes 114 45,6 45,6
Ar e direção hidráulica 74 29,6 75,2
AD Trio Elétrico 34 13,6 88,8
ADT Freios ABS 28 11,2 100,0
Total 250 100,0 
Banco de dados anexo.
Em sequência, foi construída uma distribuição de frequências conjunta das duas variáveis com frequências absolutas e
percentuais (Tabela 8.3), além de gráficos em barras com valores absolutos e percentuais (Figuras 8.1 e 8.2).
 Distribuição das vendas de acordo com o modelo e os opcionais solicitados no carro adquirido
Fonte:
Figura 8.1 –
Fonte:
Modelo
Opcionais
TotalADT Freios ABS AD Trio Elétrico Ar e Direção
Hidráulica
Inexistentes
fi % fi % fi % fi % fi %
Chiconaultla 1 1,2 0 0,0 17 20,7 64 78,1 82 100
Deltaforce3 1 1,7 8 13,3 18 30,0 33 55,0 60 100
LuxuriousCar 6 26,1 6 26,1 11 47,8 0 0,0 23 100
SpaceShuttle 12 33,3 7 19,5 12 33,3 5 13,9 36 100
Valentiniana 8 16,3 13 26,5 16 32,7 12 24,5 49 100
Total 28 11,2 34 13,6 74 29,6 114 45,6 250 100
Banco de dados anexo.
A Tabela 8.3 e, principalmente, os gráficos das Figuras 8.1 e 8.2 evidenciam que a distribuição dos opcionais solicitados é
diferente em cada modelo de carro, fato que fica evidente se forem analisadas as distribuições percentuais. Entre os
consumidores que adquiriram o modelo Chiconaultla, predomina a não solicitação de opcionais (78,1%), o mesmo ocorrendo
com os que adquiriram o modelo Deltaforce3 (55,0%).
Entretanto, os outros modelos parecem apresentar um padrão diferente. Entre os que adquiriram os modelos LuxuriousCar
(47,8%) ou Valentiniana (32,7%), o mais frequente foi a solicitação de ar e direção hidráulica, enquanto entre os que adquiriram
o modelo SpaceShuttle, ar e direção hidráulica (33,3%), ou ar, direção hidráulica, trio elétrico e freios ABS (33,3%) apresentam
o mesmo percentual de solicitação.
Esta análise pode ser complementada pelo cálculo do coeficiente de associação entre variáveis qualitativas: o coeficiente
de contingência modificado, para o qual é encontrado o valor 0,62. Esse resultado indica a existência de associação média
tendendo a forte entre estas variáveis nos dados amostrais.
Distribuição das vendas de acordo com o modelo e os opcionais solicitados no carro adquirido
Banco de dados anexo.
Figura 8.2 –
Fonte:
8.3.2
Tabela 8.4 –
Fonte:
 Distribuição das vendas de acordo com o modelo e os opcionais solicitados no carro
Banco de dados anexo.
 Variáveis quantitativas: idade do cliente e renda declarada
Para a variável idade, medida em anos, inicialmente foram construídas distribuições com frequências absolutas,
percentuais e percentuais acumuladas, além dos gráficos histograma, box plot e ramo e folhas. Essas informações são
apresentadas na Tabela 8.4 e nos gráficos da Figura 8.3, nos quais é possível identificar apenas uma levíssima assimetria nos
dados. Não são identificadas lacunas nem outliers.
 Distribuição das vendas de veículos de acordo com a idade dos compradores
Idade Compradores % % acumulada
18,0 ⊢ 24,0 15 6,0 6,0
24,0 ⊢ 30,0 39 15,6 21,6
30,0 ⊢ 36,0 71 28,4 50,0
36,0 ⊢ 42,0 71 28,4 78,4
42,0 ⊢ 48,0 43 17,2 95,6
48,0 ⊢ 54,0 10 4,0 99,6
54,0 ⊢ 60,0 1 0,4 100,0
Total 250 100 
Banco de dados anexo.
A seguir, são calculadas algumas medidas descritivas, apresentadas na Tabela 8.5. Observa-se que os coeficientes de
assimetria indicam assimetria muitíssimo fraca. Com relação à curtose, pelo coeficiente percentílico, a distribuição é
considerada mesocúrtica, enquanto, pelo coeficiente calculado pelos momentos, a distribuição classifica-se como leptocúrtica.
Entretanto, nesses coeficientes, essa propriedade não se apresentou muito acentuada, pois o valor encontrado foi relativamente
próximo ao de uma distribuição mesocúrtica.
Figura 8.3 –
Fonte:
Tabela 8.5 –
 Histograma (a), box plot (b) e ramo e folhas (c) dos dados da variável “idade”
Banco de dados anexo.
Pode-se concluir, então, que a tendência central e a dispersão podem ser representadas pela média aritmética e pelo desvio
padrão. Portanto, a idade dos 250 entrevistados variou entre 18 e 55 anos, concentrando-se em torno da média de 35,42 anos,
com desvio padrão de 7,48 anos. Para outras análises, a utilização de técnicas paramétricas é indicada.
Essa mesma análise foi desenvolvida nas observações relativas à renda declarada pelo cliente, medida em salários
mínimos. Essas informações são apresentadas na Tabela 8.6 e nos gráficos da Figura 8.4. Pela tabela e pelos gráficos (a) e (c) da
Figura 8.4, é possível identificar a existência de assimetria nos dados. O gráfico (c) também identifica uma lacuna, enquanto o
gráfico (b) indica dois possíveis outliers.
 Medidas descritivas das variáveis idade e renda declarada
Medida Idade (anos) Renda (salários mínimos)
Valor mínimo 18 2,955
Valor máximo 55 70,775
Média 35,42 23,953
Desvio padrão 7,48 12,945
Fonte:
Tabela 8.6 –
Fonte:
Figura 8.4 –
Mediana 35,5 21,770
Desvio interquartílico 10,0 17,810
Primeiro quartil 31,0 13,330
Terceiro quartil 41,0 31,140
Décimo centil 26,0 9,665
Nonagésimo centil 45,0 42,833
Assimetria αPearson – 0,032 0,506
 αYule 0,100 0,052
 αKelley 0,000 0,270
 α3 – 0,131 0,850
Curtose αK 0,263 0,268
 α4 2,544 3,366
Banco de dados anexo.
 Distribuição das vendas de veículos de acordo com a renda dos compradores
Renda (salários mínimos) Compradores % % acumulada
2,0 ⊢ 12,0 44 17,6 17,6
12,0 ⊢ 22,0 82 32,8 50,4
22,0 ⊢ 32,0 66 26,4 76,8
32,0 ⊢ 42,0 33 13,2 90,0
42,0 ⊢ 52,0 14 5,6 95,6
52,0 ⊢ 62,0 9 3,6 99,2
62,0 ⊢ 72,0 2 0,8 100,0
Total 250 100 –
Banco de dados anexo.
Nas informações apresentadas na Tabela 8.5, observa-se que os coeficientes de assimetria calculados a partir das medidas
clássicas indicam assimetria moderada, enquanto os calculados a partir de medidas baseadas na ordenação de dados, assimetria
fraca. Os primeiros concordam com a interpretação dos gráficos. Já em relação à curtose, ambos os coeficientes indicam
distribuição platicúrtica, embora com resultados muito próximos de uma distribuição mesocúrtica.
A partir do exposto, é possível concluir que é mais adequado representar a tendência central e a variabilidade por meio das
medidas baseadas na ordenação das observações. Portanto, a renda dos 250 entrevistados variou entre 2,955 e 70,775 salários
mínimos, concentrando-se em torno da mediana de 21,77 salários mínimos, com desvio interquartílico de 17,72 salários
mínimos. É recomendável que outras análises sejam realizadas com a utilização de técnicas não paramétricas.
 Histograma (a), box plot (b) e ramo e folhas (c) dos dados da variável “renda”
Fonte:
Figura 8.5 –
Banco de dados anexo.
O problema de assimetria, entretanto, pode ser contornado com a alteração da métrica usada na mensuração das
observações. Nesse caso, a utilização da transformação logarítmica pode ser indicada. Os gráficos apresentados na Figura 8.5,
construídos com o logaritmo da variável renda, evidenciam a diminuição da assimetria da distribuição, embora o box plot
indique a possibilidade de surgimento de dois possíveis inliers inferiores (outliers geradospela transformação matemática).
 Histograma e box plot dos dados da variável “Log Renda”
Fonte:
Figura 8.6 –
Fonte:
Banco de dados anexo.
Análises que utilizam técnicas paramétricas e que supõem simetria dos dados devem ser realizadas preferencialmente com
essa métrica. Salienta-se que o desempenho de outras funções matemáticas para alterar a métrica dos dados pode ser
investigado.
Pelos resultados encontrados na análise univariada, optou-se por analisar a correlação entre as variáveis com uma técnica
paramétrica: o coeficiente de correlação de Pearson, calculado a partir da idade e do logaritmo da renda. Inicialmente, foi
traçado o diagrama de dispersão (Figura 8.6), no qual é possível encontrar evidências de existência de correlação linear. O
coeficiente de correlação de Pearson encontrado é 0,44, indicando uma correlação positiva e moderada. Isso significa que, na
amostra analisada, indivíduos com mais idade têm a tendência de possuírem renda mais alta.
Diagrama de dispersão entre as variáveis idade e log renda
Banco de dados anexo.
8.3.3
Tabela 8.7 –
Fonte:
Figura 8.7 –
 Associação entre variáveis qualitativas e quantitativas
Nesta análise, foram escolhidas as variáveis idade e modelo adquirido, utilizando-se as medidas descritivas para resumir a
variável idade, calculada para cada tipo de modelo de carro. Com as informações apresentadas na Tabela 8.7 e no gráfico da
Figura 8.7, é possível constatar que, mesmo dividindo a amostra pelas categorias da variável modelo, a variável idade não
apresenta assimetria acentuada.
Observa-se que os maiores resultados para a tendência central da idade ocorreram nos modelos LuxuriousCar e
SpaceShuttle, que foram os modelos menos vendidos e que apresentaram menor variabilidade. O gráfico da Figura 8.7 confirma
essas evidências, além de apontar a possibilidade de dois possíveis outliers. Essas informações preliminares sugerem que
podem ser utilizadas técnicas paramétricas em análises posteriores.
 Medidas descritivas da variável idade, por modelo de carro adquirido
Medida
Modelo
Chiconaultla Deltaforce3 LuxuriousCar SpaceShuttle Valentiniana
n 82 60 23 36 49
xmín. 18 20 33 29 20
xmáx. 53 50 55 48 46
x 31,32 35,97 42,70 39,03 35,53
s 7,22 7,30 5,24 5,21 6,35
md 31,0 37,5 42,0 40,0 36,0
dq 9,0 10,5 6,5 8,0 9
q1 27,0 30,5 38,5 34,5 31,0
q3 36,0 41,0 45,0 42,5 40,0
c10 22,0 25,5 36,6 33,0 27,0
c90 41,0 44,5 50,0 45,9 44,6
Assimetria αPearson 0,133 –0,629 0,401 –0,558 –0,222
 αYule 0,111 –0,333 –0,077 –0,375 –0,111
 αKelley 0,053 –0,263 0,194 –0,085 –0,022
 α3 0,392 –0,300 0,341 0,004 –0,169
Curtose αK 0,237 0,276 0,243 0,310 0,256
 α4 3,238 2,274 2,871 2,036 2,495
Banco de dados anexo.
 Distribuição da variável idade, por modelo de carro adquirido
Fonte:
8.4
Banco de dados anexo.
 Teste de resistência em concreto
Os valores apresentados a seguir se referem à resistência à compressão de corpos de prova de concreto, moldados em
formas cilíndricas com 10 cm de diâmetro e 20 cm de altura (adaptado de TROIAN et al., 2012). Foram rompidos aos 28 dias
do início do processo de cura, conforme recomenda a norma NBR 5739. Os resultados (em MPa) fornecidos para análise foram:
27,10 28,06 29,10 29,71 33,71 34,49 36,10
27,60 28,28 29,32 29,84 34,01 35,44 37,28
28,00 28,65 29,50 29,93 34,10 35,70 38,14
28,05 29,09 29,54 32,84 34,40 36,06 38,90
A AED começa com o cálculo das medidas descritivas, conforme a Tabela 8.8, e a construção de dois gráficos de análise: o
histograma e o box plot (Figura 8.8). Pela primeira coluna de resultados na Tabela 8.8 é observada uma discordância entre os
resultados dos coeficientes de assimetria. O mesmo acontece entre os resultados dos coeficientes de curtose. Além disso, pelo
box plot, parece existir uma assimetria acentuada, enquanto, pelo histograma, constata-se a presença de uma lacuna, sugerindo a
possibilidade de existência de duas distribuições.
Ao conferir as planilhas de registro dos testes no laboratório, verifica-se que foram utilizados dois tipos de cimento na
confecção do concreto: CPI25 e CPI34, razão pela qual as amostras foram separadas, e os procedimentos, refeitos.
 
CPI 25:
27,10 27,60 28,00 28,05 28,06 28,28 28,65 29,09
29,10 29,32 29,50 29,54 29,71 29,84 29,93 
CPI 32:
Tabela 8.8 –
Fonte:
Figura 8.8 –
32,84 33,71 34,01 34,10 34,40 34,49 35,44
35,70 36,06 36,10 37,28 38,14 38,90 
As informações apresentadas na segunda e terceira colunas do corpo da Tabela 8.8 e no gráfico da Figura 8.9 confirmam a
suspeita do analista de que são duas distribuições: a distribuição das resistências à compressão de concretos feitos com cimento
CPI 25 e a distribuição das resistências à compressão de concretos feitos com cimento CPI 32. A AED sugere que essas
apresentam tendência central e variabilidades diferentes. Além disso, uma das distribuições apresenta assimetria moderada
negativa (CPI 25), e a outra, moderada positiva (CPI 32). Com relação à curtose, para os corpos de prova feitos com CPI 32, a
distribuição caracteriza-se como leptocúrtica. Entretanto, para os corpos de prova feitos com CPI 25, nada se pode afirmar.
 Medidas descritivas
Medida
Resultado (MPA)
Geral CPI 25 CPI 32
Tamanho da amostra 28 15 13
Valor mínimo 27,1 27,10 32,84
Valor máximo 38,9 29,93 38,90
Média 31,89 28,78 35,48
Desvio padrão 3,66 0,89 1,81
Mediana 29,89 29,09 35,44
Desvio interquartílico 6,10 1,49 2,31
Primeiro quartil 28,87 28,05 34,08
Terceiro quartil 34,97 29,53 36,39
Décimo centil 28,02 27,60 33,54
Nonagésimo centil 36,93 29,84 39,29
Assimetria αPearson 1,644 –1,032 0,058
 αYule 0,667 –0,405 –0,177
 αKelley 0,581 –0,330 0,200
 α3 0,382 –0,354 0,506
Curtose αK 0,342 0,330 0,243
 α4 1,711 1,898 2,279
Toian et al. (2012).
 Histograma (a) e box plot (b) da distribuição de resistências à compressão
Fonte:
Figura 8.9 –
Fonte:
8.5
Toian et al. (2012).
Box plots das distribuições de resistências à compressão de concretos com cimento CPI 25 e CPI 32
Toian et al. (2012).
A AED sugere que as distribuições apresentam tendência central e variabilidades diferentes, ambas com indicativos de
assimetria moderada e comportamentos diferentes em relação à curtose. Aconselha-se avaliar a possibilidade de utilização de
transformações matemáticas para melhorar as características dessas propriedades, com o objetivo de fornecer maior
confiabilidade aos resultados de análises desenvolvidas com técnicas paramétricas.
 Considerações finais
Neste capítulo, são apresentadas algumas recomendações para realização de uma AED com a utilização das técnicas
apresentadas neste livro. O texto é complementado com a apresentação de duas aplicações. Salienta-se que as conclusões
obtidas com esse tipo de análise são válidas apenas para as observações consideradas na análise, não sendo possível fazer
inferências para a população, se essas representarem uma amostra.
9.1
9.2
9.3
9
A ESTATÍSTICA UTILIZANDO O SOFTWARE R
Débora Spenassato1
 Importância de um software estatístico
A utilização de softwares estatísticos para análise e interpretação de dados vem se tornando indispensável, quer pela sua
praticidade de utilização, quer pela eficiência no tratamento de grandes conjuntos de dados. Entretanto, muitos dos softwares
existentes apresentam um custo de aquisição relativamente elevado. Uma alternativa é a utilização de softwares acessíveis e sem
custo, como o software R (R CORE TEAM, 2016).
 O software R
Este software é uma linguagem e um ambiente para estatística computacional e gráficos, criado inicialmente em meados de
1997 por Ross Ihaka e Robert Gentleman, do Departamento de Estatística da Universidade de Auckland, Nova Zelândia, e vem
sendo desenvolvido com a colaboração de pessoas de vários locais do mundo (R CORE TEAM, 2016). É um projeto open
source, baseado no conceito de software livre, podendo ser utilizado sem custos de licença. É usado por muitos estatísticos e
está em constante evolução (VERZANI, 2008).
O R está disponível para as versões do sistema operacional UNIX, Windows,Macintosh, MacOS e GNU/Linux e possui
amplo conjunto de pacotes adicionais, podendo ser obtido gratuitamente em <http://cran.r-project.org>. Como o R é uma
linguagem de programação orientada a objetos, o usuário pode criar suas próprias funções e sua própria rotina para análise de
dados. Outra vantagem é a sua capacidade de interagir com diferentes programas estatísticos, o que possibilita a importação de
dados com grande facilidade.
Para instalação do software, acesse o site <http://cran.r-project.org>, clique no link que corresponde ao sistema operacional
do seu computador, seguido pelo link “base”, onde aparecerá o arquivo para download. Como o software está em constante
atualização, lembre-se de atualizá-lo constantemente, pois alguns pacotes não estão disponíveis para versões antigas. Nesse site,
também estão disponíveis os manuais para auxiliar na instalação do R e dos pacotes (packages).
Alguns pacotes principais de análise de dados são instalados automaticamente junto com o software R, outros precisam ser
instalados. Para instalar os pacotes, inicie o R e clique na barra de ferramentas em “Pacotes/Instalar pacotes/Brazil” (Figura 9.1)
e selecione o pacote desejado. A instalação também pode ser feita por meio do comando install.packages (“nome do pacote”),
diretamente no Console do R. Todos os pacotes podem ser atualizados ao longo do tempo, desde que o computador esteja
conectado à Internet, clicando no menu “Pacotes/Atualizar pacotes”.
Para facilitar o uso e a visualização das saídas do R, algumas interfaces estão disponíveis como o Rcmdr (FOX, 2005), o
RExcel (BAIER; NEUWIRTH, 2007) e o RStudio (RSTUDIO, 2013).
 Comandos básicos
Na operacionalização deste software, algumas informações e comandos podem ser úteis ao longo de suas análises. Abaixo
são listados alguns deles, juntamente com suas explicações.
1.
2.
3.
4.
5.
6.
7.
8.
9.
Figura 9.1 –
10.
O símbolo “>” indica que você pode começar a digitar os comandos. Os comandos utilizados neste capítulo virão após
este símbolo, simulando uma situação como se estivesse no Console do software R. Veja Figura 9.1.
 O operador “<-” é utilizado para atribuir um conteúdo a um objeto. Também podem ser utilizados os símbolos “=” ou
“_”. Entretanto, o último não é recomendado.
Ao digitar dados manualmente, lembre-se que o separador decimal do software R é o “.” (ponto).
As funções ls() ou objects() descrevem uma lista curta de variáveis que já foram definidas e estão armazenadas
na memória do software.
A função rm(list=ls()) remove todos os objetos da memória.
O símbolo “#” é utilizado para comentários, isto é, o que vem depois dele, na linha de comando, não será executado.
Para verificar a dimensão do arquivo de dados, basta digitar dim() – para matriz/data frame ou length() – para
vetor.
Para criar um vetor de dados, deve-se concatenar esses elementos (ligar, juntar numa cadeia ou sequência lógica) por
meio da função c().
Na visualização dos resultados, [1] indica primeira linha.
Console do software R
Exemplo 9.1: Se digitar x<-c(1,2,3,4,5,6,7,8,9), tem-se um vetor formado pelos números inteiros de um a nove.
> x # digite x para visualizar o que está armazenado neste objeto
[1] 1 2 3 4 5 6 7 8 9
Para acessar determinado valor de um objeto, seja para alterá-lo ou apenas para visualização, utiliza-se o comando
x[i,j] para matriz ou data frame (x é o conjunto de dados, i é a linha e j a coluna); ou x[n] para um vetor,
sendo n a posição do número que será alterado.
11.
12.
13.
14.
9.4
1.
2.
Exemplo 9.2: Considere dados y apresentados na forma de um vetor, ou seja:
> y <- c(0,4,8,1)
> y
[1] 0 4 8 1
Para alterar o segundo valor (igual a 4) para 3, digita-se:
> y[2]<-3
> y
[1] 0 3 8 1
O comando getwd() indica o diretório no qual você está trabalhando. Se ocorrer algum erro ao tentar carregar os
dados, pode ser que você esteja em um diretório diferente de onde os dados estão armazenados. O comando
setwd() serve para alterar o diretório.
Exemplo 9.3: Abaixo são solicitadas, primeiramente, a identificação do diretório (“C:/Users/Documents”) e, posteriormente, a
alteração para o diretório “C:/Users/Dropbox/livro”.
> getwd() # lista o diretório atual
[1] "C:/Users/Documents"
> setwd("C:/Users/Dropbox/livro") # altera o diretório para este local
> getwd() # confirma se o diretório foi alterado
[1] "C:/Users/Dropbox/livro"
De preferência, não utilize acentos ou símbolos nos dados ou pastas nos quais você está trabalhando.
Para obter ajuda sobre alguma função ou sobre os argumentos que podem ser modificados na função padrão do
programa, utilize o símbolo “?” antes da função. Esse comando abre uma página com explicações.
Exemplo 9.4: ?getwd ou ?read.table
As aspas (“”) que constam nos comandos precisam ser digitadas diretamente no console do R pois, ao serem copiadas
de outros arquivos, podem gerar erros. Por exemplo, “Error: unexpected input in “ ””.
 A Estatística com a utilização do software R
Nesta seção, apresentam-se rotinas para executar alguns algoritmos estatísticos em exemplos já mencionados ao longo
deste livro.
Exemplo 9.5: Montadora Toyord
O banco de dados utilizado neste exemplo encontra-se em Anexo, o qual apresenta informações sobre 250 consumidores
investigados em um levantamento realizado pela Montadora Toyord. As variáveis utilizadas nas rotinas apresentadas ao longo
deste exemplo são: modelo, opinião geral, renda do comprador, número de pessoas geralmente transportadas no veículo,
quilometragem do veículo, idade do cliente e design.
Para iniciar as análises, os seguintes procedimentos devem ser seguidos:
 Primeiramente, carregue o banco de dados que deseja analisar. Para facilitar o processo, salve o arquivo de dados da
Montadora Toyord no mesmo diretório que aparecerá ao digitar getwd() no R. Dessa forma, não será necessário
alterar o diretório de trabalho.
Para você executar os comandos de forma idêntica aos apresentados a seguir, salve o arquivo de dados com o nome
“dados”, no formato .csv e separado por vírgula.
3.
4.
Para carregar os dados, utilize a função read.table. Nessa função, deverá ser informado o local onde estão
armazenados os dados, o nome do arquivo com sua extensão, os argumentos: “header” – o qual se refere a um valor
lógico (T – true ou F – false) que indica se o arquivo contém os nomes das variáveis na primeira linha; “sep” –
indica o tipo de separação, nesse caso, ponto e vírgula; e “dec” – separador decimal nos dados. Veja o exemplo a
seguir:
> dados<-read.table("C:/Users/Documents/dados.csv", header=T, sep=";",
dec=",")
Para selecionar apenas a variável de interesse do conjunto de dados, ou seja, somente os dados da coluna, utiliza-se o
símbolo “$” ou indica-se sua posição. Veja o exemplo a seguir para acessar a variável “Pessoas”.
> dados$Pessoas
> dados[,8] # considera dados de todas as linhas, mas somente da coluna 8 (Pessoas)
A distribuição de frequências para uma determinada variável do conjunto de dados, conforme apresentado no Capítulo 2,
pode ser obtida pelos comandos a seguir.
Para encontrar as frequências absolutas de uma variável qualquer, digita-se:
> table(dados$nome da variável).
Para encontrar as frequências relativas de uma variável, digita-se:
> prop.table(table(dados$nome da variável)).
Para encontrar as frequências percentuais de uma variável, digita-se:
> prop.table(table(dados$nome da variável))*100.
Para obter essas frequências para o número de pessoas que os veículos comercializados geralmente transportam (variável
quantitativa denominada “Pessoas”) e visualizar seus resultados diretamente, digita-se:
> table(dados$Pessoas)
1 2 3 4 5 6
19 35 47 42 52 55
> prop.table(table(dados$Pessoas))
1 2 3 4 5 6
0.076 0.140 0.188 0.168 0.208 0.220
> prop.table(table(dados$Pessoas))*100
1 2 3 4 5 6
7.6 14.0 18.8 16.8 20.8 22.0
Essas distribuições também podem ser construídas para variáveis qualitativas. Os resultados podem ser armazenados em
um objeto e, em seguida, numa matriz com determinado número de linhas e colunas,conforme segue:
> freq.ab<-table(dados$nome da variável)
> freq.rel<-prop.table(freq.ab)
> porcent<- freq.rel*100
>tabela<-matrix(c(freq.ab,freq.rel,porcent),nrow=?, ncol=?).
Figura 9.2 –
Utilizando esses comandos para a variável qualitativa “Design”, que categoriza as unidades amostrais em atualizados,
ultrapassados e adiante dos outros, têm-se:
> freq.ab<-table(dados$Design)
> freq.rel<-prop.table(freq.ab)
> porcent<- freq.rel*100
> tabela<-matrix(c(freq.ab,freq.rel,porcent), nrow=3, ncol=3) # cria uma matriz com 3
linhas e 3 colunas.
Comandos para renomear a identificação de linhas e colunas:
>rownames(tabela)<-c("atualizados","ultrapassados", "adiante dos outros")
> colnames(tabela)<-c("f", "fr", "fp")
> tabela # visualiza os resultados na tabela
 f fr fp 
atualizados 58 0.232 23.2 
ultrapassados 154 0.616 61.6 
adiante dos outros 38 0.152 15.2 
Observação 9.1: Destaca-se que os argumentos apresentados dentro de cada função utilizada ao longo deste Capítulo servem,
em sua maioria, para melhorar a visualização dos gráficos. Por exemplo: o argumento las=1 coloca os valores do eixo y na
horizontal; col é utilizado para definir as cores; xlim e ylim são utilizados para definir os limites de cada eixo; xlab e
ylab servem para nomear os eixos no gráfico; cex.lab e cex.axis são utilizados para aumentar a fonte dos eixos; pch
está relacionado ao símbolo que deve ser usado na plotagem dos pontos.
Conforme apresentado no Capítulo 3, a representação gráfica visa uma interpretação rápida e clara dos dados. Dessa forma,
para obter o gráfico de barras (Figura 9.2) e o gráfico de setores (Figura 9.3), os seguintes comandos podem ser executados no
R:
# gráfico de frequências absolutas – em barras
> barplot(table(dados$Design),xlab="Design",ylim=c(0,200),
ylab="Frequência",names.arg=c("Adiante dos outros", "Atual","Ultrapassados"),
las=1)
 Gráfico em barras verticais: Design
Fonte:
Figura 9.3 –
Banco de dados anexo.
# gráfico de frequências absolutas – setores ou pizza (com legenda)
> pie(table(dados$Design),labels=table(dados$Design), col=c(gray(0.1),
gray(0.4), gray(0.8)))
> legend(-1,-1,legend = c("Adiante dos outros", "Atual","Ultrapassados"), border
= "black",fill=c(gray(0.1), gray(0.4), gray(0.8)))
 Gráfico de setores: Design
Fonte:
Figura 9.4 –
Banco de dados anexo.
Na análise exploratória de dados para variáveis quantitativas contínuas, frequentemente são utilizadas representações
gráficas como o histograma (Figura 9.4) e o box plot (Figuras 9.5 e 9.6). Para isso, utiliza-se a variável “Quilometragem”. Os
comandos do R são apresentados a seguir.
> hist(dados$Quilometragem,xlab="Quilometragem", col="gray", main="", ylab=
"Frequência", las=1, xlim=c(200,1400), ylim=c(0,120))
 Histograma: Quilometragem
Fonte:
Figura 9.5 –
Fonte:
Banco de dados anexo.
> boxplot(dados$Quilometragem, ylab="Quilometragem",las=1)
 Box plot: Quilometragem
Banco de dados anexo.
Figura 9.6 –
Fonte:
Figura 9.7 –
Aparentemente, observam-se dois outliers no box plot da Figura 9.5. Este tipo de representação também pode ser utilizado
para comparar duas variáveis, conforme mostra a Figura 9.6 para “Idade” e “Renda”. O comando no R é:
> boxplot(dados$Idade,dados$Renda,names=c(“Idade”,”Renda”), las=1)
Box plot: Idade e Renda
Banco de dados anexo.
Para avaliar se duas variáveis se correlacionam e de que forma isso acontece, pode-se utilizar o gráfico de dispersão. A
Figura 9.7 apresenta esse gráfico para as variáveis “Idade” e “Renda”, obtido pelo comando:
> plot(dados$Idade,dados$Renda, xlab="Idade",ylab="Renda",
las=1,cex.lab=1.1,cex.axis=1.1)
Gráfico de dispersão: Idade e Renda
Fonte:
Figura 9.8 –
Fonte:
Banco de dados anexo.
Outro tipo de gráfico especialmente útil no estudo de variáveis quantitativas é o gráfico de ramo e folhas (Figura 9.8). Ele
fornece uma visão geral da forma da distribuição e seus picos, tendência central, dispersão, simetria, lacunas e outliers. Para
obtenção desse gráfico para a variável “Renda”, digita-se:
> stem(dados$Renda)
 Gráfico de ramo e folhas: Renda
Banco de dados anexo.
Para criar uma tabela de frequências com intervalos de classes, pode-se utilizar o pacote “fdth” (FARIA; JELIHOVSCHI;
ALLAMAN, 2016). Esse pacote permite a definição da amplitude do intervalo das classes (h), o número de intervalos de
classes (k), o início (start), o ponto final do último intervalo de classes (end) ou, então, apenas especificar o método para
calcular os intervalos (breaks) – por exemplo, Método de Sturges, e a tabela é construída automaticamente por meio da função
padrão do pacote. É necessário que o pacote esteja instalado para carregá-lo, conforme comandos a seguir.
> install.packages("fdth") # instala o pacote “fdth”
> library(fdth) # carrega o pacote
A construção e visualização da tabela de frequências com intervalos de classes para a variável “Quilometragem” é obtida
por meios dos comandos:
> class <- fdt(dados$Quilometragem,h=108,start=286, end=1260)
> class
Class limits f rf rf(%) cf cf(%)
[286,394) 20 0.08 8.0 20 8.0
[394,502) 107 0.43 42.8 127 50.8
Figura 9.9 –
Fonte:
Figura 9.10 –
[502,610) 99 0.40 39.6 226 90.4
[610,718) 23 0.09 9.2 249 99.6
[718,826) 0 0.00 0.0 249 99.6
[826,934) 0 0.00 0.0 249 99.6
[934,1042) 0 0.00 0.0 249 99.6
[1042,1150) 0 0.00 0.0 249 99.6
[1150,1258) 1 0.00 0.4 250 100.0
A notação “[” representa intervalo fechado, enquanto “)” indica intervalo aberto, por exemplo, 394 está incluso na
contagem do segundo intervalo. Também são apresentadas as frequências absolutas (f), relativas (rf), percentuais (rf(%)) e
frequências acumuladas (cf e cf(%)). Em seguida, um histograma para as frequências absolutas pode ser obtido, conforme
mostra a Figura 9.9.
> plot(class,type="fh",v=TRUE, v.round=0, xlab="Limites das
classes",ylab="Frequência",las=1)
Histograma com frequências absolutas: Quilometragem
Banco de dados anexo.
Para obter um polígono de frequências absolutas, conforme a Figura 9.10, digita-se:
> plot(class,type='fp',xlab="Limites das classes",ylab=
"Frequência",las=1,cex=0.5,col="black",pch=10)
Polígono de frequência: Quilometragem
Fonte:
Figura 9.11 –
Fonte:
Banco de dados anexo.
Para obter o polígono de frequências acumuladas absolutas, conforme a Figura 9.11, utiliza-se o seguinte comando:
> plot(class,type='cfp',xlab="Limites das classes",
ylab="Frequência",col="black",las=1)
 Polígono de frequências acumuladas: Quilometragem
Banco de dados anexo.
As medidas de posição e dispersão apresentadas nos Capítulos 4 e 5, bem como outras medidas importantes podem ser
obtidas facilmente no software R. A variável “Renda” é utilizada como exemplo e os resultados podem ser visualizados logo
após os comandos:
> length(dados$Renda) # comprimento do vetor
[1] 250
> sum(dados$Renda) # somatório
[1] 5988.295
> mean(dados$Renda) # média
[1] 23.95318
> median(dados$Renda) # mediana
[1] 21.77
>subset(table(dados$Renda),table(dados$Renda)== max(table(dados$Renda))) # moda
 12.96 19.595 35.59
 4 4 4
> var(dados$Renda) # variância
[1] 167.5771
> sd(dados$Renda) # desvio padrão
[1] 12.94516
> summary(dados$Renda) # resumo dos dados (mínimo, q1, q2, média, q3 e máximo)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.955 13.380 21.770 23.950 31.100 70.780
> quantile(dados$Renda, seq(0.10, 0.9, 0.1)) # decis
10% 20% 30% 40% 50% 60% 70% 80% 90%
9.725 12.49 15.03 18.18 21.77 25.81 29.24 33.405 41.95
> 100*sd(dados$Renda)/mean(dados$Renda) # coef. de variação (%)
[1] 54.04359
> min(dados$Renda) # valor mínimo
[1] 2.955
> max(dados$Renda) # valor máximo
[1] 70.775
> ampl<-max(dados$Renda)-min(dados$Renda) # amplitude total
> ampl
[1] 67.82
Para realizar uma análise de correlação entre as variáveis “Idade” e “Renda”, utiliza-se o comando:
> cor(dados$Idade,dados$Renda) # correlação de Pearson
[1] 0.4221007
Verifica-se que a correlação entre Idade e Renda é baixa. Esse resultado também pode ser observado no gráfico de
dispersão entre essas variáveis (Figura9.7). Além disso, nota-se que existe uma tendência de que clientes com mais idade
possuem maior renda.
Para utilizar a correlação de Spearman na análise, o seguinte comando pode ser executado no R:
Figura 9.12 –
> cor(dados$Idade,dados$Renda,method="spearman")
[1] 0.4392532
Para calcular a covariância, digita-se:
> cov(dados$Idade,dados$Renda)
[1] 40.87058
Observação 9.2: Destaca-se que esses comandos podem ser utilizados para todas as demais variáveis do banco de dados da
Montadora Toyord, observando as limitações de análise para cada tipo de variável. Nos exemplos acima, foram utilizadas
apenas algumas das variáveis do banco de dados.
Em determinadas situações é adequado trabalhar com tabelas de dupla entrada. Considere as variáveis “Modelo” e
“opinião geral” (Geral) para construí-las.
> opiniao<-table(dados$Geral,dados$Modelo)
> opiniao
 Chiconaultla Deltaforce3 LuxuriousCar SpaceShuttle Valentiniana
b_satis 1 0 14 11 2
insa 12 29 5 6 26
m_insa 68 26 1 7 7
satis 1 5 3 12 14
Nota: b_satis = bastante satisfeito; insa = insatisfeito; m_insa = muito insatisfeito; satis = satisfeito.
Nesse contexto, o gráfico em colunas ou barras verticais justapostas (Figura 9.12) pode auxiliar nas análises, sendo obtido
por meio dos comandos:
> barplot(opiniao,beside=TRUE, col=c("black", gray(0.3), gray(0.7), gray(1)),
xlab="Modelo",ylab="Frequência", ylim=c(0,80),las=1)
> legend(17,75,c("bastante satisfeito","insatisfeito", "muito
insatisfeito","satisfeito"),fill=c("black", gray(0.3), gray(0.7),gray(1)))
Gráfico em barras justapostas: opinião geral em relação ao modelo do veículo
Fonte: Banco de dados anexo.
Exemplo 9.6: Contagem de veículos
Considere o Exemplo 6.2, apresentado no Capítulo 6 deste livro, que se refere a uma contagem de veículos em um
cruzamento no centro da cidade. Medidas de resumo dos dados e alguns coeficientes para avaliar assimetria e curtose são
apresentados a seguir.
Para iniciar as análises, é preciso inserir os dados. Isso pode ser feito da seguinte maneira:
> x<-c(9,10,10,8,7,7,7,11,4,8,5,9,9,4) # vetor de dados
> x
[1] 9 10 10 8 7 7 7 11 4 8 5 9 9 4
O comando apresentado a seguir fornece as medidas de resumo.
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.000 7.000 8.000 7.786 9.750 11.000
Para calcular os coeficientes de assimetria e de curtose, há alguns pacotes disponíveis, como “e1071” (MEYER et al.,
2015), o “psych” (REVELLE, 2016), entre outros. Para análise dos dados, optou-se por utilizar o pacote “e1071”, que aborda os
diferentes tipos de coeficientes como “type 1”, “type 2” e “type 3”. Para mais detalhes, basta digitar ?kurtosis para curtose
ou ?skewness para assimetria.
Inicie instalando e carregando o pacote “e1071”.
> install.packages("e1071")
> library(e1071)
Para calcular o coeficiente de assimetria de Fisher (aFisher) para os dados “x”, utiliza-se o comando:
> skewness(x,type=1)
[1] -0.4339395
Para avaliar a assimetria utilizando o coeficiente de Pearson (aPearson), tem-se:
> skewness(x,type=3)
[1] -0.3882864
Para calcular a assimetria pelo coeficiente de Yule (aYule), é necessário programar a função:
> Yule <- function(x){
 qs=quantile(x,probs=c(0.25,0.5,.75))
 yule=(qs[3]+qs[1]-2*qs[2])/(qs[3]-qs[1])
 names(yule)="yule"
 yule }
 > Yule(x) # visualiza o resultado
yule
 0
O mesmo acontece para o coeficiente de Kelley (aKelley). Nesse caso, tem-se:
> Kelley <- function(x){
qs=quantile(x,probs=c(0.10,0.5,.90),type=5)
kelley=( qs[3]+qs[1]-2*qs[2])/(qs[3]-qs[1])
names(kelley)='kelley'
kelley }
> Kelley(x) # visualiza o resultado
 kelley
-0.3114754
Para o cálculo da curtose, utiliza-se o seguinte comando no R:
> kurtosis(x,type=1)
[1] -0.8205785
Este pacote “e1071” utiliza o método dos momentos para cálculo da curtose. No entanto, tem como valor de referência o
zero. Por isso, apresenta um valor diferente do que é mostrado no Capítulo 6. Para obter o mesmo valor, deve-se somar ao
resultado o número três, ou seja, –0,8206 + 3 = 2,179.
Os comandos apresentados a seguir podem ser usados para obter as principais medidas separatrizes (quartis, decis e
percentis), as quais são úteis no cálculo de alguns desses coeficientes de assimetria e de curtose.
As medidas podem ser obtidas individualmente ou em conjunto, conforme abaixo.
> quantile(x,0.25) # q1
25%
 7
> quantile(x,0.3) # D30
Figura 9.13 –
Fonte:
30%
 7
> quantile(x) # quartis
0% 25% 50% 75% 100% 
4 7 8 9 11 
> IQR(x) # intervalo interquartílico
[1] 2.75
Para complementar a análise, o gráfico box plot (Figura 9.13) pode ser construído pelo comando:
> boxplot(x,horizontal=TRUE,xlab=”Contagem de veículos”)
 Box plot: Contagem de veículos
Banco de dados anexo.
Exemplo 9.7: Idade e tempo de permanência na frente de um computador
Considere os dados do Exemplo 7.2, apresentados no Capítulo 7 deste livro. A análise pode iniciar com a construção de um
gráfico de dispersão (Figura 9.14), conforme os comandos a seguir.
# inserir os dados
> idade <- c(32,44,26,44,40,36,28,40,34,20)
> idade
 [1] 32 44 26 44 40 36 28 40 34 20
> tempo <- c(290,150,340,100,130,180,290,200,220,380)
> tempo
Figura 9.14 –
Fonte:
9.5
[1] 290 150 340 100 130 180 290 200 220 380
# gerar o gráfico
> plot(idade,tempo,xlab="Idade",ylab="Tempo",las=1)
 Gráfico de dispersão: idade e tempo de permanência no computador
Banco de dados anexo.
Observa-se, na Figura 9.14, que quanto menor a idade, maior é o tempo de permanência em frente ao computador,
mostrando a existência de uma relação negativa entre essas variáveis. Para complementar a análise, o coeficiente de correlação
pode ser obtido por:
> cor(idade,tempo)
[1] -0.957498
Com base nesse resultado, pode-se confirmar que existe uma relação forte e negativa entre as variáveis idade e tempo.
 Considerações finais
Neste capítulo, destacou-se a importância de utilizar um software para auxiliar no desenvolvimento de análises estatísticas.
O software R foi utilizado por se tratar de um software livre e de fácil acesso. Foram apresentadas informações básicas para a
sua utilização, bem como as principais funções estatísticas utilizadas para as análises apresentadas neste livro. Vale ressaltar que
o software R é uma linguagem de programação orientada a objetos, o que significa que o usuário pode criar suas próprias
funções e suas próprias rotinas para análise de dados.
______________
1 Débora Spenassato possui graduação em Matemática – LP pela Universidade de Passo Fundo (2008) e mestrado em Modelagem
Computacional pela Universidade Federal do Rio Grande – FURG (2011). Atualmente é professora da FURG e doutoranda em
Engenharia de Produção na Universidade Federal de Santa Catarina e desenvolve pesquisas sobre os seguintes temas: teoria de resposta
ao item, construção de instrumentos de medida, testes adaptativos computadorizados e avaliação educacional.
APÊNDICE I – LISTA DE SÍMBOLOS
Ai Amplitude da i-ésima classe ou categoria
ak Coeficiente percentílico de curtose
aKelly Coeficiente de assimetria de Kelley
aPearson Coeficiente de assimetria de Pearson
AT Amplitude total
aYule Coeficiente de assimetria de Yule
a3 Coeficiente de assimetria de Fisher
a4 Coeficiente de curtose a partir dos momentos
C Coeficiente de contingência
Cov(x, y) Covariância amostral entre as variáveis x e y
CV Coeficiente de variabilidade
Ci i-ésimo centil ou percentil
di Diferença entre os números de ordem (ranks) para o i-ésimo par de dados
DM Desvio médio
dq Desvio interquartílico
Di i-ésimo decil
faci Frequência acumulada absoluta da i-ésima classe ou categoria
facpi Frequência acumulada percentual da i-ésima classe ou categoria
facri Frequência acumulada relativa da i-ésima classe ou categoria
fi Frequência simples absoluta da i-ésima classe ou categoria
fpi Frequência simples percentual da i-ésima classe ou categoria
fri Frequência simples relativa da i-ésima classe ou categoria
g Quantidade de agrupamentos de diferentes postos empatados para a variável x
l Quantidade deagrupamentos de diferentes postos empatados para a variável y
h Amplitude ou intervalo de classes
k Quantidade de classes ou categorias
LIi Limite inferior da i-ésima classe ou categoria
LSi Limite superior da i-ésima classe ou categoria
Md Mediana
Mo Moda
m(r,a) Momento centrado em a de ordem r
N Tamanho da população
N Quantidade total de observações da tabela de contingências que representa uma população
n Quantidade total de observações da tabela de contingências que representa uma amostra
n Tamanho da amostra
n Quantidade de pares de observações
neij Frequência esperada para a célula ij da tabela de contingência
nij Quantidade de elementos pertencentes à i-ésima categoria de X e j-ésima categoria de Y
ni. Quantidade de elementos da i-ésima categoria de X
n.j Quantidade de elementos da j-ésima categoria de Y
noij Frequência observada para a célula ij da tabela de contingência
p Proporção de sucesso da amostra
pei Peso da i-ésima observação
pi Posição do i-ésimo percentil empírico
Pci Posição do i-ésimo percentil
PDi Posição do i-ésimo decil
PMd Posição da mediana
Pmi Ponto médio da i-ésima classe ou categoria
PQi Posição do i-ésimo quartil
q(p) Quantil de ordem p
Qi i-ésimo quartil
R R Development Core Team
r Quantidade de categorias da variável x qualitativa em tabelas de contingência
rs Coeficiente de correlação de Spearman
rxy Coeficiente de correlação linear amostral de Pearson
S Desvio padrão da amostra
t Quantidade de categorias da variável y qualitativa em tabelas de contingência
s2 Variância da amostra
sx Desvio padrão das observações de x
sy Desvio padrão das observações de y
ti Quantidade de postos empatados no i-ésimo agrupamento
tj Quantidade de postos empatados no j-ésimo agrupamento
Var(x) Variância da variável x
w Menor número entre o número de linhas (s) e colunas (r) da tabela de contingência
x Média da variável x na amostra
xi i-ésima observação da variável x em um conjunto de dados
x' Observação x com a métrica modificada
Xmín Menor valor
Xmáx Maior valor
xp Média aritmética ponderada da amostra
y Média da variável y na amostra
yi i-ésima observação da variável y em um conjunto de dados
y' Observação y com a métrica modificada
z Variável transformada z, variável padronizada
zx Variável transformada z para x
zy Variável transformada z para y
χ2 Estatística quiquadrado
μ Média da população
μG Média geométrica
μH Média harmônica
μp Média aritmética ponderada da população
π Proporção de sucesso da população
ρ Coeficiente de correlação linear populacional
σ Desvio padrão da população
σ2 Variância da população
APÊNDICE II – CONSIDERAÇÕES SOBRE QUANTIS
O cálculo para a determinação dos quantis é relativamente trabalhoso se não for executado em uma planilha de cálculo ou
software estatístico, razão pela qual alguns estudiosos, entre os quais Barbetta et al. (2010), propõem uma simplificação que
facilita a sua determinação. Nesse caso, para a localização do quantil de ordem p, (q(p)), encontra-se o posto ocupado
pelo valor procurado no conjunto, o que é feito pela expressão:
onde n representa a quantidade de observações. O será a observação que ocupa a posição nos dados ordenados, ou seja, 
. Quando o resultado não for inteiro, deve-se fazer uma interpolação.
Considere os dados do Exemplo 4.1, apresentado no Capítulo 4.
i xi
1 32
2 47
3 51
4 58
5 63
6 71
7 84
O quantil de ordem 0,25 ou primeiro quartil é encontrado da seguinte maneira:
Q1 = q(0,25) = ?
iq(0,25) = 0,25(7 + 1) = 2)
Q1 = q(0,25) = x2 = 47
O cálculo do sexagésimo centil é descrito como:
C60 = q(0,60) = ?
iq(0,60) = 0,60 (7 + 1) = 4,8
C60 = q(0,60) = x4,8
C60 = q(0,60) = x4,8 = x4 + 0,8[x5 – x4]
Tabela 4.4 –
C60 = q(0,60) = x4,8 = 58 + 0,8[63 – 58] = 62
Considere os dados do Exemplo 4.16 apresentado no Capítulo 4. A posição do primeiro quartil ou quantil de ordem 25 é
PQ1 = 0,25(n + 1) = 3. Isso significa que esta medida é a terceira observação do rol, portanto, Q1 = X3 = 14.100 kgf/cm2. Logo,
25% dos corpos de prova apresentaram resistência à compressão igual ou menor a 14.100 kgf/cm2.
A posição do sexto decil ou quantil de ordem 60 é PD6 = 0,60 (n + 1) = 0,60 (11 + 1) = 7,2. Isso significa que essa medida
fica entre a sétima e a oitava observação. Como kgf/cm2 e kgf/cm2, D6 = X7 + 0,2.(X8 – X7) = 15.000 + 0,2 · (600) = 15.120.
Logo, 60% dos corpos de prova apresentaram resistência à compressão igual ou menor a 15.120 kgf/cm2.
A posição do nonagésimo centil ou quantil de ordem 90 é PC90 = 0,90(n + 1) = 0,90 (11 + 1) = 10,8. Isso significa que essa
medida fica entre a décima e décima primeira observação. Como kgf/cm2 e X11 = 21.000 kgf/cm2, C90 = 21.000 kgf/cm2. Logo,
90% dos corpos de prova apresentaram resistência à compressão igual ou menor a 21.000 kgf/cm2.
Considere os dados do Exemplo 4.17 apresentado no Capítulo 4 (Tabela 4.4).
 Notas de 50 estudantes em uma prova de Estatística
Nota fi fai
4 2 2
5 4 6
6 3 9
7 6 15
8 8 23
9 15 38
10 12 50
Σ 50 
Deseja-se encontrar a nota máxima entre as 15% piores notas em um grupo de 50 alunos. A nota máxima entre as 15%
piores notas é dada pelo décimo quinto centil (C15) ou quantil de ordem 0,15. Sua posição será:
iq(0,15) = 0,15(50 + 1) = 7,65
indicando que o décimo quinto centil fica entre a sétima e oitava observação. Como X7 = 6 e X8 = 6, então C15 = 6,0. Assim,
pode-se afirmar que 15% dos alunos tiraram nota menor ou igual a 6 e 85% nota maior ou igual a 6. Então, a nota máxima dos
15% com piores notas é igual a 6,0.
Considere os dados do Exemplo 4.18, apresentados na Tabela 4.3 no Capítulo 4, que se referem à idade dos 250 clientes da
Montadora Toyord. O cálculo de Q3, o D2 e C89 é descrito a seguir.
Para Q3, tem-se:
PQ3 = 0,75(250 + 1) = 188,25
O terceiro quartil fica entre a 188o e 189o observação. Como X188 = 41 anos e X189 = 41 anos, pode-se concluir que 75% dos
clientes possuem 41 anos ou menos e 25% dos clientes possuem 41 anos ou mais. A igualdade é considerada em ambos os
sentidos, pois, como se pode perceber nesse exemplo, tanto os clientes que se encontram na 188a posição como os que se
encontram na 189a posição possuem 41 anos.
Para D2, tem-se:
PD2 = 0, 20(n + 1) = 0,20(250 + 1) = 50,2
O segundo decil fica entre a 50a e 51a observação. Como X50 = 29 anos e X51 = 29 anos, pode-se concluir que 20% dos
clientes possuem 29 anos ou menos e 80% dos clientes possuem 29 anos ou mais.
Para C89, tem-se:
PC89 = 0,89(n + 1) = 0,89(250 + 1) = 223,39.
Nesse caso, a posição do C89 fica entre a 223a e a 224a observação. Como X223 = 45 anos e X224 = 45 anos, pode-se concluir
que 89% dos clientes possuem 45 anos ou menos e 11% dos clientes possuem 45 anos ou mais.
No caso de dados agrupados, o cálculo do quantil inicia com a localização da classe que o contém (classe j).
Posteriormente, a partir da frequência absoluta acumulada da classe anterior à localizada e da frequência absoluta simples da
classe localizada, também por regra de três, a medida é identificada, ou seja:
Portanto:
onde:
j – posição da classe localizada;
ij – intervalo da classe localizada;
LIj – limite inferior da classe localizada;
fj – frequência absoluta da classe localizada;
faj-1 – frequência acumulada da classe anterior à localizada.
Considere os dados do Exemplo 4.19 apresentado no Capítulo 4. Para os dados não agrupados, o terceiro quartil tem
posição PQ3 = 0,75(20 + 1) = 15,75; logo, Q3 = 8, pois x15 = 8 e x16 = 8. Considerando os dados tabulados, tem-se a mesma
posição, PQ3 = 15,75, sendo localizada a última classe. Nesse caso:
1.1
1.2
1.3
1.4 a)
b)
c)
d)
e)
f)
g)
Tabela 2.1 –
APÊNDICE III – RESPOSTAS
Capítulo 1
População é o conjunto de todos os itens, objetos ou pessoas, enfim, entes que se pretendem analisar, razão pela qual devem
apresentar pelo menos uma propriedade em comum. Uma população pode ser formada por pessoas, famílias,
estabelecimentos comerciais ou industriais, contas-correntes, peças de uma linha de produção ou qualquer outro tipo de
elemento.Quando se analisa uma parte dessa população, tem-se uma amostra, que é uma parte ou subconjunto dos
elementos do todo.
É possível classificar a pesquisa estatística em pesquisa de levantamento e pesquisa por experimento. Quando se trabalha
com a pesquisa de levantamento, são observadas as características ou fenômenos presentes na população, com mínima
intervenção por parte do pesquisador. Nesse tipo de pesquisa, não é possível evidenciar relações de causa e efeito,
apenas se mede as variáveis em estudo, sendo possível somente afirmar relações entre elas. Na pesquisa experimental, o
pesquisador tem um controle sobre as condições de pesquisa, conseguindo eliminar quase todas as causas de variação
mediante um planejamento do experimento. Dessa forma, a pesquisa experimental é o único tipo de pesquisa que
permite selecionar as variáveis que seriam capazes de influenciar a característica em estudo, definir as formas de
controle e de observação dos efeitos que estas variáveis produzem nessa característica.
Estatística descritiva. Tabelas, gráficos e medidas descritivas.
 Qualitativa nominal
Qualitativa ordinal
Quantitativa contínua
Quantitativa contínua
Quantitativa discreta
Quantitativa contínua
Quantitativa discreta
Capítulo 2
2.1
 Distribuição dos funcionários da Empresa M&T Construções, Rio Grande do Sul, 2012
Unidades
Funcionários
Masculino Feminino Total
Porto Alegre 137 55 192
Rio Grande 54 51 105
Pelotas 85 13 98
Fonte:
Tabela 2.3 –
Fonte:
Tabela 2.4 –
Caxias do Sul 38 5 43
Bagé 27 – 27
Total 341 124 465
Relatório anual da empresa.
2.2 V, F, F, V, F, V
i xi fi fpi (%) faci
1 2 6 12 6
2 3 2 4 8
3 4 7 14 15
4 5 12 24 27
5 6 10 20 37
6 7 9 18 46
7 8 4 8 50
2.3
 Distribuição dos visitantes de um site de acordo com o provedor utilizado, abril de 2013
Provedor Visitantes (fi) (fri) % (fpi)
IG 32 0,4 40
Terra 22 0,275 27,5
Pop 14 0,175 17,5
UOL 12 0,15 15
Total 80 1 100
Banco de dados.
2.4
 Distribuição dos revendedores autorizados de acordo com a quantidade de carros adquiridos
Classe
Quantidade de carros Quantidade de
revendedores
fpi (%) faci facri (%)
1 5 ⊢ 11 4 0,1 4 0,1
2 11 ⊢ 17 7 0,175 11 0,275
3 17 ⊢ 23 16 0,4 27 0,675
4 23 ⊢ 29 8 0,2 35 0,875
5 29 ⊢ 35 3 0,075 38 0,95
Fonte:
Tabela 2.5 –
Fonte:
6 35 ⊢ 41 2 0,05 40 100%
E. M. Silva et al., 2010.
2.5
 Distribuição dos blocos de pavimentação de acordo com a carga suportada em ensaio de laboratório, FURG,
2011
Classe Carga (KN) Quantidade de blocos fpi (%)
1 110 ⊢ 135 3 5,0
2 135 ⊢ 160 4 6,7
3 160 ⊢ 185 8 13,3
4 185 ⊢ 210 10 16,7
5 210 ⊢ 235 23 38,3
6 235 ⊢ 260 4 6,7
7 260 ⊢ 285 8 13,3
Albuquerque e Bristot, 2011.
2.6 V; V; V; V; V; V.
2.7
j LIi LSi Pmi fi fpi faci facpi
1 10 20 15 2 4 2 4
2 20 30 25 5 10 7 14
3 30 40 35 12 25 19 39
4 40 50 45 17 36 36 75
5 50 60 55 6 13 42 88
6 60 70 65 3 6 45 94
7 70 80 75 2 4 47 98
8 80 90 85 1 2 48 100
2.8 – C 2.9 – D 2.10 – D
Capítulo 3
3.1 – A 3.3 – D 3.4 – D 3.5 – D 3.6 – C 3.7 – A
3.8 – D 3.11 – B 3.12 – B 
Capítulo 4
4.1 a)
b)
c)
d)
e)
f)
g)
h)
4.2 a)
b)
c)
d)
e)
f)
g)
h)
4.3 a)
b)
c)
d)
e)
f)
g)
h)
4.4
4.5 a)
b)
4.6
4.7
4.8
4.9
4.10
4.11 a)
x = 63,2 mm
xH = 62,37 mm
xG = 62,78 mm
Mo = 55 mm
Me = 63 mm
Q1 = 55 mm
D7 = 69,2 mm
C80 = 71,8 mm
x = 3,95 pessoas
xH = 3,04 pessoas
= xG 3,54 pessoas
Mo = 6 pessoas
Me = 4 pessoas
Q3 = 5 pessoas
D3 = 3 pessoas
C80 = 6 pessoas
x = 94,27 km
xH = 94,1 km
xG = 94,18 km
Mo = 94,17 km
Me = 94,17 km
Q2 = 94,17 km
D6 = 95,26 km
C32 = 92,15 km
x = 9,27 veículos/minuto; Mo = 10 veículos/minuto; Me = 9 veículos/minuto.
Sala A – x = 0,55 seg.; Mo = 0,80 seg.; Me = 0,55 seg.
Sala B – x = 0,70 seg.; Mo = Amodal; Me = 0,70 seg.
Sala C – x = 0,91 seg.; Mo = 0,90 seg.; Me = 0,80 seg.
Na Sala C teve-se um tempo de carga muito acima dos demais (2,0 seg.). Como a média é uma medida influenciada por
todos os elementos do conjunto e observando que a mediana é igual à média para as Salas A e B, a mediana é a medida
mais indicada para comparar os três conjuntos.
Não. A média aritmética é uma medida que tende a ficar no meio de uma distribuição de valores. Se multiplicarmos a média
por 3 (número de empresas): 28 × 3 = 84, tem-se um resultado menor do que 85, ou seja, para essa média, a soma do
número de funcionários das 3 empresas é menor do que 85.
Significa que 50% dos blocos cerâmicos de 21 furos têm resistência à compressão menor ou igual a 105,04 kgf/cm2 e 50%
dos blocos têm resistência à compressão maior ou igual a 105,04 kgf/cm2.
xQS = 2,193473 × 10–5seg.
 O fabricante deverá utilizar 31,25 kg do produto B.
y = 20,4734 seg.
a média fica multiplicada por 2;
B)
C)
D)
E)
f)
4.12 a)
b)
c)
d)
e)
f)
4.13
4.14
4.15
4.17 a)
b)
c)
d)
e)
f)
4.18
4.19
a média fica adicionada de 2;
a média fica dividida por 2;
a média fica subtraída de 2;
a média fica igual a zero;
cada valor fica representado pela distância dele em relação à média em número de desvios padrões, escala padronizada.
36,5 observações
146 observações
273,75 observações
200,75 observações
182,5 observações
7,3 observações
R$ 132.000,00
x4 = 5
x = 11,2%
Conclui-se que, de maneira geral, os valores dos aluguéis cobrados por esta imobiliária tendem a ser menores que os
aluguéis cobrados no município. Por exemplo, enquanto no município 25% dos aluguéis são superiores a 3.275,00,
nessa imobiliária somente 18% dos aluguéis de seus imóveis são superiores a 3.275,00.
x = 94,21 km
Mo = 90,0 km
Me = 94,0 km
Q2 = 94,0 km
D6 = 914,92 km
C32 = 92,5 km
Com exceção da moda, os demais resultados estão próximos daqueles encontrados no Exercício 4.3. Porém, com os
dados desagrupados (como nesse exercício), encontram-se os verdadeiros resultados dessas medidas, enquanto, com os
dados agrupados em classes, os resultados encontrados são aproximações dos verdadeiros valores.
 xG = 5,99% ao mês.
xG = 12,3145917% ao mês.
 
Verificando a veracidade dos cálculos:
 
Salário (R$) Aumento Total (R$)
1.500,00 12% 1.680
1.680 10% 1.848
1.848 15% 2.125,2
4.20
4.21
4.22
5.1
5.2 a)
b)
c)
d)
e)
f)
5.3 a)
b)
c)
d)
e)
f)
5.4 a)
b)
c)
d)
e)
f)
5.5 a)
 
Calculando pelo aumento médio mensal de 12,3145917%, tem-se:
 
Salário (R$) Aumento Total (R$)
1.500,00 12,3145917% 1.684,719
1.684,718 12,3145917% 1.892,185
1.892,182 12,3145917% 2.125,2
 
xH = 84,71 km/h.
xH = 5,36 meses.
C30 = 5, ou seja, 30% tiraram nota menor ou igual a 5, e 70% nota maior ou igual a 5.
Capítulo 5
Não. Porque a soma dos desvios de cada observação em relação à média aritmética deve ser igual a zero.
 AT = 22 mm
DM = 6,20 mm
s2 = 59,07 mm2
s = 7,69 mm
CV = 12,16%
baixa dispersão
dq = 16,25 mm
AT = 5 pessoas
DM = 1,35 pessoa
s2 = 2,53 pessoas2
s = 1,59 pessoa
CV = 40,23%
alta dispersão
dq = 2 pessoas
AT = 20 km
DM = 3,32 km
s2 = 16,09 km2
s = 4,01 km
CV = 4,25%
baixa dispersão
dq = 5,91 km
a variância fica multiplicada por 4; b) a variância não se altera; c) a variância fica dividida por 4; d) a variância não se
altera; e) a variância não se altera; f) a variância é 1,0 (cada valor fica representado pela distância dele em relação à
média em número de desvios padrões, escala padronizada).
5.6
5.7
5.8
5.9
5.10
5.11
5.12
5.13 a)
b)
c)
d)
5.14
5.15
5.16
6.1 a)
b)
Figura 6.2.1 –
Figura 6.1.2 –
 = 7,49 seg.2
Letra a.
s2 = 0,9473 acidentes2; s = 0,9733 acidentes; CV = 180,24% – dispersão alta.
CVRecife = 29,63% e CVRJ = 25,00%; assim, o Rio de Janeiro possui temperaturas com menor dispersão relativa.
Como as distribuições são assimétricas (média diferente da mediana), pelo teorema de Chebyshey pode-se afirmar que pelo
menos 75% dos valores estão compreendidos no intervalo μ ± 2σ. Portanto, na Empresa A, no máximo 12,5% dos
funcionários terão salário inferior a 375 UM, enquanto na Empresa B esse mesmo percentual corresponde a um salário
inferior a 285 UM. Como o Sr. Malaquias possui pouca escolaridade, seu saláriodeve estar entre os mais baixos,
parecendo ser melhor trabalhar na Empresa A.
Os Coeficientes de Variabilidade são: CVIdade = 21,12%; CVRenda = 54,04% e CVQuilometragem = 18,34%. Assim, a variável que
possui maior dispersão relativa é a Renda.
 19,54 ± 0,42 = [19,12;19,96]cm. Aproximadamente 95,45% dos blocos cerâmicos oriundos desta linha de produção terão
altura entre 19,12 cm e 19,96 cm, considerando-se o intervalo simétrico em relação à média.
150 hóspedes;
300 hóspedes;
1,8 dia;
x = 11 dias; s = 1,8 dia; CV = 16,36%.
{14, 9, 10, 7, 7, 8, 9, 12, 10, 7, 10, 11, 8, 6, 10}; s2 = 4,6 carros; s = 2,1448 carros; CV = 23,31% – média dispersão.
No lote 2, pois 52,79 MPa > 51,07 MPa.
s = 4,01 km. O resultado encontrado em 5.4 foi o mesmo, embora este seja uma estimativa do verdadeiro valor.
Capítulo 6
aPearson(média) = 0,866; aPearson(moda) = 0,944; aKelley = 0,402; a3 = 1,417 Distribuição moderadamente assimétrica positiva.
a4 = 5,474; ak = 0,290 Distribuição platicúrtica.
6.2
 Box plot
Pelo boxplot pode-se observar uma assimetria positiva, indicando uma maior concentração das observações menores, e
não se observa a presença de outliers.
 Ramo e folhas
6.3 a)
b)
6.4 a)
b)
7.1 a)
7.2 a)
b)
7.3 b)
7.4
7.5
7.6
2 3 7 9 
9 4 0 2 3 4 5 6 7 8 9
9 5 0 1 1 2 3 5 6 7 9
1 6 3 
1 7 0 
0 8 
0 9 
4 10 0 5 7 9 
5 11 0 1 2 2 3 
Pelo ramo e folhas, visualizam-se observações assimétricas e com presença de lacunas. Parecem existir dois picos,
sugerindo que pode ter havido a interferência de alguma variável.
aPerson = 0,3565 – Distribuição moderadamente assimétrica positiva
Como a amostra tem menos de 50 observações, a x = 0 e s = 1, todos os resultados se encontram no intervalo = [x ± 2,5·s]
= [–2,5;2,5]. Portanto, não foram identificados outliers.
aKelley = 0,4248 – Distribuição moderadamente assimétrica positiva
aK – Distribuição leptocúrtica.
Capítulo 7
F; b) F; c) F; d) F; e) V.
pelo diagrama de dispersão, verifica-se que a relação entre a voltagem e a corrente elétrica é linear, positiva e muito forte
(parecendo perfeita), ou seja, à medida que se aumenta a voltagem, a corrente elétrica também aumenta.
rxy = 1,00, confirmando conclusões obtidas em (a).
pelo diagrama de dispersão, verifica-se que a relação entre o fator água/cimento e a resistência à compressão não é linear;
c) rs = – 0,861; d) correlação não linear negativa forte, ou seja, à medida que se aumenta o fator água/cimento, a
resistência à compressão diminui.
χ2 = 87,893; C = 0,673, existe associação entre o candidato escolhido e a classe social.
χ2 = 1,995; C = 0,085, não há associação entre o número de gols de bola parada e o ano em que ocorreu o campeonato.
Pelo diagrama de dispersão, parece quase não existir relação entre o peso e a espessura dos diversos modelos de celular;
contudo, será calculado o coeficiente de Spearman para verificar a intensidade dessa relação. O valor encontrado para
esse coeficiente (rs = 0,200) confirma a suposição feita a partir do gráfico, indicando uma relação muito fraca entre o
peso e a espessura dos celulares da marca analisada.
ANEXO – BANCO DE DADOS: MEGAMONTADORA TOYORD
Caso Modelo Opcionais Design Concessionária Geral Renda Pessoas Quilometragem Remodelação Idade
1 Chiconaultla Ar e
direção
Atual Não causou
impressão
Muito
insatisfeito
26,775 5 530 2 39
2 Chiconaultla Inexistentes Atual Insatisfatória Muito
insatisfeito
12,78 3 482 2 28
3 Deltaforce3 Ar e
direção
Atual Insatisfatória Satisfeito 17,58 3 410 2 21
4 Deltaforce3 AD trio
elétrico
Atual Satisfatória Insatisfeito 21,77 4 410 2 39
5 Valentiniana AD trio
elétrico
Adiante Não causou
impressão
Insatisfeito 22,175 4 435 1 32
6 Chiconaultla Ar e
direção
Adiante Muito
insatisfatória
Muito
insatisfeito
11,39 2 422 1 30
7 SpaceShuttle AD trio
elétrico
Atual Satisfatória Muito
insatisfeito
29,145 5 572 2 35
8 Chiconaultla Ar e
direção
Atual Não causou
impressão
Bastante
satisfeito
27,24 5 459 1 32
9 Valentiniana Ar e
direção
Atual Muito
insatisfatória
Insatisfeito 52,64 5 564 2 45
10 Valentiniana ADT freios
ABS
Atual Não causou
impressão
Satisfeito 25,27 5 574 2 39
11 LuxuriousCar Ar e
direção
Ultra Não causou
impressão
Bastante
satisfeito
57,125 6 530 3 41
12 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
8,605 1 390 2 48
13 Deltaforce3 Inexistentes Atual Insatisfatória Satisfeito 20,22 4 458 3 26
14 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
10,345 2 516 1 29
15 Chiconaultla Inexistentes Atual Muito
insatisfatória
Muito
insatisfeito
12,07 2 425 2 47
16 Chiconaultla Inexistentes Atual Insatisfatória Muito
insatisfeito
10,5 2 543 2 36
17 Chiconaultla Inexistentes Adiante Insatisfatória Muito
insatisfeito
10,9 2 526 2 32
18 Chiconaultla Ar e
direção
Atual Insatisfatória Muito
insatisfeito
12,96 3 440 1 29
19 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
7,335 1 524 2 44
20 Deltaforce3 Ar e
direção
Atual Insatisfatória Insatisfeito 16,795 3 538 1 24
21 Chiconaultla Inexistentes Adiante Não causou
impressão
Insatisfeito 15,09 3 462 3 18
22 Valentiniana AD trio
elétrico
Atual Satisfatória Satisfeito 19,475 4 398 1 37
23 Valentiniana Ar e
direção
Atual Não causou
impressão
Insatisfeito 21,51 4 546 2 35
24 SpaceShuttle Ar e
direção
Ultra Satisfatória Satisfeito 43,15 6 539 2 48
25 Chiconaultla Ar e
direção
Atual Não causou
impressão
Muito
insatisfeito
16,685 3 474 3 30
26 Deltaforce3 AD trio
elétrico
Ultra Insatisfatória Satisfeito 33,405 6 520 3 38
27 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
10,74 2 618 2 35
28 Chiconaultla Inexistentes Atual Satisfatória Muito
insatisfeito
13,33 3 340 0 28
29 LuxuriousCar Ar e
direção
Ultra Insatisfatória Bastante
satisfeito
49,815 6 529 1 46
30 SpaceShuttle Ar e
direção
Ultra Bastante
satisfatória
Muito
insatisfeito
32,52 6 497 3 41
31 Deltaforce3 Inexistentes Atual Insatisfatória Muito
insatisfeito
16,575 3 499 2 39
32 Deltaforce3 Inexistentes Adiante Não causou
impressão
Insatisfeito 13,805 3 423 2 43
33 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
3,76 1 406 2 27
34 Valentiniana Ar e
direção
Atual Bastante
satisfatória
Insatisfeito 30,13 5 553 2 32
35 Chiconaultla Inexistentes Adiante Não causou
impressão
Muito
insatisfeito
7,825 1 454 1 30
36 Chiconaultla Inexistentes Adiante Não causou
impressão
Muito
insatisfeito
5,7 1 412 2 19
37 LuxuriousCar ADT freios
ABS
Atual Satisfatória Bastante
satisfeito
45,52 6 571 2 41
38 Deltaforce3 Ar e
direção
Atual Insatisfatória Muito
insatisfeito
23,405 4 366 1 40
39 Chiconaultla Inexistentes Adiante Insatisfatória Muito
insatisfeito
9,445 2 323 2 39
40 Deltaforce3 AD trio
elétrico
Atual Insatisfatória Muito
insatisfeito
12,96 3 520 2 26
41 Chiconaultla Inexistentes Atual Satisfatória Muito
insatisfeito
27,085 5 566 2 31
42 Deltaforce3 Ar e
direção
Atual Muito
insatisfatória
Muito
insatisfeito
13,71 3 498 2 29
43 Valentiniana ADT freios
ABS
Atual Satisfatória Satisfeito 39,65 6 527 3 34
44 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
7,825 1 470 2 35
45 LuxuriousCar Ar e
direção
Atual Satisfatória Bastante
satisfeito
35,405 6 464 3 38
46 Chiconaultla Inexistentes Adiante Insatisfatória Muito
insatisfeito
11,14 2 482 0 39
47 SpaceShuttle ADT freios
ABS
Atual Não causou
impressão
Bastante
satisfeito
41,685 6 506 3 38
48 Deltaforce3 Inexistentes Atual Insatisfatória Insatisfeito 15,61 3 482 1 34
49 Deltaforce3 Inexistentes Adiante Satisfatória Muito
insatisfeito
24,545 5 618 2 25
50 Deltaforce3 Inexistentes Atual Insatisfatória Insatisfeito 17,465 3 579 1 47
51 Valentiniana ADT freios
ABS
Ultra Não causou
impressão
Satisfeito 36,72 6 565 3 36
52 Chiconaultla Ar e
direção
Atual Não causou
impressão
Insatisfeito 14,685 3 350 1 22
53 Deltaforce3 Inexistentes Atual Muito
insatisfatóriaMuito
insatisfeito
14 3 568 2 30
54 Chiconaultla Inexistentes Adiante Não causou
impressão
Muito
insatisfeito
6,59 1 357 1 19
55 Valentiniana Inexistentes Atual Satisfatória Muito
insatisfeito
26,165 5 616 3 36
56 Deltaforce3 Inexistentes Atual Não causou
impressão
Muito
insatisfeito
26,165 5 550 2 44
57 SpaceShuttle Inexistentes Atual Bastante
satisfatória
Muito
insatisfeito
28,66 5 573 2 45
58 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
6,535 1 514 1 36
59 Chiconaultla Inexistentes Adiante Satisfatória Muito
insatisfeito
9,375 2 499 0 35
60 Deltaforce3 Ar e
direção
Adiante Não causou
impressão
Insatisfeito 19,595 4 378 1 33
61 Valentiniana AD trio
elétrico
Atual Não causou
impressão
Muito
insatisfeito
18,985 4 402 2 35
62 Valentiniana AD trio
elétrico
Ultra Satisfatória Insatisfeito 28,34 5 386 2 44
63 Chiconaultla Inexistentes Atual Não causou
impressão
Muito
insatisfeito
12,42 2 464 3 53
64 Deltaforce3 Ar e
direção
Atual Satisfatória Insatisfeito 17,35 3 406 37
65 Chiconaultla Ar e
direção
Atual Satisfatória Insatisfeito 11,39 2 414 3 22
66 Valentiniana Inexistentes Atual Insatisfatória Bastante
satisfeito
25,57 5 575 3 46
67 Chiconaultla Inexistentes Adiante Não causou
impressão
Muito
insatisfeito
9,89 2 475 2 32
68 Chiconaultla Ar e
direção
Adiante Não causou
impressão
Insatisfeito 14,39 3 554 2 30
69 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
8,605 1 484 0 25
70 Deltaforce3 ADT freios
ABS
Atual Não causou
impressão
Insatisfeito 24,11 4 582 3 38
71 Chiconaultla Inexistentes Atual Não causou
impressão
Muito
insatisfeito
15,09 3 404 1 44
72 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
7,575 1 475 2 25
73 Chiconaultla Inexistentes Adiante Não causou
impressão
Muito
insatisfeito
12,6 2 458 3 27
74 Deltaforce3 Inexistentes Atual Muito
insatisfatória
Muito
insatisfeito
16,355 3 519 1 40
75 Valentiniana Ar e
direção
Atual Muito
insatisfatória
Insatisfeito 27,395 5 523 3 20
76 Deltaforce3 Ar e
direção
Atual Insatisfatória Muito
insatisfeito
22,31 4 514 3 34
77 Chiconaultla Inexistentes Atual Satisfatória Muito
insatisfeito
19,475 4 471 2 27
78 Chiconaultla Inexistentes Atual Insatisfatória Insatisfeito 15,09 3 469 3 37
79 LuxuriousCar AD trio
elétrico
Ultra Satisfatória Insatisfeito 34,67 6 462 2 45
80 Valentiniana Ar e
direção
Atual Não causou
impressão
Insatisfeito 33,05 6 481 3 37
81 SpaceShuttle Ar e
direção
Ultra Bastante
satisfatória
Bastante
satisfeito
46,18 6 493 3 33
82 LuxuriousCar Ar e
direção
Ultra Satisfatória Bastante
satisfeito
47,975 6 492 2 44
83 Deltaforce3 AD trio
elétrico
Atual Insatisfatória Insatisfeito 19,475 4 465 2 36
84 Chiconaultla Inexistentes Adiante Insatisfatória Muito
insatisfeito
7,89 1 344 2 31
85 Chiconaultla Ar e
direção
Adiante Muito
insatisfatória
Insatisfeito 12,51 2 363 2 25
86 SpaceShuttle Ar e
direção
Atual Satisfatória Bastante
satisfeito
23,83 4 617 3 31
87 Deltaforce3 Inexistentes Atual Insatisfatória Muito
insatisfeito
16,465 3 442 1 37
88 LuxuriousCar Ar e
direção
Atual Bastante
satisfatória
Insatisfeito 27,865 5 569 1 50
89 LuxuriousCar AD trio
elétrico
Ultra Não causou
impressão
Bastante
satisfeito
52,42 6 612 2 44
90 Deltaforce3 Inexistentes Adiante Satisfatória Insatisfeito 19,595 4 371 2 45
91 Valentiniana AD trio
elétrico
Atual Não causou
impressão
Insatisfeito 30,295 5 566 2 37
92 LuxuriousCar Ar e
direção
Ultra Bastante
satisfatória
Insatisfeito 35,59 6 457 3 42
93 Chiconaultla Inexistentes Atual Insatisfatória Satisfeito 20,095 4 526 2 36
94 SpaceShuttle Ar e
direção
Atual Não causou
impressão
Insatisfeito 37,485 6 454 3 46
95 Chiconaultla Inexistentes Atual Não causou
impressão
Insatisfeito 21,64 4 518 2 32
96 LuxuriousCar AD trio
elétrico
Ultra Satisfatória Bastante
satisfeito
47,525 6 551 1 42
97 Chiconaultla Inexistentes Adiante Insatisfatória Muito
insatisfeito
5,8 1 374 1 26
98 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Insatisfeito 9,59 2 586 2 26
99 SpaceShuttle Ar e
direção
Atual Insatisfatória Insatisfeito 31,825 5 484 2 45
100 SpaceShuttle Inexistentes Atual Satisfatória Insatisfeito 31,14 5 680 3 35
101 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
8,88 2 468 3 31
102 Deltaforce3 Inexistentes Atual Não causou
impressão
Insatisfeito 22,04 4 423 3 43
103 Valentiniana Ar e
direção
Atual Não causou
impressão
Insatisfeito 32,17 6 554 2 43
104 Chiconaultla Inexistentes Atual Não causou
impressão
Insatisfeito 29,47 5 494 1 31
105 Chiconaultla Inexistentes Atual Não causou
impressão
Muito
insatisfeito
16,355 3 476 2 29
106 Chiconaultla Inexistentes Atual Não causou
impressão
Muito
insatisfeito
13,52 3 479 2 34
107 Valentiniana Inexistentes Atual Satisfatória Insatisfeito 28,5 5 507 3 23
108 Deltaforce3 Ar e
direção
Atual Não causou
impressão
Insatisfeito 31,14 5 668 2 49
109 Valentiniana Inexistentes Atual Bastante
satisfatória
Satisfeito 23,265 4 429 4 31
110 Valentiniana ADT freios Atual Não causou Satisfeito 45,085 6 495 2 30
ABS impressão
111 Deltaforce3 Inexistentes Atual Não causou
impressão
Muito
insatisfeito
17,015 3 508 2 45
112 LuxuriousCar AD trio
elétrico
Ultra Bastante
satisfatória
Bastante
satisfeito
53,875 6 410 1 55
113 Chiconaultla Inexistentes Adiante Satisfatória Muito
insatisfeito
10,19 2 469 1 35
114 Valentiniana AD trio
elétrico
Ultra Não causou
impressão
Satisfeito 42,515 6 650 3 37
115 SpaceShuttle Ar e
direção
Atual Bastante
satisfatória
Insatisfeito 38,265 6 503 2 48
116 Deltaforce3 Inexistentes Adiante Bastante
satisfatória
Muito
insatisfeito
17,695 3 475 2 35
117 SpaceShuttle AD trio
elétrico
Atual Insatisfatória Satisfeito 35,59 6 618 2 45
118 Valentiniana Ar e
direção
Adiante Insatisfatória Insatisfeito 12,42 2 459 2 42
119 Valentiniana Ar e
direção
Atual Satisfatória Muito
insatisfeito
32,695 6 537 2 46
120 SpaceShuttle ADT freios
ABS
Atual Não causou
impressão
Bastante
satisfeito
29,965 5 681 2 39
121 SpaceShuttle ADT freios
ABS
Ultra Não causou
impressão
Bastante
satisfeito
30 6 470 3 41
122 Deltaforce3 Ar e
direção
Atual Satisfatória Insatisfeito 23,83 4 592 3 38
123 Chiconaultla Inexistentes Adiante Insatisfatória Muito
insatisfeito
11,64 2 418 2 31
124 Chiconaultla Ar e
direção
Atual Não causou
impressão
Muito
insatisfeito
18,745 4 506 2 36
125 Chiconaultla Inexistentes Adiante Não causou
impressão
Muito
insatisfeito
15,82 3 479 1 32
126 SpaceShuttle Ar e
direção
Atual Não causou
impressão
Insatisfeito 17,24 3 597 2 40
127 Chiconaultla Inexistentes Adiante Insatisfatória Muito
insatisfeito
13,33 3 466 1 27
128 Valentiniana Ar e
direção
Atual Bastante
satisfatória
Satisfeito 28,02 5 481 3 26
129 Valentiniana Inexistentes Atual Não causou
impressão
Satisfeito 34,305 6 462 2 40
130 Valentiniana Ar e
direção
Atual Bastante
satisfatória
Muito
insatisfeito
21,51 4 579 1 43
131 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
3,655 1 302 0 32
132 Deltaforce3 Inexistentes Atual Bastante
satisfatória
Muito
insatisfeito
27,705 5 510 1 46
133 Chiconaultla Inexistentes Atual Muito
insatisfatória
Muito
insatisfeito
11,39 2 479 2 40
134 LuxuriousCar ADT freios
ABS
Ultra Satisfatória Satisfeito 39,25 6 524 3 45
135 Chiconaultla Inexistentes Atual Muito
insatisfatória
Muito
insatisfeito
10,425 2 493 2 31
136 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
5,95 1 683 2 18
137 Deltaforce3 Ar e
direção
Atual Não causou
impressão
Insatisfeito 22,04 4 326 3 44
138 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
2,955 1 411 1 31
139 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
8,08 1 341 1 34
140 Deltaforce3 Inexistentes Adiante Bastante
satisfatória
Muito
insatisfeito
22,99 4 447 1 44
141 Deltaforce3 Inexistentes Atual Insatisfatória Muito
insatisfeito23,265 4 450 2 41
142 SpaceShuttle ADT freios
ABS
Ultra Satisfatória Bastante
satisfeito
48,89 6 426 2 42
143 Deltaforce3 Inexistentes Atual Insatisfatória Insatisfeito 19,23 4 399 3 33
144 SpaceShuttle AD trio
elétrico
Ultra Não causou
impressão
Satisfeito 31,825 5 566 2 36
145 Valentiniana ADT freios
ABS
Atual Não causou
impressão
Insatisfeito 27,705 5 463 2 29
146 SpaceShuttle ADT freios
ABS
Atual Não causou
impressão
Satisfeito 33,76 6 546 3 29
147 Valentiniana Inexistentes Atual Não causou
impressão
Insatisfeito 19,595 4 596 1 27
148 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
7,515 1 442 1 31
149 Deltaforce3 Inexistentes Atual Muito
insatisfatória
Muito
insatisfeito
14 3 425 2 34
150 Chiconaultla Inexistentes Atual Muito
insatisfatória
Muito
insatisfeito
9,74 2 469 1 36
151 SpaceShuttle ADT freios
ABS
Atual Satisfatória Insatisfeito 35,59 6 532 2 33
152 Chiconaultla Ar e
direção
Atual Insatisfatória Muito
insatisfeito
40,16 2 462 3 23
153 Chiconaultla Ar e
direção
Atual Insatisfatória Muito
insatisfeito
21,77 4 512 3 33
154 Chiconaultla ADT freios
ABS
Adiante Muito
insatisfatória
Muito
insatisfeito
16,14 3 413 0 32
155 SpaceShuttle ADT freios Atual Satisfatória Satisfeito 33,76 6 602 3 33
ABS
156 Chiconaultla Inexistentes Atual Não causou
impressão
Muito
insatisfeito
8,88 2 577 1 21
157 LuxuriousCar Ar e
direção
Ultra Satisfatória Satisfeito 41,89 6 581 3 40
158 Deltaforce3 Inexistentes Adiante Bastante
satisfatória
Muito
insatisfeito
22,99 4 447 1 44
159 Deltaforce3 Ar e
direção
Adiante Não causou
impressão
Muito
insatisfeito
16,795 3 510 1 42
160 Deltaforce3 Ar e
direção
Atual Não causou
impressão
Insatisfeito 28,02 5 563 2 26
161 Deltaforce3 Inexistentes Atual Satisfatória Insatisfeito 20,985 4 519 2 25
162 Valentiniana AD trio
elétrico
Atual Não causou
impressão
Insatisfeito 30,97 5 467 3 37
163 SpaceShuttle AD trio
elétrico
Atual Satisfatória Satisfeito 24,98 5 597 2 34
164 LuxuriousCar Ar e
direção
Ultra Insatisfatória Bastante
satisfeito
40,25 6 508 2 35
165 Chiconaultla Inexistentes Adiante Não causou
impressão
Muito
insatisfeito
7,1 1 468 2 19
166 Deltaforce3 Inexistentes Atual Não causou
impressão
Muito
insatisfeito
14,095 3 389 1 31
167 SpaceShuttle ADT freios
ABS
Ultra Bastante
satisfatória
Satisfeito 40,25 6 587 4 37
168 Chiconaultla Inexistentes Atual Insatisfatória Muito
insatisfeito
20,6 4 441 1 37
169 Deltaforce3 Ar e
direção
Atual Não causou
impressão
Insatisfeito 24,255 5 499 2 35
170 Valentiniana Ar e
direção
Atual Não causou
impressão
Insatisfeito 26,47 5 332 3 26
171 LuxuriousCar ADT freios
ABS
Ultra Bastante
satisfatória
Bastante
satisfeito
70,775 6 622 4 44
172 Deltaforce3 AD trio
elétrico
Atual Não causou
impressão
Insatisfeito 12,335 2 405 1 27
173 SpaceShuttle AD trio
elétrico
Atual Satisfatória Bastante
satisfeito
30,8 5 598 2 33
174 SpaceShuttle ADT freios
ABS
Ultra Bastante
satisfatória
Bastante
satisfeito
44,65 6 529 2 39
175 Valentiniana Inexistentes Atual Insatisfatória Satisfeito 28,34 5 597 2 32
176 Valentiniana Ar e
direção
Atual Satisfatória Muito
insatisfeito
25,57 5 705 1 43
177 Deltaforce3 Ar e
direção
Atual Insatisfatória Insatisfeito 12,96 3 543 2 29
178 Chiconaultla Inexistentes Atual Não causou Insatisfeito 12,69 3 478 3 39
impressão
179 Chiconaultla Inexistentes Atual Insatisfatória Muito
insatisfeito
13,9 3 443 1 31
180 LuxuriousCar ADT freios
ABS
Ultra Bastante
satisfatória
Bastante
satisfeito
62,09 6 633 2 38
181 SpaceShuttle ADT freios
ABS
Atual Não causou
impressão
Satisfeito 29,47 5 550 2 35
182 LuxuriousCar ADT freios
ABS
Ultra Bastante
satisfatória
Bastante
satisfeito
57,375 6 494 2 37
183 Valentiniana Ar e
direção
Atual Não causou
impressão
Bastante
satisfeito
18,04 4 554 1 27
184 Deltaforce3 Inexistentes Atual Não causou
impressão
Insatisfeito 17,015 3 505 2 39
185 Chiconaultla Ar e
direção
Adiante Insatisfatória Muito
insatisfeito
10,5 2 582 1 29
186 SpaceShuttle AD trio
elétrico
Atual Bastante
satisfatória
Satisfeito 46,625 6 680 2 41
187 LuxuriousCar ADT freios
ABS
Ultra Satisfatória Insatisfeito 53,63 6 608 3 45
188 Valentiniana Inexistentes Atual Insatisfatória Insatisfeito 14,29 3 516 2 45
189 SpaceShuttle Ar e
direção
Atual Não causou
impressão
Bastante
satisfeito
32 5 538 1 43
190 Chiconaultla Inexistentes Adiante Insatisfatória Muito
insatisfeito
13,055 3 460 2 24
191 Valentiniana Inexistentes Atual Satisfatória Insatisfeito 15,505 3 420 2 32
192 Valentiniana Ar e
direção
Atual Não causou
impressão
Insatisfeito 24,685 5 504 2 39
193 Deltaforce3 Inexistentes Atual Insatisfatória Muito
insatisfeito
16,035 3 430 2 40
194 SpaceShuttle Ar e
direção
Atual Bastante
satisfatória
Satisfeito 45,74 6 559 2 33
195 Valentiniana AD trio
elétrico
Atual Não causou
impressão
Insatisfeito 26,93 5 567 2 29
196 Deltaforce3 Ar e
direção
Atual Satisfatória Muito
insatisfeito
26,47 5 498 2 36
197 Deltaforce3 Inexistentes Atual Não causou
impressão
Insatisfeito 30,295 5 644 2 38
198 Valentiniana ADT freios
ABS
Atual Não causou
impressão
Insatisfeito 30,295 5 481 1 36
199 SpaceShuttle Inexistentes Ultra Bastante
satisfatória
Muito
insatisfeito
39,45 6 478 0 41
200 Deltaforce3 Inexistentes Atual Não causou
impressão
Muito
insatisfeito
12,69 3 478 2 33
201 Chiconaultla Inexistentes Adiante Muito Muito 7,275 1 334 2 18
insatisfatória insatisfeito
202 Chiconaultla Ar e
direção
Atual Insatisfatória Muito
insatisfeito
21,64 4 452 2 41
203 Deltaforce3 AD trio
elétrico
Ultra Insatisfatória Satisfeito 33,405 6 520 3 38
204 Chiconaultla Ar e
direção
Adiante Insatisfatória Insatisfeito 12,07 2 404 2 26
205 Valentiniana AD trio
elétrico
Ultra Insatisfatória Insatisfeito 32,17 6 523 1 37
206 Deltaforce3 Inexistentes Atual Muito
insatisfatória
Muito
insatisfeito
39,56 2 520 1 42
207 Valentiniana Ar e
direção
Adiante Não causou
impressão
Insatisfeito 26,93 5 445 1 39
208 SpaceShuttle Inexistentes Ultra Não causou
impressão
Bastante
satisfeito
35,59 6 653 2 43
209 Chiconaultla Inexistentes Adiante Muito
insatisfatória
Muito
insatisfeito
17,58 3 416 3 23
210 SpaceShuttle Inexistentes Atual Bastante
satisfatória
Muito
insatisfeito
26,32 5 487 2 48
211 Chiconaultla Ar e
direção
Atual Satisfatória Muito
insatisfeito
24,835 5 556 2 26
212 Valentiniana ADT freios
ABS
Atual Não causou
impressão
Insatisfeito 18,275 4 393 3 34
213 Deltaforce3 Inexistentes Atual Insatisfatória Insatisfeito 27,085 5 498 2 41
214 Deltaforce3 Inexistentes Adiante Não causou
impressão
Insatisfeito 22,715 4 548 3 24
215 SpaceShuttle Ar e
direção
Ultra Bastante
satisfatória
Muito
insatisfeito
32,52 6 497 3 41
216 Valentiniana Inexistentes Atual Satisfatória Insatisfeito 12,96 3 572 1 40
217 LuxuriousCar Ar e
direção
Atual Satisfatória Muito
insatisfeito
28,34 5 435 2 49
218 Chiconaultla Inexistentes Adiante Insatisfatória Muito
insatisfeito
9,965 2 466 2 41
219 Deltaforce3 AD trio
elétrico
Atual Satisfatória Insatisfeito 21,64 4 595 1 30
220 Chiconaultla Inexistentes Atual Insatisfatória Muito
insatisfeito
11,895 2 578 3 29
221 SpaceShuttle AD trio
elétrico
Atual Bastante
satisfatória
Satisfeito 41,685 6 614 3 32
222 Chiconaultla Inexistentes Atual Insatisfatória Muito
insatisfeito
16,575 3 394 1 44
223 LuxuriousCar Ar e
direção
Ultra Não causou
impressão
Bastante
satisfeito
51,225 6 600 3 50
224 Chiconaultla Inexistentes Adiante Muito Muito 8,81 2 484 2 27
insatisfatória insatisfeito
225 Valentiniana AD trio
elétrico
Atual Satisfatória Satisfeito 22,445 4 465 2 30
226 Deltaforce3 Inexistentes Atual Não causou
impressão
Satisfeito 19,97 4 426 2 50
227 Valentiniana Inexistentes Atual Satisfatória Muito
insatisfeito
30,97 5 598 2 46
228 LuxuriousCar AD trio
elétrico
Ultra Bastante
satisfatória
Bastante
satisfeito
53,145 6 594 3 40
229 Valentiniana Ar e
direção
Ultra Não causou
impressão
Satisfeito 47,3 6 658 2 35
230 LuxuriousCar Are
direção
Atual Satisfatória Insatisfeito 31,655 5 522 3 38
231 Deltaforce3 Inexistentes Adiante Insatisfatória Muito
insatisfeito
11,555 2 532 2 26
232 Valentiniana Inexistentes Atual Não causou
impressão
Insatisfeito 25,27 5 463 2 31
233 Valentiniana AD trio
elétrico
Atual Muito
insatisfatória
Muito
insatisfeito
14,89 3 616 2 34
234 LuxuriousCar AD trio
elétrico
Atual Bastante
satisfatória
Satisfeito 56,615 6 673 4 33
235 Deltaforce3 Ar e
direção
Atual Insatisfatória Muito
insatisfeito
18,51 4 541 2 41
236 Chiconaultla Inexistentes Adiante Não causou
impressão
Muito
insatisfeito
10,58 2 485 1 33
237 Valentiniana AD trio
elétrico
Atual Satisfatória Insatisfeito 26,32 5 614 2 33
238 Chiconaultla Inexistentes Atual Não causou
impressão
Insatisfeito 22,175 4 511 1 41
239 Deltaforce3 Ar e
direção
Atual Não causou
impressão
Insatisfeito 20,345 4 508 3 40
240 Deltaforce3 Inexistentes Atual Bastante
satisfatória
Muito
insatisfeito
19,595 4 286 2 40
241 Chiconaultla Ar e
direção
Atual Insatisfatória Muito
insatisfeito
14,29 3 430 2 33
242 SpaceShuttle ADT freios
ABS
Atual Satisfatória Satisfeito 35,78 6 519 1 40
243 Chiconaultla Inexistentes Atual Muito
insatisfatória
Muito
insatisfeito
9,89 2 441 2 24
244 Valentiniana AD trio
elétrico
Ultra Não causou
impressão
Satisfeito 39,85 6 516 2 31
245 Deltaforce3 AD trio
elétrico
Atual Não causou
impressão
Insatisfeito 12,87 3 589 2 31
246 SpaceShuttle ADT freios
ABS
Ultra Não causou
impressão
Bastante
satisfeito
55,86 6 617 2 41
Fonte:
247 Deltaforce3 Inexistentes Atual Não causou
impressão
Insatisfeito 30,465 5 520 2 33
248 Deltaforce3 Ar e
direção
Atual Insatisfatória Insatisfeito 12,155 2 558 2 20
249 Valentiniana ADT freios
ABS
Ultra Não causou
impressão
Satisfeito 27,865 5 554 2 43
250 SpaceShuttle Ar e
direção
Atual Não causou
impressão
Muito
insatisfeito
20,73 4 1.252 3 41
Reis (2012).
REFERÊNCIAS
AHRENS, D. M.; BIASI, M. S.; SOUZA, M. M. Correlação entre fator água/cimento e resistência do concreto. Trabalho da
Disciplina de Probabilidade e Estatística Aplicada à Engenharia. Rio Grande: Instituto de Matemática, Estatística e
Física/FURG, 2011. (Trabalho não publicado).
ALBUQUERQUE, F. W. R. C.; BRISTOT, A. Ensaio de compressão em blocos de calçamento. Trabalho da Disciplina de
Probabilidade e Estatística Aplicada à Engenharia. Rio Grande: Instituto de Matemática, Estatística e Física, 2012 (Trabalho
não publicado).
ALMEIDA, E. R.; MORITA, L. T. Teoria da correlação e regressão aplicadas a um circuito elétrico. Trabalho da Disciplina
de Probabilidade e Estatística Aplicada à Engenharia. Rio Grande: Instituto de Matemática, Estatística e Física, 2011 (Trabalho
não publicado).
ALMEIDA, Tabajara. Estatística Experimental – Notas de Aula. Instituto de Matemática, Estatística e Física (IMEF),
Universidade Federal do Rio Grande (FURG), Rio Grande – RS, 2004.
ALVES, H.; CUNHA, L. M. XII Software estatístico: uma introdução a alguns aplicativos, numa abordagem inicial dos dados.
Disponível em: <http://aleaestp.ine.pt/html/statofic/html/dossier/doc/Dossier12.PDF>. Acesso em: 10 fev. 2013.
AMERICAN SOCIETY FOR QUALITY CONTROL. Measurement system analysis. Reference manual. 3. ed. Troy:
Automotive Industries Action Group, 2010.
ARANGO, H. Bioestatística. Rio de Janeiro: Guanabara Koogan, 2001.
AURÉLIO. Dicionário Aurélio da língua portuguesa. 7. ed. Curitiba: Grupo Positivo, 2008.
AYRES M.; AYRES JUNIOR, M.; AYRES, D. L.; SANTOS, A. A. S. BioEstat: aplicações estatísticas nas áreas das ciências
bio-médicas, 2007. Disponível em: <http://euler.mat.ufrgs.br/~giacomo/Manuais-softw/BIOESTAT/Manual-BioEstat.pdf>.
Acesso em: 12 fev. 2013.
BAIER, T.; NEUWIRTH, E. Excel :: COM :: R. Computational statistics, v. 22, no 1, p. 91-108, 2007.
BARBETTA, P. A.; REIS, M. M.; BORNIA, A. C. Estatística para cursos de engenharia e informática. São Paulo: Atlas,
2010.
BARTLET, M. S.; KENDALL, D. G. The statistical analysis of variance-heterogeneity and the logarithmic transformation.
Journal of the Royal Statistics Society, Ser. B, 8, p.128-138, 2001.
BECKER, B. J. A look at the literature (and other resources) on teaching statistics. Journal of Educational and Behavioral
Statistics, v. 21, p. 71-90, 1996.
BLOG DO PLÁSTICO. Informação atualizada sobre a indústria de plásticos. Disponível em:
<http://blogdoplastico.Wordpress.com>. Acesso em: 2 set. 2012.
BORGES, C. C; MOTA, V. Análise estatística do fluxo de veículos. Trabalho da Disciplina de Probabilidade e Estatística
Aplicada à Engenharia. Rio Grande: Instituto de Matemática, Estatística e Física, 2011 (Trabalho não publicado).
BRASIL. Secretaria de Assuntos Estratégicos da Presidência da República. Comunicado IPEA, no 94, Brasília: IPEA, 2011. 32
p.
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva, 2002.
CASAGRANDE JÚNIOR, R. Avaliação da gestão dos perfis corporativos no twitter. Trabalho de Conclusão de Curso em
Engenharia da Computação. Rio Grande: Universidade Federal do Rio Grande, 2012. 50 p.
COEFICIENTE DE CORRELAÇÃO ρ DE SPEARMAN. Escola Superior de Tecnologia e Gestão de Viseu. Disponível em:
<www.estgv.ipv.pt>. Acesso em: 28 out. 2013.
CRESPO, A. A. Estatística fácil. 17. ed. São Paulo: Saraiva, 2002.
DALDON, L. R.; CONTE, R. L. Estatísticas do brasileirão. Trabalho da Disciplina de Probabilidade e Estatística Aplicada à
Engenharia. Rio Grande: Instituto de Matemática, Estatística e Física, 2011 (Trabalho não publicado).
DEXORE, J. L. Probabilidade e estatística para engenharia e ciências. 4. ed. São Paulo: Pioneira Thomson Learning, 2006.
DOANE, D. P.; Seward, L. E. Applied statistics in business and economics. Disponível em:
<http://highered.mcgrawhill.com/sites/0073137685/student_view0/ebook/­chapter1/chbody1/1_1_what_is_statistics_.html>.
Acesso em: 10 fev. 2012.
D’ORSI, N. R. Correlação entre pluviometria e escorregamento no trecho da Serra dos Órgãos da Rodovia Federal BR-116 RJ
(Rio-Teresópolis). 2011. 287 f. Tese (Doutorado em Engenharia Civil. Programa de Pós-Graduação em Engenharia Civil) –
COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro.
ENCE – Escola Nacional de Ciências Estatísticas. Disponível em: <http://www.ence.ibge.gov.br/web/ence/o-que-e-estatistica>.
Acesso em: 11 out. 2012.
ESTATÍSTICA UFRN. História da estatística no Brasil. Disponível em: <http://www.estatistica.ccet.ufrn.br/historia.php>.
Acesso em: 20 maio 2012.
FARIA, J. C.; JELIHOVSCHI, E. G.; ALLAMAN, I. B. (2016). fdth: Frequency Distribution Tables, Histograms and Polygons.
UESC, Bahia, Brasil.
FERNANDES, W. S. Método para estimação de quantis de enchentes extremas com emprego conjunto de análise bayesiana de
informações não sistemáticas de distribuições limitadas superiormente. 2009. 185 f. Tese (Doutorado em Saneamento, Meio
Ambiente e Recursos Hídricos. Programa de Pós-Graduação em Saneamento, Meio Ambiente e Recursos Hídricos) –
Universidade Federal de Minas Gerais, Belo Horizonte.
FERREIRA, M. J.; TAVARES, I. Notas sobre a história da estatística. Disponível em: <http://alea-
estp.ine.pt/html/statofic/html/dossier/doc/Dossier6.PDF>. Acesso em: 10 fev. 2013.
FOX, J. The R commander: a basic-statistics graphical user interface to R. Journal of Statistical Software, v. 14, no 9, p. 1-42,
2005.
FRANCO, B. P.; MAGISTRALLI, G. Erros de compilação. Trabalho da Disciplina de Probabilidade e Estatística Aplicada à
Engenharia. Rio Grande: Instituto de Matemática, Estatística e Física, 2011 (Trabalho não publicado).
GALTON F. Co-relations and their measurement, chiefly from anthropometric data (1888). Disponível em:
<http://www.mugu.com/galton/essays/1880-1889/galton-1888-co-relations-rsoc.pdf>. Acesso em: 8 jun. 2013.
_____. Correlations and their measurement, chiefly from antropometric data. Nature, p. 238, 3 Jan. 1889.
GELATTI, G. J.: LONGARAY, M. M. Análise de frequências usando o teste qui-quadrado. Trabalho da Disciplina de
Probabilidade e Estatística Aplicada à Engenharia. Rio Grande: Instituto de Matemática,Estatística e Física, 2011 (Trabalho
não publicado).
GOULD, R. Statistics and the modern student. International Statistical Review, v. 78, no 2, p. 297-315, 2010.
GUIA NET. Guia Internet Brazil. Disponível em: <http://www.guianet.com.br/>. Acesso em: 15 jun. 2012.
HERMANN, D. B.; OLIVEIRA, P. C. Fluxo de veículos que atravessam um semáforo. Trabalho da Disciplina de Probabilidade
e Estatística Aplicada à Engenharia. Rio Grande: Instituto de Matemática, Estatística e Física, 2011 (Trabalho não publicado).
IBGE. Informações sociais, demográficas e econômicas. Disponível em:
<http://www.ibge.gov.br/home/disseminacao/eventos/missao/informacoessociais.shtm>. Acesso em: 3 abr. 2013.
IGNÁCIO, S. A. Importância da estatística para o processo de conhecimento e tomada de decisão. Revista Paranaense de
Desenvolvimento, no 118, p. 175-192, 2010.
INPM – Instituto Nacional de Pesos e Medidas. Portaria 36 de 6 de julho de 1965.
INSTAT. Disponível em: <http://www.reading.ac.uk/ssc/n/n_instat.htm>. Acesso em: 10 fev. 2013.
INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA. Exame Nacional de
Desempenho de Estudantes. Prova sobre Formação geral. 2004. Disponível em:
<http://portal.inep.gov.br/web/guest/enade/provas-e-gabaritos-2004>. Acesso em: 25 maio 2012.
INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA. Exame Nacional de
Desempenho de Estudantes. Prova sobre Formação geral. 2005. Disponível em:
<http://portal.inep.gov.br/web/guest/enade/provas-e-gabaritos-2005>. Acesso em: 25 maio 2012.
_____. Exame Nacional de Desempenho de Estudantes. Prova sobre Formação geral. 2006. Disponível em:
<http://portal.inep.gov.br/web/guest/enade/provas-e-gabaritos-2006>. Acesso em: 25 maio 2012.
_____. Exame Nacional de Desempenho de Estudantes. Prova sobre Formação geral. 2007. Disponível em:
<http://portal.inep.gov.br/web/guest/enade/provas-e-gabaritos-2007>. Acesso em: 25 maio 2012.
_____. Exame Nacional de Desempenho de Estudantes. Prova sobre Formação geral. 2008. Disponível em:
<http://portal.inep.gov.br/web/guest/enade/provas-e-gabaritos-2008>. Acesso em: 25 maio 2012.
_____. Exame Nacional de Desempenho de Estudantes. Prova sobre Formação geral. 2009. Disponível em:
<http://portal.inep.gov.br/web/guest/enade/provas-e-gabaritos-2009>. Acesso em: 25 maio 2012.
_____. Exame Nacional de Desempenho de Estudantes. Prova sobre Formação geral. 2010. Disponível em:
<http://portal.inep.gov.br/web/guest/enade/provas-e-gabaritos-2010>. Acesso em: 25 maio 2012.
_____. Exame Nacional de Desempenho de Estudantes. Prova sobre Formação geral. 2011. Disponível em:
<http://portal.inep.gov.br/web/guest/enade/provas-e-gabaritos-2011>. Acesso em: 25 maio 2012.
_____. Exame Nacional de Desempenho de Estudantes. Prova sobre Formação geral. 2012. Disponível em:
<http://portal.inep.gov.br/web/guest/enade/provas-e-gabaritos-2012>. Acesso em: 30 jun. 2013.
INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS. Ministério de Ciência e Tecnologia. Previsão do tempo. Disponível
em: <http://tempo1.cptec.inpe.br/cidades/tempo/4397>. Acesso em: 31 maio 2012.
IPARDES. INSTITUTO PARANAENSE DE DESENVOLVIMENTO ECONÔMICO E SOCIAL. Gráficos/IPARDES.
Curitiba: Editora da UFPR, 2000a. 48 p. (Série Normas para Apresentação de Documentos Científicos, v. 10).
_____. Tabelas/IPARDES. Curitiba: Editora da UFPR, 2000b. 53 p. (Série Normas para Apresentação de Documentos
Científicos, v. 9).
KATAOKA, V. Y.; CAZORLA, I. M.; SILVA, C. B.; OLIVEIRA, M. S. O Uso do R no Ensino de Probabilidade na Educação
Básica: Animation e Teaching Demos. In: SIMPÓSIO NACIONAL DE PROBABILIDADE E ESTATÍSTICA, 18, 2008.
Estância de S. Pedro (SP). Anais... Estância de S. Pedro, 2008.
KAZMIER, L. J. Estatística aplicada à economia e administração. São Paulo: McGraw-Hill, 2004.
LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Campus, 2005. 476 p.
LIRA, S. A. Análise de correlação: abordagem teórica e de construção dos coeficientes com aplicações. 2004. 196 f.
Dissertação (Mestrado em Métodos Numéricos em Engenharia) – Pós-graduação em Métodos Numéricos em Engenharia dos
Setores de Ciências Exatas e de Tecnologia da Universidade Federal do Paraná, Curitiba.
MALTBY, J. Learning statistics by computer software is cheating. Journal of Computer Assisted Learning, v. 17, no 3, p. 329-
330, 2001.
MARTINS, Gilberto de Andrade. Estatística geral e aplicada. 3. ed. São Paulo: Atlas, 2008.
MATEMÁTICA DIDÁTICA. Média geométrica. Disponível em:
<http://www.matematicadidatica.com.br/MediaGeometria.aspx>. Acesso em: 11 maio 2013a.
_____. Média aritmética simples e ponderada. Disponível em:
<http://www.matematicadidatica.com.br/MediaAritmetica.aspx>. Acesso em: 11 maio 2013b.
_____. Média harmônica. Disponível em: <http://www.matematicadidatica.com.br/MediaHarmonica.aspx>. Acesso em: 11
maio 2013c.
MATTOS, V. L. D. Implantação de um controle estatístico de processo em uma olaria de pequeno porte. 1997. 187 f.
Dissertação (Mestrado em Engenharia de Produção) – Programa de Pós-Graduação em Engenharia de Produção, Universidade
Federal de Santa Catarina, Florianópolis.
MEYER, D.; DIMITRIADOU, E.; HORNIK, K.; WEINGESSEL, A.; LEISCH, F. (2015). e1071: Misc Functions of the
Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. R package version 1.6-7.
MEMÓRIA, J. M. P. Breve história da Estatística. Brasília: Embrapa, 2004.
MILONE, G. Estatística geral e aplicada. São Paulo: Pioneira Thomson Learning, 2004.
MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para engenheiros. 2. ed. Rio de Janeiro: LTC,
2008.
MUNDSTOCK, E. Introdução à análise estatística utilizando o SPSS 13.0. Cadernos de Matemática e Estatística. Universidade
Federal do Rio Grande do Sul. Série B, Trabalho de Apoio Didático, Número XX, Porto Alegre, maio 2006.
NASSAR, Silvia M.; WRONSCKI, Vilson R.; OHIRA, Masanao et al. SEstatNet – Sistema Especialista para o Ensino de
Estatística na Web. Disponível em: <http://www.sestat.net>. Florianópolis – SC, Brasil. Acesso em: 10 set. 2014.
PEDROSO, R. B.; LUCENA, R. L. Comparação entre os métodos clássico e instrumental de padronização de hidróxido de
sódio. Trabalho da disciplina de Probabilidade e Estatística Aplicada à Engenharia. Rio Grande: Instituto de Matemática,
Estatística e Física, 2012 (Trabalho não publicado).
PINHEIRO, J. M. S. A evolução das telecomunicações no Brasil, 2009. Disponível em: <www.projetoderedes.com.br/aulas/>.
Acesso em: 3 set. 2012.
POPIOLEK, P. F.; CARDOSO, W. Análise estatística de desempenho de algoritmos de ordenação. Trabalho da disciplina de
Probabilidade e Estatística Aplicada à Engenharia. FURG, 2011 (Trabalho não publicado).
PRECI, D. K.; PELISSARO, D. T.; FERLA, R. Análise de um banco de dados. Trabalho da Disciplina de Probabilidade e
Estatística Aplicada à Engenharia. Rio Grande: Instituto de Matemática, Estatística e Física, 2012 (Trabalho não publicado).
RAO, C. R. Statistics: a technology for the millenium. International Journal of Mathematical and Statistics Sciences, v. 8, no 1,
p. 5-25, 1999.
R CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna,
Austria, 2016. Disponível em: <https://www.R-project.org/>. Acesso em: 15 out. 2016.
REIS, M. M. Análise bidimensional. Disponível em: <http://www.inf.ufsc.br/~marcelo/INE7001.html>. Acesso em: 10 mar.
2013.
_____. Análise exploratória de dados utilizando o Br.Office Calc. 44 p. Disponível em:
<http://www.inf.ufsc.br/~marcelo/AEDCalc.pdf>. Acesso em: 10 nov. 2012.
REIS, M. M.; LINO, M de O. Estatística para administradores I: notas de aula. Introdução e análise exploratória de dados. 47
p. Disponível em: <http://www.inf.ufsc.br/~marcelo/Caps1_e_2.pdf>. Acesso em: 2 mar. 2013.
REVELLE, W. (2016) psych: Procedures for Personality and Psychological Research, Northwestern University, Evanston,
Illinois, USA. Version = 1.6.9.
RIBEIRO, J. L.; CATEN, C. T. Estatística industrial. Série Monográfica Qualidade. Universidade Federaldo Rio Grande do
Sul. Porto Alegre, 2000.
RSTUDIO. Disponível em: <http://rstudio.org>. Acesso em: 10 maio 2013.
SAE. Secretaria de Assuntos Estratégicos da Presidência da República. Brasil. A mobilidade urbana no Brasil. Comunicado
IPEA, no 94. Brasília: IPEA, 2011. p. 32. Disponível em: <http://www.ipea.gov.br/portal/>. Acesso em: 13 ago. 2011.
SANTOS, J. V.; WIECZORECK, I. A. Análise do desempenho de processadores. Trabalho da disciplina de Probabilidade e
Estatística Aplicada à Engenharia. Rio Grande: Instituto de Matemática, Estatística e Física, 2011 (Trabalho não publicado).
SANTOS, S. F. M.; SOUZA, R. L. A.; ALCÂNTARA, S. R.; PINTO, G. A. S.; SILVA, F. L. H.; MACEDO, G. R. Aplicação
da Metodologia de Superfície de Resposta no Estudo da Produção de Pectinase por Fermentação em Estado Sólido do
Pedúnculo do Caju. Revista Brasileira de Produtos Agroindustriais, v. 10, no 2, p. 101-109, 2008.
SCHULTZ, D. P.; SCHULTZ, S. E. História da psicologia moderna. 16. ed. São Paulo: Cultrix, 1992.
SCHUYTEN, G.; THAS, O. Statistical Thinking in Computer-Based Learning Environments. International Statistical Review,
v. 75, no 3, p. 365-371, 2007.
SIEGEL, S.; CASTELLAN, N. J. Estatística não paramétrica para ciências do comportamento. 2. ed. Porto Alegre: Artmed,
2006.
SILVA, E. M. et al. Estatística para os cursos de: Economia, Administração e Ciências Contábeis. 2. ed. São Paulo: Atlas,
2010.
SILVA, R. J.; MORABITO, R. Otimização da programação de cargas de forno em uma fábrica de fundição em aço-inox.
Gestão & Produção, v. 11, no 1, p. 135-151, 2004.
SILVEIRA J. P.; MACHADO, A. A.; ZONTA, E. P.; SILVA, J. B. Curso de estatística. Universidade Federal de Pelotas:
Universitária, 1989. v. 1.
SOARES, V. S.; MEREGALLI, G. S. Análise estatística prática. Trabalho da Disciplina de Probabilidade e Estatística
Aplicada à Engenharia. Rio Grande: Instituto de Matemática, Estatística e Física, 2011 (Trabalho não publicado).
SPIEGEL, M. R. Estatística. Col. Schaum. 4. ed. Porto Alegre: Bookman, 2009.
SPSS. Disponível em: <http://www-142.ibm.com/software/products/br/pt/spss-stats-base/>. Acesso em: 5 fev. 2013.
STATSOFT. Disponível em: <http://www.statsoft.com/support/download/statistica-software-updates/>. Acesso em: 10 fev.
2013.
TOLEDO, G. L.; OVALLE, I. I. Estatística básica. 2. ed. São Paulo: Atlas, 1995.
TROIAN, S. P.; MACHADO JÚNIOR, I. P.; THIBES, R. R. Análise da resistência de concretos. Trabalho da Disciplina de
Probabilidade e Estatística Aplicada à Engenharia. Rio Grande: Instituto de Matemática, Estatística e Física, 2012 (Trabalho
não publicado).
UNIVERSIDADE FEDERAL FLUMINENSE. Disponível em: <http://www.uff.br/sites/default/files/images/uff-organograma-
geral-1.jpg>. Acesso em: 3 set. 2012.
VERZANI, J. Using R in Introductory Statistics Courses with the pmg Graphical User Interface. Journal of Statistics
Education, v. 16, no 1, p. 1-17, 2008.
VIM. Vocabulário internacional de termos fundamentais e gerais de metrologia: portaria INMETRO no 29 de
1995/INMETRO, SENAI – Departamento Nacional. 5. ed. Rio de Janeiro: SENAI, 2012.
	1
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	2
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	3
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	4
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	5
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	6
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	7
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	chapter01
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	chapter02
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	chapter03
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	chapter04
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	chapter05
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	chapter06
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	chapter07
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	chapter08
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	chapter09
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	z1
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	z2
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	z3
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	z4
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas
	z5
	Disco local
	Introdução à Estatística: Aplicações em Ciências Exatas

Mais conteúdos dessa disciplina