Prévia do material em texto
Fundação Biblioteca Nacional
ISBN 978-85-387-6699-5
9 7 8 8 5 3 8 7 6 6 9 9 5
Código Logístico
59631
Estatística e
probabilidade:
conceitos e aplicações
Luiz Roberto Dias de Macedo
IESDE BRASIL
2021
© 2021 – IESDE BRASIL S/A.
É proibida a reprodução, mesmo parcial, por qualquer processo, sem autorização por escrito do autor e do detentor dos
direitos autorais.
Projeto de capa: IESDE BRASIL S/A. Imagem da capa: ONYXprj/ Rodin Anton/ Beautifiers/ Shutterstock
Todos os direitos reservados.
IESDE BRASIL S/A.
Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200
Batel – Curitiba – PR
0800 708 88 88 – www.iesde.com.br
CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
M122e
Macedo, Luiz Roberto Dias de
Estatística e probabilidade : conceitos e aplicações / Luiz Roberto
Dias de Macedo. - 1. ed. - Curitiba [PR] : IESDE, 2020.
318 p. : il.
Inclui bibliografia
ISBN 978-85-387-6699-5
1. Estatística. 2. Probabilidade. I. Título.
20-66354 CDD: 519.5
CDU: 519.2
Luiz Roberto Dias
de Macedo
Mestre em Educação pela Pontifícia Universidade
Católica do Paraná (PUCPR). Especialista em Magistério
da Educação Básica pelo Instituto Brasileiro de
Pós-graduação e Extensão (Ibpex). Graduado em
Matemática pela Universidade Federal do Paraná (UFPR).
Professor dos ensinos básico e superior nas modalidades
de ensino presencial e a distância. Autor de obras nas
áreas de matemática aplicada e matemática financeira.
SUMÁRIO
Agora é possível acessar os vídeos do livro por
meio de QR codes (códigos de barras) presentes
no início de cada seção de capítulo.
Acesse os vídeos automaticamente, direcionando
a câmera fotográ�ca de seu smartphone ou tablet
para o QR code.
Em alguns dispositivos é necessário ter instalado
um leitor de QR code, que pode ser adquirido
gratuitamente em lojas de aplicativos.
Vídeos
em QR code!
SUMÁRIO
Agora é possível acessar os vídeos do livro por
meio de QR codes (códigos de barras) presentes
no início de cada seção de capítulo.
Acesse os vídeos automaticamente, direcionando
a câmera fotográ�ca de seu smartphone ou tablet
para o QR code.
Em alguns dispositivos é necessário ter instalado
um leitor de QR code, que pode ser adquirido
gratuitamente em lojas de aplicativos.
Vídeos
em QR code!
1 Introdução ao estudo da Estatística 9
1.1 Crescimento da Estatística moderna 9
1.2 O estudo da Estatística 15
1.3 Natureza dos dados estatísticos 16
1.4 População e amostra 19
1.5 Processos de amostragem 20
1.6 Fases do método estatístico 24
1.3 Natureza dos dados estatísticos 16
1.4 População e amostra 19
1.5 Processos de amostragem 20
1.6 Fases do método estatístico 24
1.7 Somatórios e produtórios 26
2 Distribuições de frequência 32
2.1 Tabulação dos dados 32
2.2 Séries estatísticas 36
2.3 Distribuições de frequência de dados qualitativos 41
2.4 Distribuições de frequência de dados quantitativos 43
2.5 Representação gráfica 48
2.6 Regras para execução de um gráfico 48
2.7 Tipos de representações gráficas 49
2.8 Histogramas 56
3 Medidas de tendência central e separatrizes 61
3.1 Medidas de posição 61
3.2 Medidas de ordenação ou separatrizes 86
3.3 Amplitude semi-interquartílica 96
3.4 Desvio médio 97
4 Medidas de dispersão ou de variabilidade 103
4.1 Medidas de dispersão ou de variabilidade 103
4.2 Medidas de assimetria 119
4.3 Medida de curtose 121
5 Introdução ao cálculo de probabilidades 129
5.1 Princípio fundamental da contagem 129
5.2 Experimento aleatório, espaço amostral e evento 131
5.3 Probabilidade: escolas, definições e conceito estatístico 137
5.4 Princípios básicos e teoremas de probabilidades 144
5.5 Probabilidade condicional: conceito e operações 149
6 Distribuições de probabilidades de variáveis aleatórias discretas 157
6.1 Variável aleatória e variável aleatória discreta 157
6.2 Função de probabilidade 158
6.3 Função de distribuição de probabilidade acumulada 161
6.4 Média, variância e desvio padrão de uma variável aleatória discreta 162
6.5 Distribuições discretas de probabilidade 166
7 Distribuições de probabilidades de variáveis aleatórias contínuas 178
7.1 Variável aleatória contínua 178
7.2 Função de densidade de probabilidade 179
7.3 Distribuições contínuas de probabilidade 185
8 Distribuições amostrais 208
8.1 Principais conceitos 208
8.2 Teorema do limite central e lei dos grandes números 209
8.3 Distribuição amostral das médias 210
8.4 Distribuição amostral das proporções 218
9 Inferência estatística 226
9.1 Inferência 226
9.2 Intervalo de confiança com variância conhecida 230
9.3 Intervalo de confiança com variância desconhecida 232
9.4 Teste de hipóteses 238
10 Correlação e regressão linear simples 250
10.1 Conceitos de correlação e regressão 250
10.2 Coeficiente de correlação de Pearson 251
10.3 Coeficiente de determinação 256
10.4 Regressão: conceito e modelos 261
10.5 Análise da regressão 263
Gabarito 273
APRESENTAÇÃO
Vídeo
É muito comum vermos notícias de várias áreas a respeito de previsões para
o que acontecerá em alguns meses ou até anos. Com base nisso, podemos
nos perguntar: como esses profissionais fazem essas análises? Com certeza,
eles são auxiliados por dados, os quais apresentam uma mínima chance de
apresentarem erros, utilizando a ciência Estatística.
Trata-se de uma área muito importante e também muito vasta. Nesta
obra, abordaremos apenas uma parte dela, não menos importante, mas sim
introdutória. Também nos dedicaremos à Estatística descritiva, à Estatística
das probabilidades e à Estatística inferencial, porém não serão abordadas
todas as possibilidades que essa ciência proporciona.
Iniciaremos nosso estudo abordando o crescimento da Estatística, as
definições e a discriminação de seus termos básicos e mais utilizados, tais
como população e amostra, bem como os diversos tipos de amostragem e
séries estatísticas, como são obtidos e o que representam. Veremos o que
são dados estatísticos, sua natureza, os tipos e as classificação das variáveis
estudadas e as diversas fases do método estatístico que devemos cumprir
para termos confiabilidade nos cálculos a serem realizados.
Passaremos ao estudo mais aprofundado dos dados estatísticos,
definindo as frequências simples e acumuladas e seus formatos relativos.
Em seguida, discutiremos as distribuições de frequências tanto de dados
qualitativos quanto quantitativos e suas representações tabulares e gráficas.
Na sequência, entenderemos como resumir os dados de uma pesquisa,
ou seja, como trabalhar com as denominadas medidas de tendência central,
principalmente a média aritmética, seja a simples ou a ponderada.
Daremos seguimento ao estudo das medidas de dispersão, das
absolutas – amplitude total, variância e desvio padrão – e das relativas,
focando o coeficiente de variação. Após, verificaremos o que são as medidas
de assimetria e de curtose, explanando como calculá-las.
Continuaremos nosso estudo com a teoria das probabilidades com o
princípio fundamental da contagem, diferenciando espaço amostral de
evento e entendendo os diversos tipos deste último. Apresentaremos as
definições de probabilidade e como realizar o cálculo dela, finalizando com
os teoremas das probabilidades.
Também definiremos variável aleatória e variável aleatória discreta,
aprendendo a determinar a média, a variância e o desvio padrão deste
último tipo de variável, passando ao estudo das funções de distribuição de
probabilidade. Adentraremos no estudo das distribuições discretas
de probabilidade, nos atendo às distribuições binomial e de Poisson.
Prosseguiremos com o estudo das variáveis aleatórias contínuas,
mostrando o que é uma função de densidade de probabilidade e como
obter um percentual – uma probabilidade – situado entre dois limites de
interesse.
Explanaremos os modelos probabilísticos contínuos, realizando uma análise das
distribuições de probabilidadeuniforme, exponencial, normal e t de Student. Ainda
diferenciaremos estatísticas (estimadores) de parâmetros (estimativas), dando sequência
ao estudo do teorema do limite central e da lei dos grandes números. Isso nos possibilitará
realizar o estudo das distribuições amostrais das médias para populações finitas e infinitas,
assim como a distribuição amostral das proporções.
Avançaremos nosso estudo para as inferências estatísticas – a estatística indutiva –,
mostrando como obter uma estimativa pontual e um intervalo de confiança – este último
para a média populacional quando a variância for conhecida ou desconhecida. Definiremos
grau de confiança, nível de significância e valor máximo do erro amostral, visando determinar
um intervalo de confiança.
Consequentemente, passaremos aos testes de hipóteses e de significância, que objetivam
verificar a veracidade de um intervalo de confiança já determinado. Entenderemos a diferença
entre hipótese nula e alternativa, regiões de aceitação e de rejeição e os tipos de erros que
podem ser cometidos.
Culminaremos nosso estudo na correlação e na regressão, nos dedicando apenas à
linear simples. Especificaremos o coeficiente de correlação de Pearson e o coeficiente
de determinação e veremos qual é a diferença entre um modelo matemático e um
modelo estatístico. Realizaremos a análise da regressão linear simples, entendendo como
determinar uma linha de previsão, ou seja, uma equação de uma reta de regressão linear
simples. É importante ressaltarmos que existem outros tipos de regressão, mas que não
serão abordados nesta obra.
Esperamos que aproveite e contemple o conteúdo deste livro e desenvolva as
habilidades para responder ao questionamento feito no início e, desse modo, tomar boas
decisões.
Bons estudos!
Introdução ao estudo da Estatística 9
1
Introdução ao estudo
da Estatística
É muito comum nos depararmos com informações que envolvem da-
dos numéricos em revistas, jornais, panfletos, informativos e propagan-
das. Os dados numéricos podem, e são, muitas vezes colocados em forma
gráfica, e precisamos saber como interpretá-los, o que, convenhamos,
nem sempre é uma tarefa fácil.
Devemos estar cientes de que, em diversos momentos, somos apenas
consumidores das informações disponíveis, mas, em outros, somos pro-
dutores delas. Seja em uma situação ou em outra, temos que estar aptos
para compreendê-las ou para produzi-las. Conhecimentos de diversas
áreas são fundamentais para realizarmos essas tarefas, e há duas que
merecem destaque: a Matemática e a Estatística.
A partir de agora, vamos nos dedicar ao estudo da Estatística. Devemos
entender como foi o seu desenvolvimento ao longo do tempo, até atingir-
mos o estágio no qual ela se encontra atualmente.
1.1 Crescimento da Estatística moderna
Vídeo Como qualquer ciência, a Estatística foi se desenvolvendo e se aprimorando ao
longo do tempo. É natural e bastante comum iniciarmos seu estudo verificando a
etimologia das palavras e dos termos que a originaram. É dessa maneira que come-
çaremos o nosso estudo.
O vocábulo estatística é originário da “expressão latina status, que significa
Estado, podendo assumir diferentes significações, dependendo de como é utiliza-
do. Objeto de longas polêmicas, o termo estatística até hoje é controvertido. Exis-
tem dúvidas se ele deriva de fato de Estado, entidade política, ou de estado, modo
de ser” (BRUNI, 2011, p. 2, grifos do original).
O levantamento de dados e informações feito por um Estado era referen-
te basicamente à sua população. Esses elementos eram coletados para diversos
fins, como a quantidade de homens com idade para compor o exército. Também
podiam se referir “às transações comerciais internas ou com outros Estados, ao
controle da mortalidade em geral ou provocada por uma epidemia, endemia ou
doença particular e aos problemas de taxação e de proporcionalidade de tarifas e
impostos” (BRUNI, 2011, p. 2).
10 Estatística e probabilidade: conceitos e aplicações
Não sabemos ao certo quando se deu o primeiro uso da palavra estatística.
Alguns autores afirmam que a primeira ocorrência foi em um trabalho do histo-
riador italiano Girolamo Ghilini, em que aparecia a expressão statista. Outros de-
fendem que foi utilizada primeiramente pelo alemão Gottfried Achenwall, o qual
empregou o termo statistik, que originalmente designava a análise de dados sobre
o Estado (nação), significando a ciência do Estado, chamada de aritmética política
(political arithmetic, em inglês).
Segundo Ostasiewicz (2014), professor do Departamento de Estatística da
Wroclaw University of Economics and Business (WCU), em Breslávia, Polônia, o es-
tatístico italiano Giuseppe Leti escreveu que Ghilini usou a palavra estatísticas em
1589 como adjetivo no título de seu livro – Ristretto della civile, politica, statistics
and militare scienza (Restrições das ciências civis, políticas, estatísticas e militares, em
tradução livre). Essa afirmação foi, e ainda é, repetida por muitos autores de li-
vros de Estatística, incluindo o próprio Ostasiewicz. No entanto, como isso pode ser
possível se Ghilini nasceu em 1589?
As pesquisas de Ostasiewicz – as quais objetivavam encontrar os escritos de
Ghilini – não obtiveram êxito. Entretanto, o autor achou uma fonte confiável:
o livro de Giuseppe Ferrario, publicado em 1839. Em sua primeira página, o
texto mencionava o seguinte: foi Girolamo Ghilini, um cânone em St. Ambrosio,
Milão, que usou a palavra statistica no primeiro volume de sua obra intitulada
Teatro degli Uomini Letterati, publicada em 1633; nas páginas 235 e 362 Ghilini
usou com muito cuidado as expressões Statistical (Estatística) e Statistical Science
(Ciência Estatística).
Ostasiewicz (2014) ainda cita que em outro livro de Ferrario, Statistica Medica
di Milano, publicado em 1640, é descrito que a palavra italiana Statistica havia sido
publicada pelo menos 116 anos antes de 1749, quando foi utilizada pelo professor
alemão Gottfried Achenwall, ao qual muitos escritores modernos atribuem a inven-
ção do termo.
Segundo o estudioso, não resta a menor dúvida de que a palavra deriva etimolo-
gicamente do latim status ratio (sistema de Estado) ou da expressão italiana ragione
di stato (razão de Estado), utilizada pela primeira vez no livro de Giovanni Botero,
Della ragione di stato, publicado em Veneza em 1589.
Outra curiosidade é que a palavra statistcs foi citada na obra Hamlet, de William
Shakespeare, no ato 5, cena 2, quando o personagem homônimo diz:
Being thus be-netted round with villanies, ere I could make a prologue to my
brains, they had begun the play. I sat me down, devised a new commission, wrote
it fair. I once did hold it, as our statistcs do, a baseness to write fair and labour’d
much how to forget that learning, but, sir, now it did me yeoman’s service. Wilt
thou know the effect of what I wrote?. (SHAKESPEARE, 2020, grifo nosso) 1
Podemos observar que, nessa situação, a palavra statistcs tinha o significado de
estadistas.
Outros nomes, obras e teorias importantes ligados a essa ciência são:
• Blaise Pascal e Pierre de Fermat: teoria das probabilidades (1654);
• Abraham De Moivre: distribuição normal (1733);
Cuja tradução livre é:
Estando assim todo enredado
com vilanias, antes que pudesse
fazer um prólogo a meu cérebro,
eles haviam iniciado a peça. Eu
me sentei, elaborei uma nova
comissão, escrevi-a com elegância.
Eu uma vez já considerei, como
o fazem nossos estadistas, uma
baixeza escrever com elegância, e
muito me esforcei para esquecer
tal aprendizado, mas, senhor,
agora isso me fez um bom serviço.
Ouvirás tu o teor do que escrevi?
1
Introdução ao estudo da Estatística 11
• Gauss e Laplace: redescoberta da distribuição normal (1812);
• Francis Bisset Hawkins: autor do primeiro livro de estatística Elements of
Medical Statisticas (1829) 2 ;
• Andrei Nicolaievitch Kolmogorov: estudo das probabilidades e dos
axiomas (1929);
• Austin Bradford Hill: autordo livro Principles of Medical Statistics (1937) 3 .
Outro dado importante foi a fundação da Royal Statistical Society em 1834, se-
diada em Londres, Inglaterra, que funciona até hoje.
Em 1833, a Associação Britânica para o Avanço da Ciência (O BA), uma so-
ciedade com o objetivo de promover as ciências, criou o seu departamento de
estatística após uma apresentação do estatístico belga Adolphe Quételet. O au-
tor “realizou um cuidadoso estudo estatístico dos fatos demográficos e sociais,
imprimindo um tratamento dominantemente matemático” (BRUNI, 2011, p. 3).
Quételet tinha como objetivos o recolhimento e a classificação de todos os fatos
que ilustravam os acontecimentos da sociedade à época, com o intuito de faci-
litar e promover as ciências.
A palavra estatística adquiriu o significado de coleta e classificação de dados
em geral por intermédio de Sir John Sinclair, membro do Parlamento inglês, que
buscava informações sobre as atividades econômicas e sociais e os recursos
naturais da Escócia. Sob seu comando, foram escritos os vinte e um volumes da
enciclopédia denominada The Statistical Accounts of Scotland 4 . Para isso, Sinclair
enviou emissários a 938 paróquias da Escócia com um questionário compos-
to de 171 perguntas, objetivando realizar o levantamento de dados. Ele estava
convicto de que, após a realização das pesquisas e o registro das respostas,
conseguiria um relato do quantum de felicidade das comunidades da região
e que também seria um meio de melhorias futuras em diversos aspectos. Os
questionamentos envolviam tópicos como agricultura, antiguidades, produção
industrial, população e história natural. Após a compilação dos dados obtidos,
os vinte e um volumes da enciclopédia ficaram completos em 1799.
Com base nessa ideia, a coleta de informações sobre estados e localida-
des continua e, em grande parte, passou a ser realizada por órgãos estatísti-
cos nacionais e internacionais, recebendo a denominação de censo. Os censos
fornecem informações regulares das populações e abrangem dados sobre
nascimentos, mortes (tabelas de mortalidade), tamanho da população, ren-
das de profissionais, taxas de desemprego, índices de inflação, entre outros.
De acordo com Bruni (2011, p. 2, grifos do original), há indícios de censos
“muito antigos, realizados por volta de 3000 a.C., na Babilônia, China e Egito.
A Bíblia ilustra esta constatação histórica. O Livro Quarto (Números) do Velho
Testamento começa com uma instrução a Moisés: fazer um levantamento dos
homens de Israel que estavam aptos para guerrear”.
Os censos foram e ainda são utilizados por diversos setores da sociedade civil
para que seja possível tomar decisões que afetam os níveis de produção, taxa-
ção de impostos, contratação de empregados, subsídios, expansão para novos
mercados etc. Conforme informações disponibilizadas pelo Instituto Brasileiro
Disponível em: http://www.
jameslindlibrary.org/hawkins-
fb-1829/. Acesso em: 3 set. 2020.
2
Disponível em: https://www.
jameslindlibrary.org/hill-ab-
1937b/. Acesso em: 3 set. 2020.
3
A Royal Statistical Society é uma
das mais ilustres e renomadas
sociedades voltadas aos estudos
de estatística do mundo, além de
ser uma instituição de caridade
que trabalha para promover essa
ciência.
Saiba mais
Disponível em: https://stataccscot.
edina.ac.uk/static/statacc/dist/
support/introduction. Acesso em:
3 set. 2020.
4
quantum: quantidade determi-
nada; proporção de uma grandeza
em uma divisão, um conjunto.
Glossário
http://www.jameslindlibrary.org/hawkins-fb-1829/
http://www.jameslindlibrary.org/hawkins-fb-1829/
http://www.jameslindlibrary.org/hawkins-fb-1829/
https://www.jameslindlibrary.org/hill-ab-1937b/
https://www.jameslindlibrary.org/hill-ab-1937b/
https://www.jameslindlibrary.org/hill-ab-1937b/
https://stataccscot.edina.ac.uk/static/statacc/dist/support/introduction
https://stataccscot.edina.ac.uk/static/statacc/dist/support/introduction
https://stataccscot.edina.ac.uk/static/statacc/dist/support/introduction
12 Estatística e probabilidade: conceitos e aplicações
de Geografia e Estatística (IBGE, 2020), o primeiro recenseamento populacional
foi realizado no Brasil em 1808, com vistas ao recrutamento de soldados para
as Forças Armadas. Entretanto, os resultados não foram os previstos, pois os
entrevistados não forneciam informações fidedignas com medo de como elas
seriam utilizadas.
Posteriormente, segundo esse mesmo instituto (IBGE, 2020), em 1872 foi
realizado o Censo Geral do Império, considerado o primeiro censo realizado no
Brasil, tendo sido conduzido pela Diretoria-Geral de Estatística.
Já em 1938, ainda de acordo com o IBGE (2020), houve uma reestruturação
dos serviços ligados à Estatística no Brasil, fazendo com que o Conselho Nacional
de Estatística (CNE) e o Conselho Nacional de Geografia (CNG) passassem a tra-
balhar em conjunto e integrassem o Instituto por força do Decreto-Lei n. 218,
de 26 de janeiro de 1938. Após essa reestruturação, em 1940 o IBGE realizou o
V Recenseamento Geral do Brasil.
Com o passar dos anos, houve alterações e aprimoramentos nos procedi-
mentos técnicos, tecnológicos e operacionais, principalmente os ligados aos
procedimentos das pesquisas e apurações dos dados coletados, fazendo com
que as estatísticas tivessem um grande salto de qualidade. Entre essas mudan-
ças, podemos citar duas primordiais: a instituição de parcerias que têm por fi-
nalidade a integração do IBGE com as diversas comunidades locais e a utilização
de tecnologias digitais com vistas a aprimorar a disseminação das informações
a quem se dispuser a vê-las.
Ao longo de nosso estudo, vamos mostrar que a necessidade de estudar
Estatística tem crescido substancialmente nos últimos anos, pois as áreas de
abrangência dessa ciência têm se tornado cada vez mais amplas. Dependendo
dos estudos que forem realizados, podemos obter resultados importantíssimos
que influenciarão nossas vidas e a maneira como nos comportarmos. Devemos
lembrar que tais estudos incluem o uso e o domínio de técnicas matemáticas
aplicadas a algumas áreas, como:
Cube29/Shutterstock
Ji
rk
a_
To
m
ek
/S
hu
tte
rs
to
ck
Avaliação de controles de poluição
Mart
ial Red/Shutterstock
Ji
rk
a_
To
m
ek
/S
hu
tte
rs
to
ck
Planejamento de inventários
Sugerimos que acesse
a página da Estat
Consultoria – empresa
júnior de consultoria em
Estatística, fundada em
1995 por iniciativa dos
alunos do curso de bacha-
relado em Estatística da
Universidade de Brasília – e
leia o artigo A importância
da estatística em diferentes
campos.
Disponível em: https://www.
estatconsultoria.org/blog/7/A%20
Import%C3%A2ncia%20da%20
Estat%C3%ADstica. Acesso em: 3
set. 2020.
Leitura
https://www.estatconsultoria.org/blog/7/A%20Import%C3%A2ncia%20da%20Estat%C3%ADstica
https://www.estatconsultoria.org/blog/7/A%20Import%C3%A2ncia%20da%20Estat%C3%ADstica
https://www.estatconsultoria.org/blog/7/A%20Import%C3%A2ncia%20da%20Estat%C3%ADstica
https://www.estatconsultoria.org/blog/7/A%20Import%C3%A2ncia%20da%20Estat%C3%ADstica
Introdução ao estudo da Estatística 13
de Geografia e Estatística (IBGE, 2020), o primeiro recenseamento populacional
foi realizado no Brasil em 1808, com vistas ao recrutamento de soldados para
as Forças Armadas. Entretanto, os resultados não foram os previstos, pois os
entrevistados não forneciam informações fidedignas com medo de como elas
seriam utilizadas.
Posteriormente, segundo esse mesmo instituto (IBGE, 2020), em 1872 foi
realizado o Censo Geral do Império, considerado o primeiro censo realizado no
Brasil, tendo sido conduzido pela Diretoria-Geral de Estatística.
Já em 1938, ainda de acordo com o IBGE (2020), houve uma reestruturação
dos serviços ligados à Estatística no Brasil, fazendo com que o Conselho Nacional
de Estatística (CNE) e o Conselho Nacional de Geografia (CNG) passassem a tra-
balhar em conjunto e integrassem o Instituto por força do Decreto-Lei n. 218,
de 26 de janeiro de 1938. Após essa reestruturação, em 1940o IBGE realizou o
V Recenseamento Geral do Brasil.
Com o passar dos anos, houve alterações e aprimoramentos nos procedi-
mentos técnicos, tecnológicos e operacionais, principalmente os ligados aos
procedimentos das pesquisas e apurações dos dados coletados, fazendo com
que as estatísticas tivessem um grande salto de qualidade. Entre essas mudan-
ças, podemos citar duas primordiais: a instituição de parcerias que têm por fi-
nalidade a integração do IBGE com as diversas comunidades locais e a utilização
de tecnologias digitais com vistas a aprimorar a disseminação das informações
a quem se dispuser a vê-las.
Ao longo de nosso estudo, vamos mostrar que a necessidade de estudar
Estatística tem crescido substancialmente nos últimos anos, pois as áreas de
abrangência dessa ciência têm se tornado cada vez mais amplas. Dependendo
dos estudos que forem realizados, podemos obter resultados importantíssimos
que influenciarão nossas vidas e a maneira como nos comportarmos. Devemos
lembrar que tais estudos incluem o uso e o domínio de técnicas matemáticas
aplicadas a algumas áreas, como:
Cube29/Shutterstock
Ji
rk
a_
To
m
ek
/S
hu
tte
rs
to
ck
Avaliação de controles de poluição
Mart
ial Red/Shutterstock
Ji
rk
a_
To
m
ek
/S
hu
tte
rs
to
ck
Planejamento de inventários
Sugerimos que acesse
a página da Estat
Consultoria – empresa
júnior de consultoria em
Estatística, fundada em
1995 por iniciativa dos
alunos do curso de bacha-
relado em Estatística da
Universidade de Brasília – e
leia o artigo A importância
da estatística em diferentes
campos.
Disponível em: https://www.
estatconsultoria.org/blog/7/A%20
Import%C3%A2ncia%20da%20
Estat%C3%ADstica. Acesso em: 3
set. 2020.
Leitura
VoodooDot/Shutterstock
Ji
rk
a_
To
m
ek
/S
hu
tte
rs
to
ck
Análise de padrões do trânsito de
veículos
da
vooda/Shutterstock
Ji
rk
a_
To
m
ek
/S
hu
tte
rs
to
ck
Estudo dos efeitos de vários tipos
de medicamentos
VikiV
ector/Shutterstock
Ji
rk
a_
To
m
ek
/S
hu
tte
rs
to
ck
Avaliação de técnicas de ensino
Cube29/Shutterstock
Ji
rk
a_
To
m
ek
/S
hu
tte
rs
to
ck
Análise do comportamento competitivo
de administradores e governos
Ske
llen/Shutterstock
Ji
rk
a_
To
m
ek
/S
hu
tte
rs
to
ck
Estudo da dieta e da longevidade
Outros aspectos que devemos estar cientes são os avanços nas áreas
tecnológicas, com a construção de computadores mais potentes e de progra-
mas estatísticos mais abrangentes, bem como a nossa capacidade de lidar
com informações numéricas e processá-las, o que proporciona trabalhos es-
tatísticos mais sofisticados, gerando melhores resultados. Esses podem ser
realizados e utilizados por qualquer tipo de empresa – pequenas, médias ou
grandes – e até mesmo por qualquer pessoa que se interesse e queira realizar
uma pesquisa. Nesse aspecto, Martins e Domingues (2014, p. 3, grifos do ori-
ginal) afirmam que “durante os últimos 20 anos, o campo da estatística sofreu
extraordinária mudança pelo desenvolvimento de softwares especialmente
construídos para análises estatísticas”.
https://www.estatconsultoria.org/blog/7/A%20Import%C3%A2ncia%20da%20Estat%C3%ADstica
https://www.estatconsultoria.org/blog/7/A%20Import%C3%A2ncia%20da%20Estat%C3%ADstica
https://www.estatconsultoria.org/blog/7/A%20Import%C3%A2ncia%20da%20Estat%C3%ADstica
https://www.estatconsultoria.org/blog/7/A%20Import%C3%A2ncia%20da%20Estat%C3%ADstica
14 Estatística e probabilidade: conceitos e aplicações
Ainda, outra razão para estudarmos essa ciência e nos aprimorarmos com
relação ao uso de suas técnicas, suas metodologias e seus recursos tecnoló-
gicos é que a quantidade de dados coletados, processados e fornecidos ao
público, por uma razão ou outra, aumentou quase além da capacidade de com-
preensão da maioria das pessoas. Devemos lembrar que, como Magalhães e
Lima (2004, p. 1) nos alertam, “no passado, tratar uma grande massa de núme-
ros era uma tarefa custosa e cansativa, que exigia horas de trabalho tedioso”.
Percebemos, portanto, que conhecimentos estatísticos são necessários
para que seja possível coletar, avaliar e interpretar corretamente informações
relevantes, extraindo conclusões pertinentes, válidas e corretas do tema que
se está examinando. Ou seja, nós e todas as pessoas que se dispuserem a
realizar ou analisar resultados de pesquisas já realizadas devemos ter conhe-
cimento de processos estatísticos adequados, tornando-nos capazes de proce-
der à análise dos dados pesquisados, coletados e tabulados.
Para que percebamos a importância da ciência Estatística, confira o que defende Raniere
Ramos, criador do blog de Estatística mais ativo do Brasil – O estatístico – em seu artigo intitu-
lado Por que Estatística é tão importante?, de 2016.
Acesso em: 3 set. 2020.
https://oestatistico.com.br/por-que-estatistica-importante/
Artigo
Precisamos estar cientes de que se não soubermos realizar os questiona-
mentos adequados, poderemos ter resultados inadequados, ambíguos ou
respondidos inadequadamente. Além disso, mesmo que os questionários
e levantamentos dos dados estatísticos tenham sido realizados de maneira
correta, é assustador imaginar todos os erros que podem ocorrer caso a com-
pilação, análise e interpretação sejam realizadas sem conhecimento e domínio
estatísticos necessários, o que poderá gerar conclusões equivocadas. Nesse
aspecto, Crespo (2009, p. 11) esclarece que:
atualmente, o público leigo (leitor de jornais e revistas) posiciona-se em
dois extremos divergentes e igualmente errôneos quanto à validade das
conclusões estatísticas: ou crê em sua infalibilidade ou afirma que elas
nada provam. Os que assim pensam ignoram os objetivos, o campo e o
rigor do método estatístico; ignoram a Estatística, quer teórica quer prá-
tica, ou a conhecem muito superficialmente.
O autor trata de leitores de jornais e revistas, mas podemos ampliar essa
ideia para artigos e informações disponíveis e publicados em diversos sites da
internet.
Agora que vimos como a ciência Estatística evoluiu ao longo do tempo e a
importância de nos dedicarmos ao seu estudo, podemos abordá-la mais deta-
lhadamente na seção a seguir.
Introdução ao estudo da Estatística 15
1.2 O estudo da Estatística
Vídeo
Para iniciarmos o estudo da Estatística, necessitamos de alguns conhecimentos
básicos, sendo o primeiro com relação à grafia da palavra. Conforme aponta Bruni
(2011, p. 3, grifos do autor), ela pode refletir duas concepções:
a) no plural, a palavra estatísticas indica qualquer coleção consistente de dados
numéricos, reunidos com a finalidade de fornecer informações a cerca de um
objetivo. Assim, por exemplo, as estatísticas demográficas referem-se aos dados
numéricos sobre nascimentos, falecimentos, matrimônios, desquites etc. As es-
tatísticas econômicas consistem em dados numéricos relacionados com empre-
go, produção, preço, vendas e com outras atividades ligadas aos vários setores
da vida econômica.
b) no singular, a expressão Estatística indica a atividade humana especializada ou
um corpo de técnicas, ou ainda, uma metodologia desenvolvida para a coleta, a
classificação, a apresentação, a análise e a interpretação de dados quantitativos
e a utilização desses dados para a tomada de decisões.
Essas concepções nos levam a inúmeras definições para a Estatística como ciência.
Vejamos algumas:
a. Segundo Dicio (2020), é o “ramo das matemáticas aplicadas cujos princípios
decorrem da teoria das probabilidades e que tem por objeto o estudo, bem
como o agrupamento metódico, de séries de fatos ou de dados numéricos”.
b. Para Crespo (2009, p. 13), “a Estatística é uma parte da Matemática Aplicada que
fornece métodos para a coleta, organização, descrição, análise e interpretação
de dados e para a utilização dos mesmos na tomada de decisões”.
c. Magalhães e Lima (2004, p. 1) defendem que devemos entender a Estatística
“como um conjunto de técnicas que permite, de forma sistemática, organizar,
descrever, analisar e interpretar dados oriundos de estudos ouexperimentos,
realizados em qualquer área do conhecimento”.
Com base nessas definições e de acordo com muitos estudiosos, é possível subdi-
vidirmos a ciência Estatística em três grandes grupos:
a. Estatística descritiva: muitas vezes designada apenas
como Estatística, tem como função principal “resumir dados e
informações investigadas, expondo-os da maneira mais prática
possível” (BRUNI, 2011, p. 3). É um único valor numérico, obtido
após cálculos estatísticos, que sintetiza um conjunto de dados. Esse
podemos chamar de números-resumo e suas utilizações possibilitam
reduzir os dados estatísticos coletados a informações a serem
interpretadas mais facilmente.
b. Estatística das probabilidades: tem por objetivo estudar “o risco
e o acaso em eventos futuros e determina se é provável ou não seu
acontecimento” (BRUNI, 2011, p. 4). Esse tipo de estudo iniciou com o
intuito de planejar jogadas ou estratégias de jogo nos denominados
jogos de azar.
(Continua)
16 Estatística e probabilidade: conceitos e aplicações
c. Estatística inferencial ou indutiva: é a parte da Estatística
que utiliza “métodos que tornam possível a estimação de
características de uma população baseada nos resultados
amostrais” (MARTINS; DOMINGUES, 2014, p. 2). Refere-se,
portanto, a um processo de generalização com base em resultados
particulares. Podemos dizer que tem o objetivo de tirar conclusões
sobre populações por meio dos resultados observados em amostras
extraídas delas. Contudo, é importante estarmos conscientes de
que, ao induzir, estamos sujeitos a cometer erros. Assim, cabe à
Estatística indutiva nos dizer em quanto se pode estar errado nas
induções realizadas e com que probabilidade.
indutivo: decorre do processo
de indução, isto é, processo de
raciocínio em que, com base no
conhecimento de uma parte,
procura-se obter conclusões para
o todo.
Glossário
Vale ressaltar que, pelo fato de a Estatística buscar obter resultados das
populações, examinando-as com base em amostras, é fundamental sabermos
qual a precisão desses resultados e com que probabilidade podemos confiar
nas conclusões obtidas.
Posto isso, é notório que se torna muito complicado conseguirmos definir
com exatidão o que é a ciência Estatística, pois seu campo de estudo é mui-
to amplo, o que acarreta um expressivo número de definições. Entretanto,
podemos nos contentar com a definição dada por Bruni (2011, p. 3, grifo do
original): “Estatística indica a atividade humana especializada ou um corpo de
técnicas, ou ainda, uma metodologia desenvolvida para a coleta, a classifica-
ção, a apresentação, a análise e a interpretação de dados quantitativos e a
utilização desses dados para a tomada de decisões”.
Além disso, devemos saber diferenciar os diversos elementos utilizados
nas várias etapas da aplicação do método estatístico, tópicos que serão vistos
oportunamente. Após entendermos o que vem a ser a ciência Estatística e sua
divisão nos três grandes grupos, podemos nos dedicar ao estudo dos dados
estatísticos.
1.3 Natureza dos dados estatísticos
Vídeo Estudar a natureza dos dados estatísticos é entender de onde vêm, que
tipos de dados são e como classificá-los. Eles formam a base do estudo estatís-
tico a que se está propenso a realizar, podendo serem classificados em dados
qualitativos e quantitativos.
Os dados coletados, que também podem ser chamados de variáveis em
estudo, são qualitativos quando “seus valores são expressos por atributos:
sexo (masculino – feminino), cor da pele (banca, preta, amarela, vermelha, par-
da) etc.” (CRESPO, 2009, p. 17). Ou seja, esse tipo de dado possui uma caracte-
rística não numérica. Segundo Magalhães e Lima (2004, p. 6, grifos do original):
Indicamos o documen-
tário The Joy Of Stats
(O prazer da Estatística),
da British Broadcasting
Corporation (BBC), com
legenda em português,
produzido em 2010 e
apresentado pelo médico
e estatístico sueco Hans
Rosling.
Disponível em: https://www.youtube.
com/watch?v=U5Q9zdIHbRU. Acesso
em: 3 set. 2020.
Documentário
https://www.youtube.com/watch?v=U5Q9zdIHbRU
https://www.youtube.com/watch?v=U5Q9zdIHbRU
Introdução ao estudo da Estatística 17
se tais variáveis têm uma ordenação natural, indicando intensidades
crescentes de realização, então elas serão classificadas como qualitativas
ordinais. Caso contrário, quando não é possível estabelecer uma ordem
natural entre seus valores, elas são classificadas como qualitativas
nominais.
Com relação a esse tipo de classificação dos dados qualitativos, podemos
exemplificar da seguinte maneira:
a. Ao estudar o tamanho das laranjas colhidas em uma safra, podemos
classificá-las quanto ao seu tamanho (pequenas, médias e grandes).
b. Ao estudar a população de determinada localidade com relação à classe
social a que pertence segundo algumas faixas de renda, podemos dizer
que seus integrantes fazem parte da classe social baixa, média ou alta.
Nessas duas situações, as variáveis em estudo produzirão dados qualitati-
vos ordinais. Agora, se o intuito da pesquisa tiver dados coletados com rela-
ção ao sexo de seus integrantes (feminino e masculino) ou ao fato de serem
fumantes ou não, os dados produzidos serão classificados em variáveis quali-
tativas nominais.
Os dados (ou variáveis) são quantitativos quando:
seus valores são expressos em números (salário dos operários, idade dos
alunos de uma escola etc.). Uma variável quantitativa que pode assumir,
teoricamente, entre dois limites recebe o nome de variável contínua; uma
variável que só pode assumir valores pertencentes a um conjunto enume-
rável recebe o nome de variável discreta. (CRESPO, 2009, p. 17, grifos nossos)
Apenas a título de esclarecimento, uma variável é dita discreta quando é fru-
to de um processo de contagem, ou seja, quando pode assumir qualquer valor
numérico pertencente ao conjunto dos números naturais: = {0, 1, 2, ..., n}.
Já as variáveis contínuas dependem de um grau de precisão normalmente
preestabelecido, e fazem parte do conjunto matemático dos números reais
quando colocadas no formato de números decimais não inteiros e que pos-
suam casas decimais. Podemos afirmar que, se estivermos analisando dados
provenientes de processos de medição, os resultados obtidos são dados que
originam variáveis contínuas.
Exemplificando esse tipo de classificação:
a. Em um levantamento de dados que visa saber a quantidade de filhos
que um casal possui, os resultados podem ser: nenhum filho, um filho,
dois filhos e assim por diante. Ou seja, os valores são pertencentes ao
conjunto dos números naturais, fruto de um processo de contagem.
b. Ao fazermos uma pesquisa sobre as estaturas dos integrantes de um
escritório de uma empresa, podemos encontrar pessoas com 1,63 m,
1,72 m, 1,85 m etc. Percebemos que esses valores: fazem parte de uma
escala numérica que faz parte de um intervalo de valores; dependem
do grau de precisão da aferição, ou seja, se tivermos à disposição
18 Estatística e probabilidade: conceitos e aplicações
instrumentos de medição mais precisos, podemos encontrar as alturas
1,627 m, 1,723 m, 1,849 m etc.
Com a finalidade de visualizarmos melhor a classificação de uma variável
conforme a sua natureza, podemos elaborar o seguinte esquema:
Nominal
Ordinal
Discreta
Contínua
Qualitativa
Quantitativa
Variável
Algumas observações devem ser feitas para que não cometamos erros:
1. Ao realizar uma pesquisa, podemos relacionar a variável sexo a que uma
pessoa pertença a valores numéricos, ou seja, 1 para pessoa do sexo feminino
e 2 para pessoa do sexo masculino. Isso não quer dizer que a variável em
estudo é quantitativa, numérica; ela continua sendo uma variável qualitativa
nominal, apenas está representando a variável em estudo por um código
numérico.
2. Ao anotar a idade de uma pessoa normalmente só marcamos os anos de
vida já completados: 2 anos, 5 anos, 28 anos e assim por diante. Sendo
assim, é uma variável quantitativa discreta. No entanto, se quisermos uma
quantificaçãoenvolvendo o número de dias que a pessoa já completou,
podemos encontrar valores como 2,75 anos (2 anos e 270 dias) ou 53,6 anos
(53 anos e 216 dias), fazendo com que a variável passe a ser uma variável
quantitativa contínua.
Outro aspecto que devemos saber é que os dados estatísticos provenientes
de variáveis qualitativas ordinais podem envolver critérios de comparações e de
intensidade.
Para exemplificar esse tipo de análise envolvendo critérios, vamos pensar em
uma pergunta na qual os respondentes devam identificar se são de estatura alta,
média ou baixa. Não há uma razão quantitativa explícita que estabelece essas op-
ções, mas podemos afirmar que é uma variável quantitativa ordinal que estabelece
um critério comparativo.
A respeito dos dados estatísticos que envolvem critérios de intensidade, po-
demos pensar em uma pergunta na qual os respondentes devem marcar opções
como as colocadas a seguir:
Introdução ao estudo da Estatística 19
Muito
insatisfeito
1
Pouco
insatisfeito
2
Neutro
3
Pouco
satisfeito
4
Muito
satisfeito
5
Sempre
5
Quase
sempre
4
Às vezes
3
Quase nunca
2
Nunca
1
Be
st
ic
on
Pa
rk
/S
hu
tte
rs
to
ck
As opções a serem marcadas continuam sendo relativas a uma variável qualita-
tiva ordinal, mas agora possuem um grau de intensidade claramente perceptível.
Agora que já entendemos como classificar os dados estatísticos conforme a
sua natureza, podemos nos dedicar ao estudo e à diferenciação existente entre
população e amostra.
1.4 População e amostra
Vídeo Antes de iniciarmos um estudo estatístico, devemos saber a diferença entre tra-
balhar com uma população e uma amostra. Esses são outros conceitos importan-
tes que devem ser muito bem assimilados.
População
Já vimos que a ciência Estatística busca estudar os fenômenos ocorridos em coleção
de dados coletados. Precisamos, portanto, ter muita clareza a respeito de qual fenôme-
no produziu essa coleção de dados e determinar as leis de comportamento que a geraram.
Assim, podemos afirmar que população, muitas vezes também nomeada universo, é “a totalidade de
itens, objetos ou pessoas sob consideração, que deve apresentar pelo menos uma característica comum
a todos os seus elementos” (MARTINS; DOMINGUES, 2014, p. 2). À vista disso, ao estudarmos uma
população (um universo), não estamos preocupados com cada elemento em particular, mas com a
população toda.
De acordo com a quantidade de elementos que ela possui, ou seja, o seu tamanho, a classificamos de
duas maneiras: finita ou infinita.
Dizemos que a população é finita quando o número total de elementos que ela possui é conhecido, ou
seja, é um número finito. Por exemplo: se o objetivo é analisar o desempenho dos cinquenta funcioná-
rios de certa empresa, sabemos exatamente a quantidade de pessoas que estão sob observação. Logo,
a população desse estudo é finita.
(Continua)
Victoria_ve
cto
r_a
rt/
Sh
ut
te
rst
oc
k
20 Estatística e probabilidade: conceitos e aplicações
Já se a população possuir um número infinito de elementos, ela será dita infinita. Por exemplo: caso
o objetivo seja saber quantas laranjas cada laranjeira plantada produz em determinada safra, estamos
no mínimo diante de uma situação de impossibilidade de realizar uma contagem precisa, pois não se
pode contar as laranjas produzidas por todas as laranjeiras do mundo. Logo, a população é considerada
infinita pela dificuldade de contagem que se apresenta nessa situação. Assim, dizemos que uma popu-
lação é infinita quando a quantidade de elementos é extremamente grande e difícil de ser quantificada.
Amostra
Se estivermos diante de uma população muito grande, como o caso citado da po-
pulação das laranjas, certamente fica difícil, ou até mesmo impossível, observar uma
característica específica de todos os seus elementos. Assim, surge a necessidade de sele-
cionar uma parte finita dessa população para que seja possível realizar a observação e obter os dados
necessários. A essa parte selecionada denomina-se amostra. Desse modo, de acordo com Martins e Do-
mingues (2014, p. 2), a “amostra é uma parte representativa da população que é selecionada para análi-
se. A representatividade é obtida quando apresenta tamanho suficiente e é composta de forma aleatória
(probabilística)”.
Retomando o exemplo das laranjas, se não é possível realizar a contagem dos frutos produzidos por todas as
laranjeiras, escolhemos uma amostra de 500 árvores em fase de produção de frutos, por exemplo, e proce-
demos a contagem nessas árvores escolhidas. Então, vamos trabalhar com uma amostra de 500 laranjeiras.
Victoria_ve
cto
r_a
rt/
Sh
ut
te
rst
oc
k
Estudamos e aprendemos a diferenciar amostra e população. É fácil perceber-
mos que nem sempre podemos trabalhar com essa última em uma pesquisa.
Desse modo, devemos entender como fazer para selecionar os elementos que irão
compor uma amostra, ou seja, quais são os processos de amostragem.
1.5 Processos de amostragem
Vídeo Devemos estar cientes de que não podemos escolher de qualquer jeito os ele-
mentos que constituirão uma amostra. Para tanto, existem técnicas, denominadas
processos de amostragem, para selecionar os elementos que farão parte.
Ao utilizarmos técnicas de amostragem, garantiremos a aleatoriedade (o acaso) na
seleção, ou seja, asseguraremos que cada elemento da população a ser estudada te-
nha a mesma possibilidade de ser escolhido para fazer parte da amostra.
Com relação ao processo de amostragem escolhido, poderemos obter amos-
tras dos seguintes tipos: aleatórias, estratificadas, sistemáticas, por conglomerados
ou por conveniência. Vejamos cada uma delas a seguir.
1.5.1 Amostragem aleatória
Uma amostra aleatória é obtida ao sortearmos elementos da população
de maneira que cada um possua a mesma chance de fazer parte da amostra.
Crespo (2009, p. 20, grifos do original) esclarece que “a amostragem casual
ou aleatória simples pode ser realizada numerando-se a população de 1 a n e
sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, k números
dessa sequência, os quais corresponderão aos elementos pertencentes à amostra”.
Introdução ao estudo da Estatística 21
Para exemplificar, vejamos a situação dada a seguir.
Desejamos escolher 12 funcionários de uma empresa para fazer uma pesquisa. A entidade
possui 120 funcionários. Como proceder a escolha se adotarmos a amostragem aleatória?
Nesse exemplo, temos n = 120 e k = 12. Para proceder a escolha dos funcioná-
rios de maneira aleatória, em primeiro lugar devemos ter uma listagem de todos
os funcionários da empresa. Associamos a cada nome um número, iniciando em
001 e terminando em 120. Colocamos em uma caixa, por exemplo, papeizinhos de
mesmo tamanho com os números; sacudimos e retiramos um deles. Repetimos o
processo até chegarmos à quantidade de funcionários pretendida. Após a retirada
dos 12 papeizinhos, vemos na listagem a qual funcionário cada número escolhido
corresponde.
Se a população for muito grande, esse processo pode se tornar muito trabalho-
so. Para facilitar, podemos utilizar o Microsoft Excel®. A seguir, mostramos duas
maneiras de proceder a escolha utilizando esse programa.
1º) Na aba Fórmulas, selecionamos a opção Matemática e Trigonometria e es-
colhemos a função ALEATÓRIO(). Essa escolha retornará um número aleatório
(ou randômico) igual ou superior a zero (0) e inferior a um (1). O valor “escolhido” será
atualizado sempre que se fizer qualquer operação na planilha na qual foi gerado.
Como desejamos valores entre 000 e 120, devemos associar essa função à função
de arredondamento ARRED(núm;núm_dígitos). Em seguida, digitamos na célula A1
de uma planilha do programa, ou em outra célula qualquer, o seguinte comando:
ARRED(ALEATÓRIO()*100+20;0) 5 . Depois, devemos selecionar a célula A1 e arrastá-la
até a célula A12 para obter os doze valores pretendidos.
Veja a seguir um exemplo de como ficará a planilha do programa Microsoft Ex-
cel® para a escolha desses números:
2º) Na aba Fórmulas,devemos selecionar a opção Matemática e Trigonometria e es-
colher a função ALEATÓRIOENTRE(inferior;superior). Ao fazermos isso, já informaremos
Nessa fórmula colocamos
(ALEATÓRIO()*100+20), pois
desejamos números entre 000 e
120, e 0 após o ponto e vírgula,
pois não desejamos números
decimais. Caso quiséssemos
valores aleatórios entre 0000 e
1300, com um algarismo decimal,
o preenchimento seria:
ARRED(ALEATÓRIO()*1000+300;1).
5
Para fazer esse procedimento de
arrastar a célula A1, basta clicar
no “quadradinho” inferior direito
e puxar até a linha 12, conforme
indicado na figura:
Atenção
22 Estatística e probabilidade: conceitos e aplicações
o valor mínimo (001) e o valor máximo (120) que possam ser escolhidos, sem a ne-
cessidade de associar a função de arredondamento. Isso torna o processo mais fácil.
Veja um exemplo da tela do programa Microsoft Excel® para a escolha dos nú-
meros aleatórios:
A utilização de programas de computador não é uma opção obrigatória para se tra-
balhar com a técnica de amostragem aleatória, contudo, facilita (e muito) o processo.
1.5.2 Amostragem estratificada
Para utilizarmos a técnica de amostragem estratificada, devemos proceder a
divisão da população em partes, denominadas subpopulações ou estratos. É im-
portante que essas subpopulações possuam as mesmas características da popu-
lação que as originou. Após essa divisão, selecionamos elementos de cada uma
das subpopulações, ou seja, de cada um dos estratos, utilizando a amostragem
aleatória simples, por exemplo.
As pesquisas feitas com seres humanos estão naturalmente separadas em dois
estratos (homens e mulheres) que compartilham das mesmas características. É
conveniente que se cada estrato tiver tamanho diferente, devemos fazer a propor-
cionalidade em cada um deles para que tenhamos resultados mais confiáveis.
Observe a seguinte situação: suponhamos que devemos escolher 12 funcioná-
rios de uma empresa que possui 120 colaboradores, sendo 70 homens e 50 mu-
lheres. Como temos dois estratos, selecionamos componentes desses estratos de
maneira proporcional. Dessa forma, devemos fazer o seguinte cálculo:
Tabela 1
Amostra proporcional a 10% da população
Sexo População 10% Amostra
Masculino 70
10 120
100
12�
� 7
Feminino 50 10 50
100
5�
� 5
Total 120
10 120
100
12�
� 12
Introdução ao estudo da Estatística 23
Fonte: Elaborada pelo autor.
Procedendo dessa maneira devemos escolher 7 homens e 5 mulheres entre os
funcionários da empresa, uma vez que se forem escolhidas mais mulheres do que
homens, os resultados da pesquisa podem não representar fielmente o que se
pretende pesquisar.
1.5.3 Amostragem sistemática
Para utilizarmos a técnica de amostragem sistemática, devemos em primei-
ro lugar escolher um ponto de partida, ou seja, um elemento qualquer. Então,
é preciso selecionar, a cada intervalo igual de elementos, o que chamamos de
i-ésimo elemento, notação utilizada em Matemática, isto é, outro elemento para fa-
zer parte da amostra. Realizamos esse procedimento até termos a quantidade de
elementos necessária para compor a amostra ou até chegarmos ao último elemen-
to da população.
No caso da pesquisa para selecionar 12 pessoas de uma empresa com 120 fun-
cionários, podemos elaborar uma listagem de todos os colaboradores com seus
nomes colocados em ordem alfabética e, a partir do terceiro nome da lista, selecio-
nar aqueles que aparecem a cada 10 linhas.
Esse tipo de amostragem é muito utilizado quando desejamos fazer controle
de qualidade de produtos em uma linha de produção. Escolhemos aleatoriamente
um primeiro produto e, depois dele, sistematicamente os produtos de “n” em “n”
produtos, sendo que o valor de “n” deve ser escolhido de maneira proporcional à
totalidade de produtos finalizados.
1.5.4 Amostragem por conglomerados
Uma amostra por conglomerados é obtida ao subdividirmos uma população em
seções, ou conglomerados. Em seguida, devemos escolher algumas dessas para
finalmente selecionarmos elementos de cada uma delas.
Um exemplo é uma população que está naturalmente separada em conglomera-
dos: as cidades. Essas normalmente possuem regiões claramente definidas: os bairros.
Assim, podemos, de maneira aleatória, escolher alguns dos bairros e, em seguida, pro-
ceder a escolha dos elementos desses bairros para fazer nossa pesquisa.
1.5.5 Amostragem por conveniência
Um processo de amostragem por conveniência ocorre quando utilizamos resul-
tados já disponíveis, normalmente provenientes de pesquisas já realizadas. Como
o próprio nome sugere, é conveniente aproveitar resultados já disponíveis do que
montar todo um novo processo amostral, com todos os seus trâmites, projetos e
custos.
Conforme elucidamos, nem sempre é possível trabalhar com a população inte-
gral em uma pesquisa. Temos, desse modo, que escolher uma amostra represen-
tativa dessa população. Vimos também que existem técnicas para selecionar os
24 Estatística e probabilidade: conceitos e aplicações
elementos que farão parte dessa amostra. Agora, veremos as fases que devemos
cumprir para que nosso estudo estatístico seja confiável e correto.
1.6 Fases do método estatístico
Vídeo Ao nos propormos a realizar um estudo estatístico, seja estudando uma popu-
lação toda ou uma amostra dela, devemos cumprir determinadas etapas para po-
dermos afirmar que o processo foi realizado de maneira completa e correta. Essas
etapas são denominadas fases do método estatístico. Passaremos agora a estudá-las:
Zaur
Ra
him
ov
/S
hu
tte
rst
oc
k
Definição do problema
Essa etapa do método estatístico consiste na definição da forma mais clara
possível, não suscitando nenhum tipo de dúvida do que se pretende pesquisar.
Costumamos dizer que é necessário especificar o objeto de estudo e qual o objeti-
vo pretendido com a pesquisa, não abrindo nenhuma possibilidade de algum tipo
de engano com relação ao que será pesquisado.
crea
tiv
ep
riy
an
ka
/S
hu
tte
rst
ock
Delimitação do problema
Na fase anterior definimos nosso objeto de pesquisa e o objetivo que pretendemos
alcançar. Na etapa da delimitação do problema de pesquisa devemos especificar onde
a pesquisa será realizada. Não só o local da pesquisa, mas também o tipo dos dados
estatísticos, as datas e os horários que os levantamentos dos dados serão realizados
e todas as informações necessárias para que seja perfeitamente delimitado o objeto
de estudo.
Vect
or
St
all
/S
hu
tte
rst
oc
k
Planejamento para obtenção dos dados
Nessa fase devemos responder às seguintes perguntas:
• Que dados serão necessários?
• Como obter esses dados?
Ao analisarmos essas questões, precisamos identificar os tipos de dados da
pesquisa, a natureza deles (qualitativos ou quantitativos), que tipo de amostragem
utilizaremos e quais instrumentos serão necessários, se for o caso.
Caso seja preciso elaborar um questionário, roteiro de entrevistas ou outro tipo
de coleta de dados que se faça necessário, é um dever nos programarmos para
verificar: a necessidade de contratar pessoas para arguir os entrevistados ou para
Introdução ao estudo da Estatística 25
registrar dados de observações; quais gastos ocorrerão; de onde virão os recursos
para dar continuidade à pesquisa etc.
Além disso, devemos definir nitidamente o cronograma de atividades que de-
verão ser realizadas de acordo com o tamanho da população ou da amostra a ser
pesquisada.
MD. D
elw
ar
ho
ss
ain
/S
hu
tte
rsto
ck
Coleta de dados
Essa etapa da pesquisa, fase do método estatístico, é dedicada à, como o pró-
prio nome sugere, coleta dos dados, ou seja, o registro dos dados estatísticos que
obteremos com o ferramental próprio para isso (questionários, respostas gravadas
ou filmadas etc.) definido na fase anterior. É uma etapa importantíssima da pes-
quisa, pois se utilizarmos uma maneira que não atenda às expectativas, além de
acarretar perda de tempo e de recursos, pode comprometer os resultados futuros
da análise e interpretação dos dados.
Ar
tc
o/
Shut
te
rst
oc
k
Apuração dos dados
Aqui, dedicamo-nos à verificação da veracidade dos dados obtidos. Essa
recebe a denominação crítica dos dados e visa descobrir dados fornecidos
de maneira inadequada e errada, perguntas respondidas de maneira incom-
pleta e respostas duvidosas ou não pertinentes ao solicitado. Esses dados
devem ser registrados e, em seguida, descartados, pois não farão parte dos
dados levados à diante no transcorrer do estudo. Após, devemos proceder a
tabulação dos dados – a separação por tipo de resposta, as contagens des-
sas respostas, o agrupamento dos dados semelhantes etc. –, que poderá
ser realizada manualmente ou por intermédio de meios eletrônicos e/ou
computacionais.
Ar
tc
o/
Sh
ut
te
rst
oc
k
Apresentação dos dados
Após a realização da fase anterior, devemos nos preocupar em como va-
mos apresentar os resultados obtidos até essa etapa aos interessados em
nossa pesquisa. Existem várias maneiras de fazermos isso, sendo que as mais
utilizadas são as em formato de tabelas e gráficos – muitos pesquisadores
preferem utilizar as duas formas. Usamos esses recursos porque auxiliam na
leitura dos dados coletados em uma pesquisa, facilitando as fases que virão
posteriormente: a análise e a interpretação dos dados. Devido à sua importân-
cia, ambas as maneiras de realizar a apresentação dos dados serão objeto de
estudo em capítulos posteriores.
26 Estatística e probabilidade: conceitos e aplicações
Ar
tc
o/
Sh
ut
te
rst
oc
k
Análise dos dados
A etapa de análise dos dados tem como principal objetivo nos fornecer conclu-
sões a respeito do objeto de pesquisa. Essas conclusões nos auxiliarão na solução
do problema que nos dispomos a pesquisar. Devemos estar conscientes de que
essa análise precisa estar intimamente referendada por cálculos de medidas esta-
tísticas que nos permitam descrever em detalhes o fenômeno que foi pesquisado.
pa
m
bu
di
/S
hu
tte
rst
ock
Interpretação dos dados
Chegamos à fase da interpretação dos dados. Para realizá-la, temos que ter
à nossa disposição todos os dados evidentemente já tabulados e colocados em
formato gráfico, caso tenhamos decidido assim fazer, juntamente com todos os
cálculos das medidas estatísticas realizadas e revisadas para que tenhamos cer-
teza de que não contenham erros. Devemos, então, proceder às generalizações,
normalmente denominadas inferências estatísticas. Convém ressaltarmos que essas
generalizações devem vir acompanhadas de um grau de incerteza, pois nenhum
pesquisador consegue garantir com 100% de certeza que os resultados obtidos
em uma pesquisa refletirão o que ocorrerá se a pesquisa for novamente realizada
ou, se a pesquisa for realizada com uma amostra da população, que os resultados
reflitam o que acontece na população toda de maneira integral.
Chegamos ao final do estudo das fases do método estatístico após vermos todas
as etapas que deverão ser cumpridas ao realizarmos uma pesquisa, seja ela qual
for. Vimos que muitas vezes nos referimos a cálculos matemáticos e que realmente
há a necessidade de dominá-los – esses serão trabalhados oportunamente. Para
finalizarmos os estudos deste capítulo, devemos aprender a trabalhar com soma-
tórios e produtórios, que são notações matemáticas muito utilizadas em Estatística.
1.7 Somatórios e produtórios
Vídeo Somatórios e produtórios são formas sintéticas, maneiras simplificadas, de se
fazer a notação de somas e produtos normalmente envolvendo grande quantidade
de termos. Ambos são utilizados em vários conteúdos de Estatística.
1.7.1 Somatórios
Um somatório é uma forma abreviada que utilizamos para a representação de
somas. Para tanto, empregamos a letra grega maiúscula Σ (sigma).
Introdução ao estudo da Estatística 27
Por exemplo, a soma 1 + 2 + 3 + ... + n, utilizando a notação de somatório, será
representada por:
i=1�
n
i∑ �,
Lemos essa soma como: somatório de i, variando de 1 até n. Nesse caso, i é o
limite inferior da soma e n é o limite superior.
A letra i é denominada indexador, podendo ser representada por qualquer outra
letra, normalmente minúscula, desde que não interfira na soma. É comum utilizar-
mos para os indexadores as letras minúsculas i, j, k e l.
Assim, podemos usar a notação de somatórios do seguinte modo:
1.
i=1�
n
i 1 2 3 nx x x x x� � � � ���� � �
2.
i=0�
n
i 0 1 2 n
i=0�
n
i 1 2 nx x x x x x 1 x x x� �� � � ��� � � � � ���� � � � � �
3.
i=1�
n
i i 1 1 2 2 3 3 n na � �x a � �x a � �x a x a x� � � � � � � � ��� �� � �� � ��
4. Soma infinita: é a soma de infinitos termos. Muito aplicada na teoria
das probabilidades e em definições de espaços infinitos discretos:
i=1�
i 1 2 3x x x x
�
� � � � ��� �� �.
1.7.1.1 Número de termos de um somatório
O número de termos de um somatório (NT), ou parcelas do somatório, é dado
pela expressão:
NT = LS – LI + 1
Sendo LS e LI os limites superior e inferior do somatório.
Caso o somatório esteja sujeito a restrições, o número de termos será obtido
por:
NT = LS – LI + 1 – r
Em que r representa a quantidade de restrições existentes.
Se precisarmos determinar o número de termos dos somatórios indicados a
seguir, devemos proceder da seguinte maneira:
a.
i=1
6
i S Ix �� �NT�=�L �L �+�1� �NT�=�6 1�+�1� �NT�=�6�� � �� � �
b.
j=3
150
j S Ix �� �NT�=�L �L �+�1� �NT�=�150 3�+�1� �NT�=�148�� � �� � �
c.
k=2�
k 7, k 15
80
k S Iy �� �NT�=�L �L �+�1 r� �NT�=�80 2�+
� �
� �� � � � ��1 2� �NT�=�77�� �
Precisamos tomar cuidado com a
notação de somatório. Observe:
a.
i=1
n
1 i
i=1
n
1 ia (x k) (a x k)� �� � � � �
b.
i=1
n
1 i
i=1
n
1 i(a x k) a x k� �� � � � �
c.
i=1
n
i
2
i=1
i
2
a a� �� ��
�
�
�
�
�
�
�
�
n
Importante
28 Estatística e probabilidade: conceitos e aplicações
1.7.2 Produtórios
Um produtório é uma maneira abreviada, uma forma sintetizada, que utiliza-
mos para a representação de produtos. Para tanto, utilizamos a letra grega maiús-
cula Π (pi).
Por exemplo, a multiplicação 1 . 2 . 3 . ... . n, utilizando a notação de produtório,
será representada por:
� ,
i=1
n
i∏
Lemos esse produto como: produtório de i, variando de 1 até n. Nesse caso, i é o
limite inferior do produto e n é o limite superior.
Assim, podemos utilizar a notação de produtórios da seguinte forma:
1.
i=1
n
i 1 2 3 n� � � � � � � �� �� � � � � �
2.
i=1
n
i 1 2 3 nx x x x �x � � � � � � �� � � � � � � � �
3.
i=1
n
i i 1 1 2 2 3 3 n nx �+�y x y x y x y x y�� � � �� �� �� �� �� �� � � ��� � � � � ��� � � � ��
Da mesma maneira que ocorre com a notação de somatório, precisamos tomar cuidado com a notação de produtório.
Observe:
a) a x a x a x a x a x a x1 2 3 n
i=1
i
i=1
i� � � � � � � � �� ��� �� �...
n n
b)
i=1
n
xi x1 x2 x3 xn
xi
i=1
n
A A A A A A� � � � � � �
�
...
c)
i=p
q
i
i 1
p
p 1
p
q
x
x
x
x
x
x�
� �
�
�
��
�
�
��� �
Importante
Vejamos alguns exemplos de cálculos que envolvem somatórios e produtórios.
Dados os conjuntos X = {2, 4, 6, 8, 10, 12, 14, 16} e Y = {1, 3, 5, 7, 9, 11, 13, 15}, deter-
mine o valor dos somatórios e dos produtórios solicitados a seguir:
a.
i=1�
8
i(�x 3�)� � b.
j=2�
5
j(2� y )� �
c.
i=1
4
i2x�� � d.
j=1
5
j
2
�y 5� �� �
e.
i=2
i 5
6
i
j=3
6
jx
3
y
2
�
� �
�
�
�
�
�
� �
�
�
��
�
�
��� � � �
Introdução ao estudo da Estatística 29
Solução:
a.
i=1�
8
i(x 3)�= �1�+�1�+�3�+�5�+�7�+�9�+��11�+�13�=�48�� � �
b.
j=2�
5
j 2 3 4 5(2� y ) (2� y )+(2� y ) + (2� y ) + (2� y )�=� � � � � � ��
=�(2 3)�+�(2 5) + (2 7) + (2 9)�=− − − − �
=�( 1)�+�( 3)�+�( 5)�+�( 7)�= 16.− − − − −
c.
i=1
4
i 1 2 3 42x 2x 2x 2x 2x 2� 2 2� 4 2� ��� � �� � � � � � � � � � � � �� � � �� �� �� � � �� 66 2� 8 4 8 12 16 6.144� � � �� � � � � � �� �
d.
j=1
5
j
2
1
2
2
2
3
2
4
2
5�y 5 �y 5 �y 5 �y 5 �y 5 �y 5� �� � � �� � � �� � � �� � � �� � � �� �� 22
2 2 2 2 21 5 3 5 5 5 7 5 9 5
�
� �� � �� � �� � �� � �� � �� .� . � .� .� �
� �� � � � �6 8 10 12 142 22 2 2
� � � � �36 64 100 144 196�=6.502.809.600.�
e.
i=2
i 5
6
i
j=3
6
j 2 3 4 6
�
x
3
.�
y
2
=�
x
3
x
3
x
3
x
�
� �
�
�
�
�
�
�
�
�
��
�
�
�� � � �� � � �� �
33
.�
y
2
y
2
y
2
y
2
=3 4 5 6� � �.� �.� �.�
�
�
�
�
�
�
�
�
�
�
�
�
� � � �
�
�
�
�
�
�
�
�
�
�
�
�� � � �.� �.� �.�4
�3�
6
�3�
8
�3�
12
3
.� 5
�2�
7
2�
9
2�
11
2
==
�
�
�
�
�
�
� �
�
�
�
�
�
�� � ���
�
�
�
�
� �� � � � � � � � � �30
3
3465
16
10� 3465
16
17325
88
�
Vimos nesta seção duas formas de sintetizar informações e calculá-las com a
utilização das notações matemáticas de somatórios e produtórios. Ao longo de
nossos estudos, entenderemos que esses tipos de notações aparecerão com bas-
tante frequência nas fórmulas estatísticas que utilizaremos.
Agora é hora de praticar! Se você
quer saber mais sobre somató-
rios e produtórios, acesse o QR
Code a seguir e divirta-se.
Na prática
CONSIDERAÇÕES FINAIS
Neste capítulo iniciamos o estudo da Estatística. Vimos como se deu o crescimento
e o desenvolvimento dessa importante ciência ao longo do tempo e as subdivisões
dela, bem como a natureza dos dados estatísticos com os diversos tipos de variáveis
e suas respectivas classificações. Passamos pelas definições de população e amostra
e pelas diversas técnicas de amostragem, estudando também as várias fases do mé-
todo estatístico. Finalizamos nosso estudo com as formas sintéticas de se trabalhar
com somatórios e produtórios, as quais serão muito utilizadas em vários tópicos de
Estatística.
Esperamos que este capítulo tenha despertado a sua curiosidade para enfrentar
os demais conteúdos dessa importante ciência: a Estatística.
30 Estatística e probabilidade: conceitos e aplicações
ATIVIDADES
1. Explique qual a diferença existente na escrita da palavra estatísticas, grafada no
plural e com inicial minúscula, e Estatística, no singular e com inicial maiúscula.
2. Vários autores separam a ciência Estatística em três grandes grupos. Discrimine-as,
explicando os seus objetivos e/ou funções.
3. Em estudos e pesquisas aparecem as denominadas variáveis de estudo que,
conforme as características apresentadas, recebem determinada classificação. Qual
é a classificação das variáveis ou dos dados estatísticos e como as distinguimos?
4. Para um estudo estatístico em que não se consegue trabalhar com a totalidade
de objetos ou entes em consideração, ou seja, com a população toda de objetos,
devemos selecionar uma parte dessa população. Para que nossos estudos tenham
a confiabilidade necessária, devemos escolher a amostra com base em técnicas
de amostragem. Explique quais são essas técnicas, distinguindo umas das outras.
5. Quais são as fases do método estatístico? Explique cada uma delas.
6. Considere os conjuntos X = {3, 7, 11, ...} e Y = {2, 7, 12, ...}, em que Xi representa o
elemento do conjunto X, que se localiza na posição i, e Yi representa o elemento do
conjunto Y, que se localiza na posição i. Com base nessas informações, determine
o resultado dos somatórios indicados a seguir:
a)
i=3
12
iX∑
b)
i=1
10
i Y∑
c)
i=4
15
i iX Y� �� �
7. Determine o número de termos dos somatórios dados a seguir:
a)
i=9
25
ix∑
b)
j=1
300
jy 1� �� �
c)
k=8
123
2k� 6 �
k k� �
� �� �
10 35,
8. Determine o valor dos produtórios representados a seguir:
a)
i=1
5
1+�ii�� � b)
j=0
5
j3 5� �� � ��
��
�
��
Vídeo
Introdução ao estudo da Estatística 31
REFERÊNCIAS
BRUNI, A. L. Estatística aplicada à gestão empresarial. 3. ed. São Paulo: Atlas, 2011.
CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009.
DICIO. Dicionário Online de Português. 2020. Disponível em: https://www.dicio.com.br/. Acesso em: 3 set.
2020.
IBGE. Censo Demográfico: o que é. Instituto Brasileiro de Geografia e Estatística, 2020. Disponível em:
https://www.ibge.gov.br/estatisticas/sociais/populacao/22827-censo-2020-censo4.html?=&t=o-que-e.
Acesso em: 3 set. 2020.
MAGALHÃES, M. N.; LIMA, A. C. P. de. Noções de Probabilidade e Estatística. 6. ed. São Paulo: Edusp, 2004.
MARTINS, G. A.; DOMINGUES, O. Estatística geral e aplicada. 5. ed. São Paulo: Atlas, 2014.
OSTASIEWICZ, W. The emergence of statistical science. Śląski Przegląd Statystyczny, Breslávia, Wroclaw
University of Economics, v. 18, n. 12, p. 75-81, 2014. Disponível em: http://cejsh.icm.edu.pl/cejsh/element/
bwmeta1.element.desklight-6c51487b-190a-49b2-a556-80efd404b9a8/c/SSR_2014_12_18_75to82.pdf.
Acesso em: 3 set. 2020.
SHAKESPEARE, W. The tragedy of Hamlet, Prince of Denmark. Act 5, Scene 2. The Complete Works of William
Shakespeare, 2020. Disponível em: http://shakespeare.mit.edu/hamlet/hamlet.5.2.html. Acesso em: 3 set.
2020.
32 Estatística e probabilidade: conceitos e aplicações
2
Distribuições de frequência
Anteriormente vimos que a Estatística é uma ciência que visa analisar e
interpretar dados obtidos por meio de estudos ou experimentos realiza-
dos em alguma área do conhecimento. Para chegarmos nessas fases do
método estatístico, devemos iniciar coletando os dados. Precisamos, no
entanto, perceber que em muitas pesquisas há a geração de uma quanti-
dade de dados muito elevada.
Sendo assim, é importante sabermos como fazer para resumi-los e
apresentá-los, de modo que não tenhamos dificuldades para realizar a
análise e a interpretação.
Surge, desse modo, a necessidade de sabermos como apresentar os
dados adequadamente. Para isso, devemos em primeiro lugar realizar a
tabulação. Portanto, é preciso entendermos o que é a tabulação dos
dados.
2.1 Tabulação dos dados
Vídeo A tabulação nada mais é do que a organização de todos os dados obtidos, ou
seja, estruturarmos todas as respostas alcançadas em nossa pesquisa. Essa or-
ganização dos dados envolve alguns conceitos importantes: dados brutos, rol e
frequência.
2.1.1 Dados brutos
A relação dos dados brutos representa a ordem exata em que os dados foram
obtidos em uma pesquisa. Devemos nos preocupar estritamente com registrar as
respostas dadas, sem nos atentarmos a algum tipo de ordenação. Em outras pa-
lavras, são os dados originais coletados em uma pesquisa e que ainda não estão
prontos para análise em razão de não estarem numericamente organizados.
Segundo Rodrigues (1970, p. 63, grifos do original), um dado primitivo é “o dado
estatístico que ainda não sofreu nenhuma espécie de elaboração, achando-se, por-
tanto, apenas colhido. Também se diz dado bruto”. Para exemplificar, imagine a
seguinte situação:
Distribuições de frequência 33
Um professor da disciplina de Estatística e Probabilidade elaborou uma avaliação com os 50
alunos de sua turma A. Conforme vão terminando, o docente vai colocando uma prova em
cima da outra. Após o teste, o professor realiza a correção das avaliações segundo a ordem
de entrega, anotando as notas obtidas pelos alunos. A relação a seguir representa as notas
alcançadas pelos estudantes dessa turma:
7 – 6 – 8 – 9 – 6 – 5 – 7 – 4 – 6 – 8 – 9 – 8 – 7 – 6 – 10 – 8 – 4 – 5 – 6 – 10 – 5 – 8 – 4
– 3 – 8 – 7 – 9 – 6 – 10 – 7 – 7 – 7 – 9 – 5 – 4 – 5 – 9 – 10 – 8 – 8 – 6 – 7 – 5 – 10 – 8 –
6 – 7 – 7 – 10 – 6
Se olharmos a relação das notas, não podemos, à primeira vista, tirar conclu-
sões a respeito delas. Podemos, entretanto, colocá-las obedecendo a determinada
ordem, ou seja, podemos estabelecer o que é denominado rol.
2.1.2 Rol
Segundo o site Origem da Palavra (2020), o termo rol “provém do latim ROTULUS,
diminutivo de ROTA, “roda”, pois uma lista escrita se devia fazer girar nas mãos, na
época em que os meios de escrita eram enrolados”.
Mas qual é o seu significado? De acordo com Rodrigues (1970, p. 261), “é a série
estatística obtida dispondo-se os valores de uma coleção por ordem não decres-
cente (rol crescente) ou por ordem não crescente (rol decrescente)”.
Em Estatística, rol pode ser definido como a relação dos resultados primitivos
obtidos em uma pesquisa e que já foram colocados em ordem numérica, seja ela
crescente ou decrescente.
Vamos estabelecero rol das notas atingidas pelos alunos da turma de Estatística
e Probabilidade, exemplo citado anteriormente, de maneira crescente. Esse proce-
dimento nos levará a:
3 – 4 – 4 – 4 – 4 – 5 – 5 – 5 – 5 – 5 – 5 – 6 – 6 – 6 – 6 – 6 – 6 – 6 – 6 – 6 – 7 – 7 – 7 – 7 – 7 –
7 – 7 – 7 – 7 – 7 – 8 – 8 – 8 – 8 – 8 – 8 – 8 – 8 – 8 – 9 – 9 – 9 – 9 – 9 – 10 – 10 – 10 – 10 –
10 – 10
Após a realização desse procedimento, podemos ver com maior clareza o que
ocorreu com as notas dos alunos dessa turma. Mas ainda é possível melhorar a vi-
sualização. Para tanto, devemos entender os conceitos de frequência e frequência
acumulada.
2.1.3 Frequência
Ao percebermos que em um rol existem valores de dados que se repetem, cos-
tumamos atribuir um valor numérico expressando a quantidade de vezes que cada
um aparece. O número de vezes que um mesmo resultado é expresso em uma
pesquisa é denominado frequência, frequência simples ou frequência absoluta, e re-
presentado pela letra minúscula f.
Acesse o QR Code a seguir para
aprender como estabelecer
o rol de uma série de dados
quantitativos utilizando o
programa Microsoft Excel:
Na prática
34 Estatística e probabilidade: conceitos e aplicações
Rodrigues (1970, p. 127) nos esclarece que a frequência “de um valor, perten-
cente a dado conjunto, é o número de vezes que esse valor ocorre nesse conjunto”.
Se voltarmos à nossa relação de dados das notas dos alunos da turma de Estatística
e Probabilidade, podemos elaborar um quadro-resumo indicando as frequências
simples ou absolutas, que ficará com a seguinte representação:
Quadro 1
Notas dos alunos da turma A da disciplina de Estatística e Probabilidade
Notas fi
3 1
4 4
5 6
6 9
7 10
8 9
9 5
10 6
Total 50
Fonte: Elaborado pelo autor.
Podemos verificar que com os dados colocados em um quadro-resumo alguns
resultados ficam mais evidentes, como:
I. A menor nota foi 3 e ocorreu 1 vez.
II. A maior nota foi 10 e ocorreu 6 vezes.
III. A nota que ocorreu mais vezes foi 7 (nota de maior frequência).
Também é muito usual colocarmos essas frequências (frequências simples) em
formato percentual, o que denominamos de frequências relativas simples, fi (%), que
representam a relação entre as frequências simples e a soma de todas as frequên-
cias – total de dados pesquisados e normalmente colocamos em formato percen-
tual. Observe:
Quadro 2
Frequências simples e relativa das notas dos alunos da turma A
Notas fi fi (%)
3 1 2 1
4 4 8
5 6 12
6 9 18
7 10 20
8 9 18
9 5 10
10 6 12
Total 50 100
Fonte: Elaborado pelo autor.
Se fizermos o somatório das frequências dos valores inferiores ou iguais ao va-
lor da frequência simples de uma linha, obteremos a frequência acumulada ou
frequência simples acumulada, que representaremos por fa. A frequência sim-
O índice i colocado subscrito
representa a frequência da classe,
ou seja, da linha, em que o dado
se encontra na tabela.
Atenção
Acesse o QR Code a seguir e veja
como determinar os diferentes
tipos de frequência utilizando o
programa Microsoft Excel:
Na prática
Para obtermos este valor, devemos
dividir a frequência simples da
linha (1) pelo total das frequências
(50) e multiplicarmos por 100. O
símbolo da porcentagem (%) foi
omitido para simplificar a leitura:
“(1/50) · 100 = 2%”.
1
Distribuições de frequência 35
ples acumulada da primeira classe (primeira linha) é igual à frequência simples
desta classe. Podemos também calcular a frequência relativa acumulada, fa (%),
colocando-a em formato percentual.
No exemplo que estamos trabalhando o quadro-resumo representativo ficará
da seguinte forma:
Quadro 3
Frequências acumuladas, simples acumulada e relativa acumulada das notas dos alunos da turma A
Notas fi fa fi (%) fa (%)
3 1 1 2 2
4 4 5 8 10
5 6 11 12 22
6 9 20 18 40
7 10 30 20 60
8 9 39 18 78
9 5 44 10 88
10 6 50 2 12 100 3
Total 50 - 100 -
Fonte: Elaborado pelo autor.
Ao fazermos a representação dessa forma, indicando as frequências simples e
absolutas, inclusive nos formatos relativos, começamos a perceber mais claramen-
te o que ocorreu com os dados da pesquisa.
Também podemos representar os dados de uma pesquisa em formato de ta-
bela, ou seja, no formato tabular. Entretanto, devemos obrigatoriamente saber as
diferenças entre quadros, quadros-resumo e tabelas.
Os quadros, os quadros-resumo e as tabelas são regulamentados pelas normas
da Associação Brasileira de Normas Técnicas (ABNT) e considerados ilustrações
normalmente sem tratamento estatístico. Além disso, as tabelas são regulamen-
tadas pelo Instituto Brasileiro de Geografia e Estatística (IBGE), e, de acordo com a
ABNT, possuem dados com tratamento estatístico, por isso devem ser apresenta-
dos nesse formato.
A Figura 1 a seguir elenca as principais diferenças entre quadro e tabela:
A última frequência simples
acumulada deve ser obriga-
toriamente igual ao total de
frequências simples.
2
A última frequência simples
relativa acumulada deve ser
obrigatoriamente igual a
100 (100%).
3
Acesse o QR Code a seguir para
obter os diferentes tipos de fre-
quência utilizando o programa
Microsoft Excel:
Na prática
Para saber mais sobre a norma-
tização de quadros, leia a ABNT
NBR 6022; para tabelas, a NBR
14.724:2011, subitem 5.9, relacio-
nado às Normas de Apresentação
Tabular (ABNT, 1993).
Documento
Figura 1
Quadros e tabelas: principais diferenças
Quadro Tabela
Formato Seu formato é fechado, isto é, as extremidades devem ser fechadas por
linhas, com uma moldura em torno delas e das colunas.
As bordas laterais não podem ser fechadas, ou seja,
possuem um formato aberto.
Uso Geralmente para dados qualitativos. Geralmente para dados quantitativos.
Elementos Título, fonte, legenda e notas. Título, cabeçalho, conteúdo, fonte e, se necessário, notas explicativas.
Divisão Linhas horizontais e verticais. Linhas verticais.
Formatação O número e o título do quadro devem vir acima dele,
enquanto a fonte deve aparecer embaixo.
O número e o título da tabela devem vir acima dela,
enquanto a fonte deve aparecer embaixo.
Fonte: Elaborada pelo autor.
+
=
36 Estatística e probabilidade: conceitos e aplicações
Como vamos trabalhar bastante com tabelas, é importante que nos aprofun-
demos um pouco mais a seu respeito. Crespo (2009, p. 25) afirma que “tabela é
um quadro que resume um conjunto de informações”. Assim, para que tenhamos
certeza de qual conjunto de dados estamos visualizando, devemos levar em consi-
deração algumas informações indispensáveis.
De acordo com Crespo (2009, p. 25, grifos do original), uma tabela compõe-se
de:
a. corpo – conjunto de linhas e colunas que contém informações sobre a va-
riável em estudo;
b. cabeçalho – parte superior da tabela que especifica o conteúdo das colunas;
c. coluna indicadora – parte da tabela que especifica o conteúdo das linhas;
d. linhas – retas imaginárias que facilitam a leitura, no sentido horizontal, de
dados que se inscrevem nos seus cruzamentos com as colunas;
e. casa ou célula – espaço destinado a um só número;
f. título – conjunto de informações, as mais completas possíveis, responden-
do às perguntas: O quê?, Quando?, Onde?, localizado no topo da tabela.
Há ainda a considerar os elementos complementares da tabela, que são a
fonte, as notas e as chamadas, colocados, de preferência, no seu rodapé.
Para fins de exemplificação, vejamos a tabela a seguir, que fornece a estimativa
anual da produção de soja no mês de junho de 2020 no Brasil.
Tabela 6588 – Série histórica da estimativa anual da área plantada, área colhida,
produção e rendimento médio dos produtos das lavouras
Variável – Produção (Toneladas)
Brasil
Mês – junho 2020
Produto das lavouras
Total 1.15 Soja
.. 119.899.492
Fonte: IBGE, 2020b.
É importante sabermos diferenciar quadros de tabelas, uma vez que ainda é
muito comum fazermos confusão ao resumir dados de uma pesquisa.
2.2 Séries estatísticas
Vídeo Uma tabela na qual existe um critério que a especifica e a diferencia das de-
mais é chamada desérie estatística. Segundo Crespo (2009, p. 26, grifos do original),
“denominamos série estatística toda tabela que apresenta a distribuição de um
conjunto de dados estatísticos em função da época, do local ou da espécie”.
Distribuições de frequência 37
As séries estatísticas podem ser classificadas com base nos seguintes critérios:
• temporais, cronológicas, evolutivas ou históricas;
• geográficas, de localização, territorial ou espacial;
• específicas, categóricas ou de qualidade;
• conjugadas ou mistas;
• de distribuição de frequências.
Em resumo, as séries estatísticas se diferenciam umas das outras de acordo
com a variação de um de seus elementos: tempo (época), local (região geográfica)
e/ou fato (fenômeno estudado). Vejamos essas especificidades a seguir.
2.2.1 Série estatística temporal
As séries estatísticas temporais têm como característica principal a varia-
ção do tempo (época), sendo que o local da pesquisa (região geográfica) e o fato
(fenômeno estudado) permanecem fixos. Portanto, são aquelas em que os dados
são observados ao longo de uma linha do tempo.
Como exemplo, podemos mostrar a estimativa da população residente no Brasil
de 2016 a 2019, representada na seguinte tabela:
Tabela 6579 – População residente estimada
Variável – População residente estimada (pessoas)
Brasil
Ano
2016 2017 2018 2019
206.081.432 207.660.929 208.494.900 210.147.125
Fonte: IBGE, 2020a.
Nesse exemplo podemos perceber que o que varia é a época, isto é, o período de
realização da pesquisa, por isso a denominação série estatística temporal.
2.2.2 Série estatística geográfica
As séries estatísticas geográficas têm como característica principal a varia-
ção do local da pesquisa (região geográfica), sendo que o tempo (época) e o fato
(fenômeno estudado) permanecem fixos. Portanto, são aquelas em que os dados
são observados em diferentes regiões geográficas.
Como exemplo, vamos considerar a tabela a seguir:
38 Estatística e probabilidade: conceitos e aplicações
Ta
be
la
3
.2
. e
Ip
Pr
op
or
çã
o
de
p
es
so
as
d
e
25
a
no
s o
u
m
ai
s d
e
id
ad
e
co
m
1
2
an
os
o
u
m
ai
s d
e
es
tu
do
, p
or
co
r/
ra
ça
, s
eg
un
do
se
xo
–
B
ra
sil
e
R
eg
iõ
es
, 1
99
5
a
20
15
Re
gi
ão
Se
xo
To
ta
l
19
95
19
96
19
97
19
98
19
99
20
01
20
02
20
03
20
04
20
05
20
06
20
07
20
08
20
09
20
11
20
12
20
13
20
14
20
15
Br
as
il
To
ta
l
8,
7
8,
9
9,
3
9,
4
9,
5
10
,1
10
,5
11
,0
11
,2
11
,6
12
,4
13
,0
13
,9
14
,6
15
,4
16
,7
17
,4
18
,2
18
,6
M
as
cu
lin
o
8,
7
8,
9
9,
2
9,
3
9,
4
9,
7
10
,1
10
,4
10
,6
10
,9
11
,5
11
,9
12
,8
13
,6
13
,9
15
,1
15
,8
16
,4
16
,7
Fe
m
in
in
o
8,
6
8,
9
9,
4
9,
4
9,
6
10
,5
10
,9
11
,6
11
,8
12
,3
13
,2
14
,0
14
,8
15
,5
16
,7
18
,1
19
,0
19
,8
20
,2
No
rte
To
ta
l
6,
2
6,
2
6,
4
6,
4
7,
1
6,
8
7,
4
7,
7
6,
8
7,
2
7,
7
8,
9
9,
7
10
,8
11
,6
13
,0
13
,6
14
,1
13
,8
M
as
cu
lin
o
6,
2
5,
9
6,
2
6,
3
7,
0
6,
6
6,
5
6,
6
5,
9
6,
2
6,
5
7,
1
8,
0
9,
1
9,
4
10
,6
11
,2
11
,8
11
,1
Fe
m
in
in
o
6,
1
6,
5
6,
5
6,
5
7,
2
7,
0
8,
3
8,
8
7,
8
8,
2
8,
8
10
,6
11
,3
12
,5
13
,8
15
,3
15
,8
16
,3
16
,4
No
rd
es
te
To
ta
l
4,
8
5,
0
5,
4
5,
2
5,
4
5,
6
5,
9
6,
1
6,
7
6,
8
7,
4
7,
9
8,
7
9,
2
10
,1
11
,2
11
,9
12
,0
12
,5
M
as
cu
lin
o
4,
3
4,
7
4,
9
4,
6
5,
0
4,
9
5,
4
5,
2
5,
6
5,
7
6,
1
6,
4
7,
2
7,
7
8,
3
9,
1
9,
7
9,
5
9,
7
Fe
m
in
in
o
5,
2
5,
3
5,
8
5,
7
5,
8
6,
3
6,
5
6,
8
7,
7
7,
8
8,
5
9,
2
9,
9
10
,6
11
,7
13
,1
13
,7
14
,2
14
,9
Su
de
st
e
To
ta
l
10
,9
11
,3
11
,7
11
,9
11
,8
12
,6
13
,0
13
,6
13
,8
14
,2
15
,2
15
,7
16
,4
17
,3
18
,1
19
,6
20
,2
21
,5
21
,6
M
as
cu
lin
o
11
,2
11
,5
11
,9
12
,2
11
,9
12
,4
12
,8
13
,3
13
,6
13
,9
14
,8
15
,0
15
,9
16
,9
16
,9
18
,7
19
,2
20
,3
20
,6
Fe
m
in
in
o
10
,6
11
,1
11
,5
11
,6
11
,6
12
,8
13
,1
13
,8
13
,9
14
,5
15
,5
16
,3
16
,8
17
,8
19
,1
20
,5
21
,2
22
,6
22
,5
Su
l
To
ta
l
9,
3
9,
0
9,
6
9,
8
10
,1
11
,2
11
,6
12
,2
12
,8
13
,3
14
,0
14
,8
16
,4
16
,7
16
,8
17
,8
19
,2
20
,0
20
,7
M
as
cu
lin
o
9,
6
8,
9
9,
4
9,
5
9,
9
10
,7
11
,2
11
,4
12
,1
12
,5
12
,9
13
,8
15
,2
15
,7
15
,4
16
,3
17
,2
18
,1
18
,9
Fe
m
in
in
o
9,
1
9,
1
9,
7
10
,1
10
,3
11
,6
11
,9
12
,8
13
,4
14
,1
15
,0
15
,7
17
,5
17
,6
18
,1
19
,1
21
,0
21
,6
22
,3
Ce
nt
ro
-
-O
es
te
To
ta
l
8,
3
8,
6
9,
2
9,
4
9,
7
10
,5
11
,4
12
,1
12
,4
13
,0
13
,6
15
,0
15
,8
16
,4
18
,8
19
,5
20
,8
20
,8
22
,4
M
as
cu
lin
o
8,
1
8,
4
8,
7
9,
3
9,
0
9,
8
10
,5
11
,1
11
,5
11
,6
12
,2
13
,7
13
,8
14
,5
16
,9
16
,9
18
,3
18
,3
19
,6
Fe
m
in
in
o
8,
5
8,
7
9,
7
9,
4
10
,3
11
,2
12
,3
13
,0
13
,3
14
,4
14
,8
16
,3
17
,6
18
,2
20
,5
22
,0
23
,1
23
,1
25
,0
Fo
nt
e:
Ipe
a,
20
15
.
Distribuições de frequência 39
Observamos que o fato pesquisado (proporção de pessoas de 25 anos ou mais
de idade com 12 anos ou mais de estudo, segundo sexo) e o tempo da pesquisa (de
1995 a 2015) são fixos, mas os locais (Brasil e regiões) são diferentes. Além disso,
notamos que houve variação nas regiões onde a pesquisa foi elaborada, o que
caracteriza uma série estatística geográfica.
2.2.3 Série estatística específica
As séries estatísticas específicas têm como característica principal a variação do
fato (fenômeno estudado), sendo que o tempo (época) e o local da pesquisa (região
geográfica) permanecem fixos. Portanto, são séries estatísticas em que os fenôme-
nos estudados são diferentes.
Como exemplo, mostramos a tabela a seguir referente à evolução da Balança
Comercial Brasileira no ano de 2019:
BALANÇA COMERCIAL BRASILEIRA – SALDO MENSAL (US$ Bilhões)
MÊS EXPORTAÇÃO IMPORTAÇÃO SALDO MENSAL
Jan. 18,002 16,388 1,614
Fev. 15,737 12,622 3,116
Mar. 17,429 13,133 4,296
Abr. 19,282 13,629 5,653
Maio 20,592 14,968 5,624
Jun. 18,406 13,029 5,377
Jul. 20,151 17,759 2,391
Ago. 19,670 15,570 4,100
Set. 20,298 16,495 3,803
Out. 19,577 17,027 2,550
Nov. 17,737 14,172 3,565
Dez. 18,503 12,556 5,947
Fonte: ADVFN, 2019.
Ao longo do ano em questão, a Balança Comercial Brasileira apresentou
superávit de US$ 48,036 bilhões. Esse resultado positivo é fruto de exportações que
totalizaram US$ 225,383 bilhões e importações que somaram US$ 177,348 bilhões.
Os valores de exportação, de importação e do saldo da balança estão descritos em
bilhões de dólares.
2.2.4 Série estatística conjugada
As séries estatísticas conjugadas combinam séries estatísticas temporais, geo-
gráficas e/ou específicas. Podem, portanto, variar o tempo (época), o local (região
geográfica) e/ou o fato (fenômeno estudado) simultaneamente.
Vemos a seguir um exemplo de uma série estatística conjugada que indica os
tipos de rebanho que o Brasil possuía em 2018, separados pelas grandes regiões
brasileiras – Norte, Nordeste, Sudeste, Sul e Centro-Oeste.
40 Estatística e probabilidade: conceitos e aplicações
Tabela 3939 – Efetivo dos rebanhos, por tipo de rebanhos
Variável – Efetivo dos rebanhos (cabeças)
Ano – 2018
Grande região
Tipo de rebanho
Bovino Bubalino Equino Suíno Caprino Ovino Galináceos Codornas
Norte 48.614.446 922.638 981.739 1.563.123 162.024 665.370 47.460.618 141.764
Nordeste 27.836.012 125.307 1.340.456 5.740.314 10.047.575 12.634.412 171.896.394 2.083.922
Sudeste 37.111.436 188.085 1.373.299 7.006.826 164.338 610.784 372.416.516 10.777.832
Sul 26.122.755 100.753 915.347 20.594.238 220.455 4.010.916 689.267.509 2.901.754
Centro-Oeste 73.838.407 53.283 1.140.957 6.539.093 102.272 1.027.452 187.310.490 935.252
Fonte: IBGE – Pesquisa da Pecuária Municipal
Notas
1 – Os municípios sem informação para pelo menos um efetivo de rebanho não aparecem nas linhas.
2 – Efetivos dos rebanhos em 31/12.
3 – Os dadossobre matrizes de suínos só estão disponíveis a partir de 2013.
4 – Os dados do último ano divulgado são RESULTADOS PRELIMINARES e podem sofrer alterações até a próxima divulgação.
Fonte: IBGE, 2018a.
A tabela em questão é uma série estatística conjugada, pois temos as variações
de local e fenômeno estudado, ficando fixa a época da pesquisa (2018).
2.2.5 Séries estatísticas de distribuição de frequências
Quando estudamos determinado conjunto de dados, seja ele qual for, nosso
maior interesse deve ser o de conhecermos o comportamento da variável em estu-
do, analisando-a com cuidado e isenção.
Entre os tipos existentes de séries estatísticas, talvez as séries estatísticas
de distribuição de frequências sejam as mais importantes dentro da Estatística
descritiva. Trata-se de séries específicas, nas quais os dados estão dispostos em
classes, ou em intervalos de classes, com suas respectivas frequências simples
ou absolutas.
Se estivermos estudando grandes conjuntos de dados, é conveniente que os or-
ganizemos em uma tabela que nos mostre a frequência simples, ou seja, o número
de vezes que cada um ocorre.
Nesse sentido, podemos classificar as séries estatísticas de distribuição de fre-
quências em:
• séries de distribuição de frequências de dados qualitativos;
• séries de distribuição de frequências de dados quantitativos discretos;
• séries de distribuição de frequências de dados quantitativos contínuos.
A partir de agora vamos nos dedicar ao estudo desse tipo de séries estatísticas,
que designaremos apenas como distribuições de frequências.
Distribuições de frequência 41
2.3 Distribuições de frequência de dados qualitativos
Vídeo Os dados estatísticos podem ser classificados em qualitativos ordinais e
qualitativos nominais. As variáveis qualitativas ordinais já estão obedecendo a
uma ordem, por exemplo, ótimo, bom, regular e ruim. Já as variáveis qualitativas
nominais são identificadas por seus nomes, por exemplo, cores (rosa, azul, verme-
lho, amarelo etc.) ou marcas de veículos, de bebidas, entre outros, sem referência
a valores numéricos.
Para determinarmos a distribuição de frequências que envolva variáveis quali-
tativas, sejam ordinais ou nominais, devemos contar quantas vezes cada variável
aparece em uma relação de dados estatísticos.
2.3.1 Variável qualitativa ordinal
Sobre esse tipo de variável, acompanhemos o exemplo a seguir:
O proprietário de um estabelecimento comercial (loja A) resolveu fazer um levantamento
para identificar o grau de satisfação de seus clientes com relação ao atendimento dado a
eles pelos funcionários. Para tanto, colocou um totem ao lado da saída dos caixas, no qual
os clientes poderiam avaliar o atendimento que tiveram.
Nesse totem os clientes poderiam escolher entre as seguintes opções:
RuimRegularBomÓtimo
Ao término do expediente, o proprietário verificou que 48 clientes haviam respondido à en-
quete, e as avaliações dadas geraram o seguinte quadro-resumo:
Quadro 4
Respostas dos clientes da loja A (10/08/2020)
Ótimo Bom Ótimo Bom Bom Bom Ótimo Bom
Bom Bom Regular Bom Ótimo Ruim Ótimo Regular
Regular Ruim Ótimo Bom Ótimo Bom Regular Ruim
Ótimo Bom Bom Ruim Regular Ótimo Bom Bom
Ótimo Regular Bom Bom Bom Bom Ruim Bom
Bom Ótimo Bom Bom Ótimo Regular Bom Bom
Fonte: Elaborado pelo autor.
Se elaborarmos uma tabela de distribuição de frequências que represente a situação expos-
ta, obteremos:
Tabela 1
Distribuição de frequências: respostas dos clientes da loja A (10/08/2020)
Grau de satisfação fi
Ótimo 12
Bom 24
Regular 7
Ruim 5
Total 48
Fonte: Elaborada pelo autor.
42 Estatística e probabilidade: conceitos e aplicações
Obtivemos as frequências simples contando quantas vezes cada uma das pa-
lavras que exprimem o grau de satisfação do cliente aparece no quadro-resumo
elaborado pelo proprietário do estabelecimento comercial.
2.3.2 Variável qualitativa nominal
Agora, vamos observar o exemplo a seguir, no qual temos uma variável qualita-
tiva nominal:
O professor da disciplina de Estatística e Probabilidade decidiu fazer um levantamento com
seus alunos matriculados na turma A para verificar qual a marca de smartphone que eles
possuíam.
Como a turma A tem 60 alunos, o levantamento solicitado pelo professor resultou na seguin-
te relação:
Quadro 5
Relação de smartphones dos alunos da turma A
Samsung LG Motorola LG Motorola
Motorola Samsung Nokia Apple Nokia
Apple Samsung LG Motorola Apple
LG Motorola Samsung Samsung Motorola
Samsung Apple Sony Samsung LG
Nokia Samsung LG Samsung Apple
Sony Nokia Samsung LG Motorola
LG Samsung Samsung Samsung Samsung
Apple Apple LG Samsung Sony
Samsung Samsung LG Samsung Samsung
Sony Samsung Nokia Samsung LG
Motorola Motorola Apple LG Samsung
Fonte: Elaborado pelo autor.
O docente elaborou uma tabela de distribuição de frequências com o objetivo de melhor
visualizar as quantidades de cada uma das marcas de celulares que seus alunos possuíam.
A tabela ficou com o seguinte formato:
Tabela 2
Levantamento de marcas de smartphone dos alunos da turma A
Marca fi
Samsung 22
Apple 8
Motorola 9
LG 12
Nokia 5
Sony 4
Total 60
Fonte: Elaborada pelo autor.
Acesse o QR Code a seguir para
obter os diferentes tipos de
distribuições de frequência de
dados qualitativos utilizando o
programa Microsoft Excel:
Na prática
Distribuições de frequência 43
De maneira semelhante à utilizada no exemplo anterior, obtivemos as frequên-
cias simples contando quantas vezes cada uma das marcas de smartphones que
os alunos possuem.
2.4 Distribuições de frequência de dados quantitativos
Vídeo Temos também a possibilidade de trabalharmos em nossas pesquisas com con-
juntos de dados quantitativos, sejam discretos ou contínuos – estes últimos vere-
mos adiante nesta obra. Esses tipos de dados gerados pelas pesquisas podem, e
devem, ser tabulados, ou seja, ser colocados em formato tabular de uma distribui-
ção de frequência.
2.4.1 Dados quantitativos discretos
Para exemplificarmos a distribuição de frequência de dados quantitativos dis-
cretos, consideremos o exemplo a seguir:
A relação de notas dos alunos da turma A da disciplina de Estatística e Probabilidade, já
trabalhada anteriormente, pode ser disposta da seguinte maneira:
Tabela 3
Notas e frequências simples dos alunos da turma A da disciplina de Estatística e Probabilidade
Notas fi
3 1
4 4
5 6
6 9
7 10
8 9
9 5
10 6
Total 50
Fonte: Elaborada pelo autor.
Agora, vejamos o próximo exemplo:
Na relação a seguir temos as idades de 75 pessoas que frequentaram uma das lanchonetes
da praça de alimentação de um shopping center B durante as duas primeiras horas de fun-
cionamento da lanchonete:
(Continua)
44 Estatística e probabilidade: conceitos e aplicações
20 – 35 – 11 – 14 – 17 – 19 – 32 – 12 – 33 – 33 – 34 – 34 – 27 – 26 – 22 – 20 – 31 – 31 – 37 –
37 – 33 – 33 – 27 – 25 – 30 – 35 – 22 – 22 – 21 – 36 – 27 – 36 – 21 – 22 – 18 – 31 – 39 – 20 –
34 – 34 – 27 – 26 – 26 – 21 – 17 – 25 – 26 – 21 – 22 – 21 – 18 – 17 – 10 – 36 – 34 – 27 – 27 –
32 – 11 – 36 – 15 – 16 – 30 – 32 – 38 – 34 – 33 – 21 – 31 – 17 – 22 – 27 – 18 – 26 – 25
Se montarmos o rol correspondente aos dados obtidos, com ordem crescente de dados,
teremos:
10 – 11 – 11 – 12 – 14 – 15 – 16 – 17 – 17 – 17 – 17 – 18 – 18 – 18 – 19 – 20 – 20 – 20 – 21 –
21 – 21 – 21 – 21 – 21 – 22 – 22 – 22 – 22 – 22 – 22 – 25 – 25 – 25 – 26 – 26 – 26 – 26 – 26 –
27 – 27 – 27 – 27 – 27 – 27 – 27 – 30 – 30 – 31 – 31 – 31 – 31 – 32 – 32 – 32 – 33 – 33 – 33 –
33 – 33 – 34 – 34 – 34 – 34 – 34 – 34 – 35 – 35 – 36 – 36 – 36 – 36 – 37 – 37 – 38 – 39
Agora, se colocarmos esses dados (as idades) em formato tabular, teremos:
Tabela 4
Idades de 75 pessoas que frequentaram a lanchonete A do shopping center B (10h às 12h)
Idades Frequência (f)
10 1
11 2
12 1
14 1
15 1
16 1
17 4
18 3
19 1
20 3
21 6
22 6
25 3
26 5
27 7
30 2
31 4
32 3
33 5
34 6
35 2
36 4
37 2
38 1
39 1
Total 75
Fonte: Elaborada pelo autor.
Utilize o Microsoft Excel parapraticar e obter este rol dos
dados da relação das idades.
Importante
Distribuições de frequência 45
Para tabelas grandes com uma quantidade expressiva de dados, como nesse
exemplo, é comum as dividirmos em classes ou categorias de frequências. Para obter-
mos a quantidade de classes (de intervalos) que nossa tabela terá, devemos dividir a
amplitude total, representada por AT, dos dados em certa quantidade de intervalos.
Na situação que estamos exemplificando teremos:
AT = 39 – 10 ∴ AT = 29 anos
Observação: as classes ou categorias de frequência são as subdivisões da amplitude total.
Precisamos estar cientes de que não existe um consenso entre estatísti-
cos no que diz respeito à quantidade de classes em que devemos dividir uma
quantidade de dados estatísticos. Muitos orientam que devemos ter de 8 a 16
intervalos de classes; outros indicam de 5 a 20. Há também estatísticos que uti-
lizam a fórmula de Sturges 4 , ou regra empírica de Sturges, para determinar a
quantidade de classes, representada por k, que uma tabela deve ter:
k = 1 + 3,322 · log (n)
• em que n representa a quantidade total de dados da pesquisa.
Se utilizarmos essa fórmula para determinar a quantidade de classes que nossa
tabela deve ter, obteremos:
k = 1 + 3,322 · log (n) ∴ k = 1 + 3,322 · log (75) ∴
k = 1 + 3,322 · 1,87506126 ∴ k = 7,22895352
Como a quantidade de classes deve ser um número natural, pois representa a
quantidade de linhas que a tabela possuirá, devemos proceder ao arredondamento
do valor de k para cima. Com isso, garantimos que nenhum dos dados fique de fora
da contagem. O exemplo no qual estamos trabalhando o arredondamento produzirá
k = 8.
Depois de determinarmos a quantidade de classes, a maneira mais utilizada
para encontrarmos a amplitude dos intervalos de classe, que representaremos
pela letra minúscula h, é realizando a seguinte divisão h = AT
k
.
amplitude total: é a diferença
entre o menor e o maior valor
numérico que consta do rol.
Glossário
Herbert Arthur Sturges (1882-1958):
matemático e estatístico alemão.
4
Sturges utilizou a letra k para designar
a quantidade de classes, pois, em
alemão, classe se escreve klasse.
Curiosidade
46 Estatística e probabilidade: conceitos e aplicações
Assim, no exemplo que estamos resolvendo teremos:
h = AT
k
∴ h = 39� �10
7,22895352...
− ∴ h = 4,01164566...
Para elaborarmos a tabela do exemplo, devemos colocar a amplitude dos inter-
valos de classe como um número natural, sem casas decimais, já que estamos tra-
balhando com idades, e na relação dos dados que possuímos elas estão em anos e
sem casas decimais.
Assim, a nossa tabela ficará da seguinte forma:
Tabela 5
Idades de 75 pessoas que frequentaram a lanchonete A do shopping center B (10h às 12h)
Idades Frequência (f)
10 14 4
14 18 7
18 22 13
22 26 9
26 30 12
30 34 14
34 38 14
38 42 2
Total 75
Fonte: Elaborada pelo autor.
Há quatro formas de representarmos os intervalos de classe:
• → as extremidades do intervalo fazem parte do mesmo intervalo.
• → as extremidades do intervalo não fazem parte do mesmo intervalo.
• → a extremidade à esquerda faz parte do intervalo, mas a extremidade
à direita, não.
• → a extremidade à direita faz parte do intervalo, mas a extremidade à
esquerda, não.
As mais utilizadas são:
• → para os intervalos da primeira à penúltima classe.
• → para o último intervalo. Esse tipo de intervalo denomina-se intervalo
de classe fechado.
Nesse tipo de representação dos intervalos de classe devemos saber que os
valores numéricos que estão à esquerda e à direita dos símbolos são denominados
limites de classe, sendo o limite inferior o valor que está à esquerda e o limite supe-
rior o valor que está à direita.
Caso os dados que estivermos
pesquisando estejam colocados
em números que apresentam
certo grau de precisão, ou seja,
sejam valores que apresentam
casas decimais, o valor da am-
plitude dos intervalos de classe
deverá apresentar o mesmo grau
de precisão dos dados, isto é, a
mesma quantia de casas decimais
dos dados originais da pesquisa.
Importante
Distribuições de frequência 47
Assim, no intervalo 10 14 (primeira classe de nosso exemplo) o limite inferior
é 10 e o limite superior é 13,9 com aproximação de décimos e 13,99 com aproxima-
ção de centésimos. É evidente que para estabelecermos esse limite de classe (o limite
superior) ficamos na dependência do grau de precisão que estivermos trabalhando.
Caso estejamos utilizando o intervalo 38 42, o limite inferior da classe será
o valor 38 e o limite superior será o valor 42.
Outro elemento que devemos reconhecer são as marcas de classe ou os
pontos médios de classes, que são os pontos intermediários dos intervalos de
classe. Para obtê-los devemos adicionar o limite inferior de uma classe ao limite
superior da mesma classe e dividir o resultado por 2.
Ao fazermos a representação tabular de uma distribuição de frequências há
a possibilidade de registrarmos as frequências acumuladas “até e inclusive” ou
“abaixo de”, que são as frequências totais de todos os valores inferiores ao limite
superior de um dado intervalo de classe. Podemos também registrar as frequên-
cias acumuladas “acima de”, que são as frequências acumuladas de todos os valo-
res superiores ou iguais ao limite inferior de cada intervalo de classe.
Voltemos ao exemplo das pessoas que frequentaram a lanchonete do shopping
center.
Ao colocarmos todas as informações em formato tabular utilizando intervalos de classe,
obteremos:
Tabela 6
Idades de 75 pessoas que frequentaram a lanchonete A do shopping center B (10h às 12h)
Idades fi fi (%)
fa fa (%)
abaixo de acima de abaixo de acima de
10 14 4 5,33 4 75 5,33 100,00
14 18 7 9,33 11 71 14,67 94,67
18 22 13 17,33 24 64 32,00 85,33
22 26 9 12,00 33 51 44,00 68,00
26 30 12 16,00 45 42 60,00 56,00
30 34 14 18,67 59 30 78,67 40,00
34 38 14 18,67 73 16 97,33 21,33
38 42 2 2,67 75 2 100,00 2,67
Total 75 100,00 ------ ------ ------ ------
Fonte: Elaborada pelo autor.
A tabela desse exemplo é bastante completa e nos informa a respeito de vários
tipos de frequências, simples ou acumuladas.
Para a finalidade das análises
matemáticas que faremos posterior-
mente, admitiremos que todas as
observações relativas a determinado
intervalo de classe coincidem com o
ponto médio desta classe.
Importante
Quando não especificarmos que
tipo de frequência acumulada
devemos estabelecer, dizendo
somente frequência acumulada,
estamos nos reportando às fre-
quências acumuladas “abaixo de”.
Importante
Acesse o QR Code a seguir para
obter os diferentes tipos de
distribuições de frequência de
dados quantitativos utilizando o
programa Microsoft Excel:
Na prática
48 Estatística e probabilidade: conceitos e aplicações
2.5 Representação gráfica
Vídeo A representação gráfica pode ser considerada um complemento da apresenta-
ção dos dados em forma de tabelas. Essa forma de apresentação permite a visuali-
zação rápida do fenômeno que está sendo estudado.
De acordo com Crespo (2009, p. 38, grifos do original), “o gráfico estatístico é uma
forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no inves-
tigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em
estudo, já que os gráficos falam mais rápido à compreensão que as séries”.
Magalhães e Lima (2004, p. 11) corroboram essa explanação e complementam:
“meios de comunicação apresentam, diariamente, gráficos das mais variadas for-
mas para auxiliar na apresentação das informações. Órgãos públicos e empresas se
municiam de gráficos e tabelas em documentos internos e relatórios de atividade e
desempenho”.
Todo gráfico, assim como as tabelas, deve ter em sua parte superior um título, e em
sua parte inferior a fonte e, se for o caso, outras informações que se façam necessárias,
como as notas explicativas.
É importante sabermos que as características principais dos gráficos são:
simplicidade, clareza e veracidade.Crespo (2009, p. 38, grifos do original) nos auxilia
a entender melhor essas características:
a. Simplicidade – o gráfico deve ser destituído de detalhes de importância se-
cundária, assim como traços desnecessários que possam levar o observador a
uma análise morosa ou com erros.
b. Clareza – o gráfico deve possibilitar uma correta interpretação dos valores
representativos do fenômeno em estudo.
c. Veracidade – o gráfico deve expressar a verdade sobre o fenômeno em estudo.
Devemos tomar muito cuidado com esses três atributos. É importante procurar-
mos segui-los o mais fielmente possível. Além disso, devemos estar cientes de que
as ilustrações – gráficos são considerados ilustrações – devem sempre ser inseridas o
mais próximo possível do texto a que se referem.
Salientamos que qualquer gráfico pode receber várias contribuições dependendo
do particular que desejamos ressaltar. Explanaremos as maneiras mais simplificadas
de se confeccionar os gráficos mais usualmente utilizados, principalmente ao se utilizar
recursos computacionais e programas específicos existentes.
2.6 Regras para execução de um gráfico
Vídeo Quando desejarmos colocar as informações da análise em formato de uma re-
presentação gráfica, ou seja, ao nos propormos a confeccionar um gráfico, deve-
mos levar em consideração as seguintes regras:
Distribuições de frequência 49
I. O título deve ser o mais claro e completo possível, podendo ser acrescentado um subtítulo, se
for necessário.
II. O título à pergunta “O quê?” e o subtítulo à pergunta “Onde e quando?”.
III. A orientação do gráfico deve ser da esquerda para a direita e de baixo para cima.
IV As quantidades devem ser representadas com grandezas lineares (as representações por áreas
e volumes podem induzir a interpretações errôneas).
V. Sempre que possível, a escala vertical deve ser escolhida de modo a aparecer a linha
correspondente ao zero.
VI. A linha correspondente ao zero deve ser diferente das demais que figurarem no gráfico.
VII. Deve-se fazer sobressair a base de comparação (1 ou 10 ou 1.000 etc.), sendo possível
dispensar-se, nesse caso, a linha zero.
VIII. Se o período representado não é uma unidade de tempo completa, convém não figurar a escala
do lado direito, para significar que o diagrama não representa o final do tempo.
IX. Só devem ser incluídas no gráfico as coordenadas indispensáveis para guiar a vista do leitor.
X. As linhas curvas do diagrama devem ser traçadas distintamente para que sejam diferenciadas
das demais.
XI. Os títulos e as marcações do gráfico devem estar dispostos de maneira legível, partindo da
margem horizontal inferior ou da esquerda.
XII. Se um diagrama incluir duas linhas, é conveniente que sejam de cores diferentes.
XIII. Quando se executar algum sombreado por meio de traços, é preciso evitar as ilusões de ótica e
os efeitos que possam se tornar desagradáveis à vista; o mesmo vale para as cores.
Sabemos que são muitas regras, mas devemos sempre estar atentos e ter em
mente que as características principais dos gráficos devem ser contempladas:
simplicidade, clareza e veracidade.
2.7 Tipos de representações gráficas
Vídeo Existem uma infinidade de tipos de representações gráficas. As mais usuais são
os diagramas, os gráficos pictóricos e os cartogramas. Vamos nos ater ao estudo
desses tipos.
2.7.1 Diagramas
De acordo com Crespo (2009, p. 38, grifo do original), “os diagramas são gráfi-
cos geométricos de, no máximo, duas dimensões; para sua construção, em geral,
fazemos uso do sistema cartesiano”.
Os principais tipos de diagramas são:
• gráficos em colunas ou em barras;
• gráficos em linha ou em curva;
• gráficos em setores circulares;
• gráficos de pontos.
50 Estatística e probabilidade: conceitos e aplicações
De cada um desses tipos de gráficos podemos ter variações que ficam a critério
de quem os estiver elaborando. A seguir vamos aprender como construí-los.
2.7.1.1 Gráficos em colunas ou em barras
Os gráficos em colunas são bastante utilizados na representação de séries tem-
porais, geográficas e específicas. Nesse tipo de gráfico devemos ter um par de eixos
ortogonais, ou seja, um sistema de eixos cartesianos em que:
• o eixo horizontal, denominado eixo das abscissas, tem sua escala crescente da
esquerda para a direita a partir da origem (interseção dos eixos horizontal e
vertical);
• o eixo vertical, denominado eixo das ordenadas, tem sua escala crescente de
baixo para cima a partir da origem.
Em seguida, colocamos o nome da variável que está sendo representada no
eixo das abscissas (eixo horizontal) e da que está sendo representada no eixo das
ordenadas (eixo vertical). Também devemos inserir um título para o gráfico e citar
a fonte da qual os dados são provenientes.
Para exemplificar esse tipo de representação gráfica faremos a represen-
tação em colunas das notas dos alunos da turma A da disciplina de Estatística e
Probabilidade, registradas no primeiro quadro da Seção 2.1.3.
Gráfico 1
Notas da turma A da disciplina de Estatística e Probabilidade
Q
ua
nt
id
ad
e
de
a
lu
no
s
Notas
0
1
2
3
3 4 5 6 7 8 9 10
4
5
6
7
8
9
10
Fonte: Elaborado pelo autor.
Para os gráficos em barras vamos fazer a mesma representação das notas dos
alunos da turma A da disciplina de Estatística e Probabilidade, também do primeiro
quadro da Seção 2.1.3.
Distribuições de frequência 51
Gráfico 2
Notas da turma A da disciplina de Estatística e Probabilidade
Quantidade de alunos
N
ot
as
3
3210 4 5 6 7 8 9 10
4
5
6
7
8
9
10
Fonte: Elaborado pelo autor.
Os gráficos em barras são muito semelhantes aos gráficos em colunas, sendo
que os retângulos representativos da variável em estudo se posicionam na hori-
zontal. São também muito utilizados para a representação de séries temporais,
geográficas e específicas.
2.7.1.2 Gráficos em linha ou em curva
Nesse tipo de gráfico estatístico utilizamos uma linha poligonal para representar
os dados da série estatística, sendo muito semelhante a representações de funções
matemáticas em um sistema de eixos cartesianos.
Depois de marcarmos nesse sistema de eixos todos os pontos da série esta-
tística utilizando suas coordenadas, devemos ligá-los dois a dois por intermédio
de segmentos de reta. Todos os segmentos formarão uma poligonal, denominada
gráfico em linha ou em curva, que corresponde à série estatística em estudo.
Para exemplificação, consideremos o gráfico a seguir:
Produção em toneladas de soja no Brasil – 2019
115.000.000
114.500.000
114.000.000
113.500.000
113.000.000
112.500.000
112.000.000
11.500.000
11.000.000
Jan
eir
o
Fe
ve
rei
ro
Març
o
Abril
Maio
Junho
Julho
Ago
sto
Se
tem
bro
Outubro
Nove
mbro
Dez
em
bro
Fonte: IBGE, 2019.
Acesse o QR Code a seguir para
obter os diferentes tipos de gráficos
em colunas ou barras utilizando o
programa Microsoft Excel:
Na prática
Acesse o QR Code a seguir para
obter os diferentes tipos de gráficos
em linha ou em curva utilizando o
programa Microsoft Excel:
Na prática
52 Estatística e probabilidade: conceitos e aplicações
No exemplo, o gráfico representa a produção de soja brasileira (em toneladas)
no ano de 2019.
2.7.1.3 Gráficos em setores circulares
Esse tipo de gráfico, de setores circulares ou simplesmente gráfico de setores,
também denominado diagrama circular, é popularmente conhecido como gráfico
em formato de pizza.
Para confeccionarmos gráficos desse tipo utilizamos uma representação circu-
lar (um círculo) que deveremos dividir em setores circulares, cada um representan-
do a “fatia da pizza” correspondente.
Para tanto, devemos:
1. Traçar uma circunferência, sabendo que a área do círculo corresponde ao
todo, ou seja, a 100% do que está sendo pesquisado.
2. A seguir, dividir o círculo em setores circulares (as “fatias da pizza”), cujas
áreas devem ser proporcionais aos valores da série estatística que se está re-
presentando. Para obter essa proporcionalidade, deve-se resolver uma regra
de trêssimples, ou seja: o total → 360º; a parte → xº.
3. Cada setor circular deverá ser preenchido com uma cor diferente, ou de uma
maneira diferente, para diferenciá-lo dos demais.
4. Pode-se também apresentar uma legenda, discriminando o que cada cor ou
tipo de preenchimento representa.
Como exemplo, vejamos o gráfico a seguir:
Total de rebanho suíno no Brasil (cabeças), por região, em 2018
20.594.238
6.539.093 1.563.123
5.740.314
7.006.826
Centro-OesteNorte Nordeste Sudeste Sul
Fonte: IBGE, 2018b.
Acesse o QR Code a seguir para
obter os diferentes tipos de gráficos
em setores circulares utilizando o
programa Microsoft Excel:
Na prática
Distribuições de frequência 53
Nesse exemplo, o gráfico representa a quantidade de cabeças do rebanho suí-
no brasileiro, por região, no ano de 2018. O levantamento foi feito pelo Instituto
Brasileiro de Geografia e Estatística (IBGE).
2.7.1.4 Gráficos de pontos
Os gráficos de pontos são úteis para mostrar dados quantitativos de forma or-
ganizada, pois utilizam diversos pontos na organização.
Para exemplificar, vamos utilizar os dados de uma pesquisa realizada com 20
famílias em relação à quantidade de filhos que elas possuem. Após o levantamen-
to, obtivemos os dados representados na tabela de distribuição de frequências a
seguir:
Tabela 7
Frequência da quantidade de filhos de 20 famílias
Filhos fi
0 4
1 5
2 7
3 3
4 0
5 1
Total 20
Fonte: Elaborada pelo autor.
Ao fazermos a representação com um gráfico de pontos, obtemos:
Gráfico 3
Número de filhos em 20 famílias
Quantidade de filhos
Q
ua
nt
id
ad
e
de
fa
m
ília
s
0 1 2 3 4 5
0
1
2
3
4
5
6
7
8
Fonte: Elaborado pelo autor.
Se olharmos atentamente, esse tipo de gráfico nos informa no eixo horizontal
as famílias que possuem cada quantidade de filhos especificada. Essa informação
é dada pela quantidade de pontos nas linhas verticais (imaginárias) que saem de
cada quantidade de filhos.
54 Estatística e probabilidade: conceitos e aplicações
2.7.2 Gráficos pictóricos
Esses são gráficos de cunho fantasioso, que também recebem o nome de
pictogramas. São muito utilizados pelos meios de comunicação – revistas, jornais,
páginas da internet, entre outros. Com a finalidade de tornar os gráficos mais
atraentes, as informações a serem passadas aos leitores são ilustradas com figuras
que estejam ligadas às informações que se deseja fornecer.
Nesse tipo de representação, assim como em todos os tipos de gráficos, as di-
mensões das imagens utilizadas devem ser proporcionais aos dados apresentados,
pois, segundo Magalhães e Lima (2004, p. 12):
um gráfico desproporcional em suas medidas pode dar falsa impressão de
desempenho e conduzir a conclusões equivocadas. Obviamente, questões
de manipulação incorreta da informação podem ocorrer em qualquer área e
não cabe culpar a Estatística. O uso e a divulgação ética e criteriosa de dados
devem ser pré-requisitos indispensáveis e inegociáveis.
O exemplo a seguir traz informações retiradas da Pesquisa Nacional por Amostra
de Domicílios (PNAD, IBGE).
Gráfico 4
Rendimento médio nominal do trabalho principal, por trimestre
O gráfico mostra o rendimento médio nominal do trabalho principal, habitualmente recebido
por mês, pelas pessoas de 14 anos ou mais de idade, ocupada na semana de referência, com
rendimento de trabalho (Reais), no Brasil, por trimestres.
2.340
2.320
2.300
2.280
2.260
2.240
2.220
2.200
2.180
2.160
2.140
1º trimestre
de 2019
2º trimestre
de 2019
3º trimestre
de 2019
4º trimestre
de 2019
1º trimestre
de 2020
2.216 2.214
2.223
2.261
2.323
Fonte: Elaborado pelo autor com base em IBGE, 2020c.
Esse tipo de representação gráfica é muito atrativo e gera grande impacto visual
nos leitores, mas normalmente apresenta pouca precisão.
2.7.3 Cartogramas
Um cartograma é a representação de dados estatísticos sobre um mapa, uma
carta geográfica. Segundo Rodrigues (1970, p. 27), trata-se de uma:
categoria de representação de fenômenos estatísticos e outros, sobre car-
tas ou modelos geográficos, por meio de relação convencional entre as
magnitudes a serem representadas e as modalidades de um elemento
pictórico, como sejam as diversas cores, as tonalidades de uma mesma cor,
os diversos tipos de tracejado, pontos, cruzes, etc. A relação convencional
adotada é inscrita na “legenda” do gráfico.
Agora é hora de praticar! Se você
quer saber mais sobre gráficos
de pontos e pictóricos, acesse o
QR Code a seguir e divirta-se.
Na prática
Distribuições de frequência 55
Muitas vezes os cartogramas são gráficos grandes e que devem ser obser-
vados com cautela e cuidado. O exemplo a seguir é relativo à taxa de urbaniza-
ção do ano de 2007. Podemos visualizar três cartogramas: o maior, com a taxa
de urbanização dos municípios com mais de 50.000 habitantes; e outros dois
menores, um com as taxas de urbanização de municípios com até 10.000 habi-
tantes e outro com a taxa de urbanização dos municípios de 10.001 até 50.000
habitantes. Há também uma tabela com a evolução da população urbana e rural
por situação de domicílio no Brasil, de 1940 a 2007. Esses cartogramas foram
produzidos pelo IBGE.
Além dos municípios com mais de 50.000 habitantes, foram aqui consideradas as aglomerações urbanas constituídas por municípios limítrofes que
alcançaram ou ultrapassaram esse número de habitantes (IBGE, 2007).
Fonte: IBGE, 2007.
A visualização desse cartograma em uma única página não é das mais precisas,
sendo realmente difícil verificar as informações contidas. Contudo, se houver curio-
sidade, é possível acessar o portal do IBGE 5 para realizar o download do cartogra-
ma e checar as informações detalhadamente.
Disponível em: https://
portaldemapas.ibge.gov.br/portal.
php#mapa871. Acesso em: 19
nov. 2020.
5
https://portaldemapas.ibge.gov.br/portal.php#mapa871
https://portaldemapas.ibge.gov.br/portal.php#mapa871
https://portaldemapas.ibge.gov.br/portal.php#mapa871
56 Estatística e probabilidade: conceitos e aplicações
2.8 Histogramas
Vídeo Os histogramas são gráficos que representam distribuições de frequência com
intervalos de classe, semelhantes a um gráfico de colunas, mas com estas grudadas
umas nas outras. Segundo Rodrigues (1970, p.142), os histogramas são:
tipos de representação gráfica próprios às d.f.’s que se obtém construindo
tantos retângulos contíguos quantas são as classes da distribuição e tais que
suas bases colineares sejam proporcionais às amplitudes de classe e suas
áreas proporcionais às respectivas frequências, ou bem, suas alturas propor-
cionais às densidades de frequência; se as amplitudes de classe forem todas
iguais, podem-se tomar as alturas dos retângulos proporcionais simplesmen-
te às frequências.
Os retângulos que compõem um histograma deverão ter as bases sobre um
eixo horizontal, sendo que cada um é delimitado à esquerda pelo limite inferior do
intervalo da classe e à direita pelo limite superior.
Podemos acrescentar a um histograma uma linha que o contorne, mais forte
que as demais e que recebe a denominação de poligonal característica. A área sob a
poligonal característica corresponde à frequência total.
Se demarcarmos os pontos médios das bases superiores de cada um dos re-
tângulos de um histograma e unirmos, dois a dois, esses pontos por segmentos de
retas, obtemos o que chamamos de polígono de frequência.
Para exemplificar, vamos mostrar o histograma e o polígono de frequência das
notas dos alunos da turma A da disciplina de Estatística e Probabilidade que já tra-
balhamos anteriormente.
Gráfico 5
Notas da turma A da disciplina de Estatística e Probabilidade
Nota
Fr
eq
uê
nc
ia
s
2
3 4 5 6 7 8 9 10
4
6
8
10
Histograma e polígono de frequência
0
Fonte: Elaborado pelo autor.
Os histogramas são gráficos muito utilizados em Estatística, por isso é importan-
te sabermos como montá-los. Também é importante verificarmos, para posterior
análise, as informações contidas neles.
d.f.’s: abreviatura para distribuiçãode frequências.
Glossário
Acesse o QR Code a seguir para
obter os diferentes tipos de his-
togramas utilizando o programa
Microsoft Excel:
Na prática
Distribuições de frequência 57
CONSIDERAÇÕES FINAIS
Este capítulo foi dedicado ao estudo da tabulação dos dados estatísticos. Traba-
lhamos com dados brutos, rol e frequências simples, acumuladas e relativas. Além
disso, vimos como resumir os dados de uma pesquisa em quadros-resumo e/ou em
tabelas, com as diferenças existentes entre essas duas formas de resumo dos dados
estatísticos.
Passamos, assim, a abordar as séries estatísticas e seus diferentes tipos, chegando
às séries estatísticas de distribuições de frequências, sejam elas qualitativas ou quanti-
tativas, discretas ou contínuas. Por fim, culminamos nosso estudo com os mais usuais
tipos de representações gráficas.
Esperamos que os diversos tópicos de estudo abordados tenham despertado seu
interesse em continuar seus estudos nesta importante ciência: a Estatística.
ATIVIDADES
1. Assinale (V) para verdadeiro e (F) para falso os itens a seguir:
( ) A relação dos dados brutos representa a ordem exata em que os dados
foram obtidos em uma pesquisa.
( ) Rol é a relação dos resultados primitivos obtidos em uma pesquisa e que já
foram colocados em ordem numérica, seja ela crescente ou decrescente.
( ) Frequência absoluta ou simples de um dado estatístico pertencente a
determinado conjunto de dados, é o número de vezes que esse valor ocorre
nesse conjunto.
( ) As frequências acumuladas relativas representam a relação entre as frequências
absolutas e o total de todas as frequências em formato percentual.
( ) A amplitude total dos dados de uma distribuição de frequências é a diferença
entre o último valor da relação primitiva dos dados brutos e o primeiro valor
numérico desta relação.
2. Relacione corretamente os itens da segunda coluna de acordo com os itens da primeira:
( a ) Série estatística geográfica ( ) Sua característica principal é a variação
do tempo (época); o local da pesquisa
(região geográfica) e o fato (fenômeno
estudado) permanecem fixos.
( b ) Série estatística conjugada ( ) Sua característica principal é a variação
do fato (fenômeno estudado); o tempo
(época) e o local da pesquisa (região
geográfica) permanecem fixos.
( c ) Série estatística temporal ( ) Sua característica principal é a variação
do local da pesquisa (região geográfica);
o tempo (época) e o fato (fenômeno
estudado) permanecem fixos.
( d ) Série estatística específica ( ) Sua característica principal é a
combinação de duas séries estatísticas.
Podem, portanto, variar o tempo (época),
o local (região geográfica) e/ou o fato
(fenômeno estudado) simultaneamente.
Vídeo
58 Estatística e probabilidade: conceitos e aplicações
3. Um levantamento dos carros mais vendidos no primeiro semestre de determinado
ano estão relacionados até a décima colocação (segundo as marcas de seus
fabricantes) na tabela a seguir:
Marcas de automóveis e veículos comerciais leves mais vendidas, por unidade (1º semestre)
Marcas fi fi (%)
fa fa (%)
abaixo de acima de abaixo de acima de
GM 134.454 18,88 134.454 711.970 18,88 100,00
VW a 17,45 258.668 577.516 36,33 81,12
FIAT 109.068 15,32 d 453.302 51,65 g
HYUNDAI 63.280 b 431.016 344.234 60,54 48,35
FORD 60.526 8,50 491.542 e 69,04 39,46
RENAULT 59.964 8,42 551.506 220.428 77,46 30,96
TOYOTA 58.807 8,26 610.313 160.464 85,72 22,54
JEEP 38.537 c 648.850 101.657 f 14,28
HONDA 34.309 4,82 683.159 63.120 95,95 8,87
NISSAN 28.811 4,05 711.970 28.811 100,00 4,05
Total 711.970 100,00 ------ ------ ------ ------
Fonte: Adaptada de Oliveira, 2020.
Alguns valores estão representados por letras nessa tabela. Assinale a alternativa
que determina corretamente os valores faltantes:
a) a = 124.124; b = 8,51%; c = 5,79%; d = 367.734; e = 280.954; f = 91,13,80%;
g = 73,37%.
b) a = 124.214; b = 8,89%; c = 5,41%; d = 367.736; e = 280.954; f = 91,13%;
g = 63,67%.
c) a = 124.214; b = 8,89%; c = 5,41%; d = 376.376; e = 280.954; f = 92,00%;
g = 63,67%.
d) a = 142.214; b = 8,89%; c = 5,41%; d = 367.734; e = 280.954; f = 91,13%;
g = 63,67%.
e) a = 124.214; b = 9,89%; c = 5,42%; d = 376.743; e = 280.956; f = 91,15%;
g = 73,37%.
4. Em uma pesquisa sobre o peso de um grupo de 150 pessoas, a variação de pesos
obtida foi entre 136,42 kg e 58,64 kg. Se o pesquisador resolver elaborar uma
distribuição de frequências com intervalos de classe, quantas classes deverá fazer
e qual será a amplitude dos intervalos de cada uma das classes, com duas casas
decimais? Utilize a regra de Sturges.
5. A relação a seguir corresponde a um levantamento de idades das pessoas que
moram em um condomínio.
56 – 32 – 41 – 26 – 50 – 65 – 28 – 14 – 26 – 29 – 19 – 64 – 28 – 33 – 24 – 24 – 63 – 62 –
45 – 30 – 25 – 20 – 54 – 39 – 37 – 23 – 38 – 51 – 47 – 26 – 60 – 30 – 32 – 37 – 45 – 28 –
54 – 26 – 20 – 38 – 43 – 35 – 48 – 44 – 18 – 55 – 13 – 33 – 26 – 61 – 30 – 43 – 33 – 59 –
62 – 46 – 28 – 27 – 53 – 58 – 37 – 63 – 17 – 40 – 44 – 41 – 36 – 23 – 31 – 38 –61 – 41 –
19 – 53 – 44 – 50 – 29 – 32 – 27 – 48
Distribuições de frequência 59
De posse dos dados a seguir, determine:
• a amplitude total da relação de idades;
• o limite inferior da 5ª classe;
• o limite superior da 7ª classe;
• o ponto médio da última classe;
• a frequência simples da 4ª classe;
• a frequência acumulada da 6ª classe;
• a frequência simples relativa da 3ª classe.
6. Assinale (V) para verdadeiro e (F) para falso os itens a seguir:
( ) O gráfico estatístico é uma forma de apresentação de dados cujo objetivo é
produzir, no investigador ou no público em geral, uma impressão mais rápida e
viva do fenômeno em estudo.
( ) As características principais dos gráficos são: simplicidade, complexidade e
veracidade.
( ) Em uma representação gráfica devemos sempre inserir o título de modo
mais claro e completo possível, podendo ser acrescentado um subtítulo, caso
necessário.
( ) Em toda representação gráfica, assim como em todas as tabelas, devemos
colocar, na sua parte inferior, a fonte da qual os dados foram extraídos e, se for
o caso, outras informações que se façam necessárias, como notas explicativas.
( ) As representações gráficas mais utilizadas são diagramas, gráficos pictóricos
e cartogramas. Os diagramas mais comuns são os gráficos em colunas ou em
barras, os gráficos em linha ou em curva, os gráficos em setores circulares e os
gráficos de pontos.
( ) Os histogramas são gráficos que representam distribuições de frequência
com intervalos de classe semelhantes a um gráfico de colunas, mas com estas
grudadas umas nas outras, que podem ou não apresentar os polígonos de
frequência.
REFERÊNCIAS
ADVFN. Balança Comercial Brasileira em 2019. 2019. Disponível em: https://br.advfn.com/indicadores/
balanca-comercial/brasil/2019. Acesso em: 19 nov. 2020.
CRESPO, A. A. Matemática financeira fácil. 14. ed. São Paulo: Saraiva, 2009.
IBGE. Estimativa da população. Instituto Brasileiro de Geografia e Estatística, 2020a. Disponível em: https://
sidra.ibge.gov.br/tabela/6579#resultado. Acesso em: 19 nov. 2020.
IBGE. Levantamento sistemático de produção agrícola. Instituto Brasileiro de Geografia e Estatística, 2019.
Disponível em: https://sidra.ibge.gov.br/tabela/6588#resultado. Acesso em: 19 nov. 2020a.
IBGE. Levantamento sistemático de produção agrícola. Instituto Brasileiro de Geografia e Estatística, 2020b.
Disponível em: https://sidra.ibge.gov.br/tabela/6588#resultado. Acesso em: 19 nov. 2020.
IBGE. Pesquisa da pecuária municipal: Tabela 3939 – Efetivo dos rebanhos, por tipo de rebanho. Instituto
Brasileiro de Geografia e Estatística, 2018a. Disponível em: https://sidra.ibge.gov.br/tabela/3939#resultado.
Acesso em: 19 nov. 2020.
https://br.advfn.com/indicadores/balanca-comercial/brasil/2019
https://br.advfn.com/indicadores/balanca-comercial/brasil/2019
https://sidra.ibge.gov.br/tabela/6579#resultado
https://sidra.ibge.gov.br/tabela/6579#resultado
https://sidra.ibge.gov.br/tabela/6588#resultadohttps://sidra.ibge.gov.br/tabela/6588#resultado
https://sidra.ibge.gov.br/tabela/3939#resultado
60 Estatística e probabilidade: conceitos e aplicações
IBGE. Pesquisa da pecuária municipal: Tabela 3939 – Efetivo dos rebanhos, por tipo de rebanho. Instituto
Brasileiro de Geografia e Estatística, 2018b. Disponível em: https://sidra.ibge.gov.br/tabela/3939#resultado.
Acesso em: 19 nov. 2020.
IBGE. Portal de mapas do IBGE. Instituto Brasileiro de Geografia e Estatística, 2007. Disponível em: https://
portaldemapas.ibge.gov.br/portal.php#mapa871. Acesso em: 19 nov. 2020.
IBGE. Tabela 5430: rendimento médio nominal, habitualmente recebido por mês e efetivamente recebido
no mês de referência, do trabalho principal e de todos os trabalhos, por grupo de idade. Instituto Brasileiro
de Geografia e Estatística, 2020c. Disponível em: https://sidra.ibge.gov.br/tabela/5430#resultado. Acesso
em: 19 nov. 2020.
IPEA. Retrato das desigualdades de gênero e raça. Instituto de Pesquisa Econômica Aplicada, 2015.
Disponível em: https://www.ipea.gov.br/retrato/indicadores_educacao.html. Acesso em: 19 nov. 2020.
MAGALHÃES, M. N.; LIMA, A. C. P. de. Noções de Probabilidade e Estatística. 6. ed. São Paulo: Edusp, 2004.
OLIVEIRA, R. de. Os carros mais vendidos no primeiro semestre de 2020. Notícias Automotivas, Pouso
Alegre, 2020. Mercado. Disponível em: https://www.noticiasautomotivas.com.br/os-carros-mais-
vendidos-no-primeiro-semestre-de-2020/. Acesso em: 19 nov. 2020.
ORIGEM da Palavra. Rol. 2020. Disponível em: https://origemdapalavra.com.br/. Acesso em: 19 nov. 2020.
RODRIGUES, M. da. S. Dicionário brasileiro de Estatística: seguido de um vocabulário inglês-português.
2. ed. Rio de Janeiro: IBGE, 1970. Disponível em: https://biblioteca.ibge.gov.br/index.php/biblioteca-
catalogo?id=281219&view=detalhes. Acesso em: 19 nov. 2020.
https://sidra.ibge.gov.br/tabela/3939#resultado
https://portaldemapas.ibge.gov.br/portal.php#mapa871
https://portaldemapas.ibge.gov.br/portal.php#mapa871
https://sidra.ibge.gov.br/tabela/5430#resultado
https://www.ipea.gov.br/retrato/indicadores_educacao.html
https://www.noticiasautomotivas.com.br/os-carros-mais-vendidos-no-primeiro-semestre-de-2020/
https://www.noticiasautomotivas.com.br/os-carros-mais-vendidos-no-primeiro-semestre-de-2020/
https://origemdapalavra.com.br
https://biblioteca.ibge.gov.br/index.php/biblioteca-catalogo?id=281219&view=detalhes
https://biblioteca.ibge.gov.br/index.php/biblioteca-catalogo?id=281219&view=detalhes
Medidas de tendência central e separatrizes 61
3
Medidas de tendência
central e separatrizes
Anteriormente, trabalhamos as sintetizações de dados resultantes de uma
pesquisa, realizando-as em alguns formatos importantes: tabelas, gráficos e
distribuições de frequências. Essas sintetizações nos permitem descrever o pa-
drão de variação de determinado fenômeno estatístico.
A partir de agora, vamos aprender como resumir ainda mais os dados que
estão sendo pesquisados, mas estes serão traduzidos por medidas, de maneira
adequada, por intermédio de um único valor. Elas são denominadas medidas de
posição ou medidas de tendência central, uma vez que representam os fenôme-
nos estudados por seus valores médios, em torno dos quais os dados tendem
a se concentrar.
As medidas de posição mais utilizadas são a média aritmética (simples ou
ponderada), a mediana e a moda. A título de curiosidade, vale mencionar que
existem diversos tipos de médias, como a média geométrica, a média harmô-
nica, a média quadrática, a média cúbica e a média biquadrática, entre outras.
Por fim, vamos estudar, neste capítulo, as chamadas medidas de ordenação
ou separatrizes, utilizadas para realizar cortes ordenados de uma série de da-
dos: os quartis, os decis e os percentis.
Convém, entretanto, ressaltar que alguns autores classificam a mediana
como uma medida de ordenação, além de ser uma medida de posição.
3.1 Medidas de posição
Vídeo As medidas de posição são os valores em torno dos quais se concentram os
dados estatísticos referentes à pesquisa que estamos conduzindo. Martins e
Domingues (2014) nos informam que as medidas de posição ou as medidas de
tendência central se dividem em:
Matemáticas Não Matemáticas
• Média aritmética
• Média geométrica
• Média harmônica
• Moda
• Mediana
bs
d/
s
hu
tte
rs
to
ck
62 Estatística e probabilidade: conceitos e aplicações
Além dessas informações, Crespo (2000, p. 79, grifos do original) nos diz que “as
medidas de tendência central [...] recebem tal denominação pelo fato de os da-
dos observados tenderem, em geral, a se agrupar em torno dos valores centrais”. Já
Rodrigues (1970, p. 168, grifos do original) nos esclarece que medida de posição “de
um conjunto de valores é o elemento típico cujo valor numérico indica a posição
global sobre o eixo das abscissas. Exemplos: a média aritmética, a mediana etc. É o
mesmo que medida de tendência central”.
Ressaltamos, ainda, que a história da Matemática nos conta que, de acor-
do com Boyer (1974, p. 41), Pitágoras de Samos (580-500 a.C.) “soube na
Mesopotâmia das três médias aritmética, geométrica e a subcontrária (mais tarde
chamada harmônica)”.
Boyer (1974, p. 41) ainda nos esclarece que:
em algum momento [...] os pitagóricos generalizaram esse trabalho acres-
centando sete novas médias para perfazer dez ao todo. Se b é a média de
a e c, onde a < c então as três quantidades estão relacionadas por uma das
equações seguintes:
(1) b a
c b
a
a
�
�
� ; (6) b a
c b
c
b
�
�
� ;
(2) b a
c b
a
b
�
�
� ; (7)
c a
b a
c
a
�
�
� ;
(3) b a
c b
a
c
�
�
� ; (8) c a
c b
c
a
�
�
� ;
(4) b a
c b
c
a
�
�
� ; (9) c a
b a
b
a
�
�
� ;
(5) b a
c b
b
a
�
�
� ; (6) c a
c b
b
a
�
�
� .
As três primeiras equações são, naturalmente, as equações para as médias
aritmética, geométrica e harmônica, respectivamente.
Com base nessas informações, podemos iniciar, agora, o estudo das medidas
de tendência central.
3.1.1 Média aritmética simples
A média aritmética simples, ou simplesmente média, nada mais é que a soma
dos resultados obtidos dividida pela quantidade deles.
Se representarmos o primeiro dado (a primeira observação) por x1, a segunda
observação por x2, e assim sucessivamente, até chegarmos à última observação,
que será representada por xn, a média aritmética simples será dada por meio das
seguintes fórmulas matemáticas:
I. Para uma amostra de dados de uma população:
x
x + x + + x
n
ou x
x
n
n
i
i=1
n
�
�� �
�
�
1 2
em que n representa a quantidade de elementos da amostra.
Medidas de tendência central e separatrizes 63
II. Para a população toda:
¼�=�
x +x +� �+�x
N
�ou�¼�=
x
N
1 2 N
i=1
N
i� � � � ,µ µ
em que N representa o tamanho da população.
Fazemos, entretanto, uma ressalva: vamos adotar, embasados em McClave,
Benson e Sincich (2009, p. 56), “a convenção usual de representar as medições des-
critivas da população com letras gregas e as medições descritivas correspondentes
à amostra com letras romanas”. Assim, representaremos a média amostral por �x��x�,
que lemos x-barra, e a média populacional por µ, que é a letra grega mi.
A seguir, vamos resolver alguns exemplos para verificar como são feitos os cál-
culos de média aritmética simples.
Fomos incumbidos de realizar uma pesquisa para verificar o tempo (em minutos) que uma
pessoa demora para ir de sua residência ao seu trabalho. Durante 12 dias, ao medir o tempo
de deslocamento, obtivemos os seguintes resultados (catalogados em minutos): 23, 26, 21,
18, 22, 29, 28, 25, 25, 19, 28, 21.
Considerando esses dados como amostra, determine o tempo médio para a pessoa em
questão se deslocar de sua residência ao seu trabalho em minutos e segundos.
Para resolvermos esse exemplo, é necessário considerarmos os dados como
uma amostra, em que n = 12. Assim, devemos fazer:
�x��=
x
n
�x��=�23�+�26�+�21�+�18�+�22�+�29�+�28�+�25i=1
n
i� �� ��+�25�+�19�+�28�+�21
12
�� �x��=�285
12
�x��=�23,75�∴�x��x� �x�
�x�
�x��x� �x��x��x�
A resposta é solicitada em minutos e segundos; sendo assim, temos 23 minutos
e 0,75 de um minuto, ou seja, 0,75 · 60 = 45 segundos. Desse modo, a média de des-
locamento dessa pessoa, de sua residência ao seu trabalho, é de 23 minutos e 45
segundos.
Agora, considere o próximo exemplo.
O departamento de trânsito de uma cidade contabilizou, durante o mês de novembro do ano
de 2019, as infrações diárias por avanço do sinal vermelho em um dos cruzamentos sinaliza-
dos com semáforo. Foram obtidos os seguintes dados:
3 – 4 – 3 – 10 – 4 – 11 – 4 – 3 – 9 – 7 – 4 – 4 – 8 – 3 – 8 – 6 – 9 – 5 – 3 – 3 – 7 – 6 – 12
– 8 – 6 – 7 – 6 – 9 – 6 – 3
Considerando esses dados como a população mensal de infrações do mês de novembro de
2019, determine a média de infrações diárias de avanço do sinal vermelho nesse cruzamento.
64 Estatística e probabilidade: conceitos e aplicações
Como o exemplo nos diz que se trata de uma população, temos N = 30. Soman-
do todos os valores dados, obtemos o valor 181. Assim, devemos fazer:
¼�=
x
N
¼�=�181�
30
¼�=�6,0333333...�i=1
N
i� � �� �µ µµ
A situação exemplificada diz respeito à quantidade de infrações, por isso não
podemos ter resultados com casas decimais, apenas valores naturais; logo, µ = 6.
Assim, a média de infrações diárias por avanço de sinal no cruzamento pesquisado
foi de 6.
3.1.1.1 Propriedades da média aritmética
A média aritmética, seja amostral ou populacional, apresenta algumas proprie-
dades; vejamos as duas primeiras:
I. A média aritmética de um conjunto de dados é sempre única 1 .
II. A média aritmética é influenciada por valores extremos de uma série de dados, sendo essa uma
desvantagem de seu cálculo.
Sobre suas aplicações, acompanhe os exemplos a seguir.
Considere uma amostra de idades com os seguintes valores: 5, 6, 8, 10 e 12. Determine o
valor da média amostral dessas idades.
Realizando os cálculos com base na propriedade II:
�x��=
x
n
�x��=�5�+�6�+�8�+�10�+�12
5
�x��=�41
5
�x��=i=1
n
i� � � �� � ��8,2���x��=
x
n
�x��=�5�+�6�+�8�+�10�+�12
5
�x��=�41
5
�x��=i=1
n
i� � � �� � ��8,2���x��=
x
n
�x��=�5�+�6�+�8�+�10�+�12
5
�x��=�41
5
�x��=i=1
n
i� � � �� � ��8,2���x��=
x
n
�x��=�5�+�6�+�8�+�10�+�12
5
�x��=�41
5
�x��=i=1
n
i� � � �� � ��8,2���x��x� �x��x� �x��x� �x��x�
O valor dessa média está próximo do valor central: 8 anos.
Agora, se alterarmos a última idade da relação dada de 12 para 60, o novo cál-
culo da média será:
�x��=
x
n
�x��=�5�+�6�+�8�+�10�+�60
5
�x��=�89
5
�x��=i=1
n
i� � � �� � ��17,8�
Perceba que a alteração do valor extremo (de 12 para 60) fez com que a média
aritmética aumentasse substancialmente, deixando de ficar próximo ao valor cen-
tral 8. Agora, considere a propriedade III.
Nos exemplos a seguir, utilizamos
apenas a propriedade II. A proprie-
dade I não será demonstrada, pois
não é escopo dessa obra.
1
Medidas de tendência central e separatrizes 65
III. A soma algébrica dos desvios tomados em relação à média aritmética sempre resulta em zero, ou
seja, é nula.
Vamos aplicar essa propriedade utilizando os dados elencados na propriedade
II e colocando os resultados em formato de um quadro. Lembrando que as idades
são 5, 6, 8, 10 e 12.
Para comprovarmos a propriedade III, vamos montar o seguinte quadro, usando a média das
idades de cinco pessoas:
Quadro 1
Comprovação da propriedade III
Idades (xi) xi – x
5 5 – 8,2 = – 3,2
6 6 – 8,2 = – 2,2
8 8 – 8,2 = – 0,2
10 10 – 8,2 = 1,8
12 12 – 8,2 = 3,8
Total 0,0
Fonte: Elaborado pelo autor.
Como podemos comprovar, a soma algébrica resultou em zero.
A seguir, a propriedade IV determina o seguinte:
IV. Ao somar, subtrair, multiplicar ou dividir os valores de uma série de dados estatísticos de um valor
qualquer k, a média aritmética desses dados ficará aumentada, diminuída, multiplicada ou divi-
dida por esse valor.
Para exemplificar, vamos utilizar novamente as idades 5, 6, 8, 10 e 12, que apre-
sentam média �x��x� = 8,2. Acompanhe.
Vamos colocar os cálculos em formato de quadros. A intenção é comprovar – assim como
fizemos no exemplo anterior – a propriedade com a utilização das idades de cinco pessoas,
somando e subtraindo o valor k = 3.
Quadro 2
Comprovação da propriedade IV (utilizando k = 3)
i Idades (xi) xi + k xi – k
1 5 5 + 3 = 8 5 – 3 = 2
2 6 6 + 3 = 9 6 – 3 = 3
3 8 8 + 3 = 11 8 – 3 = 5
4 10 10 + 3 = 13 10 – 3 = 7
5 12 12 + 3 = 15 12 – 3 = 9
(Continua)
66 Estatística e probabilidade: conceitos e aplicações
i Idades (xi) xi + k xi – k
Soma 41 56 26
n 5 5 5
Média 8,2 11,2 5,2
Fonte: Elaborado pelo autor.
Note o que ocorre no Quadro 3 a seguir. Faremos a comprovação multiplicando e dividindo
o valor k = 2.
Quadro 3
Comprovação da propriedade IV (utilizando k = 2)
i Idades (xi) xi · k xi : k
1 5 5 . 2 = 10 5 : 2 = 2,5
2 6 6 . 2 = 12 6 : 2 = 3
3 8 8 . 2 = 16 8 : 2 = 4
4 10 10 . 2 = 20 10 : 2 = 5
5 12 12 . 2 = 24 12 : 2 = 6
Soma 41 82 20,5
n 5 5 5
Média 8,2 16,4 4,1
Fonte: Elaborado pelo autor.
Com os Quadros 2 e 3, é possível perceber que os resultados das médias – após
a soma, a subtração, a multiplicação ou a divisão dos valores da série de dados –,
produz média aritmética igual à dos dados originais também somados, subtraídos,
multiplicados ou divididos pelo valor da constante utilizada.
3.1.2 Média aritmética ponderada
Quando temos os dados agrupados em uma distribuição de frequências, para
calcular o valor da média aritmética, devemos multiplicar os valores dados pelas
respectivas frequências absolutas. A esse processo de ponderação dos dados pe-
las suas frequências absolutas damos o nome de média aritmética ponderada. Ao
realizá-lo, estamos indicando que cada valor envolvido no cálculo tem uma impor-
tância, isto é, um peso, mostrado pela quantidade de vezes que apareceu na coleta
de dados; essa quantidade é representada por sua frequência simples ou absoluta.
A fórmula matemática a ser utilizada para calcular a média aritmética pondera-
da de uma amostra da população é dada por:
�x��=�
x �.��f
n
��ou��x�=�
x �.��f
f
i=1
n
i i i=1
n
i i
i=1
n
i
� �
�
� �
� �
Se formos determinar a média aritmética ponderada para uma população intei-
ra, a fórmula matemática passará a ser:
Medidas de tendência central e separatrizes 67
¼�=�
x �.��f
N
��ou�¼�=�
x �.��f
f
i=1
N
i i i=1
N
i i
i=1
N
i
� �
�
� �
� �
µ µ
Vejamos o exemplo a seguir.
A Tabela 1 representa relação das notas dos alunos da turma A da disciplina de Estatística e
Probabilidade. Determine o valor da média aritmética da distribuição de frequências.
Tabela 1
Notas dos alunos da turma A da disciplina de Estatística e Probabilidade
Notas (xi) fi
3 1
4 4
5 6
6 9
7 10
8 9
9 5
10 6
Total 50
Fonte: Elaborada pelo autor.
Apesar de não ter sido citado o tipo de média aritmética que deva ser calculada,
como estamos diante de uma distribuição de frequências, o cálculo a ser realizado
é o da média aritmética ponderada, pois cada um dos dados (isto é, as notas) apre-
senta uma frequência simples.
Para tanto, vamos complementar a tabela com uma coluna em que serão repre-
sentados os valores da multiplicação do valor do dado estatístico pela sua respec-
tiva frequência.
Tabela 2
Multiplicação para média ponderada das notas dos alunos da turma A
Notas (xi) fi xi · fi
3 1 3
4 4 16
5 6 30
6 9 54
7 10 70
8 9 72
9 5 45
10 6 60
Total 50 350
Fonte: Elaborada pelo autor.
68 Estatística e probabilidade: conceitos e aplicações
Ao aplicar a fórmula matemática para determinar o valor da média aritmética
ponderada da distribuição de frequências dada, teremos, considerando como uma
população – já que diz respeito à totalidade de alunos da turma A da disciplina de
Estatística e Probabilidade –, o seguinte:
¼�=�
x �·�f
N
�� �¼�=�
350
50
¼�=�7i=1
N
i i�� �
� �� �µ µ µ
Ao realizar o cálculo, atestamos que a média das notas dos alunos é igual a 7,0.
Acompanhe outroexemplo.
Para determinar o peso médio das 70 pessoas adultas que se pesaram no mesmo dia na
balança de uma farmácia, foram compilados os seguintes dados:
Tabela 3
Peso de 70 pessoas adultas: Farmácia X, 24/08/2020
Peso (em kg) Quantidade de pessoas (fi)
59,0 61,5 3
61,5 64,0 5
64,0 66,5 5
66,5 69,0 7
69,0 71,5 9
71,5 74,0 11
74,0 76,5 8
76,5 79,0 7
79,0 81,5 5
81,5 84,0 6
84,0 86,5 4
Total 70
Fonte: Elaborada pelo autor.
Como essa distribuição de frequências apresenta intervalos de classe, o primei-
ro procedimento para determinarmos o valor da média aritmética ponderada é
calcular o ponto médio de cada uma das classes. Esse cálculo é feito pela soma do
limite inferior da classe com o limite superior e pela divisão do resultado por dois.
Indicamos os resultados desses cálculos por meio de uma coluna na tabela inti-
tulada xi, localizada à direita da coluna Peso. Observe.
Medidas de tendência central e separatrizes 69
Tabela 4
Cálculos intermediários para obtenção dos pontos médios das classes
Peso (em kg) xi Quantidade de pessoas (fi)
59,0 61,5 60,25 3
61,5 64,0 62,75 5
64,0 66,5 65,25 5
66,5 69,0 67,75 7
69,0 71,5 70,25 9
71,5 74,0 72,75 11
74,0 76,5 75,25 8
76,5 79,0 77,75 7
79,0 81,5 80,25 5
81,5 84,0 82,75 6
84,0 86,5 85,25 4
Total 70
Fonte: Elaborada pelo autor.
O próximo passo é multiplicar os valores do ponto médio de cada uma das clas-
ses de dados pela sua respectiva frequência. Colocamos esses resultados em uma
outra coluna na tabela (xi · fi). Observe.
Tabela 5
Multiplicação dos valores do ponto médio das classes por suas respectivas frequências
Peso (em kg) xi Quantidade de pessoas (fi) xi · fi
59,0 61,5 60,25 3 180,75
61,5 64,0 62,75 5 313,75
64,0 66,5 65,25 5 326,25
66,5 69,0 67,75 7 474,25
69,0 71,5 70,25 9 632,25
71,5 74,0 72,75 11 800,25
74,0 76,5 75,25 8 602,00
76,5 79,0 77,75 7 544,25
79,0 81,5 80,25 5 401,25
81,5 84,0 82,75 6 496,50
84,0 86,5 85,25 4 341,00
Total 70 5.112,50
Fonte: Elaborada pelo autor.
Finalmente, para determinar o valor da média aritmética ponderada, devemos
fazer:
�x��=�
x �·�f
n
�� ��x�=�
5.112,50
70
��x�=�73,0357142i=1
n
i i�� �
� �� 99...
O peso médio das 70 pessoas adultas que se pesaram no mesmo dia na balança
de uma farmácia é de 73,04 kg, com valor arredondado para duas casas decimais.
70 Estatística e probabilidade: conceitos e aplicações
3.1.3 Média geométrica
A média geométrica, também denominada de média proporcional, de um con-
junto de números positivos é definida como:
• o produto de todos os membros desse conjunto elevado ao inverso do número de membros; ou
• a raiz enésima do produto dos valores desse conjunto de números positivos.
Rodrigues (1970, p. 165, grifos do original) referenda essa última maneira de
definirmos a média geométrica quando afirma “MÉDIA GEOMÉTRICA – De uma co-
leção de n números não negativos, é o valor positivo da raiz de índice n do produto
desses valores. Também se diz média logarítmica. Já era conhecida e assim denomi-
nada ao tempo de PITÁGORAS”.
As fórmulas matemáticas utilizadas para o cálculo desse tipo de média, a média
geométrica ou proporcional, são:
• entre dois valores a e b: G = a�·�b
1
�2�� � ∴ G = a�·�b
• entre mais de dois valores (x1, x2, x3, ..., xn):
G�=� x ·�x ·�x �·�...�·�x �G�= x ·�x �·�x �·�...�·�x1 2 3 n
1
�n� 1 2 3� � � nn
n
i
i=1
n
n� �G�= x� �
Para o cálculo da média geométrica ponderada, ou seja, aquela entre valores
que aparecem repetidos (por exemplo a, a, a, b, b, b, b, c, c), podemos utilizar:
G = a �·�b �·�c3 4 2
1
�9�� � ∴ G = a �·�b �·�c3 4 29
Podemos, também, utilizar uma notação a que estamos habituados em Estatís-
tica, a qual nomeia frequência a quantidade de vezes que o elemento é repetido:
G�=� x �·�x �·�...�·�x G�=� x1
f1
2
f2
n
fn�£fi
i=1
n
i
fi�£fi� �ΣΣ
Observação: a média geométrica de um conjunto de números é sempre menor ou, no
máximo, igual à média aritmética dos membros desse conjunto. A igualdade somente
ocorrerá entre as duas médias, a aritmética e a geométrica, se, e somente se, todos os
membros do conjunto de dados forem iguais.
Vejamos algumas aplicações em que a média geométrica é utilizada.
3.1.3.1 Progressão geométrica
Sempre devemos utilizar o procedimento de cálculo da média geométrica em
situações que envolvem uma progressão geométrica (PG), estudadas em Matemá-
tica. Acompanhe um exemplo a seguir.
Para praticar mais a respeito
do cálculo da média aritmética
simples e ponderada, acesse o
QR Code a seguir. Nele, há uma
série de exercícios a respeito desse
conteúdo.
Já no item a seguir, você apren-
derá a calcular a média aritmética
simples e ponderada utilizando o
Programa Microsoft Excel®.
Na prática
Medidas de tendência central e separatrizes 71
Sabendo que a sequência de 7 a 63 está em progressão geométrica, determine o valor de a2.
No estudo das progressões geométricas, há a seguinte regra: em qualquer pro-
gressão geométrica, qualquer termo dessa PG é resultado da média geométrica
entre seu antecedente e seu consequente, ou seja, entre os valores que vêm antes
e depois dele: an = a ·�an� �1 n�+�1− � .
Com base nessa premissa, calculamos:
a � a .�an n� �1 n�+�1� � � → a � 7� 632 � � →a � 4412 = ∴a2 = 21
Resposta: o valor de a2 é 21.
Vejamos outro exemplo.
Determine a média dos valores 1, 3, 9, 27, 81 e 162.
Apesar de o enunciado não especificar, devemos perceber que esses valores
estão formando uma progressão geométrica de razão 3. Para determinar o valor da
média, devemos calcular a média geométrica. Logo, para determinar o valor médio,
calculamos:
G�=� x �·�x �·�x �·�...�·�x G�= 1�·�3�·�9�·�27�·�81�·�162�1 2 3 n
n � ��6 6G�=� 9.565.938� ��
G = 14,569834...
Resposta: a média geométrica dos valores dados é igual a 14,569834...
3.1.3.2 Variações percentuais em sequência
Outra utilização para esse tipo de média ocorre quando trabalhamos com varia-
ções percentuais em sequência. Vejamos sua aplicação no exemplo a seguir.
Nos últimos três meses, determinado produto teve seu preço reajustado segundo os seguin-
tes percentuais: 5%, 3% e 2,94%. Determine o percentual médio mensal de aumento do preço
desse produto.
Para acumular um aumento de 5%, 3% e 2,94% sobre o valor de um produto,
devemos multiplicar o preço do produto, sucessivamente, por 1,05; 1,03 e 1,0294,
que são os fatores ou números índices correspondentes a esses percentuais.
72 Estatística e probabilidade: conceitos e aplicações
Calculando a média geométrica dos fatores, obtemos:
G�=� x �·�x �·�x �·�...�·�x G�=� 1,05�·�1,03�·�1,0294� G�1 2 3 n
n 3� � ==� 1,1132961...3 �
G = 1,03642265...
O valor que encontramos está no formato de um número índice ou um fator. Em
outros termos, o fator de 1,03642265... corresponde a 3,642265...% de aumento.
Esse é o valor percentual médio anual de aumento do preço do produto, ou
seja, ao aplicar três vezes consecutivas esse percentual de aumento (3,642265...%),
teremos, no final, o mesmo resultado que teríamos se fossem aplicados os percen-
tuais de 5%, 3% e 2,94%, sucessivamente. Observe o quadro explicativo a seguir,
supondo que o preço inicial do produto seja de R$ 1.000,00.
Quadro 4
Preço final após aplicações de 5%, 3% e 2,94% no preço inicial
Preço inicial + % de aumento Preço final
R$ 1.000,00 5% R$ 1.050,00
R$ 1.050,00 3% R$ 1.081,50
R$ 1.081,50 2,94% R$ 1.113,30
Fonte: Elaborado pelo autor.
Agora, observe o quadro explicativo a seguir, com aplicação do percentual mé-
dio de aumento sobre o preço inicial.
Quadro 5
Preço final após aplicação do percentual médio de aumento sobre preço inicial
Preço inicial + % médio Preço final
R$ 1.000,00 3,642265% R$ 1.036,42
R$ 1.036,42 3,642265% R$ 1.074,17
R$ 1.074,17 3,642265% R$ 1.113,30
Fonte: Elaborado pelo autor.
Podemos observar que o resultado final (R$ 1.113,30) é o mesmo nos dois casos.
Observação: se tivéssemos utilizado a média aritmética no lugar da média geométrica,
os valores finais seriam distintos, pois a médiaaritmética 5%�+�3%�+�2,94%
3
�
�
�
�
�
� tem o
valor de 3,646666...%, o que resultaria em um salário final de R$ 1.113,44, ligeiramente
maior, como já era esperado, já que o percentual de 3,646666...% utilizado é ligeiramen-
te maior que os 3,642265...% da média geométrica.
Assim, o percentual médio mensal de aumento do preço desse produto é de
3,642265...%.
Medidas de tendência central e separatrizes 73
3.1.4 Média harmônica
A média harmônica deve ser utilizada sempre que estivermos tratando de gran-
dezas inversamente proporcionais, isto é, quando uma grandeza cresce e outra
diminui.
Martins e Domingues (2014, p. 35) nos dizem que:
trata-se de outro tipo especial de média, que deve ser utilizada sempre que a
série apresentar uma relação inversa entre os dados, como, por exemplo, nos
casos de cálculo de velocidade média ou consumo médio, pois, à medida que
a velocidade ou o consumo aumentam, o tempo envolvido diminui.
Assim, recomendamos o uso da média harmônica para se obter a média de uma
série de valores que são inversamente proporcionais; por exemplo: para o cálculo
da velocidade média e do custo médio de bens comprados a uma quantia fixa.
A média harmônica de n números reais positivos x1, x2, ..., xn é o número real
positivo H, definido por:
H
i
n
�
� ���
� �
�
�
��
�
�
��
�
�
n
x
�
x
� �
x
��� ���H � n
xn i
1 1 1 1
1 2 1
��������������������������
Se analisarmos a primeira fórmula, vamos perceber que a média harmônica é o
inverso da média aritmética dos inversos dos n números.
Podemos interpretar o valor numérico da média harmônica como o número
que representa a capacidade média individual da ação de n agentes (indivíduos
ou não) que estão agindo harmonicamente. Em outros termos, a média harmôni-
ca representa a capacidade de um agente substituir qualquer um dos n agentes,
quando atuando em conjunto.
3.1.4.1 Harmônico global
O harmônico global dos números reais positivos x1, x2, ..., xn é o número real
positivo h, definido por:
h
x x x
h
xn i
n
i
�
� ���
� �
�
�
��
�
�
��
�
�
1
1 1 1
1
1
1 2 1
� � �
��� ��� � ��������������������������
Em linhas gerais, o harmônico global é um número que representa o inverso da
soma dos inversos dos n números x1, x2, ..., xn, o que, na prática, significa que esse
número h representa a capacidade média global da ação dos n agentes (indivíduos
ou não) agindo em conjunto, de maneira harmônica, isto é, h representa a capaci-
dade de um único agente substituir todos os agentes ao mesmo tempo.
Apresentamos, a seguir, alguns problemas práticos (e suas respectivas solu-
ções) que utilizam o conceito de harmônico global e de média harmônica.
74 Estatística e probabilidade: conceitos e aplicações
Uma torneira enche uma caixa-d’água em 3 horas; outra torneira enche a mesma caixa-d’água
em 5 horas. Abrindo-se as duas torneiras ao mesmo tempo, qual será o tempo necessário
para encher a caixa?
Se chamarmos o tempo a ser determinado de t, devemos calcular o harmônico
global, pois queremos descobrir o tempo necessário para encher a caixa ao abrir as
duas torneiras ao mesmo tempo. Desse modo:
t�= 1
1
�t �
+ 1
�t �
� �t�=� 1
1
�3�
+ 1
�5�
� �t�=� 1
8
15
� �t�=�15 � �t�
1 2
� � � �
8
==�1,875�hora
Fazendo a transformação do tempo obtido, encontramos 1 hora, 52 minutos e
30 segundos 2 .
Resposta: as duas torneiras juntas encherão o tanque em 1 hora, 52 minutos e
30 segundos.
Acompanhe, agora, outro exemplo.
Uma residência possui uma caixa-d’água que é enchida pela rede de água da concessionária
de água da cidade em 5 horas. As pessoas que moram na casa, utilizando a caixa-d’água
sem que haja reposição, esvaziam seu conteúdo em 9 horas. Se a entrada e a saída de água
– ou seja, o uso pelos habitantes da casa – estiverem funcionando simultaneamente, qual
será o tempo necessário para que a caixa-d’água fique completamente cheia? Forneça o
tempo em horas, minutos e segundos.
Para resolvermos esse problema, devemos colocar como positivo o tempo em
que a caixa-d’água enche e negativo o tempo em que ela é esvaziada. Portanto,
temos:
t�= 1
1
�t �
+ 1
�t �
� �t�=� 1
1
�5�
+ 1
�-9�
� �t�=� 1
4
45
� �t�=�45
4
� �t
1 2
� � � � ��=�11,25�horas
Se realizarmos a transformação desse valor em horas, minutos e segundos, ob-
teremos 11 horas e 15 minutos.
Resposta: o tempo necessário para que a caixa-d’água fique completamente
cheia, estando a entrada e a saída de água funcionando simultaneamente, será de
11 horas e 15 minutos.
Vejamos mais um exemplo.
Para essa transformação, fazemos:
1,875h = 1h + 0,875 · 60min. =
1h 52,5min. = 1h 52min. + 0,5 ·
60 seg. = 1h 52 min. 30 seg.
2
Medidas de tendência central e separatrizes 75
Um carro se desloca entre duas cidades cuja distância é de 100 km mantendo, na ida, uma
velocidade média de 90 km/h; na volta ao local de origem, a velocidade média de 110 km/h.
Qual é a velocidade média durante todo o trajeto?
Realizando o cálculo para solução do problema:
H�=� n
1
x
�+� 1
x
�H�=� 2
1
�90�
�+� 1
110
�H�=� 2
2
�99�
H�=�2�.�9
1 2
� � �∴ ∴ ∴
99
�2�
H�=�99�∴
Resposta: a velocidade média durante o percurso foi de 99 Km/h.
3.1.4.2 Relações entre média aritmética, geométrica e harmônica
É possível demonstrarmos matematicamente – o que não é nosso objeto de
estudo – que entre as médias aritmética, geométrica e harmônica, existe a seguinte
relação: �x��>�G�>�H . Acompanhe um exemplo a seguir.
Calcule as médias aritmética, geométrica e harmônica dos valores 12, 18 e 24 e observe que
�x��>�G�>�H.
A solução do exemplo envolve as seguintes etapas:
I. Cálculo da média aritmética:
�x��=
x
n
�x��=�12�+�18�+�24
3
�x��=�54
3
�x��=�18i=1
n
i� � � �� �
II. Cálculo da média geométrica:
G�=� x � x �� �x �� � �� �x � �G�=� 12�� �18�� �24 � �G�=1 2 3 n
n 3� � � � � � � � �� � �� 5.184 � �G�=�17,30699484...�3 �
III. Cálculo da média harmônica:
H�=� n
1
x
�+� 1
x
�+� 1
x
H�=� 3
1
�12�
�+� 1
18
�+� 1
24
�H�=� 3
13
�72�1 2 3
� �� � ��� �H�=�3�.� 72
�13�
H = 16,61538462...
Com esses cálculos, obtemos:
18 > 17,30699484… > 16,61538462…, ou seja, �x��>�G�>�H.�
Em outros termos, a média aritmética vale 18, a média geométrica vale 17,30699
e a média harmônica vale 16,61538; a relação entre as médias foi verificada.
Para praticar mais o cálculo da
média geométrica e a média
harmônica, acesse o QR Code
a seguir. Nele, há uma série de
exercícios sobre esse conteúdo.
Já no QR Code a seguir, você
aprenderá a calcular a média
geométrica e a média harmônica
utilizando o Programa Microsoft
Excel®.
Na prática
76 Estatística e probabilidade: conceitos e aplicações
3.1.5 Mediana
A mediana é uma medida de tendência central dita não matemática.
Podemos dizer que a mediana – que simbolizaremos por � �x – do rol de um
conjunto de valores, que podem estar dispostos em ordem crescente ou em ordem
decrescente, é o valor que divide a coleção estudada em duas partes iguais; ou seja,
é o valor que ocupa a posição central dos valores dados. A quantidade de valores
acima da mediana é igual à quantidade de valores abaixo dela.
Crespo referenda (2009, p. 93, grifo do original) esse conceito ao dizer que:
a mediana é outra medida de posição definida como o número que se encon-
tra no centro de uma série de números, estando estes dispostos segundo uma
ordem. Em outras palavras, a mediana de um conjunto de valores, ordenados
segundo uma ordem de grandeza, é o valor situado de tal forma no conjunto
que o separa em dois subconjuntos de mesmo número de elementos.
A mediana é muito empregada em pesquisas em que os valores extremos não
interessam, em razão de terem pouca significação para o conjunto em geral, tal
como pesquisas que envolvem salários.
Existem formas diferentes para se determinar o valor da mediana, dependendo
da quantidade total de elementos da pesquisa que se estiver realizando. Passamos
a estudar, agora, as maneiras de calcularmos o valor da mediana de uma série de
dados estatísticos.
3.1.5.1Mediana de dados não agrupados
Se tivermos uma série de dados que não estejam agrupados em classes de fre-
quência e, dependendo da quantidade de dados que tenhamos a nosso dispor,
procedemos do seguinte modo para determinar o valor da mediana dos dados:
• Quando o número de valores, a quantidade de dados, for ímpar, a mediana
é o valor central da coleção estudada.
• Quando o número de valores, a quantidade de dados, for par, a mediana é a
média dos dois valores do meio.
É importante lembrar que devemos ordenar os dados, ou seja, confeccionar o
rol. Acompanhe os exemplos e suas respectivas soluções a seguir.
Determine o valor da mediana dos valores: 5 – 8 – 4 – 6 – 7 – 3 – 4.
Estabelecendo o rol dos dados, temos: 3 – 4 – 4 – 5 – 6 – 7 – 8. Como é fácil de
verificar que a quantidade de dados é ímpar, basta verificar qual é o valor central;
para essa situação, é o número 5. Desse modo, a mediana dos valores dados é 5,
ou seja, �x� = 5.
Vejamos mais um exemplo.
Medidas de tendência central e separatrizes 77
Calcule a mediana dos valores: 8 – 0 – 7 – 4 – 7 – 10 – 6 – 5.
Estabelecendo o rol dos dados, temos: 0 – 4 – 5 – 6 – 7 – 7 – 8 – 10.
Como nessa situação temos uma quantidade par de termos, devemos encon-
trar a média aritmética dos valores centrais. Assim:
�x� �x� �
�
� �
6 7
2
6 5,
O valor da mediana da sequência de números dados é �x� = 6,5.
Percebemos que, para o caso de dados não agrupados, a determinação do valor
da mediana é um processo relativamente fácil.
3.1.5.2 Mediana de dados agrupados sem intervalos de classe
Outra situação que devemos considerar para a obtenção do valor mediano é os
dados estarem apresentados em forma de uma distribuição de frequências com
os dados agrupados sem intervalos de classe. Vamos verificar como ocorre esse
procedimento por intermédio de um exemplo.
Determine o valor da mediana da distribuição de frequências dada a seguir, que representa a
relação das notas dos alunos da turma A da disciplina de Estatística e Probabilidade.
Tabela 6
Notas dos alunos da turma A da disciplina de Estatística e Probabilidade
Notas (xi) fi
3 1
4 4
5 6
6 9
7 10
8 9
9 5
10 6
Total 50
Fonte: Elaborada pelo autor.
Para determinarmos o valor da mediana, devemos realizar o cálculo da seguinte
maneira:
I. Construímos uma coluna com as frequências acumuladas da distribuição
dada.
78 Estatística e probabilidade: conceitos e aplicações
Tabela 7
Frequências relativas e acumuladas das notas dos alunos da turma A
Notas (xi) fi fa
3 1 1
4 4 5
5 6 11
6 9 20
7 10 30
8 9 39
9 5 44
10 6 50
Total 50 ---
Fonte: Elaborada pelo autor.
II. Depois de determinarmos as frequências acumuladas, devemos dividir o
total de frequência por dois
50
2
�
�
�
�
�
� , o que, nessa situação, resultará em 25.
Então, procuramos o resultado obtido na coluna das frequências acumula-
das. Muitas vezes, como nessa, o valor exato não é encontrado na coluna das
frequências acumuladas. Devemos, desse modo, pegar o valor que supera o
valor encontrado no cálculo descrito. Para esse caso, temos o valor 30, situa-
do na quinta classe (quinta linha da tabela).
III. O valor da mediana será o valor do dado que corresponde à classe encontrada;
para a situação desse exemplo, �x� = 7,0.
O valor da mediana da relação das notas dos alunos da turma A da disciplina
de Estatística e Probabilidade é a nota 7,0.
3.1.5.3 Mediana de dados agrupados com intervalos de classe
Outra situação que devemos considerar para a obtenção do valor mediano é
no caso de termos uma distribuição de frequências, mas agora com intervalos de
classe. Em situações assim, quando os dados estão agrupados em uma distribuição
de frequências com intervalos de classe, o cálculo do valor da mediana é realizado
por intermédio da seguinte fórmula matemática:
�x� = i +
h�·�(p� �m)
fm
−
Em que:
• �x� = mediana.
• i = limite inferior da classe mediana.
• h = amplitude de classe.
• p = n
�2�
ou p = i�=�1
n
if
2
∑ �.
• m = frequência acumulada imediatamente anterior a xi.
• fm = frequência simples (ou absoluta) da classe mediana.
Vejamos um exemplo de como são os procedimentos para calcular a mediana em
situações que apresentam distribuições de frequências com intervalos de classe.
Medidas de tendência central e separatrizes 79
Determine o peso mediano das 70 pessoas adultas que se pesaram no mesmo dia na balan-
ça de uma farmácia. Após a compilação dos dados, foi obtida a tabela seguir.
Tabela 8
Peso de 70 pessoas adultas: Farmácia X, 24/08/2020
Peso (em kg) Quantidade de pessoas (fi)
59,0 61,5 3
61,5 64,0 5
64,0 66,5 5
66,5 69,0 7
69,0 71,5 9
71,5 74,0 11
74,0 76,5 8
76,5 79,0 7
79,0 81,5 5
81,5 84,0 6
84,0 86,5 4
Total 70
Fonte: Elaborada pelo autor.
Primeiramente, devemos acrescentar uma coluna à distribuição de frequências
dada, com os valores das frequências acumuladas.
Tabela 9
Frequência acumulada do peso de 70 pessoas para calcular a mediana
Peso (em kg) Quantidade de pessoas (fi) fa
59,0 61,5 3 3
61,5 64,0 5 8
64,0 66,5 5 13
66,5 69,0 7 20
69,0 71,5 9 29
71,5 74,0 11 40
74,0 76,5 8 48
76,5 79,0 7 55
79,0 81,5 5 60
81,5 84,0 6 66
84,0 86,5 4 70
Total 70 ---
Fonte: Elaborada pelo autor.
Para encontrarmos a classe mediana – classe de referência para os valores a
serem utilizados na fórmula matemática –, devemos realizar o seguinte cálculo:
80 Estatística e probabilidade: conceitos e aplicações
�p �
f
����2����
�� �p � �� ��p ����i=1
n
i� � � � �� 70
2
35
Em seguida, devemos procurar esse valor na coluna das frequências acumula-
das. Nesse caso, a classe mediana será a sexta classe: 71,5 74,0.
De acordo com os dados dessa classe de frequências, substituímos os valores
adequados na fórmula matemática:
�x� �x� �x� i
� � ��� �
� �
� � �
� �
� � �
h p m
fm
( ) , , ( ) , ,71 5 2 5 35 29
11
71 5 1 3633636 72 86363636... , ...� ��x� � kg
�x� �x� �x� i
� � ��� �
� �
� � �
� �
� � �
h p m
fm
( ) , , ( ) , ,71 5 2 5 35 29
11
71 5 1 3633636 72 86363636... , ...� ��x� � kg
Assim, se considerarmos duas casas decimais, o valor da mediana será 72,86 kg 3 . O
peso mediano das 70 pessoas adultas que se pesaram no mesmo dia na balança de
uma farmácia é de 72,86 kg.
3.1.6 Moda
A moda também é uma medida de tendência central não matemática. É muito
fácil entendê-la; representada por M, é o valor de maior concentração de observa-
ções, ou seja, é o valor que ocorre com a maior frequência.
Quando dois valores ocorrem com a mesma frequência máxima, cada um deles
é uma moda, e o conjunto é denominado bimodal. Se ocorrerem mais de três, en-
tão o conjunto será denominado multimodal. Se nenhum dos valores for repetido,
o conjunto de dados, nesse caso, não terá moda; será, então, considerado amodal.
Em resumo, a quantidade de valores modais que uma série estatística pode
apresentar é:
Amodal: quando nenhum valor se repete; não há um valor com frequência máxima.
Unimodal: quando um valor se repete; apenas um valor apresenta frequência igual à
frequência máxima.
Bimodal: quando dois valores se repetem; dois valores apresentam frequência igual à
frequência máxima.
Trimodal: quando três valores se repetem; três valores apresentam frequência igual à
frequência máxima.
Multimodal ou plurimodal: mais do que três valores se repetem; mais de três valores
apresentam frequência igual à frequência máxima.
É necessário tomar muito cuidado para calcular os valores modais, sabendo que
a moda é, de acordo com Bruni (2011, p. 51), “a única medida de tendência central
que pode ser aplicada para dados quantitativos e qualitativos”.
É muito comum colocarmos no
resultado uma casa decimal a
mais do que a quantidade de casas
decimais que aparecem nos dados
da distribuição de frequências.
3
Para praticar mais a respeito do
cálculo da mediana, acesse o QR
Code a seguir. Nele, há uma série
de exercícios a respeito desse
conteúdo.
Já no item a seguir, você
aprenderá a calcular amediana
utilizando o Programa Microsoft
Excel®.
Na prática
Medidas de tendência central e separatrizes 81
3.1.6.1 Moda para dados qualitativos
Como a moda diz respeito ao valor que apresenta a maior frequência simples
dos dados estatísticos pesquisados, é a única medida de tendência central que
pode ser aplicada para dados qualitativos. Para exemplificar, vamos analisar uma
situação já trabalhada anteriormente que apresenta dados qualitativos.
O proprietário de um estabelecimento comercial (loja A) resolveu fazer um levantamento
para identificar o grau de satisfação de seus clientes quanto ao atendimento dado a eles
pelos funcionários do estabelecimento. Para tanto, colocou um totem ao lado da saída dos
caixas do estabelecimento; ali, os clientes poderiam avaliar o atendimento que tiveram.
Nesse totem, os clientes poderiam escolher entre as seguintes opções:
RuimRegularBomÓtimo
Ao término do expediente, o proprietário verificou que 48 clientes haviam respondido à en-
quete, e as respostas dadas geraram a tabela de distribuição de frequências a seguir.
Tabela 10
Relação de respostas da satisfação dos clientes da loja A (10/08/2020)
Grau de satisfação fi
Ótimo 12
Bom 24
Regular 7
Ruim 5
Total 48
Fonte: Elaborada pelo autor.
Determine o valor modal que identifica o grau de satisfação dos clientes quanto ao atendi-
mento dado a eles pelos funcionários do estabelecimento.
Para encontrarmos o valor modal solicitado, basta verificarmos, na coluna das
frequências simples, qual é o maior valor; então, deveremos ver a que dado cor-
responde. Desse modo, é possível perceber que a maior frequência simples (24)
corresponde ao grau de satisfação Bom. Logo, podemos afirmar que M = Bom.
Resposta: o valor modal que identifica o grau de satisfação dos clientes quanto
ao atendimento dado a eles pelos funcionários do estabelecimento é o grau de
satisfação “Bom”.
Como a moda diz respeito ao valor que apresenta a maior frequência simples,
ao calcularmos seu valor com dados quantitativos, devemos saber que podem
ocorrer três situações: os dados não estarem agrupados; os dados estarem agru-
pados em uma distribuição de frequências sem intervalos de classe; e os dados
82 Estatística e probabilidade: conceitos e aplicações
estarem agrupados em uma distribuição de frequências com intervalos de classe.
Vamos, agora, estudar cada uma dessas situações.
3.1.6.2 Moda para dados quantitativos não agrupados
Para determinar a moda de dados quantitativos não agrupados, basta verificar-
mos qual é o valor do dado estatístico que mais se repete na série de dados que
estamos examinando.
Vejamos os exemplos a seguir.
Dadas as séries estatísticas de números relacionadas a seguir, determine o valor da moda
de cada uma delas e classifique as séries de acordo com a quantidade de modas que ela
apresentar.
a. 1, 3, 4, 4, 4, 6, 8 e 32.
b. 2, 3, 3, 3, 4, 4, 5, 5, 7, 7, 7, 8 e 9.
c. 1, 1, 1, 2, 2, 3, 3, 4, 4, 4, 5, 6, 7, 7, 8, 9, 9, 9 e 10.
d. 1, 2, 3, 4, 5, 6, 7, 8, 9 e 10.
Ao verificar os dados da série estatística a, vemos que o número 4 é o valor que
mais se repete, portanto, é o valor modal: M = 4. Como é um valor único, a série
estatística é uma série unimodal.
Com relação aos valores da série de dados b, percebemos que existem dois va-
lores que mais se repetem, e a mesma quantidade de vezes: 3 e 7. Logo, essa série
de dados apresenta duas modas, ou seja, é uma série bimodal: M1 = 3 e M2 = 7.
Ao analisar a relação de dados presente em c, percebemos que existem valores
que se repetem três vezes, ou seja, são três valores modais: M1 = 1, M2 = 4 e M3 = 9,
portanto, trata-se de uma série trimodal.
Por fim, ao verificar os valores da série estatística d, percebemos que não existe
valor que se repete, ou seja, cada valor aparece uma única vez. Então, a série não
possui moda, trata-se de uma série estatística amodal.
Resposta: item a, M = 4, série unimodal; item b, M1 = 3 e M2 = 7, série bimodal;
item c, M1 = 1, M2 = 4 e M3 = 9, série trimodal; item d, série amodal, ou seja, não
possui moda.
3.1.6.3 Moda para dados quantitativos agrupados sem intervalos
de classe
Para obtermos o valor da moda de uma série de dados agrupados sem inter-
valos de classe, basta verificarmos o valor do dado que corresponda à classe que
apresenta maior frequência absoluta. Para exemplificar, vamos analisar uma situa-
ção já trabalhada anteriormente.
Medidas de tendência central e separatrizes 83
Determine o valor da moda da distribuição de frequências dadas a seguir, que representa a
relação das notas dos alunos da turma A da disciplina de Estatística e Probabilidade.
Tabela 11
Notas e frequências simples dos alunos da turma A da disciplina de Estatística e Probabilidade
Notas (xi) fi
3 1
4 4
5 6
6 9
7 10
8 9
9 5
10 6
Total 50
Fonte: Elaborada pelo autor.
Ao olharmos a Tabela 11, na coluna correspondente às frequências simples, ve-
rificamos que a maior frequência é a da quinta classe, logo, essa é a classe modal.
Resposta: o valor da moda da relação das notas dos alunos da turma A da dis-
ciplina de Estatística e Probabilidade é 7, isto é, M = 7.
3.1.6.4 Moda para dados quantitativos agrupados com intervalos
de classe
Existem três maneiras de se determinar o valor da moda de uma distribuição de
frequências com intervalos de classe. São elas:
• Determinação da moda bruta.
• Determinação da moda utilizando-se o método de Czuber.
• Determinação da moda utilizando-se o método de King.
Para a resolução de cada um desses métodos, acompanhe o exemplo a seguir.
Determine a idade modal das 70 pessoas adultas que se pesaram no mesmo dia, na balança
de uma farmácia. Calcule a moda bruta, a moda pelo método de Czuber e a moda pelo mé-
todo de King, com base nos dados a seguir.
Emanuel Czuber (1851–1925)
foi um matemático austríaco.
Segundo Rodrigues (1970), a
fórmula matemática para o cálculo
de uma moda de dada distribuição
de frequência apareceu no seu
livro Os métodos de pesquisa
estatística (1921).
Willford Isbell King (1880-1962)
foi um estatístico e economista
americano. Era membro da Asso-
ciação Americana de Estatística
(American Statistical Association
– ASA).
Saiba mais
84 Estatística e probabilidade: conceitos e aplicações
Tabela 12
Peso de 70 pessoas adultas: Farmácia X, 24/08/2020
Peso (em kg) Quantidade de pessoas (f)
59,0 61,5 3
61,5 64,0 5
64,0 66,5 5
66,5 69,0 7
69,0 71,5 9
71,5 74,0 11
74,0 76,5 8
76,5 79,0 7
79,0 81,5 5
81,5 84,0 6
84,0 86,5 4
Total 70
Fonte: Elaborada pelo autor.
Acompanhe a resolução de cada item.
I. Determinação do valor da moda bruta.
Se olharmos para a coluna na qual estão representadas as frequências simples,
verificamos que o maior valor é 11, situado na sexta classe: a classe modal. O valor
da moda bruta, que representamos por Mb, será obtida do seguinte modo:
Mb = L �+�
2
S i ∴ Mb = 74,0�+�71,5
2
∴ Mb = 72,75 kg 4
II. Determinação do valor da moda calculada pelo método de Czuber.
Para determinarmos o valor modal utilizando esse método de cálculo, que re-
presentaremos por MC, devemos utilizar a seguinte fórmula matemática – denomi-
nada fórmula de Czuber:
M =� �+
h�·� f f
2�·�f f +�f �
�ou�M �=�C� i
max ant
max ant� post
C
�� �
� � � ii
1 2
1 max ant
2 max post
�+
�+� �
�·�h,�onde�
=�f f
�=�f f
�
� �
�
�
�
�
�
�
�
��
Nessas fórmulas, temos:
• MC = moda.
•L �+�
2
S i = limite inferior da classe modal (de maior frequência).
• h = amplitude de classe.
• fmax = frequência máxima.
• fant = frequência imediatamente anterior à frequência máxima.
• fpost = frequência imediatamente posterior à frequência máxima.
O valor da moda pelo método de Czuber será obtido ao fazermos:
Como já esclarecido, é muito
comum colocarmos no resultado
uma casa decimal a mais do que
a quantidade de casas decimais
que aparecem nos dados da
distribuição de frequências.
4
Medidas de tendência central e separatrizes 85
Tabela 12
Peso de 70 pessoas adultas: Farmácia X,24/08/2020
Peso (em kg) Quantidade de pessoas (f)
59,0 61,5 3
61,5 64,0 5
64,0 66,5 5
66,5 69,0 7
69,0 71,5 9
71,5 74,0 11
74,0 76,5 8
76,5 79,0 7
79,0 81,5 5
81,5 84,0 6
84,0 86,5 4
Total 70
Fonte: Elaborada pelo autor.
Acompanhe a resolução de cada item.
I. Determinação do valor da moda bruta.
Se olharmos para a coluna na qual estão representadas as frequências simples,
verificamos que o maior valor é 11, situado na sexta classe: a classe modal. O valor
da moda bruta, que representamos por Mb, será obtida do seguinte modo:
Mb = L �+�
2
S i ∴ Mb = 74,0�+�71,5
2
∴ Mb = 72,75 kg 4
II. Determinação do valor da moda calculada pelo método de Czuber.
Para determinarmos o valor modal utilizando esse método de cálculo, que re-
presentaremos por MC, devemos utilizar a seguinte fórmula matemática – denomi-
nada fórmula de Czuber:
M =� �+
h�·� f f
2�·�f f +�f �
�ou�M �=�C� i
max ant
max ant� post
C
�� �
� � � ii
1 2
1 max ant
2 max post
�+
�+� �
�·�h,�onde�
=�f f
�=�f f
�
� �
�
�
�
�
�
�
�
��
Nessas fórmulas, temos:
• MC = moda.
•L �+�
2
S i = limite inferior da classe modal (de maior frequência).
• h = amplitude de classe.
• fmax = frequência máxima.
• fant = frequência imediatamente anterior à frequência máxima.
• fpost = frequência imediatamente posterior à frequência máxima.
O valor da moda pelo método de Czuber será obtido ao fazermos:
Como já esclarecido, é muito
comum colocarmos no resultado
uma casa decimal a mais do que
a quantidade de casas decimais
que aparecem nos dados da
distribuição de frequências.
4
M =� �+
h�·� f f
2�·�f f +�f �
� �M =�71C� i
max ant
max ant� post
C�
�� �
� � �
� ,,5�+
2,5�·� 11 9
2�·�11 9�+�8 �
�M =�72,50�kgC�
�� �
� � � �
ou
� � �
� �
1 max ant 1 1
2 max post 2
=�f f � =�11 9� � =�2
�=�f f � � �=�11
� �
� �
�� �
� 88� � =�3
�M �=� �+
�
�+� �
�·�h�
2
C i
1
1 2�
�
�
�
� �
�
�
�
��
∴ ∴���M �=�71,5�+ �2
2�+�3�
�·�2,5�� �M �=�72,50�kgC C
III. Determinação do valor da moda calculada pelo método de King.
É importante ressaltar que a utilização desse método de cálculo produz um
resultado com menor precisão que o método de Czuber. O valor modal, repre-
sentado por MK, é obtido ao utilizarmos a seguinte fórmula matemática, também
chamada de fórmula de King:
M =� �+
h�.�f
f +�fK� i
post
ant� post
em que:
• MK = moda.
• h = amplitude de classe.
•L �+�
2
S i = limite inferior da classe modal (de maior frequência).
• fant = frequência imediatamente anterior à frequência máxima.
• fpost = frequência imediatamente posterior à frequência máxima.
O valor modal da distribuição será obtido ao realizarmos os seguintes cálculos:
M =� �+
h�.�f
f +�f
�M =�71,5�+ 2,5�.�8
9�+�8
�MK� i
post
ant� post
K� ∴ ∴ KK� K�=�72,67647059...� �M =�72,68�kg∴
Os valores modais da distribuição de frequências com intervalos de classe dada
são: Mb = 72,75 kg; MC = 72,50 kg; e MK = 72,68 kg.
Para praticar mais a respeito do
cálculo da moda, acesse o QR
Code a seguir. Nele, há uma série
de exercícios a respeito desse
conteúdo.
Já no item a seguir, você apren-
derá a calcular a moda utilizando
o Programa Microsoft Excel.
Na prática
86 Estatística e probabilidade: conceitos e aplicações
3.2 Medidas de ordenação ou separatrizes
Vídeo Além das medidas de posição ou de tendência central, temos as chamadas
medidas de ordenação ou separatrizes. Estas, de acordo com Martins e Domingues
(2014, p. 38) são “utilizadas para fazer cortes ordenados em uma série, visando
identificar características relevantes”.
Nesse aspecto, Crespo (2009, p. 101, grifos do original) nos diz que:
assim, além das medidas de posição que estudamos, há outras que, consi-
deradas individualmente, não são medidas de tendência central, mas estão
ligadas à mediana relativamente à sua segunda característica, já que se ba-
seiam em sua posição na série. Essas medidas – os quartis, os percentis e
os decis – são, juntamente com a mediana, conhecidas pelo nome genérico
de separatrizes.
Sentimos a obrigação de dizer que não existe um procedimento padrão para se
realizar o cálculo das separatrizes. Reforçamos esse comentário utilizando as pala-
vras de Triola (2008, p. 91): “não há um consenso universal sobre um procedimento
único para o cálculo dos quartis, e diferentes programas de computador muitas
vezes produzem resultados diferentes”.
Como existe equivalência entre quartis, decis e percentis, podemos estender o
comentário Triola (2008) para as demais separatrizes, não apenas os quartis.
Há consenso a respeito do significado das separatrizes. Em síntese, após reali-
zarmos a colocação dos elementos da série de dados estatísticos de maneira orde-
nada, ou em ordem crescente dos valores, ou em ordem decrescente dos valores,
temos:
• mediana: medida única que divide a série de dados estatísticos em duas partes iguais, 50% dos
dados para cada um dos lados do valor da mediana;
• quartis: são três valores simbolizados por Q
1
, Q
2
e Q
3
; dividem a série de dados estatísticos em qua-
tro partes iguais, cada uma das quais contendo 25% dos dados;
• decis: são nove valores simbolizados por D
1
, D
2
, ... , D
8
e D
9
; dividem a série de dados estatísticos em
dez partes iguais, cada uma das quais contendo 10% dos dados;
• percentis: são 99, cujos símbolos são P
1
, P
2
, P
3
, ..., P
97
, P
98
e P
99
; dividem a série de dados estatísticos
em cem partes iguais, cada uma das quais contendo 1% dos dados.
Para melhor visualização, observe a Figura 1 a seguir.
Figura 1
Esquema ilustrativo de algumas separatrizes
Totalidade dos dados (100%)
25%25%25%
Q1
Q2= D5= P50
Q3
25%
�x�
Fonte: Elaborada pelo autor.
Medidas de tendência central e separatrizes 87
A partir de agora, vamos verificar como calculamos essas medidas estatísticas
– quartis, decis e percentis – das séries de dados estatísticos obtidos em uma pes-
quisa. Iniciamos esse percurso com dados não agrupados, passamos pelos dados
agrupados sem intervalos de classe e finalizamos com os dados agrupados com
intervalos de classes.
3.2.1 Dados não agrupados
Evidentemente, não podemos esclarecer e trabalhar com todos os métodos
existentes; desse modo, escolhemos dois procedimentos bastante utilizados que
adotam a interpolação linear em seus cálculos. A distinção de um para o outro é
a adoção de diferentes bases para a realização dos procedimentos: no primeiro,
é utilizada a base N – 1; no segundo, a base N + 1, sendo N a quantidade total de
dados da série estatística.
É importante, entretanto, definirmos o que é interpolação linear primeiramente.
Segundo Rodrigues (1970, p. 151),
INTERPOLAÇÃO LINEAR – I. Processo para se calcularem valores intermediá-
rios de uma função baseado na hipótese de ser essa função linear dentro do
intervalo abrangido pelos seus valores dados.
II. Processo para se calcularem valores intermediários de uma função basea-
do na hipótese de ser essa função linear dentro de cada intervalo formado
por um par de valores dados sucessivos.
Nessas duas situações, as fórmulas matemáticas a seguir serão utilizadas para
determinar os pontos de “corte” dos valores da série de dados, após terem sido
colocados em ordem crescente:.
I. Para os quartis: KQ =
n�·� N� �1
4
�� � ou KQ =
n�·� N� �1
4
�� � .
II. Para os decis: KD =
n�·� N� �1
10
�� �
ou KD =
n�·� N� �1
10
�� �
.
III. Para os percentis: KP =
n�·� N� �1
100
�� �
ou KP =
n�·� N� �1
100
�� �
.
Em que:
• os valores de K determinam os pontos de “corte” da série de dados;
• n representa o valor do quartil, decil ou percentil;
• N representa o total de valores da série.
Para determinar os valores dos quartis, dos decis e dos percentis, devemos usar
a seguinte fórmula matemática:
Q
D
P
=�V P �+�PD �·� V P+1 V P
n
n
n
K
�
�
�
�
�
� � � � � � ��� ��
em que:
• Qn, Dn e Pn = valores dos quartis, dos decis e dos percentis.
• V(P) = valor da posição “P” do dado na série da base escolhida.
88 Estatísticae probabilidade: conceitos e aplicações
• V(P + 1) = valor da posição “P + 1”, a posição seguinte à posição “P” do dado na
série da base escolhida.
• PDK = parte decimal do cálculo resultante da aplicação das fórmulas matemá-
ticas que determinam os pontos de “corte” dos valores das séries de dados.
Vamos resolver o exemplo a seguir para entendermos como são aplicados es-
ses cálculos.
Determine os valores dos três quartis, do quarto e do sétimo decis, do trigésimo segundo e
do septuagésimo sexto percentis da série de valores: 10, 13, 11, 18, 7, 12, 15, 5, 21, 11, 9, 25,
13, 7, 25 e 22.
Para a determinação das separatrizes solicitadas, devemos, em primeiro lugar,
colocar os valores dados em ordem crescente, estabelecendo o rol. Assim, temos:
5, 7, 7, 9, 10, 11, 11, 12, 13, 13, 15, 18, 21, 22, 25 e 25.
Agora, para aplicarmos a interpolação de base N – 1, devemos fazer a seguinte
relação entre os valores dados:
Posição 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Valor 5 7 7 9 10 11 11 12 13 13 15 18 21 22 25 25
Após, devemos definir os pontos em que ocorrerão os “cortes” no conjunto de
valores, que definirão o posicionamento dos quartis. Fazemos isso utilizando a fór-
mula matemática KQ = n� � N� �1
4
� �� � , colocando para os valores de n, conforme queira-
mos calcular os quartis, os decis ou os percentis.
Para calcular os três quartis, devemos substituir n pelos números 1, 2 e 3.
Observe.
• KQ1 = 1�·� 16� �1
4
�� � ∴ KQ1 = 3,75 → esse valor significa que a linha de “corte” está
0,75 depois da terceira posição, que, pela relação apresentada anteriormen-
te, é igual a 9. Logo, para determinar o valor do primeiro quartil, fazemos:
Q1 = V(P) + PDK · [V(P + 1) – V(P)] → Q1 = 9 + 0,75 · (10 – 9) →
Q1 = 9 + 0,75 · 1 ∴ Q1 = 9,75
• KQ2 = 2�·� 16� �1
4
�� � ∴ KQ2 = 7,5 → esse valor significa que a linha de corte está
0,5 depois da sétima posição. Logo, para determinar o valor do segundo
quartil, fazemos:
Q2 = V(P) + PDK · [V(P + 1) – V(P)] → Q2 = 12 + 0,5 · (13 – 12) →
Q2 = 12 + 0,5 · 1 ∴ Q2 = 12,5 5
Esse valor é igual ao valor da
mediana da série de dados; faça o
cálculo e comprove.
5
Medidas de tendência central e separatrizes 89
• KQ3 = 3�.� 16� �1
4
�� � ∴ KQ3 = 11,25 → esse valor significa que a linha de “corte”
está 0,25 depois da décima primeira posição. Logo, para determinar o valor
do terceiro quartil, fazemos:
Q3 = V(P) + PDK · [V(P + 1) – V(P)] → Q3 = 18 + 0,25 · (21 – 18) →
Q3 = 18 + 0,25 · 3 ∴ Q3 = 18,75
Para calcular o quarto e o sétimo decis, devemos substituir n pelos números 4
e 7. Observe.
• KD4 = 4�·� 16� �1
10
�� � ∴ KD4 = 6,00 → esse valor significa que a linha de “corte” está
exatamente na sexta posição. Logo, o valor do quarto decil será dado por D4
= 11.
• KD7 = 7�·� 16� �1
10
�� � ∴ KD7 = 10,5 → esse valor significa que a linha de “corte” está
0,5 depois da décima posição. Logo, para determinar o valor do sétimo decil,
fazemos:
D7 = V(P) + PDK · [V(P + 1) – V(P)] → D7 = 15 + 0,5 · (18 – 15) →
D7 = 15 + 0,5 · 3 ∴ D7 = 16,5
Para calcular trigésimo segundo e o septuagésimo sexto percentis, devemos
substituir n pelos números 32 e 76. Observe.
• KP32 = 32�·� 16� �1
100
�� � ∴ KP32 = 4,8 → esse valor significa que a linha de “corte”
está 0,8 depois da quarta posição. Logo, para determinar o valor do trigésimo
segundo percentil, fazemos:
P32 = V(P) + PDK · [V(P + 1) – V(P)] → P32 = 10 + 0,8 · (11 – 10) →
P32 = 10 + 0,8 · 1 ∴ P32 = 10,8
• KP76 =
76�·� 16� �1
100
�� � ∴ KP76 = 11,4 → esse valor significa que a linha de “corte”
está 0,4 depois da décima primeira posição. Logo, para determinar o valor do
septuagésimo sexto percentil fazemos:
P76 = V(P) + PDK · [V(P + 1) – V(P)] → P76 = 18 + 0,4 · (21 – 18) →
P76 = 18 + 0,4 · 3 ∴ P76 = 19,2.
Agora, para fazermos a interpolação com base N + 1, devemos somente alterar
a relação entre os valores dos dados para:
Posição 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Valor 5 7 7 9 10 11 11 12 13 13 15 18 21 22 25 25
Além disso, também devemos utilizar as fórmulas matemáticas em que, no nu-
merador, há o termo N + 1.
Assim, teremos para essa mesma série de dados os valores dos três quartis, do
quarto e do sétimo decis, do trigésimo segundo e do septuagésimo sexto percentis,
calculados a seguir.
90 Estatística e probabilidade: conceitos e aplicações
• KQ1 =
1�·� 16� �1
4
�� � ∴ KQ1 = 4,25 → esse valor significa que a linha de “corte” está
0,25 depois da quarta posição. Logo, para determinar o valor do primeiro
quartil, fazemos:
Q1 = V(P) + PDK · [V(P + 1) – V(P)] → Q1 = 9 + 0,25 · (10 – 9) →
Q1 = 9 + 0,25 · 1 ∴ Q1 = 9,25
• KQ2 =
2�·� 16� �1
4
�� � ∴ KQ2 = 8,5 → esse valor significa que a linha de “corte” está
0,5 depois da oitava posição. Logo, para determinar o valor do segundo quar-
til, fazemos:
Q2 = V(P) + PDK · [V(P + 1) – V(P)] → Q2 = 12 + 0,5 · (13 – 12) →
Q2 = 12 + 0,5 · 1 ∴ Q2 = 12,5 6
• KQ3 =
3�·� 16� �1
4
�� � ∴ KQ3 = 12,75 → esse valor significa que a linha de “corte” está
0,75 depois da décima da segunda posição. Logo, para determinar o valor do
terceiro quartil, fazemos:
Q3 = V(P) + PDK · [V(P + 1) – V(P)] → Q3 = 18 + 0,75 · (21 – 18) →
Q3 = 18 + 0,75 · 3 ∴ Q3 = 20,25
• KD4 =
4�·� 16� �1
10
�� � ∴ KD4 = 6,8 → esse valor significa que a linha de “corte” está
0,8 depois da sexta posição. Logo, para determinar o valor do quarto decil,
fazemos:
D4 = V(P) + PDK · [V(P + 1) – V(P)] → D4 = 11 + 0,8 · (11 – 11) →
D4 = 11 + 0,8 · 0 ∴ D4 = 11,0
• KD7 = 7 16 1
10
( )+ ∴ KD7 = 11,9 → este valor significa que a linha de corte está 0,9
depois da décima primeira posição. Logo, para determinar o valor do sétimo
decil, fazemos:
D7 = V(P) + PDK · [V(P + 1) – V(P)] → D7 = 15 + 0,9 · (18 – 15) →
D7 = 15 + 0,9 · 3 ∴ D7 = 17,7
• KP32 = 32�·� 16� �1
100
�� � ∴ KP32 = 5,44 → esse valor significa que a linha de “corte”
está 0,44 depois da quinta posição. Logo, para determinar o valor do trigési-
mo segundo percentil, fazemos:
P32 = V(P) + PDK · [V(P + 1) – V(P)] → P32 = 10 + 0,44 · (11 – 10) →
P32 = 10 + 0,44 · 1 ∴ P32 = 10,44
• KP76 = 76�·� 16� �1
100
�� � ∴ KP76 = 12,92 → esse valor significa que a linha de “corte”
está 0,92 depois da décima segunda posição. Logo, para determinar o valor
do septuagésimo sexto percentil, fazemos:
P76 = V(P) + PDK · [V(P + 1) – V(P)] → P76 = 18 + 0,92 · (21 – 18) →
P76 = 18 + 0,92 · 3 ∴ P76 = 20,76.
Esse valor é igual ao valor da
mediana da série de dados; faça o
cálculo e comprove.
6
Medidas de tendência central e separatrizes 91
Observação: como já explicado, é possível perceber que, muitas vezes, os procedimen-
tos adotados produzem valores diferentes para o cálculo das mesmas separatrizes.
3.2.2 Para dados agrupados sem intervalos de classe
Para o cálculo das separatrizes em dados agrupados sem intervalos de classe,
primeiramente, devemos construir uma coluna com as frequências acumuladas da
distribuição de dados agrupados sem intervalos de classe. Em seguida, é necessá-
rio calcular a posição da separatriz por intermédio das fórmulas matemáticas:
• , em que n representa o número do quartil.
• , em que n representa o número do decil.
• , em que n representa o número do percentil.
P
n
Q�� �
�.�
� ��
f
4
i=1
N
i
P
n
D �� �
�.�
� ��
f
10
i=1
N
i
P
n
P �� �
�.�
� ��
f
100
i=1
N
i
O valor obtido com esses cálculos deverá ser procurado na coluna das frequên-
cias acumuladas (da distribuição de frequências sem intervalos de classe) para de-
terminar o valor da separatriz.
Acompanhe um exemplo a seguir.
Determine os valores dos três quartis, do terceiro e do oitavo decis, do décimo quinto e no-
nagésimo terceiro percentis da distribuição das notas dos alunos da turma A da disciplina de
Estatística e Probabilidade a seguir.
Tabela 13
Notas dos alunos da turma A da disciplina de Estatística e Probabilidade
Notas (xi) fi
3 1
4 4
5 6
6 9
7 10
8 9
9 5
92 Estatística e probabilidade: conceitos e aplicações
10 6
Total 50Fonte: Elaborada pelo autor.
Solução:
Devemos, em primeiro lugar, construir a coluna das frequências acumuladas. Então, teremos:
Tabela 14
Notas e frequências simples e acumuladas dos alunos da turma A de Estatística e Probabilidade
Notas (xi) fi fa
3 1 1
4 4 5
5 6 11
6 9 20
7 10 30
8 9 39
9 5 44
10 6 50
Total 50 ---
Fonte: Elaborada pelo autor.
Agora, para determinar os três quartis, devemos calcular a posição de cada
uma dessas separatrizes utilizando as fórmulas matemáticas correspondentes e
obtendo:
• PQ1 =
1�·�50
4 ∴ PQ1 = 12,5 → devemos procurar esse valor na coluna das fre-
quências acumuladas, para determinarmos a classe do primeiro quartil.
Encontraremos o valor na quarta classe, pois ultrapassa o valor da terceira
classe que é 11, portanto, Q1 = 6.
• PQ2 = 2�·�50
4
∴ PQ2 = 25 → procurando esse valor na coluna das frequências
acumuladas, determinamos ser pertencente à quinta classe. Então, Q2 = 7.
• PQ3 = 3� �50
4
⋅ ∴ PQ3 = 37,5 → que se encontra na sexta classe da coluna das
frequências acumuladas. Logo, o valor do terceiro quartil será Q3 = 8.
Para a determinação dos decis solicitados, devemos fazer:
• PD3 = 3�·�50
10
∴ PD3 = 15 → esse valor se encontra na quarta classe da coluna
das frequências acumuladas. Assim, o valor do terceiro decil é D3 = 6.
• PD8 = 8�·�50
10
∴ PD8 = 40 → procurando esse valor na coluna das frequências
acumuladas, determinamos ser pertencente à sétima classe, sendo, portan-
to, o valor do oitavo decil D8 = 9.
Já para determinarmos os valores dos percentis solicitados, devemos fazer:
Medidas de tendência central e separatrizes 93
• PP15 = 15�·�50
100
∴ PP15 = 7,5 → esse valor se encontra na terceira classe da coluna
das frequências acumuladas, e o valor do décimo quinto percentil é igual a
P15 = 5.
• PP93 = 93�·�50
100
∴ PP93 = 46,5 → procurando esse valor na coluna das frequências
acumuladas, determinamos ser pertencente à oitava classe, sendo, portanto,
o valor do nonagésimo terceiro P93 = 10.
Resposta: a correspondência das separatrizes com as notas é: Q1 = 6, Q2 = 7,
Q3 = 8, D3 = 6, D8 = 9, P15 = 5 e P93 = 10.
3.2.3 Para dados agrupados com intervalos de classe
Já com relação às distribuições de frequência que apresentem intervalos de
classe, para determinar os valores das medidas de ordenação e as separatrizes,
devemos utilizar a seguinte fórmula matemática:
Q
D
P
=� +�
h�·� p m
f
n
n
n
i
n
m
�
�
�
�
�
�� �
�
em que:
• Qn, Dn, Pn = quartil, decil ou percentil a ser calculado.
• i= limite inferior da classe do quartil, do decil ou do percentil que se está
calculando.
• h = amplitude da classe da qual se está verificando os dados.
• p ��
n�� f
4
n�� i=1
N
i� �. p ��
n�� f
10
n�� i=1
N
i� �. p ��
n�� f
100
n�� i=1
N
i� �. .
• m = frequência acumulada imediatamente anterior à classe que se está veri-
ficando os dados.
• fm = frequência simples (ou absoluta) da classe que se está verificando os
dados.
Vejamos a aplicação por meio de um exemplo.
Determine os três quartis, o quarto e o sétimo decil, o trigésimo quinto e o sexagésimo per-
centil da distribuição de frequências das 70 pessoas adultas que se pesaram, no mesmo dia,
na balança de uma farmácia. Os dados estão dispostos na tabela a seguir.
Tabela 15
Peso de 70 pessoas adultas: Farmácia X, 24/08/2020
Peso (em kg) Quantidade e pessoas (f)
59,0 61,5 3
61,5 64,0 5
64,0 66,5 5
66,5 69,0 7
94 Estatística e probabilidade: conceitos e aplicações
69,0 71,5 9
71,5 74,0 11
74,0 76,5 8
76,5 79,0 7
79,0 81,5 5
81,5 84,0 6
84,0 86,5 4
Total 70
Fonte: Elaborada pelo autor.
Para resolver esse exemplo, o primeiro passo é aumentar a tabela de distribui-
ção de frequências com a coluna correspondente às frequências acumuladas.
Tabela 16
Frequências acumuladas do peso de 70 pessoas adultas
Peso (em kg) Quantidade de pessoas (fi) fa
59,0 61,5 3 3
61,5 64,0 5 8
64,0 66,5 5 13
66,5 69,0 7 20
69,0 71,5 9 29
71,5 74,0 11 40
74,0 76,5 8 48
76,5 79,0 7 55
79,0 81,5 5 60
81,5 84,0 6 66
84,0 86,5 4 70
Total 70 ---
Fonte: Elaborada pelo autor.
Agora, acompanhe os cálculos:
• Cálculo do primeiro quartil: p1 = 1�·�70
4
→ p1 = 17,5
Procurando esse valor na coluna das frequências acumuladas – para desco-
brir a classe de referência do primeiro quartil –, encontramos a quarta classe.
É dessa classe que retiramos os dados para inserir na fórmula.
Q �=� +�
h�·� p m
f
Q �=�66,5+�
2,5�·� 17,5 13
7
Q �=�6n i
n
m
1 1 � �
�� �
�
�� �
� 88,10714286...
• Cálculo do segundo quartil (que é igual à mediana): p2 =
2� �70
4
⋅
→ p2 = 35
Procurando esse valor na coluna das frequências acumuladas para descobrir
a classe de referência do segundo quartil, encontramos a sexta classe. É des-
sa classe que retiramos os dados para inserir na fórmula.
Medidas de tendência central e separatrizes 95
Q �=� +�
h�·� p m
f
Q �=�71,5+�
2,5�·� 35 29
11
Q �=�72n i
n
m
2 2 � �
�� �
�
�� �
� ,,86363636...
• Cálculo do terceiro quartil: p3 = 3�·�70
4
→ p3 = 52,5
Procurando esse valor na coluna das frequências acumuladas para descobrir
a classe de referência do terceiro quartil, encontramos a oitava classe. É des-
sa classe que retiramos os dados para inserir na fórmula.
Q �=� +�
h�·� p m
f
Q �=�76,5+�
2,5�·� 52,5 48
7
Q �=�7n i
n
m
3 3 � �
�� �
�
�� �
� 88,10714286...
• Cálculo do quarto decil: p4 =
4�·�70
10
→ p4 = 28
Procurando esse valor na coluna das frequências acumuladas para descobrir
a classe de referência do quarto decil, encontramos a quinta classe. É dessa
classe que retiramos os dados para inserir na fórmula.
D �=� +�
h�·� p m
f
D �=�69+�
2,5�·� 28 20
9
D �=�71,22n i
n
m
4 4 � �
�� �
�
�� �
� 2222222...
• Cálculo do sétimo decil: p7 =
7�·�70
10
→ p7 = 49
Procurando esse valor na coluna das frequências acumuladas para descobrir
a classe de referência do sétimo decil, encontramos a oitava classe. É dessa
classe que retiramos os dados para inserir na fórmula.
D �=� +�
h�·� p m
f
D �=�76,5+�
2,5�·� 49 48
7
D �=�76,n i
n
m
7 7 � �
�� �
�
�� �
� 885714286...
• Cálculo do trigésimo quinto percentil: p35 =
35� �70
100
⋅
→ p35 = 24,5
Procurando esse valor na coluna das frequências acumuladas para descobrir
a classe de referência do trigésimo quinto percentil, encontramos a quinta
classe. É dessa classe que retiramos os dados para inserir na fórmula.
P �=� +�
h�·� p m
f
P �=�69+�
2,5�·� 24,5 20
9
P �=�7n i
n
m
35 35 � �
�� �
�
�� �
� 00,25
• Cálculo do sexagésimo percentil: p60 =
60�·�70
100 → p60 = 42
Procurando esse valor na coluna das frequências acumuladas para descobrir
a classe de referência do sexagésimo percentil, encontramos a sétima classe.
É dessa classe que retiramos os dados para inserir na fórmula.
P �=� +�
h�·� p m
f
P �=�74+�
2,5�·� 42 40
8
P �=�74,n i
n
m
60 60 � �
�� �
�
�� �
� 6625
Os valores solicitados valem, respectivamente: Q1 = 68,107 kg; Q2 = 72,864 kg;
Q3 = 78,107 kg; D4 = 71,222 kg; D7 = 76,857 kg; P35 = 70,250 kg; e P60 = 74,625 kg. É im-
portante ressaltar que todos esses valores foram dispostos com uma casa decimal
a mais do que os que constam nos dados da tabela.
Para praticar mais a respeito do
cálculo das separatrizes, acesse o
QR Code a seguir. Nele, há uma
série de exercícios a respeito
desse conteúdo.
Já no item a seguir, você apren-
derá a calcular as separatrizes
utilizando o Programa Microsoft
Excel®:
Na prática
96 Estatística e probabilidade: conceitos e aplicações
3.3 Amplitude semi-interquartílica
Vídeo A amplitude semi-interquartílica, também denominada intervalo semi-interquar-
tílico ou desvio quartil, é utilizada para verificar a dispersão dos dados em relação
à mediana.
Seu cálculo leva em consideração o primeiro e o terceiro quartis e é efetuado
por intermédio da seguinte fórmula matemática:
ASI = Q � �Q
2
3 1−
É importante observarmos que, no desvio quartil e no intervalo definido pelos
limites �x� �ASI
�� � e �x��ASI
�� � , encontram-se aproximadamente 50% dos dados da
pesquisa realizada. Se a distribuição for perfeitamente simétrica, essa porcenta-
gem será exata.
Outra grande importância do desvio quartil ou amplitude semi-interquartílica
é que ela não é uma medida afetada pelos valores extremos da série de dados,
portanto, é mais útil quando esses valores extremos não forem representativos.
Para entendermos o seu cálculo, acompanhe o exemplo a seguir.
As notas de duas turmas de Estatística e Probabilidade apresentaram os seguintes
resultados:
Turma A: �x� = 6,0; Q1 = 4,5 e Q3 = 7,5
Turma B: �x� = 6,0; Q1 = 3,0 e Q3 = 7,5
Calcule a amplitude semi-interquartílica para essas duas turmas, interpretando os resultados
obtidos.
Realizando os cálculos, temos:
• Para a turma A: ASI =
Q � �Q
2
3 1−
→ ASI =
7,5� �4,5
2
−
→ ASI = 1,5
• Para a turma B: ASI = Q � �Q
2
3 1− → ASI =
7,5� �3,0
2
−
→ ASI = 2,25
Para a turma A, o intervalo que contém aproximadamente 50% das notas é:
]6,0 – 1,5; 6,0 + 1,5[ → ]4,5; 7,5[. Já para a turma B, esse intervalo é
]6,0 – 2,25; 6 + 2,25[ → ]3,75; 8,25[.
Apesar de nos dois casos a mediana ser igual a 6,0, a Turma B apresenta uma
dispersão maior das notas que a Turma A.
Vejamos mais um exemplo.
Determine a amplitude semi-interquartílica da distribuição de frequências das 70 pessoas
adultas que se pesaram no mesmo dia na balança de uma farmácia X; interprete o resultado
obtido.
Medidas de tendência central e separatrizes 97
Tabela 17
Peso de 70 pessoas adultas: Farmácia X, 24/08/2020
Peso (em kg) Quantidade de pessoas (f)
59,0 61,5 3
61,5 64,0 5
64,0 66,5 5
66,5 69,0 7
69,0 71,5 9
71,5 74,0 11
74,0 76,5 8
76,5 79,0 7
79,0 81,5 5
81,5 84,0 6
84,0 86,5 4
Total 70
Fonte: Elaborada pelo autor.
Como os valores da Tabela 17 são os mesmos do exemplo na seção 3.2.3, vamos
considerar os valores calculados anteriormente para quartis 1 e 3. Assim, temos:
• Q1 = 68,10714286... kg;
• Q3 = 78,10714286... kg;
• �x� = 72,86363636... kg.
Determinando a amplitude semi-interquartílica, obtemos:
ASI = Q � �Q
2
3 1− → ASI = 78,10714286�...�� �68,10714286�...
2
− → ASI = 5 kg
O intervalo semi-interquartílico é: ]72,86363636... – 5; 72,86363636... + 5[
∴ ]67,86363636...; 77,86363636...[ e possui aproximadamente 50% dos dados
pesquisados.
Desse modo, constatamos que a amplitude semi-interquartílica é de 5 kg. Além
disso, 50% dos pesos das pessoas da distribuição de frequências se encontram
entre 67,864 kg e 77,864 kg, com valores arredondados para três casas decimais.
Para praticar mais a respeito do
cálculo das separatrizes, acesse o
QR Code a seguir. Nele, há uma
série de exercícios a respeito
desse conteúdo:
Na prática
3.4 Desvio médio
Vídeo Quando desejarmos analisar a dispersão ou os afastamentos dos valores de
uma série estatística em relação à média aritmética, é conveniente observarmos a
dispersão de cada um dos valores da série, sem exceções. Nós realizamos isso por
intermédio do cálculo do desvio médio, chamado, pelo nome correto, de desvio
médio absoluto.
Como a palavra desvio está associada à diferença, temos que o desvio médio
deve ser empregado com a diferença do elemento analisado em relação à média,
ou seja, o quanto esse elemento se “afasta” da média aritmética da série de dados.
98 Estatística e probabilidade: conceitos e aplicações
É importante percebermos que essa diferença deve ser necessariamente tra-
balhada em módulo, pois não tem sentido ser uma distância negativa e, também,
porque é fácil ver que a soma dos desvios é identicamente nula, portanto, não
serve como medida de dispersão. Assim, temos duas opções: considerarmos os
desvios em valor absolutos ou considerarmos os quadrados dos desvios.
3.4.1 Desvio médio para dados não agrupados
Para determinarmos o desvio médio para dados não agrupados, devemos utili-
zar a seguinte fórmula matemática:
D
x
M �� �
� �
�
��� �x�
n
i=1
n
1
em que:
• DM = desvio médio.
• xi = cada dado da série de dados.
• �x��x�= média aritmética do conjunto de dados.
• n = quantidade de dados da série.
Vejamos um exemplo.
Qual é o valor do desvio médio do conjunto de números 2, 3, 6, 8 e 11?
Para resolvermos essa questão, os seguintes cálculos devem ser realizados:
• Valor da média aritmética: �x��x� = 2�+�3�+�6�+�8�+�11
5
∴ �x��x� = 6
• Desvio médio: DM = 2� 6 �+�3� 6 �+�6� 6 �+�8� 6 �+�11� 6
5
− − − − −� � � � � ∴ DM = 2,8
O valor do desvio médio é 2,8. Em outros termos, os valores do conjunto de
números se afastam da média aritmética 2,8 unidades, seja para a esquerda ou
para a direita.
3.4.2 Desvio médio para dados agrupados sem intervalos
de classe
Para determinarmos o valor desvio médio para dados agrupados sem intervalo
de classe, devemos utilizar a média aritmética ponderada. Depois, devemos sub-
trair o valor dessa média aritmética do valor de cada um dos dados da série, pe-
gando os resultados em módulo e multiplicando-os pelas frequências simples da
classe do dado. A fórmula matemática para esse cálculo é:
Medidas de tendência central e separatrizes 99
D ��
� x ��x� f
n
M�� i=1
n
i�
� �� �� 1
em que:
• fi = frequência simples da classe do dado da série.
Vejamos um exemplo.
Calcule o desvio médio para a distribuição de frequências a seguir.
Idades Frequência (f)
2 4
3 5
4 9
5 6
Total 24
O cálculo do valor da média ponderada é realizado do seguinte modo:
�x��x� = 2�· 4�+�3�·�5�+�4�·�9�+�5�·�6
24
→ �x��x� =
89
24 → �x��x� = 3,70833333...
Ao calcularmos em módulo a diferença entre cada valor da série de dados e a
média aritmética e inserirmos os dados em formato tabular, temos:
Idades fi |xi – x| |xi – x| fi
2 4 1,708333333... 6,833333332...
3 5 0,708333333... 3,541666665...
4 9 0,291666667... 2,625000003...
5 6 1,291666667... 7,750000002...
Total 24 20,750000002
Aplicando a fórmula matemática do desvio médio, temos:
DM = 20,75
24
∴ DM = 0,864583333... anos 7
Resposta: o desvio médio da distribuição de 10 meses e 11 dias,
aproximadamente.
3.4.3 Desvio médio para dados agrupados com intervalos de classe
Nesse caso de desvio médio, convencionamos que todos os valores incluídos
em um intervalo de classe coincidem com o seu ponto médio. Para o cálculo, é
utilizada a mesma fórmula matemática de dados sem intervalo de classes.
Vejamos um exemplo.
0,864583333 ... anos = 0 anos
+ 0,864583333 ... · 12 meses
= 10,375 meses = 10 meses
+ 0,375 · 30 dias = 10 meses e
11,25 dias. Não há necessidade de
se transformar para horas, minutos
e segundos.
7
100 Estatística e probabilidade: conceitos e aplicações
Determine o valor do desvio médio da distribuição a seguir.
Idades Frequência (f)
10 15 5
15 20 10
20 25 15
25 30 15
30 35 20
35 40 10
Total 75
Primeiramente, calculamos o valor da média e a diferença em módulo de cada
ponto médio e a média aritmética; por fim, calculamos o produto desse último re-
sultado pela frequência. Em seguida, colocamos os resultados em formato tabular.
Idades fi xi xi · f |xi – x| |xi – x| fi
10 15 5 12,5 62,5 14,333333333... 71,666666667...
15 20 10 17,5 175,0 9,333333333... 93,333333333...
20 25 15 22,5 337,5 4,333333333... 65,000000000
25 30 15 27,5 412,5 0,666666667... 10,000000000
30 35 20 32,5 650,0 5,666666667... 113,33333333...
35 40 10 37,5 375,0 10,666666667... 106,66666667...
Total 75 ------ 2012,5 ------- 460,00000
Aplicando a fórmula matemática para o cálculo do valor do desvio médio,
obtemos:
DM =
460
75 ∴ DM = 6,133333333... anos 8
O desvio médio da distribuição é igual a 6 anos, 1 mês e 18 dias.
CONSIDERAÇÕES FINAIS
Este capítulo foi dedicado ao estudo das medidas de tendência central, também
chamadas de medidas de posição: média aritmética simples e ponderada, mediana e
moda. Aprendemos a calculá-las para dados não agrupados, dados agrupados sem
intervalos de classe e dados agrupados com intervalos de classe.
Estudamos, também, outras médias importantes, como média geométrica,média
harmônica e harmônico global, com algumas de suas aplicações práticas. Conhece-
mos, ainda, as medidas de ordenação e as separatrizes para os dados não agrupados,
os agrupados sem intervalos de classe e os agrupados com intervalos de classe.
Finalmente, culminamos nosso estudo com o cálculo da amplitude semi-interquar-
tílica e sua interpretação; vimos, inclusive, o desvio médio. Vale ressaltar que muitos
desses cálculos são bastante extensos, por isso precisam ser realizados com atenção
redobrada.
6,13333333... anos = 6 anos +
0,13333333... · 12 meses = 6
anos + 1,6 meses = 6 anos + 1
mês + 0,6 · 30 dias = 6 anos, 1
mês e 18 dias.
8
Medidas de tendência central e separatrizes 101
ATIVIDADES
1. Considere o seguinte conjunto de números: 2, 5, 9 e 11. Determine o valor da soma
das médias aritmética, geométrica e harmônica dos elementos desse conjunto.
Forneça a resposta com duas casas decimais.
2. Em uma avaliação parcial, 20 alunos da turma de Estatística e Probabilidade tiraram
as seguintes notas:
2 – 6 – 9 – 3 – 5 – 2 – 7 – 3 – 10 – 2 – 6 – 3 – 3 – 2 – 8 – 9 – 5 – 4 – 3 – 7.
A correção foi realizada de acordo com a ordem de entrega das avaliações.
O professor solicitou que os alunos calculassem a média, a mediana e o modal
das notas. Para acertar a solicitação do professor, quais valores os alunos deverão
encontrar?
3. Um pesquisador fez um estudo a respeito do número de acidentes diários
atendidos pelos agentes de trânsito para o Departamento de Trânsito de uma
cidade. Os dados levantados para o período em que a pesquisa foi realizada estão
transcritos na tabela a seguir.
Número de acidentes atendidos pelos agentes de trânsito da cidade X no
período de 10/01/2019 a 10/02/2019
Número de acidentes fi
3 18
4 35
5 46
6 28
7 25
8 10
9 5
10 3
O pesquisador deve, em uma das partes de seu trabalho, calcular a média
aritmética, a mediana e a moda do número de acidentes que ocorreram no período
em questão. Que valores ele encontrou para essas medidas estatísticas?
4. Em uma escola de natação, um levantamento das estaturas dos alunos do turno da
manhã matriculados no mês de maio de 2020 foi realizado. Os resultados obtidos
estão compilados na tabela a seguir.
Estatura dos alunos matriculados na escola de natação: 05/2020
Estatura (em cm) Quantidade de alunos (fi)
120 128 12
128 136 24
136 144 32
144 152 26
152 160 14
160 168 9
168 176 5
Determine os valores da média aritmética, o valor da mediana e o valor da moda
(utilizando os métodos de Czuber e de King) das estaturas desse grupo de alunos.
Vídeo
102 Estatística e probabilidade: conceitos e aplicações
5. A relação a seguir corresponde ao levantamento dos erros ortográficos que os
alunos de uma escola cometeram em uma redação solicitada pela professora
de Língua Portuguesa. Observe que a quantidade de erros não está disposta em
nenhum tipo de ordenamento:
10 – 13 – 11 – 11 – 8 – 12 – 15 – 3 – 21 – 11 – 9 – 27 – 13 – 7 – 25 – 22 – 5 – 14 – 20
– 22 – 23 – 4 – 7 – 25 – 22 – 5.
O esposo da professora, que também é professor, mas de Estatística e Probabilidade,
resolveu, com essa relação de erros ortográficos, solicitar que seus próprios alunos
calculassem os três quartis, o terceiro e o sétimo decis, o vigésimo sétimo e o
octogésimo sétimo percentis dessa série.
Para que um aluno da disciplina de Estatística e Probabilidade tenha acertado o
que foi solicitado pelo professor, que valores ele deve ter encontrado, calculados
pelos processos de interpolação com base N – 1 e N + 1?
6. Uma empresa que realiza inspeções de manutenção de elevadores residenciais
fez um levantamento dos pesos das pessoas que utilizam um elevador instalado
em um prédio residencial. Durante o período matutino, momento em que foram
realizadas as aferições, foram contabilizados os seguintes resultados:
Pesos das pessoas que utilizam o elevador do edifício: 15/06/2019
Peso (em kg) Quantidade de pessoas (fi)
10 30 12
30 50 27
50 70 67
70 90 45
90 110 32
110 130 17
Determine o valor da amplitude semi-interquartílica interpretando o resultado
obtido e o valor do desvio médio do levantamento de dados.
REFERÊNCIAS
BOYER, C. B. História da Matemática. Trad. de Elza F. Gomide. São Paulo, Edgard Blücher, 1974.
BRUNI, A. L. Estatística aplicada à gestão empresarial. 3. ed. São Paulo: Atlas, 2011.
CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009.
MARTINS, G. de A.; DOMINGUES, O. Estatística Geral e Aplicada. 5. ed. São Paulo: Atlas, 2014.
McCLAVE, J. T; BENSON, P. G.; SINCICH, T. Estatística para administração e economia. 10. ed. São Paulo:
Pearson Prentice Hall, 2009.
RODRIGUES, M. da S. Dicionário Brasileiro de Estatística: seguido de um vocabulário inglês-português.
2. ed. Rio de Janeiro: IBGE, 1970. Disponível em: https://biblioteca.ibge.gov.br/index.php/biblioteca-
catalogo?id=281219&view=detalhes. Acesso em 14 jan. 2021.
TRIOLA, M. F. Introdução à Estatística. 10. ed. Rio de Janeiro: LTC, 2008.
Medidas de dispersão ou de variabilidade 103
4
Medidas de dispersão
ou de variabilidade
Anteriormente, tratamos das medidas de posição ou medidas de tendência
central, que são a média aritmética (simples ou ponderada), a mediana e a moda.
Também vimos as medidas de ordenação ou separatrizes, utilizadas para rea-
lizar cortes ordenados de uma série de dados: os quartis, os decis e os percentis.
Agora, dando continuidade a nossos estudos da ciência Estatística, vamos
nos dedicar às medidas de variabilidade ou medidas de dispersão, às
medidas de assimetria e à medida de curtose.
4.1 Medidas de dispersão ou de variabilidade
Vídeo Quando abordamos as medidas de tendência central, percebemos que é
possível resumir uma série de dados com uma dessas medidas. No entanto, será
que o resultado obtido com o cálculo delas reflete o que realmente ocorre com os
dados da série que estamos estudando?
As medidas de dispersão, também denominadas medidas de variabilidade ou
medidas de afastamento, nos ajudam a compreender melhor o comportamento dos
valores da série de dados que está a nosso dispor.
Podemos afirmar que o estudo dessas medidas estatísticas serve para nos in-
formar com que confiança as medidas de tendência central resumem as informa-
ções obtidas em uma pesquisa.
As medidas de dispersão são utilizadas para verificar o quanto os valores de
uma série de dados estão dispersos ou afastados das medidas de tendência cen-
tral, especificadamente da média aritmética e da mediana, refletindo o grau de
confiança que temos com os resultados.
Vamos entender melhor o que estamos afirmando analisando e calculando a
média aritmética dos três conjuntos a seguir.
104 Estatística e probabilidade: conceitos e aplicações
• X = {35, 35, 35, 35, 35, 35, 35} → x = 245
7 → x = 35
• Y = {32, 33, 34, 35, 36, 37, 38} → y = 245
7
→ y = 35
• Z = {1, 18, 27, 35, 43, 52, 69} → z = 245
7
→ z = 35
Ao analisar esses três conjuntos, percebemos que apresentam a mesma média
aritmética. Além disso, é fácil verificar que o conjunto X é mais homogêneo que os
conjuntos Y e Z, uma vez que todos os valores são iguais à média aritmética.
O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor
dispersão e menor afastamento entre cada um de seus valores e a média aritmética
do conjunto de dados.
Ainda com relação a esses três conjuntos, será que esse valor, a média aritmética,
representa-os bem? A resposta para essa pergunta é não. Mas por quê? Vamos
pensar da seguinte maneira: se conhecêssemos o valor da média aritmética, será
que imaginaríamos os elementos dos três conjuntos como eles realmente são? É
lógico que não faríamos isso.
Para termos uma noção melhor de como estão dispostos os elementos de um
conjunto, somente o valor da média aritmética não é suficiente.
Assim, para avaliar o grau de variabilidade ou de dispersão ou de afastamento
dos valores de um conjunto de dados são utilizadas as medidas de dispersão. É por
meio delas que podemosobter uma avaliação mais adequada e detalhada da série
estatística ou do fenômeno pesquisado.
As medidas de dispersão são classificadas da seguinte maneira:
Medidas de
dispersão
Absoluta
Amplitude total
Variância
Desvio padrão
Relativa
Convém ressaltarmos que as medidas de dispersão absolutas são determina-
das com a utilização da mesma unidade de medida dos dados estatísticos que es-
tão sendo investigados. Já no trabalho com uma medida de dispersão relativa é
necessário calculá-la em termos percentuais, ou seja, obter um resultado indepen-
dente da unidade de medida dos dados da pesquisa, o que pode configurar uma
vantagem se desejarmos realizar comparações com duas distribuições diferentes.
Iniciamos a seguir o estudo das medidas de dispersão absolutas.
Medidas de dispersão ou de variabilidade 105
4.1.1 Medidas de dispersão absolutas
As medidas de dispersão absolutas avaliam o quanto os dados da distribuição
estão dispersos ou afastados de uma medida de tendência central, normalmente a
média aritmética. Ao trabalhar na mesma unidade de medida dos dados do conjun-
to universo, devemos aplicar as medidas de dispersão absolutas: amplitude total,
variância e desvio padrão.
4.1.1.1 Amplitude total
Esta medida de dispersão absoluta, como o próprio nome sugere, calcula a
amplitude dos dados de uma série estatística, ou seja, a diferença entre o maior
valor dos dados e o menor deles. Assim, se denominarmos a amplitude total por
AT, podemos calculá-la por intermédio da seguinte fórmula matemática:
AT = xi (máximo) – xi (mínimo)
Rodrigues (1970, p. 14) referenda esse conceito ao afirmar que “AMPLITUDE
TOTAL – I. de um conjunto de números, é o valor absoluto da diferença entre o
maior e o menor deles”.
Já de acordo com Bruni (2011, p. 62):
a amplitude apresenta a vantagem de poder ser obtida de forma fácil e simples.
Porém, em virtude de apenas analisar os extremos, sua interpretação pode
tornar-se razoavelmente difícil, já que os extremos aberrantes (extraordinaria-
mente grandes ou pequenos) distorcem quaisquer cálculos que os envolvam.
Embora seja a medida de dispersão mais simples, ela apresenta restrições ao
uso, pois é muito instável. Isso ocorre porque a amplitude total considera apenas
a diferença entre o maior e o menor valor da série de dados, não levando em conta
a dispersão de seus valores internos.
Para compreender melhor todas essas afirmações, necessitamos verificar como
se obtém o valor da amplitude dos dados estatísticos nas diversas situações nas
quais eles podem se apresentar. Em outros termos, devemos nos atentar para
como calcular o valor dessa medida de dispersão se tivermos dados não agrupa-
dos, dados agrupados em distribuições de frequências sem intervalos de classe e
dados agrupados em distribuições de frequências com intervalos de classe.
Amplitude total para um conjunto de dados não agrupados
Como vimos, a amplitude total ou intervalo total é a diferença entre o maior e o
menor valor de uma série de dados. Vejamos um exemplo de como calcular a medida
de dispersão para dados que não estejam agrupados em distribuições de frequência.
106 Estatística e probabilidade: conceitos e aplicações
Determinar o valor da amplitude total dos conjuntos de elementos X, Y e Z dados anterior-
mente, analisando os resultados obtidos.
Para determinar o valor da amplitude total desses conjuntos de dados, fazemos:
• ATX = xi(máximo) – xi(mínimo) ∴ ATX = 35 – 35 ∴ ATX = 0
• ATY = yi(máximo) – yi(mínimo) ∴ ATY = 38 – 32 ∴ ATY = 6
• ATZ = zi(máximo) – zi(mínimo) ∴ ATZ = 69 – 1 ∴ ATZ = 68
Com base nos dados, concluímos que o conjunto X apresenta o que denomi-
namos dispersão nula, AT = 0, e que os elementos do conjunto Y apresentam uma
dispersão menor que a dos elementos do conjunto Z; entretanto, não conseguimos
visualizar mais do que isso.
Resposta: as amplitudes totais dos três conjuntos dados são ATX = 0, ATY = 6
e ATZ = 68. O conjunto X apresenta dispersão nula e o conjunto Y apresenta uma
dispersão de elementos menor que a do conjunto Z.
Amplitude total para um conjunto de dados agrupados em
distribuições de frequências sem intervalos de classe
Se os dados já estiverem compilados em uma distribuição de frequências que
não apresenta intervalos de classe, a maneira de obtermos o valor da amplitude
total é exatamente a mesma que utilizamos para a calcular quando os dados não
estão agrupados.
Vejamos um exemplo.
Determinar a amplitude total das notas dos alunos da turma A da disciplina de Estatística e
Probabilidade.
Tabela 1
Notas dos alunos da turma A da disciplina de Estatística e Probabilidade
Notas (xi) fi
3 1
4 4
5 6
6 9
7 10
8 9
9 5
10 6
Total 50
Fonte: Elaborada pelo autor.
Medidas de dispersão ou de variabilidade 107
Aplicando a fórmula, temos: AT = xi (máximo) – xi (mínimo)
∴ AT = 10 – 3 ∴ AT = 7
Assim, concluímos que as notas apresentam a variação de 7,0 pontos.
Resposta: a amplitude total das notas da turma de Estatística e Probabilidade
é igual a 7.
Amplitude total para um conjunto de dados agrupados em
distribuições de frequências com intervalos de classe
Caso os dados de uma pesquisa estejam compilados em uma distribuição de
frequências com intervalos de classe, o valor da amplitude total será determi-
nado, segundo Crespo (2009, p. 110), pela “diferença entre o limite superior da
última classe e o limite inferior da primeira classe”. Para tanto, podemos utilizar a
seguinte fórmula matemática:
AT = L(max) – l(mín)
Exemplificamos esse cálculo a seguir.
Determinar a amplitude total dos pesos das 70 pessoas adultas que se pesaram no mesmo
dia na balança de uma farmácia. A compilação dos dados resultou na tabela a seguir:
Tabela 2
Peso de 70 pessoas adultas: Farmácia X, 24/08/2020
Peso (em kg) Quantidade de pessoas
59,0 61,5 3
61,5 64,0 5
64,0 66,5 5
66,5 69,0 7
69,0 71,5 9
71,5 74,0 11
74,0 76,5 8
76,5 79,0 7
79,0 81,5 5
81,5 84,0 6
84,0 86,5 4
Total 70
Fonte: Elaborada pelo autor.
Realizando os cálculos:
AT = L(max) – l(mín) ∴ AT = 86,5 – 59,0 ∴ AT = 27,5 kg
Resposta: a amplitude total do peso das 70 pessoas é de 27,5 kg.
Para praticar mais a respeito
do cálculo da amplitude total,
acesse o QR Code a seguir. Nele
há uma série de exercícios a
respeito desse conteúdo:
Já no QR Code a seguir, você
aprenderá a calcular a amplitude
total utilizando o programa
Microsoft Excel:
Na prática
108 Estatística e probabilidade: conceitos e aplicações
4.1.1.2 Variância
Como a amplitude total é uma medida estatística muito influenciável pelos
extremos do conjunto de dados estatísticos, devemos trabalhar com medidas esta-
tísticas que fujam desse problema. A variância é uma das medidas que contorna
esse problema, junto com o desvio padrão, medida que vamos estudar adiante.
A variância leva em consideração a totalidade dos valores dos dados da sé-
rie estatística em estudo, fazendo dela uma medida estatística muito confiável.
Rodrigues (1970, p. 287) a define do seguinte modo: “VARIÂNCIA – I. De uma variá-
vel, sobre um conjunto de valores da mesma, é a m.a. dos quadrados dos afasta-
mentos desses valores em relação à respectiva m.a. nesse conjunto”.
Dessa forma, para calcularmos o valor da variância, utilizamos as seguintes fór-
mulas matemática:
• Para amostras: �para�amostras:�s �=��
x �x� f
f 1
��ou�s2 i=1
n
i
2
i
i=1
n
i
2
�
�
�� �
�
·� �
� ��=��
x �x� f
n 1
i=1
n
i
2
i� �� �
�
·� �
• Para populações:�para�populações:� �=��
x f
f
�ou� �=�2 i=1
n
i
2
i
i=1
n
i
2� �
�
�
�� �� ·� �
� ��
x f
N
�i=1
n
i
2
i� �� �� ·� �
�
Precisamos fazer algumas considerações a respeito dessas fórmulas.
ar
ty
wa
y/
Sh
ut
te
rs
to
ck
Existem diversos estudos que explicam matematicamente o porquê de termos
na fórmula da variância amostral o denominador n – 1 (que significa ter um grau
de liberdade a menos) e na da variância populacional o denominador N. Como
são procedimentos mais complexos, não há a necessidade de abordarmosnesta
obra. No entanto, devemos saber que, ao utilizarmos a divisão pelo valor n – 1,
conseguimos uma melhor estimativa do valor da variância populacional. A razão
de fazermos isso em Estatística é que, segundo estudiosos da área, essa operação
conduz a resultados mais coerentes do que a divisão por n, pura e simplesmente.
As diferenças entre cada um dos dados e a média aritmética devem ser ele-
vadas ao quadrado porque se apenas somarmos essas diferenças obteríamos o
resultado zero. Ao elevarmos cada uma das diferenças ao quadrado os resultados
de todas as diferenças se tornam positivos.
Na sequência, vamos verificar como proceder para calcular o valor da va-
riância de dados não agrupados, de dados agrupados em distribuições de fre-
quências sem intervalos de classe e de dados agrupados em distribuições de
frequências com intervalos de classe.
m.a.: abreviatura para média
aritmética.
Glossário
Medidas de dispersão ou de variabilidade 109
Determinar a variância do conjunto de dados Z = {1, 18, 27, 35, 43, 52, 69}, considerando-o
como sendo uma população e como sendo uma amostra de uma população.
Ao estabelecer o valor da média aritmética do conjunto de dados, temos:
�x��=��
x
n
�x��=�1�+�18�+�27�+�35�+�43�+�52�+�69
7
�xi=1
n
i� � �
�
���=�245
7
�x��=�35�
Ao determinar a soma da diferença entre cada um dos dados e a média
aritmética, temos:
xi (xi - x)2
1 (1 – 35)2 = 1.156
18 (18 – 35)2 = 289
27 (27 – 35)2 = 64
35 (35 – 35)2 = 0
43 (43 – 35)2 = 64
52 (52 – 35)2 = 289
69 (69 – 35)2 = 1.156
Total 3.018
Ao calcular o valor da variância considerando os dados do conjunto como uma
amostra (variância amostral), temos:
s �=��
x �x� f
n 1
s �=
3.018
7 1
s �=�503�2
i=1
n
i
2
i 2 2� �� �
�
�
�
�
· �
Por fim, ao estabelecer o valor da variância considerando os dados do conjunto
como uma população, temos:
� � �2
i=1
n
i
2
i 2 2�=��
x f
N
�=��
3.018
7
�=�431,14285714...� �� �
� �
� · �
Observação: como cada dado (elemento) do conjunto aparece uma única
vez, a frequência correspondente é igual a 1. Assim, o numerador da fórmu-
la acaba sendo restrito apenas ao valor da subtração da média aritmética
do dado estatístico (xi).
Resposta: se considerarmos os elementos do conjunto Z como uma amos-
tra, o valor da variância amostral será igual a 503. Se considerarmos os elemen-
tos do conjunto Z como sendo uma população, a variância populacional será de
431,14, com duas casas decimais.
110 Estatística e probabilidade: conceitos e aplicações
Outro exemplo:
A distribuição de frequências a seguir representa a relação das notas dos alunos da turma A
da disciplina de Estatística e Probabilidade, já trabalhada anteriormente, considerando-a
como uma amostra e uma população.
Tabela 3
Notas dos alunos da turma A da disciplina de Estatística e Probabilidade
Notas (xi) fi
3 1
4 4
5 6
6 9
7 10
8 9
9 5
10 6
Total 50
Fonte: Elaborada pelo autor.
Com base nesses dados, determine o valor da variância.
Como essa é uma distribuição já trabalhada, vamos assumir que já temos o va-
lor da média aritmética, que é x = 7.
Para subtraí-lo da média aritmética de cada um dos dados, de cada uma
das notas, é necessário elevarmos o resultado ao quadrado e multiplicarmos
pela frequência simples da classe. Podemos, desse modo, inserir mais uma
coluna na distribuição de frequências, indicando o resultado obtido para cada
classe. Observe:
Tabela 4
Notas dos alunos da turma A (cálculos intermediários para obtenção da variância)
Notas (xi) fi (xi - x)2 · fi
3 1 (3 – 7)2 · 1 = 16
4 4 (4 – 7)2 · 4 = 36
5 6 (5 – 7)2 · 6 = 24
6 9 (6 – 7)2 · 9 = 9
7 10 (7 – 7)2 · 10 = 0
8 9 (8 – 7)2 · 9 = 9
9 5 (9 – 7)2 · 5 = 20
10 6 (10 – 7)2 · 6 = 54
Total 50 168
Fonte: Elaborada pelo autor.
Medidas de dispersão ou de variabilidade 111
Ao determinar o valor da variância, considerando a distribuição de frequências
como sendo uma amostra, temos:
s �=��
x �x� f
n 1
s �=
�168���
�50 1
s �=�3,428572
i=1
n
i
2
i 2 2� �� �
�
�
�
�
�· �
1143
Ao calcular o valor da variância, considerando os dados da distribuição de fre-
quências como sendo uma população, temos:
� � �2
i=1
n
i
2
i 2 2�=��
x f
N
�=��
168
50
�=�3,36� �� �
� �
� · �
Resposta: se considerarmos a distribuição de frequências como uma amostra
de dados, o valor da variância (amostral) será de s2 = 3,43 pontos2. Se considerar-
mos a distribuição de frequências como uma população, a variância (populacional)
terá valor σ2 = 3,36 pontos2.
Mais um exemplo:
A tabela a seguir mostra o resultado da pesagem de 70 pessoas adultas que utilizaram em
um mesmo dia a balança de uma farmácia:
Tabela 5
Peso de 70 pessoas adultas: Farmácia X, 24/08/2020
Peso (em kg) Quantidade de pessoas (fi)
59,0 61,5 3
61,5 64,0 5
64,0 66,5 5
66,5 69,0 7
69,0 71,5 9
71,5 74,0 11
74,0 76,5 8
76,5 79,0 7
79,0 81,5 5
81,5 84,0 6
84,0 86,5 4
Total 70
Fonte: Elaborada pelo autor.
Determinar o valor da variância e realizar os cálculos considerando a distribuição de frequên-
cias como uma amostra e como uma população.
Como essa é uma distribuição já trabalhada, vamos assumir que já temos o
valor da média aritmética, que é x = 73,03571429..., o qual vamos utilizar para o
cálculo das variâncias amostral e populacional.
112 Estatística e probabilidade: conceitos e aplicações
Em seguida, vamos realizar as subtrações do valor da média aritmética do valor
do ponto médio de cada intervalo de classe, elevar o resultado obtido ao quadrado
e multiplicar pelo valor da frequência simples da classe. Os resultados obtidos de-
vem ser inseridos em uma nova coluna da distribuição de frequências. Observe:
Tabela 6
Peso de 70 pessoas adultas: Farmácia X, 24/08/2020 (cálculos intermediários para obtenção da variância)
Peso (em kg) fi xi (xi - x)2 · fi
59,0 61,5 3 60,25 490,4234694
61,5 64,0 5 62,75 528,9795918
64,0 66,5 5 65,25 303,0867347
66,5 69,0 7 67,75 195,5714286
69,0 71,5 9 70,25 69,84183673
71,5 74,0 11 72,75 0,897959184
74,0 76,5 8 75,25 39,2244898
76,5 79,0 7 77,75 155,5714286
79,0 81,5 5 80,25 260,2295918
81,5 84,0 6 82,75 566,2040816
84,0 86,5 4 85,25 596,755102
Total 70 3.206,785714
Fonte: Elaborada pelo autor.
Para determinar o valor da variância, considerando a distribuição de frequên-
cias como uma amostra, temos:
s �=��
x �x� f
n 1
s �=
�3.206,785714...���
�70 1
2
i=1
n
i
2
i 2� �� �
�
�
�
�
�· �
ss �=�46,47515528...2
Para calcular o valor da variância, considerando os dados da distribuição de
frequências como uma população, temos:
� � �2
i=1
n
i
2
i 2 2�=��
x f
N
�=��
3.206,785714...
70
�=�45,81� �� �
� �
� · �
1122449...�
Resposta: se considerarmos a distribuição de frequências como uma amostra
de dados, o valor da variância (amostral) será de s2 = 46,475 kg2. Se considerarmos
a distribuição de frequências como uma população, a variância (populacional) terá
valor σ2 = 45,811 kg2.
É importante ressaltar que consideramos nas respostas as unidades elevadas
ao quadrado (pontos2 e kg2), o que é, no mínimo, estranho. Isso ocorre porque, ao
calcular a variância, seja amostral ou populacional, elevamos ao quadrado os da-
dos que obtivemos. Essa é uma das desvantagens do cálculo da variância, pois se
torna impossível realizar alguma comparação entre o valor da variância e o valor da
média aritmética, já que esta última está em unidade simples e a outra está nessa
unidade elevada ao quadrado.
Medidas de dispersão ou de variabilidade 113
A medida de dispersão denominada desvio padrão resolve esse problema causa-
do pelo transcorrer do cálculo da variância. Vamos estudá-lo agora.
4.1.1.3 Desvio padrão
Utilizamos o desvio padrão – que representamos por s ao trabalharmos com
amostras e por σ ao trabalharmos com populações – para caracterizar a dispersão
entre os dados em determinada população ou amostra. Esse índice de variação
mede a dispersão em torno da média.
Para sua determinação, é interessante relembrarmos que no cálculo da variânciacometemos um erro técnico que será corrigido pelo desvio padrão. No momento
em que elevamos ao quadrado as dispersões (as diferenças de cada elemento em
relação à média aritmética), automaticamente alteramos a unidade dos elementos.
Ao trabalharmos, por exemplo, com uma pesquisa na qual tenhamos que cole-
tar as alturas (em metro) de pessoas de uma comunidade, a unidade da variância
será o m2 (metro quadrado), que representa áreas, e não estatura. E é aí que entra
o desvio padrão, ou seja, ao extrair a raiz quadrada da variância, volta-se à unidade
original de trabalho.
Em outros termos, podemos afirmar que o desvio padrão nada mais é do que a
raiz quadrada da variância. Suas fórmulas matemáticas são:
• Para amostras: �para�amostras:�s�=� s s�=�
x �x� f
n 1
ou�s�=�2
i=1
n
i
2
i i=1;
· �� �� �
�
nn
i
2
i
i=1
n
i
x �x� f
f 1
�
�
�
�� �
�
·� �
�
• Para populações:�para�populações:� �=� �=�
x f
N
ou� �=�2
i=1
N
i
2
i i=1
N
� � � �;
·� �� �� �� ��
�
�� �x f
f
�
i
2
i
i=1
N
i
� �· �
��
A seguir, vamos exemplificar a obtenção dos valores do desvio padrão com da-
dos não agrupados e com dados agrupados em distribuições de frequências sem
intervalos de classe e em distribuições de frequências com intervalos de classe.
Determinar o valor do desvio padrão do conjunto de dados Z = {1, 18, 27, 35, 43, 52, 69}. Con-
sidere esse conjunto como uma população e como a amostra de uma população.
Como essa é uma distribuição já trabalhada, vamos assumir que temos o valor
da média aritmética, que é x = 35.
σ: letra grega sigma (minúscula),
correspondente ao s latino.
Glossário
É possível indicar o desvio padrão
por SD (standard deviation) e a
variância por Var.
Atenção
114 Estatística e probabilidade: conceitos e aplicações
Ao determinar a soma da diferença entre cada um dos dados e a média
aritmética, temos:
xi (xi - x)2
1 (1 – 35)2 = 1.156
18 (18 – 35)2 = 289
27 (27 – 35)2 = 64
35 (35 – 35)2 = 0
43 (43 – 35)2 = 64
52 (52 – 35)2 = 289
69 (69 – 35)2 = 1.156
Total 3.018
Para o cálculo do valor do desvio padrão, considerando os dados do conjunto
como uma amostra, ou seja, o desvio padrão amostral, temos:
s�=�
x �x� f
n 1
s�=�
3.018
7 1
s�= 503 s�=�22,4i=1
n
i
2
i� �� �
�
�
�
� �
·� �
� � � 22766149...
Para o cálculo do valor do desvio padrão, considerando os dados do conjunto
como uma população, temos:
� � � ��=�
x �f �
N
�=�
3.018
7
� �=� 431,14285714...� �i=1
N
i
2
i� �� �
� � �
� ·
==�20,7639798...
Observação: no cálculo do desvio padrão, considerando os dados tanto de
uma amostra quanto de uma população, se já conhecêssemos o valor da va-
riância, poderíamos apenas extrair a raiz quadrada desse valor. Veja a seguir.
Considerando os dados como pertencentes a uma amostra e sabendo que o
valor da variância amostral é s2 = 503, temos:
s = 503 ∴ s = 22,42766149...
Considerando os dados como pertencentes a uma população e sabendo que o
valor da variância amostral é σ2 = 431,14285714..., temos:
σ = � 431,14285714...�� � �=�20,7639798...�� �
Resposta: ao considerar os elementos do conjunto como pertencentes a uma
amostra, o valor do desvio padrão é s = 22,428, mas, ao considerar os elementos
como pertencentes a uma população, o valor é σ = 20,764. Esses valores estão
arredondados para três casas decimais.
Medidas de dispersão ou de variabilidade 115
Considere outro exemplo, agora para dados agrupados.
A tabela a seguir se refere à distribuição de frequências das notas dos alunos da turma A da
disciplina de Estatística e Probabilidade, já trabalhada anteriormente.
Tabela 7
Notas dos alunos da turma A da disciplina de Estatística e Probabilidade
Notas (xi) fi
3 1
4 4
5 6
6 9
7 10
8 9
9 5
10 6
Total 50
Fonte: Elaborada pelo autor.
Considerando esses dados como uma amostra e como uma população, calcule o desvio padrão.
Como já calculamos o valor da variância, vamos aproveitar os resultados obtidos
para simplificar os cálculos. O valor da variância amostral é s2 = 3,42857143..., assim,
para determinar o desvio padrão, fazemos a extração da raiz quadrada desse valor:
s = 3,42857143... ∴ s = 1,8516402... pontos
Sendo o valor da variância populacional σ2 = 3,36, o valor do desvio padrão po-
pulacional será obtido ao fazermos:
σ = 3,36 ∴ σ = 1,83303028... pontos
Resposta: se considerarmos a distribuição de frequências como uma amos-
tra de dados, o valor do desvio padrão amostral será s = 1,852 pontos. Já se con-
siderarmos a distribuição de frequências como uma população, o desvio padrão
populacional será σ = 1,833 pontos. Esses valores foram arredondados para três
casas decimais.
Na sequência, o exemplo se refere a dados agrupados com intervalo de classes:
A tabela a seguir mostra o resultado da pesagem de 70 pessoas adultas que utilizaram em
um mesmo dia a balança de uma farmácia:
(Continua)
116 Estatística e probabilidade: conceitos e aplicações
Tabela 8
Peso de 70 pessoas adultas: Farmácia X, 24/08/2020
Peso (em kg) Quantidade de pessoas
59,0 61,5 3
61,5 64,0 5
64,0 66,5 5
66,5 69,0 7
69,0 71,5 9
71,5 74,0 11
74,0 76,5 8
76,5 79,0 7
79,0 81,5 5
81,5 84,0 6
84,0 86,5 4
Total 70
Fonte: Elaborada pelo autor.
Determinar o valor do desvio padrão e realizar os cálculos considerando a distribuição de
frequências como uma amostra e como uma população.
Como já calculamos os valores das variâncias amostral e populacional, vamos
aproveitá-los para simplificar os cálculos.
Para a determinação do desvio padrão amostral, fazemos:
s = 46,47515528... ∴ s = 6,8172689... kg
Para calcular o valor do desvio padrão populacional, fazemos:
σ = 45,81122449... ∴ σ = 6,76839896... kg
Resposta: se considerarmos a distribuição de frequências como uma amos-
tra de dados, o valor do desvio padrão amostral será s = 6,817 kg. Agora, se
considerarmos a distribuição de frequências como uma população, o desvio
padrão populacional será σ = 6,768 kg. Os valores estão arredondados para
três casas decimais.
Interpretação do desvio padrão
Além de sabermos calcular o valor do desvio padrão, é muito importante que
saibamos interpretar o resultado obtido. Existe uma regra para a interpretação do
desvio padrão calculado, chamada regra empírica.
Para distribuições amostrais ou populacionais que possuam média aritmética
x ou µ e desvio padrão s ou σ, com relação à regra empírica, Martins e
Domingues (2014, p. 46) esclarecem que:
• O intervalo ( x ± s) ou (µ ± σ) contém entre 60% e 80% de todas as observa-
ções. A porcentagem aproxima de 70% para distribuições aproximadamente
Para praticar mais a respeito do
cálculo da variância e do desvio
padrão, acesse o QR Code a seguir.
Nele há uma série de exercícios a
respeito desse conteúdo:
Já no QR Code a seguir, você
aprenderá a calcular a variância
e o desvio padrão utilizando o
programa Microsoft Excel®:
Na prática
Medidas de dispersão ou de variabilidade 117
simétricas, chegando a 90% para distribuições fortemente simétricas.
• O intervalo ( x ± 2s) ou (µ ± 2σ) contém aproximadamente 95% das observações
para distribuições simétricas e aproximadamente 100% para distribuições
com assimetria elevada.
• O intervalo ( x ± 3s) ou (µ ± 3σ) contém aproximadamente 100% das
observações, para distribuições simétricas.
Para comprovarmos essa regra, vamos utilizar os dados do exemplo referente
ao peso de 70 pessoas adultas na Farmácia X, como se a distribuição de frequências
fosse considerada uma população: µ = 73,03571429... kg e σ = 6,76839896... kg.
Logo, temos:
• (µ ± σ) = (73,03571429... ± 6,76839896...). Assim, o intervalo será: (µ ± σ)
= (66,26731533... kg; 79,80411325... kg), que corresponde à soma das fre-
quências simples da terceira à nona classe e totaliza 52 das 70 pessoas
(74,29% do total).
• (µ ± 2σ) = (73,03571429... ± 2 · 6,76839896...). Assim, o intervalo será: (µ ± 2σ)
= (59,498916... kg; 86,572512... kg), que corresponde à soma das frequências
simples de todas as classes, ou seja, 100% dototal de pessoas.
• (µ ± 3σ) = (73,03571429... ± 3 · 6,76839896...). Assim, o intervalo será: (µ ± 3σ)
= (52,730517... kg; 93,340911... kg), que corresponde à soma das frequências
simples de todas as classes (100% do total de pessoas). Isso já havia ocorrido
quando multiplicamos o desvio padrão por dois.
A distribuição de frequências que utilizamos é uma assimétrica – conceito que
será explicado adiante –, assim, os valores da regra empírica ultrapassam os per-
centuais indicados. Quanto mais simétrica a distribuição de frequências for, mais
os percentuais serão comprovados.
4.1.2 Coeficiente de variação
O coeficiente de variação – que representaremos por CV e que pode ser deno-
minado coeficiente de variação de Pearson – exprime a variabilidade em termos rela-
tivos, o que indica que é uma medida adimensional expressa em porcentagem. Sua
grande utilidade é permitir a comparação das variabilidades em diferentes conjun-
tos de dados que possuam unidades distintas.
Para calcularmos esse coeficiente, utilizamos as seguintes fórmulas matemáticas:
• Para amostras: CV =
s
�x�
• Para populações: CV = σ
µ
Nessas fórmulas, σ representa o desvio padrão populacional; s, o desvio padrão
amostral; µ, a média aritmética populacional; e x , a média aritmética amostral.
Vejamos um exemplo.
118 Estatística e probabilidade: conceitos e aplicações
O proprietário de uma empresa fez um levantamento junto ao setor de recursos humanos
e percebeu que o salário médio dos funcionários do sexo masculino é de R$ 2.637,50, com
desvio padrão de R$ 950,80. O mesmo levantamento para os funcionários do sexo feminino
revelou que a média salarial é de R$ 2.668,18, com desvio padrão de R$ 930,00. O proprietá-
rio solicitou ao diretor do departamento de recursos humanos que determinasse os valores
dos coeficientes de variação, separados por sexo, de seus funcionários.
Quais valores o diretor do departamento de recursos humanos forneceu ao proprietário da
empresa? Além disso, que conclusão o proprietário da empresa pode retirar dos valores dos
coeficientes de variação obtidos?
Como o levantamento abrangeu a totalidade dos funcionários da empresa, tra-
tamos o número de funcionários (sejam do sexo masculino ou do sexo feminino)
como uma população.
Para calcular os coeficientes de variação, fazemos:
a. Funcionários do sexo masculino:
CV = σ
µ → CV =
950,80
2.637,50 → CV = 0,36049289... ∴ CV = 36,0492891...%
b. Funcionários do sexo feminino:
CV =
σ
µ → CV =
930
2.668,18 → CV = 0,3485522... ∴ CV = 34,85521966...%
Com base nos cálculos realizados, o proprietário da empresa pôde concluir que
o salário dos funcionários do sexo masculino apresenta maior dispersão que o dos
funcionários do sexo feminino.
Resposta: o diretor do departamento de recursos humanos comunicou ao pro-
prietário da empresa que os coeficientes de variação são: 36,05% para os funcioná-
rios do sexo masculino (com duas casas decimais) e 34,86% para os funcionários do
sexo feminino (com duas casas decimais). Com base nesses valores, o proprietário
percebe que o salário dos homens apresenta maior variação que o das mulheres.
Interpretação do coeficiente de variação
Segundo Martins e Domingues (2014), podemos interpretar o resultado do cál-
culo do coeficiente de variação, com o resultado apresentado em formato percen-
tual, da seguinte maneira:
• Se CV < 15%: há baixa dispersão, e a média aritmética exprime uma boa re-
presentatividade, para a distribuição em questão, como medida de posição.
• Se 15% ≤ CV < 30%: há uma média dispersão, e a média aritmética expri-
me uma regular representatividade, para a distribuição em questão, como
medida de posição.
Para praticar mais a respeito do
cálculo do coeficiente de varia-
ção, acesse o QR Code a seguir.
Nele há uma série de exercícios a
respeito desse conteúdo:
Já no QR Code a seguir, você
aprenderá a calcular o coefi-
ciente de variação utilizando o
programa Microsoft Excel®:
Na prática
Medidas de dispersão ou de variabilidade 119
• Se CV ≥ 30%: há uma elevada dispersão, e a média aritmética expri-
me uma ruim representatividade, para a distribuição em questão, como
medida de posição.
Na distribuição dos pesos que trabalhamos, referente ao peso de 70 pessoas
adultas na Farmácia X, obtivemos os seguintes resultados, considerando os dados
como pertencentes a uma população: µ = 73,03571429... kg e σ = 6,76839896... kg.
Assim, ao calcularmos o coeficiente de variação, encontramos:
CV = σ
µ → CV = 6,76839896...
73,03571429...
→ CV = 0,09267246... ∴ CV = 9,26724552...%
Como o valor do coeficiente de variação é, com duas casas decimais, 9,27%, con-
cluímos que existe uma baixa dispersão de dados e que a média aritmética fornece
uma boa representatividade dos dados da distribuição como medida de posição.
4.2 Medidas de assimetria
Vídeo Para entendermos as medidas de assimetria, é conveniente, em primeiro lugar,
sabermos o que é uma distribuição de frequências simétrica. Segundo Martins e
Domingues (2014, p. 49), “em uma distribuição simétrica, há igualdade dos valores
da média, mediana e moda”. O eixo de simetria é um eixo vertical que passa por
esses valores e apresenta distribuições para a esquerda e a direita do eixo, isto é,
50% dos valores para cada um dos lados.
Observe a seguir uma ilustração gráfica que representa uma distribuição simétrica:
Figura 1
Distribuição simétrica
Fonte: Elaborada pelo autor.
50% 50%
x �x�= = M
Eixo de simetria
Portanto, se em uma distribuição de dados estatísticos não tivermos coincidên-
cia entre os valores da média aritmética, da mediana e da moda, teremos uma
distribuição assimétrica, que pode ser:
120 Estatística e probabilidade: conceitos e aplicações
• assimétrica positiva ou assimétrica à direita: em que temos, geralmente,
M < �x�x < x , ou M < �x�x < µ
• assimétrica negativa ou assimétrica à esquerda: em que temos, geralmente,
x >�x�x > M ou µ > �x�x > M
A Figura 2 apresenta ilustrações correspondentes a esses tipos de assimetria,
considerando valores amostrais.
Figura 2
Curvas assimétricas negativa e positiva
Fonte: Elaborada pelo autor.
x x�x� �x�M M
Assimétrica negativa Assimétrica positiva
De acordo com Triola (2008, p. 70), “na prática, muitas distribuições de da-
dos são simétricas. Distribuições assimétricas à direita são mais comuns do
que as assimétricas à esquerda porque, em geral, é mais fácil obter valores
excepcionalmente altos do que excepcionalmente pequenos”.
Para que seja possível determinarmos o grau de assimetria de uma distribuição
de dados, existem cálculos que podemos realizar. Os mais comumente utilizados
são os que fornecem o primeiro e o segundo coeficientes de Pearson.
O valor do primeiro coeficiente de assimetria de Pearson é calculado por inter-
médio das seguintes fórmulas matemáticas:
• Para amostras: ASP1 = �x� �M
s
−
• Para populações: ASP1 =
¼� �M
Ã
−µ
σ
Para o cálculo do segundo coeficiente de assimetria de Pearson, as fórmulas
matemáticas serão:
• Para amostras: ASP2 =
3�·� �x� �x�
s
�� �
• Para populações: ASP2 =
3�·� ¼� �x�
Ã
�� �µ
σ
Medidas de dispersão ou de variabilidade 121
Em todas essas fórmulas temos:
• x = média aritmética amostral;
• µ = média aritmética populacional;
• M = moda amostral ou populacional;
• s = desvio padrão amostral;
• σ = desvio padrão populacional;
• �x� = mediana amostral ou populacional.
É importante sabermos que, dependendo do resultado do cálculo, classificamos
a distribuição de dados conforme o estabelecido a seguir:
AS = 0 Distribuição simétrica
0 < As < 1 Distribuição assimétrica positiva fraca
As ≥ 1 Distribuição assimétrica positiva forte
– 1 < As < 0 Distribuição assimétrica negativa fraca
As ≤ – 1 Distribuição assimétrica negativa forte
Quando não pudermos determinar o valor do desvio padrão, seja ele amostral
ou populacional, não utilizaremos os coeficientes de Pearson para indicar o grau de
assimetria dos dados. Como existem váriasformas de se calcular o grau de assimetria
de uma distribuição de dados, uma alternativa é usarmos o cálculo do Coeficiente
Quartílico de Assimetria (CQA) ou Fórmula de Bowley, que é:
CQA �
�
�
Q � �2�·�Q +�Q
Q �Q
3 2� 1
3� 1
Nesta obra não utilizaremos cálculos com esse critério. Vamos realizá-los
com os dois coeficientes de Pearson.
4.3 Medida de curtose
Vídeo Vimos que uma distribuição de dados pode ser simétrica, mais alongada para a
esquerda ou para a direita. Contudo, será que essa mesma distribuição também não
pode ser mais alongada ou mais achatada? A resposta é, evidentemente, sim.
Nesse sentido, precisamos, além de estudar as medidas de assimetria, conhecer
a medida que fornece o grau de achatamento ou de afilamento (alongamento) de
uma distribuição de dados – a medida de curtose.
De acordo com o formato da curva representativa da distribuição dos dados,
podemos ter a seguinte classificação:
• Curva platicúrtica: quando apresenta o topo mais achatado que a curva normal.
• Curva mesocúrtica: quando a distribuição dos dados não é achatada nem
pontiaguda; apresenta o mesmo grau de achatamento da curva normal, a
distribuição de referência.
122 Estatística e probabilidade: conceitos e aplicações
• Curva leptocúrtica: quando a distribuição dos dados apresentar o topo mais
alto, mais afilado que o da curva normal.
Observe na Figura 3 os tipos de curva de acordo com o seu grau de achatamento:
Figura 3
Tipos de curva conforme grau de achatamento
Curva leptocúrtica
Curva mesocúrtica
Curva platicúrtica
Fonte: Elaborada pelo autor.
Para medirmos o grau de achatamento de uma curva de distribuição de fre-
quências, calculamos o coeficiente percentílico de curtose, que representare-
mos por k, por meio da seguinte fórmula matemática:
k �
�
�� �
Q � �Q
2�·� P � �P
3 1
90 10
Em que:
• k = coeficiente percentílico de curtose;
• Q3 = valor do terceiro quartil;
• Q1 = valor do primeiro quartil;
• P90 = valor do 90º percentil;
• P10 = valor do 10º percentil.
Observação: o fator 1
2
· (Q3 – Q1) corresponde à amplitude semi-interquartílica,
que já estudamos.
Dependendo do valor que encontrarmos ao calcular o coeficiente percen-
tílico de curtose, classificaremos as curvas de distribuição dos dados da
seguinte maneira:
• se o valor de k = 0,263 → distribuição mesocúrtica;
• se o valor de k < 0,263 → distribuição leptocúrtica;
• se o valor de k > 0,263 → distribuição platicúrtica.
Medidas de dispersão ou de variabilidade 123
Acompanhe um exemplo de aplicação:
A tabela a seguir mostra o resultado da pesagem de 70 pessoas adultas que utilizaram em
um mesmo dia a balança de uma farmácia:
Tabela 9
Peso de 70 pessoas adultas: Farmácia X, 24/08/2020
Peso (em kg) Quantidade de pessoas
59,0 61,5 3
61,5 64,0 5
64,0 66,5 5
66,5 69,0 7
69,0 71,5 9
71,5 74,0 11
74,0 76,5 8
76,5 79,0 7
79,0 81,5 5
81,5 84,0 6
84,0 86,5 4
Total 70
Fonte: Elaborada pelo autor.
Determine o valor dos dois coeficientes de assimetria de Pearson e o coeficiente percentílico
de curtose. Realize os cálculos considerando a distribuição de frequências como uma amos-
tra e como uma população.
Alguns valores já foram calculados anteriormente, portanto, vamos utilizá-los
mais uma vez: x = µ = 73,03571429... kg; �x� = 72,86363636... kg; Mb = 72,75 kg;
MC = 72,50 kg; MK = 72,67647059... kg; s = 6,8172689... kg; σ = 6,76839896... kg;
Q1 = 68,10714286... kg; Q3 = 78,10714286... kg.
Precisamos, desse modo, calcular os dois percentis que fazem parte da fórmula
do coeficiente percentílico de curtose: P10 e P90.
Cálculo do décimo percentil: p10 = 10� 70
100
⋅ → p10 = 7 → segunda classe.
P �=� +�
h�·� p m
f
P �=�61,5+�
2,5�·� 7 3
5
P �=�63,n i
n
m
10 10l � �
�� �
�
�� �
� 55
Cálculo do nonagésimo percentil: p90 =
90� �70
100
⋅
→ p90 = 63 → décima classe.
P �=� +�
h�·� p m
f
P �=�81,5+�
2,5�·� 63 60
6
P �=�8n i
n
m
90 90l � �
�� �
�
�� �
� 22,75
Para determinar o valor do primeiro coeficiente de Pearson, fazemos:
a. Utilizando o valor da moda bruta e o desvio padrão amostral:
124 Estatística e probabilidade: conceitos e aplicações
ASP1 =
�x� M
s
b−�
→ ASP1 = 73,03571429...�� �72,75
6,8172689...
− → ASP1 = 0,041910373…
b. Utilizando o valor da moda de Czuber e o desvio padrão amostral:
ASP1 =
�x� M
s
C−�
→ ASP1 = 73,03571429...�� �72,5
6,8172689...
− → ASP1 = 0,078582…
c. Utilizando o valor da moda de King e o desvio padrão amostral:
ASP1 =
�x� M
s
K−�
→ ASP1 = 73,03571429...�� �72,6764705...
6,8172689...
− → ASP1 = 0,0526961…
d. Utilizando o valor da moda bruta e o desvio padrão populacional:
ASP1 = � ��M
Ã
b
σ
→ ASP1 =
73,03571429...�� �72,75
6,76839896...
−
→ ASP1 = 0,04221298…
e. Utilizando o valor da moda de Czuber e o desvio padrão populacional:
ASP1 = � ��M
Ã
C
σ
→ ASP1 =
73,03571429...�� �72,5
6,76839896...
−
→ ASP1 = 0,0791493…
f. Utilizando o valor da moda de King e o desvio padrão populacional:
ASP1 = � ��M
Ã
K
σ
→ ASP1 =
73,03571429...�� �72,6764705...
6,76839896...
−
→ ASP1 = 0,0530766…
Observe que, independentemente do processo escolhido para se chegar ao valor
modal, a classificação da distribuição com relação à assimetria não se altera. Para
determinar o valor do segundo coeficiente de assimetria de Pearson, fazemos:
a. Utilizando o desvio padrão amostral:
ASP2 =
3�·�(�x� �x�
s
� )−
→ ASP2 =
3�·�(73,03571429...� �72,86363636...
6,8172689...
� )−
→
ASP2 = 0,07572443...
b. Utilizando o desvio padrão populacional:
ASP2 = 3�·�( �x�
Ã
�� )�
σ
→ ASP2 =
3�·�(73,03571429...� �72,86363636...
6,76839896...
� )−
→
ASP2 = 0,07627118...
Assim, ao observarmos todos os resultados obtidos, concluímos que se trata de
uma distribuição de frequência assimétrica positiva fraca.
Ao determinar o valor do coeficiente percentílico de curtose, obtemos:
k =
Q �Q
2�·�(P P )
3 1
90 10
�
� �
−
− → k =
78,10714286...� �68,10714286...
2�·�(82,75� �63,5)
−
−
→ k = 0,25974026...
Para praticar mais a respeito
do cálculo de coeficientes de
assimetria de Pearson e do coe-
ficiente percentílico de curtose,
acesse o QR Code a seguir. Nele
há uma série de exercícios a
respeito desse conteúdo:
Na prática
Como esse valor é menor que 0,263 (o valor de re-
ferência), vemos que se trata de uma leptocúrtica.
Resposta: com base nos valores dos coeficientes de
Pearson bem como no coeficiente percentílico de curto-
se, podemos classificar as distribuições como assimétrica
positiva fraca e leptocúrtica, respectivamente.
Para calcular os coeficientes de assimetria e de curtose, o Microsoft Excel utiliza uma
metodologia diferente da explicada neste capítulo, que, vale ressaltar, deve ser utilizada
apenas para cálculos manuais. O programa usa as fórmulas originais de K. Pearson:
Como percebemos, essas fórmulas são muito mais complexas que as trabalhadas. Por
esse motivo, não faremos explicações dos cálculos dos coeficientes de assimetria e de
curtose com o Microsoft Excel.
Importante
K=
n
n 1 n 2 n 3
x x
s
3n
i=1
n
i
4�� �
�� �� �� �� �� �
�
��
�
�
�
�
�
�
�
�
��
�
�
�
��
�
�
1 �� �� �
�� �� �� �
n 1
n 2 n 3
2
AS
n
n 1 n 2
x x
sn=1
n
i
3
�
�� �� �� �
�
��
�
�
�
�
��
Medidas de dispersão ou de variabilidade 125
CONSIDERAÇÕES FINAIS
Neste capítulo nos dedicamos ao estudo das medidas de variabilidade, ou medidas
de dispersão. Desse modo, investigamos as medidas de dispersão absolutas (ampli-
tude total, variância e desvio padrão), seja para dados não agrupados ou para dados
agrupados em distribuições de frequências, com e sem intervalos de classe.
Vimos também o coeficiente de variação, que é uma medida de dispersão, mas
em termos relativos. Passamos a estudar as medidas de assimetria, as quais identifi-
cam o grau de enviesamento de uma distribuição de dados estatísticos. Como existem
muitas maneiras de identificar a assimetria de um conjunto de dados, optamos por
trabalhar com as duas mais utilizadas: os dois coeficientesde assimetria de Pearson
(o primeiro e o segundo).
Por fim, culminamos o estudo com a medida de curtose, que, por intermédio do
coeficiente percentílico de curtose, permite verificar o grau de achatamento das distri-
buições de dados estatísticos. Como já estamos acostumados, existem muitos cálculos
extensos, que precisam ser realizados com muita atenção.
ATIVIDADES
1. O conjunto a seguir exprime a quantidade de turistas que frequentaram uma das
atrações de um parque aquático em oito dias diferentes: T = {68, 118, 36, 16, 42,
21, 232, 148}.
Já a seguinte distribuição relaciona o tempo, em minutos, para realizar uma tarefa
por um grupo de pessoas, separadas por sexo, moradoras do bairro Y da cidade X,
na primeira semana de novembro de 2019.
Tempo para realizar a tarefa por pessoas, separadas por sexo, moradoras do
bairro Y, cidade X (primeira semana nov. 2019)
Dia da semana Masculino Feminino
Domingo 80 96
Segunda-feira 105 84
Terça-feira 118 102
Quarta-feira 124 136
Quinta-feira 112 128
Sexta-feira 119 105
Sábado 105 116
Por fim, a distribuição a seguir relaciona o faturamento, em R$ 1.000,00, de uma
amostra de empresas da cidade X durante o mês de novembro de 2019.
Faturamento, em milhares de reais, das empresas da cidade X (nov. 2019)
Faturamento Quantidade de empresas
17,5 20,5 5
20,5 23,5 9
23,5 26,5 15
26,5 29,5 25
29,5 32,5 32
32,5 35,5 21
35,5 38,5 18
Vídeo
126 Estatística e probabilidade: conceitos e aplicações
De posse desses dados, determine a amplitude total:
a) do conjunto T que exprime a quantidade de turistas.
b) do tempo, em minutos, que os homens demoraram para realizar a tarefa.
c) do tempo, em minutos, que as mulheres demoraram para realizar a tarefa.
d) do faturamento das empresas amostradas da cidade X no mês de
novembro de 2019.
2. Uma pesquisa foi realizada para determinar o valor da hora trabalhada, em
reais, por profissionais de uma categoria trabalhista, moradores da cidade X, em
novembro de 2019. Os resultados obtidos constam na seguinte tabela:
Valor da hora trabalhada: profissionais da categoria Y, cidade X
(nov. 2019)
Valor (em R$) Quantidade de trabalhadores
9,80 12
9,95 15
10,34 19
10,78 23
11,05 32
11,87 20
12,34 13
12,85 6
Com essas informações, determine o valor da variância e do desvio padrão do valor
da hora trabalhada desses profissionais.
3. A distribuição a seguir relaciona o faturamento, em milhares de reais, das empresas
da cidade X durante o mês de novembro de 2019.
Faturamento, em milhares de reais, das empresas da cidade X (nov. 2019)
Faturamento Quantidade de empresas
17,5 20,5 50
20,5 23,5 90
23,5 26,5 150
26,5 29,5 250
29,5 32,5 320
32,5 35,5 210
35,5 38,5 180
38,5 41,5 90
41,5 44,5 30
Determine o valor da variância e do desvio padrão do faturamento, em milhares
de reais, das empresas da cidade X. Considere a quantidade de empresas como a
totalidade de empresas dessa cidade.
Medidas de dispersão ou de variabilidade 127
4. A tabela a seguir representa os pesos de bagagens transportadas por pessoas
que utilizaram ônibus interestaduais para o deslocamento entre duas cidades em
dezembro de 2019.
Pesos das bagagens levadas em viagens interestaduais de ônibus (dez. 2019)
Peso (em kg) Quantidade
39,5 44,5 3
44,5 49,5 8
49,5 54,5 16
54,5 59,5 12
59,5 64,5 7
64,5 69,5 3
69,5 74,5 1
Ache o valor do coeficiente de variação do peso das bagagens transportadas com
aproximação centesimal.
5. Em janeiro de 2020 uma pesquisa foi realizada (por meio de uma amostra)
para medir o tempo de existência, em anos, de empresas de uma cidade X. O
levantamento resultou na distribuição de frequências a seguir:
Tempo de existência de empresas da cidade X (jan. 2020)
Tempo (em anos) Quantidade de empresas
0 4 31
4 8 38
8 12 25
12 16 20
16 20 16
20 24 10
24 28 7
28 32 2
Calcule o valor do primeiro coeficiente de assimetria de Pearson e classifique a
distribuição de dados conforme o resultado obtido. Utilize o valor da moda pelo
método de Czuber.
6. Uma pesquisa foi realizada para verificar o peso, em gramas, dos frangos de uma
granja da cidade X em janeiro de 2020.
Pesos dos frangos da granja Y da cidade X (jan. 2020)
Peso (g) Quantidade de frangos
2.465 2.485 120
2.485 2.505 320
2.505 2.525 560
2.525 2.545 500
2.545 2.565 310
2.565 2.585 190
Com base nos dados, determine o coeficiente percentílico de curtose e classifique
essa distribuição.
128 Estatística e probabilidade: conceitos e aplicações
REFERÊNCIAS
BRUNI, A. L. Estatística aplicada à gestão empresarial. 3. ed. São Paulo: Atlas, 2011.
CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009.
MARTINS, G. de. A.; DOMINGUES, O. Estatística geral e aplicada. 5. ed. São Paulo: Atlas, 2014.
RODRIGUES, M. da. S. Dicionário brasileiro de Estatística: seguido de um vocabulário inglês-português.
2. ed. Rio de Janeiro: IBGE, 1970. Disponível em: https://biblioteca.ibge.gov.br/index.php/biblioteca-
catalogo?id=281219&view=detalhes. Acesso em: 14 jan. 2021.
TRIOLA, M. F. Introdução à Estatística. 10. ed. Rio de Janeiro: LTC, 2008.
Introdução ao cálculo de probabilidades 129
5
Introdução ao cálculo
de probabilidades
Mesmo de maneira inconsciente realizamos algum tipo de cálculo de pro-
babilidades em nosso cotidiano. Pense nas seguintes situações: qual a chance
(probabilidade) de um apostador ganhar quando faz uma única aposta em um
jogo de loteria qualquer? Qual a probabilidade de chover no dia de hoje?
Talvez não utilizemos a palavra probabilidade, mas em todas as situações
expostas estamos trabalhando com a teoria das probabilidades.
O cálculo das probabilidades é normalmente trabalhado no ramo da
Matemática denominada matemática aplicada, uma vez que utiliza conhecimen-
tos dessa ciência para se aprofundar em outra, o cálculo de probabilidades.
Muitos se dedicaram ao estudo do acaso e das incertezas. Na antiguidade
havia os oráculos e as deusas que supostamente intermediavam as respostas
dos deuses aos questionamentos de quem os procuravam. Em muitas situa-
ções, estavam tentando “prever” a possibilidade de algum evento acontecer.
O mesmo raciocínio ocorria quando uma pessoa se aventurava em algum
tipo de jogo, ou seja, qual a chance de ela ganhar? No século XVII muitos
matemáticos se debruçaram sobre este tipo de estudo: compreender a ma-
temática que estava por detrás dos jogos de azar. Nascia o que conhecemos
hoje como teoria das probabilidades.
Embora essa teoria seja parte da matemática aplicada, a grande maioria
dos estudos estatísticos busca saber, com certo grau de certeza, se um evento
ocorrerá ou não em um futuro próximo. Em outros termos, busca-se saber
com que frequência um resultado pode ocorrer dado um conjunto total de
possibilidades, o qual é chamado de conjunto universo.
5.1 Princípio fundamental da contagem
Vídeo É primordial sabermos a totalidade de elementos do conjunto universo do fenô-
meno que estamos estudando. Muitas vezes, saber discriminar todos os elementos
não é necessário, basta entender quantos elementos são, isto é, a quantidade de
elementos que o conjunto universo possui.
Assim, é importante sabermos dimensionar o nosso conjunto universo. Na
grande maioria dos casos, para determinarmos essa quantidade de elemen-
tos, utilizamos uma parte da matemática, a análise combinatória, e o princípio
fundamental da contagem.
130 Estatística e probabilidade: conceitos e aplicações
Podemos enunciar esse princípio da seguinte maneira: se um fenômeno A
pode ocorrer de n1 maneiras diferentes e um fenômeno B de n2 maneiras dife-
rentes, então, a ocorrência dos fenômenos A e B simultaneamente pode ser de
n1 · n2 maneiras, ou seja, é igual ao produto das possibilidades de ocorrência de
cada um dos fenômenos.
Estendemos esse conceito para um número maior de fenômenos: se tivermos
M fenômenos, o número total de maneiras que os M fenômenos podem ocorrer é
igual a n1 · n2 · ... · nm maneiras.
Exemplificamos a aplicabilidadedesse princípio a seguir:
De quantas maneiras podemos criar um código de uma disciplina em uma universidade que
possui cinco campi e oito cursos diferentes? O código deve ser composto de três letras maiús-
culas, as quais indicam o campus, o curso da disciplina e o turno em que a disciplina será
ministrada, e mais quatro dígitos (de 0000 a 9999) indicando a disciplina propriamente dita.
Considere o seguinte exemplo: ABN0141, em que A indica o campus; B, o curso de Ciências
Contábeis; N, o turno (noturno); e 0141, a disciplina (Estatística e Probabilidade).
Pelo que o enunciado informa, temos os seguintes fenômenos:
• Indicação do campus: que pode assumir uma de cinco opções.
• Indicação do curso: que pode ser uma de oito opções.
• Indicação do turno de oferta da disciplina: uma de três opções.
• Número da disciplina a ser ofertada: uma de 9999 opções.
Esquematizando a situação descrita temos:
Podem ser dez números em cada uma das posições, pois
o código vai de 0000 a 9999.
Pode assumir apenas três valores: M para o turno matu-
tino, T para o turno vespertino e N para o turno noturno.
Pode assumir apenas oito valores, pois a universidade
possui oito cursos diferentes.
Pode assumir apenas cinco valores, pois a universidade
possui cinco campi diferentes.
Logo, pelo princípio fundamental da contagem, serão possíveis 1.200.000 ma-
neiras diferentes de criar esse código. Esse valor é obtido ao fazermos o seguinte
cálculo: 5 · 8 · 3 · 10 · 10 · 10 · 10.
campi: plural de campus, área
em que há os edifícios e terrenos
de uma universidade.
Glossário
Introdução ao cálculo de probabilidades 131
Resposta: a universidade tem 1.200.000 maneiras de montar o código de
uma disciplina.
Outro exemplo:
Em uma agência bancária, a senha a ser retirada para atendimento aos caixas é composta
de uma letra, três números e mais uma letra, que indicam:
• A primeira letra:
• N: para atendimento normal;
• P: para atendimento prioritário;
• I: para atendimento de idosos.
• Três números, sendo que o último não pode ser igual a zero.
• Última letra, que indica um dos quatro caixas disponíveis.
Sabendo que o gerente reinicia o equipamento gerador de senhas ao abrir a agência para
o atendimento ao público, qual a quantidade de senhas que poderá ser gerada em um
dia de trabalho?
Ao representarmos a situação esquematicamente temos:
Pode assumir apenas 4 valo-
res, pois a agência bancária
possui 4 caixas.
Os dois primeiros espaços podem assumir valores numé-
ricos de 0 a 9, e o último valores de 1 a 9 (não pode ser
igual a zero.
Pode ser uma de três letras: N, P ou I.
Assim, pela aplicação do princípio fundamental da contagem, temos a seguinte
multiplicação: 3 · 10 · 10 · 9 · 4 = 10.800.
Resposta: o equipamento pode gerar 10.800 senhas de atendimento por dia.
Para praticar mais a respeito
do cálculo com o princípio
fundamental da contagem,
acesse o QR Code a seguir. Nele
há uma série de exercícios a
respeito desse conteúdo:
Na prática
5.2 Experimento aleatório, espaço amostral e evento
Vídeo Já expusemos que na teoria das probabilidades a probabilidade de um fenôme-
no deve ser colocado em formato percentual.
Em Estatística é comum darmos a esse fenômeno a denominação de experimento.
Podemos dizer que um experimento é a realização de uma experiência que permi-
te ao pesquisador observar os resultados que serão obtidos. Se esse experimen-
to tiver um resultado único, embora seja imprevisível, damos a denominação de
experimento aleatório.
132 Estatística e probabilidade: conceitos e aplicações
Crespo (2009, p. 127, grifos do original) nos declara que “experimentos ou
fenômenos aleatórios são aqueles que, mesmo repetidos várias vezes sob condi-
ções semelhantes, apresentam resultados imprevisíveis”.
Convém ressaltarmos que os fenômenos aleatórios devem ser repetidos
sempre nas mesmas condições. Esse é um aspecto muito importante e, caso
não seja cumprido, com certeza produzirá resultados diferentes, ou seja, proba-
bilidades diferentes.
Em síntese, um experimento ou fenômeno aleatório deve apresentar, obrigato-
riamente, as seguintes características:
• pode ser repetido inúmeras vezes, desde que nas mesmas condições;
• deve ser conhecido o conjunto de todos os resultados possíveis, ou seja, o conjunto universo dos
resultados possíveis;
• em hipótese alguma se pode prever o resultado que sairá na próxima vez que se realizar o experimento.
Se consultarmos vários livros de Estatística, notaremos que quase todos os au-
tores utilizam como exemplos de experimentos aleatórios os itens a seguir.
Lançamento de uma moeda honesta: uma moeda que tem a mesma proba-
bilidade de sair cara ou coroa ao ser lançada em uma superfície.
Lançamento de um dado equilibrado ou não viciado: um dado que tem a mes-
ma probabilidade de qualquer uma das faces ficar virada para cima ao ser
lançado em uma superfície.
Retirada de uma bolinha numerada em um sorteio de bingo: qualquer bolinha
numerada que esteja no dispositivo de sorteio poderá ser sorteada.
Retirada de uma carta qualquer de um baralho de 52 cartas: qualquer uma das
cartas tem a mesma probabilidade de ser retirada do baralho em um sorteio.
Pu
ck
un
g/
C
la
ss
ic
a2
/ i
co
ni
m
/ b
in
ik
/S
hu
tte
rs
to
ck
Esses exemplos são fáceis de visualizar e entender. Por esse motivo é que mui-
tos autores de livros os utilizam. Não seremos exceção.
Além das características de um experimento aleatório, existem outros conceitos
importantes e que devemos conhecer.
O primeiro é o de espaço amostral, que representaremos pela letra grega
maiúscula ômega ou ómega (Ω), o qual designa o conjunto que engloba todos os
resultados possíveis de acontecer em um experimento aleatório.
Muitos autores utilizam a letra
maiúscula U, de conjunto universo,
para o espaço amostral. Contudo,
pode ocorrer uma confusão com
o símbolo de união utilizado em
Matemática. Já outros teóricos
utilizam a letra maiúscula S para
representar o conjunto universo.
Atenção
Introdução ao cálculo de probabilidades 133
Outro conceito importante é o de evento. Em linhas gerais, é todo e qualquer
subconjunto do espaço amostral relacionado a um experimento aleatório, ou seja,
trata-se do subconjunto no qual os elementos nos interessam para a realização de
um experimento aleatório. Vamos representar um evento pela letra maiúscula E ou
qualquer letra maiúscula do alfabeto latino.
Precisamos também saber como classificar os eventos que podem ocorrer em
um experimento aleatório, assunto da seção a seguir.
5.2.1 Tipos de eventos
Dentre os diversos eventos, necessitamos saber diferenciar:
• Evento simples ou evento elementar: ocorre quando o resultado que nos interessa
é um conjunto unitário, ou seja, não comporta qualquer decomposição. É preciso ter
cuidado para não confundir com um conjunto que tenha somente um elemento. Para
esse tipo de evento, podemos utilizar a representação matemática E ⊂ Ω.
• Evento certo: ocorre quando o evento tem como resultado previsto o próprio espaço
amostral. Costumamos utilizar a nomenclatura E = Ω (oriunda da Matemática) para
dizer que estamos diante de um evento certo.
• Evento impossível: ocorre quando não existe a possibilidade de o evento ocorrer. Ma-
tematicamente, podemos escrever: E = ∅.
Para sedimentar essas nomenclaturas, acompanhe o exemplo a seguir.
O lançamento de um dado não viciado, com as faces numeradas de um a seis, sobre uma
superfície rígida ocasionou os seguintes eventos:
• E1: sair um número par na face que ficar virada para cima após o lançamento do dado.
• E2: sair um número maior que zero na face que ficar virada para cima após o lança-
mento do dado.
• E3: sair um número maior que dez na face que ficar voltada para cima após o lança-
mento do dado.
Determine o espaço amostral desse experimento e os elementos de cada um dos eventos,
classificando-os.
⊂: símbolo matemático para “está
contido em”.
∅: símbolo matemático para
conjunto vazio, isto é, sem
nenhum elemento.Glossário
134 Estatística e probabilidade: conceitos e aplicações
As possibilidades de resultados do experimento, isto é, o conjunto universo, são
dadas por Ω = {1, 2, 3, 4, 5, 6}.
Os eventos são:
• E1 = {2, 4, 6}: como só existe uma possibilidade de resultado, um número par,
sem especificar que número será, este é um evento elementar ou simples.
• E2 = {1, 2, 3, 4, 5, 6}: é possível perceber que E2 = Ω; portanto, este será um
evento certo, pois temos a certeza de que ocorrerá.
• Ao analisar as possibilidades de ocorrência do evento E3, vemos que não há
resultado possível. Assim, E3 = ∅, sendo um evento impossível.
Mais um exemplo:
Ao selecionar um ano qualquer de maneira aleatória, determine a probabilidade de o Dia
das Mães ser comemorado – depois do ano em que a data comemorativa foi oficializada no
Brasil – em um:
• E1: sábado;
• E2: domingo.
Em primeiro lugar, sabemos que o Dia das Mães foi oficializado no Brasil em 5
de maio de 1932, por intermédio de um decreto assinado pelo então presidente à
época, Getúlio Vargas. Ficou estabelecido que a celebração dessa data comemo-
rativa é no segundo domingo do mês de maio. Desse modo, podemos inferir que:
a. A probabilidade de essa data ocorrer em um sábado é nula, uma vez que
o decreto instituiu o dia de domingo para as comemorações. Assim, E1 = ∅,
sendo um evento impossível.
b. Ainda de acordo com o decreto, E2 sempre será comemorado em um domingo.
Logo, E2 é um evento certo.
Além dessa maneira de classificarmos os eventos, acontece que muitas vezes não
trabalhamos com um único evento, ou seja, isolado, mas sim com algum tipo de com-
binação de eventos, relativos ao mesmo espaço amostral. Dessa forma, podemos ter:
• Eventos independentes: de acordo com Crespo (2009, p. 131, grifos do original), “dize-
mos que dois eventos são independentes quando a realização de um dos eventos não
afeta a probabilidade da realização do outro e vice-versa”. Por exemplo, quando temos
em uma urna diversas bolas pretas e brancas. Se sortearmos duas bolas dessa urna,
a probabilidade de a primeira ser uma bola branca e a segunda ser uma bola preta são
eventos independentes, pois a saída de uma bola de uma cor não depende da saída de
outra bola da mesma cor ou não.
É muito comum utilizarmos a
notação matemática para colocar
os elementos de um conjunto,
ou seja, colocá-los entre chaves e
separados por vírgulas.
Atenção
Para acessar na íntegra o
Decreto n. 21.366, de 5 de
maio de 1932, visite o link
a seguir.
Disponível em: http://www.planalto.
gov.br/ccivil_03/decreto/1930-1949/
D21366.htm. Acesso em: 18 jan. 2020.
Site
http://www.planalto.gov.br/ccivil_03/decreto/1930-1949/D21366.htm
http://www.planalto.gov.br/ccivil_03/decreto/1930-1949/D21366.htm
http://www.planalto.gov.br/ccivil_03/decreto/1930-1949/D21366.htm
Introdução ao cálculo de probabilidades 135
• Eventos complementares: dois eventos são complementares quando a união dos
conjuntos dos elementos dos dois eventos formar o espaço amostral e a interse-
ção dos eventos for o conjunto vazio. Matematicamente, escrevemos: E1∪E2 = Ω e
E1∩E2 = ∅. Dizemos que E1 é complementar de E2 e vice-versa. Representamos um
evento complementar a outro por E1 = E2
C ou E2 = E1
C. Há autores que utilizam uma
barra horizontal acima da letra representativa do evento, E1 = E2 ou E2 = E1, mas não
vamos usar essa notação para não criar nenhum tipo de confusão com cálculo de
média aritmética amostral.
Para exemplificar, considere a produção de peças em uma fábrica. Se escolhermos
uma peça aleatoriamente, ela pode estar perfeita ou apresentar algum tipo de defeito.
Assim, os eventos E1 = {ser perfeita} e E2 = {ser defeituosa} são complementares, pois
uma peça produzida não pode ser perfeita e defeituosa ao mesmo tempo. Percebemos
que a união dos dois eventos forma o espaço amostral, toda a produção de peças da
fábrica, e a interseção é o conjunto vazio.
• Eventos mutuamente exclusivos ou excludentes: são eventos que não podem
ocorrer simultaneamente, ou seja, a ocorrência de um impossibilita a ocorrência
do outro. Matematicamente, a interseção dos conjuntos que representa os elemen-
tos dos dois eventos é o conjunto vazio. Se considerarmos dois eventos, E1 e E2,
em que E1∩E2 = ∅, eles são classificados como eventos mutuamente exclusivos
ou eventos excludentes.
• Eventos coletivamente exaustivos: são eventos que devem ser mutuamente exclusi-
vos, mas cuja união dos elementos de seus conjuntos forma o espaço amostral. Se
dois eventos, E1 e E2, forem tais que E1∩E2 = ∅ e E1∪E2 = Ω, eles são denominados de
coletivamente exaustivos.
Vamos também analisar alguns exemplos relativos a esses tipos de eventos.
Imagine o seguinte experimento: lançamento de um dado numérico de seis faces não vicia-
do. Considere também os seguintes eventos:
• E1: ficar um resultado par na face voltada para cima após o lançamento do dado.
• E2: ficar um resultado ímpar na face voltada para cima após o lançamento do dado.
Representando essas informações com a simbologia matemática, teremos:
Ω = {1, 2, 3, 4, 5, 6}, E1 = {2, 4, 6} e E2 = {1, 3, 5}.
Percebemos que: E1∩E2 = ∅ e E1∪E2 = Ω. Desse modo, podemos dizer que os
eventos E1 e E2 são mutuamente exclusivos e coletivamente exaustivos.
Vejamos outro exemplo:
Podemos estender esses concei-
tos para mais de dois conjuntos.
Atenção
136 Estatística e probabilidade: conceitos e aplicações
Considere a seguinte situação: o lançamento de dois dados numéricos não viciados, com cada
uma das faces contendo os números de 1 a 6, um sendo na cor branca e outro na cor azul 1 .
Determine os eventos a seguir, considerando os valores como os que aparecerão na face que
ficará voltada para cima após o lançamento dos dados:
• E1: resultado do dado branco igual a 5 e do dado azul igual a 3;
• E2: a soma dos resultados deve ser igual ou menor que 12;
• E3: a soma dos resultados dos dois dados deve ser menor que 1;
• E4: o resultado do dado branco é um número ímpar;
• E5: o resultado do dado branco é um número par;
• E6: a soma dos resultados dos dois dados é igual a 5;
• E7: a soma dos resultados dos dois dados é menor ou igual a 3.
Em primeiro lugar, é necessário discriminar os elementos do espaço amostral,
sendo que o primeiro número corresponde ao resultado do dado branco, e o se-
gundo número ao resultado do dado azul:
Ω = {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2),
(3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5),
(5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}.
Agora, vamos discriminar os elementos de cada um dos eventos.
• E1 = {(5,3)} – Podemos classificar este evento como elementar ou simples, já
que o resultado é único, ou seja, um conjunto unitário.
• E2 = Ω – Como os elementos deste evento coincidem com os elementos do
espaço amostral, classificamos como certo.
• E3 = ∅ – Não podemos obter como soma dos valores das faces dos dois dados
números que sejam menores que 1. Assim, este evento é impossível.
• E4 = {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (5,1),
(5,2), (5,3), (5,4), (5,5), (5,6)}.
• E5 = {(2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (6,1),
(6,2), (6,3), (6,4), (6,5), (6,6)}.
Percebemos que E4∪E5 = Ω. Desse modo, afirmamos que os eventos E4 e E5 são
complementares, sendo possível escrever: E4 = E5
C e E5 = E4
C .
• E6 = {(1,4), (2,3), (3,2), (4,1)}.
• E7 = {(1,1), (1,2), (2,1)}.
Os eventos E6 e E7 não possuem nenhum elemento em comum, ou seja, E6∩E7 = ∅.
Logo, podemos classificá-los como eventos mutuamente exclusivos ou excludentes.
Mais um exemplo:
Diversos livros de Estatística,
bem como diversos professores
que ministram essa disciplina,
utilizam-se desse exemplo para
mostrar como podem acontecer
vários tipos de eventos em um
mesmo experimento.
1
Introdução ao cálculo de probabilidades137
Considere o seguinte experimento: em uma urna se colocam fichas numeradas com núme-
ros naturais menores que 12 e diferentes de 0. Monte o espaço amostral relacionando os
seus elementos e responda corretamente:
a. Quais são os elementos do evento E1? Retirar um número par da urna.
b. Qual é o evento complementar do evento E1? Denomine-o E2.
c. Quais são os elementos do evento E3? Retirar uma ficha com números maiores que 10.
d. Qual é o evento complementar do evento E3? Denomine-o E4.
Estabelecendo o espaço amostral: Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
a. E1 = {2, 4, 6, 8, 10, 12}.
b. E2: retirar um número ímpar da urna. Assim, E2 = EC
1 = {1, 3, 5, 7, 9, 11}.
c. E3 = {11, 12}.
d. E4: retirar um número menor que 11 ou retirar um número da urna menor ou
igual a 10. Logo, E4 = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}.
Ao representar os elementos do espaço amostral ou de qualquer evento, é
necessário estarmos atentos para não esquecermos de listar nenhum componente
do conjunto a ser examinado. Caso isso ocorra, teremos um erro que afetará todo
o desenvolvimento do experimento e dos cálculos que possam advir.
5.3 Probabilidade: escolas, definições
e conceito estatístico Vídeo
Atualmente existem adeptos de grandes escolas que se dedicam ao estudo
da teoria das probabilidades: a escola clássica, a escola frequentista, a escola
geométrica e a escola subjetivista.
Cada uma delas pode ser considerada a forma de se obter os resultados das
probabilidades de eventos que estejamos estudando, ou seja, os métodos utili-
zados para isso.
A escola clássica, também denominada objetivista, de acordo com Martins e
Domingues (2014, p. 67, grifo do original), “sustenta que as regras da probabilidade
são aplicáveis a eventos que podem ser repetidos sob as mesmas condições. A
palavra objetiva é usada para significar que, se duas pessoas isoladas calculam a
probabilidade de determinado evento, por esse processo, chegam ao mesmo re-
sultado”. Dessa escola deriva o método clássico, que, segundo Bruni (2011, p. 89),
é utilizado “quando o resultado é provável. Seu emprego é bastante comum nas
situações didáticas que envolvem, por exemplo, dados, moedas ou baralhos”.
A escola frequentista (experimental ou empírica) origina o método
frequentista, o qual assegura que a probabilidade de um evento está atrelada à
138 Estatística e probabilidade: conceitos e aplicações
frequência relativa com ele ocorre após inúmeras repetições do experimento. O
pesquisador deve repetir o experimento muitas vezes, anotando a frequência com
que ocorre e calculando a frequência relativa associada a essa frequência simples.
Segundo Bruni (2011, p. 89), a probabilidade de um evento “depende da frequência
de ocorrer o evento, determinada a partir de uma série de observações práticas an-
teriores”. Esse método apresenta um questionamento feito por muitos estudiosos
de Estatística: ao afirmar que o experimento deve ser realizado “muitas vezes”, o
que essa expressão de fato significa? Quantas vezes se deve repetir o experimento
para que o resultado seja correto?
A escola geométrica, ou o estudo referente às probabilidades geométricas,
segundo Lopes, Salvador e Balieiro Filho (2013), originou-se de estudos de
Georges-Louis Leclerc, o Conde de Buffon, em 1777, no problema que acabou sen-
do conhecido como Problema da agulha de Buffon.
Seu enunciado é o seguinte: considerando-se uma família de retas parale-
las em
2 , em que duas paralelas adjacentes arbitrárias distam de a unidades.
Tendo-se lançado, ao acaso, sobre o plano uma agulha de comprimento l (l ≤ a),
determinar a probabilidade de que a agulha intercepte uma das retas. Para mui-
tos lançamentos da agulha, a solução acaba se tornando um método experimen-
tal para se obter o valor de π.
Como curiosidade, Prates e Delfino (2016, p. 16) informam que:
mas, o que Buffon não pôde ver é que a simplicidade de seu problema po-
deria ainda inspirar uma importante aplicação que foi desenvolvida por Allan
M. Cormack e Godfrey N. Hounsfield, e que lhe rendeu o Prêmio Nobel de
Medicina em 1979. Tal projeto consistia na construção de um aparelho de
raio X que, aliado à computação, podia “jogar” feixes paralelos no corpo huma-
no, de forma que fosse possível mensurar e converter em imagem tridimen-
sional, partes ou objetos inacessíveis. Desta forma, estava criado o tomógrafo
computadorizado e, posteriormente, o aparelho de ressonância magnética.
Já a escola subjetivista, que tem o método subjetivo, segundo Martins e
Domingues (2014, p. 67, grifos do original):
considera a probabilidade como a medida de uma crença pessoal de que
determinado evento tenha ocorrido, ocorrerá ou esteja ocorrendo. Adeptos
dessa escola utilizam técnicas de avaliação da probabilidade em aplicações
que os objetivistas não conseguem dimensionar probabilidades. O uso de
probabilidades subjetivas tem sido cada vez mais frequente entre os pesquisa-
dores e tomadores de decisões.
Em outros termos, podemos dizer que a opinião e/ou experiência profissional
pode servir de base para se estimar uma probabilidade.
Martins e Domingues (2014, p. 66, grifo do original) afirmam que “embora o ter-
mo probabilidade tenha ampla significação, com a qual todos estamos familiariza-
dos, sua definição e interpretação têm sido fonte de grandes dificuldades quando
o termo deve ser tomado em sentido estrito”.
É evidente que na atual sociedade em que vivemos sempre estamos envol-
tos de situações que indicam algum tipo de cálculo de probabilidade. Martins e
Domingues (2014, p. 66, grifos do original) ainda comentam que:
Introdução ao cálculo de probabilidades 139
são várias as situações em que é desejável ter uma medida (avaliação nu-
mérica) de quão provável é a ocorrência de determinado evento futuro: lan-
çamento de um produto, bons lucros em uma operação mercantil, chover
amanhã à tarde, meu time ganhar o próximo jogo, malogro de uma safra,
compra de ações etc.
Para definirmos o que venha a ser uma probabilidade, temos que o fazer de
acordo com uma das escolas ou com um dos métodos.
5.3.1 Definições de probabilidade
Ao considerarmos um experimento que dê origem ao espaço amostral Ω, que
possui n resultados possíveis, e a um evento E, que origina m resultados possíveis
ou favoráveis contidos no espaço amostral, temos:
a. Segundo a escola clássica ou objetivista:
P(E) = n.�de�elementos�do�evento�E
n.�de�elementos�do�espaço�amostrral
→ P(E) = m
�n�
Além disso, podemos afirmar que a probabilidade calculada dessa forma costu-
ma ser denominada probabilidade teórica da ocorrência do evento E.
b. Segundo a escola frequentista:
P(E) =
n.�de�vezes�que�o�evento�E�ocorreu
n.�de�vezes�que�o�experimmento�foi�repetido
Observações
• O cálculo do valor da probabilidade realizado dessa maneira recebe muitas vezes a
denominação de conceito estatístico de probabilidade.
• O cálculo do valor da probabilidade feito com base na definição clássica requer
que os resultados de ocorrência dos eventos sejam igualmente prováveis. Caso
tenhamos um experimento que não possua esses resultados, é necessário utilizar a
definição da escola frequentista.
• Se calcularmos o valor da probabilidade pela definição da escola frequentista,
obteremos uma estimativa do valor da probabilidade em vez de seu valor exato.
Quanto mais repetirmos o experimento, mais vamos nos aproximar do valor exato da
probabilidade de o evento ocorrer. Esse fato é atestado pela lei dos grandes números.
A lei dos grandes números, segundo Triola (2008, p. 114), afirma que “à medida
que um experimento é repetido várias vezes, a probabilidade dada pela frequência
relativa de um evento tende a se aproximar da verdadeira probabilidade”.
Vejamos alguns exemplos de cálculos de probabilidades com a utilização
dessas definições.
140 Estatística e probabilidade: conceitos e aplicações
Determine, por meio do lançamento de um dado numérico não viciado, a probabilidade (no
formato percentual) de obtermos os seguinteseventos:
• E1: sair o número 2 na face do dado que ficar voltada para cima.
• E2: sair um número par na face do dado que ficar voltada para cima.
• E3: sair um número múltiplo de 3 na face do dado que ficar voltada para cima.
Em primeiro lugar, é necessário determinar o espaço amostral:
Ω = {1, 2, 3, 4, 5, 6}, que possui 6 elementos → n(Ω) = 6
Realizando os cálculos para cada evento:
a. E1 = {2} → n(E1) = 1. Logo: P(E1) =
n E
n
1� �
� �� → P(E1) =
1
�6�
→
P(E1) = 0,1666666... (no formato unitário) → P(E1) = 16,67%
b. E2 = {2, 4, 6} → n(E2) = 3. Assim, P(E2) =
n E
n
2� �
� �� → P(E2) = 3
�6�
→
P (E2) = 0,5 (no formato unitário) → P(E2) = 50%
c. E3 = {3, 6} → n(E3) = 2. Portanto, P(E3) =
n E
n
3� �
� �� → P(E3) = 2
�6�
→
P(E3) = 0,33333333... (no formato unitário) → P(E3) = 33,33%
Resposta: a probabilidade de sair o número 2 é de 16,67%; a de sair um nú-
mero par é de 50,00%; e a de sair um múltiplo de 3 é de 33,33%. Os valores foram
arredondados para dois algarismos significativos.
Outro exemplo:
Considere o seguinte experimento: retirar, sucessivamente, sem reposição e sem olhar, duas
cartas de um baralho comum de 52 cartas. Com base nesse experimento, determine a pro-
babilidade, em formato percentual, dos seguintes eventos:
• E1: as duas cartas serem iguais ao número oito.
• E2: as duas cartas serem de naipe de ouros.
São muitos elementos do espaço amostral para discriminarmos um a um.
Para a realização dos cálculos, precisamos apenas da quantidade de elemen-
tos: n(Ω) = 2.652. Esse valor é obtido da seguinte maneira: na primeira retirada, 52
cartas e, na segunda retirada, 51 cartas. Assim, n(Ω) = 52 · 51 → n(Ω) = 2.652.
a. Para o evento E1 (sair duas cartas iguais a oito), a quantidade de elementos
será a seguinte: para a primeira retirada, quatro possibilidades, já que temos
quatro números oito em um baralho comum; para a segunda retirada, três
Introdução ao cálculo de probabilidades 141
possibilidades, pois somente sobraram três cartas iguais a oito após uma já
ter saído na primeira retirada.
Desse modo, n(E1) = 4 · 3 → n(E1) = 12.
Também podemos obter esse valor realizando um cálculo de arranjo simples,
tópico de matemática estudado no ensino médio, cuja fórmula matemática é
dada por An
p =
n!
n� p !�� ��
. Para tanto, utilizamos o arranjo simples, pois a ordem
da retirada das cartas importa, e trata-se de uma ordem sequencial: primeira
retirada e, depois, segunda retirada.
Como existem quatro cartas de número oito no baralho e só precisamos
retirar duas delas, calculamos o arranjo dessas quatro cartas, sendo esco-
lhidas duas:
n(E ) = A = n(E ) = n(E ) =4
2
1 1 1
4
4 2
4 3 2 1
2 1
12!
( )!�
�
� � �
�
�
Ao determinar o valor da probabilidade solicitada, obtemos:
P(E ) =
n E
n
P(E ) = P(E ) = 0,00452489... 1
11 1
12
2 652
� �
� � � � �
� .
PP(E ) = 0,45%1
b. Para o evento E2 (duas cartas serem do naipe de ouros), a primeira retirada
deve ser 13 cartas, que é o total existente de cartas do naipe de ouros em
um baralho comum. Na segunda retirada temos 12 cartas, que restaram no
baralho após a primeira já ter sido retirada. Assim, n(E2) = 13 · 12 → n(E2) = 156.
Esse valor também pode ser obtido ao calcularmos o arranjo de 13 cartas
tomadas duas a duas:
n(E ) = A n(E ) = n(E ) = 156 13
2
2 2 2
13
13 2
13 12 11
11
�
�
�
� �
�
!
( )!
!
!
Ao calcular o valor da probabilidade solicitada, obtemos:
P(E ) =
n E
n
P(E ) = P(E ) = P(E2
2 2 2
156
2 652
0 05882352
� �
� � � � �
� .
, ... 22 5 88) = , %
Reposta: a probabilidade de as duas cartas retiradas serem iguais a oito é
de 0,45%. Já a probabilidade de saírem duas cartas do naipe de ouros é de
5,88%. Os valores foram arredondados para dois algarismos significativos.
Mais um exemplo:
Ao final do período de funcionamento de uma feira livre, os proprietários das barracas esta-
vam recolhendo seus produtos. Em uma barraca de frutas estavam disponíveis dez unidades
de mamões; contudo, três aparentavam estar estragados. Ao escolher de maneira aleatória
dois mamões desse conjunto, sem os examinar adequadamente, determine a probabilidade
dos seguintes eventos:
Para relembrar como se
trabalha com arranjos sim-
ples, visite o link a seguir.
Disponível em: https://www.somate-
matica.com.br/emedio/combinatoria3.
php. Acesso em: 18 jan. 2021.
Site
(Continua)
142 Estatística e probabilidade: conceitos e aplicações
a. E1: ambos os frutos escolhidos não estarem estragados.
b. E2: pelo menos um fruto estar estragado.
Para resolver esse exemplo, não há a necessidade de especificarmos todos os
elementos do espaço amostral, basta determinar a quantidade de elementos desse
conjunto. Para tanto, utilizamos combinação simples, cuja fórmula matemática é
dada por C = n!
p! (n - p)!n
p
⋅ , pois a ordem dos frutos não interessa e não pode haver
repetição do mesmo fruto.
Para determinar a quantidade de elementos do espaço amostral, ou seja, n(Ω),
calculamos:
n(©) = C n(©) = n(©) = = 10!
2!
10 9 8
210
2
� �
�
� �
�
�
( )!
!
!10 2 8
45Ω Ω Ω
Para o cálculo das probabilidades dos eventos solicitados, fazemos:
a. E1: retiramos dois frutos não estragados. É necessário perceber que existem
7 frutos não estragados em nosso espaço amostral para escolhermos dois. A
quantidade de possibilidades será:
n(E ) = C n(E ) = n(E ) = = 7!
2! (7 - 2)!1 7
2
1 1�
� �
� �
�
7 6 5
2 5
21!
!
Assim:
P(E ) =
n E
n ©
P(E ) = P(E ) = 0,4666666... P(E ) 1
1 1 1 1
21
45
� �
� � � � � == 46 67, %
b. E2: retiramos pelo menos uma fruta estragada. Podemos ter um único fruto
estragado ou os dois frutos devem estar estragados, ou seja, o evento E2
é complementar ao evento E1. Além disso, a união dos dois eventos deve
formar o espaço amostral. Desse modo:
E = E = n(E ) + n(E ) = n( ) 21 + n(E ) = e E E1
C
2 1 2 21 2 45� � � �� � nn(E ) = 242
O valor da probabilidade do evento E2 ocorrer será:
P(E ) =
n E
n ©
P(E ) = P(E ) = 0,53333333.. P(E ) =2
2 2 2 2
24
45
� �
� � � � � 53 33, %
Ω
Resposta: a probabilidade de ambas as frutas não estarem estragadas é
de 46,67% e a probabilidade de pelo menos uma fruta estar estragada é de
53,33%. Os valores foram arredondados para dois algarismos significativos.
Para finalizar, mais um exemplo:
Para relembrar o trabalho
com combinação simples,
visite o link a seguir.
Disponível em: https://www.somatema-
tica.com.br/emedio/combinatoria5.php.
Acesso em: 18 jan. 2021.
Site
Ω
Introdução ao cálculo de probabilidades 143
Um experimento foi realizado com 590 pessoas para verificar qual a preferência de uso
de navegadores de internet. Após a compilação dos dados, o pesquisador verificou que
323 usuários utilizam o provedor A, 231 utilizam o provedor B e 48 utilizam os dois pro-
vedores. Escolhendo um dos participantes ao acaso, determine a probabilidade de que
ele seja usuário:
a. apenas do provedor A;
b. do provedor A ou do provedor B;
c. de outro provedor que não seja A ou B.
O espaço amostral corresponde ao número de participantes que fizeram parte
do experimento, ou seja, n(Ω) = 590.
De acordo com as informações do enunciado, 48 usuários utilizam os dois pro-
vedores de internet. Assim, a quantidade de usuários que utiliza apenas o provedor
A será obtida por: 323 – 48 = 275. Já a quantidade dos usuários do provedor B será
obtida por: 231 – 48 = 183. Se 275 usuários utilizam o provedor A, 183 utilizam
o provedor B e 48 utilizam os dois provedores, temos: 275 + 183 + 48 = 506. Ao
subtrairmos 590 – 506, verificamos que 84 usuários utilizam outro provedor que
não os provedores A ou B.
Nesse tipo de situação-problema é muito comum e eficaz usarmos a represen-
tação de conjuntos matemáticos. Observe:
Ω
Provedor A
84
275 18348
Provedor B
Realizando o cálculo dos itens solicitados:
a. Probabilidade de o usuário utilizar apenas o provedor A:
P(A) =
n A
n ©
P(A) = P(A) = P(A) =
� �
� � � � �
275
590
0 46610169 46, ... ,, %61
Ω
b. Probabilidade de o usuário utilizar o provedor A ou o provedorB: o resultado
será dado pela união dos usuários de qualquer um desses provedores. É
necessário cuidado ao calcular a quantidade de usuários e não somar duas
vezes o valor que consta da interseção que aparece na representação com
conjuntos matemáticos.
144 Estatística e probabilidade: conceitos e aplicações
• n(A∪B) = n(A) + n(B) – n(A∩B) → n(A∪B) = 323 + 231 – 48 → n(A∪B) = 506
Também é possível obter esse valor fazendo:
• n(A∪B) = n(só de A) + n(só de B) + n(A∩B)→
• n(A∪B) = 275 + 183 + 48 → n(A∪B) = 506
Por fim, para determinar a probabilidade procurada, fazemos:
• P(A∪B) =
n A B
n( )
�� �
�
→ P(A) = 506
590
→ P(A) = 0,85762712... → P(A) = 85,76%
c. Probabilidade de o usuário utilizar outro provedor que não seja A ou B: é
necessário calcular a quantidade de usuários que não utiliza nem o provedor
A nem o provedor B, ou seja, 84 usuários. Indicando que esses usuários
pertencem ao conjunto C, fazemos:
P(C) =
n C
n ©
P(C) = P(C) = 0,14237288... P(C) = 14,
� �
� � � � �
84
590
224%
Ω
Resposta: a probabilidade de o usuário escolhido utilizar apenas o provedor
A é de 46,61%. Já a probabilidade de ele ser usuário do provedor A ou do prove-
dor B é de 85,76%. Por fim, a probabilidade de ele ser usuário de outro provedor
que não seja o A nem o B é de 14,24%. Os valores foram arredondados para dois
algarismos significativos.
Existem outros métodos que nos ajudam bastante no trabalho com probabi-
lidades. Eles são chamados de princípios básicos das probabilidades e teoremas de
probabilidades, assuntos da próxima seção.
5.4 Princípios básicos e teoremas de probabilidades
Vídeo A obtenção do valor da probabilidade de ocorrência de um evento E, cujo resul-
tado deverá obrigatoriamente estar contido em um espaço amostral Ω, obedece a
alguns princípios, denominados princípios básicos das probabilidades, bem como a
alguns teoremas, conhecidos como teoremas das probabilidades.
Para o seu bom entendimento, devemos compreender os conceitos de eventos
excludentes, exaustivos e complementares, já estudados anteriormente.
São princípios básicos das probabilidades:
• A probabilidade de um evento ocorrer sempre resultará em um valor entre 0
e 1 no formato unitário ou entre 0% e 100% no formato percentual. Podemos
representá-lo da seguinte forma: 0 ≤ P(E) ≤ 1 ou 0% ≤ P(E) ≤ 100%.
• A probabilidade do espaço amostral é igual a 1 no formato unitário ou 100% no
formato percentual. Representamos do seguinte modo: P(Ω) = 1 ou P(Ω) = 100%.
• A probabilidade de ocorrência de eventos mutuamente excludentes é nula,
isto é, se tivermos dois eventos E1 e E2 mutuamente excludentes, sendo, por-
tanto, E1∩E2 = ∅, temos que, em formato unitário e em formato percentual:
P(E1∩E2) = 0 ou P(E1∩E2) = 0%.
Introdução ao cálculo de probabilidades 145
• A probabilidade de ocorrência de eventos coletivamente exaustivos é igual
a 1, ou seja, se E1 e E2 forem eventos coletivamente exaustivos, E1∪E2 = Ω,
podemos afirmar que a representação no formato unitário e no formato per-
centual é: P(E1∪E2) = 1 ou P(E1∪E2) = 100%.
• A probabilidade de um evento ser complementar a outro é, no formato uni-
tário, igual a 1 menos a probabilidade do evento ou, no formato percentual,
igual a 100% (a probabilidade do evento) menos a probabilidade do evento
complementar. Se E1 = E2
C ou E2 = E1
C , podemos representar:
P(E2
C ) = 1 – P(E1) ou P(E1
C ) = 1 – P(E2)
P(E2
C ) = 100% – P(E1) ou P(E1
C ) = 100% – P(E2)
Já os teoremas das probabilidades estão descritos a seguir.
Teorema da soma
Aplicamos este teorema nas operações aditivas de probabilidades, ou seja, nas
operações que normalmente envolvem o conectivo ou, representado pelo símbolo
matemático da união ∪. O teorema da soma é subdividido em eventos mutuamen-
te exclusivos e não mutuamente exclusivos:
• Eventos mutuamente exclusivos: aplicamos quando os eventos E1 e E2 não
possuírem elemento em comum. Nesse caso, a probabilidade da união é
igual à soma das probabilidades individuais:
P(E1∪E2) = P(E1) + P(E2)
• Eventos não mutuamente exclusivos: aplicamos quando os eventos E1 e E2
possuírem elementos em comum. Logo, sua representação será:
P(E1∪E2) = P(E1) + P(E2) – P(E1∩E2)
Teorema do produto
Aplicamos este teorema nas operações multiplicativas de probabilidades, as
quais normalmente envolvem o conectivo e, representado pelo símbolo matemáti-
co da interseção ∩. O teorema do produto é subdividido para eventos independen-
tes e eventos dependentes:
• Eventos independentes: empregamos quando o resultado do segundo
evento não estiver associado ao resultado do primeiro evento. Para tanto,
utilizamos a seguinte representação:
P(E1∩E2) = P(E1) · P(E2)
• Eventos dependentes: empregamos quando o resultado do segundo even-
to estiver associado necessariamente ao resultado do primeiro evento. Para
tanto, utilizamos a seguinte representação:
P(E1∩E2) = P(E1) · P(E2|E1)
A representação (E
2
|E
1
) é lida
como "a probabilidade de ocorrer
o evento E
2
, tal que o evento E
1
já
tenha ocorrido".
Importante
146 Estatística e probabilidade: conceitos e aplicações
Para realizarmos cálculos que envolvam probabilidades é extremamente im-
portante definirmos com exatidão a quantidade de elementos dos eventos, n(E),
e a quantidade de elementos do espaço amostral, n(Ω). Caso os eventos sejam
dependentes, uma condição E outra condição, multiplicamos as probabilidades.
Caso os eventos sejam independentes, uma condição OU outra condição, soma-
mos as probabilidades.
Para a prática desses princípios e teoremas, vamos resolver alguns exemplos.
O primeiro refere-se ao teorema da soma para eventos mutuamente exclusivos.
Um jogo de tabuleiro consiste em avançar por trilhas numeradas e com cores diferentes.
Para saber o quanto e em qual das trilhas um jogador deverá avançar, são sorteadas fichas
numeradas e de cores iguais às das trilhas, que devem estar dentro de uma urna. Dessas, 12
fichas têm a cor de cada uma das trilhas: amarela, vermelha e azul. Após algumas rodadas,
ainda restam para serem sorteadas 10 fichas azuis, 5 fichas vermelhas e 7 fichas amarelas.
No próximo sorteio, qual a probabilidade de sair da urna uma ficha azul ou amarela?
A quantidade de elementos do espaço amostral é o número de fichas que ainda
restam para serem sorteadas, ou seja:
n(Ω) = 10 + 5 + 7 → n(Ω) = 22
Denominando os eventos de E1 = {ser sorteada uma ficha azul}, E2 = {ser sortea-
da uma ficha vermelha} e E3 = {ser sorteada uma ficha amarela}, verificamos que
estamos trabalhando com eventos mutuamente exclusivos, pois ao sair uma ficha
de uma cor é impossibilitada a saída de outra. Desse modo, utilizamos o teorema da
soma para eventos mutuamente exclusivos.
A probabilidade de sair no próximo sorteio uma ficha azul ou amarela será:
P(E1∪E3) = P(E1) + P(E3) → P(E1∪E3) =
n E
n ©
1� �
� �Ω +
n E
n ©
3� �
� �Ω
→
P(E1∪E3) = 10
22
+ 7
22
→ P(E1∪E3) = 17
22
→ P(E1∪E3) = 0,77272727... →
P(E1∪E3) = 77,27%
Esse problema também poderia ser resolvido de outra maneira. A probabilidade
de sair uma ficha azul ou uma ficha amarela significa que não pode sair uma ficha ver-
melha, ou seja, resume-se ao evento complementar de sair uma ficha vermelha. Logo:
P(E (E P(E P(E P(EP
n(E )
n( )2
C
2 2
C
2
C
2
C) ) ) ) )� � � � � � � � � �
�1 1 1 5
22
22 52
� 222
17
22
0 77272727 77 27
�
� � � � �P(E P(E P(E2
C
2
C
2
C) ) , ... ) , %
Resposta: a probabilidade de sair no próximo sorteio do jogo uma ficha de cor
azul ou amarela é de 77,27%.
Introdução ao cálculo de probabilidades 147
Outro exemplo, agora envolvendo o teorema da soma para eventos não mutua-
mente exclusivos:
Considerado um dos jogos mais populares, o dominó pode ser do tipo numérico, ter diferen-
tes cores, formas etc. Em sua maioria, o número total de peças é 28. Em um jogo clássico
há a indicação de dois números, um em cada lado da peça, os quais representamos com
círculos. A ausência dos círculos corresponde a nenhum valor numérico, já o total decírculos
em cada parte pode chegar a seis.
M
IK
HA
IL
G
RA
CH
IK
OV
/ s
hu
tte
rs
to
ck
Ao pegar (sem olhar) uma peça qualquer de um dominó clássico, qual a probabilidade de ela
ter representada em qualquer de suas partes o número 2, ou a soma da representação em
suas duas partes ser igual a 4?
Para resolver esse exemplo, em primeiro lugar, estabelecemos o espaço amos-
tral, que é o conjunto composto de:
Ω = {(0,0), (1,1), (2,2), (3,3), (4,4), (5,5), (6,6), (0,1), (0,2), (0,3), (0,4), (0,5), (0,6), (1,2),
(1,3), (1,4), (1,5), (1,6), (2,3), (2,4), (2,5), (2,6), (3,4), (3,5), (3,6), (4,5), (4,6), (5,6)}
Sendo a quantidade de elementos n(Ω) = 28.
Se denominarmos E1 o evento com a representação do número 2 em uma das
partes da peça de dominó, teremos:
E1 = {(0,2), (1,2), (2,2), (2,3), (2,4), (2,5), (2,6)}, o que resulta em n(E1) = 7
Sendo E2 o evento com a soma igual a 4 nas representações de suas duas
partes, teremos:
E2 = {(0,4), (1,3), (2,2)}, que resulta em n(E2) = 3
Precisamos utilizar o teorema da soma para eventos não mutuamente exclusivos,
pois as representações (1,2) e (2,2) aparecem tanto no evento E1 quanto no evento E2.
Assim, E1∩E2 = {(1,2);(2,2)}, sendo a quantidade de elementos n(E1∩E2) = 2.
148 Estatística e probabilidade: conceitos e aplicações
Realizando os cálculos:
P(E1∪E2) = P(E1) + P(E2) – P(E1∩E2) →
P(E1∪E2) =
n E
n ©
1� �
� �Ω
+
n E
n ©
2� �
� �Ω
–
n E E
n
1 2�� �
� ��Ω → P(E1∪E2) =
7
28
+
3
28
–
2
28
→
P(E1∪E2) = 8
28
→ P(E1∪E2) = 2
�7�
→ P(E1∪E2) = 0,28571429... →
P(E1∪E2) = 28,57%
Resposta: a probabilidade de a peça do dominó clássico numérico ter represen-
tada em qualquer de suas partes o número 2 ou a soma da representação em suas
duas partes igual a 4 é de 28,57%.
Vejamos mais um exemplo, no qual temos a aplicação do teorema do produto
para eventos independentes:
Com o desejo de ter um filho, um casal resolveu procurar um médico especializado em ferti-
lidade. O profissional fez uma série de exames e descobriu que a probabilidade de a mulher
engravidar era igual a 15,2% a cada mês. Se os cálculos do médico estiverem corretos, qual
a probabilidade de ocorrer uma gravidez daqui a três meses?
Primeiro, verificamos com que tipo de evento estamos trabalhando. Se a mulher
engravidar em um mês, ela não engravidará no mês seguinte, ou seja, o evento é
independente e consecutivo com o passar dos meses.
Como a probabilidade obtida pelo médico é de 15,2%, segundo o teorema do
produto para eventos independentes, podemos denominar o experimento engra-
vidar de Ei, sendo i igual ao número de cada mês que passar:
P(E) = P(E1) · P(E2) · P(E3) → P(E) = 0,152 · 0,152 · 0,152 →
P(E) = 0,00351181... → P(E) = 0,35%
Resposta: a probabilidade de ocorrer uma gravidez daqui a 3 meses é de 0,35%.
Por fim, um exemplo que envolve o teorema do produto para eventos
dependentes:
O gerente de produção de uma fábrica de componentes eletrônicos está desconfiado que a
linha de produção número 5 está com problemas e, consequentemente, produzindo mais pe-
ças defeituosas do que o aceitável. Desejando verificar qual a probabilidade de haver peças
defeituosas na linha em questão, o gerente decide ir até a seção na qual os componentes
eletrônicos já estão finalizados e escolher aleatoriamente dois deles. Sabendo que cada li-
nha de produção deve finalizar 160 componentes diariamente, qual a probabilidade de os
dois componentes eletrônicos escolhidos apresentarem defeito?
Introdução ao cálculo de probabilidades 149
Para essa situação, temos a quantidade de elementos do espaço amostral igual
a 160 componentes, ou seja, n(Ω) = 160.
Como a escolha do segundo componente ser defeituoso depende de o primei-
ro ser comprovadamente defeituoso, estamos diante da aplicação do teorema do
produto para eventos dependentes.
Desse modo, sendo os eventos E1: sair componente defeituoso na primeira es-
colha e E2: sair componente defeituoso na segunda escolha, temos que a quanti-
dade n(E1) = 2 e n(E2) = 1, uma vez que já deve ter sido escolhido um componente
eletrônico na primeira retirada que apresentasse defeito. Logo:
P(E1∩E2) = P(E1) · P(E2|E1) → P(E1∩E2) =
2
160 ·
1
159 →
P(E1∩E2) = 2
25.440
→ P(E1∩E2) = 1
12.720
→ P(E1∩E2) = 0,00007862... →
P(E1∩E2) = 0,0079%
Resposta: a probabilidade de dois componentes eletrônicos apresentarem de-
feito é de 0,0079%.
O último exemplo nos mostra que quando trabalhamos com o teorema do
produto para eventos dependentes é necessário cuidado redobrado. É justamen-
te em razão desse cuidado que os estatísticos decidiram tratar desse assunto o
denominando de probabilidade condicional, tópico que vamos estudar na sequência.
5.5 Probabilidade condicional: conceito e operações
Vídeo O teorema do produto para eventos dependentes requer considerações espe-
ciais. Sua aplicação ocorre nos casos em que um evento anterior afeta a probabili-
dade de eventos posteriores, como no caso de sorteios sem repetição.
Considerando os eventos E1 e E2 simultâneos em relação ao espaço amostral
Ω, a probabilidade condicional terá seu cálculo realizado por intermédio das
seguintes fórmulas matemáticas:
• P(E1|E2) =
P E E
P E
1 2
2
�� �
� � , desde que P(E2) > 0.
• P(E2|E1) =
P E E
P E
1 2
1
�� �
� �
, desde que P(E1) > 0.
Vejamos alguns exemplos:
Em uma verificação de um produto, foi constatado que do total de 600 unidades defeituosas, 400
apresentaram apenas o defeito caracterizado pelo evento E1, “está com alguma dimensão fora
das especificações técnicas”. Além disso, 100 produtos apresentaram apenas o defeito caracteri-
zado pelo evento E2, “apresenta problemas elétricos”, e 30 apresentaram os dois tipos de defeitos.
Determine a probabilidade de um produto – escolhido de maneira aleatória dentre aqueles
defeituosos – apresentar as falhas caracterizadas pelos eventos E1 e E2.
A representação E
1
| E
2
é lida
como "a probabilidade de
ocorrer o evento E
1
, tal que o
evento E
2
já tenha ocorrido".
Importante
150 Estatística e probabilidade: conceitos e aplicações
Se representarmos o exemplo por intermédio de conjuntos, teremos:
Ω
E1
70
400 10030
E2
Esquematizando o problema dessa maneira, percebemos que, além dos pro-
dutos que apresentaram os defeitos caracterizados pelos eventos E1 e E2, existem
70 2 produtos que apresentaram outro tipo de defeito.
Podemos resolver a situação de duas maneiras possíveis:
• Primeira solução
Conforme informado pelo enunciado, em primeiro lugar deve ocorrer o defeito
expresso no evento E1 e, na sequência, dos produtos que apresentarem esse de-
feito, o defeito do evento E2. Em outros termos, é preciso procurar o produto que
apresenta o defeito elétrico desde que já tenha apresentado defeito com alguma
dimensão fora das especificações técnicas.
P(E2|E1) =
30
430 → P(E2|E1) = 0,06976744... → P(E2|E1) = 6,98%
• Segunda solução
Ao aplicar a fórmula do teorema do produto para eventos dependentes, obtemos:
P(E1∩E2) = P(E1) · P(E2|E1) → P(E2|E1) =
P E E
P E
1 2
1
�� �
� � →
P(E2|E1) =
30
600
430
600
� �
→ P(E2|E1) =
30
600 ·
600
430 → P(E2|E1) = 30
430
→
P(E2|E1) = 0,06976744... → P(E2|E1) = 6,98%
Qualquer que seja a maneira que optarmos para resolver o problema, vamos
chegar ao mesmo resultado.
Resposta: a probabilidade de um produto apresentar o defeito caracterizado
pelo evento E1 bem como o defeito caracterizado pelo evento E2 é de 6,98%.
Outro exemplo:
Em uma urna existem fichas numeradas de 1 a 9. Ao retirar duas fichas de modo
sucessivo e sem reposição, qual será a probabilidade de elas conterem valores ímpares?
Este valor é obtido ao fazer:
600 - 400 - 30 - 100 = 70.
2
Introdução ao cálculo de probabilidades 151
O espaço amostral desse experimento é dado por:
Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9} e n(Ω) = 9
Também temos os seguintes eventos:
• E1: sair um valor ímpar da urna na primeira retirada. A representação é dada
por E1 = {1, 3, 5, 7, 9}, cuja quantidade de elementos é n(E1)= 5.
O cálculo da probabilidade será:
P(E ) =
n E
n ©
P(E ) = P(E ) = 0,5555555... P(E ) = 51
1 1 1 1
5
9
� �
� � � � � 55,56%
Ω
• E2: sair uma ficha de valor ímpar na segunda retirada. Percebemos que, após
a retirada, só restaram 4 fichas de valor ímpar. Desse modo, a urna fica com
8 fichas.
P(E ) =
n E
n © 1
P(E ) = P(E ) = 0,5 P(E ) = 50%2
2 2 2 2
4
8
� �
� �� � � �
� �Ω
Assim, a probabilidade de sair uma ficha de valor ímpar na primeira retirada e
outra na segunda retirada, pelo teorema do produto para eventos dependentes, é:
P(E1∩E2) = P(E1) · P(E2|E1) → P(E1∩E2) = 0,5555555... · 0,5 →
P(E1∩E2) = 0,2777777... → P(E1∩E2) = 27,78%
Resposta: a probabilidade de que as duas fichas retiradas da urna contenham
valores ímpares é 27,78%.
Para o cálculo das probabilidades condicionais é possível utilizar um recurso
denominado tabela de probabilidade condicional, que consiste em uma forma sim-
plificada de representação das probabilidades de dois eventos.
Para tanto, colocamos na primeira coluna e na primeira linha da tabela as legen-
das referentes às probabilidades de ocorrência dos eventos E1 (e do seu comple-
mentar E1
C ) e dos eventos E2 (e do seu complementar E2
C ). Observe:
Tabela 1
Tabela de probabilidade condicional
Evento
E1
E1 E1
C Total
E2
E2
E2
C
Total 100%
Fonte: Elaborada pelo autor.
Vejamos a seguir um exemplo de aplicabilidade desse tipo de tabela.
Um pesquisador foi incumbido de realizar um levantamento estatístico em uma grande em-
presa X. Para a sua realização, as condições impostas pelos proprietários são de que o expe-
diente não seja interrompido e que sejam escolhidos apenas alguns funcionários. Sabendo
(Continua)
152 Estatística e probabilidade: conceitos e aplicações
dessa exigência, o pesquisador fez um levantamento, junto ao departamento de recursos
humanos da empresa, de que 36,8% dos funcionários são do sexo masculino. Outro dado
do qual ele ficou ciente é que a porcentagem dos funcionários do sexo masculino que são
casados é de 64,3%. Já a porcentagem dos funcionários do sexo feminino que são casadas
é de 81,6%. Para que o levantamento seja válido, o pesquisador deve selecionar funcionários
de ambos os sexos, casados ou não. Sabendo disso, qual a probabilidade de o pesquisador
selecionar um funcionário aleatoriamente e ele ser:
a. casado?
b. não ser casado e ser do sexo feminino?
c. ser do sexo feminino e não ser casado?
Para resolver esse exemplo, precisamos discriminar os eventos que possuímos
nessa situação:
• E1: ser do sexo feminino → E1
C : ser do sexo masculino.
• E2: ser casado → E2
C : não ser casado.
Os dados disponíveis são: 36,8% dos funcionários do sexo masculino, o que
significa que 63,2% dos funcionários são do sexo feminino.
Para nos ajudar na resolução desse problema, vamos criar uma tabela de pro-
babilidade condicional, a qual deve ser preenchida com números no formato uni-
tário que, posteriormente, serão passados para o formato percentual. Observe:
Tabela 2
Funcionários da empresa X
Evento
E1: {ser do sexo feminino}
E1 E1
C Total
E2:
{ser casado}
E2
E2
C
Total 0,632 0,368 1
Fonte: Elaborada pelo autor.
Agora, como o enunciado informa que 64,3% do total de funcionários do sexo
masculino são casados, podemos fazer:
Tabela 3
Funcionários da empresa X: cálculos intermediários (primeira etapa)
Evento
E1: {ser do sexo feminino}
E1 E1
C Total
E2:
{ser casado}
E2
0,632 · 0,816 =
0,515712
0,368 · 0,643 =
0,236624
0,752336
E2
C
Total 0,632 0,368 1
Fonte: Elaborada pelo autor.
Como as somas das colunas e das linhas devem ser exatas, teremos:
Introdução ao cálculo de probabilidades 153
Tabela 4
Funcionário da empresa X: cálculos intermediários (segunda etapa)
Evento
E1: {ser do sexo feminino}
E1 E1
C Total
E2:
{ser casado}
E2 0,515712 0,236624 0,752336
E2
C 0,632 – 0,515712 =
0,116288
0,368 – 0,236624 =
0,131376
1 – 0,752336 =
0,247664
Total 0,632 0,368 1
Fonte: Elaborada pelo autor.
Colocando os valores em porcentagens:
Tabela 5
Funcionário da empresa X: cálculos intermediários (terceira etapa)
Evento
E1: {ser do sexo feminino}
E1 E1
C Total
E2:
{ser casado}
E2 51,57% 23,66% 75,23%
E2
C 11,63% 13,14% 24,77%
Total 63,2% 36,8% 100%
Fonte: Elaborada pelo autor.
De acordo com os dados que constam da tabela de probabilidade condicional,
podemos responder às questões presentes na situação-problema.
A probabilidade de o funcionário ser casado é encontrada na última coluna da
tabela, na linha do evento E2: 75,23%.
Para encontrarmos a probabilidade de o funcionário escolhido não ser casado e
ser do sexo feminino, é necessário ver a célula que se encontra no cruzamento da
segunda linha (E2
C) com a primeira coluna (E1), na qual está o valor 11,63%.
Já para determinarmos a probabilidade de o funcionário selecionado ser do sexo
feminino e não ser casado, primeiro devemos perceber que o espaço amostral é
composto apenas de funcionárias. A probabilidade será obtida ao fazermos a divisão
do valor do percentual das mulheres não casadas pelo total das mulheres.
Realizando os cálculos com os valores no formato unitário:
0,116288
�0,632�
= 0,184 = 18,4%
Resposta: a probabilidade de o funcionário escolhido ser casado é de 75,23%.
Já a probabilidade de esse funcionário não ser casado e ser do sexo feminino é de
11,63%. Por fim, a probabilidade de o funcionário ser do sexo feminino e não ser
casado é de 18,4%.
Em muitas situações, a confecção de uma tabela de probabilidades condicionais
nos faz chegar aos resultados pretendidos mais facilmente, mas precisamos estar
muito atentos ao realizarmos os cálculos, inclusive para verificarmos qual é o espaço
amostral que nos interessa.
Para praticar mais a respeito do
cálculo de probabilidades, acesse
o QR Code a seguir. Nele há uma
série de exercícios a respeito
desse conteúdo:
Na prática
154 Estatística e probabilidade: conceitos e aplicações
CONSIDERAÇÕES FINAIS
Neste capítulo nos dedicamos ao estudo das probabilidades. Em razão de ser um
campo muito vasto da matemática, realizamos apenas uma análise introdutória com
vistas a outros conteúdos que virão na sequência.
Iniciamos nosso trajeto abordando o princípio fundamental da contagem, sobretu-
do a determinação do conjunto universo, também denominado espaço amostral.
Vimos o que é um experimento e quando ele pode ser chamado de aleatório.
Também nos dedicamos ao estudo do que pode vir a ser um evento e quais seus
tipos possíveis.
Além disso, verificamos como se realizam os cálculos para determinar as probabili-
dades dos eventos utilizando as definições da escola clássica. Apesar de trabalharmos
apenas com essa metodologia, conhecemos as definições frequentista, geométrica e
subjetivista. Em alguns desses cálculos, vimos que é importante saber alguns concei-
tos matemáticos, como representações de conjuntos, cálculos envolvendo fatoriais,
arranjos e combinações simples.
Por fim, conhecemos os princípios básicos e os teoremas das probabilidades,
bem como suas aplicações, culminando com o estudo das probabilidades condicio-
nais e suas tabelas.
Apesar de não adentrarmos em cálculos de probabilidades mais complexos, é sempre
importante estarmos atentos à sua execução e aos procedimentos a serem utilizados.
ATIVIDADES
1. Os eventos E1 e E2 estão associados a determinado experimento. Após análise,
constatou-se que P(E1) = 28,75% e que P(E1∪E2) = 63,94%. Com base nessas
informações, determine o valor percentual de probabilidade do evento E2 para que
os dois eventos sejam:
a) mutuamente exclusivos.
b) independentes.
2. A Polícia Rodoviária Federal (PRF) realiza periodicamente fiscalizações em estradas
brasileiras. Nelas, os policiais verificam documentação do veículo e do proprietário,
averiguam as condições gerais do veículo e realizam o combate à criminalidade.
Suponha que, historicamente, de todos os motoristas fiscalizados, a porcentagem
daqueles que apresentam algum tipo de irregularidade, seja em sua documentação
pessoalou na de seu veículo, é de 38,82%. Suponha também que em determinado
dia está ocorrendo uma fiscalização e responda: qual a probabilidade de, nesse dia
em questão, dos três primeiros motoristas abordados:
a) todos tenham suas documentações completamente regulares?
b) dois tenham problemas com a documentação, seja pessoal ou do veículo?
c) todos tenham algum problema com a documentação, seja pessoal ou
do veículo?
3. Em um levantamento realizado com 732 moradores adultos de um bairro foram
obtidos os seguintes resultados: 263 possuem habilitação somente para automóveis
(categoria B); 185 possuem habilitação para veículo motorizado de duas ou três
rodas (categoria A); e 98 não possuem nenhum tipo de habilitação. De posse dessas
Vídeo
Introdução ao cálculo de probabilidades 155
afirmações e escolhendo um dos moradores ao acaso, determine a probabilidade de
ele ter habilitação da categoria A ou de ele não ter nenhuma habilitação.
4. Uma empresa fabrica lâmpadas de LED, as quais são conhecidas por sua longa
durabilidade. Suponha que de um lote com 18 lâmpadas desse tipo e modelo
existam 7 com durabilidade estimada de 35.000 horas de uso e o restante tenha
durabilidade de 40.000 horas de uso. Ao escolher duas das 18 lâmpadas de
maneira aleatória, determine a probabilidade de:
a) ambas terem a durabilidade de 35.000 horas de uso.
b) ambas terem a durabilidade de 40.000 horas de uso.
c) apenas uma delas ter a durabilidade de 35.000 horas de uso.
5. Uma instituição financeira abriu um processo para selecionar, dentre seu quadro
efetivo de funcionários, seis colaboradores para a gerência de novas agências, desde
que comprovem ter as competências técnicas, emocionais e de relacionamento
necessárias para a função. O departamento de recursos humanos escolheu 38
funcionários do sexo masculino e 22 do sexo feminino compatíveis com esses
requisitos. Determine a probabilidade de:
a) todas as vagas serem preenchidas por homens.
b) todas as vagas serem preenchidas por mulheres.
6. Em uma urna existem nove fichas com cinco cores diferentes: vermelho, laranja,
amarelo, roxo e preto. Determine a probabilidade de ser retirada, aleatoriamente
e sem reposição, cinco fichas, cada uma de uma cor e na seguinte ordem: roxo,
amarelo, vermelho, laranja e preto.
7. Duas turmas de determinada faculdade – uma do curso de Direito e outra do curso
de Administração – foram convidadas para assistir a uma palestra no auditório.
Dos que assistiram à palestra, 47 alunos são do sexo masculino e 73 são do sexo
feminino. Do total de alunos homens, 23 são alunos do curso de Direito; para as
mulheres, esse número passa a ser 37. Caso o palestrante escolha aleatoriamente
um estudante da plateia para comentar alguma questão, determine e responda:
a) Qual a probabilidade de que ele seja homem e aluno do curso de
Administração?
b) Se a pessoa sorteada é aluna do curso de Administração, qual a probabilidade
de que seja um homem?
c) Se o sorteado é uma mulher, qual a probabilidade de ser aluna do curso
de Direito?
d) Se o sorteado é aluno do curso de Direito, qual a probabilidade de ser
uma mulher?
8. Ao realizar um levantamento referente ao curso de determinada faculdade,
constatou-se que 68,7% dos alunos regularmente matriculados são homens e
têm mais de 1,70 m de estatura. Já entre as mulheres, essa porcentagem é igual a
12,3%. Sabe-se também que 52,8% da totalidade de estudantes desse curso são
do sexo feminino. Se escolhermos aleatoriamente um estudante que tenha mais
de 1,70 m de estatura, qual a probabilidade de que ele seja do sexo masculino?
156 Estatística e probabilidade: conceitos e aplicações
REFERÊNCIAS
BRUNI, A. L. Estatística aplicada à gestão empresarial. 3. ed. São Paulo: Atlas, 2011.
CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009.
LOPES, J. M.; SALVADOR, J. A.; BALIEIRO FILHO, I. F. O ensino de probabilidade geométrica por meio de
fractais e da resolução de problemas. Revista Eletrônica de Educação, São Carlos, v. 7, n. 3, p. 47-62, 22 jan.
2013. Disponível em: http://www.reveduc.ufscar.br. Acesso em: 18 jan. 2021.
MARTINS, G. de. A.; DOMINGUES, O. Estatística geral e aplicada. 5. ed. São Paulo: Atlas, 2014.
PRATES, D. A.; DELFINO, A. C. dos. S. Probabilidade geométrica: uma estratégia de ensino via resolução de
problemas. 2016. Dissertação (Mestrado Profissional em Matemática) – Universidade Federal de São João
Del-Rei, São João Del-Rei. Disponível em: https://ufsj.edu.br/portal2-repositorio/File/profmat/DISSMES/
T2014/06dissT2014.pdf. Acesso em: 18 jan. 2021.
TRIOLA, M. F. Introdução à Estatística. 10. ed. Rio de Janeiro: LTC, 2008.
Distribuições de probabilidades de variáveis aleatórias discretas 157
6
Distribuições de
probabilidades de variáveis
aleatórias discretas
Já estudamos que a Estatística depende de experimentos, muitos deles
obtidos de maneira aleatória, com a utilização das técnicas de amostra-
gem, especificamente a amostragem aleatória.
Também vimos que, muitas vezes, diante da impossibilidade de se
trabalhar com populações completas, valemo-nos de estudos amostrais,
muitos realizados por intermédio de distribuições de frequências.
Neste capítulo vamos dar continuidade aos estudos de probabilida-
de, associando a eles o emprego de variáveis aleatórias. Isso produzirá
diferentes distribuições de probabilidades ou modelos estatísticos, que
nos possibilitarão um melhor entendimento dos fenômenos estudados
e/ou pesquisados.
6.1 Variável aleatória e variável aleatória discreta
Vídeo Nos estudos de probabilidades, vimos que o conjunto dos resultados possíveis
de serem obtidos em um experimento aleatório é denominado espaço amostral e
que cada elemento pertencente a ele tem uma probabilidade de ocorrência.
De acordo com Pinheiro et al. (2012, p. 50), “uma variável aleatória (abreviada-
mente, v.a.) é uma função que associa a cada elemento de um espaço amostral um
número real”. É importante percebermos o uso da palavra função na definição; isso
ocorre porque a associação de cada um dos elementos de um espaço amostral
com um número real, um único número real, é determinada por uma relação ma-
temática, ou seja, por uma função.
Esquematicamente, podemos fazer:
Ω
x
X
P(x)
158 Estatística e probabilidade: conceitos e aplicações
É conveniente salientarmos que é muito comum – muitos autores utilizam e nós
também vamos – a representação de variáveis aleatórias por letras maiúsculas,
como já fizemos para denominar um evento de um experimento aleatório.
Se uma variável aleatória assumir valores enumeráveis, ou seja, valores que per-
tençam ao conjunto dos números naturais, ela é dita variável aleatória discreta.
Martins e Domingues (2014, p. 82, grifos do original) corroboram essa definição ao
afirmarem que “seja X uma variável aleatória. Se o número de valores possíveis de
X for finito ou infinito numerável, denominamos X de variável aleatória discreta”.
Agora nos dedicaremos ao estudo das variáveis aleatórias discretas.
6.2 Função de probabilidade
Vídeo Vamos considerar uma variável aleatória discreta X, v.a., cujos possíveis valo-
res são finitos e elementos do espaço amostral Ω = {x1, x2, x3, ..., xn}. Também va-
mos considerar que para cada elemento xi pertencente ao espaço amostral esteja
associada uma probabilidade p(xi) = P(X = xi).
Se construirmos uma tabela relacionando os elementos do espaço amos-
tral com as suas respectivas probabilidades, teremos o que é denominado de
distribuição de probabilidades.
Tabela 1
Exemplo de distribuição de probabilidades
xi p(xi)
1 p(x1)
2 p(x2)
3 p(x3)
n p(xn)
Fonte: Elaborada pelo autor.
Uma distribuição de probabilidades, que é representada pelos pares ordenados
(xi,p(xi)), sendo i = 1, 2, 3, ..., pode ser ilustrada por uma tabela (como fizemos na
Tabela 1), por um gráfico ou por fórmulas.
Considerando que a probabilidade p(xi) = P(X = xi) obedeça aos seguintes requisitos:
I. p(x
i
) ≥ 0, ∀ i, 1 ≤ i ≤ n
II.
i�
� � � �
1
1
n
ipx
Será obtida a função matemática p: xi p(xi) = P(X = xi), denominada função
de distribuição probabilidade da variável aleatória X, a qual correspondente a um
∀: símbolo matemático que
significa “para todo”.
: símbolo matemático que
significa que a função matemática,
nesse caso a função p, mapeia
(leva, conduz) o elemento x
i
para o
elemento p(x
i
).
Glossário
Distribuições de probabilidades de variáveis aleatórias discretas 159
modelo matemático que possibilita atribuir uma probabilidade aos valores de cada
elemento xi do espaço amostral.
Ao definirmos dessa maneira uma função de probabilidade, os elementos do
espaço amostral xi formam o domínio e os valores das probabilidades p(xi) defi-
nem o conjunto imagem, que está contido no contradomínio da função, isto é, o
conjunto dos números reais.
Para compreendermos melhor o que estamos explanando, vejamos o seguinte
exemplo, considerado um clássico utilizado por diversos autores.
Considere o seguinte experimento: ao se lançar três moedas perfeitamente equilibradas sobre uma mesa,
observamos o número de caras obtidas. Obtenha a distribuição de probabilidades discreta.
Como o enunciado já estabelece, a variável é o número de caras obtidas ao se
lançar três moedas perfeitamente equilibradas sobre uma mesa.
Se denominarmos a saída da face cara de Ca e a saída da face coroa de Co, os
possíveis valores que comporão o espaço amostral e seus elementos são dados por:
Ω = {(Co, Co, Co), (Co, Co, Ca), (Co, Ca, Ca), (Co, Ca, Co), (Ca, Co, Ca), (Ca, Co, Co), (Ca, Ca, Co),
(Ca, Ca, Ca)}
A quantidade de elementos do espaço amostral é n(Ω) = 8. Já a variável aleatória
é estabelecida da seguinte maneira: X = número de caras nos três lançamentos →
X: 0, 1, 2, 3, sendo:
• x1 = 0 → (Co, Co, Co) e n(x1) = 1
• x2 = 1 → (Co, Co, Ca), (Co, Ca, Co), (Ca, Co, Co) e n(x2) = 3
• x3 = 2 → (Ca, Ca, Co), (Co, Ca, Co), (Ca, Co, Ca) e n(x3) = 3
• x4 = 3 → (Ca, Ca, Ca) e n(x4) = 1
Ao dispor a distribuição de probabilidades em formato de uma tabela, obtemos:
Tabela 2
Distribuição de probabilidades em formato tabular
xi p(xi)
0 1
8�
1 3
8�
2 3
8�
3 1
8�
Fonte: Elaborada pelo autor.
Há autores de livros de Estatística que
denominam a função de distribuição
probabilidade de função de massa de
probabilidade (fmp ou FMP).
Atenção
160 Estatística e probabilidade: conceitos e aplicações
Ao dispor em formato gráfico, temos:
Gráfico 1
Distribuição de probabilidades em formato gráfico
p(xi)
3/8
1/4
1/8
0
0 1 2 3
Fonte: Elaborado pelo autor.
Já a obtenção da fórmula matemática para a distribuição de probabilidades de
uma variável aleatória discreta não é uma tarefa muito simples. Nesse exemplo,
devemos ter uma função matemática que permita:
• para x1 = 0, o valor p(x1) = 1
�8�
;
• para x2 = 1, o valor p(x2) = 3
�8�
;
• para x3 = 2, o valor p(x3) = 3
�8�
;
• para x4 = 3, o valor p(x4) = 1
�8�
.
Essa função de probabilidade será dada por p(xi) = 1
�8�
· C3
xi , para i = 0, 1, 2 e 3, em que
C3
xi expressa a combinação simples de três elementos tomados de xi em xi elementos.
Apenas com o intuito de mostrar que a função de probabilidade está correta,
observe o cálculo para i = 3:
p(x3) = 1
�8�
· �C3
x3 → p(2) = 1
�8�
· �C3
2 → p(2) = 1
�8�
· 3!
2!�·� 3� �2 !�� � → p(2) = 1
�8�
· 3 → p(2) = 3
�8�
Como já dito, a determinação da função de probabilidade não é uma tarefa fácil,
mas matemáticos e estatísticos consagrados já estabeleceram modelos de distribui-
ção de probabilidades que nos ajudam sobremaneira. Faremos o estudo de dois
desses modelos ainda neste capítulo.
Além das funções de densidade de probabilidade, também temos a necessidade
de conhecer (e saber obter) as funções de distribuição de probabilidades acumula-
da, assunto da seção a seguir.
Distribuições de probabilidades de variáveis aleatórias discretas 161
6.3 Função de distribuição de probabilidade acumulada
Vídeo Além das funções de probabilidade, é importante estudarmos as funções de
distribuição acumuladas.
Para tanto, consideremos uma variável aleatória discreta X, que possui função
de probabilidade dada por p(xi) = P(X = xi). A função de distribuição de probabi-
lidade acumulada em determinado ponto x, para a função de probabilidade em
questão, será dada por:
F(x)�=�P(X� �x )�= p(x )i
xi x
i�
�
�
As funções de distribuição de probabilidades acumuladas obedecem aos se-
guintes requisitos:
• 0 ≤ F(x) ≤ 1;
• é sempre uma função não decrescente;
• F(xi) – F(xi–1) = P(xi–1 < x ≤ xi), xi–1 > xi.
Ao dispor essa função no formato tabular, obtemos:
Tabela 3
Distribuição de probabilidades acumuladas (lançamento de três moedas perfeitas e equilibradas)
xi p(xi)
0
1
8� �
1
1
2� �
2
7
8� �
3 1
Fonte: Elaborada pelo autor.
Para chegarmos aos resultados da tabela, realizamos os seguintes cálculos:
• Para xi = 0:
F(x)�=�P(X� �0)�= p(x )�=�1
8�
xi 0
i�
�
� �
• Para xi = 1:
F(x)�=�P(X� �1)�= p(x )�=�1
8�
�+�3
8�
�=�4
8�
=�1
2�
xi 1
i�
�
� � � �
�
�
• Para xi = 2,5:
F(x)�=�P(X� �2,5)�= p(x )�=�1
8�
�+�3
8�
�+�3
8�
�=�7
8
xi 2,5
i�
�
� � � � � ��
• Para xi = 4:
F(x)�=�P(X� �4)�= p(x )�=�1
8�
�+�3
8�
�+�3
8�
�+�1
8�
�=�
xi 4
i�
�
� � � � �
88
8�
�=�1
�
É importante notar que podemos inserir em x qualquer valor da reta real, mas
desde que seja superior a zero (0).
162 Estatística e probabilidade: conceitos e aplicações
Ao dispor a função de distribuição de probabilidade acumulada no formato grá-
fico, temos:
Gráfico 2
Função de distribuição de probabilidade acumulada
P(X ≤ x)
0 1 2 3 4
1
7/8
1/2
1/8
Fonte: Elaborado pelo autor.
É fácil percebermos que ocorre um salto de um valor do domínio da função
aleatória para o valor seguinte (de xi para xi + 1), gerando segmentos de reta entre as
probabilidades desses valores. Por esse motivo, a função gerada recebe a denomi-
nação função degrau.
Devemos estar atentos aos cálculos matemáticos. Para trabalhar com as fun-
ções de distribuição de probabilidades acumulada, é preciso já termos determina-
do e realizado os cálculos das funções de distribuição de probabilidades.
6.4 Média, variância e desvio padrão de
uma variável aleatória discreta
Vídeo Anteriormente, estudamos os procedimentos para calcular a média aritmética,
a variância e o desvio padrão de dados não agrupados, de dados agrupados sem
intervalos de classe e de dados agrupados com intervalos de classe, todos envol-
vendo distribuições de frequências.
Agora, vamos estudar a média aritmética, a variância e o desvio padrão, mas para
distribuições de probabilidades, que podemos denominar de parâmetros da distribuição
de probabilidade. Pinheiro et al. (2012, p. 54) informam que “os mais frequentemente
usados são os parâmetros de centralidade e os parâmetros de dispersão”.
Vejamos a seguir esses parâmetros.
6.4.1 Valor esperado
O valor esperado de uma variável aleatória discreta, também denominado valor
médio, esperança matemática ou expectância, é a média aritmética (µ) de uma distri-
buição de probabilidades.
Distribuições de probabilidades de variáveis aleatórias discretas 163
O conceito de esperança matemática, vale ressaltar, surgiu antes da noção de pro-
babilidade. Historicamente, foi utilizado para quantificar o provável ganho de um joga-
dor; contudo, atualmente é aplicado em diversas áreas da ciência.
O cálculo do valor esperado é obtido pela multiplicação de cada resultado
possível (xi) por sua probabilidade correspondente, P(xi), e, posteriormente, pela
soma dos resultados desses produtos:
��=�E x �= x �·�P x
i
N
i i� � � ��� ��
�
�
1
Em que:
• xi: é o i-ésimo resultado para a variável aleatória discreta X;
• P(xi): é o valor da probabilidade de ocorrência do i-ésimo resultado da variá-
vel aleatória discreta X.
Aqui, vale fazermos algumas considerações. De acordo com informações dadas
pelo Instituto Brasileiro de Geografia e Estatística (IBGE, 2020), “em 1940, um indi-
víduo ao completar 50 anos tinha uma expectativa de vidade 19,1 anos, vivendo
em média 69,1 anos. Já em 2019, a pessoa de 50 anos teria uma expectativa de vida
de 30,8 anos, esperando viver em média até 80,8 anos (11,8 anos a mais)”. Isso não
significa que a pessoa que tenha 50 anos em 2019 morrerá no dia seguinte que
complete 80,8 anos de idade.
No que diz respeito às pessoas de 50 anos, umas vivem mais 10 anos, outras
vivem mais 20 anos, outras viverão mais 40 anos, e a esperança de vida de 30,8
anos deve ser interpretada como uma média ou, como denominaremos, uma
esperança matemática.
Acompanhe os exemplos a seguir:
Qual é a esperança matemática de ganharmos R$ 55,00 se, e somente se, uma moeda perfeita e equili-
brada apresentar o resultado cara quando lançada uma vez?
A probabilidade de sair cara no lançamento de uma moeda perfeita e equilibra-
da é dada por P(x) = 1
2
ou P(x) = 0,50.
O valor que temos vontade de ganhar é R$ 55,00. Logo, podemos dizer que a
nossa esperança de ganhar esse valor é de:
E x �= x �·�P x � �E x �=�55�·�0,5� �E x �=�27,5�
i=1
N
i i� � � ��� �� � � � �� � �
Observação: como nesse caso só tínhamos um valor envolvido, não houve a
necessidade de utilizarmos o somatório de vários produtos.
Resposta: a esperança de ganharmos, antes de ocorrer o lançamento da moe-
da, corresponde a R$ 27,50.
164 Estatística e probabilidade: conceitos e aplicações
O prêmio principal da rifa de uma igreja é uma Smart TV LED de 55 polegadas, avaliada em R$ 3.299,00. Se
um dos paroquianos comprar um dos 2.000 bilhetes, qual é a esperança matemática de ele ganhar a rifa?
A probabilidade de ganhar, isto é, de ter o bilhete sorteado, é obtida ao fazermos:
P(x) = 1
2.000
ou P(x) = 0,0005
O valor que o paroquiano tem como esperança de ganhar é o preço do aparelho
de TV (R$ 3.299,00). Assim, a esperança matemática, antes de o sorteio ocorrer, é de:
E x �= x �·�P x � E x �=�3 299�·�0,0005� �E x �=�
i=1
N
i i� � � ��� �� � � � �� � �. 11,6495
Podemos nos perguntar: o que esse valor unitário representa? Do ponto de vis-
ta econômico, é considerado justo para o bilhete a R$ 1,65. Qualquer valor acima
gerará lucro a quem está realizando a rifa.
Resposta: a esperança matemática do paroquiano de ganhar corresponde a 1,65.
Agora, mais um exemplo:
Um jogador aposta R$ 5,00 na escolha de um número de 000 a 999, com a possibilidade de ganhar R$ 2.500,00
se o número que ele escolheu for sorteado. Qual é a esperança matemática do jogador nesse tipo de jogo?
Para resolver esse exemplo, é necessário determinarmos as probabilidades de
acertar e de errar:
P(acertar) = 1
1.000
ou 0,001 e P(errar) = 999
1.000
ou 0,999
E x �= x �·�P x � E x �=�2 500�·�0,001�+� 5 ��
i=1
N
i i� � � ��� �� � � �� �� � . � · 00,999�� E(x) = – 2,495
Nesse caso, a interpretação é: o jogador, pagando R$ 5,00 por jogada, tem a
chance de perder R$ 2,50 a cada jogada que realizar.
Resposta: o jogador, antes do jogo ocorrer, tem a esperança matemática de
perder R$ 2,50 por jogada.
Por fim, um último exemplo:
O proprietário de determinada empresa, a qual possui filiais em diversas cidades brasileiras, resolveu vender uma
delas. Uma consultoria contratada avalia em 19,5%, 35,75%, 28,25% e 16,5% a probabilidade de que a venda
dessa filial renda um lucro de R$ 2.500,00, de R$ 1.500,00 e de R$ 500,00, ou um prejuízo de R$ 500,00, valores
esses em milhões. Determine qual o lucro esperado pelo proprietário da empresa.
Distribuições de probabilidades de variáveis aleatórias discretas 165
Para determinar o valor da esperança matemática do proprietário é preciso:
E x �= x P x ·
i
N
i i� � � ��� �� �
�
�
1
E(x) = 2.500 · 0,195 + 1.500 · 0,3575 + 500 · 0,2825 + (–500) · 0,165 →
E(x) = 1.082,5
Como o resultado foi um valor positivo, a esperança do proprietário da empresa
é de ter lucro com a venda dessa filial.
Resposta: a expectativa de lucro do proprietário da empresa é de obter
R$ 1.082.500.000,00 com a venda da estatal.
6.4.2 Variância e desvio
Como já estudamos, a variância e o desvio padrão são medidas de dispersão.
Para uma distribuição de probabilidades, determinamos a variância ao multiplicar-
mos cada diferença possível entre os valores de xi e da esperança matemática da
distribuição, elevada ao quadrado por sua correspondente probabilidade, e, de-
pois, somando os produtos resultantes.
A fórmula matemática que define a variância de uma variável aleatória discreta
é dada por:
� � �2
1
2 2
1
x �= x E x P x ou x �= x i i
i
N
i� � � � ��� �� � � � � ��� ���
� �
� �
i
N
� � 22
� � �P xi �
Em que:
• xi: é o i-ésimo resultado para a variável aleatória discreta;
• X e P(xi): é o valor da probabilidade de ocorrência do i-ésimo resultado da
variável aleatória discreta X.
Já para obter o valor do desvio padrão de uma variável aleatória discreta, extraí-
mos a raiz quadrada positiva do valor da variância, ou seja:
� � �x� � � � � � � � � � � ��� �� � ��
�
�� � � � � � � x x x E x P x ou
i
N
i i
2
1
2
�� x x P x
i
N
i i
� � � ��� �� � ��
�
��
1
2
�
Vejamos um exemplo.
O proprietário de uma loja de eletrodomésticos fez um levantamento a respeito das vendas se-
manais que ocorreram ao longo das últimas 12 semanas. Após a coleta dos dados, ele elaborou a
seguinte tabela:
(Continua)
166 Estatística e probabilidade: conceitos e aplicações
Tabela 4
Vendas semanais de eletrodomésticos da loja X (jul. 2020)
xi p(xi)
0 0,23
1 0,27
2 0,32
3 0,13
4 0,05
Fonte: Elaborada pelo autor.
De posse dessas informações, determine a esperança de vendas de eletrodomésticos para a próxima semana,
bem como a variância e o desvio padrão das vendas.
Para determinar o valor da esperança matemática das vendas, fazemos:
E x �= x P x ·
i
N
i i� � � ��� ���
�
�
�
�
1
E(x) = 0 · 0,23 + 1 · 0,27 + 2 · 0,32 + 3 · 0,13 + 4 · 0,05 → E(x) = 1,5
O valor da variância será obtido da seguinte forma:
� �2
1
2
x �= x E x P x
i
N
i i� � � ��� �� � � ��
�
�
�
�
σ2(x) = (0 – 1,5)2 · 0,23 + (1 – 1,5)2 · 0,27 + (2 – 1,5)2 · 0,32 + (3 – 1,5)2 · 0,13 + (4 – 1,5)2
· 0,05 →
σ2(x) = 0,5175 + 0,0675 + 0,08 + 0,2925 + 0,3125 →
σ2(x) = 1,27 eletrodomésticos2
Para chegarmos ao valor do desvio padrão, a maneira mais fácil é extrair a raiz
quadrada do valor da variância, ou seja:
σ(x) = σ2 → σ(x) = 1,27 → σ(x) = 1,12694277... eletrodomésticos
Resposta: na próxima semana o proprietário tem a esperança de vender 1,5
eletrodomésticos. Já a variância é igual a 1,27 eletrodomésticos2 e o desvio padrão
é igual a 1,13 eletrodomésticos.
6.5 Distribuições discretas de probabilidade
Vídeo Evidentemente, as distribuições discretas de probabilidade modelam resultados
de variáveis aleatórias discretas, o que torna mais fácil o trabalho com esses modelos
probabilísticos. É importante notarmos que, para o emprego desses tipos de distri-
buições, as variáveis envolvidas obrigatoriamente devem ser aleatórias discretas.
Entre os vários tipos de distribuições, podemos destacar os seguintes: bino-
mial, binomial negativa, geométrica, hipergeométrica, de Poisson e de Bernoulli.
Entretanto, focaremos duas delas em nossos estudos: a distribuição binomial e
a de Poisson.
Para praticar mais o cálculo do
valor esperado, da variância e do
desvio padrão de distribuições de
probabilidade de variáveis aleató-
rias, acesse o QR code a seguir. Nele
há uma série de exercícios a sobre
esse conteúdo:
Já no QR code a seguir, você apren-
derá a calcular o valor esperado,
a variância e o desvio padrão de
distribuições de probabilidade de
variáveis aleatórias utilizando o
programa Microsoft Excel:
Na prática
Distribuições de probabilidades de variáveis aleatórias discretas 167
6.5.1 Distribuição binomial
A distribuição de probabilidade binomial é um modelo matemático de grande ser-
ventia. Ela nos permite trabalhar com circunstâncias em que os resultados perten-
cem a duas categorias relevantes: aceitável/defeituoso ou sobreviveu/morreu.
Sua utilização deve ocorrer quando a variável discreta de interesse é o númerode
sucessos em uma amostra de n observações.
Segundo Triola (2008, p. 171, grifos do original), a distribuição binomial possui
quatro propriedades, a saber:
1. O experimento tem um número fixo de tentativas.
2. As tentativas têm que ser independentes. (O resultado de qualquer tentativa
individual não afeta as probabilidades nas outras tentativas).
3. Cada tentativa deve ter todos os resultados classificados em duas categorias
(em geral, chamadas de sucesso e fracasso).
4. A probabilidade de um sucesso permanece constante em todas as tentativas.
Com base nessas propriedades, vamos denominar o número de tentativas de
n, a probabilidade de uma observação classificada como sucesso de p e a proba-
bilidade de uma observação classificada como insucesso (ou fracasso) de q = 1 – p.
Para assegurar a independência, as observações devem ser selecionadas de
maneira aleatória, tanto com base em uma população infinita sem reposição
quanto com base em uma população finita com reposição.
A função a seguir expressa o modelo matemático de uma distribuição de proba-
bilidade binomial utilizado para calcular o número de sucessos (x), sendo conheci-
dos os valores de n e p.
P(x) = n!
x!�·� n� �x !�� � · px · (1 – p)n – x ou P(x) = n!
x!�·� n� �x !�� � · px · qn – x
Em que:
• P(x): probabilidade de x sucessos, dados os parâmetros n e p;
• n: quantidade de observações;
• p: probabilidade de sucesso;
• q = 1 – p: probabilidade de insucesso ou fracasso;
• x: quantidade de sucessos.
A média aritmética (µ) de uma distribuição de probabilidade binomial é igual
à quantidade de observações (n) multiplicada pela probabilidade de sucesso (p),
ou seja:
µ = E(x) = n · p
Já o desvio padrão de uma distribuição binomial é calculado por intermédio da
seguinte fórmula matemática:
σ(x) = σ2 → σ(x) = n�·�p�·� 1 - p� � → σ(x) = n�·�p�·�q
Para visualizarmos a aplicabilidade da distribuição de probabilidade binomial,
vejamos alguns exemplos:
Existem muitos estatísticos que
utilizam a seguinte notação:
P(x) =
n
x
�
�
�
�
�
� · px · qn – x, em que
n
x
�
�
�
�
�
� é também uma notação ma-
temática de combinação simples,
ou seja,
n
x
�
�
�
�
�
� =
n
x n x
!
! - !�� �
.
Saiba mais
168 Estatística e probabilidade: conceitos e aplicações
O engenheiro mecânico responsável pelo departamento de controle de qualidade de uma indús-
tria metalomecânica, a qual produz máquinas industriais, deseja verificar o funcionamento de
determinada válvula que faz parte de uma máquina produzida pela indústria. Por intermédio de
registros anteriores que a empresa possui, o engenheiro verificou que a válvula em questão tem
a probabilidade de 68,75% de funcionar corretamente por mais de 1.000 horas, sem necessitar
de manutenção. O profissional decide testar um lote de 12 válvulas já produzidas, que deverão
ser instaladas nas máquinas industriais. Qual será a probabilidade de que exatamente 7 dessas
válvulas funcionem por mais de 1.000 horas, sem necessitar de manutenção?
Com uma válvula selecionada por funcionar (sucesso) ou não funcionar (fracasso),
podemos utilizar o modelo da distribuição de probabilidade binomial e, então, obter:
n = 12, x = 7, p = 68,75% = 0,6875 e q = 1 – p → q = 0,3125.
P(x) =
n!
x!� · � n� �x !�� � · px · qn – x → P(x) = 12!
7!�·� 12� �7 !�� � · 0,68757 · 0,312512 – 7 →
P(x) = 792 · 0,07259537... · 0,00298023... → P(x) = 0,17135004...
Transformando essa probabilidade, que está no formato unitário, para o forma-
to percentual, teremos: P(x) = 17,135004...%.
Resposta: a probabilidade de que exatamente 7 válvulas funcionem por mais
de 1.000 horas, sem necessidade de manutenção, é de 17,14%.
Mais um exemplo:
Considerando os dados do exemplo anterior, determine a média, a variância e o desvio padrão da distri-
buição binomial de probabilidades.
Os dados do exemplo anterior são:
• n = 12;
• x = 7;
• p = 68,75% = 0,6875;
• q = 1 – p → q = 0,3125.
Logo, aplicando as fórmulas dos parâmetros da distribuição de probabilidades
binomial, obtemos:
µ = E(x) = n · p → µ = 12 · 0,6875 → µ = 8,25
O valor da variância será determinado ao fazermos:
σ2(x) = n · p · q → σ2(x) = 12 · 0,6875 · 0,3125 → σ2(x) = 2,578125...
Assim, o valor do desvio padrão será:
σ(x) = σ2 → σ(x) = 2,578125... → σ(x) = 1,60565407...
Distribuições de probabilidades de variáveis aleatórias discretas 169
Resposta: o valor médio de válvulas que funcionam por mais de 1.000 horas é de
8,25 válvulas. A variância vale 2,58 válvulas2, e o desvio padrão é igual a 1,61 válvula.
Uma empresa possui em seu quadro de colaboradores 18 funcionárias do sexo feminino. Sabendo que
estatisticamente 10% das mulheres são canhotas, determine a probabilidade de que, do total de funcio-
nárias, exatamente 3 sejam canhotas.
Como só temos duas possibilidades: ser canhota (sucesso) e ser destra (fracasso),
podemos utilizar o modelo de probabilidade binomial para calcular a probabilida-
de desejada.
Desse modo, temos:
• n = 18;
• x = 3;
• p = 10% = 0,1;
• q = 1 – p → q = 0,9.
Logo:
P(x) = n!
x!�·� n� �x !�� � · px · qn – x → P(x) = 18!
3!�·� 18� �3 !�� � · 0,13 · 0,918 – 3 →
P(x) = 816 · 0,001 · 0,20589113... → P(x) = 0,16800716...
Transformando essa probabilidade, que está no formato unitário, para o forma-
to percentual, temos: P(x) = 16,800716...%.
Resposta: a probabilidade de que três das funcionárias sejam canhotas é de 16,8%.
Por fim, um último exemplo:
Considere uma população de pessoas adultas que sejam eleitoras e habitantes de determinado município
brasileiro. Com a intenção de enviar à Câmara Municipal um projeto para aprovação, o prefeito da cidade
resolveu antes consultar esse público para saber se eles são ou não favoráveis ao projeto em questão.
O prefeito recebeu a informação de que 65,84% das pessoas pesquisadas são favoráveis ao projeto. Caso,
antes da votação, os vereadores desejarem verificar se esse percentual está correto e forem às ruas perguntar
a 20 pessoas, que sejam eleitores e habitantes dessa mesma cidade, determine a probabilidade de que:
a) mais do que oito pessoas sejam favoráveis ao projeto.
b) exatamente oito pessoas sejam favoráveis ao projeto.
c) menos do que oito pessoas sejam favoráveis ao projeto.
d) pelo menos uma pessoa seja favorável ao projeto.
Ao ser questionada, uma pessoa, habitante do município e eleitora, pode res-
ponder que é favorável ao projeto (sucesso) ou não (fracasso). Desse modo, utiliza-
mos o modelo matemático de distribuição de probabilidade binomial.
170 Estatística e probabilidade: conceitos e aplicações
É importante percebermos que, entre os questionamentos, há expressões
como “pelo menos um” (“pelo menos dois” etc.) e “mais do que um” (“mais do que
dois” etc.). Assim, para facilitar o trabalho, calculamos todos os valores da variável
aleatória x que o problema exige.
Os dados fornecidos pelo enunciado são:
• n = 20;
• x = 0, 1, 2, 3, ..., 20;
• p = 65,84% = 0,6584;
• q = 1 – p → q = 0,3416.
P(x = 0) = 20!
0!�·� 20� � !�� �0
· 0,65840 · 0,341620 – 0 → P(x = 0) = 0,000000000468...
P(x = 1) = 20!
1!�·� 20� �1 !�� � . 0,65841 · 0,341620 – 1 → P(x = 1) = 0,000000018045...
P(x = 2) = 20!
2!�·� 20� �2 !�� � · 0,65842 · 0,341620 – 2 → P(x = 2) = 0,000000330411...
P(x = 3) = 20!
3!��·� 20� �3 !�� � · 0,65843 · 0,341620 – 3 → P(x = 3) = 0,000003821008...
P(x = 4) = 20!
4!��·�� 20� �4 !�� � · 0,65844 · 0,341620 – 4 → P(x = 4) = 0,0000312996054...
P(x = 5) = 20!
5!�·�� 20� �5 !�� � · 0,65845 · 0,341620 – 5 → P(x = 5) = 0,0001930459972...
P(x = 6) = 20!
6!��·� 20� �6 !�� � · 0,65846 · 0,341620 – 6 → P(x = 6) = 0,0009301923636...
P(x = 7) = 20!
7!��·�� 20� �7 !�� � · 0,65847 · 0,341620 – 7 → P(x = 7) = 0,0035857063945...
P(x = 8) = 20!
8!��·�� 20� �8 !�� � · 0,65848 · 0,341620 – 8 → P(x = 8) = 0,0112305247993...
P(x = 9) = 20!
9!��·�� 20� �9 !�� � · 0,65849 · 0,341620 – 9 → P(x = 9) = 0,0288609583444...
P(x = 10) = 20!
10!�·� 20� �10 !�� � · 0,658410 · 0,341620 – 10 → P(x = 10) = 0,061189287...P(x = 11) = 20!
11!�·� 20� �11 !�� � · 0,658411 · 0,341620 – 11 → P(x = 11) = 0,107214782...
P(x = 12) = 20!
12!�·� 20� �12 !�� �
· 0,658412 · 0,341620 – 12 → P(x = 12) = 0,154984366...
Distribuições de probabilidades de variáveis aleatórias discretas 171
P(x = 13) = 20!
13!�·� 20� �13 !�� � · 0,658413 · 0,341620 – 13 → P(x = 13) = 0,183825809...
P(x = 14) = 20!
14!��·� 20� �14 !�� �
· 0,658414 · 0,341620 – 14 → P(x = 14) = 0,177152976...
P(x = 15) = 20!
15!�·� 20� �15 !�� � · 0,658415 · 0,341620 – 15 → P(x = 15) = 0,136577891...
P(x = 16) = 20!
16!�·� 20� �16 !�� � · 0,658416 · 0,341620 – 16 → P(x = 16) = 0,082262591...
P(x = 17) = 20!
17!�·� 20� �17 !�� � · 0,658417 · 0,341620 – 17 → P(x = 17) = 0,037306578...
P(x = 18) = 20!
18!��·�� 20� �18 !�� � · 0,658418 · 0,341620 – 18 → P(x = 18) = 0,011984119...
P(x = 19) = 20!
19!��·� 20� �19 !�� � · 0,658419 · 0,341620 – 19 → P(x = 19) = 0,002431389...
P(x = 20) = 20!
20!��·�� 20� �20 !�� � · 0,658420 · 0,341620 – 20 → P(x = 20) = 0,000234313...
Observação: a soma de todas as probabilidades deve ser igual a 1 ou 100%.
Agora, respondendo aos itens solicitados:
a. Mais do que oito: significa x > 8; logo, somamos todas as probabilidades
obtidas, desde x = 9 até x = 20, o que resultará em:
P(x > 8) = 0,984025061... → P(x > 8) = 98,40%
b. Exatamente igual a oito: P(x = 8) = 0,011230525... → P(x = 8) = 1,12%.
c. Menos do que oito: significa x < 8; desse modo, somamos todas as probabilidades
obtidas, de x = 0 até x = 7, o que resultará em:
P(x < 8) = 0,004744414... → P(x < 8) = 0,47%
d. Pelo menos um seja favorável: significa que uma ou mais de uma pessoa deve
ser favorável. Assim, devemos apenas excluir a probabilidade de nenhuma
pessoa ser favorável ao projeto.
P(x = pelo menos uma pessoa favorável) = 1 – P(x = 0) →
P(x = pelo menos uma pessoa favorável) = 1 – 0,000000000468... →
P(x = pelo menos uma pessoa favorável) = 0,999999999532..., ou seja, pratica-
mente igual a 1. Logo, P(x = pelo menos uma pessoa favorável) = 100%.
Resposta: a probabilidade de que mais de oito pessoas sejam favoráveis ao
projeto é de 98,40%. A probabilidade de que exatamente oito pessoas sejam fa-
voráveis ao projeto é de 1,12%. Já a probabilidade de que menos de oito pessoas
sejam favoráveis ao projeto é de 0,47%. E a probabilidade de que pelo menos uma
pessoa seja favorável ao projeto é de 100%.
Para praticar mais as distribuições
de probabilidades binomiais,
acesse o QR code a seguir. Nele há
uma série de exercícios a respeito
desse conteúdo:
Já no QR code a seguir, você apren-
derá a calcular as distribuições de
probabilidades binomiais utilizando
o programa Microsoft Excel:
Na prática
172 Estatística e probabilidade: conceitos e aplicações
6.5.2 Distribuição de Poisson
Quando aparecer em uma distribuição de probabilidade binomial uma com-
binação em que a quantidade de termos for muito grande, tendendo ao infinito
(n → ∞), enfrentaremos, no mínimo, dificuldades no cálculo das probabilidades.
O matemático francês Denis Poisson nos ajuda nesse tipo de situação. Ele de-
duziu para esses casos um modelo matemático, que posteriormente recebeu seu
nome, com base no modelo da distribuição de probabilidade binomial, o qual se
tornou uma importante distribuição de probabilidade discreta.
A distribuição de Poisson é utilizada para descrever comportamentos de even-
tos que ocorrem ao longo de intervalos especificados, sendo que a variável alea-
tória em estudo indica o número de ocorrências do experimento. Além disso, são
requisitos:
• as ocorrências serem aleatórias;
• as ocorrências serem independentes umas das outras;
• as ocorrências serem uniformemente distribuídas no intervalo que estivermos trabalhando.
A fórmula matemática que permite realizar os cálculos do modelo matemático
de uma distribuição de Poisson é:
P(x|µ) = �
�x e
x
�·��
!
��
Em que:
• P(x|µ): probabilidade de x eventos ao longo do intervalo em questão, consi-
derando a média populacional igual a µ.
• x: número de eventos que se espera que ocorra durante o intervalo em
questão.
• µ: média ou número esperado de sucessos por unidade para o evento em
estudo.
• e: constante 2,718281828..., base do logaritmo natural (neperiano), também
chamada de número de Euler 1 .
Em uma distribuição de probabilidade de Poisson temos os seguintes
parâmetros:
• a média é dada por µ = E(x) = n · p;
• o desvio padrão é dado por σ(x) = µ → σ(x) = n�·�p.
Observação: a aproximação da distribuição de probabilidade de Poisson
em relação à distribuição de probabilidades binomial é aceitável quando
tivermos o valor de n ≥ 100 e o valor de µ ≤ 10, sendo µ = n · p.
Nk
/W
ik
im
ed
ia
C
om
m
on
s
Siméon Denis
Poisson (1781-1840) foi
um engenheiro e mate-
mático francês. O autor
publicou o estudo Pesquisa
sobre a probabilidade de
julgamentos em matéria
penal e civil: precedida de
regras gerais para o cálculo
de probabilidades (1837), no
qual aparece a famosa dis-
tribuição de Poisson, muito
aplicada em Estatística.
Biografia
Leonhard Paul Euler (1707-1783)
foi um matemático e físico suíço.
1
Distribuições de probabilidades de variáveis aleatórias discretas 173
Com vistas à aplicabilidade da distribuição de probabilidade de Poisson, vamos
resolver alguns exemplos:
A central de vendas de uma marca de eletrodomésticos recebe em média oito chamadas por hora para
informar as condições de venda de seus produtos. Determine a probabilidade de que em uma hora alea-
toriamente selecionada sejam recebidas por essa central exatamente cinco chamadas.
Os dados do problema são: µ = 8 e x = 5.
Aplicando o modelo matemático da distribuição de probabilidade de Poisson,
temos:
P(x|µ) = �
�x e
x
�·��
!
��
→ P(x = 5|µ = 8) = 8 �·�e
5!
5 �8−
→
P(x = 5|µ = 8) = 32 768�·�0,000335463...
120
. → P(x = 5|µ = 8) = 0,09160366... →
P(x = 5|µ = 8) = 9,16036616... %
Resposta: a probabilidade de a central de vendas receber exatamente cinco
chamadas em uma hora aleatoriamente selecionada é de 9,16%.
O controle de qualidade de uma fábrica de barbantes afirma que, normalmente, os rolos de barbante cru
número 8 possuem uma emenda a cada 150 metros. Sabendo que um rolo de 400 gramas possui 450
metros de barbante, determine a probabilidade de que um rolo aleatoriamente escolhido da linha de
produção tenha exatamente duas emendas.
Como é normal que cada rolo possua uma emenda a cada 150 metros, em um
rolo de 450 metros esperamos haver três emendas.
Desse modo, para determinar se um rolo escolhido aleatoriamente apresenta
duas emendas, realizamos o seguinte cálculo:
P(x|µ) = �
�x e
x
�·��
!
��
→ P(x = 2|µ = 3) = 3 �·��e
2!
2 �3−
→
P(x = 2|µ = 3) = 0,22404181... → P(x = 2|µ = 3) = 22,404181...%
Resposta: a probabilidade de que um rolo de barbante cru número 8, aleatoria-
mente escolhido da linha de produção, tenha exatamente duas emendas é de 22,4%.
Mais um exemplo:
O escritório de uma empresa necessita do serviço de tradução juramentada de determinado documento,
o qual deve ser enviado para outra empresa sediada no exterior. O trabalho consiste na tradução do
documento por palavras efetivamente digitadas, em páginas padronizadas de papel formato A4, com
25 linhas por página e espaçamento duplo. Um tradutor juramentado comete dois erros a cada 1.250
toques no teclado de seu computador, que, evidentemente, devem ser corrigidos posteriormente. Saben-
174 Estatística e probabilidade: conceitos e aplicações
do que o documento que precisa ser enviado ao exterior contém 6.800 toques no teclado, determine a
probabilidade de que, em uma primeira versão, sem correção, ocorram no máximo três erros.
Como o tradutor juramentado comete dois erros a cada 1.250 toques em seu
teclado, espera-se que em 6.800 toques ele cometa 10,88 erros (esse resultado é
obtido ao aplicar uma regra de três simples).
Em seguida, somamos as probabilidades obtidas ao determinar os valores para
x, variando de zero (0) a três (3):
• Para nenhum errocometido:
P(x|µ) = �
�x e
x
�·�
!
��
→ P (x = 0| µ = 10,88) = 10,88 �·�e
0!
�10,880 −
→
P(x = 0|µ = 10,88) = 0,0000188311...
• Para um erro cometido:
P(x|µ) = �
�x e
x
�·��
!
��
→ P(x = 1|µ = 10,88) = 10,88 �·��e
1!
1 �10,88−
→
P(x = 1|µ = 10,88) = 0,0002048825...
• Para dois erros cometidos:
P(x|µ) = �
�x e
x
�·��
!
��
→ P(x = 2| µ = 10,88) = 10,88 �·��e
2!
2 �10,88−
→
P(x = 2|µ = 10,88) = 0,0011145610...
• Para três erros cometidos:
P(x|µ) = �
�x e
x
�·��
!
�
→ P(x = 3| µ = 10,88) = 10,88 �·�e
3!
3 �10,88−
→
P(x = 3|µ = 10,88) = 0,0040421411...
Somando as probabilidades obtidas, temos:
P(x ≤ 3) = 0,0000188311... + 0,0002048825... + 0,0011145610... + 0,0040421411... →
P(x ≤ 3) = 0,00538041657... → P(x ≤ 3) = 0,538041657%...
Resposta: a probabilidade de que em uma primeira versão, sem correção, o
tradutor juramentado cometa no máximo três erros é de 0,54%.
Outro exemplo:
Estudos laboratoriais confirmam que a probabilidade de um paciente sofrer reação alérgica devido
à ingestão de determinado medicamento é de 0,25%. O farmacêutico responsável pela fabricação do
medicamento em questão selecionou 5.000 pacientes, os quais tiveram esse fármaco receitado. Se o
profissional escolher aleatoriamente quatro pacientes dentre os selecionados, qual a probabilidade de
eles apresentarem a reação alérgica ao medicamento?
É importante observarmos que o valor da média não foi fornecido no enunciado
do problema. Para determiná-lo e podermos, em seguida, aplicar a fórmula do mo-
delo matemático da distribuição de Poisson, fazemos:
Distribuições de probabilidades de variáveis aleatórias discretas 175
µ = n · p → µ = 5.000 · 0,0025 → µ = 12,5
Aplicando o modelo matemático da distribuição de probabilidade de Poisson
propriamente dito:
P(x|µ) = �
�x e
x
�·��
!
�
→ P(x = 4|µ = 12,5) = 12,5 �·��e
4!
4 �12,5−
→
P(x = 4|µ = 12,5) = 0,00379095... → P(x = 4|µ = 12,5) = 0,379095%...
Resposta: a probabilidade de os quatro pacientes escolhidos aleatoriamente
pelo farmacêutico apresentarem reação alérgica ao medicamento é de 0,38%.
Finalmente, um último exemplo:
Um equipamento costuma apresentar duas falhas por mês. Cada vez que isso ocorre, a assistência técnica
é acionada e um técnico é enviado para solucionar o problema. Supondo que a assistência técnica resolva
calcular o número esperado de vezes que terá que disponibilizar um técnico para consertar uma falha do
equipamento nos próximos 235 dias, qual seria esse número? Calcule também o desvio padrão.
Pelo enunciado do problema, devemos verificar a quantidade de falhas diárias,
pois a assistência técnica deseja calcular a média para 235 dias. Sabemos que o
equipamento apresenta duas falhas mensais, portanto, temos 2
30
�= 0 0666666, ...
falhas diárias.
O número de vezes esperado é a média. Para calculá-lo, fazemos:
µ = E(x) = n · p → = µ = 235 · 0,0666666... → µ = 15,6666666...
Já o valor do desvio padrão será obtido ao fazermos:
σ(x) = µ ou σ(x) = n�·�p → σ(x) = 15,6666666... → σ(x) = 3,95811403...
Resposta: nos próximos 235 dias, a assistência técnica deverá disponibilizar um
técnico 16 vezes (valor arredondado para número natural, pois não tem sentido ter
uma quantidade de falhas expressa por um número decimal), que é a quantidade de
vezes que o equipamento apresentará falhas. O valor do desvio padrão é de 4 falhas
(valor arredondado para número natural) em um período de 235 dias.
Para praticar mais o cálculo de
distribuições de probabilidades
de Poisson, acesse o QR code
a seguir. Nele há uma série
de exercícios a respeito desse
conteúdo:
Já no QR code a seguir, você
aprenderá a calcular distribuições de
probabilidades de Poisson utilizando
o programa Microsoft Excel:
Na prática
CONSIDERAÇÕES FINAIS
Iniciamos este capítulo com o estudo dos conceitos de variáveis aleatórias e de
variáveis aleatórias discretas. Em seguida, verificamos o que é uma distribuição de
probabilidades, com suas representações tabulares e gráficas.
Após, vimos os requisitos que transformam as distribuições de probabilidades em
funções de probabilidades. Entendemos também como obter as funções de probabi-
lidades acumuladas, bem como as suas representações.
Adiante, estudamos como proceder para calcular o valor esperado (a média), a
variância e o desvio padrão de uma variável aleatória discreta. Com isso, passamos
176 Estatística e probabilidade: conceitos e aplicações
ao estudo de duas distribuições discretas de probabilidades: binomial e de Poisson, e
seus respectivos modelos matemáticos.
Apesar de não terem sido estudados todos os tipos de distribuições de probabili-
dades discretas, abordamos os mais utilizados.
ATIVIDADES
1. Segundo determinado serviço de meteorologia, as probabilidades de chuva para o
próximo mês em uma cidade obedecem à seguinte distribuição:
• 8,7% de chance de não chover em nenhum dia do mês;
• 23,2% de chance de chover apenas em 1 dia do mês;
• 38,4% de chance de chover em 2 dias do mês;
• 29,7% de chance de chover em 3 dias do mês.
Com base nesses dados, determine o valor esperado de dias em que poderá
ocorrer chuva no próximo mês, na cidade em questão. Calcule também o valor da
variância e do desvio padrão da distribuição de probabilidades correspondente.
2. Com o objetivo de arrecadar fundos, uma instituição de caridade resolveu fazer
uma rifa. Para tanto, disponibilizou 2.500 bilhetes ao preço unitário de R$ 5,00. Os
prêmios ofertados são:
• 1º prêmio: R$ 1.000,00;
• 2º prêmio: R$ 500,00;
• 3º prêmio: R$ 250,00;
• 4º prêmio: R$ 100,00;
Se uma pessoa adquirir um único bilhete da rifa, qual é o valor esperado de seu ganho?
3. De acordo com a Agência Sebrae de Notícias (ASN) 2 , em uma publicação
realizada em 20 de julho de 2018, no Brasil, 72% das empresas do segmento de
pequenos negócios utilizam redes sociais para se comunicar com clientes. Caso
um consumidor escolha aleatoriamente 12 empresas pertencentes ao segmento
de pequenos negócios, qual é a probabilidade de 7 delas utilizarem redes sociais
para a comunicação com seus clientes?
4. Atualmente, os computadores são utilizados para as mais diversas tarefas no ambiente
profissional. Um mobiliário inadequado pode afetar a postura de funcionários que usam
por muito tempo esses equipamentos. Uma das consequências é o desenvolvimento
de uma lesão por esforço repetitivo, popularmente conhecida como LER.
Preocupado com a adequação do mobiliário adquirido para seus funcionários
trabalharem, o CEO, ou diretor executivo, de uma grande empresa contratou um
pesquisador, que selecionou 18 funcionários para fazerem parte de um estudo.
Com base nos dados coletados, qual a probabilidade de que pelo menos um dos
funcionários desenvolva a LER, sabendo que 23,5% das pessoas que trabalham
com computadores podem manifestar esse problema?
5. O processo de pintura industrial de diversas peças metálicas é denominado
e-coat (pintura por eletrodeposição), o qual consiste na pintura por imersão à base
de água. Suponha que em uma pintura possam aparecer no resultado 2 defeitos a
cada 750 peças. Qual é a probabilidade de que em 5.000 peças pintadas apareçam
5 delas com algum tipo de defeito?
Vídeo
Disponível em: http://www.
agenciasebrae.com.br/sites/asn/
uf/NA/mais-de-70-dos-peque-
nos-negocios-usam-redes-so-
ciais-como-ferramenta-de-ges-
tao,0b0624ba4b2b4610VgnV-
CM1000004c00210aRCRD. Acesso
em: 18 fev. 2021.
2
Distribuições de probabilidades de variáveis aleatórias discretas 177
6. Segundo um levantamento, o Centro de Operações da Polícia Militar do Estado de
São Paulo (Copom) recebe em média 35.000 chamados por dia. Da porcentagem
total de ligações, 20% são consideradas fraudulentas, isto é, consistem nos famosos
trotes. De posse dessas informações, determine a probabilidade de o Copom do
Estado de São Paulo receber, em determinado minuto de um dia, no máximo dois
chamados fraudulentos.
REFERÊNCIAS
AGÊNCIA Estado. Até 40% das ligações a emergências de SP são trotes.G1 São Paulo, São Paulo, 2 mar.
2008. Disponível em: http://g1.globo.com/Noticias/SaoPaulo/0,,MUL333916-5605,00-ATE+DAS+LIGACOES
+A+EMERGENCIAS+DE+SP+SAO+TROTES.html. Acesso em: 23 abr. 2021.
AGÊNCIA IBGE de Notícias. Em 2019, expectativa de vida era de 76,6 anos. Rio de janeiro, 26 nov. 2020.
Disponível em: https://agenciadenoticias.ibge.gov.br/agencia-sala-de-imprensa/2013-agencia-de-
noticias/releases/29502-em-2019-expectativa-de-vida-era-de-76-6-anos. Acesso em: 18 fev. 2021.
MARTINS, G. de. A.; DOMINGUES, O. Estatística geral e aplicada. 5. ed. São Paulo: Atlas, 2014.
PINHEIRO, J. et al. Probabilidade e Estatística: quantificando a incerteza. Rio de Janeiro: Elsevier, 2012.
TRIOLA, M. F. Introdução à Estatística. 10. ed. Rio de Janeiro: LTC, 2008.
178 Estatística e probabilidade: conceitos e aplicações
7
Distribuições de
probabilidades de variáveis
aleatórias contínuas
Nos estudos estatísticos, diversos experimentos dependem da seleção
aleatória de ocorrências. Além disso, há a impossibilidade de se trabalhar
com populações completas; é justamente por essa razão que se trabalha
com distribuições de probabilidades.
Já estudamos as distribuições de probabilidades de variáveis aleatórias
discretas. Precisamos agora estudar as distribuições de probabilidades de
variáveis aleatórias contínuas.
Assim, neste capítulo, vamos dar continuidade aos estudos das dis-
tribuições de probabilidades, associando-os ao emprego de variáveis
aleatórias contínuas e, como consequência dessa associação, estudos de
modelos estatísticos de distribuições de probabilidades contínuas.
7.1 Variável aleatória contínua
Vídeo Já vimos que uma variável é aleatória quando seu valor é obtido por inter-
médio de observações ou experimentos, e a cada valor estiver associada certa
probabilidade.
Se essa variável for numérica, ela pode ser denominada de variável aleatória
discreta. Isso ocorre quando se assume valores em pontos isolados ao longo de
uma escala (número finito ou infinito enumerável de valores), sendo seus valores
resultado de um processo de contagem. Esse tipo de variável aleatória e algumas
de suas distribuições de probabilidades já foram estudados.
Agora, precisamos saber que existe outro tipo de variável aleatória: as variá-
veis aleatórias contínuas, as quais, diferentemente das variáveis aleatórias discretas,
podem assumir qualquer valor que esteja situado ao longo de um intervalo de
valores, sendo normalmente fruto de processos de medição. Como exemplo, po-
demos citar a duração de tempo para ocorrência de um experimento, o valor de
temperatura, o valor do peso de alguém ou de algum objeto, a quantidade de litros
de leite que uma vaca produz etc.
Da mesma forma que as variáveis aleatórias discretas, as variáveis aleatórias
contínuas também possuem funções de probabilidade. É o que veremos a seguir.
Distribuições de probabilidades de variáveis aleatórias contínuas 179
7.2 Função de densidade de probabilidade
Vídeo Vamos considerar uma variável aleatória contínua X, definida sobre um espaço
amostral Ω. Segundo Devore (2006, p. 129, grifos do original):
A distribuição de probabilidade ou função de densidade de probabilida-
de (fdp) de X será então uma função f(x) tal que, para quaisquer dois números
a e b com a ≤ b,
P a X b f x dx
a
b
( � � � � )� ( )�� � � �
Isto é, a probabilidade de X ter um determinado valor no intervalo [a, b] é a
área contida entre o intervalo e abaixo da curva da função de densidade.
Se fizermos uma representação genérica dessa definição, obtemos:
Gráfico 1
Função de densidade de probabilidade da variável aleatória contínua X
f(x)
P(a ≤ x ≤ b) Função de densidade de X
0 a b x
Fonte: Elaborado pelo autor.
Como está demarcado no Gráfico 1, a probabilidade de ocorrência de um experi-
mento (evento) que seja determinado pela variável aleatória contínua X, que vai desde
o valor de x = a até o valor de x = b, ou seja, P(a ≤ x ≤ b), é o valor da área que se situa:
• abaixo da curva de densidade da função f(x);
• limitada à esquerda pela reta vertical que passa pela abscissa a (x = a);
• limitada à direita pela reta vertical que passa pela abscissa b (x = b);
• acima do eixo das abscissas, eixo x.
A função de densidade de probabilidade deve obrigatoriamente obedecer aos
seguintes requisitos:
I. f(x) ≥ 0, ∀ x ∈ ℝ
II.
��
�
� �
�
( )� � �f x dx 1
Não é nosso objetivo, mas é possível demonstrar que, para as funções de densida-
de de probabilidades de variáveis aleatórias contínuas, o valor esperado, a variância
e o desvio padrão são obtidos por intermédio das fórmulas matemáticas dadas por:
180 Estatística e probabilidade: conceitos e aplicações
I. Valor esperado: E x x f x dx
a
b
( )� � �·� ( ) �� �� ���
II. Variância: �2 2 2( )� � �·� ( ) � ( ) ( � � � � )� ( )x x f x dx E x P a X b f x
a
b
a
b
� �
�
�
� � �� �� � � �� � �� ( )� � �
�
dx f x dx
��
�
� �1
III. Desvio padrão:
� � �( )� � ( ) � � ( )� � �·� ( ) � ( )x x ou x x f x dx E x
a
b
� � �
�
�
� � �� ��
�
�
�
�
�
�
�2 2 2 ��
�
� � � �
��
�F x P X x F x f x dx
x
( )� � ( � � )� � ( )� ( )�
�
É também possível demonstrar que a função de distribuição acumulada, de-
notada por F(x), de uma função de densidade de probabilidades de variáveis alea-
tórias contínuas, é obtida ao fazer:
F x P X x F x f x dx
x
( )� � ( � � )� � ( )� ( )�
�
� � � �
��
�
Isto significa que, para cada valor de x, F(x) é a área abaixo da curva de densidade à
esquerda do valor de x. É possível visualizar esta afirmação nos gráficos a seguir:
Gráfico 2
Função de densidade de probabilidade f(x)
f(x)
F(5) = P(X ≤ 5)
0 5 x
Fonte: Elaborado pelo autor.
Gráfico 3
Função de densidade acumulada F(x) da variável aleatória contínua X
f(x)
F(5)
Função de distribuição acumulada
0 5 x
Fonte: Elaborado pelo autor.
Na maioria dos exemplos
vamos utilizar o cálculo
da integral de uma função
polinomial, que podemos
separar os termos do
polinômio e utilizar, para
resolvermos a integral, a re-
gra de integração da função
potência, que é dada por:
� �
�
� � �
�
x �dx �x
n
C �n� � �n�
n 1
1
1,
Se houver necessidade
de aplicar outras fórmulas
de integrais indefinidas,
você pode consultar livros
de cálculo ou consultar o
seguinte link:
https://pt.khanacademy.org/math/
calculus-home/integration-calc/
indefinite-integrals-of-common-func-
tions-calc/a/common-integrals-re-
view. Acesso em: 4 jan. 2021.
Importante
https://pt.khanacademy.org/math/calculus-home/integration-calc/indefinite-integrals-of-common-functions-calc/a/common-integrals-review
https://pt.khanacademy.org/math/calculus-home/integration-calc/indefinite-integrals-of-common-functions-calc/a/common-integrals-review
https://pt.khanacademy.org/math/calculus-home/integration-calc/indefinite-integrals-of-common-functions-calc/a/common-integrals-review
https://pt.khanacademy.org/math/calculus-home/integration-calc/indefinite-integrals-of-common-functions-calc/a/common-integrals-review
https://pt.khanacademy.org/math/calculus-home/integration-calc/indefinite-integrals-of-common-functions-calc/a/common-integrals-review
Distribuições de probabilidades de variáveis aleatórias contínuas 181
Para entendermos melhor, vamos resolver alguns exemplos a seguir.
Comprove que a função f(x) =
x
18
, com 0 ≤ x ≤ 6 representa uma função de densidade de probabili-
dade. Em seguida, calcule o valor esperado, a variância, o desvio padrão e esboce o gráfico representativo
dessa função.
Para comprovar que a função dada é uma função densidade de probabilidade,
é necessário calcular a integral definida da função com os limites de integração
indicados e o resultado deve ser igual a 1. Assim:
a
b
f x dx x dx x dx� � �� � � � � �( )� � � � � � � � � �·� � � � � � �·�1
18
1 1
18
1 1
18
0
6
0
6 xx2
2
6
0
1
�
�
��
�
�
�� � �� � �
� �· � � � �·� � � � � � � .1
18
6
2
0
2
1 1
18
18 1 1 1
2 2
�
�
�
��
�
�
�� � � � � �
Como obtivemos uma igualdade (1 = 1), comprovamos que se trata de uma fun-ção de densidade de probabilidade.
Calculando o valor esperado:
E x x f x dx E x x x dx E x
a
b
( )� �·� ( ) � � � ( )� �· � � � ( )� �� �� � �
�
�
�
�
�
� �� �
0
6
18
�� � �·� � � �� ��
1
18
0
6
2x dx
E x x E x E( )� �.� � � ( )� �. � (�
�
�
��
�
�
�� � � �
�
�
��
�
�
�� �
1
18 3
6
0
1
18
6
3
0
3
3 3 3
xx E x)� �·� � � ( )� � .� � �
1
18
72 4
O valor esperado (a média) é igual a 4.
Calculando o valor da variância:
� �2 2 2 2
0
6
2
1
( )� � �·� ( ) � ( ) � � ( )� � �·�x x f x dx E x x x x
a
b
� �
�
�
� � �� �� � �� � 88
4 2�
�
�
�
�
� � �� �� �� �dx
� �2
0
6
2 2 2
0
6
3
18
4 1
18
( )� � �·� � � � ( )� � �· �x x x dx x x d�
�
�
�
�
�
� � �� �� � �� � xx� � �� �16
� ( )� � �· � � � ( )� � �·� �2
4
2
4 41
18 4
6
0
16 1
18
6
4
0
4
x x x�
�
�
��
�
�
�� � � � �
�
�
��
��
�
�� � �16� �
� ( )� � �.� � � � ( )� � �� � ( )� � .� � �2 2 21
18
324 16 18 16 2x x x� � � � � � �
O valor da variância é igual a 2.
Agora, calculando o desvio padrão:
� � � �( )� � ( ) � � ( )� � �� � ( )� � , ...x x x x� � � � �2 2 1 41421356
O valor do desvio padrão é 1,41 (arredondado para dois algarismos significativos).
Por fim, o esboço gráfico da função é:
182 Estatística e probabilidade: conceitos e aplicações
f(x)
0 6 x
P(0 ≤ x ≤ 6) = 1
Resposta: a função dada no intervalo especificado é de densidade de probabili-
dade, cujo valor esperado é igual a 4. A variância vale 2 e o desvio padrão vale 1,41,
com valores arredondados para dois algarismos significativos.
Mais um exemplo:
Comprove que a função f(x) = 2x – 2, com 1 ≤ x ≤ 2 representa uma função de densidade de probabili-
dade. Em seguida, calcule o valor esperado, a variância, o desvio padrão e esboce o gráfico representativo
dessa função.
Para verificar se a função é de densidade de probabilidade, fazemos:
a
b
f x dx x dx xdx dx� � � �� � � � � � �( )� � � � ( )� � � � � �. � �· � �1 2 2 1 2 2 1
1
2
1
2
1
2
��
2
2
2
1
2
2
1
1 2 2
2
1
2
2 2
2 2 2
�· � �·� � � � � �·� �·�(x x
�
�
��
�
�
�� � � � �
�
�
��
�
�
�� � �� � �1 1)� � � �
2 2 1
2
2 1 1 3 2 1 1 1�·� � �·� � � � � � � � � � � .�
�
�
�
�
�
�� � � � � � �
Como obtivemos a igualdade 1 = 1, trata-se de uma função de densidade de
probabilidade.
Calculando o valor esperado:
E x x f x dx E x x x dx E x
a
b
( )� �·� ( ) � � � ( )� �· � � � (� �� �� � � �� ��� �� �� �
1
2
2 2 ))� � � �� �� � ��
1
2
22 2x x dx
E x x dx xdx E x x( )� � �· � � � � � ( )� � �·� �� � � �
�
�
��
�
�
�� �� �2 2 2
3
2
1
2
1
2
2
1
2 3
·· �x2
2
2
1
�
�
��
�
�
�� �
E x E x( )� � �· �·� � ( )� � �·�� �
�
�
��
�
�
�� � �
�
�
��
�
�
�� � �2 2
3
1
3
2 2
2
1
2
2
3 3 2 2 88
3
1
3
2 2 1
2� �
� � �·� ��
�
�
�
�
�
� � �
�
�
�
�
�
��
E x E x E x( )� � �·
� �
�·� � � ( )� �
� �
� � ( )��
�
�
�
�
�
� �
�
�
�
�
�
�� � � �2 7
3
2 3
2
14
3
3 �� � ��
� �
� � ( )� � , ...�5
3
1 6666666E x
O valor esperado é igual a 1,67 (arredondado para dois algarismos significativos).
Distribuições de probabilidades de variáveis aleatórias contínuas 183
Calculando o valor da variância:
� �2 2 2 2
1
2
2 2( )� � �·� ( ) � ( ) � � ( )� � �·�x x f x dx E x x x x
a
b
� �
�
�
� � �� �� � �� � ��� ��
�
�
� �
�
�
�
�
�
� �2 5
3
2
�
� �
�dx
� �2
1
2
3 2 2
1
2
3
1
2
2 2 25
9
2 2( )� � �
� �
� � ( )� � �·� � � �x x x dx x x dx� �� � � � � �� � �� � �x dx2 25
9
�
� �
� �
� ( )� � �·� �· �
� �
��2
4 3
2
4
2
1
2
3
2
1
25
9
x x x
�
�
�
��
�
�
�� �
�
�
��
�
�
�� � �
� ( )� � �· �·�
� �
��2
4 4 3 3
2 2
4
1
4
2 2
3
1
3
25
9
x � �
�
�
��
�
�
�� � �
�
�
��
�
�
�� � �
� ( )� � �·� �·� � � � � �
� �
� � (� �2 22 16
4
1
4
2 8
3
1
3
25
9
x � �
�
�
�
�
�
� � �
�
�
�
�
�
�� � xx)� � �·� �·�� ��
� �
�� � � �2 15
4
2 7
3
25
9
� ( )� � � �
� �
� � ( )� � � � ( )� �� � �2 2 215
2
14
3
25
9
135 84 50
18
1x x x� � � � �
� �
� �
118
��
� ( )��2 x � 0 5555555, ...
O valor da variância é igual a 0,56 (arredondado para dois algarismos
significativos).
Calculando o desvio padrão:
� � � �( )� � ( ) � � ( )� � �� � ( )� � , ...x x x x� � � � �2 1
18
0 23570226
O valor do desvio padrão é 0,24 (arredondado para dois algarismos significati-
vos).Por fim, o esboço gráfico da função é:
f(x)
0 1 2 x
P(1 ≤ x ≤ 2) = 1
Resposta: a função no intervalo especificado é de densidade de probabilidade,
cujo valor esperado é igual a 1,67. A variância vale 0,56 e o desvio padrão vale 0,24,
com valores arredondados para dois algarismos significativos.
Por fim, um último exemplo:
Comprove que a função f(x) = 12 · x · (1 – x)2, no intervalo [0, 1], representa uma função de densidade
de probabilidade. Em seguida, calcule o valor esperado, a variância, o desvio padrão e esboce o gráfico
representativo dessa função.
184 Estatística e probabilidade: conceitos e aplicações
Em primeiro lugar, vamos realizar as operações matemáticas que aparecem
na função f a fim de torná-la mais simples para, então, fazermos o processo de
integração:
f(x) = 12 · x · (1 – x)2 → f(x) = 12 · x · (1 – 2x + x2) →
f(x) = 12x – 24x2 + 12x3
Para comprovarmos que a função é de densidade de probabilidade no intervalo
citado, devemos realizar o processo de integração para obtermos como resultado
o valor 1. Para tanto:
a
b
f x dx x x x dx� �� � � � � �( )� � � � ( � � )� � � �1 12 24 12 1
0
1
2 3
12 24 12 1
0
1
0
1
2
0
1
3�· � �· � � �· � � �� � �� � � �xdx x dx x dx
12
2
1
0
24
3
1
0
12
4
1
0
2 3 4
�· � �· � � �· �x x x�
�
��
�
�
�� �
�
�
��
�
�
�� �
�
�
��
�
�
�� ��� � ��1�
12 1
2
0
2
24 1
3
0
3
12 1
4
0
4
2 2 3 3 4 4
�· �· � �·�
�
�
��
�
�
�� � �
�
�
��
�
�
�� � �
�
�
��
�
�
��� � � � � � � �� � � � � � � � � � � .�1 6 8 3 1 1 1
Como obtivemos resultado igual a 1, trata-se de uma função de densidade de
probabilidade.
Agora, vamos calcular o valor esperado:
E x x f x dx E x x x x x
a
b
( )� �·� ( ) � � � ( )� · � �� �� �� � � � �� ��
��� �
0
1
2 312 24 12 ��
��
�� �dx
E x x x x dx( )� � � � � ��� � �� � ��
0
1
2 3 412 24 12
E x x dx x dx x dx( )� � �· � �· � � �· � �� � � �� � �12 24 12
0
1
2
0
1
3
0
1
4
E x x x x( )� � �· �· � � �·�
�
�
��
�
�
�� �
�
�
��
�
�
�� �
�
�
��
�
�
12
3
1
0
24
4
1
0
12
5
3 4 5
��� �
1
0
� �
E x( )� � �· �· � �·� �
�
�
��
�
�
�� � �
�
�
��
�
�
�� � �12 1
3
0
3
24 1
4
0
4
12 1
5
03 3 4 4 5 5
55
4 6 12
5
�
�
��
�
�
�� � � � � �� ( )� � �E x
E x E x E x( )� � � � � ( )� � �� � �( )� � , .�
� �
� � � �
20 30 12
5
2
5
0 4
Determinando o valor da variância:
�2 2 2( )� � �·� ( ) � ( ) � ��x x f x dx E x
a
b
� �
�
�
� � �� �� ��
�2
0
1
2 2 3
2
12 24 12 2
5
( )� � �·� � � �
� �
�x x x x x dx� � �� ��
��
�
��
�
�
�
�
�
�
�
�
Distribuições de probabilidades de variáveis aleatórias contínuas 185
�2
0
1
3 4 512 24 12 4
25
( )� � � � �
� �
�x x x x dx� � �� � � ��
�2
0
1
3
0
1
4
0
1
512 24 12 4
25
( )� � �· � �· � � �· �
� �
�x x dx x dx x dx� � � � �� � �
�2
4 5 6
12
4
1
0
24
5
1
0
12
6
( )� � �· �· � � �·x x x x
�
�
�
��
�
�
�� �
�
�
��
�
�
�� �
�
�
��
�
��
�� � �
1
0
4
25� �
�
�2
4 4 5 5 6
12 1
4
0
4
24 1
5
0
5
12 1
6
( )� � �·� �· � �·x � �
�
�
��
�
�
�� � �
�
�
��
�
�
�� � �
00
6
4
25
6�
�
��
�
�
�� � �
� �
�
� � �2 2 23 24
5
2 4
25
75 120 50 4
25
( )� �
� �
� �
� �
� � ( )� � � �
� �
� �x x� � � � � �
� � �
� (( )�
� �
�x � �
1
25
�2 0 04( )� � , .x �
Realizando o cálculo do desvio padrão:
� � � �( )� � �( ) � � ( )� � , �� � ( )� � , .x x x x� � � � �2 0 04 0 2
Por fim, o esboço gráfico da função é:
f(x)
0 1 x
P(0 ≤ x ≤ 1) = 1
Resposta: a função dada no intervalo especificado é de densidade de probabili-
dade, cujo valor esperado é igual a 0,4. A variância vale 0,04 e o desvio padrão vale
0,2.
Como este tópico envolve cálculos de integrais definidas, é muito conveniente
praticar bastante para adquirir segurança ao trabalhar com estes conteúdos.
Parapraticar mais o cálculo
de funções de densidade de
probabilidade de variáveis
aleatórias contínuas, acesse o QR
Code a seguir. Nele há uma série de
exercícios sobre esse conteúdo:
Na prática
7.3 Distribuições contínuas de probabilidade
Vídeo Existem inúmeras distribuições contínuas de probabilidade, muitas das quais
devido à sua importância e à sua constante utilização geraram modelos matemáti-
cos denominados de modelos probabilísticos contínuos.
Podemos citar, entre os inúmeros existentes, os dispostos a seguir. A gran-
de maioria dos autores (que concordamos) os denomina de distribuições de
probabilidade:
186 Estatística e probabilidade: conceitos e aplicações
Distribuição uniforme
Distribuição de Weibull
Distribuição t de Student
Distribuição de Cauchy
Distribuição normal
Distribuição gama
Distribuição F de Snedecor
Distribuição exponencial
Distribuição qui-quadrado
Distribuição beta
Não estudaremos todas essas distribuições, mas vamos nos ater ao estudo
das distribuições uniforme, normal e exponencial, que são as mais utilizadas e
importantes.
7.3.1 Distribuição uniforme
Dizemos que uma variável aleatória contínua X tem distribuição uniforme no
intervalo [a, b], um intervalo finito, se sua função de densidade de probabilidade é
constante nesse intervalo, ou seja, devemos ter:
f(x) = k, ∀ x ∈ [a, b]
De acordo com Triola (2008, p. 195, grifos do original), “uma variável aleatória
contínua tem uma distribuição uniforme se seus valores se espalham uniforme-
mente sobre a faixa de valores possíveis. O gráfico de uma distribuição uniforme
resulta em uma forma retangular”. Logo, a representação gráfica é:
Distribuições de probabilidades de variáveis aleatórias contínuas 187
a b x
f(x)
0
P(a ≤ x ≤ b) = 1
k
Para que essa função seja de densidade de probabilidade, tem-se k > 0 e a área
do retângulo deve ser igual a 1, ou seja:
(b – a) · k = 1 → k = 1
b a� �−
Logo, a função de densidade de probabilidade de uma variável aleatória unifor-
me no intervalo [a, b] é dada por:
f(x) = 1
b a� �−
, se x ∈ [a, b]
Os valores a e b são denominados de parâmetros da distribuição uniforme e am-
bos devem ser finitos para que a área do retângulo seja igual a 1. Se a = 0 e b = 1,
temos a função uniforme denominada de distribuição uniforme padrão, denotada
normalmente por u(0, 1).
A função de densidade de probabilidade uniforme acumulada é dada por f(x) =
P(X ≤ x), cuja probabilidade é dada pela área sob a curva de densidade de probabi-
lidade à esquerda de x, conforme pode ser visto a seguir:
a b x
f(x)
0 x
b – a
1
A área demarcada é equivalente à área de um retângulo que possui como base
o valor de (x – a) e como altura o valor de 1
b a� �−
. Logo, podemos afirmar que a fun-
ção será dada por: f x
sex a
x a
b a
sea x b
sex b
( )� �
,� � � �
� �
� �
,� � � � � �
,� � � �
�
�
�
�
� �
�
�
�
�
�
�
0
1
��
�
, cujo gráfico é:
188 Estatística e probabilidade: conceitos e aplicações
a b x
f(x)
0
1
Na distribuição uniforme padrão u[0, 1], temos que f x
sex
x se x
sex
( )� �
,� � � �
,� � � � � �
,� � � �
�
�
� �
�
�
�
�
�
�
0 0
0 1
1 1
Em qualquer distribuição de probabilidade uniforme, temos:
I. Valor esperado: E x a b( )� � � �
�
�
2
II. II. Variância: �2
2
12
( )� �x
a b
�
�� �
III. Desvio padrão: � � �( )� � �( ) � � ( )� �x x ou x
a b
� �
�� �2
2
12
Os exemplos a seguir mostram como é o trabalho com distribuições de proba-
bilidades uniformes.
A dureza de uma peça de cerâmica é proporcional ao tempo de queima e apresenta uma distribuição
uniforme entre 0 e 10. Se a dureza de uma peça de cozinha deve estar entre 5 e 9, qual é a probabilidade
de uma peça escolhida ao acaso ser adequada ao uso na cozinha?
Pelo enunciado do exemplo, temos que: a = 0 e b = 10.
Assim: k = 1
b a� �−
→ k =
1
10 0
1
� � � �− −b a
→ k = 1
10
1
10 0� �−
∴ k = 0,1.
Ao representarmos a probabilidade que o exemplo determina que seja calcula-
da, temos:
5 9 10 x
f(x)
0
0,1
P(5 ≤ x ≤ 9)
Distribuições de probabilidades de variáveis aleatórias contínuas 189
A probabilidade procurada é dada pelo valor da área que está em destaque na
representação gráfica. Assim, temos:
P(5 ≤ X ≤ 9) = (9 – 5) · 0,1 → P(5 ≤ X ≤ 9) = 4 · 0,1 → P(5 ≤ X ≤ 9) = 0,4 ∴
P(5 ≤ X ≤ 9) = 40%.
Resposta: a probabilidade de a peça escolhida ser adequada ao uso na cozinha
é de 40%.
Mais um exemplo:
Uma madeireira corta madeiras em formato de toras. O comprimento das toras varia uniformemente de
80 cm a 1,50 m. De posse desses dados, determine a probabilidade de uma tora escolhida ao acaso ter:
a) Comprimento maior que 1 m.
b) Comprimento variando de 1,15 m a 1,35 m.
c) Comprimento exato de 1,30 m.
Em seguida, também responda:
d) Se 1.200 toras forem cortadas, qual é o número esperado de toras com comprimento maior que
1,15 m?
e) Qual é o tamanho médio das toras e o valor do desvio padrão das toras cortadas por essa madeireira?
f) Sabendo que 90% das toras apresentam no máximo comprimento de k cm, determine o valor de k.
Primeiro vamos calcular o valor de k:
k = 1
b a� ��
� → k = 1
150 80
1
� � � �− −b a
→ k = 1
70
→ k = 0,014285714
Se os comprimentos das toras variam uniformemente de 80 cm a 150 cm, po-
demos afirmar que a variável aleatória contínua X (comprimento das toras) possui
uma função de densidade de probabilidade f(x) igual a:
f x
sex a b
b a
sex a b
f x( )�
,� � � � ,�
� �
,� � � � ,�
( )��
��� ��
�
��� ��
�
�
�
�
�
�
0
1 ��
��� ��
��� ��
�
�
�
�
�
0 80 150
1
70
80 150
,� � � � ,�
,� � � � ,�
sex
sex
Agora, respondendo aos itens solicitados:
a. Cálculo da probabilidade de uma tora escolhida ao acaso ter comprimento
maior que 1 m:
Essa probabilidade é obtida ao fazermos:
P(X ≥ 100) = (150 – 100) · 0,014285714 → P(X ≥ 100) = 50 · 0,014285714 →
P(X ≥ 100) = 0,714285715 ∴ P(X ≥ 100) = 71,43%.
b. Cálculo da probabilidade de uma tora escolhida ao acaso ter comprimento
variando de 1,15 m a 1,35 m:
P(115 ≤ X ≤ 135) = (135 – 115) · 0,014285714 →
P(115 ≤ X ≤ 135) = 20 · 0,014285714 → P(115 ≤ X ≤ 135) = 0,285714286 ∴
190 Estatística e probabilidade: conceitos e aplicações
P(115 ≤ X ≤ 135) = 28,57%.
c. Cálculo da probabilidade de uma tora escolhida ao acaso ter comprimento
exatamente de 1,30 m:
P(X = 130) = (130 – 130) · 0,014285714 → P(X = 130) = 0 · 0,014285714 →
P(X = 130) = 0 ∴ P(X = 130) = 0%.
É importante perceber que não existe a possibilidade de ter uma tora com com-
primento exatamente igual a 1,30 m se considerarmos apenas essa medida. Para
obtermos uma tora com 1,30 m, devemos considerar a espessura da serra que irá
realizar o corte e, então, calcular a probabilidade. Se estivermos operando um ma-
quinário com uma serra de espessura 1,5 mm, é preciso calcular a probabilidade
utilizando para valor de a = 130 cm e para valor de b = 130,15 cm.
d. Cálculo da probabilidade de uma tora escolhida ao acaso ter comprimento
maior que 1,15 m:
P(X ≥ 115) = (150 – 115) · 0,014285714 → P(X ≥ 115) = 35 · 0,014285714 →
P(X ≥ 115) = 0,50 ∴ P(X ≥ 115) = 50%.
Como a probabilidade de uma tora escolhida ao acaso ser maior que 1,15 m é
de 50%, em 1.200 toras teremos: 1.200 · 50% = 600 toras.
e. Determinação do tamanho médio das toras, e o valor do desvio padrão das
toras cortadas por essa madeireira:
µ = E(X) = a b� �+
2
→ µ = E(X) = 150 80
2 2
� � � �� �
�
a b µ = E(X) = 115 cm.
� � �( )� � � ( )� � � � ( )� � , ..x
a b
x x�
�� �
� �
�� �
� �
2 2
12
150 80
12
20 20725942 ..� .cm
f. Sabendo que 90% das toras apresentam no máximo k cm, para determinar o
valor de k, fazemos:
P(x < k) = 90% → P(x < k) = 0,9 → área do retângulo = 0,9 →
base · altura = 0,9
Então: (k – 80) · 0,014285714 = 0,9 → k – 80 = 0 9
0 014285714
,
, ...
→
k = 62,99999... + 80 → k = 142,99999... → k = 143 cm.
Resposta:a probabilidade de uma tora, escolhida ao acaso, ter mais do que 1 m
(100 cm) é de 71,43%. A probabilidade de uma tora, escolhida ao acaso, ter entre
1,15 m e 1,35 m é de 28,57%. Já a probabilidade de uma tora, escolhida ao acaso, ter
exatamente 1,30 m é de 0%. O número esperado de toras que ultrapassem 1,15 m é
de 600 toras, e o tamanho médio das toras produzidas pela madeireira é de 1,15 m,
com desvio padrão de 20,21 cm. Por fim, o valor de k procurado é de 1,43 m.
7.3.2 Distribuição normal
A distribuição de probabilidade denominada distribuição normal 1 , também co-
nhecida por distribuição Gaussiana, é uma distribuição contínua que é simétrica em
Para praticar mais a distribuição
uniforme, acesse o QR Code a
seguir. Nele há uma série de
exercícios sobre esse conteúdo:
Na prática
Essa distribuição foi “deduzida
por De Moivre, em 1763, como
forma limite da Binomial e foi
posteriormente redescoberta
por Laplace (1774) e por Gauss
(1809)” (MARTINS; DOMINGUES,
2014, p. 99).
1
Distribuições de probabilidades de variáveis aleatórias contínuas 191
relação à média, e mesocúrtica e assintótica em relação ao eixo das abscissas em
ambas as direções. A função de densidade de uma distribuição normal apresen-
ta uma forma característica, em forma de sino, sendo conhecida como curva de
Gauss.
De acordo com Martins e Domingues (2014, p. 99), “a função densidade
de probabilidade de uma variável X com distribuição normal é dada por f(x) =
1
2
1
2
2
� �
�
��
�
� �
� �
e
x
�
��
�
�
�
�
�
”.
Nessa função, temos que:
• –∞ < x < ∞;
• σ = desvio padrão da distribuição;
• π = 3,14159...
• e = constante de Euler, base do sistema de logaritmos naturais que vale
2,71828183...
• µ = média da distribuição.
Qualquer função de densidade de probabilidade de uma distribuição normal
sempre apresenta ordenadas positivas, f(x) > 0, e possui área sob a curva de densi-
dade, sendo os limites de integração ± ∞ iguais a um (1), ou seja:
P x f x dx��� ��� �� �
��
�
�� � � � � ( )� � �
�
1
Convém lembrarmos que o valor esperado (a esperança matemática) de uma
distribuição normal é igual à média da distribuição, isto é, E(X) = µ.
Se na função de densidade de probabilidade de uma distribuição normal fizer-
mos o valor da média ser igual a zero e o do desvio padrão ser igual a 1 (um), temos
o que é denominado de distribuição normal padrão, cuja representação gráfica é:
0 x
f(x)
É possível verificarmos nessa representação gráfica que a curva de densidade
de probabilidade de uma distribuição normal admite um único valor máximo para
a ordenada. Esse valor corresponde à abscissa da média populacional, que nessa
representação é igual a zero (µ = 0).
assintótica: uma curva
assintótica nunca cruza o eixo das
abscissas (eixo x) passando para a
parte negativa das ordenadas, isto
é, nem chega a encostar nesse eixo.
Glossário
192 Estatística e probabilidade: conceitos e aplicações
Além dessa observação, é importante e oportuno fazermos mais alguns
comentários.
I. As medidas resultantes de diversos processos de medição aleatória seguem esse tipo de distribui-
ção de probabilidade.
II. As probabilidades normais podem ser utilizadas frequentemente como aproximações de outras
distribuições de probabilidade, por exemplo, a distribuição binomial e a distribuição de Poisson.
III. Como as demais distribuições contínuas de probabilidade, o valor da probabilidade de uma ocor-
rência somente pode ser determinado se houver um intervalo de valores da variável em estudo.
IV. A distribuição normal é “simétrica em relação à média. Logo, 50% das observações de X estará
abaixo da média, e 50% acima. Assim: média = mediana = moda” (MARTINS; DOMINGUES, 2014,
p. 99).
Como a função de densidade de probabilidade normal depende do valor da
média populacional e do desvio padrão populacional, existem muitas possibilida-
des de distribuições normais diferentes, pois a cada um desses valores haverá uma
distribuição normal diferente.
O que podemos perceber é que o valor da média populacional faz com que a cur-
va de densidade se desloque sobre o eixo das abscissas (eixo x). Já o valor do desvio
padrão faz com que a curva de densidade fique mais alongada ou mais achatada.
Observe as representações a seguir:
0 x
f (x)
µ = –1 e σ = 2,5
µ = 0 e σ = 1
µ = 2 e σ = 1,5
Para determinar o valor da probabilidade entre dois valores de uma variável
aleatória contínua, como já sabemos, é necessário calcular o valor da integral de-
finida cujos limites de integração são esses valores. Essa consideração também
continua válida para uma distribuição de probabilidade normal, ou seja:
P a x b e dx
a
b x
� � � � � �
�
� �
� �
� �� �� �
�
��
�
�
�
�
�1
2
1
2
2
� �
�
�
Ao observar essa integral definida, percebemos que essa resolução não é uma
tarefa fácil e simples – e não é nosso objetivo explicar os procedimentos para
Distribuições de probabilidades de variáveis aleatórias contínuas 193
calculá-la. Felizmente esse problema foi contornado com a utilização de uma trans-
formação de variáveis.
A transformação mais utilizada é obtida ao fazermos uma transformação linear
da variável aleatória X para a variável aleatória z:
z = X� ���
�
Em que:
• X = representa o valor da variável independente;
• µ = representa a média populacional da variável;
• σ = representa o desvio padrão da variável.
Com essa transformação, passamos a ter:
f z e z
z
� �� ��� ��
�
� � � ,� � � � �
��
� �1
2
2
2
� �
Essa continua a ser uma distribuição normal com média igual a zero e desvio
padrão igual a um. Os valores z assim obtidos são denominados de valores z ou
escores z.
Se tivermos esses valores no lugar de calcular P(a < x < b), é necessário calcu-
lar P(z1 < z < z2). A vantagem de realizarmos essa transformação é que os valores
padronizados z são tabelados. Existem várias tabelas de valores padronizados z, a
Tabela 1 é uma das mais utilizadas, que indicam os valores da probabilidade entre
z = 0 e outro valor de z positivo, ou seja, P(0 < z < z1).
Tabela 1
Áreas de uma distribuição normal padrão
Cada casa na tabela dá a proporção sob a curva inteira entre Z = 0 e um valor positivo de Z.
As áreas para os valores de Z negativos são obtidos por simetria
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586
0,1 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535
0,2 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409
0,3 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173
0,4 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793
0,5 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240
0,6 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490
0,7 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524
0,8 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327
0,9 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891
1,0 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214
(Continua)
194 Estatística e probabilidade: conceitos e aplicações
Cada casa na tabela dá a proporção sob a curva inteira entre Z = 0 e um valor positivo de Z.
As áreas para os valores de Z negativos são obtidos por simetria
1,1 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298
1,2 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147
1,3 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774
1,4 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189
1,5 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408
1,6 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053