Prévia do material em texto
Autora: Profa. Fabíola Mariana Aguiar Ribeiro
Colaboradores: Prof. Angel Antonio Gonzalez Martinez
Profa. Christiane Mazur Doi
Prof. Jose Carlos Morilla
Profa. Larissa Rodrigues Daminiani
Estatística
Professora conteudista: Fabíola Mariana Aguiar Ribeiro
É graduada em Física com habilitação em Astronomia pela Universidade de São Paulo (2001).
É doutora em Astrofísica pela mesma universidade (2006). Em 2009, mudou seu enfoque de
pesquisa para o ensino, ministrando disciplinas para o ciclo básico do Curso de Engenharia na
Universidade Paulista (UNIP), como: Mecânica da Partícula, Cálculo com Geometria Analítica,
Tópicos de Informática, Estática dos Fluidos, Fenômenos de Transporte, Complementos de Física,
Programação de Computadores e Cálculo de Funções de Várias Variáveis. Desde 2009, integra
também a equipe da Comissão de Qualificação e Avaliação (CQA) da UNIP, elaborando e revisando
materiais didáticos e de apoio de diversos cursos, além de realizar a tabulação de resultados de
avaliações internas e externas.
© Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou
quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem
permissão escrita da Universidade Paulista.
Dados Internacionais de Catalogação na Publicação (CIP)
R484e Ribeiro, Fabíola Mariana Aguiar.
Estatística / Fabíola Mariana Aguiar Ribeiro. – São Paulo: Editora
Sol, 2023.
212 p., il.
Nota: este volume está publicado nos Cadernos de Estudos e
Pesquisas da UNIP, Série Didática, ISSN 1517‑9230.
1. Variáveis. 2. Medidas. 3. Probabilidade. I. Título.
CDU 519.2
U517.13 – 23
Profa. Sandra Miessa
Reitora
Profa. Dra. Marilia Ancona Lopez
Vice-Reitora de Graduação
Profa. Dra. Marina Ancona Lopez Soligo
Vice-Reitora de Pós-Graduação e Pesquisa
Profa. Dra. Claudia Meucci Andreatini
Vice-Reitora de Administração e Finanças
Prof. Dr. Paschoal Laercio Armonia
Vice-Reitor de Extensão
Prof. Fábio Romeu de Carvalho
Vice-Reitor de Planejamento
Profa. Melânia Dalla Torre
Vice-Reitora das Unidades Universitárias
Profa. Silvia Gomes Miessa
Vice-Reitora de Recursos Humanos e de Pessoal
Profa. Laura Ancona Lee
Vice-Reitora de Relações Internacionais
Prof. Marcus Vinícius Mathias
Vice-Reitor de Assuntos da Comunidade Universitária
UNIP EaD
Profa. Elisabete Brihy
Profa. M. Isabel Cristina Satie Yoshida Tonetto
Prof. M. Ivan Daliberto Frugoli
Prof. Dr. Luiz Felipe Scabar
Material Didático
Comissão editorial:
Profa. Dra. Christiane Mazur Doi
Profa. Dra. Ronilda Ribeiro
Apoio:
Profa. Cláudia Regina Baptista
Profa. M. Deise Alcantara Carreiro
Profa. Ana Paula Tôrres de Novaes Menezes
Projeto gráfico:
Prof. Alexandre Ponzetto
Revisão:
Luiza Gomyde
Vitor Andrade
Estatística
APRESENTAÇÃO ......................................................................................................................................................7
INTRODUÇÃO ...........................................................................................................................................................7
Unidade I
1 CONCEITOS BÁSICOS ........................................................................................................................................9
1.1 Introdução à estatística ........................................................................................................................9
1.2 Conceitos fundamentais ................................................................................................................... 10
1.2.1 População e amostra ............................................................................................................................. 10
1.2.2 Processos estatísticos de abordagem ..............................................................................................11
1.2.3 Dados estatísticos ................................................................................................................................... 12
1.2.4 Estatística descritiva .............................................................................................................................. 13
1.2.5 Dados brutos ............................................................................................................................................. 15
1.2.6 Rol ................................................................................................................................................................. 15
2 SÉRIES ESTATÍSTICAS ..................................................................................................................................... 16
2.1 Apresentação de dados estatísticos .............................................................................................. 18
2.2 Distribuição de frequência – variável discreta ......................................................................... 19
2.3 Distribuição de frequência – variável contínua ....................................................................... 24
2.4 Representação gráfica de séries estatísticas ............................................................................. 25
2.4.1 Gráfico de dispersão .............................................................................................................................. 26
2.4.2 Gráfico de barras ..................................................................................................................................... 27
2.4.3 Gráfico de colunas.................................................................................................................................. 29
2.4.4 Gráfico de setores ................................................................................................................................... 30
2.4.5 Histograma ................................................................................................................................................ 33
Unidade II
3 MEDIDAS DE TENDÊNCIA CENTRAL ......................................................................................................... 44
3.1 Médias ....................................................................................................................................................... 44
3.1.1 Somatório .................................................................................................................................................. 44
3.1.2 Média aritmética simples .................................................................................................................... 45
3.1.3 Média ponderada .................................................................................................................................... 48
3.1.4 Média para medidas organizadas em classes .............................................................................. 50
3.2 Mediana ................................................................................................................................................... 53
3.3 Moda.......................................................................................................................................................... 58
4 MEDIDAS DE DISPERSÃO ............................................................................................................................. 59
4.1 Amplitude total ..................................................................................................................................... 59
4.2 Desvio médio simples ......................................................................................................................... 63
4.3 Variância e desvio padrão ................................................................................................................. 70
4.4 Interpretação do desvio padrão .....................................................................................................77
Sumário
Unidade III
5 ANÁLISE COMBINATÓRIA ............................................................................................................................. 90
5.1 Binômio de Newton ............................................................................................................................ 90
5.1.1 Fatorial de um número ......................................................................................................................... 90
5.1.2 Coeficientes binomiais .......................................................................................................................... 92
5.1.3 Triângulo de Pascal................................................................................................................................. 94
5.1.4 Teorema binomial ................................................................................................................................... 96
5.1.5 Termo geral do binômio ....................................................................................................................... 98
5.2. Análise combinatória ......................................................................................................................... 99
5.2.1 Princípio fundamental da contagem (PFC) ................................................................................100
5.2.2 Arranjos simples ....................................................................................................................................102
5.2.3 Permutações ...........................................................................................................................................104
5.2.4 Combinações ..........................................................................................................................................104
6 PROBABILIDADES ..........................................................................................................................................106
6.1 Conceitos básicos ...............................................................................................................................107
6.1.1 Experimento aleatório ........................................................................................................................107
6.1.2 Espaço amostral ....................................................................................................................................107
6.1.3 Evento ........................................................................................................................................................108
6.2 Regras do cálculo de probabilidades ..........................................................................................108
Unidade IV
7 MODELOS TEÓRICOS DISCRETOS E CONTÍNUOS E INFERÊNCIA ESTATÍSTICA ......................127
7.1 Variável aleatória discreta unidimensional ..............................................................................127
7.1.1 Definição de variável discreta aleatória ..................................................................................... 127
7.1.2 Função de probabilidade ................................................................................................................... 127
7.1.3 Valor esperado de uma variável discreta aleatória ................................................................ 129
7.1.4 Variância de uma variável discreta aleatória ............................................................................131
7.2 Modelos teóricos discretos e contínuos de probabilidade ................................................133
7.2.1 Distribuição binomial ......................................................................................................................... 133
7.2.2 Distribuição normal ............................................................................................................................ 139
7.3 Inferência estatística .........................................................................................................................146
7.3.1 Amostragem ........................................................................................................................................... 146
7.3.2 Estimadores ............................................................................................................................................ 148
7.3.3 Intervalos de confiança ..................................................................................................................... 148
8 REGRESSÃO LINEAR SIMPLES ..................................................................................................................154
8.1 Relação entre duas variáveis .........................................................................................................156
8.2 Correlação linear.................................................................................................................................158
8.3 Coeficiente de correlação linear ...................................................................................................161
8.4 Ajuste de reta aos dados .................................................................................................................168
8.4.1 Método dos mínimos quadrados ................................................................................................... 169
8.4.2 Ajuste de reta para incertezas diferentes ...................................................................................171
8.4.3 Ajuste de reta para incertezas iguais ........................................................................................... 177
8.5 Coeficiente de determinação ........................................................................................................179
8.6 Funções linearizáveis ........................................................................................................................180
7
APRESENTAÇÃO
Caro aluno,
Neste livro‑texto, são apresentados os conceitos essenciais de estatística, necessários para cursos de
diversas áreas.
A estatística é uma área da matemática essencial em situações nas quais precisamos lidar com
dados, compreender a relevância de um resultado ou, ainda, fazer uma estimativa de alguma grandeza.
É importante que profissionais do campo da tecnologia tenham conhecimentos de estatística básica
a fim de interagir com a área de Ciência de Dados, na qual é fundamental organizar e analisar esses
dados e conseguir resultados (insights) a partir deles.
O objetivo deste livro‑texto é apresentar os conceitos de estatística de forma precisa e direta,
tornando o conteúdo interessante e acessível ao estudante de forma que ele adquira a fluência necessária
na disciplina.
As equações que encontramos em estatística podem, a princípio, parecer complicadas, mas
essas equações serão trabalhadas em exemplos práticos. Além disso, os cálculos serão desenvolvidos
passo a passo.
Boa leitura!
INTRODUÇÃO
Na unidade I, o tópico 1 apresenta os conceitos básicos envolvendo estatística e séries estatísticas.
São detalhadas as definições de população, amostra e processos estatísticos de abordagem. É explicado
o que são dados estatísticos e o que é estatística descritiva, definindo‑se também o que são dados
brutos e rol.
Em seguida, no tópico 2, abordam‑se as séries estatísticas. Ele trata da apresentação de dados
estatísticos e das distribuições de frequência para variáveis discretas e para variáveis contínuas.
Destacam‑se as construções da variável discreta e da variável contínua, a distribuição das frequências –
tanto para variáveis discretas quanto para variáveis contínuas – e foca‑se na representação gráfica de
séries estatísticas.
Na unidade II, fala‑se sobre as medidas de tendência eventual e as medidas de dispersão.
No tópico 3, são acentuadas as medidas de tendência eventual, definindo‑se os conceitos demédia,
média aritmética simples, média ponderada, mediana e moda.
No tópico 4, são apresentadas as medidas de dispersão. Detalham‑se os conceitos e os cálculos de
desvio médio simples, variância e desvio padrão, bem como a interpretação do desvio padrão.
8
Na unidade III, exploram‑se a análise combinatória e as probabilidades. No tópico 5 são definidos
alguns conceitos matemáticos fundamentais para estudo de análise combinatória, como o binômio
de Newton, o fatorial de um número, os coeficientes binomiais, o triângulo de Pascal, o somatório, o
teorema binomial e o termo geral do binômio.
Parte‑se, então, para o estudo da análise combinatória em si, abordando o princípio geral da
contagem, os arranjos, as permutações e as combinações. Prossegue‑se para o estudo de probabilidades,
que apresenta os conceitos básicos sobre o tema e define o que são experimento aleatório, espaço
amostral, evento, avaliação, regras do cálculo de probabilidades e exemplos de aplicação das regras.
Na unidade IV, são apresentados os modelos teóricos discretos e contínuos de probabilidade. Fala‑se
sobre inferência, estimação e regressão linear.
A unidade tem início no tópico 7, destacando‑se os modelos teóricos discretos e contínuos e a
definição de variável aleatória discreta unidimensional. Explora‑se, nele, a função de probabilidade,
o valor esperado de uma variável aleatória e a variância de uma variável aleatória. Na sequência,
acentuam‑se os modelos teóricos discretos e contínuos de probabilidade, a distribuição binomial e
a distribuição normal de probabilidades. É abordada, então, a inferência estatística, discutindo‑se
conceitos como amostragem, estimadores e intervalos de confiança.
O último tópico do material, 8, detalha a regressão linear simples, analisando a relação entre duas
variáveis. Define‑se correlação linear e coeficiente de correlação linear, além de fixar o ajuste de reta aos
dados. Nessa parte, é apresentado o método dos mínimos quadrados, que é aplicado no ajuste de retas
para incertezas diferentes e para incertezas iguais. Define‑se, também, o coeficiente de explicação. Este
livro‑texto é encerrado tratando de funções linearizáveis.
Bom estudo!
9
ESTATÍSTICA
Unidade I
1 CONCEITOS BÁSICOS
Iniciamos este título apresentando alguns conceitos básicos, como as definições de estatística,
amostra, população, processos e dados estatísticos. Definimos, ainda, o que é estatística descritiva, bem
como o que são dados brutos e rol.
1.1 Introdução à estatística
O dicionário Michaelis on‑line define estatística da seguinte maneira:
1. Ramo da matemática que tem por objetivo a coleção, análise e
interpretação de dados numéricos a respeito de fenômenos coletivos
ou de massa.
2. Representação numérica e comparativa, em tabelas ou gráficos, dos
resultados da análise desses fenômenos.
3. Conjunto de elementos numéricos relativos a um fato social
(ESTATÍSTICA, c2022).
Vemos que estatística é um ramo da matemática que visa coletar, analisar e interpretar dados,
usando como ferramentas tabelas e gráficos para analisar fenômenos.
A estatística está presente em nosso dia a dia de forma explícita e implícita. Por exemplo, usamos
estatística para calculam as chances de um time ser campeão Por sua vez, ou as chances de um time
ser rebaixado, para calcular as médias de uma disciplina ou, ainda, para calcular o score de uma pessoa
para a obtenção de crédito.
Observação
Uma das maneiras de classificarmos a estatística é “dividi‑la” em dois
segmentos: estatística descritiva e estatística indutiva.
Podemos pensar que a estatística descritiva se destina a organizar,
descrever, explorar, expressar e sintetizar as informações brutas vindas da
aplicação de um questionário, da observação de algum evento ou da contagem
de ocorrências, por exemplo. Em suma, a estatística descritiva trabalha com
10
Unidade I
conjuntos de dados oriundos de algo “certo”, que já aconteceu, que “pertence
ao passado”. Por exemplo, se soubermos as idades de três pessoas e quisermos
calcular a idade média deste grupo, não há incerteza associada a tal cálculo.
A estatística indutiva trabalha com uma amostra a fim de que, com
o uso de técnicas e métodos adequados, seja possível obter informações
a respeito da população que tal amostra representa. Nesse caso, para
dado intervalo de confiança, temos um erro associado. Por exemplo: se
uma pesquisa eleitoral diz que certo candidato tem 60% dos votos com
margem de erro de 3% e confiança de 95%, isso significa que ele tem 95%
de chance de ter entre 57% e 63% dos votos na data da pesquisa. Vale
destacar que nem sempre a máxima “amostra boa é amostra grande” é
verdadeira – amostra boa é amostra que fornece todas as características
presentes na população e na proporção em que ocorrem na população.
Vale dizer que, a respeito das probabilidades, lidamos com a chance
de algo acontecer; ou seja, estamos no campo da incerteza, dos eventos
aleatórios, dos acontecimentos que não podem ser previstos com 100%
de exatidão. Por exemplo, sabemos que temos 50% de probabilidade de
obtermos cara quando lançamos uma moeda – logo, não há como dizer,
com certeza, se obteremos cara ou coroa nesse lançamento.
Saiba mais
São leituras interessantes sobre a estatística e sobre como ela está
presente em nossas vidas os seguintes livros:
MLODINOW, L. O andar do bêbado: como o acaso determina nossas
vidas. Rio de Janeiro: Zahar, 2009.
SALSBURG, D. Uma senhora toma chá: como a estatística revolucionou
a ciência no século XX. Rio de Janeiro: Zahar, 2009.
1.2 Conceitos fundamentais
A seguir serão detalhados alguns conceitos fundamentais para o estudo de estatística.
1.2.1 População e amostra
Podemos definir população (ou universo) como um conjunto completo de elementos com um
parâmetro comum. Por exemplo: a população brasileira é formada pelo conjunto de pessoas nascidas
no Brasil ou com nacionalidade brasileira.
11
ESTATÍSTICA
A população pode ser classificada em finita ou infinita. A população finita tem um número
determinado de elementos, já a população infinita não. Por exemplo, ao estudarmos as características da
folha de determinada planta, estamos tratando de uma população infinita, já que não é possível
determinar o número de plantas existentes nem, muito menos, o número total de folhas em todas
essas plantas. Já ao estudar as notas de estatística dos alunos de uma sala, estamos tratando de uma
população limitada e, portanto, finita.
A amostra é um subconjunto da população. Por exemplo, o grupo formado por jovens brasileiros de
12 a 14 anos é uma amostra da população brasileira.
Em estatística, frequentemente não podemos acessar os dados de uma população completa, mas, se
escolhermos uma amostra representativa dessa população, podemos fazer um levantamento estatístico
que a represente. Isso é feito em pesquisas eleitorais, em que apenas uma amostra determinada dos
habitantes do país são entrevistados.
1.2.2 Processos estatísticos de abordagem
No estudo de um fenômeno coletivo usando estatística, podemos escolher entre duas
diferentes abordagens:
• censo;
• amostragem.
Saiba mais
Para saber mais sobre o Censo Demográfico 2010, conduzido pelo
Instituto Brasileiro de Geografia e Estatística (IBGE), acesse:
IBGE. Censo demográfico: conceitos e métodos. Brasília, c2022a.
Disponível em: https://cutt.ly/iMRmtIj. Acesso em: 14 nov. 2022.
Os principais resultados do Censo Demográfico 2010 estão
disponíveis em:
IBGE. Censo demográfico: principais resultados. Brasília, c2022b.
Disponível em: https://cutt.ly/SMRm6N2. Acesso em: 14 nov. 2022.
12
Unidade I
No censo é feita a avaliação direta de um parâmetro utilizando‑se de toda a população.
A necessidade de acessar toda a população para obter a informação faz com que o processo seja
lento, mas aumenta sua confiabilidade. É um processo que por vezes não é viável por ser custoso, e
sua lentidão pode implicar dados desatualizados.
Na amostragem, a avaliação de um parâmetroé indireta e usa‑se como estimador o cálculo de
probabilidades. Nela, não é necessário acessar toda a população, de forma que o processo se torna mais
rápido e com menos custos, e permite, ainda, que os dados sejam constantemente atualizados.
1.2.3 Dados estatísticos
Os dados estatísticos são os elementos fundamentais a partir dos quais a estatística é feita. Define‑se
como variável a característica de interesse de cada dado da amostra ou da população.
As variáveis podem ser de dois tipos:
• variáveis quantitativas;
• variáveis qualitativas.
As variáveis quantitativas assumem valores numéricos e, a partir deles, podemos realizar cálculos
estatísticos. Elas podem ser classificadas como discretas ou contínuas: as variáveis quantitativas
discretas assumem apenas certos valores (inteiros), enquanto as contínuas podem assumir um
intervalo de valores. Como exemplo de variável quantitativa discreta, podemos ter o número de
pessoas em uma sala de aula (quantidade medida apenas em números inteiros) e, como exemplo
de variável quantitativa contínua, podemos ter a altura de uma pessoa (que pode assumir qualquer
valor dentro de uma faixa de valores).
As variáveis qualitativas contêm informações não numéricas relativas a categorias, por exemplo,
gênero, cargo e endereço, ao tratarmos de pessoas, ou ainda cor, volume e peso, ao tratarmos de produtos.
Note que o CEP de um endereço ou um número de telefone, mesmo representados por algarismos, são
variáveis qualitativas, pois não fazemos operações matemáticas com telefones ou CEP, visto que não
faz sentido.
As variáveis qualitativas ainda podem ser classificadas em ordinais ou nominais. As variáveis ordinais
contêm informações que localizam o dado dentro de uma categoria, como escolaridade ou faixa de
renda. Já as variáveis nominais contêm informações que não localizam o dado em uma categoria, como
cor dos olhos ou endereço.
Saber o tipo de variável que estamos tratando é fundamental na análise de dados.
13
ESTATÍSTICA
Exemplo de aplicação
Considere a tabela a seguir com os dados dos moradores de um condomínio.
Tabela 1 – Dados dos moradores do condomínio
Apartamento Morador responsável
Placa
do carro
Número
de moradores
10 Paula Silva – 2
11 Felipe Rodrigues DEF2132 5
20 Marcos Junior F23R222 4
21 Diana Souza AED1202 1
30 Rafaela Moraes – 2
A tabela 1 apresenta as seguintes variáveis: número do apartamento, nome do morador responsável,
placa do carro e número de moradores.
São variáveis qualitativas o número apartamento, o nome do morador responsável e a placa do
carro. A única variável quantitativa é o número de moradores.
1.2.4 Estatística descritiva
Como já foi comentado, a estatística divide‑se em:
• estatística descritiva;
• estatística indutiva.
A estatística descritiva tem como objetivo organizar e analisar um conjunto de dados. Ela pode
reduzir uma grande quantidade de dados a informações resumidas que caracterizem determinada
população, e baseia‑se no cálculo de medidas de tendência central (como a média, a moda e a mediana)
e no cálculo de medidas de dispersão dos dados (como o desvio padrão), a variância e os valores máximo
e mínimo, que veremos mais adiante.
Já a estatística indutiva tem como objetivo inferir, induzir ou estimar o comportamento da
população a partir da qual a amostra foi obtida. A estatística indutiva faz uma generalização a partir
de resultados particulares.
Um estudo estatístico completo de uma população deve basear‑se no método estatístico, que é
composto por uma série de etapas, listadas a seguir:
1) Definição do problema.
2) Delimitação do problema.
14
Unidade I
3) Planejamento para a obtenção dos dados.
4) Coleta dos dados.
5) Apuração dos dados.
6) Apresentação dos dados.
7) Análise dos dados.
8) Interpretação dos dados.
A primeira etapa do método estatístico é a definição do problema. Nessa etapa, deve‑se definir com
clareza o que será pesquisado, qual é o objetivo da pesquisa e qual é o objeto de estudo.
Partimos, então, para a delimitação do problema, etapa na qual é definido onde será realizada a
pesquisa, quais serão os objetos dessa pesquisa e em quais dias e horários ela será conduzida.
No planejamento para a obtenção dos dados é feito o levantamento de como solucionar o problema
proposto, quais dados são necessários e como obter esses dados, além do cronograma das atividades.
Nessa etapa são determinados o tamanho da população ou da amostra analisada e o custo do processo.
Dependendo do objetivo da pesquisa, é preciso elaborar um questionário (ou um roteiro de pesquisa) e
dimensionar a estrutura necessária para a aplicação do questionário ou roteiro em questão.
Já na etapa de coleta de dados, os dados são coletados por meio de observação ou da aplicação
de questionários.
A apuração dos dados é a etapa na qual os dados são analisados de forma crítica, e
determina‑se quais dados serão descartados por algum erro no processo de coleta. Nessa etapa
é feita a tabulação dos dados, processo no qual os dados são resumidos, contados e agrupados
por características semelhantes.
Na sequência, há a apresentação dos dados, em que eles são organizados com objetivo de facilitar
seu entendimento e visualização, sob a forma de tabelas ou gráficos, por exemplo.
Passa‑se, então, para a análise dos dados. Nessa etapa são obtidas conclusões a partir dos dados
coletados para solucionar o problema levantado nas etapas iniciais do estudo.
Na última etapa do processo, a fase de interpretação dos dados, as medidas estatísticas, as tabelas
e os gráficos obtidos a partir dos dados são analisados, levando a algumas generalizações obtidas por
inferência estatística e às incertezas associadas a essas generalizações.
A seguir, vamos tratar dos dados, elementos fundamentais na análise estatística.
15
ESTATÍSTICA
1.2.5 Dados brutos
Chamamos de dados brutos os dados exatamente da forma como são obtidos, sem tratamento
nem organização. Por exemplo: em uma pesquisa de cargos e salários, o conjunto de dados com
cargo do funcionário e o seu salário são dados brutos se não passaram por nenhuma forma
de organização.
Não é incomum que dados brutos – isso é, sem nenhum tipo de tratamento –, apresentem
incompatibilidades que precisam ser resolvidas. Um exemplo clássico está nos dados envolvendo datas,
que podem ser escritas em diversos formatos; esses formatos precisam ser uniformizados para que a
análise dos dados se dê de forma correta. Outro exemplo de incompatibilidade que é frequente ocorre
em dados de nomes de cidades com diversas grafias possíveis, como São Paulo, S. Paulo ou ainda SP, que
se referem à mesma cidade e devem ter a grafia uniformizada.
1.2.6 Rol
Se partirmos de dados brutos e aplicarmos alguma forma de organização, teremos o que chamamos
de rol. No rol, os dados podem ser organizados de forma crescente, decrescente ou em ordem alfabética.
Exemplo de aplicação
Uma turma de alunos de estatística obteve, em uma prova, as notas mostradas na tabela a seguir.
Tabela 2 – Desempenhos dos alunos na prova
Aluno Nota
Maria 9
Pedro 4
Otávio 6
Mariana 7
Sheila 8,5
Oswaldo 3
Matheus A. 8
Matheus R. 10
Leonardo 10
Se tomarmos as notas dos alunos, sem nenhuma organização, teremos os seguintes dados brutos:
9 4 6 7 8,5 3 8 10 10
Se aplicarmos qualquer processo de organização nesses dados, passaremos a ter um rol. Vamos, por
exemplo, organizar as notas de forma decrescente:
10 10 9 8,5 8 7 6 4 3
16
Unidade I
Dessa forma é possível analisar a distribuição de notas dos alunos com mais facilidade, mas a
informação ainda não está apresentada da melhor maneira, o que pode ser feito a partir de um estudo
de frequências (que veremos mais adiante).
Nem todos os dados, porém, são de natureza numérica. A tabela 2 também apresenta informações
sob a forma de nomes, que são classificados como dados alfanuméricos. Poderíamos obter um rol
organizando o nome dos alunos em ordem alfabética, por exemplo.
Uma forma de melhorar a visualizaçãoe a compreensão dos dados, já organizados em rol, é
realizarmos um estudo de frequências – que veremos no próximo título.
2 SÉRIES ESTATÍSTICAS
Definimos como séries estatísticas as tabelas que apresentam os dados organizados em função do
tempo, da localidade ou da espécie do dado. As séries estatísticas são classificadas em:
• séries históricas;
• séries geográficas;
• séries específicas;
• séries conjugadas.
As séries históricas são classificadas em função do tempo; as séries geográficas são classificadas em
função da localidade; as séries específicas são classificadas em função de categorias características dos
dados; e as séries conjugadas, também conhecidas como séries mistas, são uma combinação das séries
temporais, geográficas ou específicas.
Na tabela a seguir é apresentado um exemplo de série histórica, em que os dados são organizados
por ano:
Tabela 3 – População residente no Brasil, por ano
Ano População
1991 146.815.815
2000 169.872.856
2010 190.755.799
Fonte: IBGE (c2022b).
17
ESTATÍSTICA
Na tabela a seguir é apresentado um exemplo de série geográfica, em que os dados são organizados
por localidade:
Tabela 4 – População residente no Brasil
em 2010, por grande região
Grande região População
Norte 15.864.454
Nordeste 53.081.950
Sudeste 80.364.410
Sul 27.386.891
Centro‑Oeste 14.058.094
Fonte: IBGE (c2022b).
A seguir, temos um exemplo de série específica, onde os dados são organizadospor sexo.
Tabela 5 – População residente no Brasil
em 2010, por sexo
Sexo População
Homens 93.406.990
Mulheres 97.348.809
Fonte: IBGE (c2022b).
Na tabela a seguir, temos um exemplo de série conjugada ou mista:
Tabela 6 – População residente no Brasil
em 2010, por grande região e por ano
Grande Região
Ano
1991 2000 2010
Norte 10.027.373 12.911.170 15.864.454
Nordeste 42.494.112 47.782.487 53.081.950
Sudeste 62.740.146 72.430.193 80.364.410
Sul 22.129.131 25.119.348 27.386.891
Centro‑Oeste 9.425.053 11.638.658 14.058.094
Fonte: IBGE (c2022b).
Note que, nos quatro exemplos, os dados foram apresentados na forma de tabelas. Detalharemos
esse modo de apresentação de dados a seguir.
18
Unidade I
2.1 Apresentação de dados estatísticos
A maneira fundamental de apresentação e organização de dados estatísticos é por tabelas.
As tabelas são quadros que contêm um conjunto de dados seguindo determinada ordem ou
determinada classificação. São partes fundamentais de uma tabela:
• título;
• cabeçalho;
• coluna indicadora;
• corpo da tabela:
— linhas;
— células.
O título localiza‑se na parte superior da tabela (ABNT, 2011) e especifica o assunto dos dados da
tabela e, se for o caso, o período ao qual os dados se referem. Assim, todas as tabelas devem ter título.
O cabeçalho é a parte superior da tabela, normalmente destacado do corpo da tabela. O cabeçalho
deve indicar os conteúdos de cada coluna.
A coluna indicadora é, normalmente, a primeira coluna à esquerda da tabela e especifica o conteúdo
das linhas. Na tabela 5, a coluna indicadora é o sexo.
Abaixo do cabeçalho e à direita da coluna indicadora, temos o corpo da tabela. No corpo da tabela
temos as linhas, que disponibilizam a informação no sentido horizontal. Cada elemento do corpo da
tabela, obtido pelo cruzamento de uma linha com uma coluna, é chamado de célula.
Como elementos complementares de uma tabela, temos a fonte e as notas. Esses elementos
complementares localizam‑se na parte inferior da tabela. A fonte indica a origem dos dados e o método
usado em sua obtenção e em sua elaboração. As notas trazem informações relevantes do conjunto de
dados ou de alguns dados específicos.
19
ESTATÍSTICA
2.2 Distribuição de frequência – variável discreta
Aqui será discutido como apresentar dados usando uma distribuição de frequência (f). A primeira
etapa envolve variáveis discretas.
Lembrete
Como vimos, variáveis discretas são variáveis quantitativas que podem
assumir apenas determinados valores (inteiros), diferentemente das variáveis
contínuas, que podem ocorrer dentro de uma faixade valores.
Para classificar dados por distribuição de frequências, faz‑se a contagem da ocorrência de cada
evento. A fim de facilitar a contagem das ocorrências, pode‑se organizar os dados brutos em um rol
antes de analisar as frequências.
Exemplo de aplicação
Considere um dado de 6 faces cujas faces são numeradas de 1 a 6.
Figura 1 – Dados mostrando cada uma das 6 faces
Disponível em: https://cutt.ly/bMxBZzD. Acesso em: 14 nov. 2022.
Imagine que esse dado tenha sido lançado 14 vezes e que tenham sido obtidos os seguintes
resultados:
4 2 5 1 3 5 2 6 1 6 2 2 3
Vamos classificar esses dados por frequência, ou seja, vamos contar o número de ocorrências de
cada resultado.
20
Unidade I
Tabela 7 – Frequência de resultados obtidos pelo lançamento de um dado
Face do dado Frequência
1 3
2 4
3 2
4 1
5 2
6 2
Note que, se somarmos as frequências, devemos recuperar o número total de lançamentos (14).
Os dados também podem ser indicados pela frequência relativa (fr), de forma que o tamanho da
amostra ou da população não fique evidente nos dados. Na frequência relativa, dividimos a frequência
de cada valor pelo número total de dados na amostra ou população.
Exemplo de aplicação
Na tabela a seguir, são expostas as frequências relativas para o resultado do lançamento do dado
estudado no exemplo anterior.
Tabela 8 – Frequência relativa de resultados
obtidos por 14 lançamentos de um dado
Face do dado Frequência Frequência relativa
1 3 3/14 = 0,21
2 4 4/14 = 0,29
3 2 2/14 = 0,14
4 1 1/14 = 0,08
5 2 2/14 = 0,14
6 2 2/14 = 0,14
Note que a soma das frequências relativas deve ser igual a 1, ou próxima de 1, no caso de
arredondamento dos valores.
Observação
Considere o valor 0,3147. Deseja‑se representar esse valor com duas
casas decimais. Para tanto, devemos analisar a casa decimal seguinte para
saber se arredondaremos para cima ou para baixo.
21
ESTATÍSTICA
A regra de arredondamento costuma ser a seguinte:
• Decimal seguinte maior do que cinco: arredonda‑se para cima.
• Decimal seguinte menor do que cinco: arredonda‑se para baixo.
• Decimal seguinte igual a 5: aplica‑se a regra considerando a próxima
casa decimal.
Então, para representar 0,3147 com duas casas decimais, deve‑se analisar
o número que está na terceira decimal, que, no caso, é 4. Como esse número
é menor do que 5, arredondamos para baixo. No caso, 0,3147, quando
representado com duas casas decimais, é arredondado para 0,31.
Para representar o número 0,4881 com duas casas decimais, analisa‑se
o número na terceira decimal, que é igual a 8 e, portanto, maior do que 5,
indicando que se deve fazer o arredondamento para cima. No caso, 0,4881,
quando representado com duas casas decimais, é arredondado para 0,49.
Podemos, ainda, representar um conjunto de dados por sua frequência acumulada (fa), em que
somamos as frequências anteriores àquele valor.
Exemplo de aplicação
Voltando ao exemplo dos 14 lançamentos do dado. Temos, na tabela 9, a frequência de cada
ocorrência e sua frequência acumulada.
Tabela 9 – Frequência e frequência acumulada de
resultados obtidos por 14 lançamentos de um dado
Face
do dado Frequência Frequência acumulada
1 3 3
2 4 3 + 4 = 7
3 2 3 + 4 + 2 = 9
4 1 3 + 4 + 2 + 1 = 10
5 2 3 + 4 + 2 + 1 + 2 = 12
6 2 3 + 4 + 2 + 1 + 2 + 2 = 14
Quando os resultados de uma pesquisa se espalham por uma faixa muito grande de valores,
é interessante agruparmos esses dados em classes ou intervalos, que são faixas de valores. Por
exemplo: em uma pesquisa envolvendo as idades de pessoas residentes em certo bairro, podemos
22
Unidade I
ter idades de 0 a cerca de 100 anos, e, por isso, construir uma tabela com 100 linhas pode não
apresentar os dados da melhor forma. Uma solução possível para esse caso seria separar as idades
em intervalos de 10 anos (tabela 10).
Figura 2 – Duas pessoas de idades diferentes
Disponível em: https://cutt.ly/bMxMBNc. Acesso em: 14 nov. 2022.
Tabela10 – Distribuição das idades dos moradores de certo bairro
Idade (anos) Número de moradores
0 ‑ 9 21
10 ‑ 19 42
20 ‑ 29 543
30 ‑ 39 321
40 ‑ 49 521
50 ‑ 59 321
60 ‑ 69 83
70 ‑ 79 43
80 ‑ 89 56
90 ‑ 99 9
e acima 1
23
ESTATÍSTICA
Note que, para cada faixa de idade, temos um limite inferior, representado por Li, indicado à esquerda,
e um limite superior, representado por Ls, indicado à direita. Não podemos ter um mesmo valor em
intervalos diferentes. O único intervalo sem limite superior é o último, que inclui moradores com idade
igual ou superior a 100 anos.
A quantidade de intervalos (ou classes) é escolhida para representar a grandeza que está sendo
analisada. Usar poucas classes pode causar perda de informação, mas usar classes demais pode dificultar
a visualização dos dados. Normalmente são utilizados de 5 a 20 intervalos (ou classes).
Outra forma de representar intervalos é pelo símbolo ⊢, que indica intervalo fechado à esquerda,
ou seja, quando o limite inferior faz parte do intervalo, mas o superior não. Nessa notação, no intervalo
1 ⊢ 5 está contido o número 1, mas não o número 5.
Reescrevendo a tabela 10 com as idades da população do bairro usando o símbolo para intervalo
fechado à esquerda, temos o que segue:
Tabela 11 – Distribuição de idades dos moradores do bairro
Idade (anos) Número de moradores
0 ⊢ 10 21
10 ⊢ 20 42
20 ⊢ 30 543
30 ⊢ 40 321
40 ⊢ 50 521
50 ⊢60 321
60 ⊢ 70 83
70 ⊢ 80 43
80 ⊢ 90 56
90 ⊢ 100 9
100 e acima 1
Chamamos de amplitude do intervalo o resultado do cálculo do limite superior do intervalo menos
o limite inferior, quando indicados com a notação de intervalo fechado em apenas um dos lados. Para
facilitar a leitura e a interpretação dos dados, recomendamos que todos os intervalos da tabela tenham
a mesma amplitude.
Os intervalos (ou classes) podem ser escolhidos com base nos valores máximo e mínimo dos dados
que estão sendo analisados e de quantos intervalos desejamos na tabela.
24
Unidade I
Para efeito de análise dos dados, consideramos que todos os dados, quando agrupados em intervalos,
estão associados ao ponto médio (Pm) da classe à qual pertencem. O ponto médio de uma classe é
calculado por:
Ls Li
Pm
2
+
=
Na equação:
• Ls é o limite superior do intervalo ou da classe;
• Li é o limite inferior do intervalo ou da classe.
2.3 Distribuição de frequência – variável contínua
Como fazemos a distribuição de frequências de dados contínuos, ou seja, de dados que estão
distribuídos em uma faixa de valores?
Nesse caso, é fundamental que os dados sejam agrupados em classes ou intervalos como foi feito
com as variáveis discretas. Todas as observações sobre a distribuição de frequência para as variáveis
discretas aplicam‑se também à distribuição de frequências das variáveis contínuas.
Na tabela a seguir, que representa a distribuição dos salários em uma empresa, temos um exemplo
de distribuição de frequência para uma variável contínua.
Figura 3 – Desenho representando salário
Disponível em: https://cutt.ly/TMx1Sem. Acesso em: 14 nov. 2022.
25
ESTATÍSTICA
Tabela 12 – Distribuição de salários em uma empresa
Salário
(em salários mínimos)
Número
de funcionários
0 ⊢ 1 0
1 ⊢ 2 5
2 ⊢ 3 23
3 ⊢ 4 53
4 ⊢ 5 12
Frequentemente a visualização de dados em uma tabela não apresenta, de forma imediata, as
características dos dados, ainda mais para o público leigo. Há um ditado que diz que uma imagem vale
mais do que mil palavras – o que é válido também em estatística –, de forma que podemos dizer que
um gráfico “repassa” melhor dada informação do que mil tabelas.
2.4 Representação gráfica de séries estatísticas
A melhor forma de apresentarmos os dados ou resultados de uma pesquisa costuma ser por
meio de gráficos (figura 4). Os gráficos, independentemente do tipo, precisam ser de fácil
visualização e de rápida interpretação. Assim como as tabelas, eles devem sempre ser identificados
por um título na parte superior, e, se for o caso, a fonte dos dados deve ser identificada na
parte inferior.
Figura 4 – Gráficos em um relatório
Disponível em: https://cutt.ly/UMx156S. Acesso em: 14 nov. 2022.
26
Unidade I
Existem diversos tipos de gráficos, como os listados a seguir:
• gráfico de dispersão;
• gráfico de barras;
• gráfico de colunas;
• gráfico de setores;
• histograma;
• polígono de frequências.
De acordo com os dados que são representados no gráfico, um tipo pode ser mais adequado do
que o outro.
2.4.1 Gráfico de dispersão
O gráfico de dispersão é um dos tipos mais usado nas ciências exatas. Podemos utilizar gráficos de
dispersão quando queremos mostrar a relação entre duas (ou três) grandezas.
O gráfico de dispersão em duas dimensões tem dois eixos, um na vertical e outro na horizontal. Nos
eixos deve‑se indicar sempre as grandezas representadas neles e, se for o caso, suas unidades.
Na construção de um gráfico de dispersão, devemos elaborar escalas numéricas em cada um dos
eixos. Essa escala numérica deve ser construída de forma que todos os dados fiquem incluídos na escala,
tenham passo uniforme e sempre o mesmo comportamento ao longo do eixo, seja ele crescente, seja ele
decrescente. Como os eixos são independentes, pode‑se adotar escalas com intervalos e passos distintos
em cada um dos eixos.
Pode‑se ter, também, gráficos de dispersão tridimensionais, em que se trabalham três eixos.
Posicionados os eixos e construídas as suas escalas, marcam‑se os pontos do gráfico, relacionando
as grandezas nos dois eixos.
A figura a seguir mostra um exemplo de gráfico de dispersão em duas dimensões.
27
ESTATÍSTICA
Relação entre expectativa de vida e PIB per capita, por país
Expectativa de vida
(anos)
PIB per capita (US$)
0 20K 40K 60K 80K 100K 120K 140K
80
60
40
Figura 5 – Gráfico tipo dispersão
No gráfico da figura 5 tem‑se, no eixo horizontal, o PIB per capita em dólares americanos. Note
que a escala desse eixo começa em 0 e vai até um pouco além de 140k, ou 140 mil dólares. O intervalo
entre os números da escala do eixo é sempre uniforme e os valores são sempre crescentes.
O mesmo comportamento pode ser visto no eixo vertical, que representa a expectativa de vida,
em anos, em que temos como valores da escala do eixo 40, 60 e 80. Veja que a escala vertical não
inicia em 0.
Repare que, como os eixos são independentes, os valores máximo, mínimo e intervalo das escalas
não precisam coincidir.
No gráfico da figura 5, nota‑se que há uma correlação entre a expectativa de vida e o PIB per capita,
de forma que países com menor PIB tendem a ter menor expectativa de vida e que há um espalhamento
desses dados (eles não se apresentam alinhados).
2.4.2 Gráfico de barras
Quando desejamos mostrar a evolução de dada grandeza, ou ainda comparar essa grandeza em
locais e situações diferentes, trabalhamos com gráficos de barras.
Os gráficos de barras também têm dois eixos: no eixo vertical, costuma‑se colocar a variável
categórica (ou qualitativa). No eixo horizontal, costuma‑se colocar a variável quantitativa.
28
Unidade I
O gráfico da figura 6 é um exemplo de gráfico de barras.
Número de pessoas analfabetas, por grande região
número de pessoas
Grande região
Nordeste
Sudeste
Norte
Sul
Centro‑Oeste
8.000.0006.000.0004.000.0002.000.0000
Figura 6 – Exemplo de gráfico de barras representando
o número de pessoas analfabetas, por grande região
Note que o gráfico da figura 6 tem uma variável categórica no eixo vertical – no caso, as grandes
regiões –, e uma variável quantitativa no eixo horizontal – no caso, o número de pessoas analfabetas
em cada grande região.
As barras do gráfico foram ordenadas de forma decrescente, com as grandes regiões com maior
número de analfabetos na parte superior do gráfico. A ordenação das barras facilita a visualização e a
compreensão do gráfico.
A espessura e a separação das barras podem ser ajustadas de forma a facilitar a visualização. Se há
uma grande quantidade de barras, pode‑se trabalhar com barras mais finas, emborabarras de maior
espessura tenham visualização melhor.
No gráfico da figura 6 usa‑se a variável quantitativa de forma absoluta, como um número
ou uma contagem de pessoas; mas também é possível usar essa variável de forma relativa,
usando porcentagens. O uso de porcentagens facilita a comparação entre os diferentes valores
apresentados no gráfico.
29
ESTATÍSTICA
O gráfico da figura 7 apresenta as mesmas grandezas do gráfico da figura 6, mas com a população
de pessoas analfabetas representada como percentual do total de cada região.
Porcentegem de pessoas analfabetas, por grade região
pessoas (%)
Grande região
Nordeste
Norte
Centro‑Oeste
Sudeste
Sul
151050
Figura 7 – Exemplo de gráfico de barras representando o número de pessoas analfabetas, por grande
região, como porcentagem do número total de pessoas analfabetas por região
Vemos, do gráfico, que cerca de 20% dos analfabetos residem na grande região Nordeste, enquanto
cerca de 6% dos analfabetos residem na região Sul.
Quando desejamos representar em um gráfico as porcentagens de um todo, embora seja possível
fazê‑lo em um gráfico de barras, o mais usual é usar o gráfico de setores (detalhado mais adiante).
2.4.3 Gráfico de colunas
Outra forma de representação similar ao gráfico de barras é o gráfico de colunas. A diferença entre
eles é que, no gráfico de colunas, a variável categórica é representada no eixo horizontal, e a variável
quantitativa é representada no eixo vertical.
30
Unidade I
A figura 8 exibe as mesmas informações do gráfico da figura 6, mas representadas na forma de um
gráfico de colunas.
Pessoas analfabetas, por grande região
números
de pessoas
Grande região
Nord
este Sude
ste
Cent
ro-O
esteNorte Su
l
8.000.000
6.000.000
4.000.000
2.000.000
0
Figura 8 – Exemplo de gráfico de colunas representando o número de pessoas analfabetas, por grande
região
2.4.4 Gráfico de setores
O gráfico de setores, ou “gráfico de pizza”, é um gráfico polêmico e muitos não gostam de usá‑lo.
O gráfico de setores é apresentado de forma circular e é utilizado para representar a divisão de dada
grandeza em diferentes categorias, em que cada categoria usa uma fatia do círculo. Nesse tipo de
gráfico é interessante representar a grandeza quantitativa sob a forma de porcentagem.
Um cuidado que é preciso ter em gráficos de setores refere‑se ao emprego das cores para
representar cada fatia. Se usamos uma legenda para indicar as diferentes categorias, é fundamental
que sejam usadas cores contrastantes para cada fatia, de forma a não confundir a associação da fatia
com a legenda do gráfico. Uma maneira de minimizar esse problema é indicar as categorias não como
uma legenda, mas ao lado de cada fatia. A desvantagem disso é que o gráfico fica visualmente mais
poluído, o que dificulta a leitura.
Outro cuidado importante quando usamos legenda e código de cores em gráficos é testarmos a
acessibilidade do gráfico para pessoas com distúrbios visuais na identificação de cores.
31
ESTATÍSTICA
Saiba mais
Para saber mais sobre distúrbios visuais na identificação de cores, leia:
TESTONI, M. Mutação genética, daltonismo distorce as cores e se
divide em três tipos. VivaBem, São Paulo, 19 out. 2020. Disponível em:
https://cutt.ly/hMTei3m. Acesso em: 14 nov. 2022.
Para saber mais sobre acessibilidade no uso de cores em gráficos para
daltônicos, leia:
SHAFFER, J. Cinco dicas para criar visualizações adaptadas para daltônicos.
Tableau, Seattle, 12 out. 2022. Disponível em: https://cutt.ly/6MTe8Ot. Acesso
em: 14 nov. 2022.
Na figura a seguir, temos um exemplo de gráfico de setores ou tipo “pizza”.
Porcentagem de alfabetização
no Brasil, 2010
10,53%
89,47%
Alfabetizadas Não alfabetizadas
Figura 9 – Exemplo de gráfico de setores, mostrando
a porcentagem de alfabetização no Brasil no ano de 2010
O gráfico de setores pode não ser adequado se tivermos uma grandeza muito menor do que as
demais de forma que ela ocupe um setor muito pequeno no gráfico, ou, ainda, quando as grandezas são
similares (figura 10).
32
Unidade I
8,46%5,22%
6,72% 3,29%
5,17%
9,7%
9,6%
9,74%
9,67%
16,75%
14,04%
10,41%
Distribuição da população por idade no Brasil, 2010
0 a 5 anos
20 a 24 anos
60 a 69 anos
6 a 5 anos
25 a 29 anos
70 anos ou mais
7 a 9 anos
30 a 39 anos
10 a 14 anos
40 a 49 anos
15 a 19 anos
50 a 59 anos
Figura 10 – Exemplo de gráfico em que a representação por setores não é adequada. Temos nesse
gráfico a distribuição da população brasileira por idade, onde os setores ocupam áreas muito
parecidas e a variação dos dados não se torna evidente
Os dados da figura 10 seriam mais bem representados por um gráfico de barras ou um gráfico
de colunas.
Note que só podemos usar gráficos de setores para representar as porcentagens de uma
mesma grandeza. Além disso, é preciso que essas porcentagens somem 100%, senão o gráfico de setores
ficará incompleto.
Uma variação do gráfico de setores é o gráfico tipo rosca (ou donut), em que podemos representar a
distribuição de porcentagens de duas grandezas distintas – uma em uma rosca externa e outra em uma
rosca interna (figura 11). No entanto, muitas vezes, esse tipo de gráfico não é recomendado, por ser de
visualização mais difícil e de interpretação menos direta.
33
ESTATÍSTICA
0 a 2
2 a 4
4 a 6
6 a 8
8 a 10
turma Bturma A
Distribuição de notas na provas
Figura 11 – Exemplo de gráfico de rosca com duas roscas, uma externa e uma interna. Note como a
visualização do gráfico é difícil. O gráfico mostra a distribuição de notas em uma prova para a turma B
na rosca interna e para a turma A na rosca externa. A diferença da posição angular da mesma faixa
de nota dificulta muito a comparação das duas turmas
2.4.5 Histograma
O histograma é uma variação do gráfico de colunas, em que:
• no eixo horizontal, os dados são divididos em intervalos (ou classes);
• no eixo vertical, é apresentada a frequência dos dados.
O histograma, portanto, é uma representação gráfica de uma tabela de frequências.
O histograma na figura a seguir foi construído a partir dos dados da tabela 7, que listava possíveis
resultados para 14 lançamentos de um dado de 6 faces, cujas faces são numeradas de 1 a 6.
Distribuição de frequências para lançamento de um dado numérico de 6 faces
frequência
face654321
4
3
2
1
Figura 12 – Exemplo de histograma construído a partir dos dados da tabela 7, com dados de
frequência absoluta dos resultados de 14 lançamentos de um dado de 6 faces
34
Unidade I
Pode‑se, também, construir histogramas usando a frequência relativa (figura 13). O uso de
frequências relativas em histogramas é mais recomendado, pois o tamanho da amostra/população
não altera o eixo de frequências do gráfico.
Distribuição de frequências para lançamento de um dado numérico de 6 faces
frequência
relativa
face654321
0,30
0,20
0,10
Figura 13 – Exemplo de histograma construído a partir dos dados da tabela 8, com dados de
frequência relativa dos resultados de 14 lançamentos de um dado de 6 faces
Lembrete
Quando contamos o número de ocorrências de determinado valor ou
de um valor incluído em um intervalo, trata‑se de frequências absolutas.
Se dividirmos o número de ocorrências pelo total de observações ou de
medidas, trata‑se de frequências relativas.
Quando trabalhamos com histogramas, é possível incluir no gráfico o que chamamos de polígono
de frequências, obtido pela ligação dos pontos médios do topo de cada barra do histograma (figura 14).
Distribuição de frequências para lançamento de um dado numérico de 6 faces
frequência
relativa
face654321
0,30
0,20
0,10
Figura 14 – Histograma de frequências relativas com polígono de
frequências para os resultados de 14 lançamentos de um dado de 6 faces
35
ESTATÍSTICA
Resumo
Iniciamos o primeiro título vendo que estatística é um ramo da
matemática que visa coletar, organizar e interpretar dados, usando como
ferramenta tabelas e gráficos para analisar fenômenos.
Definimospopulação, ou universo, como um conjunto completo de
elementos com um parâmetro comum. A população pode ser classificada
em finita ou infinita. A população finita tem um número determinado de
elementos, diferentemente do que ocorre na população infinita.
Vimos que amostra é um subconjunto da população.
Observamos que, no estudo de um fenômeno coletivo usando estatística,
podemos escolher entre duas diferentes abordagens: censo e amostragem.
No censo, ocorre a avaliação direta de um parâmetro usando‑se
toda a população. A necessidade de acessar toda a população para
obter a informação faz com que o processo seja lento, mas aumenta a
sua confiabilidade. É um processo que, por vezes, não é viável, pois tem
maior custo e a lentidão pode implicar dados desatualizados. Muitas
vezes, pode ser impossível de ser praticado. Na amostragem, não é
necessário acessarmos toda a população, de forma que o processo se
torna mais rápido e com menor custo, o que facilita que os dados sejam
constantemente atualizados.
Os dados estatísticos são os elementos fundamentais a partir dos quais
a estatística é feita.
Definimos como variável a característica de interesse em dada amostra
(ou população).
As variáveis podem ser de dois tipos: quantitativas ou qualitativas.
As variáveis quantitativas assumem valores numéricos e, a partir delas,
podemos realizar cálculos estatísticos. As variáveis quantitativas podem
ainda ser classificadas em discretas ou contínuas. As variáveis quantitativas
discretas assumem apenas certos valores (inteiros), enquanto as contínuas
podem assumir um intervalo de valores.
As variáveis qualitativas contêm informações não numéricas, mas
de categorias, como sexo, cargo, endereço, quando tratamos de pessoas,
36
Unidade I
ou, ainda, cor ou peso, quando tratamos de produtos. Note que o CEP de
um endereço ou um número de telefone, mesmo sendo representados
por números, são variáveis qualitativas, pois não fazemos operações
matemáticas com telefones ou CEPs, pois não faz sentido. As variáveis
qualitativas ainda podem ser classificadas em nominais e ordinais. As
variáveis qualitativas ordinais contêm informação que localiza o dado
dentro de uma categoria, por exemplo, escolaridade ou faixa de renda. Já
as variáveis qualitativas nominais contêm informações que não localizam
o dado em uma categoria, como cor dos olhos ou endereço.
Vimos que a estatística se divide em estatística descritiva e estatística
indutiva. A estatística descritiva refere‑se à organização de dados e considera
os cálculos de medidas de tendência central, como a média, a moda e a
mediana, e de medidas de dispersão, como o desvio padrão e a variância,
que veremos mais adiante. Já a estatística indutiva tem como objetivo
inferir, induzir ou estimar o comportamento da população a partir da qual a
amostra foi obtida. A estatística indutiva faz uma generalização a partir de
resultados particulares.
Um estudo estatístico completo de uma população deve basear‑se no
método estatístico, que é composto de uma série de fases:
• Definição do problema.
• Delimitação do problema.
• Planejamento para a obtenção dos dados.
• Coleta dos dados.
• Apuração dos dados.
• Apresentação dos dados.
• Análise dos dados.
• Interpretação dos dados.
Vimos que dados brutos são os dados apresentados da forma como
foram obtidos, sem nenhum tratamento ou nenhuma organização. Por
exemplo, em uma pesquisa de cargos e salários, o conjunto de dados com
o cargo do funcionário e o salário são dados brutos se não passaram por
nenhuma forma de organização.
37
ESTATÍSTICA
Se partirmos de dados brutos e aplicarmos alguma forma de
organização, teremos o que chamamos de rol. No rol, os dados podem ser
dispostos de forma crescente, decrescente ou alfabética.
Também tratamos das séries estatísticas, das distribuições de
frequências e da apresentação dos dados em tabelas e gráficos.
Definimos como séries estatísticas tabelas que apresentam dados
organizados em função do tempo, da localidade ou da espécie do dado.
As séries estatísticas são classificadas em históricas, geográficas, específicas
e conjugadas.
A maneira fundamental de apresentação e de organização de dados
estatísticos é sob a forma de tabelas. Tabelas são quadros que contêm um
conjunto de dados, seguindo determinada ordem ou classificação. São
partes fundamentais de uma tabela:
• título
• cabeçalho
• coluna indicadora
• corpo da tabela
— linhas
— células
Ao classificarmos dados por distribuição de frequências, fazemos a
contagem da ocorrência de cada evento. Para facilitar essa contagem,
podemos organizar os dados brutos em um rol antes de analisarmos as
frequências. No caso de dados agrupados por frequência, o tamanho da
amostra é relevante, já que quanto mais dados, maior a possibilidade
de ocorrência de um valor.
Os dados também podem ser organizados pela frequência relativa (fr),
de forma que o tamanho da amostra ou da população não fique evidente.
Na frequência relativa, dividimos a frequência de cada valor pelo número
total de dados na amostra ou população.
Podemos, ainda, representar um conjunto de dados pela frequência
acumulada (fa), em que somamos as frequências anteriores àquele valor.
38
Unidade I
Quando os resultados de uma pesquisa se espalham por uma faixa muito
grande de valores, é interessante agruparmos esses dados em classes ou
intervalos, que são faixas de valores. Para cada intervalo, temos um limite
inferior (Li) e um limite superior (Ls). A quantidade de intervalos ou classes
é escolhida de forma a representar a grandeza que está sendo analisada.
Usar poucas classes pode causar perda de informação, mas usar classes
demais pode dificultar a visualização dos dados. Normalmente, utilizamos
de 5 a 20 intervalos ou classes. Outra forma de mostrarmos intervalos é
usando o símbolo ├, que indica intervalo fechado à esquerda. Chamamos
de amplitude do intervalo o resultado do cálculo do limite superior do
intervalo menos o limite inferior, quando indicados com a notação de
intervalo fechado em apenas um dos lados. Para facilitar a leitura e a
interpretação dos dados, é recomendado que todos os intervalos da tabela
tenham a mesma amplitude.
Para efeito de análise dos dados, consideramos que todos os dados,
quando agrupados em intervalos ou classes, estão associados ao ponto
médio (Pm) da classe à qual pertencem. O ponto médio de uma classe
é calculado por:
Ls Li
Pm
2
+
=
Na equação:
• Ls é o limite superior do intervalo ou da classe;
• Li é o limite inferior do intervalo ou da classe.
Na distribuição de frequências de dados contínuos, os dados devem
ser agrupados em classes ou intervalos. Todas as observações feitas sobre
a distribuição de frequência para a variável discreta aplicam‑se também à
distribuição de frequências da variável contínua.
Vimos que a melhor forma de apresentar os dados ou os resultados de
uma pesquisa costuma ser por meio de gráficos.
O gráfico de dispersão em duas dimensões tem dois eixos, um na
vertical e outro na horizontal. Nos eixos, devemos indicar as grandezas
representadas neles e, se for o caso, as suas unidades. Na construção
de um gráfico de dispersão, devemos construir uma escala numérica em
cada um dos eixos. Essa escala numérica deve ser feita de forma que todos
os dados fiquem incluídos na escala, deve ter passo uniforme e sempre
39
ESTATÍSTICA
o mesmo comportamento ao longo do eixo, seja ele crescente, seja ele
decrescente. Como os eixos são independentes, podemos adotar escalas
com intervalos e passos distintos em cada um dos eixos. Podemos ter,
também, gráficos de dispersão tridimensionais, em que trabalhamos com
três eixos. Posicionados os eixos e construídas as suas escalas, marcamos
os pontos do gráfico, relacionando as grandezas nos dois eixos.
Quando desejamos mostrar a evolução de dada grandeza ou comparar
essa grandeza em locais e situações diferentes, trabalhamos com gráficos
de barras. Nos gráficos de barras,também temos dois eixos. No eixo vertical,
costumamos colocar a variável categórica e, no eixo horizontal, a variável
quantitativa. A espessura e a separação das barras podem ser ajustadas
de forma a facilitar a visualização. Se temos uma grande quantidade de
barras, podemos trabalhar com barras mais finas, embora barras de maior
espessura tenham melhor visualização.
O gráfico de colunas é similar ao gráfico de barras, com a diferença de
que, no gráfico de colunas, a variável categórica é representada no eixo
horizontal e a variável quantitativa é representada no eixo vertical.
O gráfico de setores, ou de “pizza”, é apresentado de forma circular
e é usado para representar a divisão de dada grandeza em diferentes
categorias, sendo que cada categoria usa uma fatia do círculo. Nesse tipo
de gráfico, é interessante representarmos a grandeza quantitativa sob a
forma de porcentagem. Um cuidado que precisamos ter em gráficos de
setores é com o uso das cores para representar cada fatia. Além disso, é
fundamental testarmos a acessibilidade do gráfico para pessoas com
distúrbios visuais na identificação de cores. O gráfico de setores pode não
ser adequado se tivermos uma grandeza muito menor do que as demais,
de forma que ela ocupe um setor muito pequeno do gráfico ou quando as
grandezas são similares.
O histograma é uma variação do gráfico de colunas, em que, no eixo
horizontal, os dados são divididos em intervalos ou classes, e, no eixo vertical,
são apresentadas as frequências dos dados. Os histogramas podem mostrar
as frequências absolutas ou as frequências relativas. O uso de frequências
relativas em histogramas é mais recomendado, pois o tamanho da amostra/
população não altera o eixo de frequências do gráfico. O histograma pode
incluir o que chamamos de polígono de frequências, obtido pela ligação
dos pontos médios do topo de cada barra do histograma.
40
Unidade I
Exercícios
Questão 1. Considere uma moeda, como a apresentada na figura a seguir, em que um dos lados é
chamado de cara e o outro é chamado de coroa.
Cara Coroa
Figura 15 – Faces de uma moeda
Imagine que, em 6 lançamentos dessa moeda, tenhamos observado a seguinte sequência de
resultados: cara, cara, coroa, coroa, cara e cara.
Com base no exposto e nos seus conhecimentos, avalie as afirmativas.
I – A sequência de resultados comprova que a moeda é desonesta, pois, em 6 lançamentos dessa
moeda, deveríamos ter obtido, obrigatoriamente, 3 caras e 3 coroas.
II – A frequência absoluta do resultado cara foi igual a 4.
III – A frequência relativa do resultado coroa foi igual a 0,2.
É correto o que se afirma em:
A) I, apenas.
B) II, apenas.
C) III, apenas.
D) II e III, apenas.
E) I, II e III.
Resposta correta: alternativa B.
41
ESTATÍSTICA
Análise das afirmativas
I – Afirmativa incorreta.
Justificativa: obter 4 caras e 2 coroas, e não 3 caras e 3 coroas, em apenas 6 lançamentos não
comprova que a moeda é desonesta. Se o número de lançamentos aumentar muito, o número de caras
e o número de coroas tendem a se tornar muito próximos.
II – Afirmativa correta.
Justificativa: como foram obtidas 4 caras, a frequência absoluta do resultado cara é igual a 4.
III – Afirmativa incorreta.
Justificativa: como foram obtidas 2 coroas em 6 lançamentos, a frequência relativa do resultado
coroa é:
2 1 0,33
6 3
≈=
Questão 2. Um entrevistador perguntou a um grupo de pessoas a respeito do sabor preferido de
sorvete. Com os dados obtidos, o entrevistador elaborou o gráfico a seguir.
7
6
5
4
3
2
1
0
Chocolate Morango Creme Flocos Napolitanos
Qu
an
tid
ad
e
de
p
es
so
as
Sabor preferido de sorvete
Figura 16
42
Unidade I
Com base no exposto e nos seus conhecimentos, avalie as afirmativas.
I – O gráfico elaborado pelo entrevistador é chamado de gráfico de dispersão.
II – Foram entrevistadas 20 pessoas.
III – O percentual de pessoas que prefere sorvete de flocos é igual a 30%.
É correto o que se afirma em:
A) I, apenas.
B) II, apenas.
C) III, apenas.
D) II e III, apenas.
E) I, II e III.
Resposta correta: alternativa D.
Análise das afirmativas
I – Afirmativa incorreta.
Justificativa: o gráfico elaborado pelo entrevistador é chamado de gráfico de colunas (ou
barras verticais).
II – Afirmativa correta.
Justificativa: na tabela a seguir, temos as quantidades de pessoas de preferem determinado sabor de
sorvete e a quantidade total de pessoas entrevistadas (20).
Tabela 13 – Preferência por sabores de sorvete
Sabor
do sorvete
Quantidade
de pessoas
Chocolate 5
Morango 4
Creme 3
Flocos 6
Napolitano 2
Total 20
43
ESTATÍSTICA
III – Afirmativa correta.
Justificativa: como 6 das 20 pessoas preferem sorvete de flocos, o percentual de pessoas que prefere
sorvete de flocos:
6
.100% 30%
20
=
44
Unidade II
Unidade II
3 MEDIDAS DE TENDÊNCIA CENTRAL
As medidas de tendência central são usadas para representar o conjunto de dados em um único
valor. São medidas de tendência central a média, a moda e a mediana. Conforme as características
do conjunto de dados e da finalidade de uso do indicador de tendência central, opta‑se por uma das
três medidas.
3.1 Médias
A primeira medida de tendência central a ser abordada é a média, que é um estimador adequado
para dados razoavelmente comportados (sem dados discrepantes). A média pode ser simples
ou ponderada.
Para calcular médias, é conveniente primeiro compreender o conceito de somatório.
3.1.1 Somatório
Somatório é um operador matemático indicado por Σ usado para somas sucessivas. No somatório,
indica‑se um índice com seu valor inicial e seu valor final, e esse índice é incrementado por uma unidade
a cada parcela somada.
Matematicamente, temos:
n
i 0 1 2 n 1 n
i 0
x x x x x x−
=
= + + +…+ +∑
Embaixo do símbolo de somatório, define‑se o índice que será incrementado e passamos o seu valor
inicial. Sobre o símbolo de somatório, colocamos o valor final do índice. Neste exemplo, o valor inicial
do índice i é 0, e o valor final é n. Então, somam‑se as parcelas de x cujo índice varia desde o valor inicial
0 até o valor final n.
É usual adotarmos as letras i ou j para índice de somatórios.
45
ESTATÍSTICA
Exemplo de aplicação
Calcule o valor da seguinte expressão matemática:
5
i 1
i
=
∑
No exemplo, a expressão pede para realizar o somatório entre os próprios valores assumidos pelo
índice i. Expandindo o somatório, com o índice i iniciando em 1 e terminando em 5, temos:
5
i 1
i 1 2 3 4 5
=
= + + + +∑
5
i 1
i 15
=
=∑
3.1.2 Média aritmética simples
A média de um conjunto de dados xi costuma ser indicada por <x> ou por x. Neste livro‑texto usa‑se
a notação x para representar a média.
A média aritmética simples de N dados é obtida somando‑se esses dados e dividindo‑se o resultado
da soma pelo número de dados N. Matematicamente, temos:
N
ii 1
x
x
N
== ∑
Note que, para resolver essa equação, primeiro é preciso calcular o somatório, que indica a
soma de todos os dados xi, com i de 1 até N, e, depois, é preciso dividir o resultado pelo número
de dados N.
Exemplo de aplicação
Imagine que os tempos de resposta de um computador ligado em rede sejam os listados na tabela
a seguir.
46
Unidade II
Figura 17 – Cabos passando por trás de uma máquina
Disponível em: https://cutt.ly/0Mx8p2R. Acesso em: 27 jun. 2022.
Tabela 14 – Tempos de resposta de um computador ligado em rede
Tempo de
resposta (ms)
1,013
1,102
1,004
1,121
Pode‑se calcular o tempo de resposta médio desse computador usando a seguinte equação:
N
ii 1
x
x
N
== ∑
Como são 4 dados e N indica o número de dados, temos N = 4; logo, a soma dos dados deve ser feita
do primeiro dado da tabela até o quarto e último dado, usando a letra t em vez de x na equação por se
tratar da variável tempo (usualmente representado por t). Portanto:
47
ESTATÍSTICA
4
ii 1
t
t
4
== ∑
1 2 3 4t t t tt
4
+ + +
=
1,013 1,102 1,004 1,121
t
4
+ + +
=
Calcula‑se primeiro a soma que está no numerador da fração:
4,240
t
4
=
Então,calcula‑se a divisão:
t 1,060 ms=
Logo, o tempo de resposta médio desse computador na rede é de 1,060 ms.
Observação
O tempo de resposta do computador em rede foi calculado em ms, ou
seja, em milissegundos. O prefixo mili representa 10‑3, ou 0,001. A tabela a
seguir apresenta outros prefixos frequentemente usados.
Tabela 15 – Alguns prefixos
Nome
do prefixo
Valor
do prefixo
mili (m) 10‑3 ou 0,001
micro (µ) 10‑6 ou 0,000001
nano (n) 10‑9 ou 0,000000001
kilo (k) 103 ou 1.000
mega (M) 106 ou 1.000.000
giga (G) 109 ou 1.000.000.000
tera (T) 1012 ou 1.000.000.000.000
48
Unidade II
Saiba mais
Para uma introdução à linguagem de programação Python, acesse:
W3BIG. Tutorial baseado em Python. W3big, [s.d.]. Disponível em:
https://cutt.ly/5MTsKZH. Acesso em: 14 nov. 2022.
Para ver aplicações do cálculo de média aritmética em Python, acesse:
RIYAZ, N. Calcule a média aritmética em Python. DelftStack, Londres,
9 jul. 2021. Disponível em: https://cutt.ly/bMTcG0w. Acesso em: 14 nov. 2022.
Para ler sobre a linguagem R, acesse:
PRATES, M. O. Introdução ao Software R. Departamento de Estatística
da Universidade Federal de Minas Gerais, Belo Horizonte, dez. 2016.
Disponível em: https://cutt.ly/DMTvQOY. Acesso em: 14 nov. 2022.
Para saber como calcular média aritmética e outras estatísticas que
veremos mais adiante em R, acesse:
SILVA, H. A. Estatística descritiva com o R. RPubs, 18 jan. 2018.
Disponível em: https://cutt.ly/AMTvLEo. Acesso em: 14 nov. 2022.
Também é possível calcular médias em SQL, linguagem popular para
banco de dados. Para saber como calcular médias em SQL, acesse:
DIZ, J. Análise de dados com SQL: médias. Porto SQL, Belo Horizonte, 16
out. 2020. Disponível em: https://cutt.ly/FMTbuBl. Acesso em: 14 nov. 2022.
A média aritmética simples trata todos os dados de forma igual, com mesmo peso no cálculo final,
mas pode ser necessário aplicar um peso maior em alguns dados – o que é feito na média ponderada.
3.1.3 Média ponderada
A média ponderada é calculada de modo que cada dado é multiplicado por seu peso pi.
Se temos N medidas xi, cada uma associada a um peso pi, a média ponderada é calculada por:
N
i ii 1
N
ii 1
p .x
x
p
=
=
= ∑
∑
49
ESTATÍSTICA
Note que, no numerador da fração, há a soma do produto de cada medida pelo seu peso, e, no
denominador, a soma de todos os pesos – lembrando que é preciso calcular os somatórios para em
seguida calcular a divisão.
No exemplo a seguir é demonstrado um cálculo de média ponderada.
Exemplo de aplicação
Considere o caso de um aluno que tirou as seguintes notas: 8 na primeira prova, 7 na segunda prova
e 4 na terceira prova. Se pensarmos em média aritmética simples, a média do aluno seria superior a 5 e
ele estaria aprovado na disciplina. Mas a vida não é tão simples para esse aluno, pois a última prova tem
peso 3 e as demais têm peso 1.
Figura 18 – Prova
Disponível em: https://cutt.ly/eMx7N7Y. Acesso em: 14 nov. 2022.
Para calcular a média do aluno, é preciso usar a média ponderada. Da equação para esse cálculo, temos:
N
i ii 1
N
ii 1
p .x
x
p
=
=
= ∑
∑
Substituindo os pesos e as notas no somatório, ficamos com:
1.8 1.7 3.4
x
1 1 3
+ +
=
+ +
50
Unidade II
Note que, no numerador, soma‑se o produto do peso de cada prova pela nota da respectiva prova,
e, no denominador, temos a soma dos pesos de cada prova.
Fazendo os cálculos, chega‑se a:
8 7 12
x
5
+ +
=
27
x
5
=
x 5,4=
A média ponderada das notas das provas, com nota 8 na primeira prova, nota 7 na segunda e nota
4 na terceira, com peso 3 na última prova e peso 1 nas demais, foi 5,4. Logo, o aluno foi aprovado ao
considerar a média mínima igual a 5 para aprovação.
3.1.4 Média para medidas organizadas em classes
Veja, agora, como calcular a média quando estão disponíveis as informações das frequências de um
conjunto de dados.
Se temos N medidas xi, organizadas em classes (ou intervalos) de ponto médio Pmi e frequência fi, a
média é calculada por:
N
i ii 1
N
ii 1
Pm .f
x
f
=
=
= ∑
∑
Note que, se os dados estão organizados em frequências absolutas, a soma das frequências é
igual ao número de dados N, mas, se os dados estão organizados em frequências relativas, a soma das
frequências é igual a 1.
O cálculo da média de uma distribuição de frequências é tratado no exemplo a seguir.
51
ESTATÍSTICA
Exemplo de aplicação
Considere a tabela a seguir, que mostra as frequências de salários em uma empresa.
Figura 19 – Moedas empilhadas sobre notas de dinheiro
Disponível em: https://cutt.ly/mMx7WMN. Acesso em: 14 nov. 2022.
Tabela 16 – Distribuição dos salários em uma empresa
Salário
(em salários mínimos)
Ponto médio do intervalo
(em salários mínimos)
Número
de funcionários
0 ⊢ 2 1 0
2 ⊢ 4 3 5
4 ⊢ 6 5 3
6 ⊢ 8 7 12
8 ⊢ 10 9 4
Calculando a média, em que o peso é o número de funcionários e o dado é o valor central da faixa
de salários, temos:
N
i ii 1
N
ii 1
Pm .f
x
f
=
=
= ∑
∑
0.1 5.3 3.5 12.7 4.9
x
0 5 3 12 4
+ + + +
=
+ + + +
0 15 15 84 36
x
8 16
+ + + +
=
+
52
Unidade II
150
x
24
=
x 6,25=
Logo, o salário médio nessa empresa considerando a distribuição de salários dada é igual a
6,25 salários mínimos.
Lembrete
O ponto médio de um intervalo é calculado pela soma do limite
superior (Ls) desse intervalo e do seu limite inferior (Li), dividida por 2.
Ls Li
Pm
2
+
=
No exemplo, pode‑se trabalhar com uma planilha de frequências, mas também obter os dados de um
histograma, como será visto no exemplo a seguir.
Exemplo de aplicação
Considere o histograma do lançamento de um dado de 6 faces, visto na figura 12. Qual é o valor
esperado para a face do dado no próximo lançamento, sabendo que o valor esperado é o valor médio?
Distribuição de frequências para lançamento de um dado numérico de 6 faces
frequência
face654321
4
3
2
1
Figura 20 – Exemplo de histograma construído a partir dos dados da tabela 8, com dados de
frequência relativa dos resultados dos lançamentos de um dado de 6 faces
53
ESTATÍSTICA
Como temos a informação de frequência, deve‑se usar a média.
N
i ii 1
N
ii 1
p .f
x
p
=
=
= ∑
∑
Temos as frequências (no caso, frequências absolutas) de cada face do dado. Então, substituindo
essas informações na equação e colocando a soma do produto de cada face pela sua frequência no
numerador da fração e a soma das frequências no denominador, temos o seguinte:
3.1 4.2 2.3 1.4 2.5 2.6
x
3 4 2 1 2 2
+ + + + +
=
+ + + + +
3 8 6 4 10 12
x
7 7
+ + + + +
=
+
11 10 22
x
14
+ +
=
43
x
14
=
x 3≅
Nem sempre um valor inteiro é obtido como média. Como no exemplo constam apenas resultados
de números inteiros no lançamento de um dado, pode‑se dizer que, no caso de média não inteira, o
resultado mais provável seria o valor inteiro mais próximo do valor médio.
3.2 Mediana
A mediana é o valor central de um conjunto de dados quando esses são organizados em um rol,
seja ele crescente, seja ele decrescente. Se temos uma quantidade ímpar de dados, o valor central é
determinado sem maiores problemas, mas, se temos um número par de dados, a mediana é a média dos
dois valores centrais.
A mediana é frequentemente indicada por Md.
54
Unidade II
Lembrete
Ao tomarmos um conjunto de dados e aplicarmos uma ordenação,
do maior para o menor, em ordem alfabética ou em qualquer outra
ordenação, teremos um rol.
Exemplo de aplicação
Considere as medidas para a espessura de uma chapa metálica, em milímetros, expressas na
tabela 17 a seguir.
Tabela 17 – Medidas da espessura de uma chapa metálica, em
milímetros
Espessura (mm)
2,03
2,41
1,99
1,82
2,06
2,03
2,01
Para calcular a mediana, precisamos primeiro ordenar os dados. Aqui, faremos a ordenação de forma
crescente, mas o resultado seria o mesmo se a ordenação fosse decrescente.
Ordenando os dados do menor para o maior, temos o que se mostra na tabela 18 a seguir.
Tabela 18 – Medidas ordenadas da espessura
de uma chapa metálica, em milímetros
Espessura (mm)
1,82
1,99
2,01
2,03
2,03
2,062,41
O valor central da tabela é 2,03, pois temos 3 dados abaixo e 3 dados acima desse valor.
Então, a mediana na espessura da chapa metálica é 2,03 mm.
55
ESTATÍSTICA
Esse exemplo de aplicação usou valores próximos, mas a mediana é útil quando temos valores
discrepantes (conhecidos como outliers) e não se quer que esses valores afetem o valor médio. A média
aritmética é facilmente afetada por outliers, enquanto a mediana é uma estatística mais robusta, menos
afetada por outliers.
Exemplo de aplicação
Para avaliar o uso de memória em um computador, foram feitas medidas de seu uso em momentos
aleatórios ao longo do dia, conforme observado na tabela a seguir.
Figura 21 – Pente de memória
Disponível em: https://cutt.ly/BMcr6Bu. Acesso em: 14 nov. 2022.
Tabela 19 – Uso da memória de um computador
Uso de memória (%)
3,2
5,3
3,1
2,5
99,5
7,4
Examinando os valores, vemos que quase todos se encontram abaixo de 10%; mas há um valor
discrepante, próximo de 100%.
Se calcularmos a média aritmética simples dos dados, essa média seria muito alterada por esse valor
discrepante, como demonstrado no cálculo a seguir:
56
Unidade II
N
ii 1
x
x
N
== ∑
3,2 5,3 3,1 2,5 99,5 7,4
x
6
+ + + + +
=
121
x
6
=
x 20,17=
Logo, o uso médio de memória usando média aritmética simples é de 20,17%. Mesmo com a
maior parte dos valores abaixo de 10%, o valor discrepante próximo de 100% deslocou a média
para cima.
No caso, podemos usar a mediana, por ser uma estatística mais robusta que a média para a situação
em análise. Para calcular a mediana, precisamos primeiro ordenar os dados em um rol.
Tabela 20 – Uso da memória de um computador (medidas ordenadas)
Uso de memória (%)
2,5
3,1
3,2
5,3
7,4
99,5
A mediana é o valor central do rol, mas, neste caso, temos dois valores centrais de acordo com a
ordenação feita na tabela 20 por haver um número par de dados. A mediana, no caso, é o valor médio
dos dois valores centrais:
3,2 5,3
Md
2
+
=
8,5
Md
2
=
Md 4,25=
57
ESTATÍSTICA
Logo, o uso médio de memória usando mediana como estatística é igual a 4,25%. Esse valor é
bem inferior ao valor obtido usando a média aritmética simples, pois a mediana é menos afetada por
valores discrepantes.
Ao calcular a mediana de dados organizados como uma distribuição de frequências, adotam‑se os
seguintes passos:
• somam‑se as frequências do conjunto de dados para obtermos o tamanho da amostra ou da
população (N=∑fi);
• encontra‑se o valor central da distribuição de frequências (N/2);
• localiza‑se em qual intervalo essa frequência está inclusa;
• calcula‑se a mediana usando a expressão a seguir:
anteriores
Md
N
f
2Md Li .A
f
− ∑
= +
Na equação, temos o seguinte:
• Li = limite inferior da classe que contém a mediana.
• N = tamanho da amostra ou da população.
• ∑fanteriores = soma das frequências das classes anteriores à classe que contém a mediana.
• A = amplitude da classe que contém a mediana.
• fMd = frequência da classe que contém a mediana.
Lembrete
Definimos a amplitude A de uma classe (ou intervalo) como a
diferença entre o limite superior e o limite inferior da classe (ou intervalo).
Matematicamente, tem‑se:
A Ls Li= −
58
Unidade II
3.3 Moda
Definimos como moda o valor mais frequente de uma distribuição de dados – ou seja, a moda é o
valor com maior número de ocorrências.
A moda costuma ser indicada por Mo.
Exemplo de aplicação
Voltando aos dados do exemplo de distribuição de salários em uma empresa, temos os seguintes
valores.
Tabela 21 – Distribuição dos salários em uma empresa
Salário
(em salários mínimos)
Número
de funcionários
0 ⊢ 2 0
2 ⊢ 4 5
4 ⊢ 6 3
6 ⊢ 8 12
8 ⊢ 10 4
A moda desses valores é o valor mais frequente, ou seja, com maior número de ocorrências. A faixa de
valores com maior número de ocorrências é a faixa de 6 a 8 salários mínimos, com 12 funcionários com esse
rendimento. Considerando a moda como o ponto médio do intervalo, a moda é igual a 7 salários mínimos.
Podemos também calcular a moda a partir de dados organizados em um histograma.
Exemplo de aplicação
Considere o histograma a seguir, com os resultados de 14 lançamentos de um dado de 6 faces.
Distribuição de frequências para lançamento de um dado numérico de 6 faces
frequência
face654321
4
3
2
1
Figura 22 – Exemplo de histograma construído a partir dos dados da tabela 8,
com dados de frequência relativa dos resultados de 14 lançamentos de um dado de 6 faces
59
ESTATÍSTICA
A moda é o valor mais frequente, ou seja, de maior número de ocorrências. Analisando o histograma,
vemos que o valor mais frequente foi 2. Logo, a moda é 2.
A determinação da moda de uma distribuição pode não ser tão simples, pois uma distribuição pode
não ter apenas uma moda.
Se uma distribuição de dados tem apenas uma moda, ela é dita unimodal. Se uma distribuição de
dados tem duas modas (dois valores igualmente frequentes), ela é dita bimodal. Podemos ter ainda
distribuições multimodais ou plurimodais, com três ou mais modas.
4 MEDIDAS DE DISPERSÃO
As medidas de dispersão têm como objetivo indicar o “espalhamento” dos dados, ou seja, se eles
estão mais concentrados perto do valor médio ou mais espalhados em relação a esse valor.
Figura 23 – Exemplo de espalhamento aplicado a discos coloridos
Disponível em: https://cutt.ly/HMct3xF. Acesso em: 14 nov. 2022.
4.1 Amplitude total
A amplitude total, representada por A, é calculada pela diferença entre o maior dado e o menor dado
do conjunto. Indicando um elemento qualquer do conjunto de dados como xi, com o menor dado sendo
xmin e o maior dado sendo xmax, temos:
max minA x x= −
60
Unidade II
Exemplo de aplicação
Na cotação de uma peça para reposição em um servidor, foram obtidos os seguintes valores:
Tabela 22 – Cotação de preços de uma peça para o servidor
Preço da peça (R$)
632,12
600,00
621,00
683,20
610,10
Determina‑se a amplitude total dos dados pela diferença entre o valor máximo e o valor mínimo.
O valor máximo registrado na tabela 22 é R$ 683,20, e o mínimo, R$ 600,00. Dessa forma, tem‑se:
A 683,20 600,00= −
A 83,20=
Logo, a amplitude total dos preços da peça de reposição do servidor é igual a R$ 83,20.
Caso os dados estejam organizados em uma distribuição de frequências, podemos determinar a
amplitude total de duas formas:
• A amplitude A é dada pela diferença entre o ponto médio da maior classe (ou intervalo) e o ponto
médio da menor classe (ou intervalo).
• A amplitude A é dada pela diferença entre o limite superior da maior classe (ou intervalo) e o
limite inferior da menor classe (ou intervalo).
Lembrete
O ponto médio de uma classe é calculado por:
Ls Li
Pm
2
+
=
Na equação, Ls é o limite superior e Li é o limite inferior da classe
(ou intervalo).
61
ESTATÍSTICA
Exemplo de aplicação
Considere a tabela 23 a seguir que relaciona a distribuição de salários na área de TI em
uma empresa.
Figura 24 – Moedas empilhadas representando um histograma
Disponível em: https://cutt.ly/mMcyALc. Acesso em: 14 nov. 2022.
Tabela 23 – Distribuição dos salários na área de TI em uma empresa
Salário
(em salários mínimos)
Número
de funcionários
2 ⊢ 4 2
4 ⊢ 6 9
6 ⊢ 8 12
8 ⊢ 10 4
Os dados são apresentados em intervalos de frequência. Então, pode‑se calcular a amplitude total
tanto olhando tanto para os pontos médios dos intervalos quanto para os limites dos intervalos.
O menor intervalo é 2 ⊢ 4. Ao calcular seu ponto médio, tem‑se:
Ls Li
Pm
2
+
=
4 2
Pm
2
+
=
6
Pm
2
=
Pm 3=
62
Unidade II
Fazendo o mesmo cálculo para a maior classe, 8 ⊢ 10, tem‑se:
Ls Li
Pm
2
+
=
10 8
Pm
2
+
=
18
Pm
2
=
Pm 9=
Calculando a amplitude total dos dados pela diferença entre o ponto médio das duas classes
extremas, tem‑se:
max minA Pm Pm= −
A 9 3= −
A 6=
Outra forma de calcular a amplitude total de dados organizados em classes (ou intervalos) é
considerar apenas os extremos das classes maior e menor. Olhando novamente para a tabela, vemos que
a menor classe é 2 ⊢ 4e que a maior classe é 8 ⊢ 10. Logo, calculando a amplitude dessa forma, temos:
maior classe menor classeA Ls Li= −
A 10 2= −
A 8=
Note que foram obtidos valores ligeiramente diferentes com os dois métodos, mas ambos servem
como um indicativo da dispersão dos dados.
A amplitude total é uma medida de dispersão que leva em conta apenas os valores máximos e
mínimos dos dados, insensível aos valores intermediários. Por isso, ela pode ser bastante afetada por
dados discrepantes e deve ser usada com cautela.
63
ESTATÍSTICA
4.2 Desvio médio simples
O desvio médio simples é um indicador de dispersão dos dados que considera o quanto cada dado xi
se afasta do valor médio x. O desvio médio simples é indicado por Dm e é calculado por:
N
ii 1
x x
Dm
N
=
−
= ∑
Na equação, N é o número de dados da população ou da amostra.
Observação
O módulo (ou valor absoluto) de um número x é indicado por |x| e é um
operador que retorna o valor numérico sempre positivo. Por exemplo:
|2| = 2
|‑2| = 2
O módulo (ou valor absoluto) de um número é usado não apenas em
matemática ou estatística, mas também em programação.
Em programação, costuma‑se usar o operador módulo para indicar o
resto da divisão de um número inteiro por outro – o que não deve ser
confundido com o módulo na matemática.
Saiba mais
Para saber mais sobre o operador ABS() em Python, leia:
W3BIG. Função Python abs (). W3big, [s.d.]a.
Disponível em: https://cutt.ly/VMIc39k. Acesso em: 14 nov. 2022.
64
Unidade II
Exemplo de aplicação
Considere as medidas para o diâmetro de uma bolinha de gude mostradas na tabela 24.
Figura 25 – Bolinhas de gude
Disponível em: https://cutt.ly/LMcR94S. Acesso em: 14 nov. 2022.
Tabela 24 – Medidas de diâmetro de uma bolinha de gude
Diâmetro (mm)
20,34
20,39
20,28
20,34
A dispersão desses dados pode ser estimada calculando‑se o desvio médio simples, como feito a seguir.
ii 1
x x
Dm
N
=
−
= ∑
O desvio médio simples é a soma dos módulos das diferenças entre cada valor xi e o valor médio x̄,
dividida pelo número de dados N. É preciso, então, calcular a média dos dados.
Para calcular a média, soma‑se todos os dados e divide‑se esse resultado pelo número de dados, que,
no caso, é N = 4.
N
ii 1
x
x
N
== ∑
20,34 20,39 20,28 20,34
x
4
+ + +
=
65
ESTATÍSTICA
81,35
x
4
=
x 20,34=
Voltando ao cálculo do desvio médio, ficamos com:
N
ii 1
x x
Dm
N
=
−
= ∑
20,34 20,34 20,39 20,34 20,28 20,34 20,34 20,34
Dm
4
− + − + − + −
=
0 0,05 0,06 0
Dm
4
+ + − +
=
Como o módulo de um número positivo é esse valor numérico positivo, e o módulo de um número
negativo é esse valor numérico mas também positivo, temos:
0,05 0,06
Dm
4
+
=
0,11
Dm
4
=
Dm 0, 027=
Logo, o desvio médio das medidas de diâmetro da bolinha de gude é Dm = 0,027 mm.
O exemplo anterior demonstrou o cálculo do desvio médio para um conjunto de dados, mas como
foi calculado o desvio médio se os dados estão organizados em uma distribuição de frequências? Nesse
caso, o desvio médio da distribuição é dado por:
N
i ii 1
Pm x .f
Dm
N
=
−
= ∑
Na equação, Pmi é o ponto médio de cada classe (ou intervalo) de frequência fi. Como no caso
anterior, tem‑se N dados e valor médio x.
66
Unidade II
Lembrete
Se há N medidas xi organizadas em classes (ou intervalos) de ponto
médio Pmi e frequência fi, a média é calculada por:
N
i ii 1
N
ii 1
Pm .f
x
f
=
=
= ∑
∑
Exemplo de aplicação
No setor de controle de qualidade de uma fábrica, são medidas as massas de embalagens de macarrão.
As massas não podem ser inferiores a 0,5 kg, mas também não podem ser muito superiores a esse valor.
Para fazer o controle, o setor calcula o desvio médio de uma amostra de pacotes de macarrão.
Figura 26 – Pacotes de macarrão
Disponível em: https://cutt.ly/DMIboXc. Acesso em: 14 nov. 2022.
A tabela a seguir mostra a distribuição de frequências das massas dos pacotes de macarrão de
uma amostra.
Tabela 25 – Distribuição de frequências das massas
de pacotes de macarrão de uma amostra
m (kg) fi
0,50 ⊢ 0,51 12
0,51 ⊢ 0,52 35
0,52 ⊢ 0,53 21
0,53 ⊢ 0,54 10
0,54 ⊢ 0,55 8
0,55 ⊢ 0,56 1
67
ESTATÍSTICA
De início, calcula‑se a média das massas de pacotes. Para tanto, é preciso calcular o ponto médio de
cada classe (ou intervalo):
0,50 ⊢ 0,51→ 1
0,51 0,50
Pm 0,505
2
−
= =
0,51 ⊢ 0,52→ 2
0,52 0,51
Pm 0,515
2
−
= =
0,52 ⊢ 0,53→ 3
0,53 0,52
Pm 0,525
2
−
= =
0,53 ⊢ 0,54→ 4
0,54 0,53
Pm 0,535
2
−
= =
0,54 ⊢ 0,55→ 5
0,55 0,54
Pm 0,545
2
−
= =
0,55 ⊢ 0,56→ 6
0,56 0,55
Pm 0,555
2
−
= =
Calculando a massa média, temos:
N
i ii 1
N
ii 1
Pm .f
x
f
=
=
= ∑
∑
0,505.12 0,515.35 0,525.21 0,535.10 0,545.8 0,555.1
x
12 35 21 10 8 1
+ + + + +
=
+ + + + +
6,06 18,025 11,025 5,35 4,36 0,555
x
87
+ + + + +
=
45,375
x
87
=
x 0,521=
Calculando o desvio médio dos dados, temos:
N
i ii 1
Pm x .f
Dm
N
=
−
= ∑
68
Unidade II
0,505 0,521 .12 0,515 0,521 .35 0,525 0,521 .21
Dm
12 35 21 10 8 1
− + − + −
= +
+ + + + +
0,535 0,521 .10 0,545 0,521 .8 0,555 0,521 .1
12 35 21 10 8 1
− + − + −
+
+ + + + +
0,016 .12 0,006 .35 0,004 .21
Dm
87
− + − +
= +
0,014 .10 0,024 .8 0,034 .1
87
+ +
+
0,016.12 0,006.35 0,004.21 0,014.10 0,024.8 0,034.1
Dm
87
+ + + + +
=
0,192 0,21 0,084 0,14 0,192 0,034
Dm
87
+ + + + +
=
0,852
Dm
87
=
Dm 0,0098=
Logo, o desvio médio das massas dos pacotes de macarrão na amostra é Dm = 0,0098 kg, ou seja,
9,8 gramas.
Observação
No último exemplo, foram demonstradas equações longas que não
couberam na mesma linha da página. O que é feito nesses casos é a quebra
da equação em duas linhas, repetindo o sinal da operação no final na
primeira linha e no início da segunda linha. Como tratam‑se de frações,
repete‑se o denominador na linha de baixo, lembrando que:
a b a b
c c c
+
= +
69
ESTATÍSTICA
Note que os cálculos do exemplo anterior envolveram expressões matemáticas grandes, com
a soma de diversos termos. Quanto mais dados existirem, mais termos farão parte da soma do
desvio médio e de outras estatísticas. Uma forma de facilitar o cálculo do desvio médio é o
uso de tabelas.
A expressão para o cálculo do desvio médio é:
N
ii 1
x x
Dm
N
=
−
= ∑
Separando as etapas do cálculo dessa expressão em colunas de uma tabela, temos o seguinte.
Tabela 26 – Exemplo de tabela para o cálculo do desvio médio Dm
x =
xi |xi‑x|
⋮ ⋮
i ix x .fΣ − =
ix xDm
N
Σ −
= =
Na tabela 26, preenchem‑se os valores dos dados xi e, em seguida, calcula‑se o valor médio x
ao somá‑los e divide‑se tal soma pelo número de dados. Coloca‑se o resultado na primeira linha
da tabela. Na sequência, completa‑se a segunda coluna da tabela, subtraindo o valor médio de
cada dado, e coloca‑se o resultado, em módulo, na tabela. Por último, somam‑se as linhas calculadas
na segunda coluna e divide‑se o resultado pelo número de dados: é obtido, assim, o desvio médio Dm.
Se os dados estão em uma distribuição de frequências, o desvio médio é calculado por:
N
i ii 1
Pm x .f
Dm
N
=
−
= ∑
O cálculo do desvio médio por essa equação inclui algumas colunas a mais na tabela para o cálculo
do desvio médio Dm.
70
Unidade II
Tabela 27 – Exemplo de tabela para o cálculo do desvio médio Dm
x =
Pmi fi |Pmi‑x| |Pmi‑x |.fi
⋮ ⋮ ⋮ ⋮
i iPm x .fΣ − =
i iPm x .f
Dm ¨
N
Σ −
= =
Na tabela 27, são preenchidos os valores dos pontos médios dos intervalos/classes Pmi e as
frequências fi. Em seguida, calcula‑se o valor médio x e o resultado é colocado na primeira linha
da tabela. Na sequência, preenche‑se a terceira coluna da tabela, subtraindo o valor médio de cada
ponto médio do intervalo/classe, e o valor é colocado, em módulo, na tabela. Multiplicam‑se os
resultados da terceira coluna pelas frequências fi e a quarta e última coluna da tabela é preenchida.
Por último, somam‑se as linhas que foram calculadas na quarta coluna e divide‑se o resultado pelo
número de dados: é obtido, assim, o desvio médio Dm.
A seguir, estudaremos outras medidas de dispersão, como a variância e o desvio padrão.
4.3Variância e desvio padrão
O desvio padrão é uma medida da dispersão dos dados em torno da média que considera o quadrado
do desvio de cada dado em relação ao valor médio. O desvio padrão é frequentemente indicado pela
letra grega σ. O desvio padrão é calculado de forma distinta se temos uma amostra ou uma população.
No caso de uma população, o desvio padrão σ de um conjunto de N dados xi, de valor médio x
é dado por:
( )2ii 1 x x
N
=
−
σ = ∑
Note que o procedimento de cálculo dessa expressão envolve subtrair o valor médio de cada dado e
elevar o resultado ao quadrado, somar os resultados dessa diferença ao quadrado para todos os dados,
dividir pelo número de dados para, finalmente, calcular a raiz quadrada do resultado.
Se os dados são organizados em uma distribuição de frequências fi de ponto médio Pmi, ainda para
uma população, o desvio padrão é dado por:
71
ESTATÍSTICA
( )N 2i ii 1 Pm x .f
N
=
−
σ = ∑
No caso de uma amostra, o desvio padrão σ de um conjunto de N dados xi, de valor médio x
é dado por:
( )N 2ii 1 x x
N 1
=
−
σ =
−
∑
Se os dados são organizados em uma distribuição de frequências fi de ponto médio Pmi, ainda para
uma amostra o desvio padrão é dado por:
( )N 2i ii 1 Pm x .f
N 1
=
−
σ =
−
∑
A variância é indicada por σ2 e é o quadrado do desvio padrão.
Novamente, pelo fato de os cálculos do desvio padrão – e, consequentemente, da variância –
envolverem somas com vários termos, o uso de tabelas facilita o processo algébrico.
Para calcular o desvio padrão de uma amostra de dados, podemos trabalhar com uma tabela
similar à seguinte.
Tabela 28 – Exemplo de tabela para o cálculo
do desvio padrão σ de uma amostra
x =
xi xi‑x (xi‑x)
2
⋮ ⋮ ⋮
( )2ix xΣ − =
( )2ix x
N 1
Σ −
=
−
( )2ix x
N 1
Σ −
σ = =
−
72
Unidade II
Note que as etapas de preenchimento da tabela 28 são iguais às etapas de cálculo pela equação.
Na tabela, primeiro preenchem‑se os dados xi na primeira coluna, calcula‑se o valor médio e coloca‑se
esse valor na primeira linha. Em seguida, calculam‑se os valores da segunda coluna, subtraindo o
valor médio de cada dado. Obtêm‑se, então, os valores da terceira coluna, calculando o quadrado
dos resultados da segunda coluna. Por fim, somam‑se os resultados da terceira coluna, colocando
esses resultados parciais na antepenúltima linha. Dividem‑se tais resultados por N‑1, colocam‑se os
resultados na penúltima linha e, finalmente, calculam‑se as raízes dos resultados na penúltima linha,
colocando os resultados dos cálculos dos desvios padrões na última linha da tabela.
O cálculo para uma população é feito em uma tabela similar, mas as divisões são feitas por N em
vez de por N‑1.
Para o caso de dados organizados em uma distribuição de frequências, a tabela de cálculo é similar,
mas envolve os pontos médios Pmi e as frequências fi de cada classe (ou intervalo) e, por isso, tem
algumas colunas a mais.
Tabela 29 – Exemplo de tabela para o cálculo
do desvio padrão σ de uma amostra
x =
Pmi fi Pmi‑x (Pmi‑x)
2 (Pmi‑x)
2.fi
⋮ ⋮ ⋮ ⋮ ⋮
( )2i iPm x .fΣ − =
( )2i iPm x .f
N 1
Σ −
=
−
( )2i iPm x .f
N 1
Σ −
σ = =
−
Exemplo de aplicação
Para determinar a altura média e o desvio padrão de crianças de 9 anos, foram escolhidas ao acaso
cinco crianças dessa idade de uma mesma escola. A altura das crianças é dada na tabela a seguir.
Tabela 30 – Alturas de crianças de 9 anos
Altura (m)
1,43
1,25
1,49
1,33
1,45
73
ESTATÍSTICA
Figura 27 – Crianças medindo suas alturas
Disponível em: https://cutt.ly/xMcPE70. Acesso em: 14 nov. 2022.
Deseja‑se calcular o desvio padrão das alturas dadas.
O primeiro passo é identificar se trata‑se de uma população ou de uma amostra. Como as alturas
são de cinco crianças, e não de todas as crianças do universo nessa idade, não há dados da população
completa (todas as crianças de 9 anos do universo); portanto, trata‑se de uma amostra.
A expressão para calcularmos o desvio padrão de uma amostra é:
( )N 2ii 1 x x
N 1
=
−
σ =
−
∑
74
Unidade II
Para facilitar o cálculo, são usadas tabelas, partindo de uma tabela similar à tabela 28, mas com
espaço para acomodar os 5 dados que temos. Na tabela a seguir, os dados de altura das crianças já
foram colocados.
Tabela 31 – Tabela para o cálculo do desvio
padrão da altura de crianças de 9 anos (parte 1)
x =
xi xi‑x (xi‑x)
2
1,43
1,25
1,49
1,33
1,45
( )2ix xΣ − =
( )2ix x
N 1
Σ −
=
−
( )2ix x
N 1
Σ −
σ = =
−
É necessário calcular a altura média, somando todas as alturas e dividindo pelo número
de crianças:
5
ii 1
x
x
5
== ∑
1,43 1,25 1,49 1,33 1,45
x
5
+ + + +
=
6,95
x
5
=
x 1,39=
Colocando essa informação na tabela, calculando a diferença entre cada dado e o valor médio e
colocando o resultado na segunda coluna, temos o que segue:
75
ESTATÍSTICA
Tabela 32 – Tabela para o cálculo do desvio padrão da altura de
crianças de 9 anos (parte 2)
x = 1,39
xi xi‑x (xi‑x)
2
1,43 0,04
1,25 ‑0,14
1,49 0,10
1,33 ‑0,06
1,45 0,06
( )2ix xΣ − =
( )2ix x
N 1
Σ −
=
−
( )2ix x
N 1
Σ −
σ = =
−
Elevando os resultados da segunda coluna ao quadrado para preencher a terceira coluna da tabela 32,
temos o que segue:
Tabela 33 – Tabela para o cálculo do desvio padrão da altura de
crianças de 9 anos (parte 3)
x = 1,39
xi xi‑x (xi‑x)2
1,43 0,04 0,0016
1,25 ‑0,14 0,0196
1,49 0,10 0,0100
1,33 ‑0,06 0,0036
1,45 0,06 0,0036
( )2ix xΣ − =
( )2ix x
N 1
Σ −
=
−
( )2ix x
N 1
Σ −
σ = =
−
76
Unidade II
Somando todos os resultados da terceira coluna, tem‑se o que é apresentado na tabela a seguir:
Tabela 34 – Tabela para o cálculo do desvio
padrão da altura de crianças de 9 anos (parte 4)
x = 1,39
xi xi‑x (xi‑x)
2
1,43 0,04 0,0016
1,25 ‑0,14 0,0196
1,49 0,10 0,0100
1,33 ‑0,06 0,0036
1,45 0,06 0,0036
( )2ix xΣ − = 0,0384
( )2ix x
N 1
Σ −
=
−
( )2ix x
N 1
Σ −
σ = =
−
Fazendo a divisão por N‑1, ou seja, por 4 (5 dados ‑ 1), temos o que segue:
Tabela 35 – Tabela para o cálculo do desvio
padrão da altura de crianças de 9 anos (parte 5)
x = 1,39
xi xi‑x (xi‑x)
2
1,43 0,04 0,0016
1,25 ‑0,14 0,0196
1,49 0,10 0,0100
1,33 ‑0,06 0,0036
1,45 0,06 0,0036
( )2ix xΣ − = 0,0384
( )2ix x
N 1
Σ −
−
= 0,0096
( )2ix x
N 1
Σ −
σ =
−
=
77
ESTATÍSTICA
Calculando, finalmente, a raiz quadrada desse resultado intermediário, chega‑se ao desvio padrão σ
Tabela 36 – Tabela para o cálculo do desvio
padrão da altura de crianças de 9 anos (parte 6)
x = 1,39
xi xi‑x (xi‑x)
2
1,43 0,04 0,0016
1,25 ‑0,14 0,0196
1,49 0,10 0,0100
1,33 ‑0,06 0,0036
1,45 0,06 0,0036
( )2ix xΣ − = 0,0384
( )2ix x
N 1
Σ −
−
= 0,0096
( )2ix x
N 1
Σ −
σ =
−
= 0,098
Arredondando o resultado para 2 algarismos significativos, temos = 0,098.
Logo, o desvio padrão das alturas dessas crianças de 9 anos é 0,098 metros.
Observação
Tanto os dados da média quanto do desvio padrão têm as mesmas
unidades. Se os dados são de preços em reais, por exemplo, a média e o
desvio padrão desses dados também devem ser em reais.
4.4 Interpretação do desvio padrão
O desvio padrão é uma estatística que tem como objetivo apontar o espalhamento dos dados em
torno do valor médio. Quanto maior o desvio padrão, maior o espalhamento dos dados.
78
Unidade II
Exemplo de aplicação
Considere os seguintes valores médios e os desvios padrões para os conjuntos de medidas de tempo
de resposta de um servidor em uma rede.
x = 1,3ms e σ= 0,4 ms
x = 1,0 ms e σ= 0,2 ms
x = 1,4 ms e σ= 0,1 ms
Qual dos conjuntos de dados tem menor espalhamento, ou seja, está mais concentrado em torno
do valor médio?
O conjunto de dados com menor espalhamento é o com menor desvio padrão, ou seja, o conjunto
de dados com x = 1,4 ms e σ = 0,1 ms.
Saiba mais
Para compararmos conjuntos de dados que apresentam valores de
média aritmética bastante diferentes entre si, uma medida de dispersão
mais adequada seria o coeficiente de variação (CV). O CV analisa a dispersão
em termos relativos, geralmente expresso como uma taxapercentual.
Quanto menor for o valor do CV, mais homogêneos serão os dados do
conjunto – ou seja, menor será a dispersão em torno da média. Essa medida
é especialmente útil quando compararmos conjuntos de dados com
unidades de medidas distintas.
Você pode ler a respeito dessa medida de dispersão em:
RIGONATTO, M. Coeficiente de variação. Mundo Educação, São Paulo, 25
nov. 2015. Disponível em: https://cutt.ly/7MIIMcr. Acesso em: 14 nov. 2022.
79
ESTATÍSTICA
Resumo
Começamos esta unidade estudando medidas de tendência central. As
medidas de tendência central são usadas para representar o conjunto de
dados em um único valor. São medidas de tendência central a média, a
moda e a mediana.
A média de um conjunto de dados xi costuma ser indicada por
<x> ou por x. Neste livro‑texto, usamos a notação x para representar a
média. A média aritmética simples de N dados é obtida somando‑se
esses dados e dividindo‑se o resultado da soma pelo número de dados N.
Matematicamente, temos:
N
ii 1
x
x
N
== ∑
Na média ponderada, cada dado é multiplicado por um peso pi. Se
temos N medidas xi, cada uma associada a um peso pi, a média ponderada
é calculada por:
N
i ii 1
N
ii 1
p .x
x
p
=
=
= ∑
∑
Se temos N medidas xi, organizadas em classes (ou intervalos) de ponto
médio Pmi e frequência fi, a média é calculada por:
N
i ii 1
N
ii 1
Pm .f
x
f
=
=
= ∑
∑
Note que, se os dados estão organizados em frequências absolutas, a
soma das frequências é igual ao número de dados N. Se os dados estão
organizados em frequências relativas, a soma das frequências é igual a 1.
A mediana é o valor central de um conjunto de dados quando esses
são organizados em um rol, seja ele crescente, seja ele decrescente. Se
temos uma quantidade ímpar de dados, o valor central é determinado sem
problemas. Se temos um número par de dados, a mediana é a média dos
dois valores centrais. A mediana é frequentemente indicada por Md.
80
Unidade II
A mediana é útil quando temos valores discrepantes (conhecidos como
outliers) e não queremos que esses valores afetem o valor médio. A média
aritmética é facilmente afetada por outliers, enquanto a mediana, nesse
sentido, é uma estatística mais robusta, menos afetada por outliers.
Quando calculamos a mediana de dados organizados como uma
distribuição de frequências, adotamos os seguintes passos:
• somamos as frequências do conjunto de dados para obter o tamanho
da amostra ou da população;
• encontramos o valor central da distribuição de frequências;
• localizamos em qual intervalo essa frequência está inclusa;
• calculamos a mediana usando a expressão a seguir.
anteriores
Md
N
f
2Md Li .A
f
− ∑
= +
Na equação, temos o que segue.
• Li = limite inferior da classe que contém a mediana.
• N = tamanho da amostra ou da população.
• ∑fanteriores = soma das frequências das classes anteriores à classe que
contém a mediana.
• A = amplitude da classe que contém a mediana.
• fMd = frequência da classe que contém a mediana.
Definimos como moda o valor mais frequente de uma distribuição de
dados, ou seja, a moda é o valor com maior número de ocorrências. A moda
costuma ser indicada por Mo.
A determinação da moda de uma distribuição pode não ser tão simples,
pois uma distribuição pode não ter apenas uma moda. Por exemplo, se
uma distribuição de dados tem apenas uma moda, ela é dita unimodal.
Se uma distribuição de dados tem duas modas (dois valores igualmente
81
ESTATÍSTICA
frequentes), ela é dita bimodal. Podemos ter, ainda, distribuições
multimodais ou plurimodais, com 3 ou mais modas.
Em seguida, estudamos as medidas de dispersão. As medidas de
dispersão têm como objetivo indicar o espalhamento dos dados, ou seja,
verificar se os dados estão mais concentrados perto do valor médio ou mais
espalhados. As medidas de dispersão que estudamos foram a amplitude
total, o desvio médio simples e o desvio padrão.
A amplitude total, indicada por A, é calculada pela diferença entre o
maior dado e o menor dado do conjunto. Indicando um elemento qualquer
do conjunto de dados como xi, com o menor dado sendo xmin e o maior
dado sendo xmax, temos:
max minA x x= −
Caso os dados estejam organizados em uma distribuição de frequências,
podemos determinar a amplitude total de duas formas, conforme descrito
a seguir.
A amplitude A é dada pela diferença entre o ponto médio da maior
classe e o ponto médio da menor classe.
A amplitude A é dada pela diferença entre o limite superior da maior
classe e o limite inferior da menor classe.
O desvio médio simples é um indicador de dispersão dos dados que
considera o quanto cada dado xi se afasta do valor médio x. O desvio médio
simples é indicado por Dm e é calculado por:
N
ii 1
x x
Dm
N
=
−
= ∑
Na equação, N é o número de dados da população ou da amostra.
Se os dados estão organizados em uma distribuição de frequências, o
desvio médio da distribuição é dado por:
N
i ii 1
Pm x .f
Dm
N
=
−
= ∑
82
Unidade II
Na equação, Pmi é o ponto médio de cada classe de frequência fi. Como
no caso anterior, temos N dados e valor médio x.
O desvio padrão é uma medida da dispersão dos dados em torno da
média que considera o quadrado do desvio de cada dado em relação ao
valor médio. O desvio padrão é frequentemente indicado pela letra grega
σ. O desvio padrão é calculado de forma distinta se temos uma amostra
ou uma população.
No caso de uma população, o desvio padrão σ de um conjunto de N
dados xi de valor médio x é dado por:
( )N 2ii 1 x x
N
=
−
σ = ∑
Se os dados são organizados em uma distribuição de frequências fi de
ponto médio Pmi, ainda para uma população, o desvio padrão é dado por:
( )N 2i ii 1 Pm x .f
N
=
−
σ = ∑
No caso de uma amostra, o desvio padrão σ de um conjunto de N dados
xi de valor médio x é dado por:
( )N 2ii 1 x x
N 1
=
−
σ =
−
∑
Se os dados são organizados em uma distribuição de frequências fi de
ponto médio Pmi, ainda para uma amostra o desvio padrão, temos:
( )N 2i ii 1 Pm x .f
N 1
=
−
σ =
−
∑
A variância é indicada por σ2 e é o quadrado do desvio padrão.
Vimos que o uso de tabelas pode ser útil tanto no cálculo do desvio
médio quanto no cálculo do desvio padrão.
83
ESTATÍSTICA
Exercícios
Questão 1. A empresa Software Para Você fornece soluções computacionais para empresas que
atuam em várias áreas do comércio. No gráfico da figura seguir, temos a distribuição do tempo, em
horas, que os desenvolvedores dessa empresa levaram para responder às demandas dos 200 clientes
atendidos no último mês.
Tempo para o desenvolvimento da solução computacional (horas)
45%
40%
35%
30%
25%
20%
15%
10%
5%
0%
Pe
rc
en
tu
al
d
e
cl
ie
nt
es
10 20 30 40 50 60 70
1% 3%
5% 6%
16%
28%
41%
Figura 28
O tempo médio que os desenvolvedores da empresa Software Para Você levaram para responder às
demandas dos 200 clientes atendidos no último mês é de:
A) 35,0 horas.
B) 50,0 horas.
C) 37,8 horas.
D) 44,4 horas.
E) 50,5 horas.
Resposta correta: alternativa D.
Análise da questão
A quantidade total de clientes atendidos no último mês foi igual a 200.
84
Unidade II
Pela leitura do gráfico do enunciado, podemos concluir que, dos 200 clientes:
• deles (1% de 200) demandaram 10 horas para a resposta às demandas;
• deles (3% de 200) demandaram 20 horas para a resposta às demandas;
• 32 deles (16% de 200) demandaram 30 horas para a resposta às demandas;
• 56 deles (28% de 200) demandaram 40 horas para a resposta às demandas;
• 82 deles (41% de 200) demandaram 50 horas para a resposta às demandas;
• 10 deles (5% de 200) demandaram 60 horas para a resposta às demandas;
• 12 deles (6% de 200) demandaram 70 horas para a resposta às demandas.
Os cálculos feitos podem ser resumidos na tabela 37.
Tabela 37 – Frequência de clientes atendidos por tempo
Tempo (horas) Frequência de clientes
10 2
20 6
30 32
40 56
50 82
60 10
70 12
Total 200 clientes
Na tabela 37 temos o total de 200 clientes. Para calcularmos o tempo médio, precisamos somartodos os 200 valores da tabela e dividir essa soma por 100. Observe que, com base na tabela:
• 10 (horas) é um valor que precisa ser somado 2 vezes;
• 20 (horas) é um valor que precisa ser somado 6 vezes;
• 30 (horas) é um valor que precisa ser somado 32 vezes;
• 40 (horas) é um valor que precisa ser somado 56 vezes;
• 50 (horas) é um valor que precisa ser somado 82 vezes;
85
ESTATÍSTICA
• 60 (horas) é um valor que precisa ser somado 10 vezes;
• 70 (horas) é um valor que precisa ser somado 12 vezes.
Logo, o tempo médio é igual a 44,4 horas, conforme calculado a seguir:
10.2 20.6 30.32 40.56 50.82 60.10 70.12
Tempo médio
200
+ + + + + +
=
20 120 960 2240 4100 600 840 8880
Tempo médio 44,4
200 200
+ + + + + +
= = =
Tempo médio 44,4=
Questão 2. O responsável pela ouvidoria da empresa ABC fez um levantamento sobre o número de
reclamações recebidas pelos funcionários do setor no mês corrente e resumiu as informações obtidas
na tabela a seguir.
Tabela 38 – Levantamento feito pelo responsável
pela ouvidoria da empresa ABC
Nome
do funcionário
Número de
reclamações recebidas
Ana 3
Bianca 2
Beatriz 3
Catarina 2
Diego 1
Elsa 5
Fábio 1
Gabriela 2
Júlia 3
Laila 2
Marcelo 0
Mariana 1
Patrícia 2
Paulo 2
Rafael 3
Sofia 2
Tobias 2
86
Unidade II
Com base na tabela 38 e nos seus conhecimentos, assinale a alternativa que indica correta e
respectivamente a moda, a média e a mediana do levantamento apresentado.
A) 2; 2; 2
B) 2; 2,12; 2
C) 5; 2,12; 2,5
D) 3; 2; 5
E) 5; 2,12; 2
Resposta correta: alternativa B.
Análise da questão
Vamos começar nossa análise respondendo às perguntas a seguir:
• Há funcionários que não receberam reclamações no mês corrente? Sim, apenas um funcionário,
Marcelo.
• Há funcionários que receberam uma reclamação no mês corrente? Sim, 3 funcionários, Diego,
Fábio e Mariana.
• Há funcionários que receberam duas reclamações no mês corrente? Sim, 8 funcionários,
Bianca, Catarina, Gabriela, Laila, Patrícia, Paulo, Sofia e Tobias.
• Há funcionários que receberam três reclamações no mês corrente? Sim, 4 funcionários, Ana, Beatriz,
Júlia e Rafael.
• Há funcionários que receberam quatro reclamações no mês corrente? Não, nenhum
(“0 funcionários”).
• Há funcionários que receberam cinco reclamações no mês corrente? Sim, uma funcionária, Elsa.
Com essas respostas, podemos elaborar a tabela a seguir, que mostra as quantidades de funcionários
que receberam 0, 1, 2, 3, 4 ou 5 reclamações no mês corrente. Além disso, adicionamos os nomes dos
funcionários.
87
ESTATÍSTICA
Tabela 39 – Quantidades de reclamações
recebidas e quantidades de funcionários
Quantidade de
reclamações
Quantidade
de funcionários
Nomes
dos funcionários
0 1 Marcelo
1 3 Diego, Fábio e Mariana
2 8 Bianca, Catarina, Gabriela, Laila, Patrícia, Paulo, Sofia e Tobias
3 4 Ana, Beatriz, Júlia e Rafael
4 0 –
5 1 Elsa
Total + 3 + 8 + 4 + 0 + 1 = 17
Pela tabela 39, vemos, por exemplo, que, dos 17 funcionários, 3 receberam uma reclamação e
nenhum recebeu 4 reclamações.
Vamos chamar de frequência absoluta de cada medida, indicada por FA, a quantidade de
funcionários que recebeu dado número de reclamações, indicado por x. Vejamos:
• a FA de 0 reclamações é igual a 1 (se x = 0, FA = 1);
• a FA de 1 reclamação é igual a 3 (se x = 1, FA = 3);
• a FA de 2 reclamações é igual a 8 (se x = 2, FA = 8);
• a FA de 3 reclamações é igual a 4 (se x = 3, FA = 4);
• a FA de 4 reclamações é igual a 0 (se x = 4, FA = 0);
• a FA de 5 reclamações é igual a 1 (se x = 5, FA = 1).
Podemos calcular a frequência relativa, indicada por FR, de cada quantidade de reclamações recebidas
pelos funcionários. Para isso, dividimos a frequência absoluta (FA) pelo número total N de funcionários,
que é 17. Ou seja:
FA
FR
N
=
Na tabela a seguir, temos as frequências absolutas e relativas do caso em estudo.
88
Unidade II
Tabela 40 – Quantidade de reclamações (x),
frequência absoluta (FA) e frequência relativa (FR)
Quantidade de reclamações (x) Frequência absoluta (FA) Frequência relativa (FR), sendo FR = FA/N
0 1 1/17 = 0,05882
1 3 3/17 = 0,17647
2 8 8/17 = 0,47059
3 4 7/17 = 0,23529
4 0 0/17 = 0
5 1 1/17 = 0,05882
Total N = 1 + 3 + 8 + 4 + 0 + 1 = 17
1 3 8 4 0 1
Soma 1
17 17 17 17 17 17
= + + + + + =
Vale notar que, em qualquer conjunto de dados, a soma de todas as frequências relativas dá 1.
Podemos fazer um cálculo bastante semelhante ao feito para determinarmos a frequência relativa,
multiplicando‑a por 100%. Desse modo, obtemos os percentuais de cada quantidade de reclamações
recebidas, indicada por P%. Ou seja:
P% = FR.100
Na tabela a seguir, temos as frequências absolutas, as frequências relativas e os percentuais do
caso em estudo.
Tabela 41 – Quantidade de reclamações,
frequência absoluta, frequência relativa e percentual
Quantidade de
reclamações (x)
Frequência
absoluta (FA)
Frequência
relativa (FR)
Percentual (P%), sendo P%
= FR.100
0 1 0,05882 5,882%
1 3 0,17647 17,647%
2 8 0,47059 47,059%
3 4 0,23529 23,529%
4 0 0 0%
5 1 0,05882 5,882%
Soma N = 17 1 100%
Podemos, de certa forma, “resumir” o conjunto de dados em valores como a moda, a média e a
mediana – conhecidas como medidas de tendência central.
A observação do conjunto de dados que “aparece mais vezes”, ou seja, a de maior FA é a moda
do conjunto de dados. Neste caso, vemos, pela tabela 41, que o valor que aparece mais vezes é 2
reclamações, com FA = 8. Logo, a moda da quantidade de reclamações recebidas no mês corrente pelos
funcionários da empresa ABC é 2.
89
ESTATÍSTICA
Para acharmos a média, fazemos assim: somamos as quantidades multiplicadas pelas respectivas
frequências e dividimos essa soma pelo total. Com base na tabela 41, concluímos que a média do
número de reclamações é 2,12, pois:
0 1 1 3 2 8 3 4 4 0 5 1 36
Média
17 17
× + × + × + × + × + ×
= =
Média 2,12=
Essa média de 2,12 é um valor teórico, pois não há número fracionário de reclamações. O valor 2,12
corresponde ao “número” de reclamações que cada funcionário teria recebido se todos os funcionários
tivessem recebido o mesmo número de reclamações.
Para acharmos a mediana, ordenamos todas as observações e indicamos o valor central. Visto que há
o total de 17 observações, a mediana é o valor central, que corresponde à nona observação, conforme
indicado na tabela a seguir. Ou seja, no caso em estudo, a mediana da quantidade de reclamações
recebidas no mês corrente pelos funcionários da empresa ABC é 2.
Tabela 42 – Quantidade (ordenada) de
reclamações e quantidade de observações.
Quantidade (ordenada) de reclamações Quantidade de observações
0
8 observações
1
1
1
2
2
2
2
2 Valor central (9ª observação): 2
2
8 observações
2
2
3
3
3
3
3
Logo, no caso em estudo, a moda é 2, a média é 2,12 e a mediana é 2.
90
Unidade III
Unidade III
5 ANÁLISE COMBINATÓRIA
A análise combinatória é a área da estatística que permite que respondamos a perguntas como:
“tenho 10 canetas vermelhas e 7 pretas. Pegando 3 canetas aleatoriamente, qual é a probabilidade de
pegar uma única caneta preta?”
Figura 29 – Caneta vermelha
Disponível em: https://cutt.ly/5McVj7m. Acesso em: 14 nov. 2022.
Em outras palavras, a análise combinatória permite que criemos grupos com um número finito de
elementos e, ainda, sob certas condições.
Para compreender a análise combinatória, precisamos estudar antes alguns conceitos matemáticos,
como fatorial, binômio de Newton, coeficientes binomiais, somatório e triângulo de Pascal.
5.1 Binômio de Newton
Antes de chegarmos ao binômio de Newton, vamos abordar alguns conceitos matemáticos úteis.
5.1.1 Fatorial de um número
O fatorial de um número é representado pelo símbolo ! e é calculado apenas para números
naturais (números inteiros não negativos). Por sua vez, o cálculo do fatorial de um número consiste em
sucessivas multiplicações, diminuindo esse número de uma unidade, até chegar ao elemento neutro da
multiplicação: o número 1.
91
ESTATÍSTICAMatematicamente, sendo n um número inteiro e não nulo, temos:
n! = n. (n - 1).(n-2).(n-3)...3.2.1
Exemplo de aplicação
Neste exemplo, será ilustrado o cálculo do fatorial do número 5; ou seja, vamos calcular 5!
5! 5.4.3.2.1=
5! 20.6.1=
5! 1 20=
Logo, 5! 1 20= . Note que, no cálculo, foram multiplicados os números dois a dois apenas
para facilitar o processo, mas é possível multiplicar todos os números de uma só vez usando
uma calculadora.
Por definição:
0! 1=
1! 1=
Exemplo de aplicação
Mais adiante, será calculada a razão de dois fatoriais. Então, é interessante detalhar o processo
desse cálculo.
Considere a expressão a seguir:
6!
4!
A primeira abordagem que vem à mente é calcular tanto o fatorial “de cima” quanto o fatorial “de
baixo”. Mas, agindo dessa forma, o processo será mais trabalhoso. A ideia nesse tipo de cálculo é escrever
o maior dos fatoriais como uma série de produtos, mas sem chegar até o final, parando quando chegar
ao fatorial menor. Olhando para , temos o seguinte:
6! 6.5.4.3.2.1=
92
Unidade III
Mas as últimas parcelas do produto são iguais a 5!, pois 5! = 5.4.3.2.1. Logo:
6! 6.5!=
De forma equivalente:
6! 6.5.4!=
Voltando à fração, temos:
6! 6.5.4!
4! 4!
=
Como temos 4! tanto no numerador quanto no denominador da fração, é possível cancelar 4!
e chega‑se a:
6!
6.5 30
4!
= =
Saiba mais
Para ver um exemplo de um código de programação para calcular o
fatorial de um número, acesse:
GASPAR, W. Faça um algoritmo para calcular o fatorial de um número em
Portugol. Wagner Gaspar, 24 fev. 2021. Disponível em: https://cutt.ly/GMOh9Ff.
Acesso em: 14 nov. 2022.
5.1.2 Coeficientes binomiais
Os coeficientes binomiais, ou números binomiais, são o par de valores com n e p sendo números
inteiros e p
n� � , calculados por:
( )
n n!
p p!. n p !
= −
Lê‑se p
n� � como o binomial de n sobre p, e chama‑se n de numerador do binomial e p de denominador
do binomial.
93
ESTATÍSTICA
Exemplo de aplicação
Como exemplo, pode‑se calcular o binomial de 5 sobre 2. Da definição de coeficiente binomial, com
n = 5 e p = 2, temos:
( )
5 5!
2 2!. 5 2 !
= −
5 5!
2 2!.3!
=
Calculando o fatorial de 5, obtém‑se:
5! 5.4.3!=
Então temos o seguinte:
5 5.4.3!
2 2!.3!
=
5 5.4
2 2!
=
5 5.4
2 2.1
=
5 20
2 2
=
5
10
2
=
Logo, o binomial de 5 sobre 2 é igual a 10.
Da definição de coeficiente binomial, com n inteiro, temos as propriedades mostradas a seguir:
94
Unidade III
( )
n n!
1
0 0!. n 0 ! 1.n!
= = = −
( )
( )
( )
n n. n 1 !n!
n
1 1!. n 1 ! 1. n 1 !
−
= = = − −
( )
n n! n! 1
1
n n!. n n ! n!.0! 1
= = = = −
Lembrete
Lembre‑se de que:
0! = 1
1! 1 =
5.1.3 Triângulo de Pascal
O triângulo de Pascal, também conhecido como triângulo de Tartaglia, é uma forma de organizar os
coeficientes binomiais. Como critério para essa organização, colocam‑se os coeficientes binomiais de
mesmo numerador em uma mesma linha e os coeficientes binomiais de mesmo denominador em uma
mesma coluna.
A seguir, destacam‑se os coeficientes binomiais organizados em um triângulo de Pascal:
0
0
1 1
0 1
2 2 2
0 1 2
3 3 3 3
0 1 2 3
95
ESTATÍSTICA
� � � � �
n n n n n
0 1 2 3 n
…
Ao calcular cada coeficiente binomial, o triângulo de Pascal fica:
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
⋮ ⋮ ⋮ ⋮ ⋮⋱
Note que o triângulo de Pascal com os resultados dos coeficientes binomiais apresenta algumas
características interessantes. Os elementos das pontas de todas as linhas são iguais a 1, e as linhas são
simétricas na direção horizontal (o segundo elemento é igual ao penúltimo, o terceiro elemento é igual
ao antepenúltimo etc.).
Lembrete
Vimos que somatório é um operador matemático indicado por Σ e é
usado para somas sucessivas. No somatório, indica‑se um índice com seu
valor inicial e final, e esse índice é incrementado de uma unidade a cada
parcela somada. Matematicamente, tem‑se o seguinte:
n
i 1 2 3 n 1 n
i 0
x x x x x x−
=
= + + +…+ +∑
Embaixo do símbolo de somatório, é definido o índice que será
incrementado e é passado o seu valor inicial. Sobre o símbolo de somatório,
coloca‑se o valor final do índice. Neste caso, o valor inicial do índice i é 0 e
o valor final é n. Então, somam‑se as parcelas de x desde o índice inicial 0
até o índice final n.
É usual adotar as letras i ou j como índices de somatórios.
96
Unidade III
5.1.4 Teorema binomial
O teorema binomial, também conhecido como binômio de Newton, permite desenvolver expressões
do tipo ( )nx y+ , sendo n um número inteiro.
O binômio de Newton é expresso matematicamente por:
( )
n
n n i i
i 0
n
x y .x .y
i
−
=
+ =
∑
Exemplo de aplicação
Use o teorema binomial para calcular a expressão .
Do teorema binomial, para n = 2 e y = 1, temos o seguinte:
( )
n
n n i i
i 0
n
x y .x .y
i
−
=
+ =
∑
( )
2
2 2 i i
i 0
2
x 1 .x .1
i
−
=
+ =
∑
Desenvolvendo o somatório, para i de 0 até 2, temos:
( )2 2 0 0 2 1 1 2 2 2
2 2 2
x 1 .x .1 .x .1 .x .1
0 1 2
− − − + = + +
Como todo número elevado à potência zero é igual a 1 e como 1 elevado a qualquer potência resulta
em 1, ficamos com:
( )2 2 1 0
2 2 2
x 1 .x .1 .x .1 .x .1
0 1 2
+ = + +
( )2 2 1 0
2 2 2
x 1 .x .x .x
0 1 2
+ = + +
( )2 2
2 2 2
x 1 .x .x .1
0 1 2
+ = + +
97
ESTATÍSTICA
Precisamos calcular os coeficientes binomiais, o que faremos separadamente.
( )
n n!
p p!. n p !
= −
( )
2 2! 2!
1
0 0!. 2 0 ! 1.2!
= = = −
( )
2 2! 2! 2.1
2
1 1!. 2 1 ! 1.1! 1
= = = = −
( )
2 2! 2! 2!
1
2 2!. 2 2 ! 2!.0! 2!.1
= = = = −
Voltando ao cálculo anterior e substituindo o resultado dos coeficientes binomiais, temos
o seguinte:
( )2 2
2 2 2
x 1 .x .x .1
0 1 2
+ = + +
( )2 2x 1 1.x 2.x 1.1+ = + +
( )2 2x 1 x 2.x 1+ = + +
Logo, ( )2 2x 1 x 2.x 1+ = + +
Observação
Outra forma de calcularmos expressões do tipo é usando o produto
notável conhecido como “quadrado da soma de dois termos”, em que
a expressão é igual ao quadrado do primeiro termo, mais duas vezes o
produto do primeiro termo pelo segundo, mais o quadrado do segundo
termo. O “primeiro” é o primeiro termo da soma dentro da potência e o
“segundo” é o segundo termo da soma.
Matematicamente, o quadrado da soma de dois termos é dado por:
( )2 2 2a b a 2.a.b b+ = + +
98
Unidade III
5.1.5 Termo geral do binômio
O termo geral do binômio é a expressão que permite calcular qualquer termo de ordem p + 1 do
binômio de (n + y)n, e é dado por:
p n p
p 1
n
T .y .x
p
−
+
=
Exemplo de aplicação
Calcule o termo de ordem 3 do binômio de Newton para n = 6, p = 2 e y = 1.
Da expressão do termo geral, para calcular T3, temos:
p 1 3+ =
p 3 1= −
p 2=
Então:
p n p
p 1
n
T .y .x
p
−
+
=
2 6 2
2 1
6
T .1 .x
2
−
+
=
4
3
6
T .1.x
2
=
4
3
6
T .x
2
=
Calculando o coeficiente binomial, ficamos com:
( )
n n!
p p!. n p !
= −
99
ESTATÍSTICA
( )
6 6!
2 2!. 6 2 !
= −
6 6!
2 2!.4!
=
6 6.5.4!
2 2!.4!
=
6 6.5
2 2.1
=
6 30
2 2
=
6
15
2
=
Assim, chegamos a:
Logo, o termo de ordem 3 do binômio de Newton para n = 6, p = 2 e y = 1 é T3 = 15.x4.
Saiba mais
Para saber mais sobre as principais descobertas de Newton, assista:
ISAAC Newton | Ilustrando História. 2016. 1 vídeo (3:00). Publicado por:
Ilustrando História.
Disponível em: https://cutt.ly/UMOl0Gm. Acesso em: 14 nov. 2022.
5.2. Análise combinatória
Agora que já foram apresentadosos conceitos matemáticos para o estudo de análise combinatória,
vamos partir para alguns conceitos específicos do assunto.
100
Unidade III
5.2.1 Princípio fundamental da contagem (PFC)
O princípio fundamental da contagem (PFC) é um método algébrico usado para determinar o
número de possibilidades de ocorrência de um acontecimento sem que precisemos listar todas as
possibilidades envolvidas.
Se dado evento ocorrer em uma série de etapas sucessivas e independentes, o número total de
possibilidades de tal evento ocorrer será dado pelo produto das possibilidades de ocorrência em cada
uma das etapas.
De outra forma, sendo p1 o número de possibilidades de um evento ocorrer na primeira etapa e
p2 o número de possibilidades de o evento ocorrer na segunda etapa (etapas essas independentes
e sucessivas), o número total de possibilidades de ocorrência do evento é dado por:
total 1 2p p .p=
Exemplo de aplicação
As placas de moto em dado país são compostas apenas por algarismos, de 0 a 9, e pode haver a
repetição desses algarismos. Qual é o número total de placas disponíveis para motos, considerando que
há 3 dígitos na placa?
Figura 30 – Moto
Disponível em: https://cutt.ly/QMcBQZM. Acesso em: 14 nov. 2022.
101
ESTATÍSTICA
São 3 dígitos na placa, que podem ser ocupados por algarismos de 0 a 9, ou seja, totalizam
10 possibilidades diferentes de algarismos para cada posição. Como pode haver repetição (placa 003,
por exemplo, ou, ainda, 141), as possibilidades são iguais em cada uma das posições.
Multiplicando a possibilidade em cada uma das posições, tem‑se:
total posição1 posição2 posição3p p .p .p=
totalp = 10.10.10
totalp 1 000=
Logo, o método de emplacamento de motos adotado no país em análise permite o emplacamento
de até 1000 motos.
Exemplo de aplicação
Os números de celulares iniciam com o algarismo 9 e são compostos por 9 dígitos, e o segundo
dígito não pode ser igual a zero. Quantos números de celular diferentes são possíveis, usando
esse método?
Figura 31 – Celular
Disponível em: https://cutt.ly/UMcBGdI. Acesso em: 27 nov. 2022.
102
Unidade III
O primeiro dígito é sempre igual a 9. Logo, para essa posição, há apenas uma possibilidade.
O segundo dígito pode assumir valores de 1 a 9, portanto, são 9 possibilidades diferentes. Os demais
dígitos podem assumir valores de 0 a 9 sem restrição, portanto, 10 possibilidades.
O número total de telefones celulares é dado pelo produto das diferentes possibilidades para cada
um dos 9 dígitos:
total 1 2 3 4 5 6 7 8 9N p .p .p .p .p .p .p .p .p=
totalN 1.9.10.10.10.10.10.10.10=
totalN 90.000.000=
Logo, esse método de geração de números de telefone celular permite a existência de 90.000.000 de
números de celular.
5.2.2 Arranjos simples
Definimos arranjo como o tipo de agrupamento em que um grupo é diferente dos demais pela
ordem ou pela natureza dos seus elementos.
Como exemplo de arranjo, vamos analisar quantos números de 2 dígitos podemos formar com os
algarismos 1, 2 e 3, sem repetição dos algarismos.
Tabela 43 – Quantidade de números de 2 algarismos podemos formar
com os algarismos 1, 2 e 3, sem repetição dos algarismos
Primeiro
algarismo
Segundo
algarismo
Número
gerado
1
2 12
3 13
2
1 21
3 23
3
1 31
2 32
Vê‑se na tabela 43 que existem três possibilidades para o primeiro dígito e, para cada uma dessas
possibilidades, duas possibilidades para o segundo dígito, com o total de seis possibilidades de números
formados por esses algarismos.
103
ESTATÍSTICA
Repare que os números gerados dessa forma distinguem‑se quanto à ordem (13 é diferente de 31)
e quanto à natureza (13 é diferente de 21).
O que foi feito na tabela foi contar o número de arranjos de 3 elementos (os 3 algarismos, 1, 2 e 3),
tomados 2 a 2 (números compostos por 2 dígitos). Esse arranjo é indicado por A3,2.
O arranjo simples de n elementos, tomados k a k, é dado pela seguinte expressão:
( )n,k
n!
A
n k !
=
−
Na equação, n e k são números naturais.
Exemplo de aplicação
Usando a expressão matemática para arranjos simples, podemos conferir se nenhuma possibilidade
foi esquecida quando tratamos de arranjo de 3 elementos tomados 2 a 2 na tabela 43.
Da expressão do arranjo simples, para n = 3 e k = 2, temos:
( )n,k
n!
A
n k !
=
−
( )3,2
3!
A
3 2 !
=
−
3,2
3!
A
1!
=
3,2
3.2.1
A
1
=
3,2A 6=
Logo, temos 6 possibilidades para o arranjo de 3 elementos tomados 2 a 2 – exatamente o
número de números gerados pela combinação dos algarismos 1, 2 e 3, tomados 2 a 2, listados
na tabela 43.
104
Unidade III
5.2.3 Permutações
As permutações são agrupamentos ordenados considerando todos os elementos disponíveis.
A permutação de n elementos é indicada por Pn.
A permutação é um caso particular do arranjo simples, em que todos os elementos são considerados,
ou seja, n n,nP A= .
O número de permutações possíveis para n elementos é dada por:
nP n!
Exemplo de aplicação
Quantos números de 3 dígitos podem ser formados com os algarismos 1, 2 e 3?
Temos 3 algarismos disponíveis para formar um número de 3 dígitos. Logo, trata‑se de um problema
de permutação.
Calculando a permutação simples dos 3 números, temos:
3P 3!=
3P 3.2.1=
3P 6=
Logo, pode‑se gerar 6 números de 3 dígitos usando os algarismos 1, 2 e 3.
5.2.4 Combinações
As combinações simples são agrupamentos em que certo grupo é diferente dos demais apenas pela
natureza dos elementos, mas não pela ordem – por exemplo, quais seriam as distintas combinações
dos algarismos 1, 2 e 3 para formar números com 2 dígitos. Vale notar que os números 12 e 21 são
combinações equivalentes e contam como uma única combinação.
O número de combinações de n elementos em grupos de p elementos é dado pela seguinte expressão:
( )n,p
n!
C
p!. n p !
=
−
Na equação, n e p são números inteiros. Lê‑se Cn,p como a combinação de n elementos tomados p a p.
105
ESTATÍSTICA
Lembrete
O coeficiente binomial de numerador n e denominador p é dado por:
( )
n n!
p p!. n p !
= −
Outra forma de representar a combinação de n elementos em grupo de p elementos é usando a
notação de coeficiente binomial:
( )n,p
n n!
C
p p!. n p !
= = −
Exemplo de aplicação
Um time de futebol de salão é composto por 5 pessoas, uma delas o goleiro. Em um grupo de
12 pessoas, quantos times de futebol de salão distintos podem ser formados?
Como a ordem que as pessoas são escolhidas para o time (alguém pode ser o primeiro jogador
a ser chamado ou o último) é indiferente para a composição do time, trata‑se de um problema
de combinação.
Calculando a combinação simples de 12 pessoas tomadas 5 a 5, temos o seguinte:
( )n,p
n!
C
p!. n p !
=
−
( )12,5
12!
C
5!. 12 5 !
=
−
12,5
12!
C
5!.7!
=
Expandindo 12! até chegar a 7!, temos:
12,5
12.11.10.9.8.7!
C
5!.7!
=
106
Unidade III
12,5
12.11.10.9.8
C
5!
=
12,5
12.11.10.9.8
C
5.4.3.2.1
=
12,5
95040
C
120
=
12,5C 792=
Logo, com um grupo de 12 pessoas, é possível formar 792 times de futebol de salão distintos.
6 PROBABILIDADES
Segundo o dicionário Michaelis on‑line, probabilidade é um substantivo feminino definido como
segue:
1. Qualidade do que é provável.
2. Perspectiva positiva de que alguma coisa aconteça ou seja factível;
chance, possibilidade: “[…] era escusado lembrar ao leitor que eu só
afirmo certas leis quando as possuo deveras; em relação a outras
restrinjo‑me à admissão da probabilidade” (MA3).
3. Possibilidade extremamente favorável da realização de um
acontecimento, entre inúmeros possíveis, baseada na frequência
relativa dos acontecimentos do mesmo tipo numa sequência de
tentativas: Com base nos tempos que ele tem feito nos treinos, creio
que há grande probabilidade de vencer a corrida.
4. Número positivo entre zero e a unidade, relacionado a um evento
aleatório e que é medido pela frequência relativa da sua ocorrência,
numa longa sucessão de eventos.
5. Número, coeficiente ou resultado provável correspondente a alguma
coisa, calculado estatisticamente (PROBABILIDADE…,2022).
A seguir, discutiremos alguns conceitos básicos para o estudo de probabilidades.
107
ESTATÍSTICA
6.1 Conceitos básicos
Para o estudo de probabilidade, é necessário primeiro compreender alguns conceitos, como:
experimento aleatório, espaço amostral e evento.
6.1.1 Experimento aleatório
Podemos classificar os experimentos em duas categorias:
• experimentos determinísticos;
• experimentos aleatórios.
Os experimentos determinísticos são aqueles cujos resultados são previstos antes mesmo de
sua realização. Molhar‑se após derramar um copo de água sobre si é um exemplo de experimento
determinístico.
Já os experimentos aleatórios são aqueles cujos resultados exatos não podem ser previstos antes de
sua realização. Jogar na loteria é um exemplo de experimento aleatório, já que se pode ganhar o prêmio
ou, mais provavelmente, não ganhar o prêmio.
6.1.2 Espaço amostral
Define‑se espaço amostral como o conjunto de todos os resultados possíveis de um experimento
aleatório. O espaço amostral é denotado pela letra U.
Por exemplo, considere uma moeda: ela tem duas faces, cara e coroa (figura 32). Ao lançarmos uma
moeda para o alto, ela cairá com uma das faces para cima. O espaço amostral desse experimento é:
U = {cara, coroa}
Figura 32 – Moeda com a face conhecida como coroa ou reverso, em que é indicado o valor da
moeda. A face conhecida como cara ou anverso é a face oposta à face do valor, que geralmente
apresenta um escudo, um rosto ou um emblema
Disponível em: https://cutt.ly/kMcNMU3. Acesso em: 14 nov. 2022.
108
Unidade III
Exemplo de aplicação
Considere como experimento aleatório o lançamento de um dado de 6 faces, contendo os números
de 1 a 6 em cada face.
O espaço amostral desse experimento é o conjunto de todos os resultados possíveis:
U = {1, 2, 3, 4, 5, 6}
Exemplo de aplicação
Considere como experimento aleatório o lançamento de um dado de 6 faces, contendo os números
de 1 a 6 em cada face, e o lançamento de uma moeda.
O espaço amostral desse experimento é o conjunto de todos os resultados possíveis para o dado e
para a moeda:
U = {1 e cara, 2 e cara, 3 e cara, 4 e cara, 5 e cara, 6 e cara, 1 e coroa, 2 e coroa, 3 e coroa, 4 e coroa,
5 e coroa, 6 e coroa}
6.1.3 Evento
Chamamos de evento qualquer subconjunto do espaço amostral. Logo, obter coroa como resultado
do lançamento de uma moeda é um evento.
6.2 Regras do cálculo de probabilidades
Considere dado experimento aleatório, em que o espaço amostral tem n(U) elementos, e dado evento
A, que tem n(A) elementos. A probabilidade de ocorrência do evento P(A) é dada por:
( ) ( )( )
n A
P A
n U
=
É importante notar que esse método para o cálculo de probabilidades é válido apenas no caso em
que o espaço amostral U é equiprobabilístico – ou seja, todos os eventos do espaço amostral precisam
ter a mesma probabilidade.
Da expressão para o cálculo da probabilidade de um evento A, P(A), essa probabilidade é um número
entre 0 e 1, ou, de forma equivalente, entre 0 e 100%. É possível representar probabilidades tanto na
forma unitária quanto na forma percentual.
109
ESTATÍSTICA
Observação
Para converter um valor unitário em porcentagem, basta multiplicá‑lo
por 100%.
Se dado evento tem probabilidade igual a 0,4 de ocorrência, essa
probabilidade é equivalente a:
0,4 .1 00% 40%=
Exemplo de aplicação
Considere que o metrô de uma grande cidade apresentou falha no funcionamento no início da
manhã em 3 dias de uma semana. Qual é a probabilidade de falha no início da manhã no dia seguinte?
Figura 33 – Metrô
Disponível em: https://cutt.ly/7McMjyo. Acesso em: 14 nov. 2022.
Calcula‑se a probabilidade como o número de ocorrência do evento dividido pelo número de
ocorrências do espaço amostral. Neste caso, trabalha‑se com uma semana de dados, então o espaço
amostral é igual a 7 dias. Então:
( )n U 7=
110
Unidade III
O evento de ocorrência de falha pela manhã ocorreu em 3 dias da semana. Logo, esse é o número de
ocorrências do evento falha no metrô.
( )n falha no metrô 3=
Dividindo‑se o número de ocorrências do evento pelo número de elementos do espaço amostral,
calcula‑se a probabilidade de ocorrência desse evento:
( ) ( )( )
n falha no metrô
P falha no metrô
n U
=
( ) 3P falha no metrô
7
=
( )P falha no metrô 0,43=
É possível representar essa probabilidade na forma de porcentagem, bastando, para isso, multiplicar
a probabilidade por 100%:
( )P falha no metrô 0,43 .1 00%=
( )P falha no metrô 43%=
Logo, a probabilidade de falha no metrô no dia seguinte é de 43%.
Exemplo de aplicação
Considere um dado de 6 faces, com faces numeradas de 1 a 6. Qual é a probabilidade de se obter um
número par em um lançamento desse dado?
111
ESTATÍSTICA
Figura 34 – Dados
Disponível em: https://cutt.ly/hMcMTtQ. Acesso em: 14 nov. 2022.
Em um dado de 6 faces, são 6 possibilidades distintas de face possíveis de se obter. Logo, o número
de elementos do espaço amostral é igual a 6.
( )n U 6=
Dos resultados possíveis do lançamento desse dado, obtém‑se o espaço amostral, composto pelos
números de 1 a 6.
{ }U 1,2,3,4,5,6=
Note que, no espaço amostral, tem‑se como resultados pares 2, 4 e 6. Logo, o número de ocorrências
do evento “face par” é igual a 3.
( )n face par 3=
Calcula‑se a probabilidade de ocorrência do evento “face par” dividindo o número de elementos
pares do espaço amostral pelo número total de elementos do espaço amostral:
( ) ( )( )
n face par
P face par
n U
=
( ) 3P face par
6
=
112
Unidade III
( )P face par 0,5=
Representando essa probabilidade na forma de porcentagem, temos:
( )P face par 0,5 .1 00%=
( )P face par 50%=
Logo, a probabilidade de obtermos um número par em um lançamento de um dado de 6 faces,
numeradas de 1 a 6, é de 50%.
Tratamos do cálculo da probabilidade de um evento, mas e se for preciso calcular a probabilidade de
ocorrência de dois eventos?
É possível haver dois eventos cuja ocorrência é aditiva, ou seja, são conectados pela conjunção E.
Nesse caso, as probabilidades individuais são multiplicadas para obtermos a probabilidade total.
Como exemplo desse caso, pode‑se pensar na probabilidade de chover E de ser um dia de semana
(segunda a sexta).
Dessa forma, para dois eventos A e B,
( ) ( ) ( )P A eB P A . P B=
É possível ter ainda dois eventos cuja ocorrência é disjuntiva, ou seja, conectados pela conjunção OU.
Nesse caso, as probabilidades individuais são somadas para se obter a probabilidade total. Como exemplo
desse caso, pode‑se pensar na probabilidade de chover OU de ser um dia de semana (segunda a sexta).
Dessa forma, para dois eventos A e B,
( ) ( ) ( )P A ouB P A P B= +
Exemplo de aplicação
Em dada cidade, 4 em cada 10 habitantes são mulheres. Nessa mesma cidade, 1 em cada
10 habitantes concluiu o nível superior. Qual é probabilidade de, escolhendo um habitante aleatório
da cidade, ele ser uma mulher com nível superior? Considere que a escolaridade é a mesma para
homens e mulheres.
113
ESTATÍSTICA
Se temos 4 mulheres para cada 10 habitantes, o número de ocorrência do evento “mulher” é
igual a 4 em um espaço amostral com 10 elementos. A partir disso, calculamos a probabilidade de se
escolher uma mulher.
( ) ( )( )
n mulher
P mulher
n U
=
( ) 4P mulher
10
=
( )P mulher 0,4=
Se 1 em cada 10 habitantes tem nível superior, podemos calcular a probabilidade de se escolher uma
pessoa com nível superior. Temos então 1 ocorrência do evento “nível superior” em um espaço amostral
de 10 elementos, logo:
( ) 1P nível superior
10
=
( )P nível superior 0,1=
Calcula‑se a probabilidade de ocorrência dos dois eventos simultâneos, de se escolher uma mulher
E que tenha nível superior, bastando, para tanto, multiplicar as probabilidades.
( ) ( ) ( )P mulher e nível superior P mulher . P nível superior=
( )P mulher e nível superior 0,4 . 0,1=
( )P mulher e nível superior 0,04=
Representando esse resultado em forma de porcentagem, temos:( )P mulher e nível superior 0,04.1 00%=
( )P mulher e nível superior 4%=
Logo, a probabilidade de se escolher uma mulher com nível superior nessa cidade é de 4%.
114
Unidade III
Exemplo de aplicação
Na linha de produção de uma indústria alimentícia, são produzidas 20.000 unidades por dia. Em um
processo de análise de falhas na produção, verificou‑se que ocorreu falha na vedação da embalagem de
52 produtos e falha na rotulagem de 26 produtos. Qual é a probabilidade de ocorrência de falha por dia
nessa linha de produção por vedação da embalagem ou por rotulagem?
Calcula‑se primeiro a probabilidade de ocorrência de cada tipo de falha.
Para a falha de vedação, houve a ocorrência em 52 produtos das 20.000 unidades produzidas por
dia. Logo, o número de eventos de falha de vedação por dia é:
( )n falha de vedação 52=
O espaço amostral é igual ao número de unidades produzidas por dia:
( )N U 20.000=
Calculando a probabilidade de ocorrência de falha de vedação, temos o seguinte:
( ) ( )( )
n falha de edação
P falha de vedação
n U
=
( ) 52P falha de vedação
20.000
=
( )P falha de vedação 0,0026=
Para a falha de rotulagem, houve a ocorrência em 26 produtos das 20.000 unidades produzidas por
dia. Logo, o número de eventos de falha de rotulagem por dia é:
( )n falha de rotulagem 26=
O espaço amostral é igual ao número de unidades produzidas por dia:
( )N U 20.000=
115
ESTATÍSTICA
Calculando a probabilidade de ocorrência de falha de rotulagem, tem‑se o seguinte:
( ) ( )( )
n falha de rotulagem
P falha de rotulagem
n U
=
( ) 26P falha de rotulagem
20.000
=
( )P falha de rotulagem 0,0013 =
Para calcular a probabilidade de falha de vedação ou falha de rotulagem, soma‑se as probabilidades
individuais:
( ) ( ) ( )P falha de vedação ou rotulagem P f. de vedação P f. de rotulagem = +
( )P falha de vedação ou rotulagem 0,0026 0,0013 = +
( )P falha de vedação ou rotulagem 0,0039 =
Essa probabilidade pode ser representada em porcentagem, bastando multiplicá‑la por 100%:
( )P falha de vedação ou rotulagem 0,0039 .1 00% =
( )P falha de vedação ou rotulagem 0,39% =
Logo, nas condições dadas, a probabilidade de falha por vedação ou por rotulagem é de 0,39%.
116
Unidade III
Resumo
Vimos que o fatorial de um número é representado pelo símbolo ! e
é calculado apenas para números naturais. O cálculo do fatorial é feito
da seguinte forma:
( ) ( ) ( )n! n. n 1 . n 2 . n 3 ...3.2.1= − − −
Por definição, temos:
0! 1=
1! 1=
Os coeficientes binomiais (ou números binomiais) são o par de valores
n
p
, com n e p números inteiros e p≤n, calculados por:
( )
n n!
p p!. n p !
= −
Lemos
n
p
como binomial de n sobre p, e chamamos n de numerador
do binomial e p de denominador do binomial.
O triângulo de Pascal, também conhecido como triângulo de Tartaglia, é
uma forma de organizar os coeficientes binomiais. Como critério para essa
organização, colocamos os coeficientes binomiais de mesmo numerador
em uma mesma linha e os coeficientes binomiais de mesmo denominador
em uma mesma coluna.
O somatório é um operador matemático indicado por Σ e é usado
para somas sucessivas. No somatório, indicamos um índice, com seu valor
inicial e final, e esse índice é incrementado de uma unidade a cada parcela
somada. Matematicamente, temos:
n
i 0 1 2 n 1 n
i 0
x x x x x x−
=
= + + +…+ +∑
117
ESTATÍSTICA
Um dos usos do somatório é expressar o binômio de Newton. O binômio
de Newton é expresso matematicamente por:
( )
n
n n i i
i 0
n
x y .x .y
i
−
=
+ =
∑
O termo geral do binômio é a expressão que permite que calculemos
qualquer termo de ordem p+1 do binômio de e é dado por:
p n p
p 1
n
T .y .x
p
−
+
=
Iniciamos o estudo de análise combinatória apresentando alguns
conceitos importantes, resumidos a seguir.
O princípio fundamental da contagem (PFC) é um método algébrico
usado para determinar o número de possibilidades de ocorrência de
um acontecimento, sem que precisemos listar todas as possibilidades
envolvidas. Sendo p1 o número de possibilidades de um evento ocorrer
na primeira etapa e p2 o número de possibilidades de o evento ocorrer na
segunda etapa, etapas essas independentes e sucessivas, a possibilidade
total de ocorrência do evento é dada por:
total 1 2p p .p=
Definimos arranjo como o tipo de agrupamento em que um
grupo é diferente dos demais pela ordem ou pela natureza de seus
elementos. O arranjo simples de n elementos, tomados k a k, é dado pela
seguinte expressão:
( )n,k
n!
A
n k !
=
−
Na equação, n e k são números inteiros.
As permutações são agrupamentos ordenados que consideram todos
os elementos disponíveis. A permutação de n elementos é indicada por Pn.
A permutação é um caso particular do arranjo simples, em que todos os
elementos são considerados, ou seja, n n,nP A= . O número de permutações
possíveis para n elementos é dada por:
nP n!=
118
Unidade III
As combinações simples são o agrupamento em que dado grupo é
diferente dos demais apenas pela natureza dos elementos, mas não pela
ordem. O número de combinações de n elementos em grupos de p elementos
é dada pela seguinte expressão:
( )n,p
n!
C
p!. n p !
=
−
Na equação, n e p são números inteiros. Lemos Cn,p como a combinação
de n elementos tomados p a p.
Na sequência, partimos para o estudo de probabilidades. A probabilidade
é definida como a chance de ocorrência de dado evento.
Iniciamos o estudo de probabilidade apresentando alguns conceitos:
• Experimentos determinísticos são aqueles cujo resultado é previsto
antes mesmo de sua realização.
• Experimentos aleatórios são aqueles cujo resultado exato não pode
ser previsto antes de sua realização.
• Espaço amostral U é o conjunto de todos os resultados possíveis de
um experimento aleatório
• Evento é qualquer subconjunto do espaço amostral.
Considere dado experimento aleatório, em que o espaço amostral tem
n(U) elementos, e dado evento A, em que o espaço amostral tem n(A)
elementos. Então, a probabilidade de ocorrência do evento P(A) é dada por:
( ) ( )( )
n A
P A
n U
=
É importante notar que esse método para o cálculo de probabilidades
é válido apenas no caso em que o espaço amostral U é equiprobabilístico.
A probabilidade é um número entre 0 e 1, ou, de forma equivalente,
entre 0 e 100%.
119
ESTATÍSTICA
Para dois eventos A e B, temos:
( ) ( ) ( )P A eB P A . P B=
Para dois eventos A e B, temos:
( ) ( ) ( )P A ouB P A P B= +
120
Unidade III
Exercícios
Questão 1. Imagine que você tenha de fazer uma avaliação sobre a disciplina Estatística. Essa
avaliação é composta por 6 testes, sendo cada teste formado por 5 alternativas (alternativas A, B, C, D
e E), conforme mostrado a seguir:
Tabela 44
A B C D E
Teste 1
Teste 2
Teste 3
Teste 4
Teste 5
Teste 6
Assinale a alternativa que mostra corretamente a quantidade de possibilidades distintas de
gabaritos para a avaliação da disciplina Estatística:
A) 5
B) 30
C) 15.625
D) 32.768
E) 390.625
Resposta correta: alternativa C.
Análise da questão
Aqui temos um experimento dado pela contagem dos gabaritos possíveis para uma avaliação de
Estatística composta por 6 testes, sendo cada teste formado por 5 alternativas.
Cada etapa desse experimento, que é a resposta dada ao teste, tem 5 possibilidades de ocorrência
(alternativas A, B, C, D ou E).
Assim, a quantidade Q de modos diferentes com que o experimento pode ser feito é dada pela
multiplicação dos modos diferentes com que cada etapa pode ocorrer. Logo:
Q = 5 × 5 × 5 × 5 × 5 × 5 = 15.625
121
ESTATÍSTICA
Concluímos que há 15.625 gabaritos possíveis para uma prova de Estatística composta por 6 testes,
sendo cada teste formado por 5 alternativas.
Questão 2. (Enade 2017, adaptada) Seis estudantes se inscreveram para um campeonato escolar
de xadrez: três meninas, das quais duas são irmãs gêmeas, e três meninos.Na primeira rodada, serão
formadas as três duplas de adversários por sorteio da seguinte forma:
• o primeiro jogador é sorteado entre os seis participantes;
• o segundo jogador é sorteado entre os cinco restantes;
• o terceiro jogador é sorteado entre os quatro restantes;
• o quarto jogador é sorteado entre os três restantes;
• a primeira dupla é formada pelo primeiro e pelo segundo sorteados;
• a segunda dupla é formada pelo terceiro e pelo quarto sorteados;
• a terceira dupla é formada pelos dois últimos que não foram sorteados.
Considerando essas condições a respeito da formação das duplas de adversários na primeira rodada
do campeonato, avalie as afirmativas.
I – A probabilidade de as gêmeas se enfrentarem é de 1/15.
II – A probabilidade de a primeira dupla sorteada ser de meninos é de 1/5.
III – A probabilidade de a primeira dupla sorteada ser composta por uma menina e um menino é
de 3/5.
É correto o que se afirma em:
A) I, apenas.
B) II, apenas.
C) I e III, apenas.
D) II e III, apenas.
E) I, II e III.
Reposta correta: alternativa D.
122
Unidade III
Análise das afirmativas
Temos 6 crianças, sendo 3 meninos e 3 meninas e, entre essas 3 meninas, 2 meninas são gêmeas.
I – Afirmativa incorreta.
Justificativa: calculamos primeiramente a probabilidade de serem sorteadas as gêmeas na primeira
dupla. No primeiro sorteio, temos 2 sucessos (sorteio de uma das gêmeas) entre 6 tentativas (número
total de crianças), ou seja:
° = =1 gêmea
2 1
P
6 3
A probabilidade de ser sorteada a outra gêmea no segundo sorteio, no qual temos apenas 1 sucesso
restante em 5 tentativas, é:
° =2 gêmea
1
P
5
Como precisamos que esses dois casos ocorram, devemos multiplicar as probabilidades. Logo, a
probabilidade de serem sorteadas as 2 gêmeas nos 2 primeiros sorteios é:
° ° = =1 gêmea e 2 gêmea
1 1 1
P .
3 5 15
As gêmeas também se enfrentariam se fossem sorteadas nos 3o e 4o sorteios.
A probabilidade de não ser sorteada uma das gêmeas no primeiro sorteio é o complementar da
probabilidade de uma delas ser sorteada, ou seja:
°
= − = − = =
1 não gêmea
2 6 2 4 2
P 1
6 6 6 6 3
Calculamos, da mesma forma, a probabilidade de não ser sorteada uma gêmea no segundo sorteio,
dado que nenhuma gêmea tenha sido sorteada no primeiro sorteio. Nesse caso, temos 2 sucessos em
5 possibilidades. Logo:
°
= − = − =
2 não gêmea
2 5 2 3
P 1
5 5 5 5
123
ESTATÍSTICA
Calculamos a probabilidade de ser sorteada uma das gêmeas no terceiro sorteio, dado que nenhuma
gêmea tenha sido sorteada no primeiro sorteio.
Nesse caso, temos 2 sucessos em 4 possibilidades. Logo:
° = =3 gêmea
2 1
P
4 2
Calculamos a probabilidade de ser sorteada a outra gêmea no quarto sorteio, dado que uma delas
tenha sido sorteada anteriormente.
Nesse caso, temos 1 sucesso em 3 possibilidades. Logo:
° =4 gêmea
1
P
3
Todas essas condições devem ocorrer para termos as gêmeas no 3º e 4º sorteios. Logo, devemos
multiplicar as probabilidades, e ficamos com:
° ° = = =3 gêmea e 4 gêmea
2 3 2 1 12 1
P . . .
3 5 4 3 15.12 15
Chegamos à mesma probabilidade de serem sorteadas as gêmeas na primeira e na segunda tentativas.
Resta calcularmos a probabilidade de serem sorteadas as gêmeas nos dois últimos sorteios.
A probabilidade de não ser sorteada uma das gêmeas na primeira tentativa é igual à probabilidade
do caso anterior. Logo:
°
= − = − = =
1 não gêmea
2 6 2 4 2
P 1
6 6 6 6 3
A probabilidade de não ser sorteada uma das gêmeas na segunda tentativa é:
°
= − = − =
2 não gêmea
2 5 2 3
P 1
5 5 5 5
A probabilidade de não ser sorteada uma das gêmeas na terceira tentativa é:
°
= − = − = =
3 não gêmea
2 4 2 2 1
P 1
4 4 4 4 2
124
Unidade III
A probabilidade de não ser sorteada uma das gêmeas na quarta tentativa é:
°
= − = − =
4 não gêmea
2 3 2 1
P 1
3 3 3 3
Dessa forma, temos as gêmeas sorteadas nas duas últimas tentativas.
Como todas as condições devem ser satisfeitas, devemos multiplicar as probabilidades. Logo:
° ° = = =5 gêmea e 6 gêmea
2 3 1 1 6 1
P . . .
3 5 2 3 15.6 15
Como o que é pedido é satisfeito sorteando‑se as gêmeas ou nas duas primeiras posições, ou
na terceira e na quarta posições, ou nas duas últimas posições, devemos somar as probabilidades
desses eventos.
Logo, a probabilidade de as gêmeas se enfrentarem é:
= + + = =confronto de gêmeas
1 1 1 3 1
P
15 15 15 15 5
II – Afirmativa correta.
Justificativa: a probabilidade de ser sorteado um menino na primeira tentativa é dada pela razão do
número de sucessos pelo número de possibilidades. Logo:
° =1 menino
3
P
6
A probabilidade de ser sorteado um menino na segunda tentativa é calculada da mesma forma, mas
temos apenas 2 meninos para serem sorteados em 5 crianças restantes. Logo:
° =2 menino
2
P
5
Como queremos que o primeiro sorteado seja um menino e que o segundo sorteado também seja
um menino, devemos multiplicar as probabilidades. Logo:
° ° = = =1 menino e 2 menino
3 2 6 1
P .
6 5 30 5
125
ESTATÍSTICA
III – Afirmativa correta.
Justificativa: a probabilidade de ser sorteada uma menina na primeira tentativa é dada pela razão do
número de sucessos pelo número de possibilidades, ou seja:
° =1 menina
3
P
6
A probabilidade de ser sorteado um menino na segunda tentativa é calculada da mesma forma, mas
temos 3 meninos para serem sorteados em 5 crianças restantes. Logo:
° =2 menino
3
P
5
Como queremos que a primeira criança sorteada seja uma menina e que o segundo sorteado seja um
menino, devemos multiplicar as probabilidades. Logo:
° ° = = =1 menina e 2 menino
3 3 9 3
P .
6 5 30 10
Precisamos calcular a probabilidade de a dupla ser sorteada de forma invertida, ou seja, antes o
menino e depois a menina.
A probabilidade de ser sorteado um menino na primeira tentativa, com 3 meninos entre 6
crianças, é:
° =1 menino
3
P
6
A probabilidade de a segunda criança sorteada ser uma menina, com 3 meninas entre as 5 crianças
restantes, é:
° =2 menina
3
P
5
A probabilidade de ser sorteado um menino e, em seguida, de ser sorteada uma menina é dada pelo
produto dessas duas probabilidades. Logo:
° ° = = =1 menino e 2 menina
3 3 9 3
P .
6 5 30 10
126
Unidade III
Vemos que as probabilidades são as mesmas, independentemente da ordem obtida.
Como o primeiro caso ou o segundo caso atende ao solicitado, precisamos somar as duas
probabilidades. Logo:
° = + = =menino e menina na 1 dupla
3 3 6 3
P
10 10 10 5
127
ESTATÍSTICA
Unidade IV
7 MODELOS TEÓRICOS DISCRETOS E CONTÍNUOS E INFERÊNCIA ESTATÍSTICA
7.1 Variável aleatória discreta unidimensional
A seguir, vamos definir:
• o que é uma variável discreta aleatória;
• o que são funções de probabilidade;
• o que é e como calcular o valor esperado e a variância de uma variável discreta aleatória.
7.1.1 Definição de variável discreta aleatória
Segundo Morettin (2019, p. 46), “[…] variável aleatória é uma função que associa a todo evento
pertencente a uma partição do espaço amostral um único número real”.
Uma variável aleatória é dita discreta se assume apenas determinados valores, e não qualquer valor
contido em um intervalo de valores (nesse caso, teríamos uma variável contínua). Um exemplo de
quantidades discretas está nos resultados do lançamento de um dado, em que se pode obter apenas
números inteiros de 1 a 6, e nunca números fracionários.
7.1.2 Função de probabilidade
Morettin (2019, p. 46) define função de probabilidade como “[…] a função que associa cada valor
assumido pela variável aleatória à probabilidade do evento correspondente”. O autor define ainda
distribuição de probabilidade como o conjunto formado pelos valores das variáveis aleatórias e suas
probabilidades correspondentes.
A distribuição de probabilidades pode ser representada de forma gráfica, colocando‑se os valores
da variável aleatória no eixo horizontal e as probabilidades correspondentes no eixo vertical.Como se
trata de uma variável discreta, o gráfico é composto por pontos, e não se pode traçar uma curva sobre
esses pontos.
128
Unidade IV
Exemplo de aplicação
Ao fazer o lançamento de um dado numérico de 6 faces, foram obtidos os resultados a seguir.
Tabela 45 – Resultados dos lançamentos de um dado
Face Número de ocorrências
1 2
2 4
3 9
4 8
5 3
6 1
Soma‑se todas as ocorrências para termos o total de lançamentos:
2 +4 + 9 + 8 + 3 + 1 = 27
Para calcular a probabilidade de obter cada face, divide‑se o número de ocorrências pelo total
de lançamentos.
Tabela 46 – Probabilidades de ocorrência
dos lançamentos de um dado
Face Probabilidade de ocorrência
1 2/27 = 0,074
2 4/27 = 0,15
3 9/27 = 0,33
4 8/27 = 0,30
5 3/27 = 0,11
6 1/27 = 0,037
Desse modo, ao construir o gráfico da distribuição de probabilidades do lançamento desse dado e
colocar as faces no eixo horizontal e as probabilidades de ocorrência no eixo vertical, temos o que segue:
129
ESTATÍSTICA
0,30
0,20
0,10
1 2 3 4 5 6
face
propabilidade
de ocorrência
Figura 35 – Distribuição de probabilidades para o lançamento do dado
Note que há probabilidades apenas para valores inteiros da face do dado, pois trata‑se justamente
de um problema discreto, e, por isso, não é possível traçar uma curva sobre os pontos.
7.1.3 Valor esperado de uma variável discreta aleatória
O valor esperado de uma variável aleatória, também conhecido como esperança matemática, é igual
ao valor médio dessa variável. O valor esperado de uma variável aleatória X é indicado por E(X).
O valor esperado E(X) é calculado pela média ponderada dos valores assumidos pela variável, em que
os pesos são as probabilidades:
( ) ( )
N
i i
i 1
E X x .p x
=
=∑
Note que, na expressão, usam‑se as probabilidades como peso. Então, não é preciso dividir a
média pelo número de ocorrências, já que a soma de todas as probabilidades do evento deve ser igual
a 1 (no caso, seria equivalente a dividir a equação por 1, o que não se faz necessário).
Exemplo de aplicação
Em um jogo de caça‑níqueis, verificou‑se que:
• a probabilidade do jogador ganhar 10 reais era de 2%;
130
Unidade IV
• a probabilidade do jogador ganhar 5 reais era 6%;
• a probabilidade do jogador ganhar 50 reais era 0,1%.
Qual é o prêmio médio nesse jogo?
Figura 36 – Máquinas de caça‑níqueis
Disponível em: https://cutt.ly/9Mc1JyV. Acesso em: 14 nov. 2022.
Organizando os prêmios e as probabilidades em uma tabela, temos o que segue.
Tabela 47 – Prêmios e probabilidades
Prêmio (R$) Probabilidade (%)
50,00 0,1
10,00 2
5,00 6
0,00
Na tabela está relacionada também a probabilidade de o jogador não ganhar nenhum prêmio no
jogo de caça níqueis, calculada como 100% menos a soma das probabilidades de ganhar um prêmio.
131
ESTATÍSTICA
Dividindo as probabilidades por 100%, para que elas sejam dadas em valores unitários e não em
porcentagens, temos o que segue:
Tabela 48 – Prêmios e probabilidades
Prêmio (R$) Probabilidade
50,00 0,001
10,00 0,02
5,00 0,06
0,00 0,919
Calculando o valor esperado (valor médio) nesse jogo, temos:
E 50.0,001 1 0.0,02 5.0,06 0.0,919= + + +
E 0,05 0,2 0,30= + +
E 0,55=
Logo, o prêmio médio desse jogo de azar é R$ 0,55 (ou 55 centavos).
7.1.4 Variância de uma variável discreta aleatória
A variância de uma variável aleatória e discreta X, representada por VAR(X), é calculada por:
( ) ( ) ( )
N
2
i x i
i 1
VAR X x .p x
=
= −µ∑
Na equação:
• xi representa cada valor da variável aleatória;
• µx representa o valor verdadeiro (ou valor médio) da grandeza;
• p(xi) representa a probabilidade de ocorrência de cada valor da variável aleatória xi.
A variância ainda pode ser indicada por V(X), σ2(X), σX
2 ou σ2.
A variância é um indicador de dispersão, fornecendo, portanto, uma medida do espalhamento
dos dados.
132
Unidade IV
Exemplo de aplicação
No exemplo anterior, calculou‑se o prêmio médio em um jogo de caça níqueis, obtendo E = 0,55, que
será considerado como igual ao valor verdadeiro (valor médio da distribuição) do prêmio pago. Pode‑se
calcular a variância associada à premiação paga nesse jogo de azar.
A variância é calculada de forma mais fácil usando uma tabela. Os resultados e as probabilidades
foram dados na tabela a seguir.
Tabela 49 – Cálculo da variância para as premiações
do jogo de caça‑níqueis (parte 1)
xi p(xi) xi‑E (xi‑E)
2 (xi‑E)
2.p(xi)
50,00 0,001
10,00 0,02
5,00 0,06
0,00 0,919
Calculando os valores da terceira coluna, subtraindo E = 0,55 de cada valor xi, temos:
Tabela 50 – Cálculo da variância para as premiações
do jogo de caça‑níqueis (parte 2)
xi p(xi) xi‑E (xi‑E)
2 (xi‑E)
2.p(xi)
50,00 0,001 49,45
10,00 0,02 9,45
5,00 0,06 4,45
0,00 0,919 ‑0,55
Calculando os valores da quarta coluna, elevando os valores da terceira coluna ao quadrado, temos:
Tabela 51 – Cálculo da variância para as premiações
do jogo de caça‑níqueis (parte 3)
xi p(xi) xi‑E (xi‑E)
2 (xi‑E)
2.p(xi)
50,00 0,001 49,45 2445,3
10,00 0,02 9,45 89,3
5,00 0,06 4,45 19,8
0,00 0,919 ‑0,55 0,30
133
ESTATÍSTICA
Multiplicando cada um dos resultados da quarta coluna pelas probabilidades associadas (dadas na
segunda coluna), preenche‑se a última coluna da tabela:
Tabela 52 – Cálculo da variância para as premiações do jogo de
caça‑níqueis (parte 4)
xi p(xi) xi‑E (xi‑E)
2 (xi‑E)
2.p(xi)
50,00 0,001 49,45 2445,3 2,44
10,00 0,02 9,45 89,3 1,79
5,00 0,06 4,45 19,8 1,19
0,00 0,919 ‑0,55 0,30 0,28
A variância é dada pela soma dos valores da última coluna da tabela, pois:
( ) ( ) ( )
N
2
i x i
i 1
VAR X x .p x
=
= −µ∑
Fazendo esse cálculo, temos:
VAR 2,44 1,79 1,19 0,28 5,7= + + + =
Logo, a variância associada aos prêmios pagos pelo jogo de caça níqueis é 5,7.
7.2 Modelos teóricos discretos e contínuos de probabilidade
7.2.1 Distribuição binomial
A distribuição binomial é uma distribuição discreta de probabilidades que se aplica sempre que o
processo de amostragem tem as seguintes características:
• em cada tentativa, há apenas dois resultados possíveis, chamados de sucesso e fracasso, que são
mutuamente exclusivos;
• os eventos de uma série de tentativas são independentes;
• o processo é estacionário, ou seja, a probabilidade de sucesso não varia entre uma tentativa e outra.
Os processos de amostragem com essas características são conhecidos como processos de Bernoulli.
134
Unidade IV
Saiba mais
Para saber mais sobre processos de Bernoulli, acesse:
PROCESSO Bernoulli. Stringfixer, [s.d.].
Disponível em: https://cutt.ly/tMDwrJo. Acesso em: 14 nov. 2022.
Chamando de p a probabilidade de sucesso em uma única tentativa, a probabilidade de fracasso
nessa mesma tentativa é dada por:
q 1 p= −
Ou seja, existem dois resultados possíveis e mutuamente exclusivos. O número 1 na expressão
anterior indica a probabilidade de ocorrência de 100%.
A probabilidade P(X) de termos X sucessos em N tentativas é dada pela seguinte expressão:
( ) X N XN,XP X C .p .q −=
Escrevendo explicitamente o binômio CN,X, temos:
( ) ( )
X N XN!P X .p .q
X!. N X !
−=
−
Lembrete
Vimos que o fatorial de um número inteiro n é calculado por:
( ) ( ) ( )n! n. n 1 . n 2 . n 3 3.2.1= − − − …
Vimos também que o número de combinações de n elementos em
grupos de p elementos é dado pela seguinte expressão:
( )n,p
n!
C
p!. n p !
=
−
Na equação, n e p são números inteiros. Lemos Cn,p como a combinação
de n elementos tomados p a p.
135
ESTATÍSTICA
Exemplo de aplicação
Um dado de 6 faces, numeradas de 1 a 6, foi lançado 4 vezes. Qual é a probabilidade de se obter
2 vezes o número 3 no lançamento do dado?
Figura 37 – Dados de 6 faces
Disponível em: https://cutt.ly/aMc2i8I. Acesso em: 14 nov. 2022.
Para responder a essa pergunta, deve‑se usar a distribuição binomial de probabilidades – já que
temos apenas duas possibilidades mutuamente excludentes: obter ou não obter o número 3.
Ao lançar um dado, há 6 possibilidades de resultado distintas. Logo, a probabilidade de se obter o
número 3 lançandoum dado de 6 faces é:
1
p
6
=
Então, a probabilidade de se obter qualquer número, exceto o número 3, é dada por:
q 1 p= −
1
q 1
6
= −
6 1
q
6 6
= −
5
q
6
=
136
Unidade IV
Da expressão da distribuição binomial, para obtermos 2 vezes o resultado desejado (a face 3) em 4
tentativas, ou seja, com X = 2 e N = 4, pode‑se fazer o seguinte:
( ) X N XN,XP X C .p .q −=
( ) 2 4 24,2P 2 C .p .q −=
( ) 2 24,2P 2 C .p .q=
Escrevendo a combinação de 4 dois a dois em termos de fatoriais, temos:
( ) ( )
2 4 24!P 2 .p .q
2!. 4 2 !
−=
−
( ) ( )
2 24!P 2 .p .q
2!. 4 2 !
=
−
( ) 2 24!P 2 .p .q
2!.2!
=
É possível escrever 4! como 4.3.2!, de forma que:
( ) 2 24.3.2!P 2 .p .q
2!.2!
=
( ) 2 24.3P 2 .p .q
2!
=
( ) 2 24.3P 2 .p .q
2.1
=
( ) 2 212P 2 .p .q
2
=
( ) 2 2P 2 6.p .q=
Substituindo as probabilidades de sucesso (dado com a face 3 para cima) e insucesso (dado com
outra face que não a 3 para cima), tem‑se:
137
ESTATÍSTICA
( )
2 21 5
P 2 6. .
6 6
=
( ) 1 25P 2 6. .
36 36
=
E chega‑se a:
( )P 2 0,116=
Multiplicando esse valor por 100% para se obter a probabilidade em porcentagem, ficamos com:
( )P 2 0,116.100%=
( )P 2 11,6%=
Logo, a probabilidade de obtermos 2 vezes a face 3 em 4 lançamentos de um dado de 6 faces é
11,6%.
Exemplo de aplicação
Verificou‑se que a probabilidade de chover no fim da tarde em um dia de janeiro é de 75%. Sabendo
que janeiro tem 31 dias, qual é a probabilidade de ocorrerem apenas 10 dias de chuva no fim da
tarde no mês?
Figura 38 – Fim de tarde chuvoso
Disponível em: https://cutt.ly/iMc2xHv. Acesso em: 14 nov. 2022.
138
Unidade IV
Do enunciado, temos N = 31, X = 10 e p = 0,75. A probabilidade de não ter chuva no fim da tarde
em janeiro é:
q 1 p= −
q 1 0,75= −
q 0,25=
Como são apenas duas possibilidades mutuamente excludentes, chover ou não chover, pode‑se usar
a distribuição binomial de probabilidades para calcular a probabilidade desejada.
Para uma distribuição binomial, temos:
( ) X N XN,XP X C .p .q −=
Especificamente para esse problema, temos:
( ) 10 31 1031,10P 10 C .0,75 .0,25 −=
Escrevendo a combinação em termos de fatoriais, temos:
( ) ( )
10 31 1031!P 10 .0,75 .0,25
10!. 31 10 !
−=
−
( ) 10 2131!P 10 .0,75 .0,25
10!.21!
=
( ) 10 2131.30.29.28.27.26.25.24.23.22.21!P 10 .0,75 .0,25
10.9.8.7.6.5.4.3.2.1.21!
=
( ) 10 2131.30.29.28.27.26.25.24.23.22P 10 .0,75 .0,25
10.9.8.7.6.5.4.3.2.1
=
139
ESTATÍSTICA
Usando uma calculadora para fazer a multiplicação do numerador e do denominador da fração,
temos:
( )
14
10 211,60945.10P 10 .0,75 .0,25
3628800
=
( ) 10 21P 10 30045015.0,75 .0,25=
( ) 13P 10 44352127 . 0,0563 . 2,27.10−=
( ) 7P 10 5,67.10−=
Multiplicando esse resultado por 100% para termos a probabilidade em porcentagem, temos:
( ) 7P 10 5,67.10 .100%−=
( )P 10 0,0000567%=
Logo, a probabilidade de chover no final da tarde em apenas 10 dias de janeiro é 0,0000567% – ou
seja, uma probabilidade muito pequena.
7.2.2 Distribuição normal
A distribuição normal de probabilidades é uma distribuição de probabilidades contínua, simétrica
em relação à média, e cuja curva tem o formato de uma gaussiana. Essa curva que dá a distribuição de
probabilidades é chamada de função densidade de probabilidade (fdp).
A probabilidade de ocorrência de um evento está relacionada com a área sob a curva da função
densidade de probabilidade.
Em uma distribuição normal de probabilidades, temos o seguinte:
x x x−σ < < + σ→ p = 68%
x 2. x x 2.− σ < < + σ→ p = 95%
x 23 x x 3.− σ < < + σ→ p = 99,7%
140
Unidade IV
Isso pode ser visto na figura a seguir:
68%
95%
99,7%
x x x x x x� � � � �3 2 2� � � � �������� ������� ������� ������� ������� ��������x � 3�
Figura 39 ‑ Distribuição normal e probabilidades
Fonte: Souza et al. (2020, p. 153).
Então, a probabilidade de um valor estar no intervalo entre uma vez o desvio padrão, tanto para o
lado negativo como para o lado positivo, é de 68% para uma distribuição normal. A probabilidade de
um valor estar no intervalo dentro de 2 vezes o desvio padrão, tanto para o lado negativo como para
o positivo, é de 95%. Já a probabilidade de um valor estar no intervalo limitado por 3 vezes o desvio
padrão, tanto para o lado negativo como para o positivo, é de 99,7%. Outra implicação disso é que a
probabilidade de um valor estar além de 3 vezes o desvio padrão é cerca de 0,3%.
Saiba mais
A curva gaussiana tem esse nome em homenagem ao matemático,
astrônomo e físico J. Gauss. Para saber mais sobre Gauss, leia:
AMARAL, D. A. Gauss, Carl Friedrich (1777‑1855). Faculdade de
Engenharia Mecânica da Unicamp, Campinas, 31 jan. 2001. Disponível em:
https://cutt.ly/MMDrmFx. Acesso em: 14 nov. 2022.
141
ESTATÍSTICA
A função densidade de probabilidade de uma distribuição normal de média x e desvio padrão
σ é dada por:
( )
21 x x
.
21f x .e
. 2.
− − σ =
σ π
Observação
O número e na expressão da distribuição normal é conhecido como
número de Euler ou número neperiano. Trata‑se de um número irracional
(com infinitas casas decimais) e aproximadamente igual a 2,71.
A exponencial de base e, como na equação anterior, é frequente em física
e matemática, e é facilmente calculada por uma calculadora científica.
Saiba mais
Para saber mais sobre a distribuição normal, leia o capítulo 3.1,
“Distribuição normal”, na obra de Juliana Sena de Souza e colegas em:
SOUZA, J. S. et al. Distribuição normal. In: SOUZA, J. S. et al.
Probabilidade e estatística (EAD). Porto Alegre: UFRGS, 2020. Disponível
em: https://cutt.ly/MMc3qSk. Acesso em: 14 nov. 2022. p. 139‑153.
Pode‑se converter qualquer distribuição normal de probabilidades em uma distribuição normal
padronizada. Para isso, convertem‑se os valores x da distribuição em valores padronizados z. Usamos a
seguinte expressão:
x x
z
−
=
σ
A conversão para uma distribuição normal padronizada faz com que seja possível usar uma tabela
para obter as probabilidades, sem realizar cálculos que demandem a equação da função densidade de
probabilidade que vimos anteriormente. Essa tabela é mostrada a seguir.
142
Unidade IV
Tabela 53 – Áreas sob uma distribuição normal
padrão, em relação ao valor médio
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,48930,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
143
ESTATÍSTICA
Para usar essa tabela, parte‑se do valor de z à procura da combinação entre linha e coluna até
obter‑se esse valor. Por exemplo, a área sob a gaussiana para z = 1,42 é obtida por 1,4 + 0,02, e essa
área está no cruzamento da linha 1,4 com a coluna 0,02, o que dá área de 0,4222 (ver tabela a seguir).
Tabela 54 – Áreas sob uma distribuição normal
padrão, em relação ao valor médio para z = 1,42
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
Lembre‑se de que essas tabelas fornecem a área entre o meio da curva e o z que procuramos.
Se quisermos a área entre dois lados da curva simétricos, devemos dobrar o valor obtido na tabela.
144
Unidade IV
A tabela também pode ser usada no sentido inverso, consultando um valor de probabilidade
e, a partir da posição desse valor, é obtido o valor de z pela soma da linha e da coluna da
probabilidade desejada.
No exemplo a seguir é demonstrado como trabalhar com a tabela da distribuição normal
padronizada.
Exemplo de aplicação
Considere que a vida útil das lâmpadas produzidas em dada fábrica siga uma distribuição normal
com média x = 5000 horas e com desvio padrão σ = 100 horas. Qual é a probabilidade de que uma
lâmpada produzida por essa fábrica dure entre 5100 e 5200 horas?
Primeiro, calcula‑se o coeficiente z para os limites do intervalo de durabilidade da lâmpada.
Para o limite inferior do intervalo, de 5100 horas, temos:
x x
z
−
=
σ
5100 5000
z
100
−
=
100
z
100
z 1=
Para o limite superior do intervalo, de 5200 horas, temos:
x x
z
−
=
σ
5200 5000
z
100
−
=
200
z
100
=
z 2=
145
ESTATÍSTICA
Na segunda coluna da tabela 55, localizamos as probabilidades correspondentes a z = 1 e a z = 2.
Tabela 55 – Áreas sob uma distribuição normal
padrão, em relação ao valor médio para z entre 1 e 2
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
146
Unidade IV
( )p z 1 0,3413= =
( )p z 2 0,4772= =
Lembrando que essas probabilidades são de o valor estar entre o valor z = 0 e z dado, e a questão é
calcular a probabilidade de o valor estar entre z = 2 e z = 1.
( ) ( ) ( )p z 1 a 2 p z 2 p z 1= = = − =
( )p z 1 a 2 0,4772 0,3413= = −
( )p z 1 a 2 0,1359= =
Multiplicando esse valor por 100% para se obter a probabilidade em porcentagem, ficamos com:
( )p z 1 a 2 0,1359 .1 00%= =
( )p z 1 a 2 1 3,6%= =
Logo, a probabilidade de ter uma lâmpada com durabilidade de 5100 a 5200 horas é de 13,6%.
7.3 Inferência estatística
Inferência estatística é o processo estatístico que tem como objetivo fazer generalizações de uma
população a partir de uma amostra.
A inferência estatística envolve amostragem, estimadores e intervalos de confiança, conceitos que
serão detalhados a seguir.
7.3.1 Amostragem
A seleção de uma amostra de uma população chama‑se levantamentoamostral. Esse levantamento
amostral pode ser de dois tipos: probabilístico ou não probabilístico.
Os levantamentos amostrais probabilísticos podem ser classificados em:
• amostragem aleatória simples;
147
ESTATÍSTICA
• amostragem aleatória sistemática;
• amostragem aleatória estratificada;
• amostragem aleatória por conglomerados.
Na amostragem aleatória simples, todos os elementos de uma população têm igual probabilidade
de serem selecionados para a amostra. Nesse processo de seleção, é comum sortear aleatoriamente os
elementos participantes. Esse é o método mais simples de compor uma amostra.
Na amostragem aleatória sistemática, os elementos da população são selecionados de acordo com
critérios preestabelecidos, como seleção pela inicial do nome, por exemplo. Esse processo de amostragem
é bastante usado para compor amostras em pesquisas de opinião.
Na amostragem aleatória estratificada, a população é dividida em grupos homogêneos,
chamados de estratos, e, em seguida, é feita uma amostragem aleatória simples dentro de cada
estrato. Os estratos podem ser faixas salariais em uma empresa ou faixas etárias de uma população,
por exemplo.
Na amostragem aleatória por conglomerados, a população é dividida por áreas geográficas e então
é feita uma amostragem simples em uma pequena área geográfica.
Os levantamentos amostrais não probabilísticos podem ser classificados em:
• amostragem não aleatória intencional;
• amostragem não aleatória voluntária;
• amostragem não aleatória acidental.
Na amostragem não aleatória intencional, o pesquisador escolhe uma característica da
população para compor sua amostra, por exemplo, selecionando pessoas pelo seu time de futebol.
Na amostragem não aleatória voluntária, as pessoas tomam a iniciativa de fazer parte da amostra,
oferecendo‑se para participar da pesquisa.
Por sua vez, na amostragem não aleatória acidental, os elementos que compõem a amostra são
escolhidos sem nenhum critério estabelecido, como selecionar todas as pessoas que passam por
determinada rua.
148
Unidade IV
7.3.2 Estimadores
Define‑se estimador como uma grandeza obtida a partir de observações de uma amostra. O estimador
é considerado um indicador de um parâmetro desconhecido da população.
Chamamos de estimativa o valor atribuído a um estimador.
A estimativa de um parâmetro pode ser feita de duas formas:
• estimativa por ponto;
• estimativa por intervalo.
A estimativa por ponto é o nome dado ao valor obtido a partir de cálculos estatísticos com os
elementos da amostra, servindo como uma aproximação do parâmetro estimado.
Um exemplo de estimativa por ponto é o valor médio de uma amostra, calculado a partir dos
elementos dessa amostra, e assumido como uma aproximação do valor médio da população a partir da
qual a amostra foi selecionada.
A estimativa por intervalo não é feita por um único valor, mas por uma faixa de valores que são
considerados uma aproximação do parâmetro estimado. As estimativas por intervalo são chamadas de
intervalo de confiança. Em geral, calculam‑se intervalos de confiança que tenham uma chance de 95%
de conter o valor verdadeiro.
7.3.3 Intervalos de confiança
O nível de confiança é o valor que exprime o grau de confiança associado a dado intervalo
de confiança.
Chama‑se de x o valor médio, de s o desvio padrão da amostra, de µ o valor médio e de σ o desvio
padrão da população a partir da qual a amostra foi obtida.
No caso de uma distribuição simétrica, o valor médio da amostra está no meio do intervalo de
confiança. Então, definindo o erro amostral c e considerando a probabilidade de 95% do valor médio da
população estar contido nesse intervalo de confiança, temos:
P(x c x c) 95%− <µ< + =
No caso de uma população infinita, o erro amostral c é determinado por:
c z.
n
σ
=
149
ESTATÍSTICA
Na equação:
• σ é o desvio padrão da população, que pode ser aproximado pelo desvio padrão da amostra caso
esse primeiro seja desconhecido;
• n é o tamanho da amostra;
• z é a abcissa da distribuição normal padronizada para dado nível de confiança.
Se a população for finita e de tamanho N, o erro amostral c é determinado por:
2 2z . N
c . 1
N 1 n
σ = − −
Na equação:
• σ é o desvio padrão da população, que pode ser aproximado pelo desvio padrão da amostra caso
esse primeiro seja desconhecido;
• n é o tamanho da amostra;
• z é a abcissa da distribuição normal padronizada para um dado nível de confiança.
No caso de um nível de confiança de 95%, o mais usual, z é obtido da forma descrita a seguir:
Como a tabela 53 dá a área sob a curva da distribuição gaussiana a partir do eixo de simetria, é
preciso dividir a probabilidade de 95% por 2:
95% 0,95
0,4750
2 2
= =
Procurando por esse valor na tabela de áreas sob a gaussiana, vemos que ele é localizado no
cruzamento das probabilidades 0,06 na horizontal e 1,9 na vertical (ver tabela a seguir), o que resulta em:
z 1 ,9 0,06 1 ,96= + =
150
Unidade IV
Tabela 56 – Áreas sob uma distribuição normal
padrão, em relação ao valor médio para z = 1,96
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
Essas ideias ficarão mais claras ao ler o texto a seguir, escrito em 2018.
151
ESTATÍSTICA
Destaque
O que significam os números de uma pesquisa eleitoral?
Christiane Mazur Doi
Nos últimos meses, com as pesquisas feitas em função do período eleitoral em nosso
país, temos visto e ouvido os termos “margem de erro”, “grau de confiança”, “tamanho da
amostra” e muitos outros.
Qual é o sentido dessas expressões? E o que significam os números relacionados a elas?
Para responder a essas questões, podemos analisar uma situação específica, como a
exposta a seguir.
Segundo pesquisadivulgada pelo Instituto Datafolha em 10 de outubro de 2018
sobre o segundo turno da eleição presidencial no Brasil, o candidato Jair Bolsonaro tinha
58% dos votos válidos e o candidato Fernando Haddad tinha 42% dos votos válidos.
O Datafolha também informou que:
• o levantamento de dados foi realizado em 10 de outubro de 2018;
• foram entrevistados 3.235 eleitores em 227 municípios;
• 6% dos entrevistados não sabiam em quem votar;
• 8% dos entrevistados votavam em branco ou anulavam o voto;
• a margem de erro foi de 2 pontos percentuais para cima ou para baixo;
• o nível de confiança da pesquisa foi de 95%.
Vamos analisar essa pesquisa.
Os resultados de votos válidos “valeram” para o dia em que a pesquisa foi feita e não
são uma previsão do que vai realmente acontecer nas urnas. Vemos, inclusive, que os 6% de
indecisos podem votar tanto em um candidato quanto no outro, ou podem anular seus votos.
A margem de erro de 2% de erro indica que, no momento da realização da entrevista,
Bolsonaro poderia ter entre 56% (58% menos 2%) e 60% (58% mais 2%) e Haddad
poderia ter entre 40% (42% menos 2%) e 44% (42% mais 2%).
152
Unidade IV
No entanto, como o nível de confiança da pesquisa foi de 95%, a chance, na ocasião,
de um candidato ter entre 56% e 60% e do outro ter entre 40% e 44% foi de 95%. Ou
seja, mesmo com a margem de erro, não há 100% de certeza da verdadeira intenção dos
eleitores em 10 de outubro de 2018, mas há elevada probabilidade de os resultados da
pesquisa coincidirem com essa intenção.
Há ainda que se considerar que o Brasil tem cerca de 5.570 munícipios e que,
segundo Tribunal Superior Eleitoral (TSE), no primeiro turno das eleições, ocorrido em 7
de outubro de 2018, houve o comparecimento de 117.364.560 eleitores, com 107.050.673
de votos válidos.
O leitor pode pensar: uma pesquisa feita com 3.235 eleitores em 227 municípios
pode ser válida para estimar o que pensam mais de 100 milhões de eleitores em mais de
5.500 municípios?
A resposta é sim. Vejamos um exemplo que trata de um caso bem mais simples do que
o caso que estamos analisando, mas útil para entendermos o problema.
Imagine que você compre uma garrafa com 750 mL de um vinho de altíssimo padrão.
Você precisa tomar todo esse volume para atestar que o vinho é de excelência? Não. A
ingestão de um cálice com 30 mL de vinho, ou até menos, é suficiente, pois esse volume
é uma amostra que representa todo o conteúdo da garrafa.
De modo geral, quase sempre “o todo” (população) que queremos estudar é
inacessível, pois é muito grande, como no caso de mais de 100 milhões de eleitores em
mais de 5.500 municípios, ou é desconhecido. Assim, a ideia é coletar uma amostra para
se fazer uma inferência sobre a população que queremos estudar.
Na pesquisa eleitoral que usamos como exemplo, a população é o eleitorado brasileiro
com 16 anos ou mais. Uma amostra representativa dessa população deve ser formada por
um conjunto de pessoas com as mesmas características de idade, gênero e distribuição
regional da população, traduzindo fielmente o conjunto de todo o eleitorado. Ou seja,
toda a diversidade da população deve “aparecer” na amostra na mesma proporção em
que ocorre na população.
Concluímos que uma amostra de eleitores não deve ser necessariamente grande
para representar o conjunto “completo” de eleitores: o importante é que o método de
amostragem garanta a representatividade da amostra. Se esse método não for eficiente,
uma amostra “muito grande”, com elevada quantidade de entrevistados pode não ser “boa”.
No caso de pesquisas eleitorais como as do Datafolha, trabalha‑se com amostra
estratificada. Incialmente, os 5.570 municípios brasileiros são classificados em três
estratos: capital, região metropolitana e interior. Para cada estrato, são feitas, com base
em critérios estatísticos robustos, que incluem a proporcionalidade, a seleção aleatória
do município que fará parte da amostra, a seleção aleatória dos pontos de abordagem do
município e a seleção aleatória do entrevistado com base na distribuição de gênero e de
faixa etária do eleitorado brasileiro.
153
ESTATÍSTICA
Enfim, números relacionados à “margem de erro”, ao “grau de confiança” e ao
“tamanho da amostra” em pesquisas eleitorais não são simplesmente valores que fazem
uma previsão de reais resultados: eles refletem a realidade da data da pesquisa e estão
vinculados a probabilidades. São inferências.
Exemplo de aplicação
Em uma cotação de preços para a compra de um equipamento de informática, foram levantados
10 orçamentos, e o preço médio foi de R$ 1.250,00 com desvio padrão igual a R$ 85,00. Determine
o intervalo de confiança para o preço desse equipamento, considerando um nível de confiança
de 95%.
Vimos que um intervalo de confiança de 95% implica z = 1,96. No problema, temos ainda x = 1250.
Considerando o desvio padrão amostral igual ao desvio padrão populacional, temos σ= 85.
Calculando o erro amostral c para população infinita – considerando infinito o número de
equipamentos existentes à venda, ou seja, uma quantidade muito grande –, temos o seguinte:
c z.
n
σ
=
85
c 1,96.
10
=
85
c 1,96.
3,162
=
c=1,96.26,88
c 52,68=
Escrevendo o intervalo de confiança, considerado o erro amostral c calculado, temos:
P(x c x c) 95%− <µ< + =
P(1250 52,68 1 250 52,68) 95%− <µ< − =
P(1197,32 1 302,68) 95%<µ< =
Logo, há a probabilidade de 95% de que o valor verdadeiro (valor médio de mercado, ou seja, para a
população) do equipamento esteja entre R$1.197,32 e R$1.302,68.
154
Unidade IV
8 REGRESSÃO LINEAR SIMPLES
Na regressão linear, é ajustada uma reta aos dados. Antes de discutir a regressão em si, é importante
tratar a respeito de funções lineares, ou funções do primeiro grau, cujos gráficos são retas.
A função do primeiro grau tem equação do tipo:
y a.x b= +
Na equação:
• x é a variável independente;
• y é a variável dependente;
• a é coeficiente angular;
• b é o coeficiente linear.
É dito que essa função é uma função do primeiro grau porque a variável independente x está
elevada à primeira potência. Gráficos de funções do primeiro grau são retas.
Observação
As letras usadas para representar a equação podem variar conforme
o autor do material, mas o coeficiente linear é sempre o que “aparece”
somando ou subtraindo. Nesse caso, o sinal faz parte do coeficiente.
O coeficiente angular é sempre o que multiplica a variável.
Em uma equação y = m . x + p, m é o coeficiente angular e p é o
coeficiente linear.
Exemplo de aplicação
Considere a função y 4x 2= + .
Sabendo que o coeficiente linear é o termo que apenas soma ou subtrai, conclui‑se que o coeficiente
linear dessa equação é 2. Sabendo que o coeficiente angular é o que multiplica a variável independente x,
conclui‑se que o coeficiente angular, no caso, é igual a 4.
O coeficiente linear dá informação sobre o cruzamento da reta do gráfico da função com o eixo y.
155
ESTATÍSTICA
O coeficiente angular dá informação sobre a inclinação da reta. Quanto maior o coeficiente
angular, mais inclinada será a reta. O coeficiente angular ainda nos diz se a reta é crescente (a > 0) ou
decrescente (a < 0).
2
1
‑1
‑2
‑1,0 1,0
x
y
‑0,5 0,5
Figura 40 – Gráfico da função y = 2x, como exemplo de reta crescente
2
1
‑1
‑2
‑1,0 1,0
x
y
‑0,5 0,5
Figura 41 – Gráfico da função y = –2x, como exemplo de reta decrescente
Exemplo de aplicação
Considere a equação y 5.x 1= − + . O que é possível dizer sobre o gráfico dessa equação?
Primeiramente, vê‑se que a variável x está elevada à potência 1. Logo, estamos tratando de uma
função do primeiro grau, e seu gráfico é uma reta.
O termo independente da equação é igual a 1 e é o coeficiente linear dessa reta. Logo, a reta cruza
o eixo y em y 1= .
A variável é multiplicada por –5, ou seja, o coeficiente angular é, no caso, igual a –5. Como o
coeficiente angular é negativo (a < 0), a função tem como gráfico uma reta decrescente.
Na figura a seguir, é apresentado o gráfico da funçãoy 5x 1= − + .
156
Unidade IV
2,5
2,0
1,5
1,0
0,5
‑0,5
x
y
0,30,20,1‑0,1‑0,2‑0,3
Figura 42 – Gráfico da função y = –5x + 1
Note que o gráfico da figura 42 é uma reta decrescente e que cruza o eixo y em y = 1.
8.1 Relação entre duas variáveis
Quando estudamos um processo, frequentemente desejamos saber se duas quantidades estão
correlacionadas. Será que o número de usuários de uma rede está relacionado com o tempo de resposta
nessa rede? Se essas quantidades estão relacionadas, como se dá essa relação? Quanto mais usuários,
o tempo de resposta é maior ou menor? Qual será o tempo de resposta na rede quando houver 50
usuários conectados?
São perguntas desse tipo que desejamos responder quando estudamos correlação de variáveis.
Um exemplo clássico de relação incomum é a venda de fraldas descartáveis e a venda de cervejas
em supermercados.
Figura 43 – Fralda descartável
Disponível em: https://cutt.ly/DMc5qiB. Acesso em: 14 nov. 2022.
157
ESTATÍSTICA
Saiba mais
GUROVITZ, H. O que cerveja tem a ver com fraldas? exame., São Paulo,
18 fev. 2011. Disponível em: https://cutt.ly/gMDBz9F. Acesso em:
14 nov. 2022.
MONTEIRO, F. Cervejas e fraldas, e essa estranha (cor)relação. Medium,
San Francisco, 16 ago. 2020. Disponível em: https://cutt.ly/uMDBYBp.
Acesso em: 14 nov. 2022.
A forma mais simples de verificar se há correlação entre duas grandezas é fazer um gráfico do tipo
dispersão (scatter plot) com uma das variáveis no eixo vertical e a outra variável no eixo horizontal.
Ao analisar o agrupamento dos pontos, é possível dizer se as variáveis são relacionadas e de que
forma isso se dá.
Saiba mais
Para saber como construir gráficos do tipo dispersão no Excel, acesse:
APRESENTAR seus dados em um gráfico de dispersão ou em um gráfico
de linha. Microsoft, Redmond, [s.d.]. Disponível em: https://cutt.ly/RMDNkPu.
Acesso em: 14 nov. 2022.
Para saber como construir gráficos do tipo dispersão em R, assista:
DIAGRAMA de dispersão no R – Como criar do Zero. 2020. 1 vídeo (7:55).
Publicado por Mercel Santos. Disponível em: https://cutt.ly/FMDMs4n.
Acesso em: 14 nov. 2022.
Para saber como construir um gráfico do tipo dispersão usando
Python, acesse:
ROCHA, D. Gráfico de dispersão feito no Python Jupyter Notebook.
RStudio, 10 nov. 2018. Disponível em: https://cutt.ly/iMDMDut. Acesso em:
14 nov. 2022.
158
Unidade IV
O gráfico a seguir é um exemplo de gráfico de dispersão, feito com o objetivo de verificar se há
relação entre a expectativa de vida e o PIB per capita para diferentes países.
Expectativa de vida
(anos)
PIB per capita (US$)
0 20000 40000 60000 80000 100000 120000 140000
80
60
Figura 44 – Expectativa de vida em função do PIB per capita como exemplo de gráfico do tipo
espalhamento para verificar se há correlação entre essas duas quantidades
8.2 Correlação linear
Ao analisar o gráfico de espalhamento para verificar se há correlação entre duas grandezas e se os
pontos nesse gráfico se espalham ao longo de uma reta, define‑se se os dados apresentam correlação
linear ou se são linearmente correlacionados.
Os dados podem ter:
• correlação linear positiva;
• correlação linear negativa;
• correlação não linear;
• nenhuma correlação.
159
ESTATÍSTICA
Exemplos de gráficos com dados com essas diferentes formas de correlação são apresentados
a seguir:
x
3
2,5
2
1,5
1
0,5
0
y
0 0,2 0,4 0,6 0,8 1,21
Figura 45 – Dados com correlação linear positiva
Note que na figura 45 os pontos do gráfico apresentam comportamento linear e crescente, mesmo
com espalhamento ao redor da reta. Conforme os valores de x aumentam, percebe‑se a tendência de
aumento dos valores de y.
1
0,5
0
‑0,5
‑1
‑1,5
‑2
‑2,5
‑3
x
y
0 0,2 0,4 0,6 0,8 1,21
Figura 46 – Dados com correlação linear negativa
Note que na figura 46 os pontos do gráfico apresentam comportamento linear e decrescente,
mesmo com espalhamento ao redor dessa reta. Conforme os valores de x aumentam, percebe‑se a
tendência de diminuição dos valores de y.
160
Unidade IV
x
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
y
0 0,2 0,4 0,6 0,8 1,21
Figura 47 – Dados com correlação não linear
Note que na figura 47 os pontos do gráfico não passam aproximadamente sobre uma reta, mesmo
considerando o espalhamento dos dados. Nela, os dados parecem seguir uma parábola.
1,2
1
0,8
0,6
0,4
0,2
0
y
x
0,80 0,20,1 0,40,3 0,60,5 0,7 10,9
Figura 48 – Dados não correlacionados
Observe que na figura 48 os pontos estão espalhados na área do gráfico sem seguir
comportamento algum.
161
ESTATÍSTICA
Muitas vezes não é possível dizer se os pontos estão espalhados ao longo de uma reta,
principalmente quando o espalhamento dos dados é grande. Então, é preciso calcular o coeficiente
de correlação linear para ser possível dizer se os dados são correlacionados linearmente ou não.
8.3 Coeficiente de correlação linear
O coeficiente de correlação linear de Pearson dá uma medida do grau de correlação entre duas
grandezas, além de fornecer o sinal dessa correlação, que diz se os dados são direta ou inversamente
relacionados.
O coeficiente de correlação linear de Pearson é representado por r e é calculado pela seguinte
expressão:
( ) ( )
n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n. x .y x . y
r
n. x x . n. y y
= = =
= = = =
−
=
− −
∑ ∑ ∑
∑ ∑ ∑ ∑
Na igualdade, temos que:
• xi é o um valor qualquer da variável x.
• yi é o um valor qualquer da variável y, correspondente a xi.
• n é o número de pares de dados.
Para simplificar o cálculo dessa equação, pode‑se calcular cada somatório separadamente para,
depois, calcular o coeficiente de correlação, o que pode ser feito da seguinte forma:
( ) ( )
xy x y
22
2 x 2 yx y
n.S S .S
r
n.S S . n.S S
−
=
− −
Na equação:
n
xy i i
i 1
S x .y
=
=∑
n
x i
i 1
S x
=
=∑
162
Unidade IV
n
y i
i 1
S y
=
=∑
n
2
2 ix
i 1
S x
=
=∑
n
2
2 iy
i 1
S y
=
=∑
O valor do coeficiente de correlação linear de Pearson varia sempre entre ‑1 e +1 e é uma
quantidade adimensional – ou seja, sem unidade.
O coeficiente de correlação linear de Pearson dá a informação sobre correlação da forma mostrada
a seguir.
• r 1=− → correlação linear perfeita negativa.
• r 0= → dados sem correlação.
• r 1=+ → correlação linear perfeita positiva.
Dessa maneira:
• quanto mais perto o coeficiente r estiver do valor +1, maior será a correlação linear positiva
dos dados;
• quanto mais perto o coeficiente r estiver do valor ‑1, maior será a correlação linear negativa
dos dados;
• quanto mais perto o coeficiente r estiver de zero, menor será a correlação dos dados.
Exemplo de aplicação
Considere os dados a seguir:
Tabela 57 – Dados para estudo de correlação
x y
1 2
3 6
2 3
1 1
163
ESTATÍSTICA
Para analisar se os dados estão correlacionados, calcula‑se o coeficiente de correlação linear r de
Pearson, dado por:
( ) ( )
xy x y
22
2 x 2 yx y
n.S S .S
r
n.S S . n.S S
−
=
− −
Calculando primeiro cada um dos somatórios, lembrando que são 4 dados de x e 4 dados de y, e,
portanto, n = 4, tem‑se o seguinte:
n
xy i i
i 1
S x .y
=
=∑
xyS 1.2 3.6 2.3 1.1= + + +
xyS 2 18 6 1= + + +
xyS 27=
n
x i
i 1
S x
=
=∑
xS 1 3 2 1= + + +
xS 7=
n
y i
i 1
S y
=
=∑
yS 2 6 3 1= + + +
yS 12=
n
2
2 ix
i 1
S x
=
=∑
164
Unidade IV
2 2 2 2
2x
S 1 3 2 1= + + +
2x
S 1 9 4 1= + + +
x
S 15=
n
2
2 iy
i 1
S y
=
=∑
2 2 2 2
2y
S 2 6 3 1= + + +
2y
S 4 35 9 1= + + +
2y
S 50=
Substituindo os cálculos anteriores na expressão do coeficiente de correlação linear r de Pearson,
lembrando que, para este caso, n = 4, temos:
( ) ( )
xy x y
22
2 x 2 yx y
n.S S .S
r
n.S S . n.S S
−
=
− −
( )22
4.27 7.12
r
4.15 7 . 4.50 12
−
=
− −
Fazendo os cálculos, ficamos com:
108 84
r
60 49. 200 144
−
=
− −
24
r
11. 56
=
24
r
3,3166 . 7,4833
=
165
ESTATÍSTICA
24
r
24,8193
=
r 0,97=
Chega‑se, assim, a um coeficiente de correlação linear de Pearson r = 0,97, o que indica forte
correlação linear positivados dados – ou seja, quando x aumenta, espera‑se também o aumento de y.
A figura a seguir mostra o gráfico de dispersão desses dados, demonstrando a forte correlação
linear positiva.
y
6
4
2
1 2 2 3 3
x
Figura 49 – Gráfico de dispersão do conjunto de dados do exemplo
No exemplo anterior, havia forte correlação entre os dados. Vamos ver mais um exemplo de cálculo
do fator de correlação de Pearson.
Exemplo de aplicação
Considere os dados a seguir:
Tabela 58 – Dados para estudo de correlação
x y
1 1
2 1
3 1
4 0
166
Unidade IV
Para verificar se os dados estão correlacionados, calcula‑se o coeficiente de correlação linear r de
Pearson, dado por:
( ) ( )
xy x y
22
2 x 2 yx y
n.S S .S
r
n.S S . n.S S
−
=
− −
Calculando primeiro cada um dos somatórios, lembrando que são 4 dados de x e 4 dados de y, e,
portanto, n = 4, temos o seguinte:
n
xy i i
i 1
S x .y
=
=∑
xyS 1.1 2.1 3.1 4.0= + + +
xyS 1 2 3= + +
xyS 6=
n
x i
i 1
S x
=
=∑
xS 1 2 3 4= + + +
xS 10=
n
y i
i 1
S y
=
=∑
yS 1 1 1 0= + + +
yS 3=
n
2
2 ix
i 1
S x
=
=∑
167
ESTATÍSTICA
2 2 2 2
2x
S 1 2 3 4= + + +
2x
S 1 4 9 16= + + +
2x
S 30=
n
2
2 iy
i 1
S y
=
=∑
2 2 2 2
2y
S 1 1 1 0= + + +
2y
S 1 1 1= + +
2y
S 3=
Substituindo os cálculos anteriores na expressão do coeficiente de correlação linear r de Pearson,
lembrando que, para este caso, n = 4, temos:
( ) ( )
xy x y
22
2 x 2 yx y
n.S S .S
r
n.S S . n.S S
−
=
− −
Fazendo os cálculos, ficamos com:
2 2
4.6 10.3
r
4.30 10 . 4.3 3
−
=
− −
24 30
r
120 100. 12 9
−
=
− −
6
r
20. 3
−
=
6
r
4,4721 .1 ,7320
−
=
168
Unidade IV
6
r
7,7460
−
=
r 0,77= −
Chega‑se a um coeficiente de correlação linear de Pearson r 0,77= − , o que indica correlação linear
negativa dos dados – ou seja, quando x aumenta, espera‑se também a diminuição de y.
A figura a seguir mostra o gráfico de dispersão do conjunto de dados do exemplo.
y
1,0
0,5
0,0
1 2 2 3 3 4 4
x
Figura 50 – Gráfico de dispersão dos dados do exemplo
Note que, no gráfico, a correlação linear dos dados não fica tão evidente como no exemplo
anterior, e a existência de correlação precisa do cálculo do coeficiente de correlação linear de Pearson
para ser confirmada.
Mesmo ao estudar a correlação entre dois conjuntos de dados é preciso ficar atento, porque
nem sempre a correlação está relacionada a uma relação de causa e efeito. Por exemplo, pode haver
correlação entre a migração de pássaros na Austrália e o peso do sanduíche da lanchonete da sua rua,
mas, certamente, não há relação de causa e efeito entre essas duas quantidades.
8.4 Ajuste de reta aos dados
Caso seja notado que a correlação entre duas variáveis tem comportamento linear, pode‑se ajustar
uma reta sobre esses dados. A equação da reta ajustada pode ser usada para fazer predições da grandeza
que foi medida. A seguir, será abordado como fazer esse ajuste de reta.
É importante conhecermos os métodos não só de ajuste de reta para não tratarmos essas ferramentas
como caixas‑pretas, mas sim entendermos o processo de cálculo e as suas limitações.
169
ESTATÍSTICA
8.4.1 Método dos mínimos quadrados
Em um processo de tomada de dados, são obtidas informações de duas variáveis, x e y, além da
incerteza σ associada à variável y. Se temos n dados, eles podem ser representados por:
( ) ( ) ( ) ( )1 1 1 2 2 2 3 3 3 n n nx ,y , , x ,y , , x ,y , x ,y ,σ σ σ … σ
Aqui, considera‑se a variável x isenta de erros.
Observação
Também chamamos a incerteza associada a uma medida de erro.
Isso não significa que a medida esteja errada, mas que ela apenas não é
totalmente precisa. A medida é afetada por erros sistemáticos, por erros
aleatórios e, possivelmente, por erros grosseiros.
Saiba mais
Para saber mais sobre os tipos de erros ou incertezas presentes no
processo de medição de uma grandeza, acesse:
WATANABE, E. H. Erro de medição. Instituto Federal de Santa Catarina,
Joinville, 13 fev. 2019. Disponível em: https://cutt.ly/bMD9Hex. Acesso em:
14 nov. 2022.
O método da máxima verossimilhança diz que a melhor função f(x) que pode ser ajustada a um
conjunto de dados é aquela que, se admitida como verdadeira, é mais verossímil possível com os
pontos experimentais.
Observação
Verossímil é um adjetivo cuja definição é:
“Que aparenta ser verdadeiro; sobre algo cuja verdade não se duvida:
uma descrição verossímil.
Admissível ou realizável por não se opor à verdade; que não repugna à
verdade; plausível: história verossímil (VEROSSÍMIL…, c2022).
170
Unidade IV
O método dos mínimos quadrados pode ser deduzido a partir do método da máxima
verossimilhança, supondo que as distribuições de erros são gaussianas e que a melhor função f(x)
ajustada aos dados tem forma e número de parâmetros predefinidos.
O método dos mínimos quadrados dá os coeficientes da função ajustada, mas não diz qual função
devemos ajustar aos dados, o que deve ser decidido por quem analisa os dados.
O método dos mínimos quadrados, como o nome diz, minimiza o quadrado da distância entre a
função ajustada e os pontos experimentais.
Considere que yi representa os pontos experimentais e que f(xi; a1, a2, a3, … , aP) representa a função
que queremos ajustar aos dados, de grau p e de parâmetros a1, a2, a3, … , aP, dada por:
( ) 2 P1 2 3 p 1 2 i 3 i P if xi; a , a , a , , a a a .x a . x a . x… = + + +…+
O método dos mínimos quadrados tem como objetivo minimizar a quantidade S dada por:
( )
n 2
i i 1 2 p
i 1
S y f x ;a ,a , ,a
=
= − … ∑
Figura 51 – Exemplo da distância entre os pontos
experimentais (em azul) e a função ajustada (em vermelho)
Na figura 51 é mostrada a distância para o terceiro ponto da figura. O método dos mínimos
quadrados minimiza o quadrado dessa distância para todos os pontos experimentais.
Os ajustes de reta apresentados a seguir, tanto para incertezas diferentes quanto para incertezas
iguais, são uma aplicação do método de mínimos quadrados para o ajuste de funções – no caso, de
funções lineares.
171
ESTATÍSTICA
8.4.2 Ajuste de reta para incertezas diferentes
Considere a variável y medida em função da variável x. Considere também que há incertezas σ
associadas apenas à variável y.
O conjunto de n dados experimentais pode, portanto, ser escrito da seguinte forma:
( ) ( ) ( ) ( )1 1 1 2 2 2 3 3 3 n n nx ,y , , x ,y , , x ,y , x ,y ,σ σ σ … σ
Ajustando sobre esses dados uma reta de equação y = a.x + b, os coeficientes angular e linear dessa
reta ajustada são dados, respectivamente, por:
( )xy x y1a . S .S S .Sσ= −∆
( )2 y x xyx1b . S .S S .S= −∆
Na equação:
n
2
i 1 i
1
Sσ
=
=
σ
∑
n
i
x 2
i 1 i
x
S
=
=
σ
∑
n 2
i
2 2x
i 1 i
x
S
=
=
σ
∑
n
i
y 2
i 1 i
y
S
=
=
σ
∑
n
i i
xy 2
i 1 i
x .y
S
=
=
σ
∑
( )22 xxS .S Sσ∆ = −
172
Unidade IV
As variâncias dos coeficientes angular e linear da reta ajustada são dadas, respectivamente, por:
2
a
Sσσ =
∆
22 x
b
S
σ =
∆
A covariância dos coeficientes angular e linear é dada por:
( ) xScov a,b = −
∆
Exemplo de aplicação
O resistor é o componente elétrico que se opõe à passagem de corrente elétrica. Considere as
medidas da tensão V e da intensidade de corrente I em um resistor mostradas na tabela a seguir.
Tabela 59 – Medidas de tensão e corrente em um resistor
I (A) V (V) 𝜎V (V)
0,10 9,5 0,8
0,20 21,4 1,2
0,30 28,0 1,4
0,40 38,7 1,2
Destaca‑se a seguir o gráfico das duas grandezas medidas para analisar se os dados podem ser
ajustados por uma reta.
I (A)
40
30
20
10
0
V (V)
0 0,1 0,2 0,3 0,50,4
Figura 52 – Gráfico de tensão V em função da intensidade
de corrente elétrica I para os valores da tabela 59
173
ESTATÍSTICA
Vê‑se, no gráfico da figura 52, que os dados podem ser ajustados por uma reta crescente. Como cada
valor de tensão tem uma incerteza associada diferente, é necessário fazer o ajuste de reta para o caso
de incertezas diferentes.
Começa‑se calculando os coeficientes S e ∆ para, em seguida, calcular os coeficientes angular e
linear da reta ajustada.Note que temos I no eixo x e V no eixo y do gráfico (pois trabalhamos com as
incertezas no eixo y). Logo, xi corresponde aos valores de intensidade de corrente I e yi corresponde aos
valores de tensão V.
n
2
i 1 i
1
Sσ
=
=
σ
∑
2 2 2 2
1 1 1 1
S
0,8 1,2 1,4 1,2
σ = + + +
1 1 1 1
S
0,64 1,44 1,96 1,44σ
= + + +
S 1,562 0,694 0,510 0,694σ = + + +
S 3,46σ =
n
i
x 2
i 1 i
x
S
=
=
σ
∑
x 2 2 2 2
0,10 0,20 0,30 0,40
S
0,8 1,2 1,4 1,2
= + + +
x
0,10 0,20 0,30 0,40
S
0,64 1,44 1,96 1,44
= + + +
xS 0,156 0,139 0,153 0,278= + + +
xS 0,73=
n 2
i
2 2x
i 1 i
x
S
=
=
σ
∑
174
Unidade IV
2 2 2 2
2 2 2 2 2x
0,10 0,20 0,30 0,40
S
0,8 1,2 1,4 1,2
= + + +
2x
0,01 0,04 0,09 0,16
S
0,64 1,44 1,96 1,44
= + + +
2x
S 0,016 0,0278 0,0459 0,111= + + +
2x
S 0,20=
n
i
y 2
i 1 i
y
S
=
=
σ
∑
y 2 2 2 2
9,5 21,4 28,0 38,7
S
0,8 1,2 1,4 1,2
= + + +
y
9,5 21,4 28,0 38,7
S
0,64 1,44 1,96 1,44
= + + +
yS 14,844 14,861 14,286 26,875= + + +
xS 70,87=
n
i i
xy 2
i 1 i
x .y
S
=
=
σ
∑
xy 2 2 2 2
0,10.9,5 0,20.21,4 0,30.28,0 0,40.38,7
S
0,8 1,2 1,4 1,2
= + + +
xy
0,950 4,280 8,400 15,480
S
0,64 1,44 1,96 1,44
= + + +
xyS 1,484 2,972 4,286 10,750= + + +
xyS 19,49=
175
ESTATÍSTICA
( )22 xxS .S Sσ∆ = −
( )23,46.0,20 0,73∆ = −
0,692 0,533∆ = −
0,16∆ =
Calculando os coeficientes angular e linear da reta ajustada, temos:
( )xy x y1a . S .S S .Sσ= −∆
( )1a . 3,46 .1 9,49 0,73 . 70,87
0,16
= −
( )1a . 67,435 51,735
0,16
= −
15,700
a
0,16
=
a 98,13=
( )2 y x xyx1b . S .S S .S= −∆
( )1b . 0,20.70,87 0,73.19,49
0,16
= −
( )1b . 14,174 14,228
0,16
= −
0,0537
b
0,16
−
=
b 0,33= −
176
Unidade IV
Logo, a equação que ajusta os dados é dada por:
y a.x b= +
y 98,13.x 0,33= −
Como são usadas a tensão V no eixo y e a intensidade da corrente I no eixo x, a forma correta de
escrever a equação de reta ajustada aos dados é:
V 98,13.I 0,33= −
Para verificar se essa reta ajustada está correta, podemos construir um gráfico dos dados e da
reta ajustada:
I (A)
50
40
30
20
10
0
V
(V
)
0 0,1 0,2 0,3 0,50,4
Figura 53 – Dados de tensão e corrente como pontos em azul e reta ajustada em vermelho
Pelo gráfico da figura anterior, vemos que a reta se ajusta bem aos pontos, seguindo o comportamento
dos pontos no gráfico.
177
ESTATÍSTICA
Saiba mais
No exemplo anterior, usamos dados de tensão e de intensidade
corrente de um resistor, e não foi preciso usar conceitos de eletricidade
para ajustarmos uma reta aos dados fornecidos.
Caso você queira saber o que é tensão e o que é corrente elétrica, leia:
O QUE é tensão e corrente elétrica? Click Geradores, Ibirama, 15 dez.
2021. Disponível em: https://cutt.ly/TMFr6iw. Acesso em: 14 nov. 2022.
Figura 54 – Placa de circuito eletrônico
Disponível em: https://cutt.ly/SMQNkIn. Acesso em: 14 nov. 2022.
8.4.3 Ajuste de reta para incertezas iguais
Quando as incertezas associadas a cada dado experimental são iguais, o cálculo do ajuste de reta
aos dados torna‑se mais simples.
O conjunto de n dados experimentais pode, nesse caso, ser escrito da seguinte forma:
( ) ( ) ( ) ( )1 1 2 2 3 3 n nx ,y , , x ,y , , x ,y , x ,y ,σ σ σ … σ
178
Unidade IV
Ajustando sobre esses dados uma reta de equação y a.x b= + , os coeficientes angular e linear dessa
reta ajustada são dados, respectivamente, por:
( )xy x y1a . s .s s .sσ= −∆
( )2 y x xyx1b . s .s s .s= −∆
Na equação:
2
1
s nσ =
σ
n
x i
i 1
s x
=
=∑
n
3
2 ix
i 1
s x
=
=∑
n
y i
i 1
s y
=
=∑
n
xy i i
i 1
s x .y
=
=∑
( )22 xxs .s sσ∆ = −
Desse modo, as variâncias dos coeficientes angular e linear da reta ajustada são dadas, nesse caso,
respectivamente, por:
2 2
a
s
.σσ = σ
∆
22 2x
b
s
.σ = σ
∆
179
ESTATÍSTICA
8.5 Coeficiente de determinação
O coeficiente de determinação é indicado por R2 e tem como objetivo indicar quão adequada foi a
escolha de determinada função para ser ajustada a um conjunto de pontos experimentais. O valor de R2
pode ser expresso como um número entre 0 e 1 ou na forma de porcentagem.
Lembrete
Como vimos quando estudamos probabilidades, para converter um
número para porcentagem, basta multiplicá‑lo por 100%. Dessa forma:
0,70 .1 00% 70%=
O coeficiente de determinação R2 é calculado por:
2 res
tot
SQ
R 1
SQ
= −
Na equação:
( )
n
res i i
i 1
ˆSQ y y
=
= −∑
( )
n
tot i i
i 1
SQ y y
=
= −∑
Temos o seguinte:
• n é o número de dados;
• yi é o valor observado para a grandeza;
• ŷ é o valor previsto pela função ajustada para a grandeza yi;
• ȳ é o valor médio para a grandeza yi.
O coeficiente de determinação calculado dessa forma tem um inconveniente: quanto maior o
número de parâmetros da função, maior o coeficiente de determinação. Isso passa uma falsa ideia de
que é sempre melhor usar funções com mais parâmetros, o que não é verdade. Para contornar esse
problema, usa‑se o coeficiente de explicação ajustado, dado por:
180
Unidade IV
( ) ( )
2 2n 1R 1 . 1 R
n k 1
−
= − −
− +
Na equação:
• k é o número de parâmetros da função ajustada;
• n é o número de dados;
• R é o coeficiente de determinação.
8.6 Funções linearizáveis
Podemos ter funções que, a princípio, não têm gráficos lineares (ou seja, representados por uma
reta), mas que, com algumas adaptações, podem ter os gráficos são linearizados.
Por exemplo, considere a função matemática a seguir.
by a.x=
Na equação, a e b são constantes, ou seja, são números. O gráfico desse tipo de função é uma reta
apenas se b 1= . Nos demais casos, o gráfico não é linear.
Lembrete
Vimos que a função de primeiro grau y a.x b= + tem esse nome porque
a variável x está elevada à primeira potência, e seu gráfico é uma reta.
4
3
2
1
y
x
‑1,0 ‑0,5 0,5 1,0
Figura 55 – Gráfico da função 2y 3.x= , função do tipo by a.x= ,
com a = 3 e b = 2, mostrando que o gráfico não é linear
181
ESTATÍSTICA
Observação
O logaritmo de uma função é indicado por ( )\y log x= e tem como
operação inversa a potência, ou seja, x = ya. Na equação do logaritmo, a
é a base do logaritmo. Quando essa base não é indicada, ela é igual
a 10, ou seja, ( ) ( )10log x log x= .
Vamos precisar de algumas propriedades de logaritmos, listadas
a seguir:
( ) ( ) ( )log a.b log a log b= +
( ) ( )blog a b.log a=
Uma forma de linearizar o gráfico de funções do tipo y = a.xb, com a e b constantes, é calcular o
logaritmo dos dois lados da função.
by a.x=
( ) ( )blog y log a.x=
Como o logaritmo do produto é igual à soma dos logaritmos, temos:
( ) ( ) ( )blog y log a log x= +
Sobre o expoente dentro da função logarítmica, podemos fazer:
( ) ( ) ( )log y log a b.log x= +
Se compararmos essa equação com uma equação de reta, teremos:
( ) ( ) ( )log y log a b.log x= +
Y A B .X= +
Então, se no eixo y do gráfico for colocado o logaritmo dos valores de y e no eixo x do gráfico
for colocado o logaritmo dos valores de x, a função passa a ser linearizada (ou seja, seu gráfico
torna‑se uma reta).
182
Unidade IV
A figura a seguir apresenta o gráfico da função 2y 3.x= , mas com eixos em escala logarítmica.
10
1
0,1
0,01
0,1 1
Figura 56 – Gráfico da função y = 3 . x2, com ambos os eixos em escala logarítmica
Quando é usada a escala logarítmica nos eixos dos gráficos, é necessário estar atento ao fato de que
logaritmo de zero e de valores negativos não podem ser calculados. Então, não é possível simplesmente
“pegar” um gráfico que passa pela origem e aplicar a escala logarítmica nos eixos. Na figura 56, foi
utilizado apenas um trecho do gráfico da figura 55, com valores de x positivos, para mudar a escala do
gráfico para escala logarítmica.
Note que a escala dos eixos do gráfico da figura anterior não é linear. Temos no eixo y os
seguintes valores:
0,010,1110
Esses valores aparecem igualmente espaçados no eixo do gráfico, o que é uma indicação de que o
gráfico está na escala logarítmica.
A figura a seguir apresenta novamente o gráfico da expectativa de vida em função do PIB per capita,
mas agora em escalalogarítmica.
183
ESTATÍSTICA
PIB per capita (US$)
1000,0 2000,0 5000,0 10000,0 20000,0 50000,0 100000,0
Expectativa de vida
(anos)80
70
60
50
Figura 57 – Gráfico da expectativa de vida em função
do PIB per capita em escala logarítmica em ambos os eixos
Um ponto importante é que não é preciso calcular o logaritmo dos valores para fazer isso, dado que
a maioria dos programas de plotagem de gráficos permite aplicar escalas logarítmicas aos eixos dos
gráficos. Se o gráfico for feito à mão, há um papel próprio, chamado de papel dilog, ou log‑log, que já
faz com que o gráfico seja linearizado.
Saiba mais
Para saber como alterar a escala dos eixos de um gráfico do Excel para
escala logarítmica, leia:
ALTERAR a escala do eixo vertical (valor) em um gráfico. Microsoft,
Redmond, [s.d.]. Disponível em: https://cutt.ly/7MFyNyr. Acesso em:
14 nov. 2022.
Uma desvantagem dos gráficos em escala logarítmica é que eles podem não ser compreendidos
por pessoas sem conhecimentos de matemática, o que faz com que esse tipo de gráfico não seja o
mais adequado para apresentações para qualquer público, como no caso de gráficos de reportagens.
184
Unidade IV
Resumo
Segundo Morettin (2019, p. 46), “variável aleatória é uma função que
associa a todo evento pertencente a uma partição do espaço amostral
um único número real”. Uma variável aleatória é dita discreta se assume
apenas determinados valores, e não qualquer valor contido em um
intervalo de valores (nesse caso teríamos uma variável contínua). Um
exemplo de quantidades discretas está nos resultados do lançamento de
um dado, em que podemos obter apenas números inteiros de 1 a 6, e nunca
números fracionários.
Vimos que Morettin (2019, p. 46) define a função de probabilidade
como “a função que associa cada valor assumido pela variável aleatória
à probabilidade do evento correspondente”. O autor define, ainda, a
distribuição de probabilidade como o conjunto formado pelos valores das
variáveis aleatórias e duas probabilidades correspondentes.
A distribuição de probabilidades pode ser representada de forma
gráfica, colocando‑se os valores da variável aleatória no eixo horizontal
e as probabilidades correspondentes no eixo vertical. Como estamos
tratando de uma variável discreta, o gráfico será composto por pontos, e
não podemos traçar uma curva sobre esses pontos.
O valor esperado de uma variável aleatória, também conhecido como
esperança matemática, é igual ao valor médio dessa variável.
O valor esperado de uma variável aleatória X, indicado por E(X), é
calculado pela média ponderada dos valores assumidos pela variável, em
que os pesos são as probabilidades:
( ) ( )
N
i i
i 1
E X x .p x
=
=∑
A variância de uma variável aleatória e discreta X, representada por
VAR(X), é calculada por:
( ) ( ) ( )
N
2
i x i
i 1
VAR X x .p x
=
= −µ∑
185
ESTATÍSTICA
Na equação, xi representa cada valor da variável aleatória, µx representa
o valor verdadeiro (ou valor médio) da grandeza e p(xi) representa a
probabilidade de ocorrência de cada valor da variável aleatória xi.
A variância ainda pode ser indicada por V(X), σ2(X), σX
2 ou σ2.
A variância é um indicador de dispersão, ou seja, fornece uma medida do
espalhamento dos dados.
A distribuição binomial é uma distribuição discreta de probabilidades
que se aplica ao processo de amostragem que tiver as seguintes
características:
• em cada tentativa, há apenas dois resultados possíveis, chamados de
sucesso e fracasso, que são mutuamente exclusivos;
• os eventos de uma série de tentativas são independentes;
• o processo é estacionário, ou seja, a probabilidade de sucesso não
varia entre uma tentativa e outra.
A probabilidade P(X) de termos X sucessos em N tentativas é dada pela
seguinte expressão:
( ) X N XN,XP X C .p .q −=
Escrevendo explicitamente o binômio CN,X, temos:
( ) ( )
X N XN!P X .p .q
X!. N X !
−=
−
A distribuição normal de probabilidades é uma distribuição de
probabilidades contínua, simétrica em relação à média, e cuja curva tem
o formato de uma gaussiana. Essa curva é chamada de função densidade
de probabilidade (fdp). A probabilidade de ocorrência de um evento está
relacionada com a área sob a curva da função densidade de probabilidade.
Em uma distribuição normal de probabilidades, temos o que segue.
x x x−σ< < + σ → p = 68%
x 2. x x 2.− σ< < + σ → p = 95%
x 23 x x 3.− σ< < + σ → p = 99,7%
186
Unidade IV
A probabilidade de um valor estar no intervalo entre uma vez o desvio
padrão, tanto para o lado negativo como para o lado positivo, é de 68% para
uma distribuição normal. A probabilidade de um valor estar no intervalo
dentro de 2 vezes o desvio padrão, tanto para o lado negativo como para
o positivo, é de 95%. Já a probabilidade de um valor estar no intervalo
limitado por 3 vezes o desvio padrão, tanto para o lado negativo como para
o positivo, é de 99,7%. Outra implicação disso é que a probabilidade de um
valor estar além de 3 vezes o desvio padrão é cerca de 0,3%.
A função densidade de probabilidade de uma distribuição normal de
média x e desvio padrão σ é dada por:
( )
21 x x
.
21f x .e
. 2.
− − σ =
σ π
Podemos converter qualquer distribuição normal de probabilidades
em uma distribuição normal padronizada, convertemos os valores x da
distribuição em valores padronizados z usando a seguinte expressão:
x x
z
−
=
σ
A conversão para uma distribuição normal padronizada faz com
que possamos usar uma tabela para obter as probabilidades, sem que
tenhamos que realizar cálculos usando a equação da função densidade de
probabilidade que vimos anteriormente. Essa tabela é mostrada a seguir.
Tabela 60 – Áreas sob uma distribuição normal
padrão, em relação ao valor médio
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
187
ESTATÍSTICA
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,49780,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
Para usarmos essa tabela, podemos partir do valor de z e procurar a
combinação entre linha e coluna até obtermos esse valor. Por exemplo, a
área sob a gaussiana para z = 1,42 é obtida por 1,4 + 0,02, e essa área está
no cruzamento da linha 1,4 com a coluna 0,02, o que dá a área de 0,4222
(ver tabela a seguir).
Tabela 61 – Áreas sob uma distribuição normal padrão,
em relação ao valor médio para z = 1,42
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
188
Unidade IV
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
Lembre‑se de que essas tabelas fornecem a área entre o meio da curva e
o z que procuramos. Assim, se quisermos a área entre dois lados da curva
simétricos, devemos dobrar o valor obtido na tabela.
A tabela também pode ser usada no sentido inverso, em que consultamos
um valor de probabilidade e, a partir da posição desse valor, obtemos o
valor de z pela soma da linha e da coluna da probabilidade desejada.
A inferência estatística é o processo estatístico que tem como
objetivo fazer generalizações de uma população a partir de uma amostra.
A inferência estatística envolve a amostragem, os estimadores e os
intervalos de confiança, conceitos que detalharemos a seguir.
A seleção de uma amostra de uma população é chamada levantamento
amostral. Esse levantamento amostral pode ser de dois tipos, probabilístico
ou não probabilístico.
189
ESTATÍSTICA
Os levantamentos amostrais probabilísticos podem ser classificados
em amostragem aleatória simples, sistemática, estratificada ou por
conglomerados.
Na amostragem aleatória simples, todos os elementos de uma
população têm igual probabilidade de serem selecionados para a amostra.
Nesse processo de seleção, é comum sortearmos aleatoriamente os
elementos da população que irão compor a amostra. Esse é o método
mais simples de compor uma amostra.
Na amostragem aleatória sistemática, os elementos da população são
selecionados de acordo com critérios pré‑estabelecidos, como seleção pela
inicial do nome, por exemplo. Esse processo de amostragem é bastante
usado para compor amostras em pesquisas de opinião.
Na amostragem aleatória estratificada, a população é dividida em
grupos homogêneos, chamados de estratos, e, em seguida, é feita uma
amostragem aleatória simples dentro de cada estrato. Os estratos podem
ser faixas salariais em uma empresa ou faixas etárias de uma população,
por exemplo.
Na amostragem aleatória por conglomerados, a população é dividida
por áreas geográficas, e é feita então uma amostragem simples em uma
pequena área geográfica.
Os levantamentos amostrais não probabilísticos podem ser classificados
em amostragem não aleatória intencional, voluntária ou acidental.
Na amostragem não aleatória intencional, o pesquisador escolhe
uma característica da população para compor sua amostra, por exemplo,
selecionando pessoas pelo seu time de futebol.
Na amostragem não aleatória voluntária, as pessoas tomam a iniciativa
de fazer parte da amostra, oferecendo‑se para participar da pesquisa.
Na amostragem não aleatória acidental, os elementos que compõem
a amostra são escolhidos sem nenhum critério estabelecido, por exemplo,
selecionar todas as pessoas que passam por determinada rua.
Definimos estimador como uma grandeza obtida a partir de observações
de uma amostra. Ele é um indicador de um parâmetro desconhecido
da população.
Chamamos de estimativa o valor atribuído a um estimador. A estimativa
de um parâmetro pode ser feita de duas formas: por ponto ou por intervalo.
190
Unidade IV
A estimativa por ponto é o nome dado ao valor obtido a partir de
cálculos estatísticos com os elementos da amostra, servindo como uma
aproximação do parâmetro estimado. A estimativa por intervalo não é
feita por um único valor, mas por uma faixa de valores, considerados uma
aproximação do parâmetro estimado. As estimativas por intervalo são
relacionadas ao intervalo de confiança. Em geral, calculamos intervalos
de confiança que tenham a chance de 95% de conter o valor verdadeiro.
O nível de confiança é o valor que exprime o grau de confiança
associado a dado intervalo de confiança. Chamamos de x o valor médio, de
s o desvio padrão da amostra, de µ o valor médio e de σ o desvio padrão da
população a partir da qual a amostra foi obtida.
No caso de uma distribuição simétrica, o valor médio da amostra está no
meio do intervalo de confiança. Definindo o erro amostral c e considerando
a probabilidade de 95% do valor médio da população estar contido nesse
intervalo de confiança, temos:
P(x c x c) 95%− <µ< + =
No caso de uma população infinita, o erro amostral c é determinado por:
c=z.σ/√n
Na equação, σ é o desvio padrão da população, que pode ser aproximado
pelo desvio padrão da amostra caso esse primeiro seja desconhecido, n é
o tamanho da amostra e z é a abcissa da distribuição normal padronizada
para dado nível de confiança.
Se a população for finita e de tamanho N, o erro amostral c é
determinado por:
2 2z . N
c . 1
N 1 n
σ = − −
Na equação, σ é o desvio padrão da população, que pode ser aproximado
pelo desvio padrão da amostra caso esse primeiro seja desconhecido, n é
o tamanho da amostra e z é a abcissa da distribuição normal padronizada
para dado nível de confiança.
No caso de nível de confiança de 95%, o mais usual, z é obtido da forma
mostrada a seguir.
191
ESTATÍSTICA
Como a tabela vista anteriormente dá a área sob a curva da distribuição
gaussiana a partir do eixo de simetria, temos que dividir a probabilidadede 95% por 2:
95% 0,95
0,4750
2 2
= =
Procurando por esse valor na tabela de áreas sob a gaussiana, vemos
que ele é localizado no cruzamento das probabilidades 0,06 na horizontal e
1,9 na vertical (ver tabela a seguir), o que resulta em:
z 1 ,9 0,06 1 ,96= + =
Tabela 62 – Áreas sob uma distribuição normal padrão,
em relação ao valor médio para z = 1,96
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
192
Unidade IV
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
Estudamos correlação entre duas grandezas. A forma mais simples de
analisarmos se há correlação entre duas grandezas é fazer um gráfico do
tipo dispersão (scatter plot), com uma das variáveis no eixo vertical e a
outra variável no eixo horizontal. Analisando o agrupamento dos pontos,
podemos ter ideia se as variáveis são relacionadas e de que forma isso se dá.
Vimos que, quando analisamos o gráfico de espalhamento para
verificar se há correlação entre duas grandezas, se os pontos nesse gráfico
se espalham ao longo de uma reta, dizemos que os dados apresentam
correlação linear ou são linearmente correlacionados.
Os dados podem ter correlação linear positiva, correlação linear
negativa, correlação não linear ou podem ser dados não correlacionados.
Exemplos de gráficos com dados com essas diferentes formas de
correlação são apresentados a seguir:
x
3
2,5
2
1,5
1
0,5
0
y
0 0,2 0,4 0,6 0,8 1,21
Figura 58 – Dados com correlação linear positiva
Note que na figura 58 os pontos do gráfico apresentam comportamento
linear e crescente, mesmo com espalhamento ao redor da reta. Conforme os
valores de x aumentam, percebe‑se a tendência de aumento dos valores de y.
193
ESTATÍSTICA
1
0,5
0
‑0,5
‑1
‑1,5
‑2
‑2,5
‑3
x
y
0 0,2 0,4 0,6 0,8 1,21
Figura 59 – Dados com correlação linear negativa
Note que na figura 59 os pontos do gráfico apresentam comportamento
linear e decrescente, mesmo com espalhamento ao redor dessa reta.
Conforme os valores de x aumentam, percebe‑se a tendência de diminuição
dos valores de y.
x
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
y
0 0,2 0,4 0,6 0,8 1,21
Figura 60 – Dados com correlação não linear
Na figura 60 os pontos do gráfico não passam aproximadamente sobre
uma reta, mesmo considerando o espalhamento dos dados. Nela, os dados
parecem seguir uma parábola.
194
Unidade IV
1,2
1
0,8
0,6
0,4
0,2
0
y
x
0,80 0,20,1 0,40,3 0,60,5 0,7 10,9
Figura 61 – Dados não correlacionados
Note que na figura 61 os pontos estão espalhados na área do gráfico
sem seguir comportamento algum.
Vimos que o coeficiente de correlação linear de Pearson dá
uma medida do grau de correlação entre duas grandezas, além de
fornecer o sinal dessa correlação, que diz se os dados são direta ou
inversamente relacionados.
O coeficiente de correlação linear de Pearson, representado por r,
é calculado por:
( ) ( )
N N N
i i i ii 1 i 1 i 1
2 2N N N N2 2
i i i ii 1 i 1 i 1 i 1
n. x .y x . y
r
n. x x . n. y y
= = =
= = = =
−
=
− −
∑ ∑ ∑
∑ ∑ ∑ ∑
Para simplificar o cálculo dessa equação, podemos calcular cada
somatório separadamente para, depois, calcularmos o coeficiente de
correlação, o que pode ser feito da seguinte forma:
( ) ( )
xy x y
22
2 x 2 yx y
n.S S .S
r
n.S S . n.S S
−
=
− −
195
ESTATÍSTICA
Na equação:
n
xy i i
i 1
S x .y
=
=∑
n
x i
i 1
S x
=
=∑
n
y i
i 1
S y
=
=∑
n
2
2 ix
i 1
S x
=
=∑
n
2
2 iy
i 1
S y
=
=∑
O valor do coeficiente de correlação linear de Pearson varia entre ‑1 e
+1 e é uma quantidade adimensional, ou seja, sem unidade.
O coeficiente de correlação linear de Pearson dá a informação sobre
correlação da forma mostrada a seguir.
• r 1=− → correlação linear perfeita negativa
• r = 0 → dados sem correlação
• r = +1 → correlação linear perfeita positiva
Dessa maneira:
• quanto mais perto o coeficiente r estiver do valor +1, maior será a
correlação linear positiva dos dados;
• quanto mais perto o coeficiente r estiver do valor ‑1, maior será a
correlação linear negativa dos dados;
• quanto mais perto o coeficiente r estiver de zero, menor será a
correlação dos dados.
196
Unidade IV
Se notamos que a correlação entre duas variáveis tem comportamento
linear, podemos ajustar uma reta sobre esses dados. A equação da reta
ajustada pode ser usada para fazer predições da grandeza que foi medida.
O método dos mínimos quadrados, como o nome diz, minimiza o
quadrado da distância entre a função ajustada e os pontos experimentais.
Vimos que, ajustando sobre esses dados uma reta de equação
y = a . x + b, os coeficientes angular e linear dessa reta ajustada são dados,
respectivamente, por:
( )xy x y1a . S .S S .Sσ= −∆
( )2 y x xyx1b . S .S S .S= −∆
Na equação:
S
S x
S
x
S
y
ii
n
x
i
ii
n
i
ii
n
y
i
ii
x
�
�
�
�
�
� �
� �
� �
� �
�
�
�
�
�
�
�
�
�
�
�
1
2
1
2
1
2
2
2
1
2
11
2
1
2
n
xy
i i
ii
n
S
x y
S Sx
�
�� �
� � � �
�
� �
� �
�
� Sx2
As variâncias dos coeficientes angular e linear da reta ajustada são
dadas, respectivamente, por:
2
a
Sσσ =
∆
22 x
a
S
σ =
∆
197
ESTATÍSTICA
A covariância dos coeficientes angular e linear é dada por:
( ) xScov a,b = −
∆
Para incertezas iguais, os coeficientes angular e linear da reta ajustada
são dados, respectivamente, por:
a S S S S
b S S S S
xy x y
x y x xy
�
�
� � � �� �
�
�
� � � �� �
�
�
1
1
2
�
Na equação:
S n
S x
S y
S x y
S S
x i
i
n
y i
i
n
xy i i
i
n
x
�
�
� �
� �
� �
� �
� � �
�
�
�
�
� � � �
�
�
�
�
�
�
2
1
1
1
2 SSx� �
2
As variâncias dos coeficientes angular e linear da reta ajustada são
dadas, respectivamente, por:
� �
� �
�
a
b
S
Sx
2 2
2
2
2
� �
��
�
�
�
�
�
�
O coeficiente de determinação, representado por R2, tem como
objetivo indicar quão adequada foi a escolha de determinada
função para ser ajustada a um conjunto de pontos experimentais.
O valor de R2 pode ser expresso como um número entre 0 e 1 ou na
forma de porcentagem.
198
Unidade IV
O coeficiente de determinação R2 é calculado por:
2 res
tot
SQ
R 1
SQ
= −
Na equação:
( )
n
res i i
i 1
ˆSQ y y
=
= −∑
( )
n
tot i i
i 1
SQ y y
=
= −∑
Ainda:
• n é o número de dados;
• yi é o valor observado para a grandeza;
• é o valor previsto pela função ajustada para a grandeza yi;
• é o valor médio para a grandeza yi.
O coeficiente de explicação ajustado é calculado por:
( ) ( )
2 2n 1R 1 . 1 R
n k 1
−
= − −
− +
Na equação:
• k é o número de parâmetros da função ajustada;
• n é o número de dados;
• R é o coeficiente de determinação.
Vimos que podemos ter funções que, a princípio, não têm gráficos
lineares, ou seja, representados por uma reta, mas que, com algumas
adaptações, os gráficos são linearizados. Uma forma de linearizar o gráfico
de funções do tipo by a.x= , com a e b constantes, é calcular o logaritmo
dos dois lados da função. Se colocarmos no eixo y do gráfico o logaritmo
dos valores de y e se colocarmos no eixo x do gráfico o logaritmo dos valores
de x, a função passa a ser linearizada e seu gráfico torna‑se uma reta.
199
ESTATÍSTICA
Exercícios
Questão 1. Um dado honesto é lançado três vezes. A probabilidade de que, nesses três lançamentos,
obtenhamos a face 1 duas vezes é aproximadamente igual a
A) 0,50.
B) 0,25.
C) 0,18.
D) 0,07.
E) 0,03.
Resposta correta: alternativa D
Análise da questão
O dado honesto tem 6 faces, numeradas de 1 a 6.
Vamos considerar as situações a seguir:
• Sucesso (S): ocorrência da face 1 no lançamento do dado.
• Fracasso (F): não ocorrência da face 1 no lançamento do dado.
Em cada lançamento do dado honesto, temos o que segue:
• Probabilidade de sucesso (p): p = 1/6.
• Probabilidade de fracasso (q): q = 1 – p = 1 – 1/6 → q = 5/6
O espaço amostral Ω da situação em estudo é o seguinte:
Ω = {SSS, SSF, SFS, SFF, FSS, FSF, FFS, FFF}
Queremos conhecer o número total de sucessos, que corresponde ao número de vezes em que temos
a face 1 em três lançamentos de um dado honesto. Para isso, construímos a árvore de probabilidades
mostrada na figura a seguir.
200
Unidade IV
S
F
P
q
P
q
P
q
P
q
P
q
P
q
P
q
S
F
S
F
S
F
S
F
S
F
S
F
Figura 62 – Árvore de probabilidades para a situação em estudo
Pela análise da árvore de probabilidades, podemos construir a tabela a seguir, em que X representa
o número de sucessos. Nela, indicamos a probabilidade procurada em negrito, que equivale a
p(X = 2) = 0,0694. Ou seja, a probabilidade solicitada pelo enunciado é aproximadamente igual a 0,07.
Tabela 63 – Número de sucessos e probabilidade
Evento(s) X (n. de sucessos) Probabilidade
FFF 0 q3 = (5/6)3 = 0,5787
SFF, FSF, FFS 1 3pq2 = 3(1/6)(5/6)2 = 0,3472
SSF, SFS, FSS 2 3p2q = 3(1/6)2(5/6) = 0,0694
SSS 3 p3 = (1/6)3 = 0,0046
Alternativamente, poderíamos ter resolvido o problema usando o modelo de probabilidade
binomial, em que procuramos a X = 2 sucessos em n = 3 ensaios de Bernoulli independentes e com a
mesma probabilidade p = 1/6 de sucesso.
Nesse modelo, fazemos o cálculo a seguir.
( ) ( )
k n kn!P X k p q
k! n k !
− = = −
( ) ( )
2 13! 1 5
P X 2
2! 3 2 ! 6 6
= = −
201
ESTATÍSTICA
( ) 3! 1 5 3.2! 1 5 5P X 2 0,0692 0,07
2!1! 36 6 2! 36 6 72
= = = = = ≅
Questão 2. Imagine que a distribuição dos pesos das pessoas com mais de 18 anos que moram na
cidade fictícia Vila Feliz obedeça a um modelo normal com média µ desconhecida e com variância σ2
igual a 15,7 kg2. Foi feita uma amostra aleatória de 40 dessas pessoas, o que forneceu média amostral
observada Xobs igual a 73 kg. Para essa situação, assinale a alternativa que apresenta corretamente a
estimativa intervalar da média populacional µ com coeficiente de confiança de 90%.
A) [61,8 kg; 79,3 kg]
B) [60,0 kg; 80,0 kg]
C) [65,0 kg; 75,0 kg]
D) [68,8 kg; 75,2 kg]
E) [71,9 kg; 74,1 kg]
Resposta correta: alternativa E.
Análise da questão
Vamos fazer um resumo dos dados fornecidos na questão.
• Modelo de distribuição de probabilidades dos pesos: normal.
• Média populacional dos pesos: parâmetro µ desconhecido.
• Variância populacional dos pesos: parâmetro σ2 = 15,7 kg2.
• Desvio padrão populacional dos pesos: parâmetro 2 15,7 3,96kgσ = σ = = .
• Média amostral dos pesos: estimador X.
• Tamanho da amostra: n = 40.
• Média amostral dos pesos observada na amostra: estimativa Xobs = 73 kg.
• Coeficiente de confiança da estimativa intervalar: c = 0,90.
Como c vale 0,90, c/2 vale 0,45, pois c/2 = 0,90/2 = 0,45. Precisamos achar zc/2 tal que tenhamos as
configurações ilustradas a seguir.
202
Unidade IV
Zc/20
Área = 0,5 Área = c
2
Z
Figura 63
Zc/20
Área = 0,5 Área = 45
Z
Figura 64
Zc/20
Área 0,5 + 0,45 = 0,95
Z
Figura 65
203
ESTATÍSTICA
Precisamos encontrar, “dentro” da tabela normal reduzida, o valor 0,95. Vemos que, nessa tabela,
o valor mais próximo de 0,95 é 0,9505, e ele corresponde a zc/2 = 1,65 (1,6 na horizontal e 0,05
na vertical).
Tabela 64
Z 0,05
1,6 0,9505 ≈ 0,95
Agora, podemos calcular o intervalo de confiança para a média populacional das alturas µ, com
coeficiente de confiança c = 0,9 (90%), indicado por IC(µ,c), para o valor de média amostral observada
obsX 73kg= , com zc/2 = 1,65, n = 40 e σ = 3,96 kg.
( ) obs c/2 obs c/2
3,96 3,96
IC ;0,90 X z . ; X z . 73 1,65. ;73 1,65.
n n 40 40
σ σ µ = − + = − +
( ) [ ] [ ]IC ;0,90 73 1,03;1,73 1,03 71,97;74,03µ = − + =
Com confiança de 90%, “acreditamos” que a média populacional dos pesos µ das pessoas com mais
de 18 anos que moram na cidade fictícia Vila Feliz esteja entre 71,9 kg e 74,1 kg.
204
REFERÊNCIAS
Audiovisuais
DIAGRAMA de dispersão no R – Como criar do Zero. 2020. 1 vídeo (7:55). Publicado por Mercel Santos.
Disponível em: https://cutt.ly/FMDMs4n. Acesso em: 14 nov. 2022.
ISAAC Newton | Ilustrando História. 2016. 1 vídeo (3:00). Publicado por: Ilustrando História.
Disponível em: https://cutt.ly/UMOl0Gm. Acesso em: 14 nov. 2022.
Textuais
ABNT. NBR 14724: informação e documentação – trabalhos acadêmicos – apresentação. Rio de
Janeiro: ABNT, 2011.
ALTERAR a escala do eixo vertical (valor) em um gráfico. Microsoft, Redmond, [s.d.]. Disponível em:
https://cutt.ly/7MFyNyr. Acesso em: 14 nov. 2022.
AMARAL, D. A. Gauss, Carl Friedrich (1777‑1855). Faculdade de Engenharia Mecânica da Unicamp,
Campinas, 31 jan. 2001. Disponível em: https://cutt.ly/MMDrmFx. Acesso em: 14 nov. 2022.
APRESENTAR seus dados em um gráfico de dispersão ou em um gráfico de linha. Microsoft, Redmond,
[s.d.]. Disponível em: https://cutt.ly/RMDNkPu. Acesso em: 14 nov. 2022.
BONAFINI, F. C. Estatística. São Paulo: Pearson Education do Brasil, 2012.
BONAFINI, F. C. Probabilidade e estatística. São Paulo: Pearson Education do Brasil, 2015.
CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. 2. ed. Curitiba: Intersaberes, 2018.
CLARK, J.; DOWNING, D. Estatística aplicada. São Paulo: Saraiva, 1998.
CRESPO, A. A. Estatística fácil. São Paulo: Saraiva, 2013.
DANTAS, C. A. B. Probabilidade: um curso introdutório. São Paulo: Edusp, 2008.
DIZ, J. Análise de dados com SQL: médias. Porto SQL, Belo Horizonte, 16 out. 2020. Disponível em:
https://cutt.ly/FMTbuBl. Acesso em: 14 nov. 2022.
DOWNING, D. Estatística aplicada. São Paulo: Saraiva, 2012.
ESTATÍSTICA. DICIONÁRIO Michaelis on‑line. São Paulo: Melhoramentos, c2022. Disponível em:
https://cutt.ly/mMRbQwO. Acesso em: 14 nov. 2022.
205
FONSECA, J. S.; MARTINS, G. A.; TOLEDO, G. L. Estatística aplicada. São Paulo: Atlas, 2013.
FREI, F. Introdução à inferência estatística: aplicações em saúde e biologia. São Paulo: Interciência, 2018.
GASPAR, W. Faça umalgoritmo para calcular o fatorial de um número em Portugol. Wagner Gaspar,
24 fev. 2021. Disponível em: https://cutt.ly/GMOh9Ff. Acesso em: 14 nov. 2022.
GIOVANNI, J. R.; BONJORNO, J. R.; GIOVANNI JR., J. R. Matemática fundamental 2o grau: volume único.
2. ed. São Paulo: FTD, 1994.
GUROVITZ, H. O que cerveja tem a ver com fraldas? exame., São Paulo, 18 fev. 2011. Disponível em:
https://cutt.ly/gMDBz9F. Acesso em: 14 nov. 2022.
IBGE. Censo demográfico: conceitos e métodos. Brasília, c2022a. Disponível em: https://cutt.ly/iMRmtIj. Acesso
em: 14 nov. 2022.
IBGE. Censo demográfico: principais resultados. Brasília, c2022b. Disponível em:
https://cutt.ly/SMRm6N2. Acesso em: 14 nov. 2022.
KHAN ACADEMY. Estatística e probabilidade. Khan Academy, Mountain View, 14 ago. 2016.
Disponível em: https://cutt.ly/hMQ1IcI. Acesso em: 14 nov. 2022.
LARSON, R.; FARBER, B. Estatística aplicada. São Paulo: Pearson, 2009.
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 6. ed. São Paulo: Edusp, 2008.
MLODINOW, L. O andar do bêbado: como o acaso determina nossas vidas. Rio de Janeiro: Zahar, 2009.
MONTEIRO, F. Cervejas e fraldas, e essa estranha (cor)relação. Medium, San Francisco, 16 ago. 2020.
Disponível em: https://cutt.ly/uMDBYBp. Acesso em: 14 nov. 2022.
MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para engenheiros. 5. ed.
Rio de Janeiro: LTC, 2012.
MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo: Pearson, 2019.
NAVIDI, W. Probabilidade e estatística para ciências exatas. Porto Alegre: Bookman, 2012.
NAZARETH, H. Curso básico de estatística. São Paulo: Ática, 1995.
O QUE é tensão e corrente elétrica? Click Geradores, Ibirama, 15 dez. 2021. Disponível em:
https://cutt.ly/TMFr6iw. Acesso em: 14 nov. 2022.
206
OLIVEIRA, F. E. M. Estatística e probabilidade com ênfase em exercícios resolvidos e propostos.
Rio de Janeiro: LTC, 2017.
PRATES, M. O. Introdução ao Software R. Departamento de Estatística da Universidade
Federal de Minas Gerais, Belo Horizonte, dez. 2016. Disponível em: https://cutt.ly/DMTvQOY.
Acesso em: 14 nov. 2022.
PROBABILIDADE. DICIONÁRIO Michaelis on‑line. São Paulo: Melhoramentos, c2022. Disponível em:
https://cutt.ly/VMSKlGV. Acesso em: 14 nov. 2022.
PROCESSO Bernoulli. Stringfixer, [s.d.]. Disponível em: https://cutt.ly/tMDwrJo. Acesso em: 14 nov. 2022.
QUINSLER, A. P. Probabilidade e estatística. São Paulo: Intersaberes, 2022.
RIGONATTO, M. Coeficiente de variação. Mundo Educação, São Paulo, 25 nov. 2015. Disponível em:
https://cutt.ly/7MIIMcr. Acesso em: 14 nov. 2022.
RIYAZ, N. Calcule a média aritmética em Python. DelftStack, Londres, 9 jul. 2021. Disponível em:
https://cutt.ly/bMTcG0w. Acesso em: 14 nov. 2022.
ROCHA, D. Gráfico de dispersão feito no Python Jupyter Notebook. RStudio, 10 nov. 2018. Disponível
em: https://cutt.ly/iMDMDut. Acesso em: 14 nov. 2022.
SALSBURG, D. Uma senhora toma chá: como a estatística revolucionou a ciência no século XX.
Rio de Janeiro: Zahar, 2009.
SHAFFER, J. Cinco dicas para criar visualizações adaptadas para daltônicos. Tableau, Seattle, 12 out. 2022.
Disponível em: https://cutt.ly/6MTe8Ot. Acesso em: 14 nov. 2022.
SILVA, H. A. Estatística descritiva com o R. RPubs, 18 jan. 2018. Disponível em: https://cutt.ly/AMTvLEo.
Acesso em: 14 nov. 2022.
SILVA, N. N. Amostragem probabilística. São Paulo: Edusp, 1998.
SILVA, N. P. Estatística autoexplicativa. São Paulo: Érica, 1998.
SOUZA, J. S. et al. Distribuição normal. In: SOUZA, J. S. et al. Probabilidade e estatística (EAD). Porto
Alegre: UFRGS, 2020. Disponível em: https://cutt.ly/MMc3qSk. Acesso em: 14 nov. 2022. p. 139‑153.
SOUZA, J. S. et al. Probabilidade e estatística (EAD). Porto Alegre: UFRGS, 2020. Disponível em:
https://cutt.ly/MMc3qSk. Acesso em: 14 nov. 2022.
SPIEGEL, M. R.; SCHILLER, J.; SRINIVASAN, A. Probabilidade e estatística. Porto Alegre: Bookman, 2013.
207
TESTONI, M. Mutação genética, daltonismo distorce as cores e se divide em três tipos. VivaBem,
São Paulo, 19 out. 2020. Disponível em: https://cutt.ly/hMTei3m. Acesso em: 14 nov. 2022.
VEROSSÍMIL. DICIONÁRIO online de português Dicio. Matosinhos: 7Graus, c2020. Disponível em:
https://cutt.ly/9MQ1rv8. Acesso em: 14 nov. 2022.
VUOLO, J. H. Fundamentos da teoria de erros. 2. ed. São Paulo: Blucher, 1996.
W3BIG. Função Python abs (). W3big, [s.d.]a. Disponível em: https://cutt.ly/VMIc39k. Acesso
em: 14 nov. 2022.
W3BIG. Tutorial baseado em Python. W3big, [s.d.]b. Disponível em: https://cutt.ly/5MTsKZH. Acesso
em: 14 nov. 2022.
WATANABE, E. H. Erro de medição. Instituto Federal de Santa Catarina, Joinville, 13 fev. 2019.
Disponível em: https://cutt.ly/bMD9Hex. Acesso em: 14 nov. 2022.
YE, W. M. M. Probabilidade e estatística para engenharia e ciências. 8. ed. São Paulo: Pearson, 2009.
208
209
210
211
212
Informações:
www.sepi.unip.br ou 0800 010 9000