Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Prévia do material em texto

BIOESTATÍSTICA
PROF A. MA. MIRIAM EULALINA MARTINS FROTA
REITORIA: 
Dr. Roberto Cezar de Oliveira
PRÓ-REITORIA:
Profa. Ma. Gisele Colombari Gomes
DIREÇÃO DE GESTÃO EAD:
Prof. Me. Ricardo Dantas Lopes
EQUIPE DE PRODUÇÃO DE MATERIAIS:
Diagramação
Revisão textual
Produção audiovisual
Gestão
WWW.UNINGA.BR
33WWW.UNINGA.BR
U N I D A D E
01
SUMÁRIO DA UNIDADE
INTRODUÇÃO ................................................................................................................................................................5
1. CONSIDERAÇÕES BÁSICAS EM ESTATÍSTICA DESCRITIVA ................................................................................6
1.1 UNIVERSO, AMOSTRA E VARIÁVEL .......................................................................................................................6
1.2 TÉCNICAS DE AMOSTRAGEM ............................................................................................................................... 7
1.3 TIPOS DE GRÁFICOS E SÉRIES ESTATÍSTICAS ...................................................................................................9
1.4 DISTRIBUIÇÃO DE FREQUÊNCIA ......................................................................................................................... 16
2. MEDIDAS DE POSIÇÃO ...........................................................................................................................................25
2.1 MÉDIA ARITMÉTICA ..............................................................................................................................................25
2.2 MODA .....................................................................................................................................................................29
2.3 MEDIANA ...............................................................................................................................................................32
MEDIDAS DE POSIÇÃO E DISPERSÃO
PROFA. MA. MIRIAM EULALINA MARTINS FROTA
ENSINO A DISTÂNCIA
DISCIPLINA:
BIOESTATÍSTICA 
44WWW.UNINGA.BR
EDUCAÇÃO A DISTÂNCIA
3. MEDIDAS DE SEPARATRIZES ................................................................................................................................36
4. MEDIDAS DE ASSIMETRIA E CURTOSE ...............................................................................................................38
5. MEDIDAS DE DISPERSÃO ......................................................................................................................................40
5.1 AMPLITUDE TOTAL ............................................................................................................................................... 41
5.2 VARIÂNCIA ............................................................................................................................................................42
5.3 DESVIO-PADRÃO ...................................................................................................................................................45
5.4 COEFICIENTE DE VARIAÇÃO ................................................................................................................................46
CONSIDERAÇÕES FINAIS ...........................................................................................................................................49
5WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
INTRODUÇÃO
Grande parte da população está, de alguma forma, inserida num mundo que trabalha 
com levantamento de dados. Isso é observado através de pesquisa de opinião pública, através 
do censo, de pesquisas eleitorais, ao responder perguntas sobre a qualidade de um determinado 
restaurante, ao votar em programas de rádio ou televisão, ao votar em enquetes da Internet, etc. 
Entretanto, não é correto pensar que a Estatística trata-se, apenas, de fazer perguntas e contar as 
respostas. 
Visto que a Estatística é, por definição, “a ciência que fornece os princípios e os métodos 
para coleta, organização, resumo, análise e interpretação de dados” [12], para que um bom 
levantamento de dados seja feito, é necessário os conhecimentos da mesma. 
Os estatísticos trabalham com informações, onde, na área de saúde, são importantes as 
informações sobre causas de morte, prevalência de doenças, efeitos de suplementos alimentares, 
eficiência de medicamentos, indicação de cuidados paliativos etc. Diante disso, nesta unidade, 
serão abordados os primeiros passos para a compreensão dos dados estatísticos, onde as técnicas 
de amostragem, os tipos de gráficos, as tabelas de distribuições de frequência, as medidas de 
posição (média, moda e mediana) e dispersão (variância, desvio padrão e coeficiente de variação) 
serão apresentadas.
6WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
1. CONSIDERAÇÕES BÁSICAS EM ESTATÍSTICA DESCRITIVA
1.1 Universo, Amostra e Variável
Afim de se obter uma pesquisa estatística sobre determinado assunto, é necessário aplicar 
formas e métodos de como obter esses dados, como analisá-los e interpretá-los.
A coleta, a organização e a apresentação de dados estatísticos se dá através da Estatística 
descritiva. 
Na maioria das vezes, não é possível coletar todos os dados de um determinado grupo por 
ser economicamente inviável ou impraticável. Esse grupo é chamado de população e representa 
o todo, ou seja, o universo de interesse. Com isso, a coleta e análise de dados é feita em uma parte 
da população, chamada amostra. A amostra é um subconjunto finito da população. 
Quando vamos analisar alguma característica de uma determinada população, devemos 
especificar qual variável será analisada.
• Variáveis
A cada fenômeno corresponde um número de resultados possíveis. Assim, por exemplo:
 ✓ para o fenômeno “estação do ano” são quatro os resultados possíveis: verão, outono, 
inverno e primavera;
 ✓ para o fenômeno “número de animais de estimação” há um número de resultados possíveis 
expresso através dos números naturais: 0, 1, 2, 3, …, n;
 ✓ para o fenômeno “volume” temos uma situação diferente, pois os resultados podem tomar 
um número infinito de valores numéricos dentro de um determinado intervalo.
Com isso, podemos dizer que uma variável é definida, convencionalmente, como sendo 
o conjunto de resultados possíveis de um fenômeno.
As variáveis podem, ainda, ser classificadas como qualitativa ou quantitativa.
 ✓ Variável qualitativa: quando seus valores são expressos por atributos, como por exemplo, 
cor dos olhos, sexo (masculino ou feminino), cor da pele, etc...
 ✓ Variável quantitativa: quando seus valores são expressos por números, como por exemplo, 
peso, altura, salário, etc.... Além disso, se essa variável puder assumir, teoricamente, 
qualquer valor num determinado intervalo, a mesma recebe o nome de variável contínua 
e se ela só puder assumir valores pertencentes a um conjunto enumerável, ela recebe o 
nome de variável discreta. De modo geral, as medições dão origem a variáveis contínuas 
e as contagens ou enumerações, a variáveis discretas.
O documentário O Prazer da Estatística – The Joy of Statistics leva 
os espectadores a uma viagem através do maravilhoso mundo da 
estatística para explorar o notável poder que esse mundo tem de 
mudar a nossa compreensão da realidade. 
O documentário está disponível em 
http://www.youtube.com/watch?v=xLr68J2yDJ8. 
7WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
1.2 Técnicas de Amostragem
Como dito anteriormente, para estudar determinada característica de uma população, na 
grande maioria das vezes, é necessário analisar uma amostra da mesma. Assim, devemos seguir 
técnicas de amostragem para que fique assegurado que aquela amostra em questão represente a 
população em relação a característica de interesse. 
I. Amostragem casual ou aleatória simples: essa técnica funciona(3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
Fonte: a autora.
a) Seja X o evento de sair, pelo menos, um número 3. Observe que ele pode ocorrer 11 vezes. 
Assim: 
b) Seja Y o evento de a soma dos dois resultados ser igual a 5. Observe que ele pode ocorrer 4 
vezes. Assim: 
c) Observe, nesse caso, que o evento saia, pelo menos, um número 3 e a soma dos dois resul-
tados seja igual a 5 é a intersecção dos eventos X e Y dos itens (a) e (b). Observe que ele pode 
ocorrer 2 vezes, a saber: (3,2) e (2,3). Assim: 
59WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 10
Determine a probabilidade de que, quando um casal tem três filhos, exatamente dois deles 
sejam meninas. Admita que meninos e meninas sejam igualmente prováveis e que o gênero de 
uma criança não seja influenciado pelo gênero de qualquer outra criança.
Solução: primeiramente, vamos construir o espaço amostral e vamos denotar por X o evento 
de virem a nascer exatamente 2 meninas. O espaço amostral para esse experimento contém 
8 elementos, a saber: , em 
que A denota menina, e O denota menino. Observe que o espaço amostral contém 8 possibili-
dades, 3 correspondem a exatamente 2 meninas de modo que:
Portanto, é esperada a probabilidade de 37,5% de que, se um casal tem 3 filhos, exatamente 
2 sejam meninas.
As leis de Mendel são um conjunto de fundamentos que explicam o mecanismo da 
transmissão hereditária durante as gerações. As leis de Mendel são enunciadas 
a seguir:
1ª lei de Mendel: “Cada caráter é determinado por um par de fatores que se 
separam na formação dos gametas, indo um fator do par para cada gameta, que 
é, portanto, puro”.
2ª lei de Mendel: “As diferenças de uma característica são herdadas 
independentemente das diferenças em outras características”.
Os vídeos a seguir, do canal do professor Kennedy Ramos, expli-
cam a primeira e a segunda leis de Mendel. O vídeo da 1ª lei está 
disponível em https://www.youtube.com/watch?v=ZmGqPRe-
4Jc8 e o da 2ª lei está disponível em https://www.youtube.com/
watch?v=qg6ly6ocYJs. 
60WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 11
Quando Mendel realizou seu famoso experimento genético com ervilhas, uma prole de mudas 
consistia em 428 ervilhas verdes e 152 ervilhas amarelas. Com base nesses resultados, estime a 
probabilidade de se obter uma prole de ervilhas amarelas.
Solução: Note que o espaço amostral, que é constituído do total de ervilhas, contém 580 (428 + 
152) elementos. Assim, seja A o evento das proles de ervilhas amarelas. 
Logo, a probabilidade de se obter uma prole de ervilhas amarelas é de 26,2%.
Observe que a probabilidade de se obter a prole de ervilhas verdes é de, aproximadamente, 
74,3%. Esse resultado está razoavelmente próximo do valor esperado de ¾, como afirmado por 
Mendel.
Exemplo 12
Presentes em 149 países, as doenças tropicais negligenciadas representam um inimigo que se 
aproveita da fragilidade social e econômica. São vírus, bactérias e parasitos que atingem um bi-
lhão de pessoas, sobretudo na faixa tropical do globo, onde se concentram as populações mais 
vulneráveis dos países em desenvolvimento. Com a intensa circulação de pessoas, o problema 
se torna cada vez mais uma questão global. As doenças tropicais negligenciadas são: malária, 
dengue, doença de chagas, leishmaniose, esquistossomose, tuberculose e hanseníase. Admita 
que, em uma pequena comunidade, situada na zona tropical, com 1.200 habitantes, tenha sido 
realizada uma pesquisa sobre a contaminação de seus habitantes quanto a duas doenças tropi-
cais negligenciadas: malária e dengue. Nessa pesquisa, constatou-se que 600 pessoas já tinham 
contraído malária, 500 já tinham contraído dengue e 300 nenhuma dessas duas doenças. Esco-
lhendo-se um habitante dessa comunidade ao acaso e sabendo-se que ele não tenha contraído 
malária, qual a probabilidade de esse habitante ter contraído dengue?
Solução: Para resolver esse exercício, vamos empregar o diagrama de Venn, como ilustrado na 
Figura 2, em que I e E denotam o número de habitantes que já contraíram a malária e a dengue, 
respectivamente. 
Figura 2 – Diagrama de Venn. Fonte: a autora.
61WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Seja x o número de habitantes que contraíram as duas doenças. O diagrama de Venn da esquer-
da ilustra a situação descrita no enunciado. Daí, 
Com x = 200, o diagrama de Venn da direita ilustra as quantidades dos habitantes que contraí-
ram cada uma das doenças, ambas as doenças e nenhuma das doenças. Observe que o número 
de habitantes que não contraíram malária é 600 (300 nenhuma das duas doenças e 300 contraí-
ram apenas dengue). Seja E o evento de o habitante não ter contraído malária e ter contraído 
dengue, segue que a probabilidade de ocorrência do evento E é
 
Outra maneira de se abordar a definição de probabilidade é por meio da frequência 
relativa. Nessa situação, observamos (ou realizamos) um dado experimento e quantificamos o 
número de vezes em que o evento X, por exemplo, ocorreu. Assim, a probabilidade de ocorrência 
do evento X é aproximada por meio da Eq. (2).
Eq. (2)
No cálculo de probabilidade, é comum fazermos uso dos diagramas 
de Venn para nos auxiliarem na resolução de situações-problema. 
Assista ao vídeo Diagramas de Venn, do canal Brasil Escola, para 
relembrar esse procedimento. 
O vídeo está disponível em https://www.youtube.com/watch?-
v=4OzeSbLNUqg. 
62WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 13
A Tabela 2 apresenta dados de sobrevivência (em dias) de uma corte de animais acometidos 
por uma doença aguda. Na primeira coluna, t corresponde aos dias, sendo t = 0 o dia em que a 
contagem começou a ser feita. vt, na segunda coluna, é a quantidade de animais vivos no início 
do dia t. dt, na terceira coluna, indica quantos animais morreram no decorrer do dia t.
Tabela 2 – Dados de sobrevivência de animais acometidos por uma doença aguda.
t vt dt
0 10.000 500
1 9.500 700
2 8.800 800
3 8.000 800
4 7.200 1.080
5 6.120 720
6 5.400 1.350
7 4.050 1.350
8 2.700 1.200
9 1.500 1.500
Fonte: a autora.
Com referência a essas informações, julgue os itens que se seguem. 
A) Se um animal que estivesse vivo no início do dia t = 4 fosse escolhido ao acaso, a probabi-
lidade de ele ter chegado vivo no dia t = 7 seria superior a 60%. 
Solução: seja A o evento do animal estar vivo e o complementar de A, isto é, o evento do 
animal ter morrido. Assim, no dia 4, temos, inicialmente, 7.200 animais vivos. Do dia 4 até o 
início do dia 7, o número de animais que vieram a morrer foi de 3.150 (1.080 + 720 + 1.350). 
Aplicando a Eq. (2):
Daí, , ou seja, a probabilidade de o ani-
mal estar vivo no dia 7 é de 56,25%, que é inferior a 60% e, portanto, a afirmação está errada.
63WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
B) Se um animal que estivesse vivo no início do dia t = 3 fosse escolhido ao acaso, a probabili-
dade de ele ter morrido até o dia t = 6 seria superior a 50%. 
Solução: seja A o evento do animal morrer. Assim, no dia 3, temos, inicialmente, 8.000 animais 
vivos. Do dia 3 até o início do dia 7, o número de animais que vieram a morrer foi de 3.950 (800 
+ 1.080 + 720 + 1.350). Aplicando a Eq. (2):
Ou seja, a probabilidade do animal que estava vivo no dia 3 vir a morrer até o dia 6 é de 
49,375% e, portanto, a afirmação está errada.
C) Se um animal que estivesse vivo no início do dia t = 4 fosse escolhido ao acaso, a probabili-
dade de ele morrer nesse dia seria igual a 15%.
Solução: seja B o evento do animal vir a morrer no dia 4. Note que o número de animais que 
morrem nesse dia é igual a 1.080, enquanto o número de animais no início desse dia é igual a 
7.200. Assim, aplicando a Eq. (2):
Logo, a probabilidade do animal vir a morrer nodia 4 é de 15%, e a afirmação está correta.
2. AS REGRAS DA ADIÇÃO E MULTIPLICAÇÃO PARA O CÁLCULO DE 
PROBABILIDADE
Até agora, discutimos o cálculo de probabilidade de eventos simples, ou seja, calculávamos 
a probabilidade de um evento A qualquer, contando o número de possibilidades dentro de um 
espaço amostral S. Agora, vamos dar atenção aos eventos compostos, ou seja, vamos examinar 
situações de contar resultados em “experimentos”. Isso significa que empregaremos as técnicas da 
adição e da multiplicação para calcular a probabilidade desse evento.
Vamos começar com a técnica da adição. 
Regra 1 da soma: eventos mutuamente exclusivos.
• Se A e B são dois eventos mutuamente exclusivos, então a probabilidade de ocorrer o 
evento A ou o evento B é dada pela soma das probabilidades de A e B, isto é 
Eq. (3)
64WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 14:
Em um recipiente há 40 bolas, onde 15 delas são vermelhas, 10 são azuis, 8 amarelas e 7 pre-
tas. Se uma bola for tirada aleatoriamente, qual é a probabilidade de ela ser vermelha ou preta?
Solução:
Considere os eventos A e B, onde
A: sair uma bola vermelha
B: sair uma bola preta
Sabemos que não há intersecção, e que há um total de 15 + 10 + 8 + 7 = 40 bolas no reci-
piente. Então:
Logo, a probabilidade de sair uma bola vermelha ou preta é de 55%.
Regra 2 da soma: eventos não mutuamente exclusivos.
Se os eventos não são mutuamente exclusivos, ou seja, se A e B podem ocorrer ao mesmo 
tempo, a probabilidade de ocorrer A ou B é dada pela probabilidade de A, mais a probabilidade 
de B, menos a probabilidade de A e B. Escreve-se:
Eq. (4)
É necessário subtrair o conjunto intersecção porque, quando somamos P(A) + P(B), a 
probabilidade do conjunto interseção P(A ⋂ B) é somada duas vezes. Quando os eventos são 
mutuamente exclusivos, não se faz a subtração, porque a probabilidade de os eventos ocorrerem 
ao mesmo tempo é zero, ou seja, não há intersecção.
 
Exemplo 15
Considere um baralho convencional com 52 cartas, do Exemplo 3. Ao selecionar uma carta 
ao acaso, qual a probabilidade de sair uma carta de paus ou uma figura?
Solução: já vimos, no Exemplo 3, que a probabilidade de sair uma carta de paus é 
, a probabilidade de sair uma figura é , e a probabilidade de sair uma figura de paus 
é . Volte lá e confira! Observe que o evento Z, que fora definido no Exemplo 3, 
é tal que . Daí, a probabilidade de sair uma carta de paus ou figura é calculada em-
pregando-se a Eq. (3):
Portanto, ao selecionar uma carta ao acaso, a probabilidade de sair uma carta de paus ou 
uma figura é de 42,3%.
65WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 16
Considere o experimento do lançamento simultâneo de três moedas honestas. 
Qual a probabilidade de saírem duas caras consecutivas ou exatamente uma coroa?
Solução: o espaço amostral para esse experimento contém 8 elementos, a saber: 
. Seja A o evento de saí-
rem duas caras consecutivas. Observe que ele pode ocorrer 3 vezes, a saber: e 
. Assim, aplicando a Eq. (1):
Seja B o evento de sair exatamente uma coroa. Observe que ele pode ocorrer 3 vezes, a saber: 
 e . Assim, aplicando a Eq. (1):
Seja C o evento obtido da intersecção entre os eventos A e B, isto é, . O evento C 
consiste em saírem duas caras consecutivas e uma coroa. Note que isso ocorre 2 vezes, a saber: 
 e . Assim, aplicando a Eq. (1):
Daí, a probabilidade de saírem duas caras consecutivas ou exatamente uma coroa é calcula-
da empregando-se a Eq. (3):
Portanto, no lançamento simultâneo de três moedas honestas, a probabilidade de saírem 
duas caras consecutivas ou exatamente uma coroa é de 50,0%. 
No que segue, antes de apresentar as regras da multiplicação, é necessário lembrar da 
definição de dois eventos independentes. Dois eventos são independentes se a ocorrência de 
um deles não tiver efeito sobre a ocorrência do outro (Definição 8). Por exemplo, quando se joga 
um dado duas vezes, o resultado da primeira jogada não tem nenhum efeito sobre o resultado da 
segunda. São eventos independentes.
Regra 1 da multiplicação: eventos independentes
Se A e B são eventos independentes, a probabilidade de ocorrer A e B é dada pela 
probabilidade de ocorrer A, multiplicada pela probabilidade de ocorrer B. Escreve-se:
Eq. (5)
66WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 17
Um paciente tem 60% de chances de não desenvolver uma doença X. O mesmo paciente 
tem 80% de chances de não desenvolver a doença Y. Qual a probabilidade de esse paciente não 
desenvolver nenhuma das duas doenças?
Solução: Sejam A e B os eventos do paciente não desenvolver as doenças X e Y, respectivamen-
te. Assim, P(A) = 0,60 e P(B) = 0,80. A probabilidade de que o paciente não desenvolva as duas 
doenças é calculada pela Eq. (5):
Portanto, a probabilidade de esse paciente não desenvolver nenhuma das doenças X e Y é de 
48%.
Exemplo 18
Em uma avaliação, um aluno deve responder às duas questões seguintes.
1) Verdadeiro ou Falso: “Intenção significa propósito/desejo enquanto intensão significa 
intensidade/força”.
2) Numa quarta-feira, André foi à caça. Numa quinta, matou o coelho. Numa sexta, levou 
o coelho para casa e, no dia seguinte, comeu-o. Em qual dia da semana André comeu 
o coelho?
(a) quarta-feira
(b) quinta-feira
(c) sexta-feira
(d) sábado
(e) domingo
Admitindo que o aluno que responderá ao questionário o faça de forma aleatória em ambas 
as questões, qual a chance de ele acertar as duas?
Solução: a primeira questão é verdadeira e, na segunda, é correta a alternativa (c). Observe que 
o espaço amostral para a primeira questão é R = {V, F}, e a probabilidade de essa pessoa acertar 
a questão é . Já, na segunda questão, temos 5 possibilidades de alternativas 
(o espaço amostral é W = {(a), (b), (c), (d), (e)}) para uma possibilidade de a alternativa estar 
correta. Assim, a probabilidade de a pessoa acertar a segunda questão é . 
Logo, a probabilidade de acertar ambas as questões é calculada por meio da Eq. (5):
67WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Outra maneira de resolver essa questão é considerar o espaço amostral desse experimento: 
 e, agora, considerar que X seja o evento de acertar ambas 
as questões. Daí, .
Exemplo 19
De um baralho francês com 52 cartas, são retiradas, com reposição, três cartas. Qual a proba-
bilidade de que as três cartas sejam de paus?
Solução: seja B o evento de sortear aleatoriamente uma carta de paus do baralho. Assim, P(B) 
é calculada pela Eq. (1):
Agora, ao retirar três cartas, com reposição, a probabilidade de as três serem de paus é cal-
culada pela Eq. (5):
Na vida real, existem muitos exemplos de eventos independentes, como esses vistos 
acima. Por exemplo, “ir ao médico hoje” e “chover amanhã” são eventos independentes, porque o 
fato de “ir ao médico hoje” não muda a possibilidade de “chover amanhã”, nem o fato de “chover 
amanhã” altera a possibilidade de “ir ao médico hoje”. Porém, alguns eventos têm efeito sobre a 
ocorrência de outros. Por exemplo, “ser fumante” aumenta a probabilidade de “desenvolver câncer 
de pulmão”, “fatores genéticos” aumentam a probabilidade de “problemas cardíacos”. Logo, esses 
eventos são ditos dependentes e, com isso, define-se: dois eventos A e B são dependentes quando 
a ocorrência de um deles influencia a probabilidade de o outro ocorrer.
Antes de enunciar a regra 2 da multiplicação, é necessário entender por que alguns eventos 
estão condicionados a outros. Chama-se probabilidade condicional de B dado A, a probabilidade 
de ocorrer o evento B sob a condição de A ter ocorrido. 
A notação para a probabilidade condicional é , que se lê “probabilidade de B dado 
A”. 
Por exemplo, você só viaja de avião se comprar a passagem – então, comprar a passagem 
é condição para viajar de avião.
Regra 2 da multiplicação: eventos dependentes
Se A e B são eventosdependentes, a probabilidade de ocorrer A e B é dada pela 
probabilidade de ocorrer A multiplicada pela probabilidade de ocorrer B, dado que A ocorreu 
(essa probabilidade é condicional). Escreve-se:
Eq. (6)
68WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 20
No estoque de um laboratório, há trinta micropipetas. Seis delas, no entanto, são defeituo-
sas. Um funcionário seleciona aleatoriamente duas dessas micropipetas. Considerando-se que, 
uma vez selecionados, não há reposição de qualquer das micropipetas, qual a probabilidade de 
ambas serem defeituosas? 
Solução: Observe que o resultado da escolha da segunda micropipeta defeituosa é influenciado 
pelo resultado da escolha da primeira. Seja X o evento de selecionar aleatoriamente uma mi-
cropipeta defeituosa, segue da Eq. (1) que
Após a escolha de uma micropipeta defeituosa na primeira seleção, temos 29 micropipetas, 
incluindo 5 defeituosas. Considere, agora, que Y seja o evento da seleção da segunda micropi-
peta defeituosa, dado que a primeira já foi feita. A probabilidade de a segunda micropipeta ser 
defeituosa é
Logo, a probabilidade de que ambas as micropipetas sejam defeituosas é determinada usando 
a Eq. (6):
Exemplo 21
Dentre as doenças transmitidas por mosquitos, a dengue é a que vem se alastrando mais ra-
pidamente pelo globo: em 50 anos, o número de casos aumentou 30 vezes, sendo que 70% estão 
concentrados no Sudeste asiático e nas ilhas do Pacífico. Menos de 1% das infecções evolui para 
óbito, mas, na última década, dez países entraram para a lista dos afetados pela doença, tais 
como Sri Lanka, Nepal, Timor-Leste, Indonésia e Tailândia. A resistência dos mosquitos aos 
inseticidas disponíveis e o surgimento do sorotipo 4 do vírus vêm desafiando a comunidade 
científica a criar formas de contenção da doença. A Tabela 3 apresenta os resultados de um 
exame para detecção da dengue (o método Elisa IgM e IgG), realizado em alguns pacientes em 
um hospital público hipotético.
Tabela 3 – Resultados do exame Elisa IgM e IgG para detecção da dengue.
O paciente realmente estava doente
não sim
Resultado positivo 30
(falso-positivo)
84
(verdadeiro-positivo)
Resultado negativo 64
(verdadeiro-negativo)
18
(falso-negativo)
Fonte: a autora.
69WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Com base nessas informações, resolva os itens seguintes.
a) Se um paciente é escolhido ao acaso, determine a probabilidade de o resultado do exame 
apresentar resultado positivo, dado que ele estava doente.
b) Se um paciente é escolhido ao acaso, determine a probabilidade de ele estar doente, dado 
que o exame apresentou resultado positivo.
Solução: observe que temos 196 pacientes. Considere que X e Y sejam os eventos de o paciente 
estar contaminado e de o resultado do exame ser positivo, respectivamente. Aplicando a Eq. (1) 
nos resultados da Tabela 3, segue que:
Observe, ainda na Tabela 3, que a probabilidade de o paciente estar contaminado e apresen-
tar resultado positivo no exame é:
a) A probabilidade do resultado do exame apresentar resultado positivo, dado que o paciente 
estava contaminado, pode ser escrita como . Fazendo uso da Eq. (6), temos:
Esse resultado indica que o paciente que está contaminado tem 82,4% de probabilidade de 
apresentar o resultado do exame positivo.
b) A probabilidade do paciente estar contaminado, dado que o exame apresentou resultado 
positivo, pode ser escrita como . Fazendo uso da Eq. (6), temos
Esse resultado mostra que um paciente que apresenta resultado positivo no teste tem 73,7% 
de probabilidade de estar contaminado.
Uma maneira de facilitar a compreensão do espaço amostral de dois ou mais eventos é 
por meio do diagrama de árvore (também chamado de árvore de possibilidades), apresentado 
na Figura 4. Nele, é possível observar, de uma maneira mais conveniente e organizada, o conjunto 
de eventos condicionais. Cada nó no diagrama de árvore representa um evento e está associado 
à probabilidade desse evento. 
70WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Figura 4 – Diagrama de árvore. Fonte: a autora.
Exemplo 22
A eficácia de um teste de laboratório para checar uma nova doença nas pessoas que compro-
vadamente têm essa doença é de 85%. Esse mesmo teste, no entanto, produz um falso-positivo 
(acusa positivo quando não tem comprovadamente a doença) da ordem de 2%. Em uma comu-
nidade, a incidência dessa doença é de 5%. Ao selecionar uma pessoa nessa comunidade para 
realizar o teste, qual a probabilidade de que o resultado desse exame seja positivo?
Solução: vamos resumir as informações do enunciado no diagrama de árvore da Figura 5.
Figura 5 – Diagrama de árvore. Fonte: a autora.
Sejam X e Y os eventos da pessoa estar doente e testar positivo no exame, respectivamente. 
Assim, a probabilidade de que o resultado desse exame seja positivo (independentemente de 
estar doente ou sadio) é:
Portanto, a probabilidade de o resultado do exame ser positivo é de 6,15%.
71WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 23
Uma questão de Bioestatística é de múltipla escolha e tem cinco alternativas. Dos alunos de 
uma turma de Zootecnia, metade sabe resolver a questão, enquanto os demais “chutam” a res-
posta. Um aluno da turma é escolhido ao acaso. Qual a probabilidade de que o aluno escolhido 
tenha “chutado” a questão, dado que ele acertou a questão?
Solução: sejam X e Y os eventos de os alunos saberem resolver a questão e de acertarem a 
questão, respectivamente. Se o aluno sabe resolver a questão, então, ele acertará a questão. 
Logo, (a probabilidade de acertar dado que sabe é de 100%). Por outro lado, se 
o aluno não sabe resolver a questão, então, ele tem 20% de acertar. Assim, (a 
probabilidade de acertar dado que não sabe é de 20%). Podemos montar o diagrama de árvore 
apresentado na Figura 6.
Figura 6 – Diagrama de árvore. Fonte: a autora.
Observe, no diagrama de árvore, que 60% da turma podem acertar a questão, sendo que 10% 
“chutaram”. Assim, a probabilidade de que o aluno escolhido tenha “chutado” a questão, dado 
que ele acertou a questão, é calculada pela Eq. (6):
Portanto, a probabilidade de que o aluno escolhido tenha “chutado” a questão, dado que ele 
acertou a questão, é de, aproximadamente, 16,7%.
No que segue, abordaremos o cálculo da probabilidade de situações em que, no espaço 
amostral, pelo menos um forneça o resultado desejado. Determinar a probabilidade de pelo menos 
um, é equivalente dizer um ou mais. Logo, considere X o evento de “pelo menos um” acontecer e 
seja o evento complementar de X, isto é, denota o evento de que nenhum dos resultados seja 
o evento considerado. Logo:
Eq. (7)
72WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 24
Tabela 4 – Distribuição de idade dos alunos da 8ª série.
Idade 15 anos 14 anos 13 anos 12 anos
Número de alunos 5 5 15 15
Fonte: a autora.
Na Tabela 4, que mostra a distribuição das idades dos alunos do 8º ano de uma escola, a 
média aritmética das idades é igual a 13. A respeito desses estudantes e de suas idades, julgue 
o item que segue.
“Se dois estudantes da turma forem aleatoriamente escolhidos para participar do coral da escola, 
a probabilidade de pelo menos um deles ter menos de 13 anos de idade é igual a 8/13”.
Solução: note que a turma contém 40 alunos, sendo 15 com 12 anos e 25 com 13 anos ou mais. 
Seja X o evento de o aluno selecionado ter 13 anos ou mais. Ao selecionar o primeiro aluno, a 
probabilidade de ele ter 13 anos ou mais é:
Ao selecionar o segundo aluno, a probabilidade de ele ter 13 anos ou mais é: 
Daí, a probabilidade de que ambos tenham 13 anos ou mais é calculada pela Eq. (5):
Logo, a probabilidade de que, pelo menos, um tenha menos de 13 anos é calculada por meio 
da Eq. (7), como segue:
Exemplo 25
Em uma pescaria, os pescadores Alberto, Bruno e Carlos colocavamos peixes que pescavam 
em um mesmo recipiente. Ao final da pescaria, o recipiente continha 16 piaus e 32 piaparas. 
Na divisão dos peixes, cada um deles afirmou que teria pescado mais peixes que os outros dois. 
Julgue o item a seguir a respeito dessa situação.
“Na situação dada, se 2 peixes fossem retirados do recipiente, aleatoriamente, a probabilida-
de de que, pelo menos, um fosse um piau seria maior que ”
Solução: note que, no recipiente, havia 48 peixes, sendo 16 piaus e 32 piaparas. Seja Y o evento 
de o peixe selecionado ser uma piapara. Ao selecionar o primeiro peixe do recipiente, a proba-
bilidade de ele ser uma piapara é:
73WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Ao selecionar o segundo peixe do recipiente, a probabilidade de ser outra piapara é:
Daí, a probabilidade de que ambos sejam piaparas é calculada pela Eq. (5):
Logo, a probabilidade de que, pelo menos, um seja piau é calculada por meio da Eq. (7), 
como segue:
3. DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADE
Neste tópico, o foco é atribuir uma descrição numérica aos resultados de um determinado 
experimento. A título de ilustração, considere o lançamento simultâneo de duas moedas não 
viciadas. O espaço amostral desse evento é S = {(C,C); (C,K); (K,C); (K,K)}. A Tabela 5 apresenta 
o espaço amostral e a descrição numérica da probabilidade de cada evento ocorrer.
Tabela 5 – Espaço amostral e probabilidade para o lançamento simultâneo de duas 
moedas não viciadas.
Espaço amostral Probabilidade
(C,C) 1/4
(C,K) 1/4
(K,C) 1/4
(K,K) 1/4
Fonte: a autora.
Até recentemente, era comum creditar-se a decisão de qualquer evento aos 
deuses ou alguma outra causa sobrenatural. Simplesmente não havia espaço para 
uma abordagem que atribuísse ao acaso, e tão somente a ele, essas ocorrências. 
Isso foi muito bem resumido por M. G. Kendall, quando disse: 
“A Humanidade precisou de centenas de anos para se acostumar com um mundo onde 
alguns eventos não tinham causa... ou eram determinados por causas tão remotas 
que somente podiam ser razoavelmente representados por modelos não-casuais.” 
Tendo isso em vista, fica mais fácil percebermos porque a abordagem matemática 
do acaso, do azar e do risco só iniciou há pouco mais de 500 anos. A disciplina 
que assim foi construída, a Teoria das Probabilidades, nasceu , mais precisamente 
falando, das tentativas de quantificação dos riscos dos seguros e 
de avaliar as chances de se ganhar em jogos de azar.” 
O texto acima e as histórias sobre os surgimentos dos seguros e 
os jogos de azar em: http://www.mat.ufrgs.br/~portosil/passa6a.
html. Acesso em 12/02/2024.
74WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Com isso, estamos interessados em encontrar uma função que corresponda ao resultado 
desse experimento. Por se tratar de uma função, necessitamos definir alguns conceitos. 
Definição 9 - Uma variável aleatória é uma variável que descreve o valor correspondente 
ao resultado de um experimento, isto é, trata-se de uma variável que assume valor numérico único, 
que é determinado pelo acaso para cada resultado de um experimento e, em geral, é representada 
por . A representação gráfica, de tabela e por equação da descrição da probabilidade para cada 
valor da variável aleatória, é denominada de distribuição de probabilidade. 
Definição 10 - Uma variável aleatória discreta é aquele tipo de variável cujos valores 
assumidos são ou finito ou infinito enumerável. Por outro lado, uma variável aleatória contínua 
é aquele tipo de variável que possui infinitos valores em uma escala contínua. 
Exemplo 26
São exemplos de variáveis aleatórias discretas: o número de inadimplentes dentre 1.000 pes-
soas que pegaram empréstimo num banco, o número de consultas ao médico num determina-
do ano, o número de pessoas infectadas com um vírus, o número de caras no lançamento de 
moedas, dentre outros. São exemplos de variáveis aleatórias contínuas: altura de um ser hu-
mano, a tensão da bateria de um carro, o volume de óleo extraído em um processo industrial, 
a velocidade de decolagem de um avião, dentre outras.
Definição 11 - Se x assume todos os valores possíveis dos resultados de um experimento, 
e P denota a probabilidade de um dado evento, então, para uma distribuição de probabilidade, é 
válido que e .
Exemplo 27
No caso do lançamento simultâneo de duas moedas, os resultados são apresentados na Tabela 6. 
Seja X o número de coroas que saíram nos lançamentos. Assim, a distribuição de probabilidade 
é:
Tabela 6 – Resultados dos lançamentos de duas moedas.
X P(X)
0 1/4
1 1/2
2 1/4
Fonte: a autora.
75WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Note que a probabilidade de não sair nenhuma coroa é de 1/4, a probabilidade de sair apenas 
uma coroa é de ½, e a probabilidade de saírem duas coroas é de 1/4. Note, também, que 
 e o que caracteriza a distribuição de probabilidade. O histograma 
de probabilidade é apresentado na Figura 7.
Figura 7 – Distribuição de probabilidade do lançamento de duas moedas. Fonte: a autora.
3.1 A Distribuição de Probabilidade Binomial 
“As variáveis aleatórias qualitativas ou categóricas podem ser variáveis em que somente 
dois eventos ou resultados são possíveis (variáveis dicotômicas ou binárias) e variáveis nas quais 
há mais de dois eventos ou resultados possíveis (variáveis politômicas).
A distribuição binomial descreve o comportamento de uma variável dico- tômica 
em amostras aleatórias. O sexo, o tipo Rh, ser saudável ou doente são exemplos de variáveis 
dicotômicas. Os dois estados (resultados, eventos ou categorias) possíveis para a variável 
dicotômica são muitas vezes denominados sucesso (indicado por S) e fracasso ou falha (F), o 
que provavelmente se deve aos primeiros estudos feitos sobre probabilidades, que envolviam 
ganhos e perdas em jogos de azar. Em geral, considera-se como sucesso o resultado de interesse 
do pesquisador, nem sempre representando, este resultado, um sucesso social ou biológico.
Costuma-se denominar P a probabilidade verdadeira do sucesso e Q a do fracasso. Sabe-
se, então, que P + Q = 1, portanto, Q = 1 - P. [ ]
A distribuição binomial é utilizada para determinar a probabilidade de que certa 
proporção de sucessos seja observada em um grupo de indivíduos. Por exemplo, imagine que, 
em determinada população, 30% das pessoas têm alergia respiratória. Como o interesse é estudar 
este tipo de alergia, considera-se “ser alérgico” como o sucesso (S). Neste caso, P = 0,3. O fracasso 
ou falha (F) será representado pela situação “não ser alérgico” e Q = 0,7.” [ 1* ]
 A função de distribuição de probabilidade binomial, denotada por , é descrita 
por:
Eq. (12)
onde n é o número de provas (ou de experimentos), k é o número de sucesso dentre as 
n tentativas, p é a probabilidade de sucesso em qualquer tentativa, é a probabilidade de 
fracasso e .
76WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 28
Gregor Mendel, em 1865, apresentou uma teoria segundo a qual, quando há duas 
características a serem herdadas, uma delas será dominante, e a outra será recessiva. Para 
validar sua teoria, Mendel fez um experimento usando ervilhas que podem ter vagens verdes 
ou amarelas. Admita que a probabilidade de uma ervilha vir a ter vagem verde seja de 0,75. 
Determine a probabilidade de exatamente 4 ervilhas com vagens verdes gerarem 6 proles.
Solução: depreende-se do enunciado que , , e . Assim, 
aplicando a Eq. (12), segue que:
Portanto, a probabilidade de se obterem exatamente 4 ervilhas com vagens verdes entre 6 proles 
é de 0,297.
Exemplo 29
Uma micropipeta descalibrada vem apresentando 15% de defeitos. Para uma amostra de 
20 medidas realizadas pela micropipeta, qual é a probabilidade de se obter exatamente duas 
medidas com problema?
Solução: Depreende-se do enunciado que , , e . As-
sim, aplicando a Eq. (08), segue que
Portanto, a probabilidade de se obterexatamente 2 leituras com problemas, dentre as 20 
produzidas, é de 0,229 ou 22,9%.
O fatorial é um número natural, representado por n!. É calculado pela multiplicação 
desse número por todos os seus antecessores, até chegar ao número 1. Note 
que, nesses produtos, o zero (0) é excluído.
77WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 30
Um dado é lançado três vezes. Qual a probabilidade de que a face 4 apareça ao menos uma 
vez?
Solução: seja X o evento de que a face 4 apareça no lançamento do dado. A probabilidade de 
que a face 4 saia em um lançamento é de 1/6, isto é, a probabilidade do sucesso é de p = 1/6, e 
a probabilidade do fracasso é de q = 1 - p = 5/6. Assim, a probabilidade de que a face 4 apareça 
ao menos uma vez é calculada como a soma da face 4 sair uma vez, duas vezes e três vezes, 
como segue:
Portanto, a probabilidade de que a face 4 apareça ao menos uma vez é de 42,13%.
3.2 A Distribuição de Probabilidade de Poison 
A distribuição de Poisson é empregada em situações tais como a chegada de pessoas em 
uma fila, decaimento radioativo, número de pessoas que fazem uso de um site da Internet etc.
A distribuição de Poisson é um tipo de distribuição de probabilidade discreta à qual se 
aplica a ocorrência de eventos ao longo de intervalos especificados. Nesse sentido, agora, X é 
a variável aleatória de número de ocorrência do evento em um intervalo. Esse intervalo pode 
ser tempo, área, volume, distância etc. A função de distribuição de probabilidade de Poisson, 
denotada por , é descrita por:
Eq. (15)
Nela, é uma constante que denota o valor esperado, ou número médio, de 
ocorrência no intervalo, e k é a variável aleatória discreta, que indica o número de ocorrência no 
intervalo. 
78WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 31
 Suponhamos que um banco realizou uma coleta de dados e a partir daí percebeu-se que em 
uma hora, 6 clientes adquirem certo seguro. Agora, a instituição deseja saber: qual a probabili-
dade de, no mesmo período de tempo, 8 seguros serem vendidos?
Solução: Segue do enunciado que μ = 6 (é a média da distribuição) e k = 8 (pois essa é a quan-
tidade de vezes que se deseja considerar para a ocorrência). Assim, aplicando a distribuição de 
Poisson,
Logo, a probabilidade de 8 seguros serem vendidos no período de uma hora é de, aproxima-
damente, 10,33%.
Exemplo 32
Um engenheiro agrônomo percebeu que a probabilidade de uma venda de um lote de gado 
de corte ocorrer em um único contato é de 0,03. Se o engenheiro agrônomo efetuar 100 conta-
tos, qual é a probabilidade de ele efetuar ao menos uma venda?
Solução: seja Y o número de vendas efetuadas. Assim, o número de vendas esperadas pelo en-
genheiro é . A probabilidade de esse engenheiro agrônomo efetuar, pelo 
menos, uma venda é calculada como:
Aplicando a Eq. (15) para o cálculo de P(0), segue que:
Portanto, a probabilidade de ele efetuar ao menos uma venda nos 100 contatos é de, aproxi-
madamente, 95,0%.
79WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 33
O número de atendimentos, via Internet, realizados pela Central de Atendimentos Fazendá-
rio (CAF) segue uma distribuição de Poisson, com média de 12 atendimentos por hora. A pro-
babilidade de essa CAF realizar, pelo menos, 3 atendimentos em um período de 20 minutos é:
Dados: e-2 = 0,14; e-4 = 0,018
(a) 0,594 (b) 0,910 (c) 0,766 (d) 0,628 (e) 0,750
Solução: seja X o número de atendimentos a cada 20 minutos. Temos que , 
ou seja, 4 atendimentos a cada 20 minutos. A probabilidade de essa CAF realizar, pelo menos, 
3 atendimentos em um período de 20 minutos é:
Aplicando a Eq. (13) para o cálculo de P(0), P(1) e P(2), segue que:
Portanto, a probabilidade de essa CAF realizar, pelo menos, 3 atendimentos em um período 
de 20 minutos é 76,6%.
3.3 A Distribuição Normal Probabilidade 
Entre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a 
distribuição normal. Muitas das variáveis analisadas na pesquisa socioeconômica correspondem 
à distribuição normal ou dela se aproximam.
Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal 
interesse é obter a probabilidade de essa variável aleatória assumir um valor em um determinado 
intervalo.
A variável contínua x, que apresenta sua distribuição de probabilidade com um gráfico 
simétrico e em forma de sino, é descrita por:
Eq. (16)
Ela é denominada distribuição normal. Na Eq. (16), é a média, e é o desvio-padrão. 
A distribuição normal padrão é uma distribuição de probabilidade normal, com média e 
variância , como mostrado na Figura 9.
80WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Figura 9 – Distribuição normal reduzida. Fonte: a autora.
Note que, para a distribuição normal, são válidas as seguintes propriedades:
• o gráfico da distribuição é uma curva na forma de sino e contínuo;
• a média, moda e mediana são idênticas, o que garante a simetria;
• o eixo x é uma assíntota horizontal;
• a área abaixo da curva é 1;
• o domínio da função distribuição de probabilidade consiste no conjunto dos números 
reais;
• a curva tem um ponto de máximo em x = 0, e esse valor é de ;
• os pontos de inflexão da curva ocorrem em .
Para toda distribuição normal, aproximadamente: 68% dos valores estão a não mais 
que um desvio-padrão da média; 95% dos valores estão a não mais que dois desvios-padrões da 
média; 99,7% dos valores estão a não mais que três desvios-padrões da média. Essa regra prática 
pode ser empregada para identificar outliers, como ilustrado na Figura 10.
Figura 10 – A curva da distribuição normal e a regra para identificar valores outliers. Fonte: a autora.
 
81WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
A análise da Figura 10 nos permite afirmar que, em um conjunto de dados, valores que 
distam até um desvio-padrão da média são relativamente comuns (algo em torno de 68%). Por 
outro lado, dados com valores acima de três desvios-padrões da média são muito improváveis, 
tanto que podemos rotulá-los como outliers, ocorrendo com probabilidade de 0,3%. 
Obviamente, não precisamos nos limitar à medida da distância em relação à média 
em números inteiros de desvios-padrões. Com um pouco de algebrismo, podemos estimar a 
probabilidade de observar valores acima de k desvios-padrões da média. Dessa forma, podemos 
comparar a raridade de dois valores (mesmo que provenientes de duas distribuições distintas) 
comparando quantos desvios-padrões eles estão afastados de suas respectivas médias. Essa 
medida, em números de desvios-padrões ( ) que a variável x está de sua média ( ), é denominada 
de z-score e é definida como:
Eq. (17)
E, a partir do valor calculado de z-score, podemos determinar a probabilidade, fazendo 
uso da tabela de z-score que está no anexo desse material (Anexo 2). Fique atento ao trabalhar 
com a tabela de z-score: não confunda o valor do z-score com a área da região sob a curva. 
Exemplo 34
Determine a área da região hachurada de cada curva de distribuição normal apresentada a 
seguir.
a) 
Figura 11 – Região hachurada para cálculo do z-score. Fonte: a autora.
Solução: estamos interessados em determinar , isto é, estamos interessados na 
área acumulada a partir da esquerda até a linha do z-score. Uma maneira de determinar a área 
é empregando a tabela de z-score, como apresentado na Figura 12.
Figura 12 – Determinação da área a partir do z-score. Fonte: a autora.
82WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Portanto, dessa maneira, a área abaixo da curva da distribuição normal até z = 0,75 é igual a 
0,7734 unidades de área e denotamos isso por 
b) 
Figura 13 – Região hachurada para cálculo do z-score. Fonte: a autora.
Solução: estamos interessados em determinar , ou seja, estamos interessadosna 
área acumulada a partir da linha do z-score. Uma maneira de determinar essa área é exluir da 
área esquerda até a linha do z-score, como segue:
Note que o valor de é determinado como ilustrado na Figura 15. 
Figura 14 – Determinação da área a partir do z-score. Fonte: a autora.
Portanto,
83WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
c) 
Figura 15 – Região hachurada para cálculo do z-score. Fonte: a autora.
Solução: estamos interessados em determinar , ou seja, estamos interes-
sados na área acumulada limitada à direita e à esquerda pelas linhas do z-score. Uma maneira 
de determinar a área é exluir da área esquerda até o z = - 0,6 e excluir a área a partir de z = 1,2, 
como segue:
 
Os valores de e são determinados como apresentados na Figura 16.
Figura 16 - Determinação da área a partir do z-score. Fonte: a autora.
Assim, 
O vídeo a seguir ensina a fazer a área sombreada da distribuição 
normal usando o software Excel. O material está disponível em 
https://www.youtube.com/watch?v=ZR67nlCsxeI.
84WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 35
Determine o z-score correspondente a cada curva de distribuição normal apresentada a se-
guir.
a)
Figura 17 - Determinação do z-score a partir da área. Fonte: a autora.
Solução: estamos interessados em determinar o z-score para a situação em que a área acumu-
lada é a partir da esquerda até a linha z-score é de 0,9793. Observe a Figura 18.
Figura 18 - Determinação do z-score a partir da área. Fonte: a autora.
Portanto, segue que z-score = 2,04.
b) 
Figura 19 - Determinação do z-score a partir da área. Fonte: a autora.
Solução: estamos interessados em determinar o z-score para a situação em que a área acumu-
lada é a partir da esquerda até a linha z-score seja igual de 0,2546. Observe a Figura 20.
Figura 20 - Determinação do z-score a partir da área. Fonte: a autora.
Portanto, segue que z-score = - 0,65.
85WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
c) 
Figura 21 - Determinação do z-score a partir da área. Fonte: a autora.
Solução: estamos interessados em determinar o z-score para a situação em que a área acumu-
lada é a partir da linha do z-score para direita. Observe que a área não hachurada é de 0,8849 
(1 – 0,1151). Observe a Figura 22.
Figura 22 - Determinação do z-score a partir da área. Fonte: a autora.
Portanto, segue que o z-score = 1,20.
d) 
Figura 23 - Determinação do z-score a partir da área. Fonte: a autora.
Solução: estamos interessados em determinar o z-score para a situação em que a área acumu-
lada é a partir da linha do z-score para direita. Note que a área não hachurada é de 0,0559 (1 
– 0,9441). Observe a Figura 24.
Figura 24 - Determinação do z-score a partir da área. Fonte: a autora.
Potanto, segue que z-score = 1,20.
86WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 36
O tempo de realização de um exame clínico é normalmente distribuído com média 
de 96 minutos e desvio-padrão de 17 minutos. Caso um paciente que faça esse exame seja 
escolhido ao acaso, determine a probabilidade de ele gastar, no máximo, 80 minutos. Faça a 
sugestão de tempo para que um motorista de táxi retorne para buscar o paciente.
Solução: depreende-se do enunciado que min, min, e queremos 
determinar a probabilidade de se selecionar ao acaso um paciente que fará o exame e que 
gaste até 80 minutos, isto é, . Inicialmente, calculamos o z-score:
Geometricamente, a probabilidade de, ao selecionar ao acaso um paciente que faça esse 
exame e o tempo transcorrido para que o tempo seja de até 80 minutos, corresponde à região 
hachurada na Figura 27, isto é, a região à esquerda da reta de z = -0,94.
Figura 25 – Região para cálculo de probabilidade. Fonte: a autora.
Na tabela de z-score, encontramos que 
ou 17,36%. Assim, a probabilidade de esse paciente gastar, no máximo, 80 minutos é de 
17,36%. Logo, o tempo de retorno do motorista de táxi pode ser feito em três desvios-
padrões, além da média para garantir 99,7% que o paciente tenha finalizado o paciente (você 
consegue entender o porquê de 3 desvios-padrões?). Assim, a sugestão de tempo é de 147 
 minutos após o ingresso desse paciente no laboratório onde fará o exame.
O z-score é o quanto uma medida se afasta da média em termos de desvios-
padrão. Assim, quando o escore Z é positivo, isso indica que o dado está acima 
da média e, quando ele é negativo, significa que o dado está abaixo 
da média. Os valores do z-score oscilam entre , e isso 
corresponde a 99,72% da área sob a curva da Distribuição Normal. 
O vídeo a seguir nos apresenta a definição do z-score e o uso das 
tabelas de z-score. Assista a ele em https://www.youtube.com/
watch?v=QxsGVBiekSo.
87WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 37
A distribuição dos níveis de colesterol total em mulheres, entre 20 e 34 anos, segue 
distribuição normal, com média de 186 miligramas por decilitro e o desvio-padrão de 35,8 
miligramas por decilitro. Encontre a probabilidade de que uma mulher entre 20 e 34 anos seja 
selecionada aleatoriamente e apresente a taxa de colesterol total entre 200 e 239 miligramas 
por decilitro.
Solução: depreende-se do enunciado que miligramas por decilitro, 
miligramas por decilitros e queremos determinar a probabilidade de, ao selecionar ao acaso 
uma mulher entre 20 e 34 anos, que ela apresente taxa de colesterol total entre 200 e 239 
miligramas por decilitro, . Inicialmente, calculamos os z-scores:
Geometricamente, a probabilidade de, ao selecionar ao acaso uma mulher entre 20 e 
34 anos e ela apresentar taxa de colesterol total entre 200 e 239 miligramas por decilitro, 
corresponde à região hachurada na Figura 28, isto é, a região compreendida entre as retas de 
z = 0,39 e z = 1,48.
Figura 26 – Região para cálculo de probabilidade. Fonte: a autora.
Na tabela de z-score, encontramos que 
 e que 
 Assim,
. 
Portanto, a probabilidade de, ao selecionar ao acaso uma mulher entre 20 e 34 anos e a 
taxa de colesterol total entre 200 e 239 miligramas por decilitro, é de 27,89%.
88WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 38
Durante um período, registrou-se, em uma fábrica, a quantidade diária de óleo (Q), em 
litros, consumida para a produção de um produto. Concluiu-se que a população formada por 
essas quantidades é normalmente distribuída com média igual a 50 litros por dia. Sabe-se que 
5% dos valores dessas quantidades são inferiores a 41,8 litros, e 90% possuem um valor de, no 
máximo, x litros. Determine o valor de x, em litros.
Solução: depreende-se do enunciado que litros, e 5% das quantidades são inferiores 
a 41,8 litros. Esses 5% inferiores correspondem ao z-score de - 1,64 (busque esse resultado na 
tabela de z-score no anexo). Assim, determinamos o desvio-padrão:
Agora, 90% dos valores possuem um máximo de x litros. Daí, z-score é 1,28 (busque por esse 
valor na tabela de z-score no anexo):
Portanto, o valor de x é igual a 56,4 litros. 
Exemplo 39
Em um concurso público, serão chamados para contratação imediata 20% dos candidatos 
com as maiores notas. As notas seguem uma distribuição normal, com média 5,5 e desvio-
-padrão 3. Determine a nota mínima para que o candidato seja chamado para contratação 
imediata.
Solução: depreende-se do enunciado que e . Note que, se 20% dos candidatos 
com as maiores notas serão chamados de forma imediata, então, 80% não serão chamados de 
forma imediata. Assim, na tabela de z-score, buscamos pelo valor de área mais próximo de 
0,80. Isso corresponde a um valor de z-score próximo de 0,85 (confira esse resultado na tabela 
de z-score que está anexa). Daí, se N denota a variável nota, temos que:
Portanto, a nota que o candidato necessita para ser chamado de imediato no concurso pú-
blico é igual a 8,0.
89WWW.UNINGA.BR
BI
OE
ST
ATÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
CONSIDERAÇÕES FINAIS
Nesta unidade abordamos o cálculo de probabilidade e suas propriedades. Além 
disso, vimos três distribuições de probabilidade, duas delas discretas (Distribuição Binomial e 
distribuição de Poisson) e uma contínua, a distribuição normal. No que segue, na unidade três, 
estudaremos sobre a inferência estatística.
No século XX, diversas disciplinas científicas passaram, em maior ou menor grau, 
pela revolução probabilística. Em vez de imaginar que os fenômenos estudados 
seguem leis determinísticas, as ciências modernas partem da ideia de que eles 
seguem distribuições probabilísticas. Há possibilidade de conhecermos o mundo, 
mas nunca temos certeza sobre os resultados de nossas investigações. Essa 
passagem de uma visão determinística do mundo, que caracterizou as ciências 
até o século XIX, para uma visão probabilística, a partir do século XX, foi possível 
graças aos avanços e revoluções ocorridos em uma disciplina: a Estatística.
No livro Uma Senhora Toma Chá, de David Salsburg, o autor conta as histórias 
de como alguns cientistas criaram e desenvolveram as diversas facetas do 
conhecimento estatístico. Além de ser interessante para o pesquisador que usa 
estatística em seu trabalho, o livro é uma leitura agradável para qualquer pessoa 
curiosa, que esteja interessada em conhecer melhor a história das ciências 
modernas.
9090WWW.UNINGA.BR
U N I D A D E
03
SUMÁRIO DA UNIDADE
INTRODUÇÃO ................................................................................................................................................................91
1. TEORIA DA ESTIMAÇÃO DE PARÂMETROS .......................................................................................................... 92
2. ESTIMATIVA POR INTERVALO .............................................................................................................................. 93
2.1 ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA DA MÉDIA ............................................................................. 93
2.2 ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA DA PROPORÇÃO POPULACIONAL ................................... 100
3. TESTE DE HIPÓTESE ..............................................................................................................................................103
3.1 CONSTRUÇÃO DE UM TESTE DE HIPÓTESE PARA MÉDIA POPULACIONAL ..................................................105
3.2 CONSTRUÇÃO DE UM TESTE DE HIPÓTESE PARA PROPORÇÃO POPULACIONAL ...................................... 111
CONSIDERAÇÕES FINAIS ........................................................................................................................................... 114
INTERVALOS DE CONFIANÇA E TESTE 
DE HIPÓTESE
PROFA. MA. MIRIAM EULALINA MARTINS FROTA
ENSINO A DISTÂNCIA
DISCIPLINA:
BIOESTATÍSTICA 
91WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
INTRODUÇÃO
Nesta unidade estamos interessados em estimar um parâmetro de uma população por 
meio de uma amostra. Por exemplo, suponha que estejamos interessados em determinar a altura 
média da mulheres no Brasil. Como não é possível medir a altura de uma a uma das mulheres, 
faz-se necessário retirar uma amostra dessa população, onde a retirada dessa amostra deve seguir 
critérios estatísticos. Obtida a mostra, determina-se a altura média das mulheres. Porém, esse valor 
obtido não representa exatamente a altura média da população e, por isso, além dessa informação, 
é necessário calcular uma margem de erro para mais ou para menos em relação a esse valor. A 
obtenção dessa margem de erro nos permite determinar um intervalo de confiança em torno 
da média amostral, com determinado nível de significância, e isso nos possibilita afirmar que a 
média populacional pertence a esse intervalo. E através desse intervalo, podemos inferir sobre a 
altura média das mulheres no Brasil. No que segue, ao longo desta unidade, abordaremos como 
calcular a margem de erro e determinar o intervalo de confiança. Estudaremos, também, o Teste 
de Hipóteses, que é uma regra de decisão para aceitar ou rejeitar uma hipótese estatística com 
base nos elementos da amostra e determinar se amostras observadas diferem significativamente 
dos resultados esperados.
92WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
1. TEORIA DA ESTIMAÇÃO DE PARÂMETROS
Em diversas situações, estamos interessados em obter informações sobre determinadas 
populações. Por exemplo, o salário médio dos funcionários de uma empresa, a produção média 
de leite das vacas de uma determinada fazenda, a proporção populacional de peças fora da 
especificação produzidas por uma máquina, etc... Como, na grande maioria dos casos, não é 
possível obter essas informações direto da população, foi necessário o desenvolvimento de uma 
teoria que permita analisar a população por meio de uma amostra.Esta teoria é chamada de 
inferência estatística.
A inferência estatística consiste em determinar certas características, como média, 
desvio padrão e proporção, por exemplo, de uma população através de uma amostra que a 
represente. As características da população são chamadas de parâmetros. Uma estatística 
é uma combinação dos elementos da amostra usada para estimar um parâmetro, também 
chamada de estimador. Os valores numéricos assumidos pelos estimadores são chamados de 
estimativas. Então, basicamente, a inferência estatística funciona da seguinte forma: imagine que 
dada uma população, estejamos interessados em determinar a média, , por exemplo, de alguma 
característica da mesma. Para isso, extraímos uma amostra dessa população, estudamos a média, 
, dessa amostra e construímos um intervalo de confiança em torno da média amostral que nos 
garanta que a média populacional pertencerá a ele, ou seja, estimamos características da amostra 
para que, a partir desses dados, possamos inferir sobre as caraterísticas da população. A figura 1, 
abaixo, ilustra esse procedimento.
Figura 1 – Ilustração do processo de Inferência Estatística. Fonte: a autora.
Dada uma população P com parâmetros e , como apresentado na Figura 1, 
observamos que ao tirarmos uma amostra aleatória da mesma, de tamanho n, e calcularmos a 
sua média, temos um valor . Tirando uma segunda amostra, temos uma nova média, , em 
geral, diferente de . E, assim, para cada diferente amostra de tamanho n, temos um diferente 
valor da média amostral, . Temos, portanto, que a média amostral é uma variável que muda de 
valor de amostra em amostra. Assim, faz sentido falarmos da distribuição de médias amostrais 
uma vez que X é uma variável aleatória e enunciamos o seguinte teorema:
93WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
• Teorema do limite central
Seja {Xn} uma sucessão de n variáveis aleatórias igualmente distribuídas e independentes, 
com valor médio μ e variância (finita). A variável aleatória tem distribuição 
assintoticamente normal, com parâmetros μ e . Ou seja, para um valor de n suficientemente 
grande, a distribuição de X é Escreve-se:
2. ESTIMATIVA POR INTERVALO
A estimativa de um parâmetro por pontos não possui uma medida do possível erro 
cometido na estimação. Uma maneira de expressar a precisão da estimação é estabelecer limites 
que, com certa probabilidade, incluam o verdadeiro valor do parâmetro da população. Esses 
limites são chamados “limites de confiança” e determinam um intervalo de confiança no qual 
deverá conter o verdadeiro valor do parâmetro.
Com isso, a estimativa por intervalo consiste em fixar dois valores tais que (1-α) seja 
a probabilidade de que o intervalo, por eles determinado, contenha o verdadeiro valor do 
parâmetro. Define-se:
• α : nível de significância
• (1 - α): nível de confiança ou nível de confiabilidade.
Desta forma, a partir de informações da amostra, deve-se calcular os limites de um 
intervalo, denominadosvalores críticos, que em (1-α)% dos casos inclua o valor do parâmetro a 
estimar e em α% dos casos não inclua o valor do parâmetro.
As escolhas mais comuns para o nível de confiança são de 90% (com ), 95% 
(com ) e 99% (com ). A escolha de 95% é mais comum, pois resulta em um 
bom equilíbrio entre precisão e confiabilidade.
Denominando o intervalo de confiança por (a1, a2), define-se a amplitude (tamanho) do 
intervalo por . O valor de nos diz sobre a precisão da estimativa. Quanto menor a 
amplitude do intervalo, melhor (mais precisa) é a estimativa. Quando o intervalo for centrado no 
valor amostral, a metade da amplitude, , é chamada de margem de erro, ou erro máximo 
da estimativa, e depende do nível de confiança e do tamanho n da amostra.
 
2.1 Estimação por Intervalos de Confiança da Média
Nesta secção, apresentaremos alguns métodos para se estimar a média populacional. A 
forma geral da estimativa de um intervalo para a média populacional é dada por:
94WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
Para obtermos a estimativa de um intervalo para a média populacional é necessário 
calcularmos a margem de erro e, para isso, devemos ter como informação o desvio-padrão 
populacional ( ) ou o desvio-padrão amostral (s). Na prática, em geral, o desvio padrão 
populacional não é conhecido, sendo mais comum o cálculo usando o desvio padrão amostral. 
No entanto, existem grandes quantidades de dados históricos que podem ser utilizados para o 
cálculo do desvio-padrão populacional antes de se efetuar a amostragem. 
Na sequencia, apresentaremos dois roteiros que são utilizados para o para o cálculo 
da margem de erro e, consequentemente, a determinação do intervalo, onde a escolha de 
cada um deles depende do tipo de informação que temos acerca do problema. Se o desvio-
padrão populacional for conhecido, usaremos o roteiro 1. Se o desvio-padrão populacional for 
desconhecido, usaremos o roteiro 2. 
• Condições para a determinação do intervalo de confiança quando o desvio-padrão 
populacional, (ou a variância, ) é conhecido.
 ✓ Objetivo
Construir um intervalo de confiança que contenha a média populacional, ou seja, obter 
um intervalo do tipo: em que E é a margem de erro.
 ✓ Requisitos
i) A amostra é aleatória simples;
ii) O desvio-padrão populacional é conhecido;
iii) A população segue distribuição normal.
Roteiro 1: Determinação do intervalo de confiança para a média populacional quando o 
desvio-padrão populacional, (ou a variância, ) é conhecido.
Passo 1 Verifique se os requisitos anteriormente citados são satisfeitos.
Passo 2 Determine o valor crítico , que corresponde ao nível de confiança desejado. 
Usar a tabela Z do Anexo 2.
Passo 3 Calcular a margem de erro: .
Passo 4
Com os valores da margem de erro (E) e da média amostral, , determine os limi-
tes inferior e superior do intervalo de confiança:
 e .
Fonte: a autora.
95WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
Exemplo 1
A altura de uma amostra de 49 mulheres segue distribuição normal, com média 1,60 m 
e variância populacional de 0,0036 m2. Determine o intervalo de confiança que contenha a 
média da população de mulheres, com 95% de confiança.
SOLUÇÃO: vamos aplicar os passos descritos no roteiro 1:
Passo 1: segue do enunciado que , ou seja, , 
 e, ainda, a altura dessas mulheres segue distribuição normal (condições do passo 1, 
do Roteiro 1, são verificadas). 
Passo 2: determinar o valor crítico .
O nível de confiança de 95% corresponde a ou A Figura 
2 mostra que a área, em cada cauda cinza, é Recorrendo à tabela de z-score, 
do anexo 2, encontramos 
Figura 2 – Construção do intervalo de confiança com 95% de nível de confiança. Fonte: a autora.
Passo 3: cálculo da margem de erro. Para o cálculo da margem de erro, sempre 
consideraremos o valor de positivo. Assim,
Passo 4: determinar os limites do intervalo de confiança.
Portanto, com 95% de confiança, podemos dizer que a média das alturas de todas as 
mulheres está entre 1,58 e 1,62 cm.
96WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
Exemplo 2
Uma amostra aleatória simples de tamanho n = 81 é selecionada de uma população 
de mudas de uma espécie nativa do Pantanal. A altura das mudas dessa amostra apresenta 
média 15,00 cm e desvio-padrão populacional = 0,40 cm. Considerando-se que a altura 
das mudas dessa espécie na população siga distribuição normal, determine a amplitude do 
intervalo de confiança de 90% de nível de significância.
SOLUÇÃO:
Passo 1: segue do enunciado que , e, ainda, a altura dessas 
mudas segue distribuição normal (condições do passo 1 são verificadas).
Passo 2: determinar o valor crítico .
Um nível de confiança de 90% corresponde a ou 
A Figura 3 mostra que a área em cada cauda é Recorrendo à tabela z-score, do 
anexo 2, encontramos (esse valor é obtido pelo método de interpolação).
Figura 3 – Construção do intervalo de confiança com 90% de nível de confiança. Fonte: a autora.
Passo 3: cálculo da margem de erro. Novamente, para o cálculo da margem de erro, 
sempre consideraremos o valor de positivo. Assim,
Passo 4: determinar os limites do intervalo de confiança.
Assim, com 90% de confiança, pode-se dizer que a média das alturas das mudas nativas 
do Pantanal está entre 14,93 e 15,07 cm. Portanto, com 90% de confiança, a amplitude do 
intervalo de confiança para a média é .
97WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
Exemplo 3
Uma universidade deseja estimar o escore de QI médio para a população de estudantes de 
Medicina Veterinária. Quantos estudantes devem ser selecionados aleatoriamente para teste de 
QI se desejamos estar 95% confiantes de que a média amostral estará a menos de três pontos de 
QI da média populacional? Assuma que o desvio-padrão populacional seja igual a 15.
SOLUÇÃO:
Para um intervalo de confiança de 95%, temos de modo que 
e (consulte a tabela do anexo 2). Como o enunciado pede que a média amostral 
esteja a menos de três pontos de QI da média populacional ( ), a margem de erro é E = 3. Te-
mos, ainda, que . 
Assim, a equação pode ser reescrita como . Substituindo os valores, 
segue que:
Logo, é necessário uma amostra aleatória simples de, pelo menos, 97 alunos de Medicina Ve-
terinária e, com essa amostra de 97 alunos, teremos 95% de confiança de que a média amostral 
 estará a menos de 3 pontos de QI da verdadeira média populacional . 
Até o momento, apresentamos o roteiro 1, que é utilizado quando o desvio-padrão 
populacional é conhecido e aplicamos esse roteiro em três exemplos. 
No que segue, abordaremos o roteiro 2, que é utilizado quando o desvio-padrão, (ou a 
variância, ) é desconhecido e, nesse caso, faremos uso da distribuição t de Student, disponível 
no Anexo 3, em vez da distribuição Normal. Essa distribuição foi desenvolvida por Willian Gosset, 
o qual era empregado de uma cervejaria irlandesa e precisava de uma distribuição que pudesse 
ser empregada para pequenas amostras. Proibido de publicar os resultados de suas pesquisas, 
Gosset usou o pseudônimo de Student e publicou os resultados de sua pesquisa. 
Se uma população tem distribuição normal, então, a distribuição de:
é uma distribuição t de Student para todas as amostras de tamanho n. 
 
• Determinação do intervalo de confiança para a média populacional quando o desvio-
padrão, (ou a variância, ) é desconhecido.
98WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
 ✓ Objetivo
Construir um intervalo de confiança que contenha a média populacional, ou seja, obter 
um intervalo do tipo em que E é a margem de erro.
 ✓ Requisitos
i) A amostra é aleatória simples;
ii) A população segue distribuição normal.
Roteiro 2: Determinação do intervalo de confiança para a média populacional quando o 
desvio-padrão, (ou a variância, ) é desconhecido.
Passo 1 Verifique se os requisitos anteriormentecitados são satisfeitos.
Passo 2
Usando (n-1) graus de liberdade, recorremos à tabela do anexo 3 para 
determinar 
Passo 3
Calcular a margem de erro: 
Passo 4 Com os valores da margem de erro (E) e da média amostral, , determine os 
limites superior e inferior do intervalo de confiança: e .
Fonte: a autora.
Exemplo 4
A concentração de um poluente em uma refinaria segue distribuição normal. Uma 
amostra, de tamanho 51, apresentou média igual a 80,0 ppb e desvio-padrão igual a 10,0 
ppb. Determine o intervalo de confiança, com 95% de confiança, que contenha a média da 
população da concentração desse poluente.
SOLUÇÃO:
Passo 1: segue do enunciado que , , e, ainda, a 
variável estudada segue distribuição normal (condições do passo 1 são verificadas).
Passo 2: determinar o valor 
Um nível de confiança de 95% corresponde a (para as duas caudas, ou seja, 
0,025 em cada). O número de graus de liberdade é . Recorrendo à tabela 
do anexo 3, encontramos 
Passo 3: cálculo da margem de erro.
Passo 4: determinar os limites do intervalo de confiança.
99WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
Portanto, com 95% de confiança, o intervalo de confiança 
para a média é . Esse resultado pode ser expresso no formato 
ppb.
Apresentamos duas abordagens para o desenvolvimento de uma estimativa intervalar de 
uma média populacional. Para o caso de conhecido, e a distribuição normal padrão são 
utilizados para calcular a margem de erro e desenvolver a estimativa intervalar. Para o caso de 
desconhecido, o desvio padrão amostral s e a distribuição t são utilizados para calcular a margem 
de erro e desenvolver a estimativa intervalar. Um resumo dos procedimentos de estimação 
intervalar referente aos dois casos é apresentado na Figura abaixo.
Figura: resumo dos procedimentos para determinação do intervalo de confiança para uma média populacional. 
Fonte: a autora.
100WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
2.2 Estimação por Intervalos de Confiança da Proporção Populacional
Nesta secção, estamos interessados em determinar proporções populacionais. Por 
exemplo, considere a seguinte situação: um candidato a diretor de uma empresa decidiu realizar 
uma pesquisa de intenções de votos com os funcionários da mesma e constatou que 70% dos 
250 funcionários selecionados votariam nele. Assim, a proporção amostral, é 
um estimador pontual da proporção p populacional. Uma vez que não se pode esperar que esse 
estimador pontual produza o valor exato da proporção populacional, uma estimativa intervalar 
se faz necessária. A forma geral de uma estimativa intervalar para a proporção populacional é a 
seguinte:
Na sequência, enunciaremos um roteiro necessário para a determinação das margem de 
erro, bem como a obtenção do intervalo de confiança para a proporção populacional.
• Condições para a estimação do intervalo de confiança quando uma proporção é conhecida.
 ✓ Objetivo
Construir um intervalo de confiança para se estimar uma proporção populacional.
 ✓ Requisitos
i) A amostra é aleatória simples;
ii) A população segue distribuição binomial (aquela em que há duas categorias de 
resultados);
iii) As proporções de “sucesso” e “fracasso” são conhecidas.
Algumas propriedades importantes da distribuição t de Student:
1. A distribuição t de Student tem a mesma forma geral simétrica em sino que 
a distribuição normal padrão, mas reflete a maior variabilidade que se espera 
com pequenas amostras.
2. A distribuição t de Student é diferente para tamanhos de amostra diferentes.
3. A distribuição t de Student tem uma média de t = 0.
4. À medida que o tamanho amostral se torna maior, a distribuição t de Student 
se aproxima da distribuição normal padrão.
5. O desvio-padrão da distribuição t de Student varia com o tamanho amostral, 
mas é maior que 1.
101WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
Roteiro: determinação do intervalo de confiança para a média populacional quando uma 
proporção é conhecida.
Passo 1 Verifique se os requisitos anteriormente citados são satisfeitos.
Passo 2 Use a tabela do anexo 2 para determinar 
Passo 3
Calcular a margem de erro: 
Passo 4 Com os valores da margem de erro (E) e da proporção amostral, , determine os 
limites superior e inferior do intervalo de confiança: e .
Fonte: a autora.
Exemplo 5
Uma pesquisa constatou que 80%, dos 4030 adultos selecionados aleatoriamente na cidade de 
Maringá, acreditavam no aquecimento global. Com base nessas informações, resolva os itens 
a seguir:
a) Ache o intervalo de confiança de 95% para a proporção populacional p.
b) Supondo que você seja um repórter de um jornal, escreva uma breve afirmativa que descre-
va, com precisão, os resultados e que inclua todas as informações relevantes.
SOLUÇÃO: 
a) Passo 1: segue do enunciado que .
Passo 2: determinar o valor crítico .
Um nível de confiança de 95% corresponde a ou Recor-
rendo à tabela do Anexo 2, encontramos 
Passo 3: cálculo da margem de erro.
Passo 4: determinar os limites do intervalo de confiança.
Portanto, com 95% de confiança, o intervalo de confiança para a proporção é 
.
b) Eis uma afirmativa que resume os resultados: 80% dos adultos de Maringá acreditam que a 
Terra esteja se tornando mais quente. Essa porcentagem se baseia em uma pesquisa de opinião 
realizada com 4030 adultos selecionados aleatoriamente. Essa porcentagem deve diferir por 
não mais que 1,24 pontos percentuais, para mais ou para menos.
102WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
Exemplo 6
Para se estimar a percentagem de alunos do curso de Zootecnia, do Centro Universitário Ingá 
– UNINGÁ, favoráveis à modificação do currículo escolar, tomou-se uma amostra de 100 alu-
nos, dos quais 70 foram favoráveis à mudança. 
a) Qual o erro da estimativa admitindo-se 96% de confiança?
b) Para a situação anterior, qual será o intervalo de confiança para a verdadeira porcentagem 
de alunos favoráveis à mudança?
SOLUÇÃO: 
a) Passo 1: segue do enunciado que .
Passo 2: determinar o valor crítico .
Um nível de confiança de 96% corresponde a ou Recor-
rendo à tabela do Anexo 2, encontramos 
Passo 3: cálculo da margem de erro.
Logo, o erro da estimativa, admitindo-se 96% de confiança, é de 0,094 = 9,4%.
b) Passo 4: determinar os limites do intervalo de confiança.
Portanto, com 96% de confiança, o intervalo de confiança para a proporção
 é .
Nunca aceite os resultados de uma pesquisa ou de um estudo científico sem a 
margem de erro, pois ela é a única maneira que você possui para medir o quanto a 
estatística amostral realmente reflete os parâmetros da população nos quais você 
está interessado. Os resultados amostrais variam e caso uma amostra diferente 
tenha sido selecionada, podemos obter um resultado amostral diferente; a mar-
gem de erro mede essa diferença.
103WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
3. TESTE DE HIPÓTESE
Muitas vezes é necessário tomar decisões sobre populações com base em suas informações 
amostrais (decisões estatísticas), com isso, nas tomadas de decisões, é útil formular hipóteses ou 
suposições sobre as populações em questão. Tais hipóteses, que podem ser verdadeiras ou não, 
denominam-se hipóteses estatísticas e, em geral, consistem de afirmações sobre as distribuições de 
probabilidade das populações, por exemplo:
a. A proporção de paranaenses com a doença A é 30% (p = 0,30);
b. A idade dos alunos da Uningá tem uma distribuição normal?
c. Para os alunos do sexo masculino da Uningá a cor dos cabelos independe da cor dos 
olhos?
TESTE DE HIPÓTESE: é uma regra de decisão para aceitar ou rejeitar uma hipótese 
estatística com base nos elementos da amostra e determinar se amostras observadas diferem 
significativamente dos resultados esperados.
Os Testes de Hipóteses podem ser de dois tipos: 
 ✓ Não Paramétricos: quando formulamos hipótesescom respeito à natureza da distribuição 
da população. Estes testes não dependem dos parâmetros populacionais, nem de suas 
respectivas estimativas (item (c) dos exemplos anteriores).
 ✓ Paramétricos: quando formulamos hipóteses com respeito ao valor de um parâmetro 
populacional (itens (a) e (b) dos exemplos anteriores).
Nesta secção, vamos tratar somente dos testes paramétricos, pois se referem às hipóteses 
sobre parâmetros populacionais, isto é, feita uma determinada afirmação (ou suposição) sobre o 
parâmetro de uma população, desejamos inferir se os resultados de uma amostra desta população 
contrariam ou não tal afirmação. 
O teste de hipótese representa uma regra de decisão que permite aceitar ou rejeitar uma 
hipótese formulada. Têm-se, então, as duas seguintes hipóteses iniciais:
Hipótese nula (H0): é aquela que será testada; admite-se aqui que a diferença observada 
entre estatística amostral (estimador) e o parâmetro populacional é devido apenas ao acaso (efeito 
da amostra), ou seja, essa diferença não é significativa.
Hipótese alternativa (H1): é qualquer hipótese diferente da hipótese nula, isto é, é aquela 
que será citada0 caso o teste indique que H0 deva ser rejeitada; aceitando essa hipótese, conclui-se 
que a diferença citada é significativa.
A expressão “hipótese nula” foi introduzida por Ronald Fisher. Se a afirmação na 
hipótese nula não for verdadeira, então, a hipótese alternativa deve ser verdadeira.
104WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
As hipóteses estatísticas para o parâmetro θ (média (µ) e proporção (p), por exemplo), 
podem ser formuladas como segue:
Tabela 1 – Possíveis formulações matemáticas para um teste de hipótese.
Teste bilateral Teste unilateral à direita Teste unilateral à esquerda
Fonte: a autora.
 
O objetivo de se testar uma hipótese nula é tomar uma decisão, se possível correta. 
Devemos aceitar ou rejeitar H0, que é a hipótese usada como referência. Suponhamos que 
exista essa hipótese, a qual será considerada válida até prova em contrário, referente a um dado 
parâmetro da população. Essa hipótese será testada com base em resultados amostrais, podendo 
ser aceita ou rejeitada.
Para melhor entendermos a regra de decisão adotada, é interessante estudarmos os 
tipos de erros que podemos cometer e as respectivas probabilidades de cometermos esses erros. 
Podemos cometer dois tipos de erros, ou seja:
Erro Tipo I – ou de primeira espécie, constitui-se em rejeitar H0, quando H0 é verdadeiro. 
α = P( cometer erro tipo I) = P(rejeitar H0 H0 é verdadeiro)
A probabilidade de se cometer o erro tipo I, ou seja, de se rejeitar a hipótese H0 quando 
ela é verdadeira, é denominada de nível de significância do teste. Geralmente, adota-se o nível 
de 5%, ou seja, , porém, dependendo das exigências do pesquisador, podem-se adotar 
1%, 10% ou outros valores.
Erro Tipo II ou de segunda espécie, constitui-se em aceitar H0, quando H0 é falso. A 
probabilidade de cometer esse erro será simbolizada por β. 
β = P( cometer erro Tipo II) = P( aceitar H0 H0 é falso)
Esquematicamente, o quadro abaixo mostra as diversas situações que podem ocorrer 
num teste de hipótese:
Tabela 2 - Situações que podem ocorrer num teste de hipótese.
DECISÃO
(Teste)
REALIDADE
H0 é verdadeira H0 é falsa
Aceitar H0 Decisão correta Erro tipo II
Rejeitar H0 Erro tipo I Decisão correta
Fonte: a autora.
105WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
3.1 Construção de um Teste de Hipótese para Média Populacional
Na sequencia, explicamos o roteiro, dividido em 4 etapas, para construção do teste de 
hipótese para média populacional com desvio-padrão conhecido e desconhecido. 
Etapa 1: formulação das hipóteses (uma das opções da Tabela 1).
O teste é feito com base em uma amostra e como essa amostra vai nos trazer informações 
sobre a população, e não o seu comportamento exato, na verdade, o que se quer testar é se há, 
ou não, uma diferença estatisticamente significativa entre a informação , que a amostra traz 
sobre a média da população, e o verdadeiro valor ( ) dessa média, para que a hipótese nula, 
H0, possa ser rejeitada ou não. Assim, o critério de decisão consiste em não rejeitar a hipótese 
H0 se forem estatisticamente não significativas essas diferenças ( ), bem como rejeitar H0 
se essas diferenças forem estatisticamente significativas. Para medir essas diferenças, usamos a 
estatística do teste obtida da distribuição de , que é o estimador de .
Etapa 2: escolha da estatística do teste.
(i) Quando o desvio-padrão populacional, , é conhecido: pelo teorema do limite central, 
sabemos que ~ N( , 2/n) para qualquer tamanho de amostra n se a população tiver distribuição 
normal e, para n suficientemente grande, (n 30) se a população não tiver distribuição normal. 
Nessas condições, a estatística do teste é:
(ii) Quando o desvio-padrão populacional, , não é conhecido: se o desvio-padrão 
populacional for desconhecido e, supondo população com distribuição normal, a estatística 
do teste é:
Em um teste estatístico, admitimos sempre que H0 é verdadeiro e, a partir daí, 
desenvolvemos o critério de decisão para rejeitar ou não tal hipótese. Assim, sob H0 e com as 
informações obtidas na amostra, o valor da estatística do teste é dado por:
 ou 
Etapa 3: região crítica (RC) ou região de rejeição.
A decisão de rejeitar ou não H0, ou seja, decidir se a diferença ( ) é ou não 
significativa, é tomada com base na região crítica RC (ou região de rejeição de H0), que é 
construída de modo que P( RC/H0 é verdadeira) = , em que é o nível de significância 
do teste. A construção da RC depende também do tipo de teste que estamos realizando e está 
relacionada à hipótese definida na etapa 1. A Figura 4 apresenta as regiões críticas (que são as 
áreas hachuradas) para cada tipo de teste. Os valores de ±E e ±E /2 são obtidos das tabelas 
das distribuições de probabilidade da estatística do teste, que podem ser Z ou t para o nível de 
significância considerado.
106WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
Figura 4 – Regiões críticas para teste de hipótese: (A) unilateral à esquerda, (B) bilateral, (C) unilateral à direita. 
Fonte: a autora.
Etapa 4: tomada de decisão.
Se o valor da estatística do teste zcalculado ou tcalculado pertencer à região crítica RC, rejeitamos a 
hipótese H0 ao nível de significância. Caso contrário, não podemos rejeitá-la.
Exemplo 7
A linha de produção de um medicamento veterinário está calibrada para colocar 
160 mL ± 8 mL por frasco de uma dada vacina. Valores acima ou abaixo dessa média são 
considerados críticos, e a linha de produção deve ser suspensa se qualquer um dos dois 
ocorrer. O engenheiro do controle de qualidade retira 30 amostras a cada 2 horas e precisa 
tomar a decisão de parar, ou não, a linha de produção para calibragem. Se a média amostral 
for de 158,20 mL, o que o engenheiro deveria recomendar aos responsáveis pela área de 
produção, ao nível de significância de 5%?
Solução: segue do enunciado que temos 30 amostras e o desvio-padrão é conhecido. 
Vamos aplicar as quatro etapas.
Etapa 1: escrever a formulação das hipóteses.
Etapa 2: escolha da estatística do teste.
Temos as seguintes informações: , n = 30, e Vamos 
assumir distribuição normal e calcular o valor de Z:
Etapa 3: esboço da região crítica.
O teste é bilateral (veja a tabela 1). Assim, fazemos o esboço da região crítica. 
Primeiramente, buscamos os valores de Z (no anexo 2) para marcar os extremos do 
intervalo da região crítica. Observe as Figuras 5 e 6.
107WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
Figura 5 – Determinação dos extremos do intervalo da região crítica. Fonte: a autora.
Figura 6 – Esboço da região crítica e localização do valor de nessa região. 
Fonte: a autora.
Etapa 4: decisão.
Como o valor de está fora da região crítica, pode-se afirmar, comcomo um sorteio 
aleatório, ou seja, enumera-se os elementos de uma população, de 1 até n, por exemplo, 
e desses n elementos sorteia-se k elementos. Entretanto, no caso em que a população 
é muito numerosa, esse sorteio torna-se inviável e, para esse caso, podemos usar a 
Tabela de Números Aleatórios (Anexo 1). 
A Tabela de Números Aleatórios é construída de modo que os dez algarismos (0 a 9) são 
distribuídos ao acaso nas linhas e colunas (Anexo 1). E para a sua utilização, procedemos 
da seguinte forma: sorteamos um algarismo qualquer da mesma, a partir do qual iremos 
considerar números de dois, três ou mais algarismos, conforme nossa necessidade. Os 
números assim obtidos irão indicar os elementos da amostra. A leitura da tabela pode 
ser feita horizontalmente (da direita para a esquerda ou vice-versa), verticalmente (de 
cima para baixo ou vice-versa), diagonalmente (no sentido ascendente ou descendente) 
ou formando o desenho de uma letra qualquer. A opção, porém, deve ser feita antes de 
iniciado o processo.
Exemplo 1
Dos 30 funcionários de uma empresa, 20% serão escolhidos para realizar exames de 
rotina. Como 20% de 30 é igual a 6, significa que dos 30 funcionários, 6 deverão fazer o 
exame. Assim, para realizar a escolha desses funcionários, enumera-se os mesmos de 1 a 
30 e, em seguida, escrevemos esses números em papéis de mesmo tamanho, colocando-
os dentro de uma caixa. Agitamos e retiramos, um a um, sem reposição. Os seis números 
formarão a amostra.
Exemplo 2
Deseja-se obter uma amostra, que corresponda a 10% da população, para a pesquisa 
da estatura de noventa alunos de uma escola. Para isso, sorteia-se um número aleatório e a 
partir dele, da esquerda para a direita, por exemplo, iremos contar nove elementos (10% de 
90), com dois dígitos cada, pois o maior valor da população possui dois dígitos, na Tabela 
de Números Aleatórios. Supondo que o número sorteado seja o 53 e escolhendo a 11ª linha, 
temos os seguintes elementos:
53 08 58 96 63 05 61 25 70
Como o número 96 excede o valor máximo da população, esse valor deverá ser 
desprezado e consideraremos o 11º elemento da linha.
Logo, a amostra é dada por: 53 08 58 63 05 61 25 70 22.
8WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Figura 1: Tabela de Números Aleatórios. Fonte: [ 1 ].
II. Amostragem estratificada – essa técnica é utilizada quando temos a população 
subdividida em grupos, que são chamados de estratos. Nesse caso, é necessário 
considerar elementos de cada estrato para que a amostra da população seja 
representativa. 
Exemplo 3
Considere que, dos 90 alunos, do exemplo 2, 33 sejam meninos e 57 sejam meninas. 
Temos, nesse caso, dois estratos (sexo masculino e sexo feminino) e queremos escolher 10% 
do total de 90. 
SOLUÇÃO: devemos considerar 10% de cada estrato, ou seja, 10% do estrato “sexo 
masculino” e 10% do estrato “ sexo feminino”. Assim,
10% de 33 = 3,3 e 10% de 57 = 5,7.
Como esses valores referem-se a pessoas, consideraremos 3 alunos do sexo masculino e 
6 alunos do sexo feminino, totalizando os 9 alunos que correspondem aos 10% da população.
Na sequência, escolhemos 3 meninos dentre os 33 e 6 meninas dentre as 57. Podemos 
enumerar esses alunos de 1 a 90, sendo que os enumerados de 1 até 33 correspondem aos 
9WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
alunos do sexo masculino, e os enumerados de 34 até 90 correspondem as alunas do sexo 
feminino. Daí, procede-se a um sorteio. Ou, então, usa-se a tabela de números aleatórios 
para proceder ao sorteio, até que 3 alunos e 6 alunas sejam selecionados.
III. Amostragem sistemática – nessa técnica de amostragem, os elementos da população 
que participam da amostra são determinados por intervalos fixos, e não utiliza-se a 
tabela de números aleatórios.
Por exemplo, no caso da população dos 90 alunos do exemplo 2, para obtermos 9 amostras 
sistemáticas, podemos escolher os números 3, 6, 9, 12, 15, 18, 21, 24 e 27.
1.3 Tipos de Gráficos e Séries Estatísticas
Após a coleta e análise de dados, podemos dispo-los em uma tabela. 
Uma tabela é um quadro que resume um conjunto de observações ou informações, onde 
algumas normas devem ser seguidas:
a. Toda tabela deve conter Título e Fonte. Título: é a indicação que precede a tabela e que 
contém a designação do fato observado, o local e a época em que foi registrado. Fonte: é 
a indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração.
b. Cabeçalho: evidencia o conteúdo das colunas e fica na parte superior da tabela. Coluna 
indicadora: mostra o conteúdo das linhas.
c. Cada cruzamento entre linha e coluna é denominado célula ou casa. 
d. Rodapé: espaço aproveitado em seguida ao fecho da tabela, em que são colocadas as notas 
de natureza informativa (fonte, notas e chamadas).
e. Nenhuma célula (casa) deve ficar em branco.
f. Hífen (-), indica que o valor numérico é nulo.
g. Reticência (...) , indica que não se dispõe do dado.
h. Interrogação (?) , indica dúvida quanto a exatidão do valor numérico.
i. Zeros (0; 0,0; 0,00), indica valor muito pequeno em relação a unidade utilizada.
j. A tabela não é fechada lateralmente por traços verticais.
k. Não há obrigatoriedade de linha vertical entre as colunas, mas deve ser usada quando a 
tabela apresenta muita informação (muitas colunas e/ou muitas linhas).
10WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 4
 Abaixo ilustramos os elementos que compõe uma tabela.
Figura 2: Elementos que compõe uma tabela. Fonte: [3].
Séries estatísticas
Uma série estatística trata-se de toda tabela que apresenta distribuição de um conjunto de 
dados em função da época, do local ou da espécie. 
 
 Série temporal ou cronológica: é a série cujos dados estão dispostos em correspondência 
com o tempo, ou seja, varia o tempo e permanece constante o fato e o local.
Exemplo 5
Exemplo de série temporal.
Figura 3: Exemplo de série temporal. Fonte: a autora.
Série geográfica ou territorial: é a série cujos dados estão dispostos em correspondência 
com o local, ou seja, varia o local e permanecem constantes a época e o fato.
11WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 6
 Exemplo de série geográfica.
Figura 4: Exemplo de série geográfica. Fonte: a autora.
Série específica ou qualitativa: é a série cujos dados estão dispostos em correspondência 
com a espécie ou qualidade, ou seja, varia o fato e permanecem constantes a época e o local.
Exemplo 7
 Exemplo de série específica.
Figura 5: Exemplo de série específica. Fonte: a autora.
Um gráfico estatístico é uma maneira de apresentação dos dados, que tem como objetivo 
produzir uma impressão mais rápida e viva do fenômeno estudado, uma vez que os gráficos 
falam mais rapidamente à compreensão da série. Os gráficos devem ser simples, claros e devem 
expressar a verdade sobre o fenômeno em estudo. A seguir, apresentaremos os principais tipos de 
gráficos estatísticos.
Gráfico de colunas: é construído no plano cartesiano. No eixo horizontal, são construídas 
as colunas que representam a variação (medidas ou quantidades numéricas) dos dados na 
pesquisa realizada. O fluxo de informações, representado por um valor numérico, é indicado pelo 
eixo vertical. As colunas devem sempre possuir a mesma largura e a distância entre elas deve ser 
constante. Também podemos representar duas ou mais categorias de informações.
12WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Figura 6: Ilustração dos elementos do gráfico de colunas. Fonte: [4].
Exemplo 8
Foram entrevistadas 100 pessoas que haviam sido submetidas a uma cirurgia estética re-
paradora. Indagadas se consideravam que a cirurgia havia melhorado a aparência delas, 66 
afirmaram que sim, 20 disseram que em parte, 8 disseram que não e 6 não quiseram respon-
der. Os dados são apresentados no gráfico de95% de certeza, que não será necessário parar a linha de produção para calibração.
Exemplo 8
Suponhamos que os cientistas tenham estabelecido que se os cigarros contêm em média, 
30 miligramas ou mais de nicotina, existe a certeza de se produzir câncer no pulmão. Um 
fumante está disposto a se arriscar se a média µ de nicotina for menor que 30 miligramas. 
Ensaios sobre 100 cigarros da marca A mostraram uma média de 26 miligramas de nicotina. 
Se σ = 8 miligramas e considerando um nível de significância de 2%, qual a decisão que o 
fumante deve tomar?
SOLUÇÃO: Como µ = 30, n = 100, 
H
H
0
1
30
30
:
:
µ
µ
=



Etapa 2: escolha da estatística do teste.
Segue do enunciado que 
. A estatística do teste é:
 
Etapa 3: esboço da região crítica
O Teste é unilateral à direita e sendo α = 0,10, da tabela obtemos 28,1z =α . Assim:
Figura 10 – Teste unilateral à direita. Fonte: a autora.
Etapa 4: decisão.
Note que o valor de está dentro da região crítica, e rejeitamos a 
hipótese nula. Portanto, pode-se afirmar, com 90% de certeza de que há evidências que a 
proporção das unidades fabricadas que apresentam defeitos seja significativamente superior 
a 20%.
113WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
“No Capítulo 4, Princípios de amostragem, se-
rão abordados os tipos de amostra e os fun-
damentos para sua coleta e seleção adequada 
pelo programa estatístico, bem como os funda-
mentos da inferência estatística, quando você 
aprenderá o significado prático de estimação e 
estimadores para que possa, a partir do estudo 
das amostras, inferir os resultados obtidos nas 
populações das quais elas foram retiradas. O 
Capítulo 5, Teoria da estimação: intervalos de 
confiança, direciona o entendimento de forma 
natural para a inferência populacionalde características amos-trais. Os intervalos 
de confiança para médias, proporções e variâncias e o erro amostral, ligados à 
teoria da amostragem, propiciarão ao administrador um excelente arcabouço teó-
rico para a tomada de decisão, pois poderão antever comportamentos e tendên-
cias populacionais a partir do comportamento da característica semelhante que 
foi estudada na amostra. No Capítulo 6, Testes de hipóteses, são verificadas as 
afirmações feitas a respeito de parâmetros populacionais. Você aprenderá como 
testar afirmações que comumente são feitas no dia a dia e que, muitas vezes, não 
encontram bases científicas de comprovação. Digo sempre que iniciar frases com 
a expressão “acho que” revela, no mínimo, a incerteza que, por já estar presente no 
campo da administração, não precisa de reforços. Os testes de hipóteses vão de 
encontro a essas incertezas no sentido de testar predominantemente se médias, 
proporções e outras estatísticas calculadas nas amostras realmente têm contra-
partida na população. “
VIRGILLITO, Salvatore B. Estatística Aplicada. [Digite o Local da 
Editora]: Editora Saraiva, 2017. E-book. ISBN 9788547214753. 
Disponível em: https://integrada.minhabiblioteca.com.br/#/
books/9788547214753/. Acesso em: 04 jan. 2024.
114WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 3
EDUCAÇÃO A DISTÂNCIA
CONSIDERAÇÕES FINAIS
Nessa Unidade, abordamos um ramo muito importante da estatística, chamada Estatística 
Inferencial. Vimos como é possível inferir sobre um parâmetro de uma população a partir de uma 
amostra da mesma. Vimos, também, as técnicas para determinação do intervalo de confiança, 
onde a aplicação de cada técnica depende do tipo de informação que se tem acerca do problema. 
Por fim, abordamos os Testes de Hipóteses que nos permite testar uma afirmação sobre um 
parâmetro do população.
115115WWW.UNINGA.BR
U N I D A D E
04
SUMÁRIO DA UNIDADE
INTRODUÇÃO ...............................................................................................................................................................116
1. CORRELAÇÃO DE DADOS ........................................................................................................................................ 117
2. REGRESSÃO LINEAR .............................................................................................................................................. 121
CONSIDERAÇÕES FINAIS ...........................................................................................................................................129
ANEXO 1 – NÚMEROS ALEATÓRIOS .......................................................................................................................... 131
CORRELAÇÃO E REGRESSÃO
PROFA. MA. MIRIAM EULALINA MARTINS FROTA
ENSINO A DISTÂNCIA
DISCIPLINA:
BIOESTATÍSTICA 
116WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
INTRODUÇÃO
Nas unidades anteriores, nosso objetivo era descrever a distribuição de uma única 
variável. Para isso, aprendemos a calcular as medidas de tendência central e variabilidade. No 
entanto, ao considerarmos duas ou mais variáveis, nos deparamos com o problema de saber como 
elas se relacionam e, nesse sentido, as medidas estudadas anteriormente não são eficientes. Por 
isso, nessa unidade iremos estudar os conceitos de correlação e regressão linear, pois quando 
consideramos variáveis como gasto com propagandas e vendas, comprimento de uma barra de aço 
e temperatura, peso e altura de um grupo de pessoas, desejamos verificar se existe alguma relação 
entre as variáveis de cada um dos pares e qual o grau dessa relação. Uma vez que a relação entre 
as variáveis seja de natureza quantitativa, a correlação é a ferramenta utilizada para determinar e 
medir essa relação. Confirmada a correlação entre as duas variáveis, iremos descrever essa relação 
através de uma função Matemática, onde a regressão linear é quem determina os parâmetros 
dessa função.
117WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
1. CORRELAÇÃO DE DADOS
Dizemos que duas variáveis estão ligadas por uma relação estatística quando existe 
correlação emas ntre elas. A correlação, por sua vez, entre duas variáveis, ocorre quando os 
valores de uma variável estão relacionados, de alguma maneira, aos valores de outra variável. Por 
exemplo: gasto com propagandas e vendas; comprimento de uma barra de aço e temperatura; 
peso e altura de um grupo de pessoas; o tempo de prática de esportes e o ritmo cardíaco; o tempo 
de estudo e a nota na prova.
A correlação é uma relação entre duas variáveis, onde uma é a variável independente e a 
outra, a variável dependente. Os dados estatísticos dessa correlação podem ser presentados por 
pares ordenados (x, y), onde x denota a variável independente (ou explanatória) e y denota a 
variável dependente (ou resposta).
As correlações entre as variáveis podem se apresentar de algumas formas: positiva, negativa 
ou não linear. Pode, ainda, não haver correlação entre as variáveis. Por exemplo, as variáveis 
gasto com propaganda e vendas, apresentam-se, em geral, correlacionadas positivamente, pois, 
quase sempre, quanto mais se investe em propaganda, mais vendas são realizadas. Por outro 
lado, as variáveis tempo e velocidade estão correlacionadas negativamente, pois quanto maior 
a velocidade, menor o tempo gasto. Ainda, as variáveis cor dos olhos e altura, por exemplo, não 
estão correlacionadas. As figuras, abaixo, ilustram essas possibilidades:
Figura 1 – Tipos de correlação. Fonte: [1].
As correlações e regressões podem ser simples ou múltiplas. Quando se trabalha com 
duas variáveis, diz-se correlação e regressão simples. Quando se trabalha com mais de duas 
variáveis, fala-se de correlação e regressão múltipla.
Uma das formas de visualizarmos se existe ou não correlação entre duas variáveis, é 
através do diagrama de dispersão. 
118WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
O diagrama de dispersão é formado por um conjunto de pontos (x, y) no plano cartesiano, 
onde os valores de x e y foram obtidos através de uma coleta de dados estatísticos. ( Veja a figura 
1, anterior).
Para ilustrarmos a ideia do diagrama de dispersão, iremos considerar o exemplo abaixo.
EXEMPLO 1
O administrador da rede de pet shop está interessado em descobrir se existe relação 
entre os gastos com propaganda das lojas, no horário nobre da TV aberta, e as vendas dessas 
oito lojas. Para tal propósito, ele conduz um estudo para determinar se existe uma relação 
linear entre a quantidade de dinheiro gasto em propaganda e as vendas. Os dados coletados 
pelo administrador estão dispostos na Tabela 1.
Tabela 1 – Gasto com propaganda e receita de uma rede de pet shop.
Filial Gasto com propaganda (UR$ 1.000,00)
Vendas da loja
(UR$ 1.000,00)
1 540 5,80
2 294 2,60
3 440 4,00
4 624 6,80
5 252 2,00
6 295 2,70
7 372 4,00
8 473 4,90
Fonte: a autora.
 Chamando de x os gastos com propagandas e de y as vendas das lojas, podemos 
interpretar os dados da tabela 1 da seguinte forma: a filial 1 gastou x1 = 540 com propagandas 
e obteve y1 = 5,80 em vendas, a filial 2 gastou x2 = 294 com propagandas e obteve y2 = 2,60 
em vendas e, assim, sucessivamente até a 8ª filial. Representando esses dados por pares 
ordenados, temos (x1, y1) = (540; 5,80), (x2, y2) = (294; 2,60), ..., (x8, y8) = (473; 4,90). A 
representação desse conjunto de pontos no plano cartesiano é o que determina o diagrama 
de dispersão e nos diz se as variáveis x e y estão correlacionadas ou não. 
119WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
Figura 2 – Diagrama de dispersão da situação-problema. Fonte: a autora.
 Observamos, através do diagrama de dispersão, ilustrado na figura 2, que as variáveis 
“gastos com propaganda” e “vendas” estão correlacionadas positivamente, ou seja, o aumento 
nos gastos com propaganda ocasionaaumento nas vendas da loja.
Como dito até agora, o diagrama de dispersão é uma forma gráfica de determinarmos se 
existe ou não correlação entre as variáveis estudadas. Outra forma de verificarmos essa correlação 
é por meio do cálculo do coeficiente de correlação de Pearson, que é definido abaixo:
Equação 01
Na equação 01, n é o número de observações, é a soma dos valores da variável inde-
pendente, é a soma dos valores da variável dependente, é a soma dos produtos entre 
a variável dependente e independente, é a soma dos quadrados da variável independente, e 
 é a soma dos quadrados da variável dependente. 
O valor do coeficiente de Pearson (r) pertence ao intervalo 1 e através dele, po-
demos determinar qual tipo de correlação existe entre as variáveis, a saber:
• se a correlação entre as variáveis é perfeita e positiva, então r = 1.
• se a correlação entre as variáveis é perfeita e negativa, então r = - 1.
• se não existe correlação entre as variáveis, então r = 0. Nesse caso, obviamente, a 
correlação não é linear. 
120WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
• se a correlação é de inexistente a muito fraca, e nada podemos concluir.
• se , a correlação é de muito fraca à média, e podemos considerar o 
valor de r nesse intervalo como indício de uma correlação entre as variáveis, sem muito 
efeito.
• se a correlação é de média a muito forte, e as variáveis mantêm 
dependência significativa.
 Voltando ao exemplo 1, vamos calcular o coeficiente de correlação de Pearson (r). Para 
isso, com o objetivo de facilitar os cálculos e a visualização dos termos da equação 01, construi-
mos a Tabela 2. 
Tabela 2 – Valores calculados para o coeficiente de correlação.
 (x) (y) (x.y) (x2) (y2)
1 540 5,80 3.132,00 291.600 33,64
2 294 2,60 764,40 86.436 6,76
3 440 4,00 1.760,00 193.600 16,00
4 624 6,80 4243,20 389.376 46,24
5 252 2,00 504,00 63.504 4,00
6 295 2,70 796,50 87.025 7,29
7 372 4,00 1.488,00 138.384 16,00
8 473 4,90 2.317,70 223.729 24,01
Total
Fonte: a autora.
Assim, fazendo uso da Equação 01, segue que o valor do coeficiente de correlação de 
Pearson é:
Através do valor do coeficiente de correlação (r = 9899) calculado, podemos dizer que, 
de fato, há forte correlação positiva entre as variáveis “gastos” e “vendas”. Assim, à medida que 
aumenta o gasto com propaganda, as vendas da rede de pet shop aumentam também.
121WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
O fato de duas variáveis serem fortemente correlacionadas não implica relação 
de causa e efeito entre elas. Um estudo mais profundo é necessário para determi-
nar se há uma relação causal entre as variáveis. Se houver correlação significante 
entre as variáveis, o pesquisador deve considerar as seguintes possibilidades:
• existe relação direta de causa e efeito entre as variáveis.
• existe relação de causa e efeito reversa entre as variáveis.
• a relação de causa e efeito entre as variáveis estudadas pode ser causada 
por uma terceira variável ou por uma combinação de diversas outras variá-
veis.
• a relação de causa e efeito entre as variáveis é uma coincidência.
2. REGRESSÃO LINEAR
 
Vimos que duas variáveis podem estar correlacionadas ou não. Uma vez correlacionadas, 
podemos determinar os parâmetros da equação de uma reta que melhor se ajusta ao conjunto 
de dados da situação-problema. Esse método é conhecido como regressão linear ou método dos 
mínimos quadrados e a vantagem de obtermos essa modelagem, ou seja, a equação da reta, é que 
conseguimos fazer previsões futuras do problema em questão.
 A equação da reta é dada por:
Equação 02
Na equação 02, a e b são números reais e a 0. Supondo que x seja a variável independente 
e y, a variável dependente, os valores de a e b são dados por:
Equação 03
e
Equação 04
 
122WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
Considerando, ainda, o exemplo 1, vamos determinar a equação da reta que melhor se ajusta 
àquele conjunto de dados, ou seja, determinaremos a equação linear que modela a relação entre 
as variáveis “gasto com propagandas” e “vendas da loja”. Para isso, consideraremos os dados da 
Tabela 2 (e Figura 2) e usaremos as equações 03 e 04 para calcularmos os valores de a e b. Assim,
e
 Substituindo os valores de a e b na equação 02, segue que a reta de regressão para a situa-
ção em estudo, é dada por:
,
em que x é a quantidade de milhares de reais gastos com propaganda, e y é a quantidade de mi-
lhares de reais arrecadados com as vendas.
Através dessa equação, podemos predizer a receita de uma determinada filial (y), dado 
um gasto com propaganda (x) e vice-versa. Por exemplo, caso estejamos interessados em deter-
minar o valor da receita quando são gastos UR$ 700.000, apenas substituímos x = 700 (lembre-se 
de que o valor de x, ao empregar a equação obtida nesse caso, é dividido por 1.000). Daí, obtemos 
uma receita igual a UR$ 7.850,00. Observe que, quando não se gasta com propaganda (x = 0), 
prevemos uma queda nas vendas de UR$ 1,25 (UR$ 1000).
Para esboçar a reta no plano cartesiano, formado pelos eixos X e Y, basta atribuir, pelo 
menos, dois valores para x e calcular os correspondentes valores de y, pois, por dois pontos, passa 
uma (e apenas uma) reta.
Sabendo que duas variáveis estão correlacionadas e qual o melhor modelo linear descreve 
essa relação, podemos, ainda, calcular o coeficiente de determinação. 
O coeficiente de determinação é um indicador da qualidade do ajustamento, dado pelo 
quadrado do coeficiente de correlação, ou seja, 
[Coeficiente de determinação = (coeficiente de correlação)2]
O abuso mais comum em correlação em estudos é confundir os conceitos de 
correlação com as casualidades. Quando uma correlação forte é encontrada entre 
duas variáveis, procure outras variáveis que são correlacionadas com ambas.
123WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
Através do coeficiente de determinação, podemos dizer o quanto a variável dependente 
(y) foi influenciada pela variável independente (x), já que um valor previsto para y não será neces-
sariamente um resultado exato, pois, além do valor da variável x, existem outras variáveis que não 
foram incluídas no estudo, e elas podem afetar o resultado final, ou seja, o r2 expressa a proporção 
da variação total que é explicada (devida) à reta de regressão de x sobre y.
O valor de r2 varia entre 0 e 1, isto é: 0 ≤ r2 ≤ 1, ou se multiplicarmos r2 por 100, obteremos 
seu valor em percentagem, ou seja, r2 x 100 0% ≤ r2 ≤ 100%.
Há, ainda, a possibilidade de interpretação dos coeficientes neste intervalo, tomando 
como base os seguintes limites:
Tabela 3: Interpretação do coeficiente de determinação.
Se 0,9 ≤ r2entre as variáveis “consumo de energia elétrica” (xi) e 
“volume de produção nas empresas industriais” (yi), fez-se uma amostragem que inclui vinte 
empresas, computando-se os seguintes valores:
Considerando as informações dadas, resolva os itens a seguir:
a) verifique se há correlação entre as variáveis estudadas.
b) determine a equação da reta para o caso de existência de correlação.
c) determine o coeficiente de determinação e explique seu significado.
SOLUÇÃO:
Iremos determinar se há correlação, algebricamente, calculando o coeficiente de 
Pearson, que é definido pela equação 01. Note que n = 20, pois a amostragem inclui 20 
empresas. Assim:
Assim, o coeficiente de Pearson, calculado, nos diz que existe uma correlação média 
entre as variáveis.
b) Para determinar a equação da reta de correlação do tipo , vamos empregar 
as Equações (03) e (04) como segue:
Logo, a equação de regressão linear é:
c) O coeficiente de determinação é:
125WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
E, de acordo com o modelo especificado, apenas 29,62% das variações de , que 
corresponde ao volume de produção nas empresas industriais, são explicadas pelas variações 
de , que corresponde ao consumo de energia elétrica, e os outros 70,38% das variações de 
 são explicadas por outras variáveis ou combinações de outras variáveis.
EXEMPLO 3
Suponha que um biólogo esteja estudando a relação entre a quantidade (mg/L) de 
determinado poluente despejado por uma fábrica em um riacho, e o dano ecológico nesse 
curso d’água, medido por um escore de dano. Os valores observados pelo pesquisador estão 
indicados na Tabela abaixo. 
TABELA3: Escore de dano ecológico medido para diferentes concentrações do poluente no riacho. Fonte [1*]
Considerando as informações dadas, resolva os itens a seguir:
a) verifique se há correlação entre as variáveis estudadas.
b) determine o coeficiente de determinação e explique seu significado.
SOLUÇÃO: a) Sejam x = quantidade de poluente e y = escore de dano ecológico. 
Observe que n = 6, pois temos 6 pares ordenados dados na tabela 3. Para responder o item 
a), construimos a tabela abaixo:
Para responder o item a), construimos a tabela abaixo:
1 3 3 1 9
2 6 12 4 36
3 7 21 9 49
4 10 40 16 100
5 10 50 25 100
6 12 72 36 144
Fonte: a autora.
Com esses valores, faremos uso da equação 01. Assim,
126WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
Logo, o coeficiente de Pearson, , nos diz que existe correlação entre as variáveis x e 
y e esta correlação é positiva e forte, isto é, as variáveis mantêm dependência significativa.
O coeficiente de determinação é:
E, de acordo com o modelo especificado, 95,24% das variações dos escores de danos 
ecológicos são explicados pelas variações da quantidade de determinado poluente despejado 
por uma fábrica em um riacho, e os outros 4,76% das variações dos escores de danos 
ecológicos são explicados por outras variáveis ou combinações de outras variáveis.
EXEMPLO 4
Considere os dados relativos à quantidade de fertilizante utilizada (xi), em kg, e 
a produção obtida (yi) de soja, em ton., em determinado município, conforme Tabela 3. 
Baseado nessas informações, resolva os itens a seguir:
a) construa o diagrama de dispersão.
b) verifique se há correlação entre as variáveis estudadas.
c) determine a equação da reta para o caso de existência de correlação.
d) determine o coeficiente de determinação e explique seu significado.
Tabela 4 – Quantidade de fertilizante utilizada e quantidade de soja produzida em um 
dado município.
xi 100 200 300 400 500 600 700
yi 40 45 50 65 70 70 80
Fonte: a autora.
SOLUÇÃO:
a) De posse dos valores da Tabela 4, podemos empregar um software (Excel, por 
exemplo) e compor o diagrama de dispersão, que está apresentado na Figura 4.
127WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
Figura 4 – Diagrama de dispersão. Fonte: a autora.
Observamos, através do diagrama de dispersão, que existe uma correlação positiva 
entre as variáveis estudadas. Para determinar os demais itens, vamos construir a Tabela 5, 
como segue.
Tabela 5 – Valores calculados para o coeficiente de correlação.
100 40 4.000 10.000 1.600
200 45 9.000 40.000 2.025
300 50 15.000 90.000 2.500
400 65 26.000 160.000 4.225
500 70 35.000 250.000 4.900
600 70 42.000 360.000 4.900
700 80 56.000 490.000 6.400
Fonte: a autora.
b) Pelo item a) já sabemos, graficamente, que existe uma correlação positiva entre as 
variáveis. Agora, iremos determinar essa correlação, algebricamente, calculando o coeficiente 
de Pearson, que é definido pela equação 01. Note que n = 7, pois temos 7 pares ordenados. 
Assim:
Assim, o coeficiente de Pearson calculado confirma a correlação obtida no item a) e essa 
correlação é positiva e forte, isto é, as variáveis mantêm dependência significativa.
128WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
c) Para determinar a equação da reta de correlação do tipo , vamos empregar 
as Equações (03) e (04) como segue:
Logo, a equação de regressão linear é:
d) O coeficiente de determinação é:
E, de acordo com o modelo especificado, 95,5% das variações da quantidade de soja 
produzida são explicadas pelas variações da quantidade de fertilizante empregadas, e 4,5% 
das variações da quantidade de soja produzida são explicadas por outras variáveis ou 
combinações de outras variáveis.
Capítulo 11: “Sendo a relação entre as variáveis 
de natureza quantitativa, a correlação é o instru-
mento adequado para descobrir e medir essa rela-
ção. Uma vez caracterizada a relação, procuramos 
descrevê-la através de uma função matemática. A 
regressão é o instrumento adequado para a deter-
minação dos parâmetros dessa função.”
CRESPO, Antônio A. Estatística fácil. 
[Digite o Local da Editora]: Editora Sa-
raiva, 2009. E-book. ISBN 9788502122345. Disponível em: https://
integrada.minhabiblioteca.com.br/#/books/9788502122345/. 
Acesso em: 04 jan. 2024.
129WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
| U
NI
DA
DE
 4
EDUCAÇÃO A DISTÂNCIA
CONSIDERAÇÕES FINAIS
Na Unidade 4, trabalhamos com a correlação linear entre duas variáveis. Vimos as 
possibilidades de correlações e como determina-las, tanto graficamente, através do diagrama de 
dispersão, quanto algebricamente, através do coeficiente de correlação de Pearson. Além disso, 
vimos que uma vez correlacionadas, podemos determinar a equação de reta que melhor se ajusta 
ao conjunto de dados. Finalmente, apresentamos o coeficiente de determinação que nos diz o 
quanto a variável dependente foi influenciada pela variável independente.
130WWW.UNINGA.BR
ENSINO A DISTÂNCIA
REFERÊNCIAS
[1*] CALLEGARI-JACQUES, Sidia M. Bioestatística: princípios e aplicações. Grupo A, 2003. 
E-book. ISBN 9788536311449. Disponível em: https://integrada.minhabiblioteca.com.br/#/
books/9788536311449/. Acesso em: 15 fev. 2024.
[1] CRESPO, Antônio A. Estatística fácil. Editora Saraiva, 2009. E-book. ISBN 9788502122345. 
Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788502122345/. Acesso em: 
08 dez. 2023.
DEVORE, Jay L. Probabilidade e estatística para engenharia e ciências – Tradução da 9ª edição 
norte-americana. Cengage Learning Brasil, 2018. E-book. ISBN 9788522128044. Disponível em: 
https://integrada.minhabiblioteca.com.br/#/books/9788522128044/. Acesso em: 13 dez. 2023.
[3]https://cesad.ufs.br/ORBI/public/uploadCatalago/11394823032022Aula_04.pdf . Acesso em: 
08 dez. 2023.
[4]https://educa.ibge.gov.br/professores/educa-recursos/20773-tipos-de-graficos-no-ensino.
html . Acesso em: 10 jan. 2024.
[5]https://www.gov.br/saude/pt-br/centrais-de conteudo/publicacoes/boletins/epidemiologicos/
especiais/2022/boletim-epidemiologico-de-tuberculose-numero-especial-marco-2022.pdf
[6]https://blog.proffernandamaciel.com.br/
[7] IBGE, Atlas geográfico escolar, 8ª edição, 2018. Disponível em: https://www.ibge.gov.br/
geociencias/atlas/nacional/16633-atlas-geografico-escolar.html.Acesso em: 16 jan. 2024.
[8] LARSON, R.; FARBER, B. Estatística aplicada. 6. ed. São Paulo: Pearson, 2016.
[9] MARTINS, Gilberto de A.; DOMINGUES, Osmar. Estatística Geral e Aplicada, 6ª 
edição. Grupo GEN, 2017. E-book. ISBN 9788597012682. Disponível em: https://integrada.
minhabiblioteca.com.br/#/books/9788597012682/. Acesso em: 08 dez. 2023.
[10] MATTOS, Viviane Leite Dias de; AZAMBUJA, Ana Maria Volkmer de; KONRATH, 
Andréa C. Introdução à Estatística - Aplicações em Ciências Exatas. Grupo GEN, 2017. 
E-book. ISBN 9788521633556. Disponível em: https://integrada.minhabiblioteca.com.br/#/
books/9788521633556/. Acesso em: 08 dez. 2023.
[11] ROSNER, Bernard. Fundamentos de Bioestatística – Tradução da 8ª edição norte-americana. 
Cengage Learning Brasil, 2018. E-book. ISBN 9788522126668. Disponível em: https://integrada.
minhabiblioteca.com.br/#/books/9788522126668/. Acesso em: 15 fev. 2024
[12] VIEIRA, Sonia. Introdução à Bioestatística. Grupo GEN, 2021. E-book. ISBN 9788595158566. 
Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788595158566/. Acesso em: 
12 fev. 2024.
[13] VIRGILLITO, Salvatore B. Estatística Aplicada. Editora Saraiva, 2017. E-book. 
ISBN 9788547214753. Disponível em: https://integrada.minhabiblioteca.com.br/#/
books/9788547214753/. Acesso em: 12 dez. 2023.
131131WWW.UNINGA.BR
EDUCAÇÃO A DISTÂNCIA
ANEXO 1 – NÚMEROS ALEATÓRIOScolunas abaixo.
Figura 7: Você acredita que a cirurgia melhorou sua aparência? Fonte: [12].
13WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 9
Exemplo de um gráfico de colunas com duas categorias.
Figura 8: Exemplo de um gráfico de colunas com duas categorias. Fonte: [7].
Gráficos de barras: O gráfico de barras também é construído sobre o Plano Cartesiano 
(primeiro quadrante). No eixo vertical, são construídas as barras que representam a variação 
(medidas ou quantidades numéricas) dos dados na pesquisa realizada. O fluxo de informações, 
representado por um valor numérico, é indicado pelo eixo horizontal. As barras devem sempre 
possuir a mesma largura e a distância entre elas deve ser constante. Podemos representar duas ou 
mais categorias de informações.
Figura 9: Ilustração dos elementos do gráfico de barras. Fonte: [4].
14WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 10
 Exemplo de um gráfico de barras.
Figura 10: Número de tratamentos da infecção latente pelo Mycobacterium tuberculosis conforme indicação de 
tratamento. Brasil, 2018 a 2021. Fonte: [5].
Gráficos de setores: os gráficos de setores (ou pizza) são representados por círculos 
divididos proporcionalmente de acordo com os dados da informação a ser representada. Os 
valores são expressos em números ou em percentuais (%). Esse tipo de gráfico é recomendado 
para visualização de informações de apenas uma categoria e não é recomendado o uso em três 
dimensões.
Figura 11: Ilustração dos elementos do gráfico de setores. Fonte: [4].
15WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 11
Exemplo de um gráfico de setores.
Figura 12: Exemplo de um gráfico de setores. Fonte: [7].
Gráfico de linhas: Esse tipo de gráfico é utilizado quando se deseja trabalhar com 
duas ou mais informações provenientes de dados numéricos. Ele se utiliza de uma ou mais 
linhas poligonais para representar uma série estatística, que mostram a variação (medidas ou 
quantidades numéricas) dos dados na pesquisa realizada, isto é, como os dados se movimentam 
no decorrer do tempo e é feito no primeiro quadrante do plano cartesiano. É indicado quando 
uma das variáveis representa o tempo e se pretende revelar o movimento dos dados ao longo do 
tempo.
Figura 13: Ilustração dos elementos do gráfico de linhas. Fonte: [4].
16WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 12
 Exemplo de um gráfico de linhas.
Figura 14: Exemplo de um gráfico de linhas. Fonte: [7].
1.4 Distribuição de Frequência
Após a coleta de dados de uma pesquisa estatística, é necessário a organização dos 
mesmos. Esse procedimento é, em geral, feito por meio de tabelas, que são chamadas de tabelas 
de distribuição de frequência.
Para a compreensão do conceito da tabela de distribuição de frequência, começaremos 
considerando o conjunto de dados que apresenta a distância horizontal (em metros) percorrida 
por um drone antes de apresentar algum tipo de defeito. Um total de 40 testes foram realizados 
e são apresentados na Tabela 1. 
Tabela 1 – Distância percorrida, em metros, por um protótipo de drone antes de apresentar 
algum tipo de defeito.
33,50 30,38 48,38 31,13 29,63 9,25 32,25 38,00 8,63 29,63
9,00 18,00 18,00 1,25 37,88 10,00 25,24 52,00 9,25 53,38
8,75 34,00 7,63 14,00 43,25 16,50 11,38 25,02 18,50 16,63
9,38 8,00 35,25 21,63 19,38 11,50 28,50 78,38 38,88 33,63
Fonte: a autora.
Observamos, na tabela 2, que os dados não estão organizados, e por isso, recebem o nome 
de dados brutos. Os dados brutos constituem uma tabela, denominada tabela bruta. O primeiro 
passo a se fazer é organizar esses dados em ordem crescente ou decrescente. Essa organização é 
chamada de rol. A tabela 2 mostra o rol crescente dos dados.
17WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Tabela 2 – Rol crescente da distância percorrida, em metros, por um protótipo de drone 
antes de apresentar algum tipo de defeito.
1,25 7,63 8,00 8,63 8,75 9,00 9,25 9,25 9,38 10,00
11,38 11,50 14,00 16,50 16,65 16,63 18,00 18,00 18,50 19,38
21,63 25,02 25,24 28,50 29,63 30,38 31,13 32,25 33,50 33,63
34,00 35,25 37,88 38,00 38,88 43,25 48,38 52,00 53,38 78,38
Fonte: a autora.
Após a organização dos dados em rol, iremos construir uma tabela para que a leitura dos 
dados fique mais compreensível. Para isso, devemos definir os seguintes itens:
I. classe: é a subdivisão dos dados em intervalos ou faixas de valores.
II. limite de classe: são os valores extremos de cada classe. Para uma classe, temos o 
limitante inferior, que é o menor número que pode pertencer à classe, além do limitante 
superior, que é o maior número que pode pertencer à classe.
III. amplitude amostral (AA): é a diferença entre o maior e o menor entre os dados 
coletados.
IV. ponto médio de uma classe : são os valores obtidos somando-se o limitante inferior 
de classe ao limitante superior e dividindo-se o resultado da soma por 2.
V. número de classes (i): para a construção de uma tabela de distribuição de frequência, 
a primeira coisa com que devemos nos preocupar é determinar o número de classes. 
Para tal, utilizamos a regra de Sturges, dada pela Eq. (01), a seguir:
, onde n é o número de dados coletados. Eq. (01)
VI. amplitude de classe (h): calculado o número de classes, devemos calcular a amplitude 
da classe, que é calculada fazendo-se a razão entre a amplitude total e o número de 
classes. 
VII. frequência absoluta : é o número de vezes que determinado elemento aparece na 
amostra ou, ainda, o número de vezes que um elemento aparece numa classe.
VIII. frequência relativa : é a razão entre a frequência absoluta da classe em questão e 
o número total de elementos na amostra. A frequência relativa é calculada usando-se 
a Eq. (02):
Eq. (02)
IX. frequência relativa percentual : é obtida multiplicando a frequência relativa por 
100, como apresenta a Eq. (03):
18WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Eq. (03)
X. frequência acumulada : é obtida somando-se a frequência absoluta da classe 
considerada com as frequências absolutas anteriores a essa classe. A Eq. (04) mostra 
esse procedimento.
Eq. (04)
Na Eq. (04), é a frequência absoluta da primeira classe, é a frequência absoluta da segunda 
classe e assim por diante, até a n-ésima classe. O símbolo denota a soma das frequências 
da primeira, segunda, até a n-ésima classe.
XI. frequência relativa acumulada : é a razão entre a frequência acumulada de 
uma classe pelo número total de elementos na amostra, como mostra a Eq. (05):
Eq. (05)
i. frequência relativa acumulada percentual : é o produto da frequência relativa 
acumulada de uma classe por 100, como apresentado na Eq. (06):
Eq. (06)
 
Definido esses doze itens, vamos aplica-los na tabela 2 para que possamos construir a Tabela 
de Distribuição de Frequências. 
1º passo: determinar o número de classes desejado. Esse número deve estar entre 5 e 20, por 
questões práticas e ainda deve ser um número inteiro. Como temos n = 40 observações, podemos 
usar o critério de Sturges. Assim, o número de classes igual a: 
2º passo: calcular a amplitude das classes. Se necessário, faça uso de arredondamentos e/ou mude 
o número de classes de modo que se usem números convenientes.
3º passo: escolha ou o valor mínimo ou um valor conveniente, que seja um pouco menor do que 
esse valor mínimo para ser o primeiro limitante inferior de classe. Usando esse limitante inferior 
e a amplitude da classe, prossiga e liste os outros limites inferiores de classe, adicionando a ampli-
19WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
tude de classe ao primeiro limite de classe inferior para obter o segundo limite inferior de classe, 
e assim por diante. 
4º passo: liste os limites inferiores de cada classe em uma coluna verticale prossiga para preen-
cher os limitantes superiores. Feito isso, percorra o conjunto de dados, colocando uma marca 
apropriada para cada valor dado. Conte as marcas para encontrar a frequência total para cada 
classe.
Na sequencia, construímos a tabela 3, denominada de tabela de distribuição de frequência. Ob-
serve, na Tabela 3, que na primeira classe temos a frequência dos valores da distância horizontal 
percorrida pelo robô, que vai de 1 (inclusive) até 14 (exclusive), totalizando 12 valores. Nas clas-
ses seguintes, usamos ideia análoga.
Tabela 3 - Distribuição de frequência da distância percorrida por um protótipo de drone antes 
de apresentar algum tipo de defeito.
Classe (i) Distância percorrida Frequência (fi)
1 12
2 11
3 12
4 3
5 1
6 1
Total 40
Fonte: a autora.
A partir da tabela de distribuição de frequência, podemos calcular as frequências relativas (
, frequências acumuladas ( ) e seus percentuais, como apresentado na Tabela 4.
Tabela 4 – Distribuição de frequência da distância percorrida por protótipo de drone, antes de 
apresentar algum tipo de defeito.
Classe (i) Distância percorrida
1 12 0,300 30,0 12 0,300 30,0
2 11 0,275 27,5 23 0,575 57,5
3 12 0,300 30,0 35 0,875 87,5
4 3 0,075 7,50 38 0,950 95,0
20WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
5 1 0,025 2,50 39 0,975 97,5
6 1 0,025 2,50 40 1,000 100,0
Total 40 1 100 - - -
Fonte: a autora.
O cálculo da frequência relativa da primeira classe foi determinado da seguinte maneira: 
. Esse procedimento foi usado para calcular as demais frequências relativas. As 
frequências relativas percentuais foram obtidas multiplicando-se por 100 as frequências relativas 
de cada classe.
O cálculo da frequência acumulada foi realizado como segue:
E assim por diante, até a sexta classe. As frequências relativas acumuladas foram calculadas 
como segue:
E assim por diante, até a sexta classe. Já as frequências relativas percentuais foram obtidas 
multiplicando-se por 100 as frequências relativas acumuladas.
Em muitas situações, é mais conveniente representar de forma gráfica uma distribuição 
de frequência. E isso pode ser feito utilizando-se do histograma, do polígono de frequência ou do 
polígono de frequência acumulada.
O histograma é um gráfico dado por um diagrama de colunas, em que cada retângulo 
está associado a uma classe da distribuição de frequência. As frequências de classe devem ser 
usadas na escala vertical. As barras na escala horizontal são rotuladas de uma das maneiras: (1) 
fronteiras de classe; (2) pontos médios das classes; ou (3) limites inferiores das classes.
21WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Figura 15 – Histograma da distribuição de frequência da distância percorrida por um drone, antes de apresentar 
algum tipo de defeito. Fonte: a autora.
O polígono de frequência é o gráfico de configuração linear. Ele é obtido calculando-se o 
ponto médio de cada classe e marca-se esse ponto no lado superior do histograma. O polígono de 
frequência é obtido ligando-se esses pontos médios. A Figura 16 mostra o polígono de frequência, 
associado aos dados da Tabela 4.
Figura 16 – Polígono de frequência da distância percorrida por um drone, antes de apresentar algum tipo de defeito. 
Fonte: a autora.
O polígono de frequência acumulada, ou ogiva de Galton, é um gráfico que permite 
descrever dados quantitativos por meio da frequência acumulada. A ogiva é um gráfico de linha 
que une os pontos cujas abcissas são os limites superiores das classes e ordenadas suas respectivas 
frequências acumuladas. A Figura 17 apresenta o polígono de frequência acumulada para os 
dados distribuídos em classe da Tabela 4.
22WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Figura 17 – Polígono de frequência acumulada da distância percorrida por um drone, antes de apresentar algum tipo 
de defeito. Fonte: a autora.
Exemplo 13
Os dados abaixo representam o valor (R$) do produto A vendido em 25 diferentes 
estabelecimentos. Construa uma tabela de distribuição de frequência e identifique qual a 
faixa de preços com maior frequência. 
Dados Brutos: 20,5 - 19,5 - 15,6 - 24,1 - 9,9 - 15,4 - 12,7 - 5,4 - 17,0 - 28,6 - 16,9 - 7,8 - 
23,3 - 11,8 - 18,4 - 13,4 - 14,3 - 19,2 - 9,2 - 16,8 - 8,8 - 22,1 - 20,8 - 12,6 - 15,9
Solução: Para a construção da tabela de distribuição de frequências, devemos seguir os 
seguintes passos:
Organizar os dados em rol crescente:
5,4 - 7,8 – 8,8 – 9,2 – 9,9 – 11,8 – 12,6 – 12,7 – 13,4 – 14,3 – 15,4 15,6 – 15,9 – 16,8 – 16,9 
– 17,0 – 18,4 – 19,2 – 19,5 – 20,5 – 20,8 – 22,1 – 23,3 - 24,1 – 28,6 
Determinar o número de classes desejado.
Calcular a amplitude das classes.
 
Escolher um valor mínimo para ser o 1º limitante inferior da classe e construir uma 
tabela contendo o número de classes, os intervalos e as frequências absolutas.
Como o primeiro valor do conjunto de dados é o valor 5,4, escolheremos o número 
5. A partir do número 5, iremos somar o número 4, até obtermos as 6 classes com seus 
respectivos intervalos. Para as frequências, a partir dos dados em rol, foi contado quantos 
elementos pertencem a cada classe, ou seja, na 1ª classe houve 3 valores para o produto A 
variando de R$ 5,00 a R$ 9,00 e assim sucessivamente. A tabela abaixo mostra esse processo.
23WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Tabela 5 - Distribuição de frequência do valor (R$) do produto A vendido em 25 
diferentes estabelecimentos.
Fonte: a autora.
Calcular as frequências relativas ( , frequências acumuladas ( ) e seus percentuais.
Tabela 6 – Distribuição de frequência para o valor (R$) do produto A vendido em 25 
diferentes estabelecimentos.
Fonte: a autora.
24WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
O cálculo da frequência relativa da primeira classe foi determinado da seguinte maneira: 
. Esse procedimento foi usado para calcular as demais frequências relativas. 
As frequências relativas percentuais foram obtidas multiplicando-se por 100 as frequências 
relativas de cada classe.
O cálculo da frequência acumulada foi realizado como segue:
E assim por diante, até a sexta classe. As frequências relativas acumuladas foram 
calculadas como segue:
E assim por diante, até a sexta classe. Já as frequências relativas percentuais foram 
obtidas multiplicando-se por 100 as frequências relativas acumuladas.
Figura 18 – Histograma da distribuição de frequência para o valor (R$) do produto A vendido em 25 diferentes 
estabelecimentos. Fonte: a autora.
25WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Figura 19 – Polígono de frequência para o valor (R$) do produto A vendido em 25 diferentes estabelecimentos. 
Fonte: a autora.
Figura 20 – Polígono de frequência acumulada para o valor (R$) do produto A vendido em 25 diferentes 
estabelecimentos. Fonte: a autora.
2. MEDIDAS DE POSIÇÃO
As medidas de posição de uma série de dados nos orientam quanto à posição da distribuição 
em relação ao eixo horizontal do histograma. As usualmente empregadas são a média, a mediana 
e a moda. Vamos discuti-las em separado. 
2.1 Média Aritmética
A média aritmética é a mais importante de todas as medidas de posição existentes 
para descrever dados em geral. A média aritmética ( ) é uma medida de tendência central, 
determinada pela adição de todos os valores e divisão pelo número de valores. Essa definição nos 
permite escrever a Eq. (07):
26WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Eq. (07)
onde, , , ..., são as variáveis que se estão estudando, n é o número de valores 
estudados, e denota a soma de todos os valores em estudo.
Exemplo 14
Um professor de Educação Física mediu a circunferência abdominal de 10 homens que se 
apresentaram em uma academia de ginástica. Obteve os seguintes valores, em centímetros:88, 
83, 79, 76, 78, 70, 80, 82, 86, 106. 
Solução: A média é:
ou seja, a média da circunferência abdominal desses homens é 82,8 cm.
 Acabamos de calcular a média aritmética para o caso em que os dados não estão 
agrupados. Agora, vamos aprender a calcular a média aritmética para o caso em que os dados 
estão agrupados sem intervalo de classe. Nessa situação, como as frequências são números 
indicadores da intensidade de cada valor, elas funcionam como fatores de ponderação e, assim, 
calculada a média aritmética ponderada, como apresentado pela Eq. (08):
Eq. (08)
onde, é a frequência, e é o valor da variável.
Exemplo 15
Na Figura 21, são apresentados os números de acidentes de trabalho no primeiro 
semestre de 2020, nas 60 fábricas de uma indústria de remédios.
Figura 21 – Ilustração para o exemplo. Fonte: a autora.
Determine o número médio de acidentes das 60 fábricas de remédios.
27WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Solução: das informações dispostas na figura 21, montamos uma tabela para auxiliar-
nos no cálculo da média aritmética. Assim,
Tabela 6 – Tabela de distribuição para o cálculo da média.
Fonte: a autora.
Daí, segue que o número médio de acidentes de trabalho nas 60 fábricas de remédios é:
Portanto, o número médio de acidentes de trabalho nas 60 fábricas de remédios foi de 
1,7 acidentes.
 
 Vejamos, agora, o caso do cálculo da média aritmética quando os dados estão agrupados 
em classe. Nesse caso, convenciona-se que os valores incluídos num determinado intervalo 
coincidem com seu ponto médio, e determinamos a média ponderada. Vejamos o exemplo 
seguinte.
28WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 16
A Tabela 7 apresenta a distribuição de frequências do número de salários-mínimos dos 
funcionários de um laboratório.
Tabela 7 – Distribuição de frequência do número de salários-mínimos recebidos pelos 
funcionários de um laboratório.
Fonte: a autora.
Determine o número médio de salários-mínimos desses funcionários.
Solução: das informações dispostas na Tabela 7, montamos a Tabela 8 para auxiliar-nos 
no cálculo da média aritmética. Assim.
Tabela 8 – Tabela de distribuição para resolução do exercício.
Fonte: a autora.
29WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Daí, segue que o número médio de salários-mínimos é:
Portanto, o número médio de salários-mínimos recebidos pelos funcionários do 
laboratório é 5,4.
Exemplo 17
A média salarial de 100 médicos-veterinários recém-formados é igual a R$ 5.000,00. 
Se o salário de João, também médico-veterinário recém-formado, fosse incluído no cálculo, a 
média salarial seria igual a R$ 5.100,00. Determine o salário de João, em reais.
Solução: temos que a média salarial, das 100 pessoas pode ser calculada 
por meio da equação:
Ou seja, a soma dos salários dos 100 médicos-veterinários é:
Considerando agora a inclusão de João, a média salarial é igual a e é calculada 
por meio da equação:
Ou seja, a soma dos salários de 101 médicos-veterinários é:
Assim, subtraindo (1) de (2), segue que o salário de João é igual a R$ 15.100.
2.2 Moda
A Moda (Mo) é o valor que ocorre com maior frequência num conjunto de dados, e esse(s) 
valor(es) é(são) denominado(s) “valor modal”. Um conjunto de dados poderá ser classificado em: 
amodal – quando não apresentar valor modal; 
unimodal – quando apresentar único valor modal;
bimodal – quando apresentar dois valores modais; 
trimodal – quando apresentar três valores modais; 
polimodal – quando apresentar quatro ou mais valores modais.
30WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 18
Determine a moda dos dados 1,1, 2, 5, 3, 7, 4, 7, 8, 7, 9, 6.
Solução: organizando os dados em rol crescente, obtemos a seguinte distribuição:
1 – 1 – 2 – 3 – 4 – 5 – 6 – 7– 7 – 7 – 8 – 9
Note que, na série, há repetição dos valores 1 (2 vezes) e 7 (3 vezes). Assim, o con-
junto de dados é unimodal e o valor modal é 7, porque é o resultado que se repete mais 
vezes.
A moda desse conjunto de dados, pode, ainda, ser visualizada graficamente:
Figura 22: Dados sobre um eixo e a respectiva moda. Fonte: [12].
Acabamos de calcular a moda para o caso em que os dados não estão agrupados. Agora, 
vamos aprender a calcular a moda para o caso em que os dados estão agrupados sem intervalo 
de classe. Nessa situação, é muito fácil determinar o valor modal, bastando determinar a classe 
que apresenta maior frequência. Vejamos o exemplo que segue.
31WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 19
Determinada carreira profissional, em um órgão público, apresenta 5 níveis de salá-
rios com uma distribuição apresentada na Tabela 9.
Tabela 9 – Distribuição salarial de funcionários de uma carreira pública.
Salários (R$) 1.500,00 2.000,00 2.500,00 3.000,00 3.500,00
Quantidade de 
funcionários
8 13 23 18 3
Fonte: a autora.
Determine o salário modal desse órgão público.
Solução: o salário modal desse compartimento público é R$ 2.500,00, pois esse valor 
caracteriza o maior número de ocorrências (23 vezes).
 Vejamos agora o caso do cálculo da moda quando os dados estão agrupados em classe. 
Nesse caso, é comum fazer uso da equação de Czuber para o cálculo do valor modal, como 
mostra a Eq. (09):
Eq. (09)
Nela, é o limite inferior da classe modal, é a diferença entre a frequência da classe 
modal e a frequência da classe anterior à classe modal, é a diferença entre a frequência da 
classe modal e a frequência da classe posterior à classe modal, e é a amplitude da classe 
modal. Vejamos o exemplo seguinte.
32WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 20
A Tabela 10 apresenta a distribuição de frequências das notas obtidas numa prova de 
bioestatística, realizada por 50 estudantes universitários do curso de Nutrição.
Tabela 10 - Distribuição de frequência das notas em Bioestatística.
Nota Frequência
4
12
15
13
6
Fonte: a autora.
Determine a nota modal.
Solução: a classe modal corresponde à classe que apresenta maior frequência. É claro 
que essa frequência corresponde à terceira classe. Assim,
, , e . Logo, a nota modal é: 
Portanto, a nota modal em Bioestatística foi de 5,2.
A moda é, em geral, usada para medidas rápidas e aproximações de posição ou, ainda, 
quando a medida de posição deve ser o valor mais frequente da distribuição.
2.3 Mediana
Mediana (Me) é o valor que divide um conjunto de dados em duas partes: uma com 
números menores ou iguais à mediana, outra com números maiores ou iguais à mediana. Dessa 
maneira, a mediana encontra-se no centro de uma série estatística organizada em rol. 
Após a organização do dados em rol, para determinar a mediana é preciso observar se o 
conjunto de dados possui um número par ou ímpar de elementos. Feita essa observação, procede-
se da seguinte forma:
• Se o número de elementos for ímpar, a mediana será o valor central.
• Se o número de elementos for par, a mediana será a média aritmética entre os dois termos 
centrais. Nesse caso, a mediana será um valor que não necessariamente pertence à série 
de dados.
33WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 21
Os dados a seguir correspondem ao rol crescente de medidas da concentração de um po-
luente líquido (em ppb) ao longo de 25 dias:
24 − 24 −24 −25 − 25 − 30 − 32 − 32 − 32 − 35 − 36 − 36 − 40 − 40 − 40 − 40− 46 – 48 − 48 − 
50 − 54 − 54 − 60 − 60 − 65
Determine a concentração mediana desse poluente, em ppb.
Solução: note que os dados estão organizados em rol crescente e que temos 25 valores. O 13º 
elemento é o que ocupa a posição central (está destacado no rol) e esse valor é a mediana do 
conjunto de dados. Assim sendo, a concentração mediana do poluente é igual a 40 ppb.
Exemplo 22
Cientistas ambientais mediram as emissões degases de efeito estufa de uma amostra de vinte 
carros. As quantidades listadas estão em toneladas (por ano), expressas em equivalente de CO2.
8,5 – 5,0 – 4,0 – 7,0 – 8,0 – 9,0 – 1,5 – 4,5 – 10,0 – 6,5 – 6,0 – 7,5 – 5,5 – 9,5 – 8,5 – 70 – 9,0 – 
8,5 – 3,0 – 20.
Qual é a mediana teórica da quantidade de gases de efeito estufa dessa amostra de carros?
Solução: primeiramente, vamos organizar o conjunto de dados em rol crescente. Assim, temos:
1,5 – 2,0 – 3,0 – 4,0 – 4,5 – 5,0 – 5,5 – 6 – 6,5 – 7,0 – 7,0 – 7,5 – 8,0 – 8,5 – 8,5 – 8,5 – 9,0 – 9,0 
– 9,5 – 10,0
Note que temos um número par de elementos, e os dois termos centrais têm média aritmética 
igual a 7,0. Portanto, a mediana é igual a 7,0 toneladas (por ano).
Acabamos de calcular a mediana para o caso em que os dados não estão agrupados. 
Agora, vamos aprender a calcular a mediana para o caso em que os dados estão agrupados sem 
intervalo de classe. Nessa situação, devemos executar os seguintes passos:
(i) calcular a frequência acumulada; 
(ii) determinar um valor tal, que divida a distribuição em dois grupos que contenham o 
mesmo número de elementos. 
34WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 23
Os salários dos 40 funcionários de uma clínica, em 31 de dezembro de 2022, estavam distri-
buídos segundo as informações da Tabela 11.
Tabela 11 – Distribuição de frequência salarial de uma construtora.
Salário (R$) Número de funcionários
800,00 4
1.100,00 8
2.000,00 10
2.800,00 16
3.600,00 2
Total 40
Fonte: a autora.
Determine a mediana dos salários dos funcionários da clínica.
Solução: para determinar o valor da mediana, primeiramente, vamos determinar a frequência 
acumulada, como apresentado na Tabela 12, para o conjunto de dados. Assim:
Tabela 12 – Distribuição de frequências para os salários dos funcionários da clínica.
Salário (R$)
800,00 4 4
1.100,00 8 12
2.000,00 10 22
2.800,00 16 38
3.600,00 2 40
Total 40 -
Fonte: a autora.
Daí, a posição da mediana será , ou seja, o valor pertence à 3ª classe e corresponde 
ao salário de R$ 2.000,00. Portanto, a mediana do salário da clínica é igual a R$ 2.000,00.
 Vejamos agora o caso do cálculo da mediana quando os dados estão agrupados em 
classe. Nesse caso, usa-se a Eq. (10) de interpolação linear:
Eq. (10)
35WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Nela: é o limitante inferior da classe mediana; é o número de elementos coletados na 
pesquisa; é a frequência acumulada da classe anterior à classe mediana; é a frequência 
absoluta da classe mediana; e é a amplitude da classe da mediana. 
Exemplo 24
A Tabela 13 apresenta a distribuição de frequência do percentual de redução da carga 
bacteriana, empregando um novo desinfetante desenvolvido por um engenheiro químico. 
Determinar o percentual mediano desse conjunto de dados.
Tabela 13 – Distribuição de frequência do percentual de redução da carga bacteriana, 
empregando um novo desinfetante.
Percentual de redução Frequência (fi)
12
11
12
3
1
1
Total 40
Fonte: a autora.
Solução: vamos, primeiramente, escrever a Tabela 14 com a coluna de frequência acumulada e 
identificar a classe mediana. Assim:
Tabela 14 – Distribuições de frequência.
Percentual de redução fi
12 12
11 23
12 35
3 38
1 39
1 40
Total 40 -
Fonte: a autora.
36WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Depreende-se, da Tabela 14, que n = 40 e que a classe que contém a mediana é a segunda 
(hachurada na Tabela 14). Para essa classe, temos: , , e 
. Daí:
Portanto, o percentual de redução mediano foi de 23,45.
Logo, o valor mediano de redução da carga bacteriana, empregando um novo desinfetante, 
é igual a 23,45%.
3. MEDIDAS DE SEPARATRIZES
As medidas de separatrizes são valores que ocupam posições no conjunto de dados, em 
rol, dividindo-o em partes iguais e podendo ser:
1. quartis – divide a série em quatro partes iguais e são assim representados:
I. Q1 (25% dos dados coletados são valores menores ou iguais ao valor do primeiro 
quartil)
II. Q2 (50% dos dados coletados são valores menores ou iguais ao valor do segundo 
quartil, e é evidente que Q2 coincide com a mediana)
III. Q3 (75% dos dados são valores menores ou iguais ao valor do terceiro quartil).
2. decis – divide a série em dez partes iguais e são assim representados:
I. D1 (10% dos dados são valores menores ou iguais ao valor do primeiro decil)
II. D2 (20% dos dados são valores menores ou iguais ao valor do segundo decil)
III. D3 (30% dos dados são valores menores ou iguais ao valor do terceiro decil)
IV. D4 (40% dos dados são valores menores ou iguais ao valor do quarto decil)
V. D5 (50% dos dados são valores menores ou iguais ao valor do quinto decil)
VI. D6 (60% dos dados são valores menores ou iguais ao valor do sexto decil)
VII. D7 (70% dos dados são valores menores ou iguais ao valor do sétimo decil)
VIII. D8 (80% dos dados são valores menores ou iguais ao valor do oitavo decil)
IX. D9 (90% dos dados são valores menores ou iguais ao valor do nono decil).
3. percentis - dividem o conjunto de dados em cem partes iguais. A seguir, são 
apresentados alguns dos percentis mais usados: 
I. P5 (5% dos dados são valores menores ou iguais ao valor do quinto percentil)
37WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
II. P10 (10% dos dados são valores menores ou iguais ao valor do décimo percentil)
III. P25 (25% dos dados são valores menores ou iguais ao valor do vigésimo quinto 
percentil)
IV. P50 (50% dos dados são valores menores ou iguais ao valor do percentil cinquenta)
V. P75 (75% dos dados são valores menores ou iguais ao valor do percentil setenta e 
cinco)
VI. P90 (90% dos dados são valores menores ou iguais ao valor do percentil noventa)
VII. P95 (95% dos dados são valores menores ou iguais ao valor do percentil noventa 
e cinco).
Exemplo 25
Um estudo conduzido para quantificar o percentual de rendimento, em óleo, do oleaginoso 
girassol para a produção de biodiesel é apresentado na Tabela 15.
Tabela 15 – Rendimento percentual de extração de oleaginosas.
Amostra
Rendimento 
(%)
Amostra
Rendimento 
(%)
Amostra
Rendimento 
(%)
1 1,59 11 4,50 21 6,41
2 1,83 12 5,18 22 7,33
3 1,93 13 5,20 23 7,97
4 2,32 14 5,30 24 8,10
5 2,71 15 5,34 25 8,24
6 3,09 16 5,56 26 8,39
7 3,73 17 6,04 27 9,35
8 4,03 18 6,07 28 9,71
9 4,25 19 6,09 29 9,78
10 4,40 20 6,17 30 9,92
Fonte: a autora.
Com base nessas informações, determine:
a) o primeiro quartil.
b) o segundo decil.
c) o octogésimo percentil.
38WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Solução: primeiro, temos de organizar os dados em rol. Note que a Tabela 15 já está organizada 
em rol. Assim:
a) para o primeiro quartil, temos que 25% dos valores são menores ou iguais ao valor do pri-
meiro quartil. Daí, . Note que a grandeza rendimento não 
é inteira, então iremos arredonda-la para cima. Assim, os percentuais de rendimento que 
ocupam entre a 1ª e a 8ª posição formam primeiro quartil, ou seja, Q1 = {1,59; 1,83; 1,93; 2,32; 
2,71; 3,09; 3,73; 4,03}.
b) para o segundo decil, temos que 20% dos valores são menores ou iguais ao segundo decil. 
Daí, . Assim, os percentuais de rendimento que ocupam entre 
a 1ª e a 6ª posição formam o segundo decil, ou seja, D2 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09}.
c) para o octogésimo percentil, temos que 80% dos valores são menores ou iguais a 80º percen-
til. Daí, . Assim, os percentuais de rendimento que ocupam 
entre a 1ª e a 24ª posição formam o octogésimo percentil, ou seja, P80 = {1,59; 1,83; 1,93; 2,32; 
2,71; 3,09; 3,73; 4,03; 4,25; 4,40; 4,50; 5,18; 5,20; 5,30; 5,34; 5,56; 6,04; 6,07; 6,09; 6,17; 6,41; 7,33; 
7,97; 8,10}.
4. MEDIDAS DE ASSIMETRIA E CURTOSE
Ao construir uma distribuição de frequências e/ou um histograma, busca-se identificar 
visualmente a forma da distribuição dos dados. A medida de assimetria é um indicadordessa 
forma da distribuição e é classificada como:
a) simétrica se média = mediana = moda. Esse caso é ilustrado pela Figura 22.
Figura 22 – Distribuição simétrica. Fonte: a autora.
b) assimétrica negativa se média ≤ mediana ≤ moda. O lado mais longo do polígono de 
frequência (cauda da distribuição) está à esquerda do centro, como apresentado na Figura 23.
39WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Figura 23 – Distribuição assimétrica negativa. Fonte: a autora.
c) assimétrica positiva se moda ≤ mediana ≤ média. O lado mais longo do polígono de 
frequência está à direita do centro, como apresentado na Figura 24.
Figura 24 – Distribuição assimétrica positiva. Fonte: a autora.
Exemplo 26
O ozônio, embora benéfico na estratosfera, onde forma uma camada protetora contra efeitos 
danosos da radiação ultravioleta, tem efeitos tóxicos nas camadas mais baixas da atmosfera, 
por afetar diretamente os seres vivos. O conjunto de dados a seguir apresenta a concentração, 
em ppb, de ozônio em 25 pontos distintos de uma metrópole:
24 – 24 – 24 – 25 – 25 – 30 – 32 – 32 – 35 – 36 – 36 – 40 – 40 – 40 – 40 – 40 – 46 – 48 – 48 – 
50 – 54 – 60 – 60 – 65 
Verifique se esse conjunto de dados é simétrico ou assimétrico.
Solução: Para esse conjunto de dados, temos que a média é igual a 40 ppb, a mediana é igual 
a 40 ppb e a moda é igual a 40 ppb (confira!). Assim, segue que essa distribuição é simétrica.
A medida de curtose representa o grau de achatamento de uma distribuição, isto é, quão 
espalhados os dados estão em torno da média e pode-se usar a curva normal padrão como 
referência. A curtose pode ser representada graficamente ou numericamente.
Numericamente, o valor da medida de curtose é calculado conforme a Eq. (11).
40WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Eq. (11)
onde, Q3 e Q1 são o terceiro e primeiro quartis; P90 e P10 são o nonagésimo e o décimo 
percentis. 
Graficamente, em relação a medida de curtose, a distribuição pode ser:
a) Mesocúrtica: que é própria curva normal padrão, onde C = 0,263.
b) Platicúrtica: possui grau de achatamento maior que da curva normal padrão, o que 
nos indica que os dados estão mais espalhados (logo, o desvio padrão também é maior), onde C 
> 0,263.
c) Leptocúrtica: seu grau de achatamento é menor que o da curva normal padrão (curva 
mais pontiaguda), indica que os dados estão mais concentrados (desvio padrão menor), onde C 
novo desinfetante. Determine a variância amostral desse conjunto de 
dados.
Tabela 20 - Percentual de redução da carga bacteriana.
Percentual de redução Frequência 
12
11
12
3
1
1
Total 40
Fonte: a autora.
Solução: para o cálculo da variância amostral, montamos a Tabela 21.
Tabela 21 – Cálculo de valores para determinação da variância amostral.
12 7,5 90 675
11 20,5 225,5 4.622,75
12 33,5 402 13.467
3 46,5 139,5 6.486,75
1 59,5 59,5 3.540,25
1 72,5 72,5 5.256,25
Total -
Fonte: a autora.
Assim, a variância amostral é:
Logo, a variância é 239,87 %2.
5.3 Desvio-Padrão
Como a variância é calculada a partir dos quadrados dos desvios em relação à média, ela 
é um número cuja unidade está ao quadrado em relação à variável estudada, o que, do ponto de 
vista prático, é inconveniente. O desvio-padrão é definido como a raiz quadrada da variância, e 
assim, esse valor é mais conveniente, pois a medida de dispersão tem a mesma unidade da média. 
O desvio-padrão populacional e amostral é definido pelas Eq. (17) e (18):
46WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Eq. (17)
Eq. (18)
Nelas, é desvio-padrão populacional, é a variância populacional, é o desvio padrão 
amostral e é a variância amostral.
Exemplo 31
No exemplo 28, verificamos que a variância do método Autoanalisador foi 
. Assim, o desvio-padrão é . Já, a 
variância do método Microenzimático foi . Assim, o desvio-padrão é 
.
No exemplo 29, mostramos que a variância foi semanas2 e, daí, o desvio-
padrão é igual a semanas. 
No exemplo 30, verificamos que a variância foi %2 e, daí, o desvio-padrão é 
igual a %.
5.4 Coeficiente de variação
O Coeficiente de variação relaciona a média aritmética e o desvio‐padrão e é definido 
pela Eq. (19), sendo empregado na comparação do grau de concentração em torno da média para 
duas ou mais séries estatísticas distintas. Dizemos que uma série é mais homogênea que outra 
quando apresentar menor coeficiente de variação. 
Eq. (19)
Nela, s é o desvio-padrão amostral e é a média aritmética da amostra.
Quando todos os valores são iguais, o desvio-padrão é 0. Do contrário, o desvio-
padrão tem de ser positivo. 
47WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
Exemplo 32
Na Tabela 22, são apresentados os valores da concentração de partículas poluentes em duas 
regiões distintas de uma grande cidade brasileira.
Tabela 22 – Concentração de partículas, em partes por bilhão (ppb).
Região Concentração (ppb) Desvio-padrão (ppb)
A 1.000 200
B 1.000 300
Fonte: a autora.
Qual das regiões apresenta mais homogeneidade nos dados?
Solução: vamos calcular os coeficientes de variação das concentrações das partículas poluido-
ras das regiões A e B.
Como o coeficiente de variação da região A é menor que o da região B, segue que a concen-
tração de partículas poluidoras na região A é mais homogênea do que na região B.
“Utilizando o coeficiente de variação, sempre que quisermos descobrir qual gru-
po de dados é mais homogêneo, ou seja, o que possui a menor variabilidade em 
torno da média, devemos optar pelo grupo de dados que tiver o menor percentual 
do coeficiente de variação. Caso o coeficiente de variação seja muito elevado, a 
média não será a melhor medida para representarmos os dados 
devido à alta variabilidade em torno dela.”
 Fonte: PARENTI, Tatiana. Bioestatística. Grupo A, 2018. E-book. 
ISBN 9788595022072. Disponível em: https://integrada.minha-
biblioteca.com.br/#/books/9788595022072/. Acesso em: 14 fev. 
2024. [ ]
48WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
“O interesse de profissionais e alunos da área de saúde em bioestatística explica-
se pelo uso intenso das técnicas estatísticas na pesquisa científica. Entretanto, 
bioestatística é uma ciência complexa, que não se aprende com a simples busca 
de alguns termos na Internet. Então, é difícil aprender estatística? Sim e não. 
Aprender a fazer cálculos estatísticos usando programas de computador não é 
difícil, embora exija tempo, interesse e atenção. Contudo, não se pode apenas 
automatizar o uso de certos métodos; afinal, a leitura, a condução e a avaliação de 
uma pesquisa dependem, em boa parte, do conhecimento do pesquisador sobre 
as potencialidades e limitações das técnicas estatísticas utilizadas. Livros são 
referências essenciais para a divulgação científica, sobretudo do conhecimento 
já consolidado. Por isso, esta sexta edição de Introdução à 
Bioestatística foi escrita e reescrita muitas vezes, na tentativa de 
produzir conteúdo para facilitar a aprendizagem”. 
VIEIRA, Sonia. Introdução à Bioestatística. Grupo GEN, 2021. 
E-book. ISBN 9788595158566. Disponível em: https://integrada.
minhabiblioteca.com.br/#/books/9788595158566/. Acesso em: 
14 fev. 2024.
49WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 1
EDUCAÇÃO A DISTÂNCIA
CONSIDERAÇÕES FINAIS
Após estudarmos a Unidade I, temos boa parte das ferramentas necessárias para trabalhar 
com a estatística descritiva.
Nessa Unidade, abordamos os tipos de amostragem, as principais formas de representações 
gráficas para uma série de dados e as tabelas de distribuição de frequencias. Apresentamos, 
também, os principais conceitos sobre medidas de posição, sendo elas a Média, Moda e Mediana, 
onde esses valores nos dizem sobre a tendência de concentração dos dados observados. E, 
por fim, vimos as medidas de dispersão: amplitude, variância, desvio-padrão e coeficiente de 
variação. Na sequencia, na Unidade II, abordaremos a probabilidade.
5050WWW.UNINGA.BR
U N I D A D E
02
SUMÁRIO DA UNIDADE
INTRODUÇÃO .............................................................................................................................................................. 51
1. INTRODUÇÃO À PROBABILIDADE ..........................................................................................................................52
2. PROBABILIDADE .....................................................................................................................................................54
2. AS REGRAS DA ADIÇÃO E MULTIPLICAÇÃO PARA O CÁLCULO DE PROBABILIDADE .....................................63
3. DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADE ............................................................................................. 73
3.1 A DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL ............................................................................................75
3.2 A DISTRIBUIÇÃO DE PROBABILIDADE DE POISON ......................................................................................... 77
3.3 A DISTRIBUIÇÃO NORMAL PROBABILIDADE ...................................................................................................79
CONSIDERAÇÕES FINAIS ...........................................................................................................................................89
ESTUDO DA PROBABILIDADE E DAS 
DISTRIBUIÇÕES DE PROBABILIDADE
PROFA. MA. MIRIAM EULALINA MARTINS FROTA
ENSINO A DISTÂNCIA
DISCIPLINA:
BIOESTATÍSTICA 
51WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
INTRODUÇÃO 
A probabilidade é fundamental para a Bioestatística, pois fornece ferramentas matemáticas 
indispensáveis para se trabalhar com o acaso e com as incertezas inerentes a fenômemos do 
mundo real. Trata-s e de uma medida numérica que expressa a chance de um determinado evento 
ocorrer.
Nesta unidade, serão abordados a definição clássica de probabilidade, as regras da soma 
e do produto, o cálculo da probabilidade condicional e algumas distribuições de probabilidade, 
sendo elas: a distribuição Binomial, distribuição de Poisson e a distribuição normal.
52WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
1. INTRODUÇÃO À PROBABILIDADE
Para que seja possível o estudo da probabilidade, é necessário as definições de algunsconceitos.
Definição 1 - Um experimento é um processo que permite ao pesquisador realizar 
observações.
Definição 2 - Um evento é o conjunto de resultados de um dado experimento e este pode 
ser simples ou composto. O evento é dito simples, quando o mesmo não pode ser decomposto 
em eventos mais simples e é dito composto quando este pode ser decomposto em eventos mais 
simples.
Definição 3 - O espaço amostral, que será denotado por S, é o conjunto de todos os 
resultados possíveis de um experimento. O número de resultados possíveis do espaço amostral 
será denotado por n(S).
Exemplo 1: 
Ao lançar uma moeda, o espaço amostral, denotado por S, é cara e coroa. 
Escrevemos:
S = {cara e coroa}
Definição 4 - Um evento aleatório é qualquer subconjunto de um espaço amostral, onde 
o mesmo é denotado por letras maiúsculas do alfabeto.
Exemplo 2: 
Imagine um jogo em que se lançam duas moedas e o jogador ganha se ocorrerem faces 
iguais. O espaço amostral é:
S = {cara e cara; cara e coroa; coroa e cara; coroa e coroa}
O jogador ganha se ocorrer qualquer um dos dois elementos do evento A:
A = {cara e cara, coroa e coroa}
Definição 5 - Dado o evento A, denomina-se o evento complementar de A, denotado 
por , o conjunto dos eventos que não pertencem a A. 
Exemplo 3: 
No exemplo 2, em que o jogador ganha se ocorrerem faces iguais nas duas moedas, o com-
plemento de A é:
 = {cara e coroa, coroa e cara}.
Definição 6 - Um evento equiprovável é aquele no qual cada ponto amostral tem a 
mesma chance de ocorrência.
53WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 4:
No lançamento simultâneo de três moedas honestas, denotando c por cara e k por coroa, 
segue que o espaço amostral tem 8 elementos e é igual a
.
Seja A o evento sair duas caras e uma coroa, ou seja,
, .
Dessa forma, o evento complementar de A é 
.
Observe que, no espaço amostral S, todos os eventos têm iguais chances de saírem, isto é, as 
chances de sair o evento é idêntica às chances de saírem quaisquer outros eventos desse 
espaço amostral.
Definição 7 - Dois eventos são chamados de mutuamente exclusivos quando não 
possuem elementos em comum.
Exemplo 5: 
Ao dizer que você tem menos de 30 anos, fica excluída a possibilidade de ter mais de 50 anos, 
ou seja, denotando por A = ter menos de 30 anos e B = ter mais de 50 anos, segue que A e B são 
mutuamente exclusivos.
Definição 8 - Dois eventos são independentes se a ocorrência de um deles não tiver 
efeito sobre a ocorrência do outro.
“É importante considerar o risco de confundir eventos independentes com eventos mu-
tuamente exclusivos. Às vezes, as pessoas entendem que as duas expressões querem dizer a 
mesma coisa: que os eventos não se sobrepõem. No entanto, eventos mutuamente exclusi-
vos – isto é, se um ocorre, o outro não pode ocorrer – não são independentes. Pense no jogo 
de uma moeda: quando se joga uma moeda, não há como ocorrer cara e coroa ao mesmo 
tempo. Logo, esses eventos são mutuamente exclusivos. Eles são independentes? Não. A 
probabilidade de sair cara é 50%; porém, dada à condição de que ocorreu coroa, é zero. 
Então, a probabilidade de sair cara muda se sair coroa.” [12]
54WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Definição 9 - Dados dois eventos distintos A e B de um espaço amostral, define-se a 
união dos eventos A e B como sendo o evento que possui elementos de A ou de B ou de ambos.
Definição 10 - Dados dois eventos distintos A e B de um espaço amostral, define-se a 
interseção dos eventos A e B como sendo o evento que possui elementos de A e de B.
2. PROBABILIDADE
Considere um experimento aleatório, onde S é o seu espaço amostral e admita que todos os 
elementos de S tenham a mesma chance de acontecer, ou seja, que S é um conjunto equiprovável.
A probabilidade de um evento A (A ⊂ S) é um número real P(A), tal que:
onde:
 é o número de elementos de A;
 é o número de elementos de S.
Propriedades:
Pelos exemplos que acabamos de ver, podemos concluir que, sendo n(S) = n:
A probabilidade do evento certo é igual a 1:
P(S) = 1
A probabilidade do evento impossível é igual a zero:
P( ) = 0
A probabilidade de um evento E qualquer (E ⊂ S) é um número real P(E), tal que:
0 ≤ P(E) ≤ 1
A probabilidade de um evento elementar E qualquer é, lembrando que n(E) = 1:
Se P(E) denota a probabilidade do evento E ocorrer, então, a probabilidade do evento 
complementar de E é igual a 
55WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Exemplo 6
Um médico verificou que, de 2.964 nascidos vivos, 73 tinham alguma deficiência ou doença 
séria. Com base nessa amostra, qual é a estimativa da probabilidade de um recém-nascido ter 
deficiência ou doença séria?
Solução: 
Seja S o espaço amostral, isto é, o conjunto formado pelos nascidos vivos. Então 
.
Seja A o evento dos nascidos vivos apresentarem alguma deficiência ou doença séria. Então 
.
Logo, 
Exemplo 7
O baralho francês de 52 cartas, ilustrado na Figura 1, é constituído de 13 cartas de cada um 
dos naipes franceses: paus, ouros, espadas e copas.
Figura 1 – Baralho francês de 52 cartas. Fonte: a autora.
Ao escolher aleatoriamente uma carta do baralho, qual a probabilidade de sair:
a) uma carta de paus?
b) uma figura?
c) uma figura de paus?
56WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Solução: 
a) Seja X o evento de sair uma carta de paus. Observe que ele pode ocorrer 13 vezes. Assim:
Portanto, a probabilidade de sair uma carta de paus é de 25%.
b) Seja Y o evento de sair uma figura (reis, damas e valetes). Observe que ele pode ocorrer 12 
vezes. Assim: 
Portanto, a probabilidade de sair uma figura é, aproximadamente, de 23,1%.
c) Seja Z o evento de sair uma figura de paus. Observe que ele pode ocorrer 3 vezes. Assim: 
Portanto, a probabilidade de sair uma figura de paus é, aproximadamente, de 5,8%.
Exemplo 8
Considere o experimento do lançamento simultâneo de três moedas honestas para respon-
der às questões seguintes. 
a) Qual a probabilidade de saírem três caras?
b) Qual a probabilidade de saírem duas coroas?
c) Qual a probabilidade de saírem duas coroas consecutivas?
d) Qual a probabilidade de não saírem duas coroas consecutivas?
Solução: o espaço amostral para esse experimento contém 8 elementos, a saber: 
, em que c denota cara, e 
k, coroa.
a) Seja A o evento de saírem três caras, isto é, . Observe que ele pode ocorrer 1 vez. As-
sim: 
57WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Portanto, a probabilidade de saírem três caras é de 12,5%.
b) Seja B o evento de saírem duas coroas. Observe que ele pode ocorrer 4 vezes, a saber: 
 e . Assim: 
Portanto, a probabilidade de saírem duas coroas é de 12,5%.
c) Seja C o evento de saírem duas coroas consecutivas. Observe que ele pode ocorrer 3 vezes. A 
saber, e . Assim: 
Portanto, a probabilidade de saírem duas coroas consecutivas é de 37,5%.
d) Observe que o evento de não saírem duas coroas consecutivas é o complemento do evento C, 
isto é, trata-se de . Observe que ele pode ocorrer 5 vezes, a saber: 
e . Assim: 
Portanto, a probabilidade de não saírem duas coroas consecutivas é de 62,5%.
Note, nos itens (c) e (d), que .
Exemplo 9
Dois dados idênticos, honestos e com seis faces cada, são lançados simultaneamente. Com 
base nessa informação, determine a probabilidade de que:
a) saia, pelo menos, um número 3.
b) a soma dos dois resultados seja igual a 5.
c) saia, pelo menos, um número 3 e a soma dos dois resultados seja igual a 5.
Solução: o espaço amostral contém 36 elementos, e a Tabela 1 o ilustra.
58WWW.UNINGA.BR
BI
OE
ST
AT
ÍS
TI
CA
 
 | U
NI
DA
DE
 2
EDUCAÇÃO A DISTÂNCIA
Tabela 1 – Espaço amostral para o lançamento de dois dados honestos e idênticos.
Dado 1
Dado 2
Face 1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2)

Mais conteúdos dessa disciplina