Tema 2 - Métodos estatísticos inferenciais

Epidemiologia

UFRRJ

Carol
em 16/09/2023
Conteúdos escolhidos para você

50 pág.
TEMA 2 - Métodos Estatísticos Inferenciais

ESTÁCIO
46 pág.
Análise de Variância e Regressão

ESTÁCIO
51 pág.
Métodos estatísticos inferenciais

ESTÁCIO
59 pág.
Métodos estatísticos inferenciais

ESTÁCIO
81 pág.
Livro Texto Unidade II

UNIP
Perguntas dessa disciplina

Para avaliar a qualidade analítica do novo lote de glicosímetros utilizados para monitorar a glicemia capilar, foram analisadas 30 medições realizadas

UNINASSAU
Imagine que você trabalha em um laboratório e coletou dados de um experimento. Esses dados são representados por pares de valores, sendo uma variáv...

FACAP
Nos estudos de algoritmos, a etapa de entrada de dados é fundamental para fornecer as informações que serão processadas pelo programa, enquanto a s...

UNIJORGE
38:27 Progresso:4/5 60 MINUTOS QUESTIONÁRIO 07 – ESTATÍSTICA APLICADA 1 Com base em seus estudos sobre correlação e regressão assinale a alternativa C

58:38 Progresso:1/5 60 minutos QUESTIONÁRIO 07 – ESTATÍSTICA APLICADA 1 Com base em seus estudos sobre correlação e regressão assinale a alternativa C

ESTÁCIO
Material
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Conteúdos escolhidos para você

50 pág.
TEMA 2 - Métodos Estatísticos Inferenciais

ESTÁCIO
46 pág.
Análise de Variância e Regressão

ESTÁCIO
51 pág.
Métodos estatísticos inferenciais

ESTÁCIO
59 pág.
Métodos estatísticos inferenciais

ESTÁCIO
81 pág.
Livro Texto Unidade II

UNIP
Perguntas dessa disciplina

Para avaliar a qualidade analítica do novo lote de glicosímetros utilizados para monitorar a glicemia capilar, foram analisadas 30 medições realizadas

UNINASSAU
Imagine que você trabalha em um laboratório e coletou dados de um experimento. Esses dados são representados por pares de valores, sendo uma variáv...

FACAP
Nos estudos de algoritmos, a etapa de entrada de dados é fundamental para fornecer as informações que serão processadas pelo programa, enquanto a s...

UNIJORGE
38:27 Progresso:4/5 60 MINUTOS QUESTIONÁRIO 07 – ESTATÍSTICA APLICADA 1 Com base em seus estudos sobre correlação e regressão assinale a alternativa C

58:38 Progresso:1/5 60 minutos QUESTIONÁRIO 07 – ESTATÍSTICA APLICADA 1 Com base em seus estudos sobre correlação e regressão assinale a alternativa C

ESTÁCIO
Prévia do material em texto
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 1/46
Métodos estatísticos inferenciais
Prof. Gabriel Burlandy
Descrição
O estudo simultâneo do comportamento de duas ou mais variáveis.
Propósito
Ao lidar com as situações do mundo real, diversos fatores estão envoltos em uma única situação problema. Diante disso, é imprescindível que um
profissional de saúde saiba reconhecer e tratar dessas variáveis de forma adequada para que erros não sejam cometidos.
Preparação
Antes de iniciar a leitura deste conteúdo, tenha em mãos papel, caneta e uma calculadora científica ou use a calculadora de seu
smartphone/computador. Além disso, para acompanhar o módulo 2, você vai precisar das tabelas 1 e 2. Já no módulo 3, a tabela 3 será necessária.
Clique aqui para ver a tabela!
Clique aqui para ver a tabela!
Clique aqui para ver a tabela!
Objetivos
https://stecine.azureedge.net/repositorio/00212sa/03922/downloads/tabela1.pdf
https://stecine.azureedge.net/repositorio/00212sa/03922/downloads/tabela2.pdf
https://stecine.azureedge.net/repositorio/00212sa/03922/downloads/tabela3.pdf
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 2/46
Módulo 1
Correlação e regressão linear
Reconhecer correlação e regressão linear.
Módulo 2
Testes paramétricos
Aplicar os testes paramétricos.
Módulo 3
Testes não paramétricos
Aplicar os testes não paramétricos.
Introdução

21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 3/46
1 - Correlação e regressão linear
Ao �nal deste módulo, você será capaz de reconhecer correlação e regressão linear.
Correlação
Correlação: Pearson e Spearman e métodos dos mínimos quadrados
Confira agora os conteúdos que serão abordados neste módulo.
Associação entre variáveis
A correlação é um estudo que apresenta o grau de associação entre as variáveis. Graças a ela, portanto, conseguimos observar se duas ou mais
variáveis são independentes ou se variam juntas.
O objetivo geral da análise de correlação é realizar a medição da intensidade da relação existente entre as variáveis. Por conta disso, devemos
observar os princípios dessa relação.
Exemplo
Em determinada espécie de insetos, foi registrada uma variação significativa da altura deles ao longo do tempo. Um grupo científico acredita que a
variação de sua altura está atrelada à distância que determinada erva, que serve de alimento para essa espécie, se encontra do chão. Outra linha de
raciocínio científico, apresentada por mais um grupo de pesquisa, acredita que a mudança na altura ocorreu natural e gradualmente ao longo do
tempo.

21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 4/46
Você agora consegue entender a complexibilidade? Os dois grupos de cientistas, afinal, possuem dados para acreditar em suas afirmações.
Só que agora vem a pergunta de ouro: será que somente esses fatores contribuem para a alteração do tamanho dos insetos? A resposta só pode ser
dada com um profundo estudo e a correta correlação entre as variáveis. Com isso, você já compreende a importância do tratamento dos dados?
As correlações entre as variáveis podem ter um caráter lógico (óbvio) ou não. Naquelas supostamente lógicas, é possível compreender as relações
causais claramente. Já nas ditas ilusórias, não se consegue estabelecer nenhuma conexão razoável entre as variáveis analisadas.
Tipos de correlação
Existem basicamente três tipos de correlação:
Correlação simples
É o caso em que existe uma relação entre duas variáveis, sendo uma dependente (yi) e a outra, independente (xi).
Exemplo
Uma função afim simples do tipo: , em que o é o nosso yi, ou seja, a variável dependente, e x é o nosso xi, isto é, a variável
independente.
Como a notação já demonstra, a nossa variável dependente depende de x.
Considere agora o seguinte exemplo:
Uma espécie fictícia de fungos se prolifera de forma linear, ou seja, de acordo com uma função afim. Em um laboratório, há inicialmente 5.000
indivíduos dessa espécie, mas, a cada hora que passa, mais 1.500 novos aparecem devido à sua reprodução.
Como podemos entender seu comportamento com o passar do tempo? A resposta é: montando sua função.
Veja que existe somente uma variável independente: o tempo. Afinal, sabe-se que a população aumenta em 1.500 indivíduos a cara hora.
Nesse caso, chamaremos essa variável de t e montaremos a função, que apresenta a correlação da variável independente t, com a dependente f(t).
Lembre-se de que, no início, havia 5.000 indivíduos, os quais, na fórmula, serão o nosso “a”.
A fórmula fica da seguinte maneira:
(1)
Rotacione a tela. 
Observe que a variável dependente dá o valor total da espécie de fungos com o passar do tempo, tendo como referência a variável
independente . Note ainda o seguinte: para horas, ou seja, no início de tudo, temos: indivíduos.
Por outro lado, se quisermos saber a quantidade dessa população 24 horas após o início da observação, veremos que: 
 indivíduos.
Atenção!
Apesar de o exemplo ter sido dado com uma função afim, qualquer tipo de função matemática pode estar atrelada a essa correlação, como, por
exemplo, uma função afim, uma quadrática, uma exponencial ou uma logarítmica. Diante disso, é importante estar com esses conceitos em dia.
Correlação múltipla
É o caso em que existe uma variável dependente, que depende de duas ou mais variáveis independentes. Isso ocorre em funções de mais de uma
variável do tipo: ou .
Exemplo
f(x) = a + bx f(x)
f(x)
f(t) = 5.000 + 1.500 ⋅ t
f(t)
t t = 0 f(0) = 5.000 + 1.500 ⋅ 0 ∴ f(0) = 5.000
f(24) = 5.000+
1.500 ⋅ 24 = 41.000
f(x, y), f(x, y, z) f(x, y, z, …)
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 5/46
Em uma função do tipo , veja que a variável dependente é e que as variáveis independentes são e . Apesar de
haver um ali sozinho, ele é uma constante, ou seja, um valor fixo, sendo, portanto, um número que não muda.
Vamos compreender melhor esse conceito com o auxílio de mais um exemplo:
Considere agora que a população inicial de 5.000 fungos não se prolifere somente em relação ao tempo, mas também que a temperatura do
ambiente seja um fator relevante. Nesse exemplo, um grupo científico, fazendo testes de crescimento populacional dos fungos, constata que, entre
25ºC e 38ºC, eles se proliferam de acordo com a seguinte equação:
(2)
Rotacione a tela. 
Em que:
- t é o tempo em horas;
- T é a temperatura em Celsius;
- é a quantidade de fungos em determinado instante de tempo t a certa temperatura T entre 25ºC e 38ºC ).
Observe agora que a função apresentada em (2) possui duas variáveis independentes t e T e que somente uma variável é dependente das duas
simultaneamente: f(t, T). Note ainda que, em qualquer temperatura no instante t=0 hor , a população possui o número de individuos igual a
5000, porém, para , em qualquer temperatura contida no intervalo [25ºC, 38ºC], existe uma maior que 5000.
Correlação parcial
No caso da existência de uma correlação múltipla, algumas variáveis podem ser eliminadas estatisticamente devido à sua existência não influenciar
significativamente a variável dependente. Nesse caso, considera-se somente a relação pura das variáveis independentes que influenciam
estatisticamente a dependente.
Para compreendermos esse conceito da forma devida, vamos continuar com o nosso exemplo e o desenvolvimento da equação da proliferação de
fungos:
Considere que os cientistas tenham conseguido dados relevantes da influência da umidade atmosférica (ou umidade relativa do ar) na proliferação
dos fungos, obtendo a seguinte função:
(3)
Rotacione a tela. 
A função apresentada em (3) agora acrescenta uma terceira variável: umidade relativa do ar . Por se chamar umidade relativa,ela é
apresentada em medidas de porcentagem.
Note que a umidade está elevada ao valor de , ou seja, .
Mas o que isso significa?
Em um dia cuja temperatura seja de 25ºC e a umidade relativa, de 50% a terceira parcela será calculada da seguinte maneira:
Rotacione a tela. 
Veja que a contribuição é tão pequena, mas tão pequena, que pode ser considerada nula. Por isso, ela é descartada: somente as contribuições de
tempo e temperatura são consideradas. Como, das três variáveis, são consideradas somente duas, trata-se de uma correlação parcial.
Comentário
f(x, y) = ax + by + c f(x, y) x y
c
f(t,T ) = 5.000 + 1.500 ⋅ t ⋅ ( T25 )
1/2
f(t,T ) (25∘C ≤ T ≤ 38∘C
a
t ≠ 0
f(t,T ,u) = 5.000 + 1.500 ⋅ t ⋅ ( T25 )
1/2
+ ur−10
(ur)
−10 ur−10 = 1
ur10
1
ur10
=
1
5010
=
1
97 ⋅ 656.250.000.000.000
= 0, 00000000000000001024
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 6/46
Para a análise de correlação, diversos coeficientes a serem calculados mostram o tipo de correlação existente entre os dados e quão forte ou quão
fraca é a dependência entre as variáveis. Todavia, abordaremos neste conteúdo somente os coeficientes de Pearson e Spearman, já que, ao se
entender o princípio de ambos, os demais se tornam de fácil compreensão.
Coe�ciente de correlação
Coe�ciente de Pearson
A correlação linear investiga a associação entre duas variáveis, ou seja, o grau de inter-relacionamento existente entre a variável dependente e a
independente. No entanto, é importante compreender que a correlação linear apenas comprova a existência de uma correlação entre as duas
variáveis – e não que uma é a causa direta da outra.
Esse tipo de correlação pode ser:
Direta ou positiva
É um tipo de correlação em que a variável dependente se correlaciona de maneira direta com a independente.
Indireta ou negativa
É uma correlação na qual a variável dependente tem relação inversamente proporcional com a independente.
Nula
Tipo de correlação em que não há inter-relação entre as variáveis.
Para conseguirmos discernir os tipos de correlação descritos acima, teremos de determinar o coeficiente de correlação de Pearson (r). Coeficiente
de correlação linear, ele é calculado considerando a covariância e a variância dos dados, como é mostrado a seguir:
ovariância
Medida do grau de interdependência entre duas variáveis aleatórias. É importante ressaltar que variáveis independentes possuem medida de
covariância nula.
ariância
Medida de dispersão que mostra a distância que cada valor do conjunto amostral está do valor central (média).
(4)
Rotacione a tela. 
Dica
Lembre-se de que, até aqui, definimos x como variável independente e y como variável dependente.
A covariância e a variância podem ser calculadas da seguinte forma:
r =
cov(x, y)
√var(x) ⋅ var(y)
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 7/46
Populacional Amostral
(5) (8)
(6) (9)
(7) (10)
Tabela 1 : Covariância e variância de população de dados e amostra de dados.
Gabriel Burlandy
O interessante é que esse coeficiente exprime o grau de correlação entre as variáveis em um intervalo [-1,1] no qual:
- Se , há uma correlação direta ou positiva.
- Se , existe uma correlação indireta ou negativa.
- Se , há uma correlação nula.
É importante ressaltar também que existe um grau para a correlação. A imagem adiante ilustra isso:
Grau de correlação entre variáveis.
Gabriel Burlandy.
Apliquemos essa concepção em um exemplo. Para isso, considere os seguintes dados:
Estado Indivíduos diagnosticados com dengue Área de mata atlântica (km²)
Rio de Janeiro 1.972 13.000
São Paulo 132.665 23.349
Espírito Santo 3.781 46.000
Minas Gerais 19.240 32.055
cov(x, y) =
n
∑
i=1
(xi − x̄) ⋅ (yi − ȳ)
n
cov(x, y) =
n
∑
i=1
(xi − x̄) ⋅ (yi − ȳ)
n − 1
var(x) =
n
∑
i=1
(xi − x̄)2
n
var(x) =
n
∑
i=1
(xi − x̄)2
n − 1
var(y) =
n
∑
i=1
(yi − ȳ)2
n
var(y) =
n
∑
i=1
(yi − ȳ)2
n − 1
r > 0
r < 0
r = 0
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 8/46
Estado Indivíduos diagnosticados com dengue Área de mata atlântica (km²)
Paraná 38.376 25.269
Santa Catarina 16.693 28.313
Rio Grande do Sul 7.618 18.838
Tabela 2: Dados de área de Mata Atlântica e de indivíduos que contraíram dengue entre 2020 e 2021.
Adaptado de Ministério da Saúde, 2021.
Vamos verificar agora o tipo de correlação existente entre os dados e o seu grau a partir do coeficiente de correlação de Pearson. Para isso,
usaremos inicialmente as equações (5), (6) e (7) com o objetivo de determinar a covariância. No entanto, antes disso, precisamos definir a variável
dependente e a independente.
Podemos usar o seguinte raciocínio: a proliferação dos mosquitos Aedes aegypti (agente transmissor da doença) pode estar atrelada à quantidade
de Mata Atlântica existente no estado.
Desse modo, a área de Mata Atlântica se torna a variável independente, enquanto os indivíduos picados pelo mosquito são a dependente. Isso se dá
porque a quantidade de casos depende do montante de agentes transmissores, ou seja, do número de mosquitos.
Resolvido isso, precisamos definir agora o valor médio de cada variável, como faremos a seguir. Porém, em primeiro lugar, calcularemos a média
aritmética:
Estado
Indivíduos diagnosticados com dengue
(variável ))
Área de mata atlântica (km²)
(variável )
Rio de Janeiro 1.972 13.000
São Paulo 132.665 23.349
Espírito Santo 3.781 46.000
Minas Gerais 19.240 32.055
Paraná 38.376 25.269
Santa Catarina 16.693 28.313
Rio Grande do Sul 7.618 18.838
Média ȳ = 31.478 x̄ = 26.689
Tabela 3: Determinação das variáveis e cálculo dos valores médios.
Gabriel Burlandy.
Após o cálculo dos valores médios, utilizaremos as equações (5), (6) e (7):
Utilização da equação (5):
y x
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 9/46
Rotacione a tela. 
Utilização da equação (6):
Rotacione a tela. 
Utilização da equação (7):
Rotacione a tela. 
Agora, utilizando a equação (4), temos isto:
Rotacione a tela. 
Veja que o resultado do coeficiente é negativo e relativamente próximo de zero. Isso significa que a correlação entre esses dados é indireta e fraca,
como mostra a imagem do grau de correlação entre variáveis. Além disso, demonstra que há outras variáveis relevantes para a compreensão do
processo de infecção dos indivíduos pelo mosquito Aedes aegypti.
Atenção!
Outra dúvida suscitada nesse exemplo é: por que utilizamos as equações (5), (6) e (7), e não as equações (8), (9) e (10)? Essa escolha se dá porque
trabalhamos com toda a população de dados fornecida na tabela 2, e não com alguns dos dados existentes nessa tabela. Por conta disso,
utilizamos as equações referentes à população de dados, e não à amostragem de dados.
Coe�ciente de Spearman
Agora que sabemos como se calcula a correlação e de que maneira ela é avaliada, verifiquemos como as correlações se comportam graficamente:
cov(x, y) =(13.000 − 26.689) ⋅ (1.972 − 31.478)
+ (23.349 − 26.689) ⋅ (132.665 − 31.478)
+ (46.000 − 26.689) ⋅ (3.781 − 31.478)
+ (32.055 − 26.689) ⋅ (19.240 − 31.478)
+ (25.269 − 26.689) ⋅ (38.376 − 31.478)
+ (28.313 − 26.689) ⋅ (16.693 − 31.478)
+ (18.838 − 26.689) ⋅ (7.618 − 31.478)/7
cov(x, y) = −54.437.708, 7
var(x) = [(13.000 − 26.689)2 + (23.349 − 26.689)2+
(46.000 − 26.689)2 + (32.055 − 26.689)2 + (25.269−
26.689)2 + (28.313 − 26.689)2 + (18.838 − 26.689)2]/7
var(x) = 95.220.710, 71
var(y) = [(1.972 − 31.478)2 + (132.665 − 31.478)2
+(3.781 − 31.478)2 + (19.240 − 31.478)2
+(38.376 − 31.478)2 + (16.693 − 31.478)2
+(7.618 − 31.478)2]/7
var(y) = 1.837.397.670
r = −54.437.708,7
√95.220.710,71⋅1.837.397.670
= −0, 130146516
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 10/46
Gráficocom o comportamento dos dados e a correlação entre as variáveis dependente e independente.
Gabriel Burlandy
Correlação monótona
O coeficiente de correlação de postos de Spearman (p) é uma medida não paramétrica de correlação de postos (correlação existente entre a
classificação de duas variáveis). Esse coeficiente avalia com que intensidade uma função monótona consegue descrever a relação entre duas
variáveis.
Matematicamente, o intervalo da correlação de Spearman entre duas variáveis se assemelha ao da correlação de Pearson, pois ele varia entre [-1,
1]. Todavia, enquanto a correlação de Pearson avalia correlações lineares, a de Spearman avalia correlações monótonas – mesmo que elas não
sejam lineares.
edida não paramétrica
Medida estatística que não possui dados ou populações como base de análise.
unção monótona
Função matemática estabelecida entre dois conjuntos ordenados que preserva ou inverte totalmente a relação de ordem.
Atenção!
O coeficiente de Spearman pode ser utilizado tanto para a análise de variáveis contínuas quanto para as discretas, incluindo as variáveis ordinais.
Para utilizar o coeficiente de Spearman, é preciso saber separar os dados em postos (do inglês range). Por conta disso, aprenderemos a calcular
esse coeficiente em um exemplo adiante.
Considere esta tabela:
Função do jogador de futebol no campo Quantidade de suor em uma partida (mL) Distância em uma partida (km)
Zagueiro 3,00 1,0
Meia direita 12,00 7,0
Meia esquerda 13,00 6,5
Cabeça de área 20,02 9,5
Ponta direita 11,00 10,0
Centroavante 15,00 9,0
Ponta esquerda 7,43 12,0
Goleiro 1,28 0,5
Zagueiro 2,22 3,5
Lateral direito 29,8 11
Lateral esquerdo 32,0 16
rg
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 11/46
Tabela 4: Funções dos jogadores de futebol no campo, quantidade de suor e distância percorrida.
Gabriel Burlandy.
Na tabela 4, além da descrição dos 11 jogadores de um time de futebol, estão estimados os dados da quantidade de suor expelido (mL) por cada
jogador e a distância (km) que cada um percorreu durante o jogo.
Utilizaremos o coeficiente de Spearman para entender a relação entre esses dados. Porém, antes disso, precisamos estabelecer qual é a variável
dependente e a independente.
Para suar, o jogador precisa correr. Diante dessa obviedade, a variável independente é a distância, que chamaremos de Xi. Já a dependente é a
quantidade de suor, que chamaremos de Yi.
Após termos definido isso, precisamos determinar agora os postos de cada dado. Para isso, comecemos a numerar de 1 até 11, indo do menor para
o maior. Chamaremos de rg(Yi) o posto da variável dependente e de rg(Xi) o posto da variável independente.
Vamos conferir a tabela!
Função do jogador de
futebol no campo
Quantidade de suor em
uma partida (mL) ( )
Distância em uma
partida (km) ( )
Posto da variável
dependente
( ))
Posto da variável
independente
( ))
Zagueiro 3,00 1,0 3 2
Meia direita 12,00 7,0 6 5
Meia esquerda 13,00 6,5 7 4
Cabeça de área 20,02 9,5 9 7
Ponta direita 11,00 10,0 5 8
Centroavante 15,00 9,0 8 6
Ponta esquerda 7,43 12,0 4 10
Goleiro 1,28 0,5 1 1
Zagueiro 2,22 3,5 2 3
Lateral direito 29,8 11 10 9
Lateral esquerdo 32,0 16 11 11
Tabela 5: Determinação dos postos de cada par de dados.
Gabriel Burlandy
Note que o posto foi montado numerando os dados da coluna em ordem crescente e que o posto foi criado mediante a numeração dos
dados da coluna na mesma ordem.
yi xi
rg(Yi rg(Xi
yi Yi xi
Xi
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 12/46
Atenção!
Nesse ponto, não reorganizaremos os números. Vamos apenas numerá-los de acordo com a ordem crescente dos valores (do primeiro até o último
valor).
Agora precisamos inserir mais duas colunas: e . A coluna é a coluna de diferença de postos. Desse modo, apresentaremos nela:
. E, na última coluna, há o valor obtido de elevado ao quadrado (ver tabela adiante).
Você deve estar se perguntando: mas para que isso serve? A resposta virá logo após a tabela 6. Até agora estamos apenas levantando todos os
dados necessários para podermos obter o coeficiente de Spearman.
Função do jogador
de futebol no
campo
Quantidade de suor
em uma partida
(mL) ( )
Distância em uma
partida (km) ( )
Posto da variável
dependente
( ))
Posto da variável
independente
( ))
Zagueiro 3,00 1,0 3 2 1
Meia direita 12,00 7,0 6 5 1
Meia esquerda 13,00 6,5 7 4 3
Cabeça de área 20,02 9,5 9 7 2
Ponta direita 11,00 10,0 5 8 -3
Centroavante 15,00 9,0 8 6 2
Ponta esquerda 7,43 12,0 4 10 -6
Goleiro 1,28 0,5 1 1 0
Zagueiro 2,22 3,5 2 3 -1
Lateral direito 29,8 11 10 9 1
Lateral esquerdo 32,0 16 11 11 0
Tabela 6: Cálculo da diferença entre postos di, e de di
2.
Gabriel Burlandy.
Como já temos todos esses dados na tabela 6, faremos o cálculo do coeficiente de Spearman considerando a seguinte formulação:
(11)
Rotacione a tela. 
Em que:
- é a covariância dos postos;
- é o desvio-padrão de ;
- é o desvio-padrão de .
Todavia, se todos os postos são números inteiros distintos (que é nosso caso no exemplo: basta observar, na tabela 6 , a e a coluna),
podemos utilizar a equação (12):
di d
2
i di
di = rg (Yi) − rg (Xi) di
yi
xi
rg(Yi rg(Xi
di
ρ =
cov(rgXi ,rgYi)
σrgXi
⋅σrYi
cov (rgXi , rgYi)
σrgXi
rg (Xi)
σrgYi
rg (Yi)
3a 4a
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 13/46
(12)
Rotacione a tela. 
Usando a equação (12), obtemos:
Rotacione a tela. 
Veja que o valor obtido pelo coeficiente de Spearman foi de . Isso significa que a variável dependente tem uma forte dependência com a
independente. Entretanto, o fato de ainda faltar 0,3 para se chegar a 1 indica que outros fatores contribuíram para a quantidade de suor expelida por
cada jogador.
Atenção!
O coeficiente de Spearman só é válido para o caso de haver postos distintos e contínuos. Se houver postos com números iguais , não podemos
utilizar este tipo de correlação. Outra limitação para o uso deste tipo de correlação, é se os dados estiverem truncados (os valores dos dados estão
limitados entre intervalos matemáticos específicos). Nesse caso, devemos utilizar o coeficiente de correlação de Pearson.
Regressão linear
O método dos mínimos quadrados
Até o presente momento observamos a relação dos dados, correlacionando a variável dependente e a independente. Agora conheceremos uma
técnica matemática que permite explicar o comportamento de uma série de dados, seja essa série um dado populacional ou um amostral.
É importante ressaltar que essa técnica funciona para casos em que a correspondência entre a variável dependente e a independente é linear. Essa
informação é relevante, pois a técnica do método dos mínimos quadrados revela uma função afim do tipo: y = a + bx. Além disso, o gráfico dessa
função afim é uma reta, que é a melhor reta que se ajusta aos pontos cartesianos formados pelos dados de variáveis dependente independente.
Para entendermos isso melhor, vamos voltar aos dados da tabela 4 e plotar um gráfico de quantidade de suor x distância percorrida, como mostra o
gráfico abaixo:
Gráfico: Quantidade de suor x distância percorrida.
Gabriel Burlandy
Os dados apresentados no gráfico anterior, à primeira vista, parecem aleatórios, mas perceba que eles têm uma tendência. Com o aumento da
distância percorrida, há o aumento da quantidade de suor. Note também que é possível traçar uma semirreta do primeiro ao último ponto, ficando
com boa parcela dos outros pontos perto dessa semirreta.
ρ = 1 −
6∑ni=1 d
2
i
n (n2 − 1)
ρ = 1 −
6 ⋅ [1 + 1 + 9 + 4 + 9 + 4 + 36 + 0 + 1 + 1 + 0]
11 (112 − 1)
ρ = 1 − 6 ⋅
66
1320
≈ 1 − 0, 3 = 0, 7
ρ =  0, 7
e
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 14/46
Veja agora o gráfico abaixo:
Gráfico:Quantidade de suor x distância percorrida com semirreta traçada do primeiro ao último ponto.
Gabriel Burlandy
Mas por que não são todos os dados que ficam próximos dessa reta?
Você se lembra de que, na seção anterior, ao calcularmos o coeficiente de correlação de Spearman, tivemos um ? Você reparou que há
aproximadamente três pontos mais distantes da reta (pontos marcados pelos círculos verdes)?
Por fim, você percebe que ? E que 0,3 é o que faltava no para que ele seja igual a 1?
O que o coeficiente de correlação nos mostrou é que os dados possuem 70% de adesão ao comportamento direto ou positivo e que os 30%
restantes dependem de outros fatores que não foram abordados.
Exemplo
Podemos considerar o metabolismo de cada jogador, intensidade de raios solares nas diferentes regiões do campo de futebol e quantidade de
líquido ingerido antes da partida começar.
Mas o método dos mínimos quadrados se limita a isso? Traçar uma reta do primeiro ao último ponto e verificar se ela está de acordo com o
coeficiente de correlação?
A resposta é simplesmente não. O método dos mínimos quadrados consiste em traçar a melhor reta que se ajusta aos pontos. Essa reta descreverá
o comportamento dos pontos.
Veremos também que a dispersão desses pontos em torno da reta está dentro do intervalo previsto pelo desvio-padrão. Para tal, primeiramente
teremos de nos perguntar: como vamos traçar essa reta?
De início, precisamos calcular o coeficiente angular dessa reta (b) e, em seguida, o coeficiente linear (a). Faremos isso da seguinte maneira:
(14)
E:
Rotacione a tela. 
Em que:
- é a quantidade de dados da amostra (pontos do gráfico);
- é a representação da variável independente;
- é a representação da variável dependente;
- é a representação do valor médio da variável independente;
- é a representação do valor médio da variável dependente.
Voltemos ao exemplo da tabela 4 e do Gráfico com o comportamento dos dados e a correlação entre as variáveis dependente e independente, a fim
de podermos calcular os coeficientes para a montagem da reta que melhor se ajusta aos gráficos. Para isso, precisamos montar a tabela 7 e
calcular e :
ρ =  0, 7
3 dados 
11 dados  = 0, 2727272 … ≅0, 3 ρ
b =
n∑ni=0 x ⋅ y −∑
n
i=0 x ⋅∑
n
i=0 y
n∑ni=0 x2 − (∑
n
i=0 x)
2
a = ȳ − bx̄
n
x
y
x̄
ȳ
x ⋅ y x2
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 15/46
Função do jogador de
futebol no campo
Quantidade de suor em
uma partida (mL) 
Distância em uma
partida (km) 
Zagueiro 3,00 1,0 3,0 1,0
Meia direita 12,00 7,0 84,0 49,0
Meia esquerda 13,00 6,5 84,5 42,3
Cabeça de área 20,02 9,5 190,2 90,3
Ponta direita 11,00 10,0 110,0 100,0
Centroavante 15,00 9,0 135,0 81,0
Ponta esquerda 7,43 12,0 89,2 144,0
Goleiro 1,28 0,5 0,6 0,3
Zagueiro 2,22 3,5 7,8 12,3
Lateral direito 29,8 11 327,8 121,0
Lateral esquerdo 32,0 16 512,0 256,0
∑ 146,8 86 1544,0 897,0
Tabela 7: Preparo dos dados para determinação do coeficiente angular b.
Gabriel Burlandy.
Veja que, com os dados da tabela 7, conseguimos preencher toda a equação (13) e calcular o coeficiente angular b:
(15)
Rotacione a tela. 
Agora que temos o resultado de b, vamos calcular o resultado de a partir da equação (14). Porém, para isso, precisamos do valor médio de y e x.
Calculando suas médias, temos o seguinte:
(16)
Rotacione a tela. (17)
Rotacione a tela. 
Aplicando (15), (16) e (17) em (14), verificamos que:
(y) (x)
x. y x2
b =
11 ⋅ 1544, 0 − 86 ⋅ 146, 8
11 ⋅ 897, 0 − (86)2
≅1, 8
a
x̄ =
∑ni=1 x
n
=
86
11
= 7, 8
ȳ =
∑ni=1 y
n
=
146, 8
11
13, 3
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 16/46
Rotacione a tela. 
Veja que agora podemos escrever a equação da reta que melhor se ajusta aos pontos do gráfico:
(18)
Rotacione a tela. 
Gráfico: Reta que melhor se ajusta aos pontos.
Gabriel Burlandy
Margem de erro dos pontos
O erro quadrado (R²)
A reta plotada no gráfico da imagem acima é a reta que melhor se ajusta aos pontos é a reta que se ajusta melhor aos pontos. Teoricamente, ela
representa valores ideais. Todavia, no mundo real, o que há são valores dispersos em torno de um valor ideal médio. Ainda assim, não podemos
ignorar a presença de uma reta ascendente no gráfico dessa imagem.
O que faremos agora é estimar a precisão da nossa reta calculada pelo método dos mínimos quadrados. Para isso, precisamos extrair da nossa reta
o y esperado. Mas o que é isso?
Trata-se do valor de y obtido na reta para x medido.
Exemplo
No caso da quantidade de suor x distância percorrida, considerando o goleiro que percorreu uma distância de 0,5km (nosso X), qual é o Y esperado?
Para isso, basta substituir na equação da reta que definimos anteriormente:
Rotacione a tela. 
(quando aproximado para uma casa decimal).
Fazendo um ponto, agora você consegue calcular os outros. Na tabela a seguir, veremos esses pontos:
Função do jogador
de futebol no
campo
Quantidade de suor
em uma partida
(mL) 
Distância em uma
partida (km) 
Zagueiro 3,00 1,0 1,1 3,6 106,9
a = 13, 3 − 1, 8 ⋅ 7, 8 = −0, 74
y = −0, 74 + 1, 8x
yesperado  = −0, 74 + 1, 8 ⋅ 0, 5 = 0, 16 ≈ 0, 2
(y)
(x)
Yesperado R
2
linha  R
2
valor médio 
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 17/46
Função do jogador
de futebol no
campo
Quantidade de suor
em uma partida
(mL) 
Distância em uma
partida (km) 
Meia direita 12,00 7,0 11,9 0,0 1,7
Meia esquerda 13,00 6,5 11,0 4,0 0,1
Cabeça de área 20,02 9,5 16,4 13,1 45,2
Ponta direita 11,00 10,0 17,3 39,7 5,3
Centroavante 15,00 9,0 15,5 0,2 2,9
Ponta esquerda 7,43 12,0 20,9 181,4 34,5
Goleiro 1,28 0,5 0,2 1,2 144,5
Zagueiro 2,22 3,5 5,6 11,4 122,8
Lateral direito 29,8 11 19,1 115,3 272,3
Lateral esquerdo 32,0 16 28,1 15,2 349,7
∑ 385,1 1.085,9
Tabela 8: Valor de y esperado, erro quadrado de linha e erro quadrado referente ao valor médio.
Gabriel Burlandy.
Veja que, na tabela 8, também aparecem mais duas colunas:
- Erro quadrado ;
- Erro quadrado do valor médio .
O é calculado da seguinte maneira:
(19)
Rotacione a tela. 
Vamos pegar novamente o exemplo do goleiro:
Rotacione a tela. 
Arredondando para uma casa decimal, temos isto: (como podemos ver na tabela 8).
Já o é calculado da seguinte maneira:
(20)
Rotacione a tela. 
Voltemos ao exemplo do goleiro:
(y)
(x)
Yesperado R
2
linha  R
2
valor médio 
(R2linha )
(R2valor médio )
R2linha 
R2linha  = (y − yesperado )
2
R2valor médio  = (1, 28 − 0, 2)
2 = 1, 1664
R2linha  = 1, 2
R2valor médio 
R2valor médio  = (y − ȳ)
2
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 18/46
Rotacione a tela. 
Após a obtenção desses dois valores, estabeleceremos o grau de precisão da nossa reta por meio da seguinte equação:
21
Rotacione a tela. 
Retomemos mais uma vez o caso do goleiro. Voltando ao nosso exemplo, vemos que:
Rotacione a tela. 
Em nosso cálculo de precisão no valor de , atrelado ao fato de que a correlação de Spearman demonstrou 70% de correlação,
vemos que o modelo matemático apresentado pelos mínimos quadrados é aceitável para descrever a quantidade de suor de um jogador em função
da distância percorrida por ele em campo.
O que o representa é a distância vertical do ponto até a reta obtida por mínimos quadrados. Já médio representa a distância vertical
do ponto até o valor médio de y.
Atenção!
O valor obtido pela equação (21) é uma boa estimativa para verificar a aderência da reta obtida por métodos dos mínimos quadrados, porém outros
métodos estatísticos para estimar erros possuem mais precisão.
R2linha  = (1, 28 − 13, 3)
2 ≅144, 5
R2 = (1 − ∑
n
i=1 R
2
linha 
∑ni=1 R2valor médio 
) ⋅ 100
R2 = (1 − 385,11.085,9 ) ⋅ 100 ≈ 65%
65% (R2 = 65%)
R2linha  R
2
valor
21/05/2023, 13:51 Métodos estatísticosinferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 19/46
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
Considere os seguintes dados abaixo e assinale a opção que apresenta a reta calculada pelo método dos mínimos quadrados:
Estado Indivíduos diagnosticados com dengue Área de mata atlântica (km²)
Rio de Janeiro 1.972 13.000
São Paulo 132.665 23.349
Espírito Santo 3.781 46.000
Minas Gerais 19.240 32.055
Paraná 38.376 25.269
Santa Catarina 16.693 28.313
Rio Grande do Sul 7.618 18.838
Gabriel Burlandy.
A y=46.736,0481-0,5717⋅x
B y=46.736,0481+0,5717⋅x
C y=86.736,0481-0,4717⋅x
D y=-46.736,0481+0,8170⋅x
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 20/46
Parabéns! A alternativa A está correta.
%3Cp%20class%3D'c-
paragraph'%3EO%20m%C3%A9todo%20dos%20m%C3%ADnimos%20quadrados%20%C3%A9%20obtido%20pelas%20equa%C3%A7%C3%B5es%20(13
section%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3C!--
%20Recurso%20Caixa%20F%C3%B3rmula%20-%20start%20--
%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cdiv%20class%3D%22col-
12%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cyduqs-caixa-
formula%20formula%3D%22%24%24%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20b%3D%5
y-
%5Csum_%7Bi%3D0%7D%5E%7Bn%7D%20x%20%5Ccdot%20%5Csum_%7Bi%3D0%7D%5E%7Bn%7D%20y%7D%7Bn%20%5Csum_%7Bi%3D0%7D%5E%
%5Cleft(%5Csum_%7Bi%3D0%7D%5E%7Bn%7D%20x%5Cright)%5E%7B2%7D%7D%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
b%20%5Cbar%7Bx%7D(14)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%24%24%22%20d
caixa-
formula%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3C%2Fdiv%3E%0A%20%20%20%20%20%20%20
-%20Recurso%20Caixa%20F%C3%B3rmula%20-%20end%20--
%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3C%2Fyduqs-
section%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cp%20class%3D'c-paragraph%20u-title--
medium'%3ECompletando%20a%20tabela%20com%20os%20dados%20necess%C3%A1rios%20para%20a%20equa%C3%A7%C3%A3o%20(13)%2C%20
-%20Recurso%20Table%20-%20start%20--
%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cdiv%20class%3D'col-
12'%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cdiv%20class%3D%22pt-4%20d-
flex%20justify-content-
around%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Ctable%20class%3
table%20c-table--
border%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Ct
table__thead%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__theader%22%3EEstado%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__theader%22%3EIndiv%C3%ADduos%20diagnosticados%20com%20dengue%20(%5C(y%5C))%3C%2Fth%3E%0A%20%20%20%20%20%20%20%2
table__theader%22%3E%C3%81rea%20de%20mata%20atl%C3%A2ntica%20(km%C2%B2)%20(%5C(x%5C))%3C%2Fth%3E%0A%20%20%20%20%20%20
table__theader%22%3E%5C(x%20.%20y%5C)%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__theader%22%3E%5C(x%5E%7B2%7D%5C)%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tbody%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3ERio%20de%20Janeiro%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3E1.972%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3E13.000%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E25636000%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3E169000000%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3ES%C3%A3o%20Paulo%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E132.665%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E23.349%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E3097595085%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E545175801%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3EEsp%C3%ADrito%20Santo%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3E3.781%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3E46.000%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E173926000%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E2116000000%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3EMinas%20Gerais%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E19.240%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E32.055%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E616738200%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E1027523025%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3EParan%C3%A1%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E38.376%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E25.269%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E969723144%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E638522361%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3ESanta%20Catarina%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3E16.693%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E28.313%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E472628909%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E801625969%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3ERio%20Grande%20do%20Sul%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E7.618%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3E18.838%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2table__tdata%22%3E143507884%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E354870244%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
E y=-46.736,0481-0,5.000⋅x
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 21/46
table__tdata%22%3EM%C3%A9dia%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3E31.478%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E26.689%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3EN%C3%A3o%20precisa%20calcular%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3EN%C3%A3o%20precisa%20calcular%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3E%E2%88%91%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E220.345%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E186.824%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E5.499.755.222%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E5.652.717.400%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
-%20Recurso%20Table%20-%20end%20--%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cp%20class%3D'c-
paragraph%20u-title--
medium'%3EUtilizando%20agora%20a%20equa%C3%A7%C3%A3o%20(13)%2C%20temos%20o%20seguinte%3A%3C%2Fp%3E%0A%20%20%20%20%2
section%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3C!--
%20Recurso%20Caixa%20F%C3%B3rmula%20-%20start%20--
%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cdiv%20class%3D%22col-
12%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cyduqs-caixa-
formula%20formula%3D%22%24%24%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
186.824%20%5Ccdot%20220.345%7D%7B7%20%5Ccdot%205.652%20.717%20.400-(186.824)%5E%7B2%7D%7D%20%5Capprox-
0.5717%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%24%24%22%20dark
caixa-
formula%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3C%2Fdiv%3E%0A%20%20%20%20%20%20%20
-%20Recurso%20Caixa%20F%C3%B3rmula%20-%20end%20--
%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cp%20class%3D'c-paragraph%20u-title--
medium'%3EAgora%2C%20usando%20a%20equa%C3%A7%C3%A3o%20(14)%2C%20vemos%20que%3A%3C%2Fp%3E%0A%20%20%20%20%20%20%2
section%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3C!--
%20Recurso%20Caixa%20F%C3%B3rmula%20-%20start%20--
%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cdiv%20class%3D%22col-
12%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cyduqs-caixa-
formula%20formula%3D%22%24%24%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20a%3D31
(-0%2C5717%20%5Ccdot%2026.689)%3D46.736%2C0481%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
caixa-
formula%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3C%2Fdiv%3E%0A%20%20%20%20%20%20%20
-%20Recurso%20Caixa%20F%C3%B3rmula%20-%20end%20--
%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cp%20class%3D'c-paragraph%20u-title--
medium'%3EDesse%20modo%2C%20a%20reta%20estimada%20pelo%20m%C3%A9todo%20dos%20m%C3%ADnimos%20quadrados%20%C3%A9%3A
-%20Recurso%20Caixa%20F%C3%B3rmula%20-%20start%20--
%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cdiv%20class%3D%22col-
12%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cyduqs-caixa-
formula%20formula%3D%22%24%24%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20y%3D46
0%2C5717%20%5Ccdot%20x%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%24%24%22%2
caixa-
formula%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3C%2Fdiv%3E%0A%20%20%20%20%20%20%20
-%20Recurso%20Caixa%20F%C3%B3rmula%20-%20end%20--
%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3C%2Fyduqs-
section%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
Questão 2
Em um estudo sobre crianças entre 7 e 9 anos de idade com gripe, foi montado um gráfico do número de infectados de acordo com a distância
de suas casas até o principal rio que corta a cidade. Nesse levantamento, foram coletados 1.000 dados. Ao traçar a reta que melhor se ajusta
aos dados, foi obtida a equação da reta: y=12+0,24x, com R2=98%.
Isso significa que:
A a variável dependente e a independente possuem uma correlação positiva fraca.
B a variável dependente e a independente possuem uma correlação positiva forte.
C a variável dependente e a independente possuem uma correlação negativa forte.
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 22/46
Parabéns! A alternativa B está correta.
%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cp%20class%3D'c-
paragraph'%3EVeja%20que%20a%20equa%C3%A7%C3%A3o%20da%20reta%20apresentada%20tem%20coeficiente%20angular%20positivo%20b%3D0
2 - Testes paramétricos
Ao �nal deste módulo, você será capaz de aplicar os testes paramétricos.
Teste paramétricos
O que são testes paramétricos?
D a variável dependente e a independente possuem uma correlação negativa fraca.
E a variável dependente e a independente possuem uma correlação nula.


21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 23/46
Análise de fatores populacionais
Testes paramétricos: ferramenta estatística
O teste paramétrico é uma ferramenta estatística poderosa utilizada em análise de fatores populacionais. Ele impõe às amostras (dados) uma
condição de existência.
Exemplo
Tamanho (quanto maior a quantidade de dados, menor é o erro associado) e intervalo matemático.
Trata-se, portanto, de testes que nos permitem avaliar a significância estatística das amostras e quantificar a correlação entre uma variável
quantitativa e uma categórica (qualitativa). Tais variáveis categóricas diferenciam os indivíduos em grupos (tamanho, peso, sexo, turno de trabalho,
idade etc.).
Testes paramétricos se apoiam na distribuição da variável estudada. De fato, existem diversos tipos de leis de distribuição; contudo, como se
baseiam em distribuições normais de dados, esses testes levam em consideração dois parâmetros: a média e o desvio-padrão.
Atenção!
Para aplicar os testes paramétricos em um conjunto de dados, é preciso averiguar a homogeneidade das variâncias na população de dados. Além
disso, é recomendado que o número de indivíduos (valor n de dados) seja maior que 30 por grupo e que esses grupos sejam balanceados. Caso haja
uma quantidade menor de dados, será necessário recorrer a testes não paramétricos.
São os testes paramétricos:
Prova do valor Z da distribuição normal padrão.
Teste t de Student para dados relacionados (amostras dependentes).
t de Student para dados não relacionados (amostras independentes).
Teste t de Student-Welch para duas amostras independentes com variâncias não homogêneas.
Teste de Chi Square de Bartlett para demonstrar a homogeneidade das variações.
F (análise de variância ou ANOVA).
Como podemos observar, são muitos os testes estatísticos paramétricos. Entretanto, daqui em diante, concentraremos nossa discussão no teste 
da distribuição normal e nas condiçõesexistentes para os testes unilaterais - e em como aceitar e rejeitar determinadas hipóteses - a partir do valor
Hipóteses estatísticas
Distribuição normal padrão Z
Quando trabalhamos com dados discretos ou contínuos, conseguimos, em geral, montar uma curva simétrica chamada de distribuição normal (ou
simplesmente de curva gaussiana), como mostra a imagem adiante.
Z
−p
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 24/46
Esboço de uma curva gaussiana (distribuição normal).
Na imagem acima, uma coluna preta representa o valor médio da distribuição. Ela é, portanto, simplesmente a média aritmética calculada com os
valores dos dados. Nos dois lados da coluna preta, duas colunas cinza-escuras representam os valores existentes com mais um e menos um
desviopadrão, isto é, e .
Veja que as colunas possuem tons de cinza variados e que, quanto mais afastado da média (coluna preta), mais claro fica o tom de cinza. Mas o
que esse tom representa?
Resposta
A probabilidade de você encontrar um valor presente em determinada faixa de valores.
Para entender isso melhor, inicialmente observe esta imagem:
Representação de média µ e desvio-padrão no gráfico de distribuição normal.
Na imagem, a média - que estávamos até agora denominando é chamada de µ.
Saiba mais
Tanto quanto µ são formas válidas de se referir à média aritmética. Você pode encontrar as duas formas de escrita em artigos científicos e livros.
Veja que, na imagem anterior, há o valor central o µ e, ao seu redor, os desvios-padrão. Se compararmos a representação de média (μ) e desvio-
padrão (σ) no gráfico de distribuição normal com a do esboço de uma curva gaussiana (distribuição normal), veremos que as três barras centrais
correspondem ao intervalo de a e que esse intervalo, na imagem da representação de média (μ) e desvio-padrão (σ) no gráfico de
distribuição normal, corresponde a 68,2%. Isso significa que os dados contidos nesse intervalo possuem 62,8% de chance de ocorrência.
Se aumentarmos o intervalo de a , teremos uma chance de ocorrência de 95,4%. Além disso, se esse intervalo for de a , haverá uma
probabilidade de 99,7% (que é aproximadamente 100%).
Mas podemos ter uma probabilidade maior que 100%? A resposta é não. Na verdade, nessa curva, a área máxima abaixo dela é de 1, ou seja, 100%.
Atenção!
A primeira coisa que temos de saber é que, em uma distribuição normal, há a média moda mediana. Em segundo lugar, precisamos observar
que essa curva é obtida por meio da plotagem de um gráfico dos dados no modelo histograma.
Ainda resta uma questão: como se determina então a probabilidade de ocorrência olhando o histograma? É pelo cálculo da gaussiana? Mais uma
vez, a resposta é esta: não.
Essa determinação é feita ao se plotar um segundo gráfico, o qual, apesar de também ser de uma gaussiana, é chamado de distribuição normal.
Mas como isso é feito?
x̄ + σ x̄ − σ
(σ)
x̄−
x̄
−1σ 1σ
−2σ 2σ −3σ 3σ
= =
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 25/46
Nesse gráfico, o valor médio é considerado zero, ou seja, . Em torno de µ, existem os desvios-padrão . Para a direita, o desvio é positivo; para
a esquerda, negativo. Veja a imagem abaixo:
Curva gaussiana em uma distribuição normal.
Na imagem acima, o valor central é 0, o que significa a existência de zero desvios-padrão ali. Já o valor 1 implica 1 desvio-padrão para mais; o valor
menos 1, 1 desvio-padrão para menos – e assim sucessivamente.
Mas como é feita a correlação do gráfico apresentado no esboço de uma curva gaussiana (distribuição normal) com aquele apresentado na curva
gaussiana em uma distribuição normal? Resposta: a partir da fórmula do valor Z.
O valor z mede exatamente a quantidade de desvios-padrão ao qual um dado da amostra está deslocado em relação ao valor médio. A fórmula Z é a
seguinte:
(15)
Rotacione a tela. 
Em que:
- x é o valor que queremos analisar;
- µ é o valor da média;
- é o desvio-padrão.
Vamos aprender agora como aplicar a fórmula de Z (equação 15) e correlacionar os gráficos de esboço de uma curva gaussiana (distribuição
normal) e curva gaussiana em uma distribuição normal:
Veja que, no gráfico do esboço de uma curva gaussiana (distribuição normal), as três barras centrais varrem um intervalo de 140 a 170 (incremento
de 10 em 10). Com isso, podemos estimar a média de tais valores, encontrando o valor do centro desse intervalo de 140 a 170, da seguinte maneira:
(16)
Rotacione a tela. 
O valor encontrado em (16) se trata de uma estimativa: ele não substitui a média aritmética calculada da forma convencional. Ainda assim, ele é
uma boa estimativa, pois, apesar de possuir o gráfico plotado no gráfico esboço de uma curva gaussiana (distribuição normal), não há a tabela de
dados para poder calcular o valor da média aritmética.
Após termos estimado o valor da média, vamos estimar agora o desvio-padrão usando o código de cores do gráfico esboço de uma curva gaussiana
(distribuição normal). Como as duas barras cinzas mais escuras aparecem nos intervalos 140 a 150 e, em seguida, entre 160 e 170 , podemos dizer
que o desvio-padrão é 15 (veja que usamos a extremidade do valor dos retângulos cinza escuro e o valor médio). Note, afinal, que 155 - 140 = 15 e
que 170 - 165 = 15. Dessa forma, σ = 15.
Vamos buscar a probabilidade de se encontrar o valor 170. Para isso, usaremos a equação (15):
μ = 0 σ
Z =
x − μ
σ
σ
μ =
140 + 170
2
= 155
Z =
x − μ
σ
Z =
170 − 155
15
= 1, 0
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 26/46
Rotacione a tela. 
O valor 170, assim, está a uma distância de 1,0 desvios-padrão à direita do valor médio. Se você olhar novamente o gráfico curva gaussiana em uma
distribuição normal, verá que esse valor se encontra entre 1 e 2, apresentando uma probabilidade 34,13% de ocorrência. Outra interpretação que
podemos ter é a de que o valor 170 se encontra a 1,0 desvios-padrão acima da média.
Depois de termos visto o valor Z e os gráficos de curva gaussiana (distribuição normal), podemos dizer que, na área científica, a distribuição normal
talvez seja o tipo de distribuição mais importante entre as distribuições estatísticas. Tendo uma curva simétrica em forma de sino e sendo de fácil
interpretação, ela permite a descrição de diversos fenômenos.
Atenção!
Altura ou peso de uma população, pressão ocular de um grupo de pessoas e quantidade de pessoas contaminadas com covid-19 em determinado
intervalo de tempo.
Hipóteses, testes e tipos de erros
A hipótese estatística é uma suposição feita acerca de um valor, o qual nada mais é do que um parâmetro populacional. Diante disso, existe a
necessidade de se testar a hipótese por meio de uma regra de decisão. Esse teste nos permitirá aceitar ou rejeitar a hipótese estatística feita.
Dica
Em estatística, é sempre de bom tom se perguntar: qual é a probabilidade de minha hipótese estar errada?
Elenquemos agora duas terminologias relativas às hipóteses:
A lógica por trás de se testar uma hipótese está em formular uma com a pretensão de rejeitá-la. Por isso, seu nome é hipótese nula.
Se o teste indicar a rejeição de H0, trata-se de um indicador de decisão seguro. Porém, se ele indicar a aceitação de H0, deve-se testar o nível de
significância α. Se ambos forem satisfatórios, não se poderá rejeitar H0.
Uma hipótese nula é expressa por uma igualdade; uma alternativa, por uma desigualdade.
Os testes de hipóteses são classificados em dois grupos:
Testes paramétricos
São aplicados em variáveis cuja distribuição de probabilidade teórica é conhecida. Além disso, há a necessidade de que essas variáveis
tenham sido medidas em intervalos conhecidos. No caso das variáveis aleatórias, é necessário haver uma variância homogênea. Chamamos
isso de homoscedasticidade.
 (hipótese nula): Hipótese estatística a ser testada.H0: Hipótese alternativa.H1
H0

21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 27/46
Testes não paramétricos
São aplicados quando não se conhece a distribuição populacional das amostras colhidas. Esses testes são mais gerais, o que permite sua
aplicação em variáveis ordinais. Todavia, não se mostram tão poderosos quanto os paramétricos devido à falta de informação.
Agora vamos estudar os testes paramétricos:
Quando realizamos uma análise estatística, o que fazemos, na verdade, é tentar inferir, acerca da população de dados, a existência de um valor
médio que represente adequadamente tal população com determinada dispersão. Essa dispersão, em geral, é representada pelos desvios-padrão
como vimos acima nos gráficos de Esboço de uma curva gaussiana (distribuição normal), representação de média (µ) e desvio-padrão (σ) no gráfico
de distribuição normal e Curva gaussiana em uma distribuição normal.
Entretanto, é preciso sempre assumir a chance, mesmo que pequena, de que uma hipótese esteja errada, pois é possível estar em uma situação na
qual a estatística calculada a partir de uma amostra não seja bem representativa em relação à população amostral. Isso indica, portanto, o risco de
se aceitar uma hipótese falsa.
Vamos ao exemplo abaixo:
Em um hospital, há 11 alas com os seguintes números de pacientes: 150, 155, 160, 165, 170, 175, 180, 185, 190, 195 e 200. A média populacional de
pacientes por ala nesse hospital é de µ0 = 175.
Nesse caso, a nossa hipótese H0 é: µ = 175. Essa hipótese é verdadeira nesse caso (basta calcular a média aritmética e comparar com a mediana).
Todavia, se retirarmos uma amostra dessa população de tamanho 3, como A = {190, 195, 200}, teremos uma média amostral de = 195, que é um
valor diferente de µ imposto por H0.
Perceba que esse valor (195) está bem distante da nossa média (175). Isso nos indica uma probabilidade baixa de ocorrência (basta lembrar a
curva gaussiana) e que possivelmente a análise de causará a rejeição da hipótese H0.
Nesse caso, dizemos que existe um erro do tipo I. Todavia, se tivéssemos lidando com amostras cujo valor da média ficasse suficientemente
próximo da média (cerca de até um desvio-padrão), teríamos a aceitação da hipótese H0 devido à falta de evidências para se rejeitar essa
hipótese.
Por outro lado, na mesma população de dados, se a hipótese nula tivesse sido H0 : µ = 194 contra uma hipótese alternativa H1 : µ < 194, a amostra A
de média amostral 195 teria feito com que acreditássemos que H0 deveria ser aceita. Nesse caso, dizemos que se trata de um erro do tipo I I.
Esta tabela resume os tipos de erros apresentados no exemplo acima:
Situações possíveis
A realidade sobre   a população
H0 é   verdadeira H0 é falsa
Resultado   do teste leva a:
Aceitar H0
O   teste acertou Ocorreu   erro tipo II
Probabilidade   1-α Probabilidade   β
Rejeitar   H0
Ocorreu   erro tipo I O   teste acertou
Probabilidade α Probabilidade   1-β
Tabela 9: Possíveis probabilidades e situações envolvidas.
LOESCH, 2015, p. 124.
Veja que, de acordo com a tabela 9, existem dois níveis de risco:
Ā
Ā
μ = 175
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 28/46
- Rejeitar é verdadeira Erro tipo .
- Aceitar é falsa Erro tipo .
Chamamos a probabilidade α de significância do teste. Esse valor de α expressa os valores críticos probabilísticos que separam a região de
aceitação da região de rejeição de H0.
Vamos agora falar sobre testes unilaterais e bilaterais para começarmos a compreender α.
Testes estatísticos
Testes unilaterais
Quando, em um teste, a hipótese H0 é uma igualdade de um parâmetro populacional , como a média µ, por exemplo, o valor testado (um
número qualquer) simboliza a hipótese nula da seguinte forma: .
Já a hipótese pode ser estabelecida de três modos:
(1) Teste bilateral (2) Teste unilateral à direita (3) Teste unilateral à esquerda
As hipóteses de um teste de comparação de um parâmetro.
LOESCH, 2015, p. 124.
Observando a tabela acima, podemos afirmar que, em um teste unilateral, à esquerda (3), determina que existe somente uma região de
rejeição de H0 situada no lado esquerdo da distribuição. Já na situação (2), do teste unilateral à direita, com , podemos afirmar que há
somente uma região de rejeição de H0 situada no lado direito da distribuição.
Nos dois casos (2) e (3), existe somente um ponto crítico que separa a região de aceitação daquela de rejeição. Nesse caso, se atribui o risco 
Porém, se estivermos no caso (1), em que estamos realizando um teste bilateral, veremos que, para , existem duas regiões de rejeição
de H0, as quais correspondem respectivamente aos valores abaixo e acima do valor de estado. Nesse caso, dois pontos críticos determinam a
separação existente entre a região de aceitação e cada uma das regiões de rejeição. O risco atribuído aqui é o seguinte: .
A imagem abaixo demonstra os casos de faixas de rejeição para um teste unilateral à direita e um teste bilateral:
Regiões de aceitação e rejeição em teste unilateral e bilateral de média.
Vimos aqui os tipos de testes bilateral e unilateral. Mas qual deles eu devo fazer? A resposta dependerá da hipótese alternativa, isto é, se ela será
aceita ou não.
Analisemos dois exemplos:
α = P ( H0 ∣ H0 ) = P( I)
β = P ( H0 ∣ H0 ) = P( II)
(θ) θ0
H0 : θ = θ0
H1
H0 : θ = θ0 H0 : θ = θ0 H0 : θ = θ0
H1 : θ ≠ θ0 H1 : θ > θ0 H1 : θ < θ0
H1 : θ < θ0
H1 : θ > θ0
α.
H1 : θ ≠ θ0
α
2
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 29/46
Testando a qualidade da água
Para testar a qualidade da água, é necessário fazer medições da quantidade dos poluentes existentes nela. Sabemos que existe um valor crítico
no qual qualquer valor acima desse valor crítico será maléfico ao consumo humano. Por isso, fazemos um teste unilateral para rejeitar hipóteses
cuja média amostral se mostre muito elevada, ou seja, um teste unilateral à direita .
Testando a qualidade de diâmetros de parafusos
Sabemos que o diâmetro de um parafuso deve atender a uma faixa de especificação. Ele não pode ser tão grosso a ponto de não conseguir entrar
no buraco com rosca nem fino demais a ponto de passar direto sem ser possível rosquear. Então, nesse caso, há dois valores críticos: um, abaixo
do valor médio; outro, acima desse valor. Será preciso, portanto, fazer um teste bilateral.
Para podermos estimar parâmetros e testes de hipóteses, teremos de observar que tanto os testes de confiança quanto os de hipótese têm α como
probabilidade, só que com significados distintos.
Intervalos de con�ança
α é a probabilidade de o valor do parâmetro estimado não estar situado no intervalo de confiança.
Testes de hipóteses
α corresponde à problabilidade da existência de um erro do tipo I, ou seja, a probabilidade de se rejeitar H0, mesmo ela sendo verdadeira.
Não se deve fazer um teste de hipótese comparando o valor de um parâmetro com o resultado de uma estimativa pontual.
Exemplo
Uma vez obtida a média amostral igual a 100 , testa-se, em seguida, se a média populacional possui de fato esse valor. Como, em todo momento, se
terá H0 como verdadeiro, a hipótese será sempre aceita.
Por isso, o valor de teste deve ser preestabelecido. Mas como se efetua um teste de hipótese?
Para se realizar os testes de hipótese, os seguintes passos devem ser seguidos:
1. Enunciar H0 e H1.
2. Fixar o nível de significância α.
3. Calcular a estatística do teste pelos elementos amostrais.
4. Comparar o valor do teste (obtido estatisticamente) com o obtido a partir da distribuição teórica específica e concluir se o valor estatístico se
encontra na região de aceitação ou de rejeição de H0.
Atenção!
Existe uma alternativa: o valor (probabilidade de significância). Tal valor é uma técnica estatística geralmente utilizada para gerar o resultado de
umteste de hipótese. A definição formal do valor - é a seguinte: trata-se da probabilidade de obter uma estatística de teste igual ou mais extrema
que a observada em uma amostra, assumindo como verdadeira a hipótese nula.
Desse modo, de maneira alternativa à do passo 4, podemos descrever assim o passo 5:
Se, durante a análise, concluirmos que o valor é menor que o nível de significância estipulado, assumiremos então a existência de um erro tipo I
e faremos a rejeição da hipótese nula. Porém, se o valor for maior, não assumiremos a existência do erro tipo I e prosseguiremos com a
aceitação de H0.
(H1 : θ > θ0)
−p
p
−p
−p
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 30/46
Teste de um parâmetro populacional
Agora vamos compreender melhor o significado do valor , assim como os significados de α e das estimações de parâmetros, conhecendo a
variância populacional e o nível de confiança.
Teste para a média conhecendo a variância populacional
Após havermos discutido sobre o valor -p, o intervalo de confiança e as hipóteses, vamos aprender a utilizar o valor -p para aceitar ou rejeitar H0.
Mas, em primeiro lugar, precisamos destas informações:
Tabela de intervalo de confiança.
Tabelas de distribuição normal padrão: valores negativos e valores positivos.
Dica
Você pode fazer o download dessas tabelas na área de preparação.
Outro ponto é que precisamos deixar bem claro que o valor α, que é o nível de significância, é igual a 1 menos o intervalo de confiança. Ou seja:
(17)
Rotacione a tela. 
Se temos um nível de significância de 5% (0,05), nosso intervalo de confiança é:
Rotacione a tela. 
Dito isso, vamos falar agora do teste para a média. Considere um número real e que tal número seja indicado como a média populacional de um
grupo de dados.
Com o teste, seremos capazes de verificar se o valor pode ser aceito ou não como média populacional. Mas como faremos isso? Resposta: a
partir das hipóteses.
Nesse caso, as hipóteses são:
 (bilateral), ou (unilateral), ou (unilateral).
Tudo bem... mas como analisamos isso? Existe uma fórmula de valor Z a ser considerada:
(18)
Rotacione a tela. 
Em que:
- é a média amostral, ou seja, média de dados de uma amostra com retirados de uma população de dados;
- é a nossa proposta de média representativa da população, isto é, a nossa hipótese;
- é o que chamamos de erro da média.
−p
α = 1 − IC
IC = 1 − 0, 05 = 0, 95 ou 95%
μ0
μ0
H0 : μ = μ0
H1 : μ ≠ μ0 μ < μ0 μ > μ0
Z =
x̄ − μ0
σ̄
x̄ n ≥ 30
μ0
σ̄
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 31/46
Trata-se de um desvio-padrão associado à média. Esse desvio é calculado da seguinte maneira:
(19)
Rotacione a tela. 
Comentário
Vamos entender melhor a equação (18) um pouco mais à frente.
Teste unilateral à direita 
Como vimos antes, a probabilidade de ocorrência de um erro tipo I é:
 rejeitar é verdadeira 
Sendo assim, H0 será rejeitado se possuirmos uma média amostral acima de determinado valor crítico , assim como tal hipótese será aceita se a
média for menor ou igual a . Desse modo, podemos estabelecer o nível de significância α da seguinte maneira:
(20)
Rotacione a tela. 
Comentário
Você pode estar preocupado sobre o significado do traço na figura. Ele é somente uma separação usada para indicar as duas condições: unilateral à
direita com a hipótese de .
A função (20) também pode ser escrita em função de e (Z crítico, que é o Z do nível de significância) da seguinte forma:
(21)
Rotacione a tela. 
Sendo:
(22)
Rotacione a tela. 
Podemos encontrar o valor crítico desta maneira:
(23)
Rotacione a tela. 
Com o valor encontrado em (23), conseguimos estabelecer o critério de comparação- da seguinte forma:
Se , rejeita se H0
Outro critério poderá ser estabelecido ao se considerar a mesma linha de raciocínio:
σ̄ =
σ
√n
−H1 : μ > μ0
α = P ( H0 ∣ H0 )
x̄c
x̄c
α = P (x̄ > x̄c ∣ μ = μ0)
μ = μ0
Z Zα
α = P ( x̄ − μ0
σ̄
>
x̄c − μ0
σ̄
∣ μ = μ0)
Zα =
x̄c − μ0
σ̄
x̄c = σ̄ ⋅ Zα + μ0
x̄
x̄ > x̄c −
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 32/46
Se , rejeita se H0
A figura adiante indica, na distribuição normal, a região de rejeição da hipótese H0 :
Os dois critérios de comparação vistos em suas respectivas distribuições normais.
Teste unilateral à esquerda 
Difere-se do teste anterior neste quesito: a região de rejeição agora se localiza do lado esquerdo do valor médio - e não mais do direito.
Além disso, os critérios da comparação de e passam a possuir condições abaixo.
Critério da comparação de :
(24)
Rotacione a tela. 
Nesse caso, se , rejeita-se H0.
Critério da comparação de Z:
Nesse critério, continua sendo calculado como na equação (18). Porém, se , rejeita-se H0.
Agora veremos como o valor é calculado para esses dois testes unilaterais (à direita e à esquerda).
Para isso, inicialmente iremos supor que a estatística seja calculada mediante a equação (18) e que H0 seja verdadeira. Em seguida,
consideraremos:
No caso do teste unilateral à direita 
Calcula-se o valor da seguinte maneira:
Rotacione a tela. 
Nesse caso, a rejeição de H0 pelo critério de comparação - z acontece se , o que equivale a , pois a função é
monotonicamente decrescente em relação a z.
No caso do teste unilateral à esquerda 
Calcula-se o valor desta forma:
Rotacione a tela. 
Nesse caso, a rejeição de H0 pelo critério de comparação - z acontece se , o que equivale a , pois a função é
monotonicamente decrescente em relação a z.
No caso do teste unilateral à esquerda 
Z > Zα −
−H1 : μ < μ0
x̄ Z
x̄
x̄c = μ0 − Zα ⋅ σ̄
x < x̄c
Z Z < −Zα
−p
z
(H1 : μ > μ0)
−p
p = P(Z ≥ z)
z > zα p < −α P(Z > z)
(H1 : μ < μ0)
−p
p = P(Z ≤ z)
z > zα p < −α P(Z > z)
(H1 : μ < μ0)
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 33/46
Calcula-se o valor - desta forma:
Rotacione a tela. 
Nesse caso, a rejeição de ocorre quando , o que equivale a .
Resumindo:
Se : , calcule 
Se : , calcule 
Se , rejeita se 
Vamos analisar um exemplo para conseguirmos ver a aplicação desses conceitos na prática:
Uma empresa que fabrica tubos de raio X para máquinas de radiografia afirma que o tempo médio de vida útil de seus tubos tem duração de 1.000
horas. No entanto, em determinada amostra de 100 unidades, foi verificado que o tempo médio de vida útil deles é de 980 horas.
A empresa também informou que o desvio-padrão populacional é de 95 horas. Todavia, existe uma preocupação por parte dela de que o tempo
médio da duração de seus tubos seja realmente inferior a 1.000 horas.
Vamos testar essa hipótese em um nível de significância de 5%. Para solucionar esse exemplo, primeiramente separaremos os dados.
A partir do enunciado, vemos que:
Rotacione a tela. 
Tomaremos como hipótese inicial de que o tempo médio dos tubos seja de 1.000 horas. Assim:
Rotacione a tela. 
Como temos um valor médio observado menor do que 1.000, vamos supor também que a hipótese alternativa seja:
Rotacione a tela. 
Como trabalhamos com a hipótese nula da seguinte maneira:
Rotacione a tela. 
Podemos afirmar que: 
Agora, para , temos um , ou seja, um índice de confiança de 95%. Olhando nossa tabela de índice de confiança, verificamos
que 
Nosso próximo passo é calcular o valor de z a partir da composição entre as equações (18) e (19):
Rotacione a tela. 
Calculado o z, resolveremos o problema utilizando três critérios:
 Comparação
p
p = P(Z ≤ Z)
H0 zα p < α
H1 μ > μ0 p = P(Z > z)
H1 μ < μ0 p = P(Z < z)
p < α − H0
x̄ = 980;σ = 95;n = 100
H0 : μ = 1.000
H1 : μ < 1.000
H0 : μ = μ0
μ0 = 1.000
α = 0, 05 IC = 0, 95
zα = 1, 96
z = x̄−μ0
σ/√n
= 980−1.000
95/√100
= −2, 10526
✓
21/05/2023, 13:51 Métodos estatísticos inferenciaishttps://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 34/46
Rotacione a tela. 
 Como , aceita se H0.
 Comparação : como , rejeita-se H0.
Note que, por haver dois critérios distintos, existem dois resultados completamente distintos, ou seja, um empate.
Faremos agora a análise do valor para podermos tomar uma decisão:
Rotacione a tela. 
Como o valor , rejeita se H0.
De onde saiu o valor 0,0174? Saiu da nossa tabela de distribuição normal padrão de valores negativos. Mas como chegamos a ele?
Em primeiro lugar, o valor foi arredondado para . Em seguida, ele foi desmembrado da seguinte maneira: .
Procuramos, na coluna da esquerda, a linha que apresenta o valor e, na linha horizontal, a coluna que apresenta o valor 
Demonstração de como encontrar um valor na tabela z:
Tabela 11: Demonstração de como encontrar um valor na tabela z (parte da tabela 2).
UNICAMP, 2022.
Note que, na interseção, encontramos o valor 0,0174.
Mas qual decisão tem de ser tomada? Como dois dos testes rejeitaram a amostra (e, principalmente, o valor rejeitou ), deve-se rejeitar H0.
Saiba mais
Há análises de hipóteses bilaterais (e análises de hipóteses) nas quais os parâmetros populacionais são desconhecidos. Esses métodos serão
indicados na seção de Explore +.
−x̄ : x̄c = μ0 − Zα ⋅ σ̄ ∴ x̄c = 1.000 − 1, 96 ⋅
95
√100
= 981, 38
✓ x̄ > x̄c −
✓ −z z < −zα
−p
✓ valor  − p : p = P(Z < −2, 10526) = 0, 0174
p < α −
Z −2, 11 −2, 1 + 0, 01
−2, 1 0, 01.
−p μ0
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 35/46
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
Determinada amostra com (n=100) foi retirada de uma população 1 milhão de vezes maior. Estimou-se então que essa amostra teria um nível
de significância de 20%. Sendo assim, o intervalo de confiança é igual a:
A 10%
B 5%
C 80%
D 90%
E 95%
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 36/46
Parabéns! A alternativa C está correta.
%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cp%20class%3D'c-
paragraph'%3ESabemos%20que%20o%20n%C3%ADvel%20de%20signific%C3%A2ncia%20%5C(%5Calpha%5C)%20e%20o%20intervalo%20de%20confi
I%20C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%24%24%3Cbr%3E%3Cbr%3E%0A%20%20%20%20%20
I%20C%20%5C%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%26I%20C%3D1-
0%2C2%3D0%2C8%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cend%7Baligned%7D%0A%20%20%20%2
Questão 2
Determinada fábrica de bisturis fabrica bisturis de aço com espessura média da lâmina de 0,40mm. Após uma análise em uma amostra de 120
bisturis, foi verificado um valor médio de 0,44mm. O desvio-padrão populacional é de 0,04mm. Contudo, a fabricante tem uma preocupação
com o fato de a média ser maior do que 0,40mm. Considerando um nível de significância de 1%, analise as afirmativas abaixo.
I. Pelo teste da comparação , deve-se aceitar a hipótese H0.
II. Pelo teste da comparação , deve-se rejeitar a hipótese H0.
III. Pelo teste do valor , deve-se rejeitar a hipótese H0.
Parabéns! A alternativa D está correta.
%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cp%20class%3D'c-
paragraph'%3EVamos%20primeiramente%20separar%20os%20dados%3A%24%24%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
%5Cmu_%7B0%7D%7D%7B%5Csigma%20%2F%20%5Csqrt%7Bn%7D%7D%3D%5Cfrac%7B0%2C44-
0%2C40%7D%7B0%2C04%20%2F%20%5Csqrt%7B120%7D%7D%3D10%2C95%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
Z_%7B%5Calpha%7D%20%5Ccdot%20%5Cbar%7B%5Csigma%7D%20%5Ctherefore%20%5Cbar%7Bx%7D_%7Bc%7D%3D0%2C40%2B2%2C58%20%5Cc
%5C)%20se%20%5C(H_%7B0%7D%5C).%3Cbr%3E%3Cbr%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C(%5C
%5C)%20se%20%5C(H_%7B0%7D%5C).%3Cbr%3E%3Cbr%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20Por%20d
p%5C)%20%3A%3Cbr%3E%3Cbr%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C(%5Ccheckmark%5C)%20valo
p%3A%20p%3DP(Z%3E10%2C95)%3D0%2C9997%5C)%3Cbr%3E%3Cbr%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
%5C)%20se%20%5C(H_%7B0%7D%5C).%3Cbr%3E%3Cbr%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20A%20dec
x̄
z
−p
A Somente a afirmativa I está correta.
B Somente a afirmativa II está correta.
C As afirmativas I e III estão corretas.
D As afirmativas II e III estão corretas.
E As afirmativas I e II estão corretas.

21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 37/46
3 - Testes não paramétricos
Ao �nal deste módulo, você será capaz de aplicar os testes não paramétricos.
Testes não paramétricos
Utilização dos testes não paramétricos
Contexto do teste não paramétrico
Estatística moderna, inferência e não parametrização
Durante o estudo da estatística, técnicas consideradas recentes começaram a surgir. Algumas delas buscavam inferir hipóteses sobre a natureza
populacional dos dados e estabeleciam uma relação entre as variáveis; por isso, elas são chamadas de testes paramétricos (assunto que já
abordamos).
No entanto, certos testes não especificam as condições sobre os parâmetros da população de dados. Trata-se dos chamados testes não
paramétricos. Nesse modelo de análise, mesmo se houver uma pressuposição a ser inferida, com certeza ela será muito mais branda que a
pressuposição proposta nos testes paramétricos.
Os tipos de testes não paramétricos existentes estão dispostos na tabela adiante:

21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 38/46
Nível de
mensuração
Testes estatísticos não paramétricos
Caso de
uma   amostra
Caso de duas amostras Caso de k amostras
Amostras
relacionadas
Amostras
independentes
Amostras
relacionadas
Amostras
independentes
Nominal Binomial e McNemar Fisher e Q de Cochram
Ordinal
Kolmogorov-
Smirnov
Sinais Mediana
Friedman
Extensão
da   mediana
Iterações Wilcoxon
U de   Mann-
Withney
Kruskal-Wallis
Kolmogorov-
Smirnov
Iterações de   Wald-
Wolfowitz
Moses
Intervalar
Walsh
Aleatoriedade
Aleatoriedade
Tabela 12: Testes não paramétricos e suas condições de aplicação.
Gabriel Burlandy.
Essa tabela conta com diversos testes não paramétricos. Entretanto, abordaremos neste conteúdo apenas o teste de . A depender do tipo de
amostra, esse teste pode ser usado em três diferentes momentos:

Existe somente uma amostra

Há duas amostras

Existem diversas amostras (k amostras)
Além disso, o teste de é amplamente utilizado desde a análise de estatísticas de jogos de futebol até os parâmetros estatísticos de uma técnica
de difração de raios X. No caso dessa técnica, esse teste determina a qualidade da análise da técnica de difração. Se tiver um resultado ruim, ele
poderá indicar ainda que os dados foram coletados de forma errônea ou que a análise foi feita de maneira equivocada, por exemplo.
O teste 
χ2 χ2 χ2
χ2
χ2
χ2
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 39/46
A relevância do teste 
Utilizamos o teste (qui-quadrado) quando estamos interessados em conhecer o número de indivíduos e de objetos ou as respostas que se
enquadram em duas ou mais categorias. Essa técnica consiste em provar a existência de uma significativa diferença entre o número observado de
indivíduos (ou de respostas) em certa categoria e o respectivo número esperado que se baseia na hipótese de nulidade (nula) H0.
Para realizar o teste , deve-se comparar um grupo de frequência de dados observados com outro de frequência de dados esperados. Para que
isso ocorra de forma correta, utiliza-se a hipótese de nulidade, pois ela dá a proporção de indivíduos que se enquadram em cada uma das diferentes
categorias de classificação da população de dados.
Matematicamente, testa-se a hipótese de nulidadeda seguinte maneira:
(25)
Rotacione a tela. 
Em que:
- Oi é o número de casos observados.
- Ei é o número de casos esperados.
Caso haja uma concordância entre Oi e Ei, a diferença Oi - Ei resulta em um valor pequeno. Isso acarreta diretamente um também pequeno.
Porém, se essa diferença for grande, terá um valor elevado.
É muito importante saber que, na equação (25), pode-se observar o grau de liberdade (gl) dos dados. Esse gl é calculado da seguinte maneira:
(26)
Rotacione a tela. 
Ou seja, o gl é i número de classes k da amostra menos 1.
Exemplo
Você colheu 90 dados de idades de pessoas que trabalham em um escritório: 50 dados se referem àquelas com idade entre 18 e 42 anos; 40 dados,
àquelas entre 43 e 65 anos.
Desse modo, suas duas classes são:
Classe 1: pessoas entre 18 e 42 anos.
Classe 2: pessoas entre 32 e 65 anos.
Se eu tenho duas classes, um dado pertence a uma classe ou a outra, ou seja, não há direito de escolha entre uma e outra. Por isso, só existe um
grau de liberdade (gl = 2 - 1 = 1), já que há apenas uma opção para os 50 dados colhidos com idade entre 18 e 42 e somente uma para os 40 dados
colhidos com pessoas entre 43 e 65 anos.
Compreender o gl é muito importante para conseguir aplicar o teste de , uma vez que cada dado observado deve se enquadrar em uma das 
classes.
Comentário
Continuamos chamando o número total dos dados observados de .
Durante a coleta de dados, devemos tomar cuidado para que haja uma independência entre as observações, ou seja, não é possível realizar diversas
observações sobre um mesmo indivíduo e considerá-las independentes. Há também a necessidade de determinar a frequência esperada para cada
χ2
χ2
χ2
χ2 =
∑ki=1 (Oi − Ei)
2
Ei
χ2
χ2
gl = k − 1
χ2 k
n
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 40/46
uma das k classes.
Se a hipótese nula apontar que a proporção de elementos em cada classe é a mesma, verifica-se que:
(27)
Rotacione a tela. 
Mas... e as condições do teste? Quando devemos aceitar ou rejeitar uma hipótese nula? É o que veremos a seguir!
Analisando o e H0
Aceitando ou rejeitando H0 no teste não paramétrico
Assim como no teste paramétrico, uma tabela (tabela da qui-quadrado) permite a análise da probabilidade de sucesso ( tabelado, tabela 3 ).
Nesse caso, temos:
- Se: da tabela, rejeita se H0;
- Se: da tabela, aceita se H0.
Vamos a mais um exemplo:
O secretário de saúde de determinado município espera que, no hospital municipal localizado no centro da cidade, haja uma procura de 100 pessoas
por dia para tomar a vacina contra o vírus H1N2. Sendo assim, ele estabeleceu um nível de significância de 10%.
Dez dias após o início da vacinação, o secretário recebeu os seguintes dados:
Dia Nº observado de pessoas Nº esperado de pessoas
1 94 100 0,36
2 93 100 0,49
3 112 100 1,44
4 101 100 0,01
5 101 100 0,01
6 104 100 0,16
7 95 100 0,25
8 100 100 0
9 99 100 0,01
(H0)
Ei =
n
k
χ2
χ2
χ2 ≥ χ2 −
χ2 < χ2 −
(Oi − Ei)
2
Ei
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 41/46
Dia Nº observado de pessoas Nº esperado de pessoas
10 101 100 0,01
Soma 2,74
Tabela 13: Dados coletados em observação e dados esperados.
Gabriel Burlandy.
Diante disso, vamos utilizar o teste para testarmos se o modelo probabilístico que previu 100 pessoas por dia está adequado. Para isso, vejamos
as seguintes hipóteses:
A primeira coisa que faremos é determinar o grau de liberdade:
Rotacione a tela. 
Nosso próximo passo é determinar somando a última coluna da tabela 13:
Rotacione a tela. 
Agora podemos olhar a tabela 3 para averiguar se o nos permite tomar alguma decisão:
Determinação de tabelado (parte da tabela 3).
A partir da imagem, primeiramente, devemos procurar o grau de liberdade na coluna da esquerda (o 9). Em seguida, procuramos a coluna
correspondente ao nível de significância (10% = 0,1).
Nosso próximo passo é ver que o valor de tabelado é 14,684 , maior que o calculado (2,74). Dessa forma, nós não podemos rejeitar 
podemos dizer que os dados coletados são aleatórios, considerando um nível de significância de 10%, isto é, o número de pessoas que frequenta o
hospital diariamente para tomar a vacina do H1N2 é aleatório.
Atenção!
(Oi − Ei)
2
Ei
χ2
: o número de pessoas que buscaram a vacina é aleatório.H0
: o número de pessoas que buscaram a vacina não é aleatório.H1
gl = 10 − 1 = 9
χ2
χ2 =
∑ki=1 (Oi−Ei)
2
Ei
= 2, 74
χ2
χ2
(gl)
χ2 χ2 H0e
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 42/46
Também podemos chamar o tabelado de valor . Nesse caso, se valor , não se rejeita H0. Porém, se valor , rejeita-se H0.
Além disso, para aplicar o teste , a amostra precisa ser relativamente grande.
Exemplo
Pelo menos cinco observações em cada célula. No caso de poucas classes, são necessárias, no mínimo, 10 observações.
Como tínhamos valores acima de 90 observações em cada célula da tabela 11, pudemos realizar o teste de sem problemas.
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
χ2 P χ2 < p χ2 ≥ p
χ2
χ2
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 43/46
Considere os seguintes dados:
Os dados acima representam o número dos pacientes que frequentaram os 8 consultórios de clínicos gerais de uma clínica médica durante 1
semana. Sabendo que o valor esperado de pacientes por semana é de 30 pacientes por consultório, assinale a opção que corresponde ao valor
de .
Parabéns! A alternativa D está correta.
%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cp%20class%3D'c-
paragraph'%3EPara%20resolver%20a%20quest%C3%A3o%2C%20%C3%A9%20preciso%20completar%20a%20tabela%20do%20enunciado%2C%20con
E_%7Bi%7D%5Cright)%5E%7B2%7D%7D%7BE_%7Bi%7D%7D%5C)%20%3A%3C%2Fp%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%2
12%20mb-
3'%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cdiv%20class%3D%22d-
flex%20justify-content-
around%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Ctable%2
table%20c-table--
border%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__thead%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__theader--
hidden%22%3E%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__theader%22%20colspan%3D%228%22%3EConsult%C3%B3rios%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__theader%22%20rowspan%3D%222%22%3ETotal%3C%2Fth%3E%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__theader--
hidden%22%3E%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__theader%22%3E1%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__theader%22%3E2%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__theader%22%3E3%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__theader%22%3E4%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__theader%22%3E5%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__theader%22%3E6%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__theader%22%3E7%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%table__theader%22%3E8%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tbody%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__theader%22%3EN%C2%BA%20de%20pacientes%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E29%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
χ2
A 49,185
B 41,895
C 45,918
D 48,195
E 49,581
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 44/46
table__tdata%22%3E19%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E18%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E25%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E17%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E10%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E15%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E11%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E144%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__theader%22%3EN%C2%BA%20esperado%3C%2Fth%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__tdata%22%3E30%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E30%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E30%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E30%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E30%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E30%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E30%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E30%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E240%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__trow%22%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20
table__theader%22%3E%24%24%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
E_%7Bi%7D)%5Cright.%7D%7BE_%7Bi%7D%7D%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%2
table__tdata%22%3E0%2C0%3Cbr%3E%2033%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E4%2C0%3Cbr%3E%2033%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E4%2C8%3Cbr%3E%2000%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E0%2C8%3Cbr%3E%2033%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E5%2C6%3Cbr%3E%2033%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E13%2C%3Cbr%3E%2033%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E7%2C5%3Cbr%3E%2000%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E12%2C0%3Cbr%3E%2033%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
table__tdata%22%3E48%2C1%3Cbr%3E%2095%3C%2Ftd%3E%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%
paragraph%20u-title--medium'%3EDepois%20de%20se%20calcular%20os%20valores%20%5C(%5Cfrac%7B%5Cleft(o_%7Bi%7D-
E_%7Bi%7D%5Cright)%5E%7B2%7D%7D%7BE_%7Bi%7D%7D%5C)%20para%20cada%20consult%C3%B3rio%2C%20deve-se%20som%C3%A1-
los.%20Veja%20que%20o%20valor%20pintado%20de%20cinza%20na%20tabela%20acima%20corresponde%20ao%20valor%20calculado%20de%20%5
Questão 2
Considere que H0 aponta uma proporção de elementos igual para cada classe de dados. Se foram colhidos 2.000 dados separados em 40
classes, o número esperado será igual a:
Parabéns! A alternativa E está correta.
%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%3Cp%20class%3D'c-
paragraph'%3ENo%20enunciado%2C%20%C3%A9%20indicado%20que%20existe%20uma%20propor%C3%A7%C3%A3o%20de%20elementos%20com%
Ei
A 10
B 20
C 30
D 40
E 50
21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 45/46
Considerações �nais
Ao longo deste conteúdo, ressaltamos a importância da estatística para a análise de problemas reais. Entendemos como é possível estabelecer
uma relação entre variáveis e verificar sua dependência, assim como o grau de correlação.
Em seguida, verificamos o método dos mínimos quadrados e a existência de testes paramétricos e não paramétricos para podermos estabelecer os
critérios de decisão. Ressaltamos que esses testes não são calculados para testar a possibilidade de uma probabilidade estar certa, e sim a chance
de ela estar errada.
Por fim, no teste não paramétrico, vimos o famoso teste X2, que é amplamente utilizado em todos os ramos das Ciências Humanas e Exatas.
Podcast
Ouça agora um resumo sobre o conteúdo estudado.


21/05/2023, 13:51 Métodos estatísticos inferenciais
https://stecine.azureedge.net/repositorio/00212sa/03922/index.html# 46/46
Tema 2 - Métodos estatísticos inferenciais

Epidemiologia

UFRRJ

Ferramentas de estudo

Conteúdos escolhidos para você

TEMA 2 - Métodos Estatísticos Inferenciais

Análise de Variância e Regressão

Métodos estatísticos inferenciais

Métodos estatísticos inferenciais

Livro Texto Unidade II

Perguntas dessa disciplina

Para avaliar a qualidade analítica do novo lote de glicosímetros utilizados para monitorar a glicemia capilar, foram analisadas 30 medições realizadas

Imagine que você trabalha em um laboratório e coletou dados de um experimento. Esses dados são representados por pares de valores, sendo uma variáv...

Nos estudos de algoritmos, a etapa de entrada de dados é fundamental para fornecer as informações que serão processadas pelo programa, enquanto a s...

38:27 Progresso:4/5 60 MINUTOS QUESTIONÁRIO 07 – ESTATÍSTICA APLICADA 1 Com base em seus estudos sobre correlação e regressão assinale a alternativa C

58:38 Progresso:1/5 60 minutos QUESTIONÁRIO 07 – ESTATÍSTICA APLICADA 1 Com base em seus estudos sobre correlação e regressão assinale a alternativa C

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

TEMA 2 - Métodos Estatísticos Inferenciais

Análise de Variância e Regressão

Métodos estatísticos inferenciais

Métodos estatísticos inferenciais

Livro Texto Unidade II

Perguntas dessa disciplina

Para avaliar a qualidade analítica do novo lote de glicosímetros utilizados para monitorar a glicemia capilar, foram analisadas 30 medições realizadas

Imagine que você trabalha em um laboratório e coletou dados de um experimento. Esses dados são representados por pares de valores, sendo uma variáv...

Nos estudos de algoritmos, a etapa de entrada de dados é fundamental para fornecer as informações que serão processadas pelo programa, enquanto a s...

38:27 Progresso:4/5 60 MINUTOS QUESTIONÁRIO 07 – ESTATÍSTICA APLICADA 1 Com base em seus estudos sobre correlação e regressão assinale a alternativa C

58:38 Progresso:1/5 60 minutos QUESTIONÁRIO 07 – ESTATÍSTICA APLICADA 1 Com base em seus estudos sobre correlação e regressão assinale a alternativa C

Mais conteúdos dessa disciplina