Prévia do material em texto
Prof. Jonas Teste de hipóteses 1. Teste de uma afirmação sobre uma média populacional 1.1. Teste de uma afirmação sobre uma média: grandes amostras 1.2. Teste de uma afirmação sobre uma média: pequenas amostras 2. Teste de uma afirmação sobre uma proporção populacional 3. Teste de uma afirmação sobre um desvio-padrão ou uma variância populacional 4. Inferências com base em duas amostras 4.1. Inferências sobre duas médias amostrais dependentes 4.2. Inferências sobre duas médias amostrais independentes 4.2.1. Inferências sobre duas médias: amostras grandes e independentes 4.2.2. Comparação de duas variâncias 4.2.3. Interferências sobre duas médias: amostras pequenas e independentes I. Caso 1: ambas as variâncias populacionais são conhecidas II. Caso 2: as duas populações parecem ter variâncias iguais. (Não se rejeita a hipótese: H0: σ12 = σ22) III. Caso 3: as duas populações parecem ter variâncias diferentes. (Rejeita a hipótese: H0: σ12 = σ22) 5. Inferências sobre duas proporções Prof. Jonas Testes de Hipóteses Em estatística, uma hipótese é uma alegação, ou afirmação, sobre uma propriedade de uma população. Hipotese nula ou hipótese de nulidade (H0): é uma afirmação sobre o valor de um parâmetro populacional (como média), deve ser a condiça de igualdade e deve escrever-se como =, < ou >. (Ao fazer efetivamente o teste, trabalhamos com a hipótese de que o parâmetro é igual a um valor específico). Para a média temos as três formas possíveis para a hipótese nula: H0 : µ = µ0 H1 : µ < µ0 H1 : µ > µ0 H1 : µ ≠ µ0 Testamos a hipótese nula diretamente no sentido de que, supondo-a verdadeiramente, procuramos chegar a uma conclusão que nos leve a rejeitar H0, ou não rejeitar H0. A hipótese alternativa (H1) é a afirmação que deve ser verdadeira se a hipótese nula é falsa. A Hipótese H0 Verdadeira Falsa Decisão Rejeitar H0 Erro tipo I (rejeição de uma hipótese nula verdadeira) Probabilidade = α Decisão correta Probabilidade (1 – β) Não rejeitar H0 Decisão correta Probabilidade = (1 – α) Erro tipo II (não rejeição de uma hipótese nula falsa) Probabilidade = β Prof. Jonas Erro tipo I: erro que cometemos ao rejeitar uma hipótese nula verdadeira. Sua probabilidade é α. Erro tipo II: erro que cometemos ao não rejeitar uma hipótese nula falsa. Sua probabilidade é β. Estatística de teste: é uma estatística amostral, ou um valor baseado nos dados amostrais. Utiliza-se uma estatística de teste para tomar uma decisão sobre a rejeição da hipótese nula. Região crítica: é o conjunto de todos os valores da estatística de teste que levam à rejeição da hipótese nula. Valor crítico: é o valor, ou valores, que separam a região crítica dos valores da estatística de teste que não levam a rejeição da hipótese nula. Os valores críticos dependem da natureza da hipótese nula, da distribuição amostral principal e do nível de significância α. 1. Teste de uma afirmação sobre uma média populacional 1.1. Teste de uma afirmação sobre uma média: grandes amostras Se a amostra é grande (n>30), pode-se aplicar o teorema do limite central e utilizar a distribuição normal. Ao aplicar o teorema do limite central podemos utilizar o desvio-padrão amostral “s” em substituição ao desvio-padrão populacional “σ” quando este não for conhecido e o tamanho da amostra for grande (n>30). Passo 1: formular as hipóteses nula (H0) e alternativa (H1); Passo 2: fixar o nível de significância α; Passo 3: escolher a estatística de teste; construir o diagrama e marcar a(s) região(ões) crítica(s), em função do nível α. Passo 4: calcular o valor da estatística de teste; • Estatística de teste para afirmações sobre µ quando n > 30: 𝑧𝑧 = �̅�𝑥 − 𝜇𝜇𝜇𝜇 𝜎𝜎 √𝑛𝑛� Prof. Jonas Passo 5: conclusão: - rejeitar a hipótese nula se a estatística de teste está na região crítica. - não rejeitar a hipótese nula se a estatística de teste não está na região crítica. Ex.1: Uma indústria farmacêutica especifica que em certo analgésico a quantidade média de ácido acetil salicílico deve ser 5,5 gramas por comprimido. A indústria suspeita que houve problemas na produção de um determinado lote e que, nesse lote, a quantidade média dessa substancia está diferente da especificada. Para verificar essa suspeita, a indústria selecionou uma amostra aleatória de 40 comprimidos desse lote, observando uma quantidade média de ácido acetil salicílico igual a 5,2 gramas e um desvio-padrão de 0,7 gramas. Os dados confirmam a suspeita da indústria? Solução: H0 : µ = 5,5g n = 40 (amostra grande) �̅�𝑥 = 5,2g H1 : µ ≠ 5,5g S = 0,7g 𝑧𝑧 = �̅�𝑥 − 𝜇𝜇0 𝑠𝑠 √𝑛𝑛 = 5,2 − 5,5 0,7 √40 = −2,71 𝑧𝑧𝑇𝑇𝑇𝑇𝑇𝑇 = 𝑧𝑧𝛼𝛼 2 = 𝑧𝑧(0,025) = 1,96 −𝑧𝑧𝛼𝛼 2 ≤ 𝑧𝑧 ≤ 𝑧𝑧𝛼𝛼 2 ⇒−1,96 ≤ 𝑧𝑧 ≤ 1,96 ⇒ Não se rejeita H0 z < −𝑧𝑧𝛼𝛼 2 𝜇𝜇𝑜𝑜 𝑧𝑧 > 𝑧𝑧𝛼𝛼 2 ⇒ 𝑧𝑧 < −1,96 𝜇𝜇𝑜𝑜 𝑧𝑧 > 1,96 ⇒ Rejeita-se H0 Conclusão: 𝑧𝑧 < 𝑧𝑧𝛼𝛼 2 , isto é, -2,7 < -1,96 : Rejeita-se H0 : µ = 5,5g, ao nível de significância de 5%. 1.2. Teste de uma afirmação sobre uma média: pequenas amostras De acordo com o teorema do limite central, se obtemos amostras grandes (n>30) (de qualquer população com qualquer distribuição), a distribuição das médias amostrais pode ser aproximada por uma distribuição normal. Prof. Jonas Quando extraímos amostras (de qualquer tamanho) de uma população com distribuição normal, a distribuição das médias amostrais será aproximadamente normal com a média µ e desvio padrão σ/ , Em um teste de hipóteses, o valor de µ corresponde à hipótese nula, e o valor do desvio-padrão populacional σ deve ser conhecido. Se σ é desconhecido e as amostras são grandes, podemos usar o desvio-padrão amostral “s” como substituto de σ, porque grndes amostras aleatórias tendem a representar a população. As condições para utilizar a distribuição “t de Student” são as seguintes: - a amostra é pequena (n<30); - σ é desconhecido; e - a população original tem distribuição essencialmente normal. Se as amostras são pequenas, σ é desconhecido e a distribuição da população é sensivelmente não normal, não podemos utilizar os métodos aqui apresentados. Devemos recorrer a métodos não paramétricos. Se as condições supramencionadas são satisfeitas, usamos a distribuição “t” como estatística de teste. • Estatística de teste para afirmações sobre µ quando n < 30 e σ desconhecido: 𝑡𝑡 = �̅�𝑥 − 𝜇𝜇𝜇𝜇 𝑠𝑠 √𝑛𝑛� Nota: neste caso utilizamos a distribuição “t de Student”, u simplesmente distribuição “t”, com v = n-1 graus de liberdade. Para encontrar valores na tabela da distribuição “t” é necessário entrar com o número de graus de liberdade “v” e o nível de significância α. Ex.2: Um método padrão para identificação de bactérias em hemoculturas vem sendo utilizado há muitos anos e seu tempo médio de execução (desde a etapa de preparo das amostras até a identificação do gênero e espécie) é de 40,5 horas. Um microbiologista propôs uma nova técnica que ele afirmou ter menor tempo de execução que o método padrão. A nova técnica foi aplicada em uma amostra de 18 hemoculturas e para cada uma mediu-se o tempo de execução. A média amostral foi 39,42 horas e o desvio-padrão amostral foi 1,96 horas. A nova técnica reduz o tempo para identificação de bactérias? Solução: H0 : µ = 40,5 horas n = 18 (amostra pequena) H1 : µ < 40,5 horas �̅�𝑥 = 39,42 S = 1,96 Prof. Jonas 𝑡𝑡 = �̅�𝑥 − 𝜇𝜇𝜇𝜇 𝑠𝑠 √𝑛𝑛� = 39,42 − 40,50 1,96 √18 = −2,34 ttab = t(17;0,05) = -1,74 Conclusão: t < tTab : rejeita-se H0 : µ = 40,5 horas, ao nível de significância de 5%. Ex.3: Um restaurante compra frangos abatidos inteiroscom peso médio de 3 quilos há vários anos de um fornecedor. Outro fornecedor propõe ao gerente do restaurante vender frangos com peso médio maior que 3 quilos ao mesmo preço do fornecedor antigo. Antes de mudar de fornecedor, o gerente do restaurante decidiu comprar 25 frangos do novo fornecedor e pesá-los. Encontrou um peso médio de 3,2 quilos com um desvio-padrão de 0,4 quilos. A afirmação do novo fornecedor é confirmada pelos dados coletados pelo gerente? Solução: H0 : µ = 3 kg n = 25 (amostra pequena) H1 : µ > 3 kg �̅�𝑥 = 3,2 kg S = 0,4 kg 𝑡𝑡 = �̅�𝑥 − 𝜇𝜇0 𝑠𝑠 √𝑛𝑛 = 3,2 − 3,0 0,4 √25 = 2,5 tTab = t(24; 0,05) = 1,711 Conclusão: t > t Tab : rejeita-se H0 : µ = 3Kg, ao nível de significância de 5%. 2. Teste de uma afirmação sobre uma proporção populacional Para testar uma afirmação sobre uma proporção, probabilidade ou percentagem populacional usamos as seguintes hipóteses: Prof. Jonas H0 : p = p0 H1 : p < p0 H1 : p > p0 H1 : p ≠ p0 Suposições: - São verificadas as condições para um experimento binomial. Isto é: temos um numero fixo de provas; as provas são independentes com probabilidade constante; cada prova comporta dois resultados possíveis: sucesso ou fracasso. - As condições np > 5 e nq > 5 são ambas verificadas, de modo que a distribuição binomial das proporções amostrais pode ser aproximada por uma distribuição normal com média µ = np e σ = �𝑛𝑛𝑛𝑛𝑛𝑛. n = número de provas x = número de sucessos (numero de vezes em que se observa a característica desejada); �̂�𝑛 = a proporção amostral: p = x/n 𝑛𝑛� = 1 – p; (𝑛𝑛� = 1 – �̂�𝑛) • Estatística de teste para afirmações sobre uma proporção (p): 𝑧𝑧 = �̂�𝑛 − 𝑃𝑃0 �𝑛𝑛𝑛𝑛𝑛𝑛 Ex.4: Estudos sobre mortalidade de homens com idade superior a 65 anos de uma certa cidade mostram que 4% deles morrem dentro de um ano. Num grupo de 1000 indivíduos selecionados dessa população, 60 morreram no período de um ano. Suspeita-se de que houve um aumento da mortalidade anual nesta população. Existe evidência de que houve um aumento da mortalidade anual nessa população? Solução: H0 : p = 0,04 n = 1000 (amostra grande) H1 : p > 0,04 �̂�𝑛 = x/n = 60/1000 = 0,06 𝑧𝑧 = �̂�𝑛 − 𝑃𝑃0 �𝑛𝑛0𝑛𝑛0𝑛𝑛 = �̂�𝑛 − 𝑃𝑃0 �(𝑛𝑛0)(1 − 𝑛𝑛0)𝑛𝑛 = 0,06 − 0,04 �(0,04)(1 − 0,04)1000 = 3,23 zTab = z(0,05) = 1,645 Conclusão: z > ztab : rejeita-se H0 : p = 0,04, ao nível de significância de 5% Prof. Jonas 3. Teste de uma afirmação sobre um desvio-padrão ou uma variância populacional Para testarmos afirmações sobre uma variância (σ2) ou sobre um desvio-padrão (σ) utilizamos as seguintes hipóteses, admitindo que os valores da população sejam distribuídos normalmente: H0 : σ2 = σ20 H1 : σ2 < σ20 H1 : σ2 > σ20 H1 : σ2 ≠ σ20 Com a suposição de uma distribuição normal, a estatística de teste em distribuição qui-quadrado com v= n-1 graus de liberdade. Os valores críticos podem ser encontrar em uma tabela própria considerando o nível de significância α e o número de graus de liberdade v. • Estatística de teste para testar hipóteses sobre uma variância (σ2) ou sobre um desvio-padrão (σ): 𝑥𝑥2 = (𝑛𝑛 − 1)𝑠𝑠2 𝜎𝜎2 Onde: n – tamanho da amostra; s2 – variância amostral; σ2 – variância populacional (dada na hipótese nula). Ex.5: Para avaliar certas características de segurança de um carro, um engenheiro precisa saber se o tempo de reação dos motoristas a uma determinada situação de emergência tem desvio-padrão de 0,010 segundo, ou se é superior a 0,010 segundo. Se o engenheiro obtém s = 0,014 para uma amostra de tamanho n = 15, qual é a sua conclusão ao nível de 0,05 de significância? Solução: Admitindo que a população que originou a amostra tenha distribuição aproximadamente normal, H0 : σ = 0,010 H1 : σ > 0,010 Prof. Jonas 𝑥𝑥2 = (𝑛𝑛−1)𝑠𝑠 2 𝜎𝜎02 , tem distribuição qui-quadrado com v = n – 1 graus de liberdade. 𝑥𝑥 = (15 − 1)(0,014)2 (0,010)2 = 27,44 v = n-1 = 15-1= 14 gl x2(5%;v=14) = 23,685 Conclusão: X2 > X2 (5%; v = 14), portanto, rejeita-se H0 : σ = 0,010, ao nível de significância de 5%. O engenheiro pode concluir que o desvio-padrão dos tempos de reação de motoristas a determinada situação de emergência é superior a 0,010 segundo. 4. Inferências com base em duas amostras 4.1. Inferências sobre duas médias amostrais dependentes (dados pareados) Duas amostras são independentes se a amostra extraída de uma das populações não tem qualquer relação com a amostra extraída da outra população. Se uma das amostrar tem alguma relação com a outra, as amostras são ditas dependentes. Tais amostras costumam ser chamadas emparelhadas, ou amostras ligadas (neste caso obtemos dois valores para cada indivíduo, ou um valor de cada um de dois indivíduos que apresentam a mesma característica). Exemplo: são determinados os pesos antes e depois de um programa para emagrecimento. Níveis de colesterol antes e depois do tratamento com uma determinada droga para redução do colesterol. Suposições: - Devem-se escolher de maneira aleatória duas amostras dependentes de duas populações; - Ambas as populações devem ter distribuição normal (se esta pressuposição não for satisfeita deve-se aplicar os métodos não-paramétricos na análise dos dados) • Estatística de teste para testar hipóteses sobre duas amostras dependentes: 𝑡𝑡 = 𝑑𝑑 �−𝜇𝜇𝑑𝑑 𝑠𝑠𝑑𝑑 √𝑛𝑛 , com v=n-1 graus de liberdade Prof. Jonas Onde: n = número de pares de dados; µd = média das diferenças di para a população de dados emparelhados; �̅�𝑑 = valor médio das diferenças di para os dados amostrais emparelhados (onde di = xi-yi, i=1,2,...,n) sd = desvio-padrão das diferenças di para os dados amostrais emparelhados. 𝑑𝑑 = ∑ 𝑑𝑑𝑖𝑖𝑛𝑛𝑖𝑖=1 𝑛𝑛 𝑆𝑆𝑑𝑑=� 𝑛𝑛(∑ 𝑑𝑑2)−(∑ 𝑑𝑑)2 𝑛𝑛(𝑛𝑛−1) Ex.6: Como resultado de um programa de fortificação isométrica desenvolvido em 10 semanas, alunos do curso de fisioterapia foram avaliados em duas ocasiões, ates e após o programa, quanto a sua habilidade em executar abdominais em dois minutos. Os dados são apresentados na tabela abaixo. Quanto maior o escore, maior é a habilidade do aluno em executar abdominais de dois minutos. Escore de abdominais ID Antes Depois 1 12 15 2 10 9 3 23 25 4 25 25 5 29 31 6 32 30 7 14 16 8 17 20 9 19 22 10 20 22 Faça um teste de hipóteses (ao nível de significância de 5%) para verificar se o programa de fortificação isométrica aumenta a habilidade em executar abdominais em dois minutos. Prof. Jonas Solução: Escore em abdominais Diferenças (d) ID Antes Depois 𝑑𝑑𝑖𝑖= 𝑦𝑦𝑖𝑖− 𝑥𝑥𝑖𝑖 1 12 15 15 – 12 = 3 2 10 9 9 – 10 = -1 3 23 25 25 – 23 = 2 4 25 25 25 – 25 = 0 5 29 31 31 -29 = 2 6 32 30 30 – 32 = -2 7 14 16 16 – 14 = 2 8 17 20 20 -17 = 3 9 19 22 22 – 19 = 3 10 20 22 22 – 20 = 2 �̅�𝑑 = 1,40 𝑠𝑠𝑑𝑑 = 1,78 �𝐻𝐻0 ∶ 𝜇𝜇𝑑𝑑 = 0𝐻𝐻1 ∶ 𝜇𝜇𝑑𝑑 > 0 n= 10 → amostra pequena �̅�𝑑 = 1,4000 𝑠𝑠𝑑𝑑 = 1,7764 𝐻𝐻0 ∶ 𝜇𝜇𝑑𝑑 = 0 → a média da diferença dos escores depois e antes do programa é igual a zero. O programa não funciona. 𝐻𝐻1 ∶ 𝜇𝜇𝑑𝑑 > 0 → a média da diferença dos escores depois e antes do programa é maior do que zero. O programa aumenta a habilidade. �̅�𝑑 = ∑ 𝑑𝑑𝑖𝑖𝑛𝑛𝑖𝑖=1 𝑛𝑛 = 3 − 1 + ⋯+ 2 10 = 1,4 𝑠𝑠𝑑𝑑 = � 𝑛𝑛(∑ 𝑑𝑑2) − (∑ 𝑑𝑑)2 𝑛𝑛(𝑛𝑛 − 1) = � 10(48) − (14)2 10(10 − 1) = 1,7764 t =𝑑𝑑 �− 𝜇𝜇𝑑𝑑 𝑠𝑠𝑑𝑑 √𝑛𝑛 , com v = n-1 graus de liberdade e, onde: n – número de pares de dados; 𝜇𝜇𝑑𝑑 – média das diferenças 𝑑𝑑𝑖𝑖 para os dados amostrais emparelhados; Prof. Jonas �̅�𝑑 - valor médio das diferenças 𝑑𝑑𝑖𝑖 para os dados amostrais emparelhados (onde 𝑑𝑑𝑖𝑖 = 𝑥𝑥𝑖𝑖 - 𝑦𝑦𝑖𝑖, i=1,2,...,n) 𝑠𝑠𝑑𝑑 – desvio-padrãodas diferenças 𝑑𝑑𝑖𝑖 para os dados amostrais emparelhados t = 𝑑𝑑 �− 𝜇𝜇𝑑𝑑 𝑠𝑠𝑑𝑑 √𝑛𝑛 = 1,4−0 1,7764 = 2,4922 v = n-1 = 9 gl 𝑡𝑡𝑡𝑡𝑇𝑇𝑇𝑇 = 𝑡𝑡(9;0,05) = 1,833 Conclusão: t > 𝑡𝑡𝑡𝑡𝑇𝑇𝑇𝑇 → Rejeita-se 𝐻𝐻0: 𝜇𝜇𝑑𝑑 = 0, ao nível de significância de 5%, em favor de 𝐻𝐻1: 𝜇𝜇𝑑𝑑 > 0. A média da diferença dos escores depois e antes do programa é maior do que zero. Portanto, o programa aumenta a habilidade. 4.2. Inferências sobre Duas Médias Amostrais Independentes 4.2.1. Inferências sobre Duas Médias: Amostras Grandes e Independentes Suposições: - As duas amostras são independentes; - Os tamanhos das duas amostras são grandes (𝑛𝑛1 > 30 𝑒𝑒 𝑛𝑛2 > 30). De acordo com o teorema do limite central as médias amostrais tendem a distribuir-se normalmente. As diferenças entre as médias amostrais (�̅�𝑥1 − �̅�𝑥2) também tendem a distribuir-se normalmente. As hipóteses: 𝐻𝐻0 ∶ 𝜇𝜇1 = 𝜇𝜇2 𝐻𝐻1 ∶ 𝜇𝜇1 < 𝜇𝜇2 𝐻𝐻1 ∶ 𝜇𝜇1 > 𝜇𝜇2 𝐻𝐻1 ∶ 𝜇𝜇1 ≠ 𝜇𝜇2 Prof. Jonas • Estatística de teste para duas amostras: amostras grandes e independentes: z = ( 𝑥𝑥1����− 𝑥𝑥2����)−( 𝜇𝜇1− 𝜇𝜇2) �𝜎𝜎1 2 𝑛𝑛1 +𝜎𝜎2 2 𝑛𝑛2 Ex.7: Em um estudo sobre a influência do uso de cocaína no peso de crianças nascidas de mães dependentes, pesquisadores trabalharam com dois grupos de crianças nascidas a termo: o primeiro grupo era composto de mães que usaram regularmente a droga durante toda gravidez (Grupo 1) e o segundo, de mães que não tinham história ou evidência de uso de cocaína (Grupo 2). A hipótese dos pesquisadores era de que o peso médio de crianças de mães não-dependentes. Os resultados são apresentados abaixo. Grupo Tamanho da amostra Peso médio (g) Desvio-padrão (g) 1 36 2829 708 2 39 3436 628 Fonte: Chandf, I.J et al. (1989) Temporal patterns of cocaine use in pregnancy – perinatal outrcome. JAMA, março. Usando um nível de significância igual a 5%, teste a hipótese dos pesquisadores. Solução: 𝐻𝐻0 ∶ 𝜇𝜇1 = 𝜇𝜇2 𝐻𝐻1 ∶ 𝜇𝜇1 < 𝜇𝜇2 𝑛𝑛1 = 36 𝑛𝑛2 = 39 �̅�𝑥1 = 2829 �̅�𝑥2 = 3436 𝑠𝑠1 = 708 𝑠𝑠2 = 628 • Estatística de teste para duas amostras: amostras grandes e independentes z = ( 𝑥𝑥1����− 𝑥𝑥2����)−( 𝜇𝜇1− 𝜇𝜇2) �𝑠𝑠1 2 𝑛𝑛1 +𝑠𝑠2 2 𝑛𝑛2 = (2829−3436)−(0) �(708)² 36 + (628)² 39 = −3,92 𝑧𝑧𝑇𝑇𝑇𝑇𝑇𝑇 = 𝑧𝑧(0,05) = - 1,645 Conclusão: z < - 𝑧𝑧𝑇𝑇𝑇𝑇𝑇𝑇 → Rejeita-se 𝐻𝐻0 ∶ 𝜇𝜇1 = 𝜇𝜇2, ao nível de significância de 5%. Isto é, rejeitamos a hipótese de que o peso médio dos bebês no grupo de mães que usaram cocaína durante toda a gravidez é igual ao peso médio dos bebês no grupo de mães que não tem história de uso de cocaína, em favor da hipótese de que o peso médio dos bebês do primeiro grupo de mães é menor do que o peso médio dos bebês do segundo grupo de mães, ao nível de 5% de significância. Prof. Jonas 4.2.2. Comparação de Duas Variâncias Suposições: - As duas populações são independentes; - As duas populações são ambas distribuídas normalmente. Esta segunda suposição é muito importante pois a estatística de teste é extremamente sensível a desvios da normalidade. - Vamos admitir que 𝑠𝑠12 representa a maior das duas variâncias amostrais. 𝐹𝐹𝑇𝑇𝑇𝑇𝑇𝑇 ((𝑛𝑛1−1);(𝑛𝑛2−1);∝ 2⁄ ) = 𝐹𝐹𝑇𝑇𝑇𝑇𝑇𝑇 (4;4;0,01) = 15,98 F = 63,450 42,650 = 1,49 Conclusão: F < 𝐹𝐹𝑇𝑇𝑇𝑇𝑇𝑇 → Não se rejeita 𝐻𝐻0:𝜎𝜎1 = 𝜎𝜎2, ao nível de significância de 2%. Não há razão que nos impeça de prosseguir com o teste t de duas amostras, que exige 𝜎𝜎1 = 𝜎𝜎2. 4.2.3. Inferências sobre Duas Médias: Amostras Pequenas e Independentes Suposições: - As amostras são independentes; - As amostras são extraídas aleatoriamente de populações distribuídas normalmente; - ao menos uma das amostras é pequena (n≤30) i. Caso 1: Ambas as Variâncias Populacionais são conhecidas • Estatística de teste para duas amostras: amostras pequenas e independentes, com variâncias populacionais conhecidas: z = ( 𝑥𝑥1����− 𝑥𝑥2����)−( 𝜇𝜇1− 𝜇𝜇2) �𝜎𝜎1 2 𝑛𝑛1 +𝜎𝜎2 2 𝑛𝑛2 ii. Caso 2: As duas populações parecem ter variâncias iguais – (não se rejeita a hipótese: 𝐻𝐻0:𝜎𝜎12 = 𝜎𝜎22). Se não temos evidência para rejeitar a hipótese de igualdade das variâncias, calculamos uma estimativa combinada de 𝜎𝜎2 comum a ambas as populações. • Estatística de teste para duas amostras: amostras pequenas e independentes, com variâncias populacionais iguais (𝜎𝜎12 = 𝜎𝜎22): Prof. Jonas t = ( 𝑥𝑥1����− 𝑥𝑥2����)−( 𝜇𝜇1− 𝜇𝜇2) √𝑠𝑠𝑐𝑐2� 1 𝑛𝑛1 + 1𝑛𝑛2 � , onde: 𝑠𝑠𝑐𝑐2 = (𝑛𝑛1−1)𝑠𝑠12+(𝑛𝑛2−1)𝑠𝑠22 𝑛𝑛1+ 𝑛𝑛2−2 e, O número de graus de liberdade é: v = 𝑛𝑛1 + 𝑛𝑛2 − 2 Ex.9: Em um experimento, dois grupos de ratos fêmea foram alimentados com dietas apresentando alto e baixo conteúdo de proteína. O quadro fornece, para cada rato, o gaho de peso, em gramas, entre o 28° e 84° dia de vida. Ao nível de significância de 1%, há evidência estatística de que a dieta com alto conteúdo de proteína aumenta o ganho de peso? Conteúdo de proteína Ganho de peso Alto 123 134 146 104 119 124 161 107 83 113 129 97 Baixo 70 118 101 85 107 132 94 Solução: 𝐻𝐻0 ∶ 𝜇𝜇1 = 𝜇𝜇2 𝐻𝐻1 ∶ 𝜇𝜇1 > 𝜇𝜇2 𝑛𝑛1 = 12 𝑛𝑛2 = 7 �̅�𝑥1 = 120 �̅�𝑥2 = 101 𝑠𝑠1 = 21,39 𝑠𝑠2 = 20,62 • Estatística de teste para duas amostras: amostras pequenas e independentes, com variâncias populacionais iguais (𝜎𝜎12 = 𝜎𝜎22): t = ( 𝑥𝑥1����− 𝑥𝑥2����)−( 𝜇𝜇1− 𝜇𝜇2) √𝑠𝑠𝑐𝑐2� 1 𝑛𝑛1 + 1𝑛𝑛2 � , onde: 𝑠𝑠𝑐𝑐2 = (𝑛𝑛1−1)𝑠𝑠12+(𝑛𝑛2−1)𝑠𝑠22 𝑛𝑛1+ 𝑛𝑛2−2 , 𝑠𝑠𝑐𝑐 = √𝑠𝑠𝑐𝑐2 v = 𝑛𝑛1 + 𝑛𝑛2 − 2 gl v = 12 + 7 -2 =17 gl 𝑠𝑠𝑐𝑐2 = (12−1)(21,39)²+(7−1)(20,62)² 12+ 7−2 = 443,3536 Prof. Jonas t = (120−101)−0 21,056 � 112+ 1 7 = 1,8973 𝑡𝑡𝑇𝑇𝑇𝑇𝑇𝑇 = 𝑡𝑡(17;0,01)= 2,57 Conclusão: t < 𝑡𝑡𝑇𝑇𝑇𝑇𝑇𝑇 → Não se rejeita 𝐻𝐻0: 𝜇𝜇1 = 𝜇𝜇2, ao nível de significância de 1%. iii. Caso 3: As duas populações parecem ter variâncias diferentes – (rejeita-se a hipótese: 𝐻𝐻0:𝜎𝜎12 = 𝜎𝜎22). Se temos evidência suficiente para rejeitar a hipótese de igualdade de variâncias( 𝐻𝐻0:𝜎𝜎12 = 𝜎𝜎22), não há método exato para testar a igualdade das médias. Utilizamos o seguinte método aproximado: • Estatística de teste para duas amostras: amostras pequenas e independentes, com variâncias populacionais diferentes: t = ( 𝑥𝑥1����− 𝑥𝑥2����)−( 𝜇𝜇1− 𝜇𝜇2) �𝑠𝑠1 2 𝑛𝑛1 +𝑠𝑠2 2 𝑛𝑛2 , com número de graus de liberdade igual ou menor dos dois: 𝑛𝑛1 − 1 𝑒𝑒 𝑛𝑛2 − 1, ou com número de graus de liberdade dado pela expressão: v = �𝑠𝑠1 2 𝑛𝑛1 + 𝑠𝑠2 2 𝑛𝑛2 �² � 𝑠𝑠1 2 𝑛𝑛1 �² (𝑛𝑛1−1) + � 𝑠𝑠2 2 𝑛𝑛2 �² (𝑛𝑛2−1) Nota: Como estabelecer que as variâncias as populações são iguais? Existe uma regra prática: comparam-se as variâncias das duas amostras; se a maior variância for igual a até quatro vezes a menor variância, admite-se que as duas populações têm variâncias iguais. Por exemplo, se as amostras têm variâncias 𝑠𝑠12 = 15,64 e 𝑠𝑠22 = 6,80, tem-se que: 𝑠𝑠12 𝑠𝑠22 = 15,64 6,80 = 2,30 < 4, logo, é razoável admitir que as variâncias são iguais. Entretanto, é aconselhável aplicar o teste F para testar a hipótese de igualdade de variâncias. Prof. Jonas Ex.10: Para verificar se determinada dieta leva à perda de peso um médico separou, ao acaso, um conjunto de pacientes em dois grupos: um grupo foi submetido à dieta (grupo tratado), enquanto o outro manteve os mesmo hábitos alimentares ( grupo controle). Decorrido determinado período de tempo, o médico obteve a perda depeso de cada paciente, em cada grupo. Os valores são apresentados a seguir: Grupo Tratado Controle 12 1 14 0 12 0 9 1 14 0,5 14 1 9 0 Solução: - Para um nível de significância (𝛼𝛼) de 5% testar se as variâncias são iguais. - Fazer o teste para diferença entre médias (𝛼𝛼 = 5%). Passo 1 – Teste para igualdade de variâncias 𝐻𝐻0 ∶ 𝜎𝜎12 = 𝜎𝜎22 𝐻𝐻1 ∶ 𝜎𝜎12 > 𝜎𝜎22 �̅�𝑥1 = 12 �̅�𝑥2 = 0,5 𝑠𝑠12 = 5,00 𝑠𝑠22 = 0,25 F = 𝑠𝑠1 2 𝑠𝑠22 = 𝑚𝑚𝑇𝑇𝑖𝑖𝑚𝑚𝑚𝑚 𝑣𝑣𝑇𝑇𝑚𝑚𝑖𝑖â𝑛𝑛𝑐𝑐𝑖𝑖𝑇𝑇 𝑚𝑚𝑚𝑚𝑛𝑛𝑚𝑚𝑚𝑚 𝑣𝑣𝑇𝑇𝑚𝑚𝑖𝑖â𝑛𝑛𝑐𝑐𝑖𝑖𝑇𝑇 , tem distribuição F com (𝑛𝑛1 − 1) e (𝑛𝑛2 − 1) graus de liberdade. F = 500 0,25 = 20,00 𝐹𝐹𝑇𝑇𝑇𝑇𝑇𝑇 ((𝑛𝑛1−1);(𝑛𝑛2−1);∝) = 𝐹𝐹𝑇𝑇𝑇𝑇𝑇𝑇 (6;6;2,5%) = 5,82 F > 𝐹𝐹𝑇𝑇𝑇𝑇𝑇𝑇 → Rejeita-se 𝐻𝐻0 ∶ 𝜎𝜎12 = 𝜎𝜎22, ao nível de significância de 5%. Passo 2 – Teste t para diferença entre as médias 𝐻𝐻0 ∶ 𝜇𝜇1 = 𝜇𝜇2 𝐻𝐻1 ∶ 𝜇𝜇1 > 𝜇𝜇2 �̅�𝑥1 = 12 �̅�𝑥2 = 0,5 Prof. Jonas 𝑠𝑠12 = 5,00 𝑠𝑠22 = 0,25 • Estatística de teste para duas amostras: amostras pequenas e independentes, com variâncias populacionais diferentes: t = ( 𝑥𝑥1����− 𝑥𝑥2����)−( 𝜇𝜇1− 𝜇𝜇2) �𝑠𝑠1 2 𝑛𝑛1 +𝑠𝑠2 2 𝑛𝑛2 = ( 0,5− 12)−( 0) �57+ 0,25 7 = 13,25 v = �𝑠𝑠1 2 𝑛𝑛1 + 𝑠𝑠2 2 𝑛𝑛2 �² � 𝑠𝑠1 2 𝑛𝑛1 �² (𝑛𝑛1−1) + � 𝑠𝑠2 2 𝑛𝑛2 �² (𝑛𝑛2−1) = �57+ 0,25 7 �² �57�² (7−1)+ �0,257 �² (7−1) = 6,6 ≅ 6 gl 𝑡𝑡𝑇𝑇𝑇𝑇𝑇𝑇(6;5%) = − 2,45 t <𝑡𝑡𝑇𝑇𝑇𝑇𝑇𝑇(6;5%) → Rejeita-se 𝐻𝐻0 ∶ 𝜇𝜇1 = 𝜇𝜇2, ao nível de significância de 5%. Isto é, a perda de peso foi, em média, maior no grupo submetido à dieta. 5. Inferências sobre duas proporções Suposições: - Temos dois conjuntos independentes de dados amostrais selecionados aleatoriamente; - Em ambas as amostras se verificam as condições np ≥5 e nq≥ 5. 𝑛𝑛𝚤𝚤� = 𝑥𝑥𝑖𝑖 𝑛𝑛𝑖𝑖 , onde: 𝑛𝑛𝑖𝑖 , 𝑥𝑥𝑖𝑖 e 𝑛𝑛𝚤𝚤� - são, respectivamente, tamanho da amostra i, número de sucessos na amostra i e proporção da amostra i. 𝑛𝑛𝚤𝚤 � = 1 - 𝑛𝑛𝚤𝚤� Estimativa combinada de p1 e p2 ∶ p� - p1 e p2 – são, respectivamente, as proporções populacionais das populações 1 e 2. p� = 𝑥𝑥1+𝑥𝑥2 𝑛𝑛1+𝑛𝑛2 e, 𝑛𝑛� = 1 − �̅�𝑛 , é o complemento de �̅�𝑛 𝐻𝐻0 ∶ 𝑃𝑃1 = 𝑃𝑃2 𝐻𝐻0 ∶ 𝑃𝑃1 ≥ 𝑃𝑃2 𝐻𝐻0 ∶ 𝑃𝑃1 ≤ 𝑃𝑃2 Prof. Jonas 𝐻𝐻1 ∶ 𝑃𝑃1 < 𝑃𝑃2 𝐻𝐻1 ∶ 𝑃𝑃1 > 𝑃𝑃2 𝐻𝐻1 ∶ 𝑃𝑃1 ≠ 𝑃𝑃2 • Estatística de teste para duas proporções populacionais: z = (𝑝𝑝1�−𝑝𝑝2� )−( 𝑝𝑝1− 𝑝𝑝2) �𝑝𝑝𝑝𝑝����𝑛𝑛1 +𝑝𝑝𝑝𝑝����𝑛𝑛2 , onde: (𝑛𝑛1 − 𝑛𝑛2) = 0 𝑛𝑛𝚤𝚤� = 𝑥𝑥𝑖𝑖 𝑛𝑛𝑖𝑖 , para i = 1,2; p� = 𝑥𝑥1+𝑥𝑥2 𝑛𝑛1+𝑛𝑛2 𝑛𝑛� = 1 − �̅�𝑛 Ex. 11: Em um estudo publicado no “ Canadian Medical Association Journal “ em novembro de 1972, procurou-se investigar o efeito do uso de vitamina C na prevenção de resfriados. Para isso, realizou-se o seguinte experimento: por um determinado período de tempo, 407 indivíduos tomaram fortes doses de vitamina C e 411 receberam placebo. No grupo da vitamina, 105 participantes ficaram livres de doenças do trato respiratório, enquanto, no grupo placebo, esse número foi de apenas 76 participantes. O que os pesquisadores puderam concluir? (Use ∝ = 0,05). Solução: 𝐻𝐻0 ∶ 𝑛𝑛𝑐𝑐 = 𝑛𝑛𝑝𝑝 𝐻𝐻1 ∶ 𝑛𝑛𝑐𝑐 > 𝑛𝑛𝑝𝑝 𝑛𝑛𝑐𝑐 = 407 𝑛𝑛𝑝𝑝 = 411 𝑥𝑥𝑐𝑐 = 105 𝑥𝑥𝑝𝑝 = 76 𝑛𝑛𝑐𝑐� = 𝑥𝑥𝑐𝑐 𝑛𝑛𝑐𝑐⁄ = 105 407⁄ =0,26 𝑛𝑛𝑝𝑝� = 𝑥𝑥𝑝𝑝 𝑛𝑛𝑝𝑝⁄ = 76 411⁄ = 0,18 z = (𝑝𝑝1�−𝑝𝑝2� )−( 𝑝𝑝1− 𝑝𝑝2) �𝑝𝑝1�𝑝𝑝1� �������� 𝑛𝑛1 +𝑝𝑝2�𝑝𝑝2�𝑛𝑛2 = (0,26−0,18 )−(0) �0,26 (1−0,26) 407 + 0,18(1−0,18) 411 = 2,77 𝑧𝑧𝑇𝑇𝑇𝑇𝑇𝑇 = 𝑧𝑧(0,05)= 1,645 Prof. Jonas Conclusão: z > 𝑧𝑧𝑇𝑇𝑇𝑇𝑇𝑇 → Rejeita-se 𝐻𝐻0 ∶ 𝑛𝑛𝑐𝑐 = 𝑛𝑛𝑝𝑝, ao nível de significância de 5%. Isto é, rejeitamos a hipótese de que a proporção de pessoas que tomaram vitamina C e ficaram livres de doenças do trato respiratório é igual à proporção de pessoas que tomaram placebo e ficaram livres de doenças do trato respiratório, em favor da hipótese de que a proporção de pessoas livres de doenças do trato respiratório entre as que tomaram vitamina C é maior do que essa proporção entre as que tomaram placebo.