Prévia do material em texto
Introdução aos Testes de Hipóteses e Inferência estatística Prof.ª Dr.ª Andreia Alves da Costa Silveira O que fazem os testes de hipóteses? Com base em uma amostra, podemos inferir informações sobre uma população TESTE DE HIPÓTESES Amostra POPULAÇÃO hipótese, sobre o comportamento das variáveis. Resultados Reais Obtidos Decisão sobre admissibilidade da amostra. HIPÓTESE ESTATÍSTICA • Afirmativa a respeito de um parâmetro de uma distribuição de probabilidade. TESTE DE HIPÓTESES • Técnica para se fazer inferência estatística; • Permite aceitar ou rejeitar a hipótese estatística, a partir dos dados da amostra da população. TESTE DE HIPÓTESES • HIPÓTESE NULA: É a hipótese aceita como verdadeira, também chamada de H0. Geralmente representa o contrário do que queremos provar; Ou seja, A = B • HIPÓTESE ALTERNATIVA: Também chamada de H1, geralmente é formulada em termos de desigualdades, e comumente corresponde ao que se quer provar. Ou seja, A ≠ B EXEMPLO • As hipóteses podem ser: a) Substituindo o processador A pelo processador B, altera-se o tempo de resposta de um computador? Hipótese: O rendimento dos 2 processadores são iguais - H0: 𝜇𝐴 = 𝜇𝐵 Hipótese: O 2 rendimento dos 2 processadores são diferentes - H1: 𝜇𝐴 ≠ 𝜇𝐵 Quais são as formas de se chegar à uma mesma conclusão? Quais são as formas de se chegar à uma mesma conclusão? Quais são as formas de se chegar à uma mesma conclusão? Inferência P-valor Intervalo de confiança Tabelas padronizadas NÍVEL DE SIGNIFICÂNCIA • Representa a probabilidade tolerável de se rejeitar H0 quando esta for verdadeira; • Os valores mais comuns para o nível de significância são 5%, 10% e 1%; • é uma medida de quanta evidência você tem contra a hipótese nula. • Deve ser estabelecido ANTES do experimento ser realizado. ERROS • Tanto a hipótese nula, quanto a alternativa, pode ser verdadeira, mas não ambas. • O ideal seria rejeitar H0 falsa, e não rejeitar H0 verdadeira. • Isso nem sempre é possível. • É necessário considerar a possibilidade de erros, pois os testes são baseados em informações de amostras. Erros • Erro tipo II: é o erro que ocorre quando a análise estatística dos dados não consegue rejeitar uma hipótese, no caso desta hipótese ser falsa TIPOS DE ERROS Como evitar cometer os erros tipo I ou tipo II? • Realize a pesquisa utilizando métodos de aleatorização; • Colete os dados da maneira correta; • Realize uma amostragem de tamanho satisfatório; • Verifique se os dados estão “normalizados” e sem outliers (para isto, usar programa estatístico). Outlier – valor discrepante • Exemplo: Médias de uma amostra qualquer: • 45, 48, 40, 43, 43, 45, 46, 45, 97, 47, 50. Quais são as formas de se chegar à uma mesma conclusão? Inferência P-valor Intervalo de confiança Tabelas padronizadas Procedimento para cálculo utilizando tabelas • Normalmente, executa-se a estatística do teste utilizando um estimador, por exemplo: Equação de Z ou t. Procedimento para cálculo utilizando tabelas • Estabeleça o nível de confiança, por exemplo: 0,05, 0,01 ou 0,10 • Com o resultado calculado, compara-se com o valor tabelado Tabelas padronizadas Teste de hipótese bilateral ou bicaudal: Consideramos ambas as extremidades da distribuição por amostragem como zonas de rejeição. Exemplo de nível de significância de 0,05 ou 5% 2,5% 2,5% 95% Valor tabe lado Valor tabe lado Testes unilaterais: São os que consideramos apenas uma extremidade da distribuição por amostragem como zona de rejeição. Unilateral à direita: 95% 5% Valor tabe lado Como interpretar um teste por uma tabela padronizada • Se o valor calculado estiver dentro do valor tabelado, então aceita-se a hipótese H0 de que as amostras são iguais. • Se o valor calculado estiver acima do valor tabelado, então rejeita-se H0, pois as amostras são diferentes. Tabelas padronizadas TESTE T DE STUDENT Testes de 2 amostras Teste t de Student • Desenvolvido por Willian Sealy Gosset em 1908 que usou o pseudônimo “Student” em função da confidencialidade requerida por seu empregador (cervejaria Guiness) que considerava o uso de estatística na manutenção da qualidade como uma vantagem competitiva. • Usado ao se comparar duas (e somente duas) médias Teste t • é adequado para situações em que as respostas aos dois tratamentos são variáveis quantitativas com distribuição gaussiana com parâmetros µ e σ Teste t • Suposição do teste: as variáves estudadas têm distribuições gaussianas com o mesmo desvio-padrão. Procedimento para calcular o teste t • Para testar a hipótese: • coletamos uma amostra de tamanho n1 no grupo 1 e uma amostra de tamanho n2 no grupo 2. • A partir desses dados, calculamos as médias ( e ) e os desvio-padrão ( e ) dos dois grupos. Procedimento para calcular o teste t • O critério de decisão para se testar a hipótese nula acima consiste em rejeitar H0 se: • é "grande", em que é o desvio- padrão da diferença entre e Então... • Se o objetivo é comparar 2 amostras independentes... • E n é menor que 30... • Usa-se o teste t de Student Procedimento para realizar o teste t por meio de tabela • Calcule as estatísticas descritivas (média e variância) das duas amostras; • Execute a estatística t de Student conforme a equação • Compare com a tabela Exemplo • Dez cobaias foram submetidas ao tratamento de engorda com certa ração. Os pesos em gramas, antes e após o teste são dados a seguir (supõe-se que provenham de distribuições normais). • A 1% de significância, podemos concluir que o uso da ração contribuiu para o aumento do peso médio dos animais? Cobaia 1 2 3 4 5 6 7 8 9 10 Antes 635 704 662 560 603 745 698 575 633 669 Depois 640 712 681 558 610 740 707 585 635 682 1) Enunciar as hipóteses • queremos verificar se a média antes é menor do que a média depois; • o melhor ponto de partida, que servirá para a definição da hipóteses H0, é que a dieta NÃO FAZ EFEITO, ou seja as médias antes e após o tratamento são iguais 1) Enunciar as hipóteses • (costumamos colocar em H0 o CONTRÁRIO do que queremos provar), ou seja a DIFERENÇA ENTRE AS MÉDIAS DEVE SER SUPOSTAMETE IGUAL A ZERO, teremos então: • H0: as rações não tem diferença • H1: as rações possuem diferença 2) Estabelecer o nível de significância ou nível de confiança. 3) Identificar a variável de teste • No presente problema temos uma amostra de apenas 10 elementos. • Como a amostra tem menos de 30 elementos usa-se a estatística t de Student 4) Definir a região de aceitação de H0, de acordo com o tipo de teste e variável. • Trata-se de um teste unilateral (com 1% de significância (α), OU 0,01), e a variável de teste é tn-1 (a amostra tem 10 elementos), então o valor crítico (obtido da tabela da distribuição t de Student) será: 2,821 • Para verificar a tabela, observe o valor do α e o Grau de Liberdade - GL • Graus de liberdade (GL) = n – 1 • Então GL = 10 – 1 • GL = 9 • Sugestão:calcule as médias e depois o S2 Cobaia 1 2 3 4 5 6 7 8 9 10 Antes 635 704 662 560 603 745 698 575 633 669 Depois 640 712 681 558 610 740 707 585 635 682 • Média de “Antes” (A): 𝑥 = 648,4 • Desvio padrão de A: σ = 58,85 (obtido na calculadora) • Variância de A: σ2 = 3463,6 • Média de “Depois” (D): 𝑥 = 655,0 • Desvio padrão de D: σ = 59,20 (obtido na calculadora) • Variância de D: σ2 = 3504,67 Então as variâncias são diferentes • Usar a segunda equação 𝑡 = 655,0 − 648,4 3463,6 10 + 3504,67 10 Como montar a equação na calculadora científica 𝑡 = 655,0 − 648,4 3463,6 10 + 3504,67 10 Na calculadora: (655 - 648,4) ÷ ( (3463,6 ÷ 10) + (3504,67 ÷ 10)) Obs: Coloca-se 2 “parênteses no fim por causa do parêntese antes da raiz quadrada • Valor calculado: 0,01788 Analisando a tabela • Considere o valor tabelado como um limite para que as amostras tenham ou não diferença • Se o valor calculado ultrapassar o valor tabelado, as amostras são diferentes • Se o valor calculado não atingir o valor tabelado, então as amostras não diferem Conclusão: Ambas as rações possuem igual eficiência na engorda dos animais • Valor calculado: 0,01788 • Valor tabelado: 2,821 • Não rejeita-se a hipótese H0 de nulidade • Motivo: Valor calculado < valor tabelado Exercício • Um profissional faz parte da Comissão interna de prevenção de acidentes – Cipa de um laboratório. • Interessado em saber sobre os acidentes de trabalho de 2 laboratórios da rede, ele coletou os seguintes dados: Médias de acidentes de trabalho em dois laboratórios da rede em um semestre As médias dos dois laboratórios diferem estatisticamente? Mês de coleta Laboratório A Laboratório B Janeiro 4 15 Fevereiro 10 11 Março 27 2 Abril 11 30 Maio 1 22 Junho 15 0 Quais são as formas de se chegar à uma mesma conclusão? Inferência Tabelas padronizadas P-valor Intervalo de confiança VALOR-P • Probabilidade da estatística do teste acusar um resultado tão (ou mais) distante do esperado quanto o resultado ocorrido na amostra observada, supondo H0 como a hipótese verdadeira; • Quanto menor for o p-valor, mais evidência à de se rejeitar a hipótese nula. p-valor também denominado nível descritivo do teste, é a probabilidade de que a estatística do teste (como variável aleatória) tenha valor extremo em relação ao valor observado (estatística) quando a hipótese H0 é verdadeira. Quais são as formas de se chegar à uma mesma conclusão? Inferência Tabelas padronizadas P-valor Intervalo de confiança Intervalo de confiança Se o α for de 0,10 ou 10%??? Intervalo de confiança para a média