Prévia do material em texto
ESTATÍSTICA 47 Deste modo, temos que INFERÊNCIA ESTATÍSTICA. ESTIMAÇÃO PONTUAL: MÉTODOS DE ESTIMAÇÃO, PROPRIEDADES DOS ESTI- MADORES, SUFICIÊNCIA. ESTIMAÇÃO INTERVALAR: INTERVALOS DE CONFIANÇA, INTERVALOS DE CREDI- BILIDADE. TESTES DE HIPÓTESES: HIPÓTESES SIMPLES E COMPOSTAS, NÍVEIS DE SIGNIFICÂNCIA E POTÊNCIA DE UM TESTE, TESTE T DE STUDENT, TESTE QUI-QUA- DRADO Inferência Inferência estatística é um ramo da Estatística cujo objetivo é fazer afirmações a partir de um conjunto de valores representativo (amostra) sobre um universo. Tal tipo de afirmação deve sempre vir acompanhada de uma medida de precisão sobre sua veracidade. Para realizar este trabalho o estatístico coleta informações de dois tipos, experimentais (as amostras) e aquelas que obtém na literatu- ra. As duas principais escolas de inferência são a inferência frequen- tista (ou clássica) e a inferência bayesiana. A inferência estatística é geralmente distinta da estatística descritiva. A descrição estatística pode ser vista como a simples apresentação dos fatos, nos quais o modelo de decisões feito pelo analista tem pouca influência. É natural que análises estatísticas avancem, indo da descrição para a inferência de padrões. Essa última tarefa depende do modelo usado e/ou criado pelo analista dos dados. Inferência frequentista é um tipo de inferência estatística. O conceito frequentista de probabilidade envolve basicamente uma sequência de repetições para um determinado evento, tratado como um subconjunto de Θ. A ideia da repetição justifica a denomi- nação “teoria frequentista”. A teoria baseia-se na regularidade es- tatística das frequências relativas e sustenta que a probabilidade de um dado acontecimento pode ser medida observando a frequência relativa do mesmo acontecimento, em uma sucessão numerosa de experiências idênticas e independentes. Para exemplificar a inter- pretação frequentista, considera-se uma moeda irregular (viciada) lançada 1000 vezes, e observam-se a face cara 540 vezes. Portanto, a probabilidade estimada de sair cara é 0,54. Inferência bayesiana é um tipo de inferência estatística que descreve as incertezas sobre quantidades invisíveis de forma pro- babilística. Incertezas são modificadas periodicamente após ob- servações de novos dados ou resultados. A operação que calibra a medida das incertezas é conhecida como operação bayesiana e é baseada na fórmula de Bayes. A fórmula de Bayes é muitas vezes denominada Teorema de Bayes. Em teoria da probabilidade o Teorema de Bayes mostra a re- lação entre uma probabilidade condicional e a sua inversa; por exemplo, a probabilidade de uma hipótese dada a observação de uma evidência e a probabilidade da evidência dada pela hipótese. Esse teorema representa uma das primeiras tentativas de mode- lar de forma matemática a inferencia estatística, feita por Thomas Bayes (pronunciado /ˈbeɪz/ ou “bays”). O teorema de Bayes é um corolário do teorema da probabilidade total que permite calcular a seguinte probabilidade: - Pr (A) e Pr (B) são as probabilidades a priori de A e B - Pr (B|A) e Pr (A|B) são as probabilidades a posteriori de B condicional a A e de A condicional a B respectivamente. ESTATÍSTICA 48 A regra de Bayes mostra como alterar as probabilidades a priori tendo em conta novas evidências de forma a obter probabilidades a posteriori. Podemos aplicar o Teorema de Bayes com o jogo das três portas. Alguns preferem escrevê-lo na forma: A ideia principal é que a probabilidade de um evento A dado um evento B (e.g. a probabilidade de alguém ter câncer de mama saben- do, ou dado, que a mamografia deu positivo para o teste) depende não apenas do relacionamento entre os eventos A e B (i.e., a precisão, ou exatidão, da mamografia), mas também da probabilidade marginal (ou “probabilidade simples”) da ocorrência de cada evento. Por exemplo, se as mamografias acertam em 95% dos testes, então 5% é a probabilidade de termos falso positivo ou falso negativo, ou uma mistura de falso positivo a falso. O teorema de Bayes nos permite calcular a probabilidade condicional de ter câncer de mama, dado uma mamografia positiva, para qualquer um desses casos. A probabilidade de uma mamografia positiva será diferente para cada um dos casos. No exemplo dado, há um ponto de grande importância prática que merece destaque: se a prevalência de mamografias resultado positivo para o câncer é, digamos, 5,0%, então a probabilidade condicional de que um indivíduo com um resultado positivo na verdade não tem câncer é bastante pequena, já que a probabilidade marginal deste tipo de câncer está mais perto de 1,0%. A probabilidade de um resultado positivo é, portanto, cinco vezes mais provável que a probabilidade de um câncer em si. Além disso, alguém pode deduzir que a probabilidade condicional que mamografias positivas realmente tenham câncer é de 20%. Isso poderia ser menor, se a probabilidade condicional que dado um câncer de mama, a mamografia sendo positiva não é de 100% (i.e. falso negativos). Isso serve para mostrar a utilidade do entendimento do teorema de Bayes. Estimação pontual Estimador pontual Θ^ : Função dos valores x1, x2, … , xn da amostra multidimensional X1,X2, … ,Xn que, se tiver um dado conjunto de propriedades, dá um valor aproximado Θ^ para um parâmetro Θ da distribuição da população. Exemplos: - A média amostral é um estimador da média populacional - A variância amostral é um estimador da variância da população Propriedades Desejáveis dos Estimadores Pontuais Estimador Não-enviesado (centrado/sem distorção): Enviesamento do estimador Θ^ = E(Θ^) - Θ Quando o Enviesamento = 0 , o esti- mador diz-se não-enviesado. - Média Amostral: E(X~) = E(X) = μX - A média amostral é um estimador sempre não-enviesado do valor esperado, qualquer que seja a distribuição populacional. - Desvio Quadrático Médio Amostral (DQM) = (N-1)/M . σX 2 ≠ σX 2 - O DQM é um estimador sempre enviesado, de enviesamento = - σX 2 / N - Variância Amostral: S2 = 1/(N-1) . ∑ n=1 → N (Xn - X~)2 = N/(N-1) . DQM = σX 2 - A variância amostral é um estimador sempre não-enviesado da variância populacional, qualquer que seja a distribuição populacional. Estimador Eficiente - Um estimador é tanto “melhor” quanto menor for a sua variância. - O estimador Θ^1 é melhor do que o estimador Θ^2 Exemplo: - Variância da média amostral = σX 2 - Variância da mediana amostral = σX 2 * π/2 A média amostral é um melhor estimador, pois tem a menor variância (é mais eficiente) - Eficiência = E [ (Θ^ - Θ)2 ] = σΘ^ 2 + (EnviesamentoΘ^) 2 Estimador Consistente Um estimador diz-se consistente quando, para qualquer δ > 0 , limn→oo P[|Θ^ - Θ|pelo coeficiente de confiança , para . Intervalos de confiança são usados para indicar a confiabilidade de uma estimativa. Por exemplo, um IC pode ser usado para descrever o quanto os resultados de uma pesquisa são confiáveis. Sendo todas as estimativas iguais, uma pesquisa que resulte num IC pequeno é mais confiável do que uma que resulte num IC maior. Se e são estatísticas (isto é, funções da amostra) cuja distribuição de probabilidade dependa do parâmetro , e então o intervalo aleatório é um intervalo de confiança com nível para . Portanto, podemos interpretar o inter- valo de confiança como um intervalo que contém os valores “plausíveis” que o parâmetro pode assumir. Assim, a amplitude do intervalo está associada a incerteza que temos a respeito do parâmetro. Considere uma amostra aleatória retirada de uma população com distribuição que depende do parâmetro . Por exemplo, tomamos uma amostra aleatória com distribuição normal com média desconhecida e desvio padrão co- nhecido . Para propormos um intervalo de confiança para o parâmetro , vamos introduzir o conceito de quantidade pivotal. Uma função da amostra e do parâmetro cuja distribuição de probabilidade não depende do parâmetro é denominada quantidade pivotal. Desta forma, dado o nível de confiança , tomamos Se a quantidade pivotal for inversível, podemos resolver a inequação acima em relação a e obter um intervalo de confiança. Motivação Suponha que queiramos estimar a média de uma população com distribuição normal com variância conhecida. O estimador de máxima verossimilhança para a média populacional é dado pela média amostral de uma amostra de tamanho . Assim, temos a seguinte quantidade pivotal . Para interpretar o intervalo de confiança da média, assumimos que os valores foram amostrados de forma independente e aleatória de um população com distribuição normal com média e variância . Dado que estas suposições são válidas, temos 95% de “chance” do intervalo conter o verdadeiro valor da média populacional. Em outras palavras, se produzirmos diversos intervalos de confiança prove- nientes de diferentes amostras independentes de mesmo tamanho, podemos esperar que aproximadamente 95% destes intervalos devem conter o verdadeiro valor da média populacional. ESTATÍSTICA 50 Testes de hipóteses As hipóteses a serem testadas, retirar as amostras das populações a serem estudadas, calcular as estatísticas delas e, por fim, deter- minar o grau de aceitação de hipóteses baseadas na teoria de decisão, ou seja, se uma determinada hipótese será validada ou não. Para decidir se uma hipótese é verdadeira ou falsa, ou seja, se ela deve ser aceita ou rejeitada, considerando uma determinada amos- tra, precisamos seguir uma série de passos: 1) Definir a hipótese de igualdade (H0) e a hipótese alternativa (H1) para tentar rejeitar H0 (possíveis erros associados à tomada de decisão). 2) Definir o nível de significância (α). 3) Definir a distribuição amostral a ser utilizada. 4) Definir os limites da região de rejeição e aceitação. 5) Calcular a estatística da distribuição escolhida a partir dos valores amostrais obtidos e tomar a decisão. 1) Formular as hipóteses (Ho e H1). Primeiramente, vamos estabelecer as hipóteses nula e alternativa. Para exemplificar, você deve considerar um teste de hipótese para uma média. Então, a hipótese de igualdade é chamada de hipótese de nulidade ou Ho. Suponha que você queira testar a hipótese de que o tempo médio de ligações é igual a 50 segundos. Então, esta hipótese será simbolizada da maneira apresentada a seguir: Ho: μ = 50 (hipótese de nulidade) Esta hipótese, na maioria dos casos, será de igualdade. Se você rejeitar esta hipótese, vai aceitar, neste caso, outra hipótese, que cha- mamos de hipótese alternativa. Este tipo de hipótese é simbolizado por H1 ou Ha. 2) Definir o nível de significância. O nível de significância de um teste é dado pela probabilidade de se cometer erro do tipo I (ocorre quando você rejeita a hipótese Ho e esta hipótese é verdadeira). Com o valor desta probabilidade fixada, você pode determinar o chamado valor crítico, que separa a chamada região de rejeição da hipótese Ho da região de aceitação da hipótese Ho. 3) Definir a distribuição amostral a ser utilizada. A estatística a ser utilizada no teste, você definira em função da distribuição amostral a qual os dados seguem. Se você fizer um teste de hipótese para uma média ou diferença entre médias, utilize a distribuição de Z ou t de Student. Outro exemplo é se você quiser compa- rar a variância de duas populações, então deverá trabalhar com a distribuição F, ou seja, da razão de duas variâncias. 4) Definir os limites da região de rejeição. Os limites entre as regiões de rejeição e aceitação da hipótese Ho, você definirá em função do tipo de hipótese H1, do valor de (nível de significância) e da distribuição amostral utilizada. Considerando um teste bilateral, você terá a região de aceitação (não-rejeição) com uma probabilidade de 1- α e uma região de rejeição com probabilidade α (α/2 + α/2). Através da amostra obtida, você deve calcular a estimativa que servirá para aceitar ou rejeitar a hipótese nula. 5) Tomar a decisão. Para tomar a decisão, você deve calcular a estimativa do teste estatístico que será utilizado para rejeitar ou não a hipótese Ho. A es- trutura deste cálculo para a média de forma generalista é dada por: Podemos exemplificar pela distribuição de Z, que será: ESTATÍSTICA 51 Se o valor da estatística estiver na região crítica (de rejeição), rejeitar Ho; caso contrário, aceitar H0. O esquema a seguir mostra bem a situação de decisão. Teste de hipótese para média populacional Quando você retira uma amostra de uma população e calcula a média desta amostra, é possível verificar se a afirmação sobre a média populacional é verdadeira. Para tanto, basta verificar se a estatística do teste estará na região de aceitação ou de rejeição da hipótese Ho. Aqui você tem três situações distintas: 1ª) se o desvio-padrão da população é conhecido ou a amostra é considerada grande (n >30), a distribuição amostral a ser utilizada será da Normal ou Z e a estatística-teste que você utilizará será: Onde x: média amostral; μ: média populacional; σ: desvio padrão populacional e n: tamanho da amostra. 2ª) agora, se você não conhecer o desvio-padrão populacional e a amostra for pequena, então, a distribuição amostral a ser utilizada será a t de Student, e a estatística teste será: Onde x: média amostral; μ: média populacional; s: desvio-padrão amostral e n: tamanho da amostra. 1. Estabelecer as hipóteses: Fixamos H0: μ = μ0. Dependendo da informação que fornece o problema que estivermos estudando, a hipótese alternativa pode ter uma das três formas abaixo: • H1: μ ≠ μ0 (teste bilateral); • H1: μ > μ0 (teste unilateral à direita); • H1: μ