Prévia do material em texto
28 Unidade I • Não autocorrelação dos erros: Cov[ei, xj | xi, xj] = E[ei, xj | xi, xj] = 0. O erro de uma observação não pode estar correlacionado com o erro de outra observação. Portanto, a covariância é igual a zero (o resultado em qualquer experimento não tem efeito no termo do erro de qualquer outro experimento). Eles devem ser independentes. Os dados são usados para estimar α e β, isto é, ajustar o modelo aos dados, para: • quantificar a relação entre Y e X; • usar a relação para predizer uma nova resposta Y0 para um dado valor de X0 (não incluído no estudo); • calibração: — capacidade de predição de novas observações; pode ser feita usando uma nova amostra e comparando os valores estimados com os observados. — dado um valor de Y0, para o qual o correspondente valor de X0 é desconhecido, estimar o valor de X0. Lembrete Quando falamos na hipótese de linearidade, estamos falando de linearidade dos parâmetros. Não importa se temos como variável X, ex ou log (X). O fundamental é que o parâmetro β esteja multiplicando qualquer uma dessas variáveis. Outra questão envolvendo as variáveis observadas são as unidades de medida. Quando multiplicamos os valores observados por uma constante k (exemplo: se a renda for medida em reais e depois quisermos medi-la em milhares de reais, bastará dividir os valores por 1.000. Neste caso, k = 1/1.000), temos que adotar as seguintes regras: Quadro 1 – Unidade de medidas das variáveis observadas Somente X multiplicado por k Somente Y multiplicado por k X e Y multiplicado por k α Não se altera Multiplique por k Multiplique por k β Divida por k Multiplique por k Não se altera r2 Não se altera 29 ECONOMETRIA Existem alguns fenômenos que podem ser representados por um modelo linear depois de sofrer alguma transformação de variáveis. A utilização do diagrama de dispersão pode nos auxiliar a decidir qual a melhor transformação indicada para cada fenômeno em estudo – portanto, estamos optando por regressão com variáveis transformadas. Exemplo: função exponencial ou semilogarítmica I: Y = a . bx (forma original, não linear) aplicando a transformação indicada ln Y = Ina + blnX (forma linearizada por transformação), tendo como restrições das variáveis na forma transformada Y>0 e X>0. 2.2 Método de estimação Seria desejável a existência de um método que levasse sempre a bons estimadores. Infelizmente, não existe esse método geral aplicável a todas as situações. Entre os principais métodos de estimação (o dos momentos, o da máxima verossimilhança e o dos mínimos quadrados), o mais utilizado é o estimador de mínimos quadrados ordinários (MMQO), que tem como objetivo minimizar a soma do quadrado dos erros. O critério dos mínimos quadrados é o seguinte: a “linha que melhor se ajusta” é aquela que minimiza a soma dos desvios quadrados dos pontos do diagrama dos pontos da linha reta (desvios estes que são medidos verticalmente). N 2 i i i 1 Minimizar (Y )Ŷ = −∑ Valores ajustados Linha dos mínimos quadrados Xi X Y Yi Ŷi Desvio: Yi - Ŷi Ŷ = a + bX Figura 10 – Linha dos mínimos quadrados: desvios Entre alguns métodos que existem para estimar os parâmetros a e b, o mais refinado é o método dos mínimos quadrados (MMQ), que consiste em tornar mínima a soma dos desvios em torno da reta estimada. Esse método encontra a reta que minimiza a distância vertical entre cada observação (ponto) e a própria reta. Designando-se por ei o desvio entre um valor observado yi e um valor ajustado ŷi, isto é, ei = (yi - ŷi), a e b são os valores que minimizam a soma de quadrados: 30 Unidade I ( ) [ ] n n2 2 i i i i i 1 i 1 Minimizar Y Y Y (aˆ bx ) = = − = − +∑ ∑ Com base nas fórmulas, podemos calcular, então, os coeficientes de regressão: xy xx S b S = y x a y bx b n n = − = −∑ ∑ em que calculamos: ∑xi = 4.493,20 ∑yi = 2.847,00 ∑xiyi = 698.662,81 ∑xi 2 = 1.098.893,80 ∑yi 2 = 444.685,02 ( ) ( )i i xy i i x y S x y n = − ∑ ∑∑ ( ) xy 4.493,20 2.847,00 S 698.662,81 25.392,26 19 × = − = ( )2 i2 xx i x S x n = − ∑∑ ( )2 xx 4.493,20 S 1.098.893,80 36.322,95 19 = − = ( )2 i2 yy i y S y n = − ∑∑ ( )2 yy 2.847,00 S 444.685,02 18.084,55 19 = − = 31 ECONOMETRIA ( )2 22 n xy x y 19 698.662,81 4.493,20 2.847,00 482.452,99 b 0,6991 690.135,9619 1.098.893,80 (4.493,20)n x x − × − × = = = ≅ × −− ∑ ∑ ∑ ∑ ∑ y x 2.847,00 4.493,20 a y bx b 0,6991 15,48 n n 19 19 = − = − = − × ≅ −∑ ∑ Portanto, a equação da reta de regressão é: ŷ = - 15,48 + 0,6991x Respeitando as hipóteses do modelo de regressão linear, o Teorema de Gauss-Markov aponta que os estimadores de mínimos quadrados são os melhores estimadores lineares não viesados (não viciados ou imparciais). Isso quer dizer o seguinte: • Os estimadores de MQO são não viesados, isto é, o valor esperado de cada estimador é igual ao parâmetro que se deseja estimar: E(b0) = β0 e E(b1) = β1. Não viciado ou imparcial é uma propriedade que assegura que, em média, o estimador é correto. • Estimadores que são funções lineares e não são viesados – ou seja, os estimadores MQO – são mais precisos (isto é, as suas distribuições amostrais têm a menor variância possível) do que quaisquer outros estimadores pertencentes à classe dos estimadores não tendenciosos. Porém, o teorema nada nos diz se o estimador de MQO é melhor do que um estimador não linear. Um caso especial em que o intercepto da reta é 0 (zero) passa pela origem, isto é, α = 0. A equação da reta se reduz a: Yi = βXi + ei O estimador para β (coeficiente angular da reta ou inclinação) expressa a taxa de mudança em Y, isto é, a mudança em Y quando ocorre a mudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidade de Y por unidade de acréscimo em X: N i ii 1 N 2 ii 1 x y x = = β = ∑ ∑ Neste caso específico, devemos considerar: • O coeficiente de determinação (R2) não necessariamente é um valor entre 0 e 1, podendo ser negativo. 32 Unidade I • Não se confirma a conclusão de que R2 = Corr (X e Y)2. • Não se garante que a reta ajustada passe pelo ponto médio (X, Y). • O estimador de β será não viesado somente se α = 0. Veja as fórmulas a seguir: ( ) 2 N 2 ii 1 Var x = σ β = ∑ N 2 i2 i 1̂ˆ u N 1 =σ = − ∑ Podemos ter N i i 1 u 0 = ≠∑ . Portanto, estamos interessados na relação entre as duas variáveis (Y: consumo e X: renda). Observamos pares de valores X e Y em cada amostra e vamos usá-los para dizer alguma coisa sobre a relação: ŷ = - 15,48 + 0,6991x Nota-se que as estimativas dos parâmetros dão um conteúdo empírico para a função consumo. Dados observacionais: geralmente X e Y são variáveis aleatórias, e o acento circunflexo indica uma estimativa. Observação Estimador, também conhecido como uma estatística destinada a estimar um parâmetro da população, é simplesmente uma regra, fórmula ou método que nos diz como estimá-lo a partir de uma amostra. Dada uma amostra, o valor assumido pelo estimador é chamado de estimativa ou valor estimado do parâmetro. As estimativas obtidas por meio da estatística variam de acordo com a amostra selecionada. A diferença entre estatística e estimativa é que a estatística é uma variável aleatória, enquanto a estimativa é um particular valor dessa variável aleatória. 33 ECONOMETRIA 2.3 Conceito de função de regressão populacional (FRP) e função de regressão amostral (FRA) A função de regressão populacional (FRP) é a seguinte: E(Y/Xi) = f(Xi) A média condicional é uma função de Xi em que f(Xi) indica alguma função da variável explicativa Xi. Essa equação é conhecida como função de regressão populacional (FRP) (ou equação de regressão linear) de duas variáveis. Como uma primeira aproximação ou uma hipótese de trabalho, podemos supor que FRP E(Y/Xi) seja uma função linear de Xi, do tipo: E(Y/Xi) = β1 + β2Xi Onde: β1: intercepto; β2: coeficiente de inclinação. Especificação estocástica: Yi = β1 + β2Xi + ui Onde: ui é uma variável aleatória não observável quepode assumir valores positivos ou negativos, também conhecida como termo de erro estocástico ou perturbação estocástica. Já a função de regressão amostral (FRA), na maioria das situações práticas, é somente uma amostra de valores Y correspondentes e alguns Xs fixos. A nossa tarefa é estimar a FRP com base nas informações da amostra. Analogamente à FRP, que fundamenta a reta de regressão da população, podemos desenvolver o conceito de função de regressão amostral (FRA) para representar a reta de regressão amostral. A amostra contrapartida da equação que acabamos de apresentar pode ser escrita como: Y Xi Ŷi = β̂1 + β̂2Xi Onde: Ŷi: estimador de E(Y/Xi); 34 Unidade I β̂1: estimador de β1; β̂2: estimador de β2. Podemos expressar a FRA por sua fórmula estocástica: Ŷi = β̂1 + β̂2Xi + ui Nosso objetivo na análise de regressão é estimar a função de regressão populacional (FRP): População (universo de análise) Yi = α + βXi + ei (FRP) Parâmetros: α, β Amostra (dados observados) Ŷi = α̂ + β̂Xi + ei (FRA) Estimados: α̂, β̂ Estimação de parâmetros Figura 11 – Estimadores e parâmetros Por essa estimativa, podemos ver que o coeficiente de declividade é de aproximadamente 0,70, o que sugere que um aumento de um real na renda real provocará em média um aumento de 0,70 centavos na despesa real de consumo. Dissemos em média porque a relação entre o consumo e renda é inexata, como mostra a reta de regressão. Veja a figura a seguir, conforme dados do IBGE: 150 200 250 300 350 100 120 140 160 180 200 220 De sp es a de c on su m o - R$ (b ilh õe s) Renda - R$ (bilhões) y = 0,6991x - 15,477 R2 = 0,9816 Figura 12 – Ajuste da reta: renda e despesa de consumo no Brasil de 1996 a 2014 35 ECONOMETRIA 3 TESTE DE HIPÓTESES É importante também aplicarmos o teste de hipóteses ao nosso modelo de regressão. Na hipótese nula, os valores de x não têm qualquer relacionamento com os valores de y. Veja: H0 : β = 0 H0 : β ≠ 0 (teste bilateral) A hipótese nula é confirmada pela equação Ŷi = a +bXi + ei quando se constata que não haverá qualquer relação entre x e y se o verdadeiro valor do coeficiente angular for zero. Como ( ) ( ) 2 i 2 i b t y y / (n 2) x x ˆ − β = − − − ∑ ∑ a equação tem distribuição t com n - 2 graus de liberdade. Decorre que, se β = 0, então a estatística será: ( ) ( ) 2 i 2 i b t y y / (n 2) x x ˆ = − − − ∑ ∑ Podemos calcular o valor dessa estatística. Portanto, a equação da reta de regressão é: ŷ = - 15,48 + 0,6991x Testamos a existência do efeito de regressão entre duas variáveis em estudo. A hipótese nula é de não existência de regressão, enquanto a hipótese alternativa é aquela que contempla a regressão. Assim, o teste de hipótese será delineado: 36 Unidade I Tabela 3 – Teste de hipótese (H0 : β = 0) Hipótese nula H0 : β = 0 Valor da estatística de teste ( ) ( ) obs 2 i 2 i b t y y / (n 2) x ˆ x = − − − ∑ ∑ Hipótese alternativa Intervalo de rejeição (nível α) H0 : β ≠ 0 tobs > tn - 2; α No teste para β, calculamos a região crítica (RC) ao nível de significância de 5%. Podemos calcular o valor dessa estatística conforme a tabela a seguir, baseada em números do IBGE: Tabela 4 – Renda, consumo e resíduo Renda Consumo Ano xi Yi Ŷi ei (Yi - Ŷi)2 (Xi - X)2 1996 180,4 116,1 111 5,46 29,86 3145,44 1997 186,5 119,6 115 4,70 22,09 2498,42 1998 187,2 118,7 115 3,31 10,96 2428,93 1999 188,0 119,2 116 3,25 10,57 2350,72 2000 196,3 124,0 122 2,25 5,06 1614,77 2001 199,0 125,0 124 1,36 1,85 1405,07 2002 205,1 126,6 128 -1,30 1,70 984,97 2003 207,4 125,9 130 -3,61 13,03 845,89 2004 219,4 130,8 138 -7,10 50,40 291,87 2005 226,4 136,6 143 -6,19 38,35 101,69 2006 235,4 143,9 149 -5,18 26,88 1,18 2007 249,6 153,0 159 -6,01 36,13 172,02 2008 262,4 162,9 168 -5,06 25,59 671,63 2009 262,0 170,2 168 2,52 6,35 651,06 2010 281,8 180,8 182 -0,72 0,52 2053,52 2011 292,8 189,4 189 0,19 0,04 3171,47 2012 298,4 196,0 193 2,87 8,26 3833,56 2013 307,4 202,8 199 3,38 11,44 5029,05 2014 307,7 205,5 200 5,87 34,49 5071,69 ∑ 4.493,20 2.847,00 2.847,00 0,00 333,5904 36,322,9453