Prévia do material em texto
MÉTODOS ESTATÍSTICOS Olá! Nesta Unidade de Aprendizagem, você terá a oportunidade de estudar um dos métodos estatísticos mais utilizados: a regressão linear simples. Ao longo do conteúdo, você será introduzido às características desse modelo e aprenderá como avaliar sua significância estatística, além de aplicá-lo por meio de recursos computacionais. Além disso, será possível avaliar a qualidade do ajuste da reta aos dados e entender como essa avaliação é importante para a tomada de decisões baseadas em resultados estatísticos confiáveis. Por fim, o uso de recursos computacionais irá facilitar a aplicação desse modelo, tornando a análise de dados mais rápida e eficiente. Bons estudos! AULA 6 - REGRESSÃO LINEAR SIMPLES Nesta aula, você vai conferir os contextos conceituais da psicologia entenderá como ela alcançou o seu estatuto de cientificidade. Além disso, terá a oportunidade de conhecer as três grandes doutrinas da psicologia, behaviorismo, psicanálise e Gestalt, e as áreas de atuação do psicólogo. Compreender o conceito de psicologia Identificar as diferentes áreas de atuação da psicologia Conhecer as áreas de atuação do psicólogo. Nesta Unidade de Aprendizagem, você estudará as características de um modelo de regressão linear simples, avaliando sua significância e aplicando por meio de recurso computacional. Identificar as características de um modelo de regressão linear simples. Avaliar a significância do modelo de regressão linear simples. Aplicar a regressão linear simples com o uso de recurso computacional. 6 CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES Duas variáveis podem correlacionar-se de diversas formas, pois o distribuição dos dados comportamento dos dados pode aproximar-se de uma exponencial, de uma parábola, de um logaritmo. Mas o modelo mais frequentemente utilizado é o de ajuste linear, através do qual podemos resumir os dados de uma amostra em uma reta e, posteriormente, realizar projeções, se o ajuste for significativo. No modelo de regressão simples, temos duas variáveis: uma independente, denominada de x, e uma dependente, y. Na literatura, os termos variáveis dependente e variável explicativa são descritos de vários modos, conforme representado na Figura 1, a seguir. Figura 1 – Terminologias para variáveis x e y Fonte: Gujarati e Porter (2011, p.44). A análise de dados bivariados (isto é, com duas variáveis) inicia-se geralmente com um gráfico de dispersão, que apresenta cada par de dados observados (xi , yi ) como um ponto em um gráfico X-Y. Esse diagrama fornece uma indicação visual da intensidade da relação ou da associação entre as duas variáveis (DOANE; SEWARD, 2014). Com o diagrama de dispersão podemos verificar o comportamento dos dados e, assim, optar ou não por realizar uma análise de regressão linear simples, ou por algum outro ajuste. A correlação entre essas duas variáveis pode ser direta, ou seja, a variável x aumenta e explica o aumento da variável y. Ou inversa, ou seja, a variável x aumenta e explica a diminuição da variável y. Na Figura 2, podemos visualizar graficamente uma correlação direta (ou positiva), uma correlação inversa (ou negativa) e uma ausência de relação, por meio de representações das retas de regressão de cada um dos modelos. Figura 2 – Tipos de correlação linear Fonte: Freund (2007). Realizada essa análise gráfica e verificado o comportamento linear, passamos a calcular a intensidade dessa correlação e o poder explicativo da variável independente. Além de chegar à correlação, podemos estimar a reta de regressão que resume os dados. 6.1 Coeficiente de correlação A análise de correlação, cujo principal objetivo é medir a intensidade da associação linear entre duas variáveis, está estreitamente relacionada à análise de regressão, mas conceitualmente é muito diferente. O coeficiente de correlação mede a força dessa associação (linear). Na análise de regressão, não estamos interessados primordialmente nessa medida. Em vez disso, buscamos estimar ou prever o valor médio de uma variável com base nos valores fixos de outras (GUJARATI; PORTER, 2011). O resultado do coeficiente de correlação de Pearson varia entre –1 e 1: quanto mais próximo de 1 ou de –1, mais forte será a correlação. Uma correlação negativa indica uma correlação inversa, enquanto uma correlação positiva indica uma correlação direta. A equação que calcula o coeficiente de correlação é dada pela soma de quadrados de x, y e x · y. O critério que, hoje em dia, é usado quase exclusivamente para definir uma reta de “melhor” ajuste remonta à primeira metade do século XIX e ao trabalho do matemático francês Adrien Legendre. Ele é conhecido como o método dos mínimos quadrados. Da maneira como será utilizado aqui, esse método requer que a reta que ajustamos aos dados tenha a propriedade de ser mínima à soma dos quadrados das distâncias verticais dos pontos à reta (FREUND, 2007). Então, o coeficiente de correlação considera as distâncias dos pontos formados pelos pares x, y em relação à reta que melhor se ajusta aos dados r é o coeficiente de correlação de Pearson; ∑x é o somatório das n observações de x; ∑y é o somatório das n observações de y; ∑xy é o somatório das n observações de x multiplicado por y; ∑x2 é o somatório de cada uma das n observações de x elevada ao quadrado; ∑y2 é o somatório de cada uma das n observações de y elevada ao quadrado; n é o número de pares x, y. Observe, na Figura 3, a seguir, o intervalo de variação do coeficiente de correlação, onde vamos desde a correlação perfeita inversa (r = –1) até a correlação perfeita direta (r = 1). Figura 3 – Intervalo de variação do coeficiente de correlação Fonte: Doane e Seward (2014, p. 486). 6.2 Coeficiente de determinação O coeficiente de determinação é um valor percentual que estipula o poder explicativo da variável x sobre a variável y. Em programas que realizam a análise de correlação e regressão, esse valor é apresentado como R-quadrado, ou R2, ou, ainda, na regressão linear simples, por r2. Na regressão linear simples, podemos resolver o coeficiente por mínimos quadrados ordinários ou, então, somente elevar ao quadrado o valor do coeficiente de correlação. Isso vale somente para a regressão bivariada: r é o coeficiente de correlação; r2 é o coeficiente de determinação. 6.3 Reta de regressão Ainda no diagrama de dispersão, vimos que existe uma reta que resume os pontos dos pares (x, y). O método dos mínimos quadrados ordinários é usado para estimar uma regressão de maneira a assegurar o melhor ajuste. O ‘‘melhor’’ ajuste, nesse caso, significa que o coeficiente angular e o intercepto são de tal forma que os resíduos sejam os menores possíveis (DOANE; SEWARD, 2014): Yi é a variável dependente; Xi é a variável independente; Β0 é o intercepto; Β1 é o coeficiente angular da reta; Εi é o erro. Aqui será necessário, ainda, introduzir algumas suposições para as variáveis aleatórias envolvidas. Supomos que a variável x é, por hipótese, controlada e não está sujeita a variações aleatórias. Dizemos, primeiro, que x é uma variável fixa (ou determinística); segundo, para dado valor de x, os erros se distribuem ao redor da média β0 + β1 x com média zero; terceiro, supomos que os erros tenham a mesma variabilidade em torno dos níveis de x; e quarto, a restrição de que os erros sejam não correlacionados (BUSSAB; MORETTIN, 2017). Assim, definimos a estimativa da reta como: O coeficiente angular e o intercepto são calculados, respectivamente, por: Então, voltando aos dados utilizadosno exemplo, temos: Assim, a reta de regressão resulta em: Com isso, podemos estimar o valor de y para qualquer valor de x. Suponhamos que, para um x = 20 o valor estimado para y seja: Estes são os objetivos da análise de regressão: poder fazer previsões, estimar valores da variável y para qualquer valor futuro ou desconhecido de x. 6.4 Teste de significância para validação do modelo Temos como avaliar o modelo pelo coeficiente de correlação que mede a intensidade e a direção da correlação. Podemos, também, calcular o poder explicativo da variável x. Mas como saber se é possível considerar o modelo escolhido como sendo significativo? Ou como avaliar quando um modelo representa bem os dados ou não? Isso é possível quando utilizamos uma análise estatística para avaliar esse modelo de regressão. Uma maneira mais rigorosa de validar uma equação de regressão é pela análise de variância — ANOVA. Essa análise verifica, primeiramente, os resíduos da variável y comparados aos valores esperados para y , calculando- se, assim, as diferenças entre yi e . Essas diferenças podem ser precipitadamente confundidas com os erros. Mas não são. Os erros são as diferenças entre os valores de y e a reta verdadeira, isto é, a reta dada pelos valores populacionais de β0 e β1 (que não são conhecidos). As diferenças encontradas são entre os valores de e os dados pela reta com os valores estimados (amostrais) de . Não são, portanto, os erros, mas os estimadores dos erros, ou simplesmente os resíduos da regressão (SARTORIS, 2013). A ANOVA é calculada com base na soma de quadrados de resíduos: a soma de quadrados total (SQTotal), a soma de quadrados do resíduo (SQResíduos) e a soma de quadrados explicados pela regressão (SQRegressão). Na Figura 4, podemos verificar a tabela ANOVA para a validação do modelo de regressão linear simples. O valor que nos interessa é o de F, pois essa é a estatística de teste que verifica se a regressão é válida ou não. Se o valor F for significativo (p