Prévia do material em texto
UNIDADE VII - CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 7.1 - Análise de Correlação Os principais objetivos de uma análise de correlação consiste em identificar quais variáveis são potencialmente importantes na análise de um dado processo e medir a força ou o grau de relação linear entre duas variáveis. Por exemplo, podemos estar interessados em determinar o grau de relação entre: fumar e câncer de pulmão; entre notas obtidas nas provas de estatística e de matemática; entre as notas obtidas no ensino médio e na faculdade e assim por diante. OBS: Não há, nesse caso, preocupação em apresentar forma funcional entre as variáveis, se houver. Trata-se qualquer (duas) variáveis simetricamente, não há distinção entre as variáveis dependentes e explanatórias. O grau de relação é mensurado por uma medida estatística chamada de coeficiente de correlação, os símbolos usados são: Podemos levantar, a título de exemplo, algumas questões: 1. A idade (independente) de uma pessoa e sua resistência (dependente) física estão correlacionadas? 2. Pessoas de maior renda (independente) tendem a apresentar melhor escolaridade (dependente)? 3. A temperatura (independente) pode influenciar na taxa de criminalidade (dependente)? 4. O sucesso (dependente) num emprego pode ser predito com base no resultado de testes (independente)? Para o estudo do comportamento conjunto de duas variáveis podem ser utilizados: Diagrama de Dispersão e o Coeficiente de correlação de Pearson. 7.1.1 - Diagrama de Dispersão É interessante, sempre que possível, fazer um gráfico dos pares observados para as variáveis em estudo, afim de perceber algum tipo de tendência dos dados, o que indica uma possível relação entre as variáveis. O diagrama de dispersão é a representação gráfica do conjunto de dados. Nada mais é do que a representação dos pares de valores num sistema cartesiano. Em síntese quatro situações marcantes poderiam acontecer: Correlação Linear Negativa Quando a correlação em estudo tem como imagem uma reta descendente, dizemos existir uma correlação linear negativa. O Diagrama de dispersão indica que há uma tendência inversamente proporcional. Ou seja, quando uma das variáveis “cresce”, a outra, em média, “decresce”. Correlação linear positiva Quando a correlação em estudo tem como imagem uma reta ascendente, dizemos existir uma correlação linear positiva. O Diagrama de dispersão indica que há uma tendência diretamente proporcional. Ou seja, quando uma das variáveis “cresce”, a outra, em média, também “cresce”. Ausência de Correlação Se os pontos estiverem dispersos, sem definição de direção, dizemos que a correlação é muito baixa, ou mesmo nula, as variáveis nesse caso são ditas não correlacionadas. O diagrama de dispersão indica que não há tendência, o que também será indicado por uma medida estatística. Correlação Não-Linear Quando a correlação em estudo tem forma de curva, dizemos existir uma correlação não-linear. EXEMPLO 1: Sejam os dados da tabela abaixo que apresentam as notas obtidas por alunos nas disciplinas de Química e Biologia. É razoável considerarmos que as notas em biologia dependam das notas em química, ou seja: Notas em Biologia: Variável Dependente. Notas em Química: Variável independente. Notas de Biologia (Y) 6 9 8 10 5 7 8 4 6 2 Notas de Química (X) 5 8 7 10 6 7 9 3 8 2 Diagrama de Dispersão 7.1.2 - Coeficiente de correlação de Pearson É um valor numérico, uma medida do grau de associação entre duas variáveis. Se for observada uma associação entre as variáveis quantitativas (a partir de um diagrama de dispersão, por exemplo), é muito útil quantificar essa associabilidade. O coeficiente de correlação amostral é calculado por: 𝑟𝑥𝑦 = 𝑛 ∑ 𝑋𝑖𝑌𝑖 − (∑ 𝑋𝑖) (∑ 𝑌𝑖) √[𝑛 ∑ 𝑋𝑖 2 − (∑ 𝑋𝑖) 2 ][𝑛 ∑ 𝑌𝑖 2 − (∑ 𝑌𝑖) 2 ] Propriedades: 1. Pode ser positivo ou negativo, o que dependerá do sinal do termo no numerador da equação, que mede a covariação amostral das duas variáveis; 2. Se situa nos limites de -1 e +1, isto é, -1 ≤ r ≤ 1. 3. Sua natureza é simétrica, isto é, o coeficiente de correlação entre X e Y (rxy) é o mesmo que Y e X (ryx). 4. Se X e Y são estatisticamente independentes, o coeficiente de correlação entre elas é zero, mas se r = 0, isso não significa que sejam independentes. 5. É uma medida de associação linear ou de dependência linear, não é significativa para descrever relações não lineares. Classificação para o coeficiente de correlação: Relação Fraca: Se -0,3 ≤ r ≤ 0,3 Relação moderada: Se -0,7 < r < -0,3 ou 0,3 < r < 0,7 Relação Forte: Se -1 ≤ r ≤ - 0,7 ou 0,7 ≤ r ≤ 1,0 Padrões de Correlação EXEMPLO 2: Calcular o grau de associação entre as notas de biologia e química do exemplo 01. Logo teremos: 𝒏 = 𝟏𝟎 ∑ 𝑿 = 𝟔𝟓 ∑ 𝒀 = 𝟔𝟓 ∑ 𝑿𝒀 = 𝟒𝟕𝟑 ∑ 𝑿𝟐 = 𝟒𝟖𝟏 ∑ 𝒀𝟐 = 𝟒𝟕𝟓 𝑟 = (𝑛. ∑ 𝑋. 𝑌) − (∑ 𝑋). (∑ 𝑌) √𝑛. (∑ 𝑋2) − (∑ 𝑋)2 . √𝑛. (∑ 𝑌2) − (∑ 𝑌)2 = (10 ∗ 473) − (65 ∗ 65) √(10 ∗ 481) − 652 . √(10 ∗ 475) − 65² = 4730 − 4225 √(4810 − 652) ∗ √(4750 − 652) Resultado que indica uma forte correlação linear positiva entre as variáveis. Quanto maior a nota em química maior é a nota em biologia. EXEMPLO 3: Na tabela abaixo temos o salário-hora médio(Y) segundo nível de escolaridade (X). Anos de estudo (X) Salário - hora médio (Y) X² Y² XY 6 4,46 36 19,89 26,76 7 5,77 49 33,29 40,39 8 5,98 64 35,76 47,84 9 7,33 81 53,73 65,97 10 7,32 100 53,58 73,20 𝒓 = 𝟓𝟎𝟓 √𝟓𝟖𝟓 ∗ √𝟓𝟐𝟓 = 𝟎, 𝟗𝟏 11 6,58 121 43,30 72,38 12 7,82 144 61,15 93,84 13 7,84 169 61,47 101,92 14 11,02 196 121,44 154,28 15 10,67 225 113,85 160,05 16 10,84 256 117,51 173,44 17 13,62 289 185,50 231,54 18 13,53 324 183,06 243,54 ∑ 156 112,78 2054 1083,53 1485,15 Existe uma relação entre o grau de escolaridade e o salário-hora médio? n = 13 ∑ X = 156 ∑ Y = 112,78 ∑ 𝑋𝑖 2 = 2054 ∑ 𝑌𝑖 2 = 1083,53 ∑ 𝑋𝑌 = 1485,15 𝑟𝑥𝑦 = 𝑛 ∑ 𝑋𝑖𝑌𝑖 − (∑ 𝑋𝑖) (∑ 𝑌𝑖) √[𝑛 ∑ 𝑋𝑖 2 − (∑ 𝑋𝑖) 2 ][𝑛 ∑ 𝑌𝑖 2 − (∑ 𝑌𝑖) 2 ] = 13 ∗ 1485,15 − (156 ∗ 112,78) √[(13 ∗ 2054) − (156)2] ∗ [(13 ∗ 1083,53) − (112,78)2] = 1713,27 √2366 ∗ 1366,56 = 0,9528 𝑟𝑥𝑦 = 0,9528 O coeficiente de correlação de 0,95 está bem próximo de 1, então podemos concluir que o grau de escolaridade e o salário-hora médio são fortemente correlacionados, apresentando uma relação positiva. Podemos verificar essa relação através do diagrama de dispersão. 7.2 - REGRESSÃO LINEAR SIMPLES A análise de regressão consiste em determinar um modelo matemático que expresse da melhor maneira possível o comportamento da variável dependente (Y) em função da variável independente (X). Todos os dias, a mídia se encarrega de informar resultados de análises e pesquisas do tipo: – O valor da empresa depende do lucro futuro, – A taxa de juros depende da inflação. – O salário depende da escolaridade do trabalhador etc. Na regressão linear simples será deduzida e analisada a reta que melhor explica essa relação, tendo previamente definido a variável independente e a variável dependente. Estuda-se apenas duas variáveis e o modelo determinado é um polinômio de primeiro grau. OBS: Uma análise de regressão torna-se mais interessante quando as variáveis envolvidas apresentam associação de moderada a forte. 7.2.1 - Modelo do Ajuste de uma Reta de Regressão O ajuste de uma reta de regressão é um modelo linear que relaciona a variável dependente Y e a variável independente X por meio da equação de reta do tipo: �̂� = 𝑎 + 𝑏𝑥 A equação �̂� = 𝑎 + 𝑏𝑥 deve ser obtida de formaa minimizar os erros de estimação, “e”, como pode ser visto no ponto (x1; y1). O erro de estimação “e” é a distância entre o ponto e a reta �̂� . Para tanto emprega-se o método dos mínimos quadrados como veremos a seguir. Uma vez que tenha sido formulada a equação de regressão, pode-se utilizá-la para estimar o valor da variável dependente, dado o valor da variável independente. Contudo, tal estimação deve ser feita apenas dentro do intervalo de variação dos valores da variável independente originalmente amostrados, já que não existe base estatística para supor que a linha de regressão é apropriada fora destes limites. Estimação dos coeficientes A forma geral da equação de regressão linear para os dados de uma amostra é: �̂� = 𝒂 + 𝒃𝒙 Essa equação deve ser obtida de forma que o erro de estimação seja mínimo. Pelo método dos mínimos quadrados, estes erros são mínimos para: 𝒃 = 𝒏 ∑ 𝑿𝒊𝒀𝒊 − (∑ 𝑿𝒊) (∑ 𝒀𝒊) [𝒏 ∑ 𝑿𝒊 𝟐 − (∑ 𝑿𝒊) 𝟐 ] 𝒂 = ∑ 𝒀𝒊 − 𝒃. ∑ 𝑿𝒊 𝒏 Neste caso, o parâmetro a indica a altura em que a reta corta o eixo Y e o parâmetro b indica a inclinação da reta, isto é, a mudança que Y sofre para cada unidade de variação de X. EXEMPLO 4: O objetivo do diretor de vendas de uma rede de varejo é analisar a relação entre o investimento realizado em propaganda e as vendas das lojas da rede, para realizar projeções de vendas de futuros investimentos em propaganda. A tabela seguinte registra uma amostra representativa extraída dos registros históricos das lojas de tamanho equivalente, com os valores de Propaganda e Vendas em milhões. Analisar a possibilidade de definir um modelo que represente a relação entre as duas variáveis ou amostras. SOLUÇÃO Para analisar a relação entre as duas variáveis foi construído o gráfico de dispersão das vendas anuais em função do investimento anual em propaganda. Nesse gráfico pode-se ver que, nos últimos dez anos, o aumento de investimento em propaganda gerou aumento das vendas, e vice-versa. • O gráfico de dispersão mostra que as vendas e o investimento em propaganda estão correlacionados de forma positiva, com um coeficiente de correlação próximo de +1. • Uma reta como a linha tracejada no gráfico de dispersão acima poderá ser utilizada para realizar projeções das vendas futuras em função do investimento em propaganda. – A linha tracejada foi ajustada tentando equilibrar os pontos acima da reta com os pontos abaixo dela. – Essa reta é uma das muitas possíveis retas que poderiam ser ajustadas. Estimação da equação de regressão: Y = Vendas X = Investimento em propaganda 𝒃 = 𝒏 ∑ 𝑿𝒊𝒀𝒊 − (∑ 𝑿𝒊) (∑ 𝒀𝒊) [𝒏 ∑ 𝑿𝒊 𝟐 − (∑ 𝑿𝒊) 𝟐 ] 7381,9 270302.810 800.3270455.11210 2 b 𝒂 = ∑ 𝒀𝒊 − 𝒃. ∑ 𝑿𝒊 𝒏 07,117 10 2707381,9800.3 a Portanto, a equação da reta de regressão procurada é: xy 74,907,117ˆ Conclusão: A cada 1 milhão investido em propaganda o valor médio de vendas aumenta em 9,74 milhões. 7ª lista de exercícios Questão 1 - Abaixo você encontra uma lista de situações de pesquisa. Para cada uma delas indique se o apropriado é proceder uma análise de regressão ou uma de correlação. Justifique sua indicação. a) O rendimento escolar na Universidade favorece o êxito profissional? b) O tempo de treinamento influi no desempenho profissional? c) O objetivo é estimar o tempo necessário a consecução de certa tarefa usando, para tanto, o tempo de treinamento do executor. d) O objetivo é utilizar o preço da carne de gado para estimar a quantidade de procura desse bem. e) A quantidade procurada de carne de gado depende do preço da carne de porco? Questão 2 - A Revista Nacional do Consumidor apresenta as seguintes correlações: (i) A correlação entre peso de carro e a confiabilidade é -0,30; (ii) A correlação entre peso do carro e dos custos anuais de manutenção é 0,20. Qual a interpretação do coeficiente de correlação em cada um dos casos, ou seja, como pode-se descrever a relação entre as variáveis? Questão 3 - Certa empresa, estudando a variação da demanda de seu produto em relação à variação de preço de venda, obteve a tabela: Preço (X) Demanda (Y) 38 350 42 325 50 297 56 270 59 256 63 246 70 238 80 223 95 215 110 208 a) Construa o diagrama de dispersão (gráfico). b) Verifique o grau de relação entre Preço e demanda do produto. c) Obtenha a função de regressão estimada, e conclua algo; d) Qual a estimativa da demanda quando o preço é 65? Questão 4 - Uma cadeia de supermercados financiou um estudo dos gastos realizados por família de quatro pessoas com renda mensal líquida entre oito e vinte salários mínimos. A pesquisa levou a equação de regressão Y = -1,2 + 0,4 X, onde Y representa a despesa mensal estimada ( através do modelo) e X a renda mensal líquida expressa em número de salários mínimos. a) Estime a despesa mensal de uma família com renda líquida mensal de 15 salários mínimos. b) A equação em questão serve para estimar a despesa mensal de uma família de 5 pessoas com renda líquida de 12 salários mínimos? Justifique. Questão 5 - Para estudar a poluição de um rio, um cientista mediu a concentração de um determinado composto orgânico (Y) e a precipitação pluviométrica na semana anterior (X): X 0,91 1,33 4,19 2,68 1,86 1,17 Y 0,1 1,1 3,4 2,1 2,6 1 a) Existe alguma relação entre o nível de poluição e a precipitação pluviométrica? Responda analisando o gráfico de dispersão. b) Calcule e interprete o coeficiente de correlação linear de Pearson. c) Determine a equação de regressão linear. Questão 6 - Para cada caso abaixo, estime a correspondente equação de reta de regressão: a) n X Y XY X 20 200 300 6200 3600 2, , , , . b) n X Y XY X 36 7 2 37 3100 620 2, , , , , . Questão 7 - Os dados abaixo são referentes aos salários e tempo de serviço dos 10 operários de uma firma. Y = salário em $ X = tempo de serviço em anos a) verifique graficamente se existe relação entre salário e tempo de serviço, quantifique essa relação usando a medida estatística apropriada. b) obtenha a equação da reta de regressão que estima o salário segundo tempo de serviço. GABARITO – CAP 07 Questão 1) a) Correlação, pois o objetivo da pesquisa é observar se o êxito profissional depende do rendimento escolar. b) Correlação, pois o objetivo da pesquisa é observar se o desempenho profissional depende do tempo de treinamento. c) Análise de regressão, pois o objetivo da pesquisa é estimar o tempo de consecução de certa tarefa utilizando a informação do tempo de treinamento do executor. d) Análise de regressão, pois o objetivo da pesquisa é estimar a quantidade de procura da carne do gado através do preço da carne. e) Correlação, pois o objetivo da pesquisa é verificar se existe relação de dependência entre o preço da carne de porco e a procura de carne de boi. Questão 2) (i) Existe correlação negativa fraca entre as variáveis, ou seja, quanto maior o peso do carro, menor será sua confiabilidade. (ii) Existe correlação positiva fraca entre as variáveis, ou seja, quanto maior o peso do carro, maior será os custos anuais de manutenção. Questão 3) a) Fazer o gráfico b) r = - 0,90 ( Existe relação inversamente proporcional entre preço e demanda do produto, a medida que o preço aumenta a demanda diminui) c) �̂� = 𝟑𝟖𝟔, 𝟖𝟒 − 𝟏, 𝟖𝟕𝒙 A cada aumento de uma unidade no preço, a demanda diminui em 1,87. d) 265,23 Questão 4) a) A despesa mensal é de 4,8 salários mínimos. b) Não, pois a equação de regressão dada éreferente a famílias de 4 pessoas, não podendo ser utilizada para uma família de 5 pessoas. Questão 5) a) Existe relação positiva entre o nível de poluição e a precipitação pluviométrica b) 𝑟 = 0,887 Existe forte relação positiva entre poluição e precipitação pluviométrica. c) �̂� = 𝑎 + 𝑏𝑥 A equação estimada é: �̂� = −0,038 + 0,867𝑥 Questão 6) a) 𝑏 = 20∗6200−200∗300 20∗3600−200² = 2 𝑎 = 300− 2∗200 20 = −5 �̂� = −𝟓 + 𝟐𝒙 b) 𝑏 = 36∗3100−7,2∗37 36∗620−7,2² = 4,99 𝑎 = 37− 4,99∗7,2 36 = 0,029 �̂� = 𝟎, 𝟎𝟐𝟗 + 𝟒, 𝟗𝟗𝒙 0 0,5 1 1,5 2 2,5 3 3,5 4 0 1 2 3 4 5 Y X