Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

UNIDADE VII - CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 
 
7.1 - Análise de Correlação 
 
Os principais objetivos de uma análise de correlação consiste em identificar quais variáveis são 
potencialmente importantes na análise de um dado processo e medir a força ou o grau de relação 
linear entre duas variáveis. 
Por exemplo, podemos estar interessados em determinar o grau de relação entre: fumar e câncer 
de pulmão; entre notas obtidas nas provas de estatística e de matemática; entre as notas obtidas no 
ensino médio e na faculdade e assim por diante. 
OBS: Não há, nesse caso, preocupação em apresentar forma funcional entre as variáveis, se houver. 
Trata-se qualquer (duas) variáveis simetricamente, não há distinção entre as variáveis dependentes e 
explanatórias. 
O grau de relação é mensurado por uma medida estatística chamada de coeficiente de correlação, os 
símbolos usados são: 
 
Podemos levantar, a título de exemplo, algumas questões: 
1. A idade (independente) de uma pessoa e sua resistência (dependente) física estão 
correlacionadas? 
2. Pessoas de maior renda (independente) tendem a apresentar melhor escolaridade (dependente)? 
3. A temperatura (independente) pode influenciar na taxa de criminalidade (dependente)? 
4. O sucesso (dependente) num emprego pode ser predito com base no resultado de testes 
(independente)? 
 
Para o estudo do comportamento conjunto de duas variáveis podem ser utilizados: Diagrama 
de Dispersão e o Coeficiente de correlação de Pearson. 
 
7.1.1 - Diagrama de Dispersão 
 
É interessante, sempre que possível, fazer um gráfico dos pares observados para as variáveis 
em estudo, afim de perceber algum tipo de tendência dos dados, o que indica uma possível relação 
entre as variáveis. O diagrama de dispersão é a representação gráfica do conjunto de dados. Nada mais 
é do que a representação dos pares de valores num sistema cartesiano. 
Em síntese quatro situações marcantes poderiam acontecer: 
 
 Correlação Linear Negativa 
 
Quando a correlação em estudo tem como imagem uma reta descendente, dizemos existir uma 
correlação linear negativa. 
 
 
O Diagrama de dispersão indica que há uma tendência inversamente proporcional. Ou seja, quando 
uma das variáveis “cresce”, a outra, em média, “decresce”. 
 
 Correlação linear positiva 
 
Quando a correlação em estudo tem como imagem uma reta ascendente, dizemos existir uma 
correlação linear positiva. 
 
O Diagrama de dispersão indica que há uma tendência diretamente proporcional. Ou seja, quando 
uma das variáveis “cresce”, a outra, em média, também “cresce”. 
 
 Ausência de Correlação 
 
Se os pontos estiverem dispersos, sem definição de direção, dizemos que a correlação é muito baixa, 
ou mesmo nula, as variáveis nesse caso são ditas não correlacionadas. 
 
 
O diagrama de dispersão indica que não há tendência, o que também será indicado por uma medida 
estatística. 
 
 Correlação Não-Linear 
 
Quando a correlação em estudo tem forma de curva, dizemos existir uma correlação não-linear. 
 
 
 
 
 
EXEMPLO 1: Sejam os dados da tabela abaixo que apresentam as notas obtidas por alunos nas 
disciplinas de Química e Biologia. 
É razoável considerarmos que as notas em biologia dependam das notas em química, ou seja: 
Notas em Biologia: Variável Dependente. 
Notas em Química: Variável independente. 
 
Notas de Biologia (Y) 6 9 8 10 5 7 8 4 6 2 
Notas de Química (X) 5 8 7 10 6 7 9 3 8 2 
 
Diagrama de Dispersão 
 
 
 
 
7.1.2 - Coeficiente de correlação de Pearson 
É um valor numérico, uma medida do grau de associação entre duas variáveis. 
Se for observada uma associação entre as variáveis quantitativas (a partir de um diagrama de 
dispersão, por exemplo), é muito útil quantificar essa associabilidade. 
O coeficiente de correlação amostral é calculado por: 
𝑟𝑥𝑦 = 
𝑛 ∑ 𝑋𝑖𝑌𝑖 − (∑ 𝑋𝑖) (∑ 𝑌𝑖)
√[𝑛 ∑ 𝑋𝑖
2 − (∑ 𝑋𝑖)
2
][𝑛 ∑ 𝑌𝑖
2 − (∑ 𝑌𝑖)
2
]
 
 
Propriedades: 
1. Pode ser positivo ou negativo, o que dependerá do sinal do termo no numerador da equação, 
que mede a covariação amostral das duas variáveis; 
2. Se situa nos limites de -1 e +1, isto é, -1 ≤ r ≤ 1. 
3. Sua natureza é simétrica, isto é, o coeficiente de correlação entre X e Y (rxy) é o mesmo que Y 
e X (ryx). 
4. Se X e Y são estatisticamente independentes, o coeficiente de correlação entre elas é zero, 
mas se r = 0, isso não significa que sejam independentes. 
5. É uma medida de associação linear ou de dependência linear, não é significativa para descrever 
relações não lineares. 
Classificação para o coeficiente de correlação: 
 Relação Fraca: Se -0,3 ≤ r ≤ 0,3 
 Relação moderada: Se -0,7 < r < -0,3 ou 0,3 < r < 0,7 
 Relação Forte: Se -1 ≤ r ≤ - 0,7 ou 0,7 ≤ r ≤ 1,0 
Padrões de Correlação 
 
EXEMPLO 2: Calcular o grau de associação entre as notas de biologia e química do exemplo 01. 
 
Logo teremos: 
𝒏 = 𝟏𝟎 ∑ 𝑿 = 𝟔𝟓 ∑ 𝒀 = 𝟔𝟓 ∑ 𝑿𝒀 = 𝟒𝟕𝟑 ∑ 𝑿𝟐 = 𝟒𝟖𝟏 ∑ 𝒀𝟐 = 𝟒𝟕𝟓 
 
𝑟 = 
(𝑛. ∑ 𝑋. 𝑌) − (∑ 𝑋). (∑ 𝑌)
√𝑛. (∑ 𝑋2) − (∑ 𝑋)2 . √𝑛. (∑ 𝑌2) − (∑ 𝑌)2
 
 
 = 
(10 ∗ 473) − (65 ∗ 65)
√(10 ∗ 481) − 652 . √(10 ∗ 475) − 65²
 
=
4730 − 4225
√(4810 − 652) ∗ √(4750 − 652)
 
 
 
 
Resultado que indica uma forte correlação linear positiva entre as variáveis. Quanto maior a nota em 
química maior é a nota em biologia. 
 
EXEMPLO 3: Na tabela abaixo temos o salário-hora médio(Y) segundo nível de escolaridade (X). 
 Anos de estudo 
(X) 
Salário - hora 
médio (Y) 
X² Y² XY 
 6 4,46 36 19,89 26,76 
 7 5,77 49 33,29 40,39 
 8 5,98 64 35,76 47,84 
 9 7,33 81 53,73 65,97 
 10 7,32 100 53,58 73,20 
 𝒓 = 
𝟓𝟎𝟓
√𝟓𝟖𝟓 ∗ √𝟓𝟐𝟓
 = 𝟎, 𝟗𝟏 
 11 6,58 121 43,30 72,38 
 12 7,82 144 61,15 93,84 
 13 7,84 169 61,47 101,92 
 14 11,02 196 121,44 154,28 
 15 10,67 225 113,85 160,05 
 16 10,84 256 117,51 173,44 
 17 13,62 289 185,50 231,54 
 18 13,53 324 183,06 243,54 
∑ 156 112,78 2054 1083,53 1485,15 
 
Existe uma relação entre o grau de escolaridade e o salário-hora médio? 
n = 13 ∑ X = 156 ∑ Y = 112,78 
 ∑ 𝑋𝑖
2 = 2054 ∑ 𝑌𝑖
2 = 1083,53 ∑ 𝑋𝑌 = 1485,15 
 
𝑟𝑥𝑦 = 
𝑛 ∑ 𝑋𝑖𝑌𝑖 − (∑ 𝑋𝑖) (∑ 𝑌𝑖)
√[𝑛 ∑ 𝑋𝑖
2 − (∑ 𝑋𝑖)
2
][𝑛 ∑ 𝑌𝑖
2 − (∑ 𝑌𝑖)
2
]
 
 
=
13 ∗ 1485,15 − (156 ∗ 112,78)
√[(13 ∗ 2054) − (156)2] ∗ [(13 ∗ 1083,53) − (112,78)2]
 
 
=
1713,27
√2366 ∗ 1366,56
= 0,9528 
 
𝑟𝑥𝑦 = 0,9528 
 
O coeficiente de correlação de 0,95 está bem próximo de 1, então podemos concluir que o grau de 
escolaridade e o salário-hora médio são fortemente correlacionados, apresentando uma relação 
positiva. Podemos verificar essa relação através do diagrama de dispersão. 
 
 
7.2 - REGRESSÃO LINEAR SIMPLES 
 
A análise de regressão consiste em determinar um modelo matemático que expresse da 
melhor maneira possível o comportamento da variável dependente (Y) em função da variável 
independente (X). 
Todos os dias, a mídia se encarrega de informar resultados de análises e pesquisas do tipo: 
– O valor da empresa depende do lucro futuro, 
– A taxa de juros depende da inflação. 
– O salário depende da escolaridade do trabalhador etc. 
 
Na regressão linear simples será deduzida e analisada a reta que melhor explica essa relação, tendo 
previamente definido a variável independente e a variável dependente. Estuda-se apenas duas 
variáveis e o modelo determinado é um polinômio de primeiro grau. 
 
 
OBS: Uma análise de regressão torna-se mais interessante quando as variáveis envolvidas apresentam 
associação de moderada a forte. 
 
7.2.1 - Modelo do Ajuste de uma Reta de Regressão 
O ajuste de uma reta de regressão é um modelo linear que relaciona a variável dependente Y 
e a variável independente X por meio da equação de reta do tipo: 
�̂� = 𝑎 + 𝑏𝑥 
A equação �̂� = 𝑎 + 𝑏𝑥 deve ser obtida de formaa minimizar os erros de estimação, “e”, como 
pode ser visto no ponto (x1; y1). O erro de estimação “e” é a distância entre o ponto e a reta �̂� . Para 
tanto emprega-se o método dos mínimos quadrados como veremos a seguir. 
 
 
Uma vez que tenha sido formulada a equação de regressão, pode-se utilizá-la para estimar o valor da 
variável dependente, dado o valor da variável independente. Contudo, tal estimação deve ser feita 
apenas dentro do intervalo de variação dos valores da variável independente originalmente 
amostrados, já que não existe base estatística para supor que a linha de regressão é apropriada fora 
destes limites. 
 Estimação dos coeficientes 
 
A forma geral da equação de regressão linear para os dados de uma amostra é: 
�̂� = 𝒂 + 𝒃𝒙 
Essa equação deve ser obtida de forma que o erro de estimação seja mínimo. Pelo método dos 
mínimos quadrados, estes erros são mínimos para: 
𝒃 = 
𝒏 ∑ 𝑿𝒊𝒀𝒊 − (∑ 𝑿𝒊) (∑ 𝒀𝒊)
[𝒏 ∑ 𝑿𝒊
𝟐 − (∑ 𝑿𝒊)
𝟐
]
 
 
𝒂 = 
∑ 𝒀𝒊 − 𝒃. ∑ 𝑿𝒊
𝒏
 
 
Neste caso, o parâmetro a indica a altura em que a reta corta o eixo Y e o parâmetro b indica a 
inclinação da reta, isto é, a mudança que Y sofre para cada unidade de variação de X. 
 
EXEMPLO 4: O objetivo do diretor de vendas de uma rede de varejo é analisar a relação entre o 
investimento realizado em propaganda e as vendas das lojas da rede, para realizar projeções de vendas 
de futuros investimentos em propaganda. A tabela seguinte registra uma amostra representativa 
extraída dos registros históricos das lojas de tamanho equivalente, com os valores de Propaganda e 
Vendas em milhões. 
Analisar a possibilidade de definir um modelo que represente a relação entre as duas variáveis ou 
amostras. 
 
 
SOLUÇÃO 
Para analisar a relação entre as duas variáveis foi construído o gráfico de dispersão das vendas 
anuais em função do investimento anual em propaganda. Nesse gráfico pode-se ver que, nos 
últimos dez anos, o aumento de investimento em propaganda gerou aumento das vendas, e 
vice-versa. 
 
 
 
• O gráfico de dispersão mostra que as vendas e o investimento em propaganda estão 
correlacionados de forma positiva, com um coeficiente de correlação próximo de +1. 
• Uma reta como a linha tracejada no gráfico de dispersão acima poderá ser utilizada para 
realizar projeções das vendas futuras em função do investimento em propaganda. 
– A linha tracejada foi ajustada tentando equilibrar os pontos acima da reta com os 
pontos abaixo dela. 
– Essa reta é uma das muitas possíveis retas que poderiam ser ajustadas. 
 
Estimação da equação de regressão: 
 Y = Vendas 
 X = Investimento em propaganda 
 
 
 
 
 
 
 
 
𝒃 = 
𝒏 ∑ 𝑿𝒊𝒀𝒊 − (∑ 𝑿𝒊) (∑ 𝒀𝒊)
[𝒏 ∑ 𝑿𝒊
𝟐 − (∑ 𝑿𝒊)
𝟐
]
 
7381,9
270302.810
800.3270455.11210
2



b
 
𝒂 = 
∑ 𝒀𝒊 − 𝒃. ∑ 𝑿𝒊
𝒏
 
07,117
10
2707381,9800.3


a
 
Portanto, a equação da reta de regressão procurada é: 
 
xy 74,907,117ˆ  
Conclusão: A cada 1 milhão investido em propaganda o valor médio de vendas aumenta em 9,74 
milhões. 
 
 
 
 
 
 
 
 
 7ª lista de exercícios 
 
Questão 1 - Abaixo você encontra uma lista de situações de pesquisa. Para cada uma delas indique se 
o apropriado é proceder uma análise de regressão ou uma de correlação. Justifique sua indicação. 
a) O rendimento escolar na Universidade favorece o êxito profissional? 
b) O tempo de treinamento influi no desempenho profissional? 
c) O objetivo é estimar o tempo necessário a consecução de certa tarefa usando, para tanto, o 
tempo de treinamento do executor. 
d) O objetivo é utilizar o preço da carne de gado para estimar a quantidade de procura desse 
bem. 
e) A quantidade procurada de carne de gado depende do preço da carne de porco? 
 
Questão 2 - A Revista Nacional do Consumidor apresenta as seguintes correlações: 
 
 (i) A correlação entre peso de carro e a confiabilidade é -0,30; 
(ii) A correlação entre peso do carro e dos custos anuais de manutenção é 0,20. 
Qual a interpretação do coeficiente de correlação em cada um dos casos, ou seja, como pode-se 
descrever a relação entre as variáveis? 
 
Questão 3 - Certa empresa, estudando a variação da demanda de seu produto em relação à variação 
de preço de venda, obteve a tabela: 
Preço 
(X) 
Demanda 
(Y) 
 
38 350 
42 325 
50 297 
56 270 
59 256 
63 246 
70 238 
80 223 
95 215 
110 208 
 
 
a) Construa o diagrama de dispersão (gráfico). 
b) Verifique o grau de relação entre Preço e demanda do produto. 
c) Obtenha a função de regressão estimada, e conclua algo; 
d) Qual a estimativa da demanda quando o preço é 65? 
 
Questão 4 - Uma cadeia de supermercados financiou um estudo dos gastos realizados por família de 
quatro pessoas com renda mensal líquida entre oito e vinte salários mínimos. A pesquisa levou a 
equação de regressão 
Y = -1,2 + 0,4 X, onde Y representa a despesa mensal estimada ( através do 
modelo) e X a renda mensal líquida expressa em número de salários mínimos. 
a) Estime a despesa mensal de uma família com renda líquida mensal de 15 salários mínimos. 
b) A equação em questão serve para estimar a despesa mensal de uma família de 5 pessoas com 
renda líquida de 12 salários mínimos? Justifique. 
 
Questão 5 - Para estudar a poluição de um rio, um cientista mediu a concentração de um determinado 
composto orgânico (Y) e a precipitação pluviométrica na semana anterior (X): 
X 0,91 1,33 4,19 2,68 1,86 1,17 
Y 0,1 1,1 3,4 2,1 2,6 1 
 
a) Existe alguma relação entre o nível de poluição e a precipitação pluviométrica? Responda 
analisando o gráfico de dispersão. 
b) Calcule e interprete o coeficiente de correlação linear de Pearson. 
c) Determine a equação de regressão linear. 
 
Questão 6 - Para cada caso abaixo, estime a correspondente equação de reta de regressão: 
a) n X Y XY X    20 200 300 6200 3600
2, , , , . 
b) n X Y XY X    36 7 2 37 3100 620
2, , , , , . 
 
Questão 7 - Os dados abaixo são referentes aos salários e tempo de serviço dos 10 operários de uma 
firma. 
 
Y = salário em $ 
X = tempo de serviço em anos 
a) verifique graficamente se existe relação entre salário e tempo de serviço, quantifique essa relação 
usando a medida estatística apropriada. 
b) obtenha a equação da reta de regressão que estima o salário segundo tempo de serviço. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
GABARITO – CAP 07 
Questão 1) 
a) Correlação, pois o objetivo da pesquisa é observar se o êxito profissional depende do rendimento 
escolar. 
b) Correlação, pois o objetivo da pesquisa é observar se o desempenho profissional depende do tempo de 
treinamento. 
c) Análise de regressão, pois o objetivo da pesquisa é estimar o tempo de consecução de certa tarefa 
utilizando a informação do tempo de treinamento do executor. 
d) Análise de regressão, pois o objetivo da pesquisa é estimar a quantidade de procura da carne do gado 
através do preço da carne. 
e) Correlação, pois o objetivo da pesquisa é verificar se existe relação de dependência entre o preço da carne 
de porco e a procura de carne de boi. 
Questão 2) 
(i) Existe correlação negativa fraca entre as variáveis, ou seja, quanto maior o peso do carro, menor 
será sua confiabilidade. 
(ii) Existe correlação positiva fraca entre as variáveis, ou seja, quanto maior o peso do carro, maior 
será os custos anuais de manutenção. 
 
Questão 3) 
a) Fazer o gráfico 
b) r = - 0,90 ( Existe relação inversamente proporcional entre preço e demanda do produto, a 
medida que o preço aumenta a demanda diminui) 
c) �̂� = 𝟑𝟖𝟔, 𝟖𝟒 − 𝟏, 𝟖𝟕𝒙 
 A cada aumento de uma unidade no preço, a demanda diminui em 1,87. 
d) 265,23 
 
Questão 4) 
a) A despesa mensal é de 4,8 salários mínimos. 
b) Não, pois a equação de regressão dada éreferente a famílias de 4 pessoas, não podendo ser 
utilizada para uma família de 5 pessoas. 
 
Questão 5) 
a) Existe relação positiva entre o nível de poluição e a precipitação pluviométrica 
 
b) 𝑟 = 0,887 Existe forte relação positiva entre poluição e precipitação pluviométrica. 
c) �̂� = 𝑎 + 𝑏𝑥 
A equação estimada é: �̂� = −0,038 + 0,867𝑥 
 
Questão 6) 
a) 𝑏 = 
20∗6200−200∗300
20∗3600−200²
= 2 𝑎 = 
300− 2∗200
20
= −5 �̂� = −𝟓 + 𝟐𝒙 
 
b) 𝑏 = 
36∗3100−7,2∗37
36∗620−7,2²
= 4,99 𝑎 = 
37− 4,99∗7,2
36
= 0,029 �̂� = 𝟎, 𝟎𝟐𝟗 + 𝟒, 𝟗𝟗𝒙 
 
 
 
0
0,5
1
1,5
2
2,5
3
3,5
4
0 1 2 3 4 5
Y
X

Mais conteúdos dessa disciplina