Prévia do material em texto
ESTATÍSTICA Regressão Linear Livro Eletrônico Presidente: Gabriel Granjeiro Vice-Presidente: Rodrigo Calado Diretor Pedagógico: Erico Teixeira Diretora de Produção Educacional: Vivian Higashi Gerência de Produção de Conteúdo: Magno Coimbra Coordenadora Pedagógica: Élica Lopes Todo o material desta apostila (incluídos textos e imagens) está protegido por direitos autorais do Gran. Será proibida toda forma de plágio, cópia, reprodução ou qualquer outra forma de uso, não autorizada expressamente, seja ela onerosa ou não, sujeitando-se o transgressor às penalidades previstas civil e criminalmente. CÓDIGO: 231016093031 THIAGO CARDOSO Engenheiro eletrônico formado pelo ITA com distinção em Matemática, analista- chefe da Múltiplos Investimentos, especialista em mercado de ações. Professor desde os 19 anos e, atualmente, leciona todos os ramos da Matemática para concursos públicos. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. 3 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso SUMÁRIO Apresentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1. Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1. Parâmetros do Modelo de Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2. Estimador de Mínimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3. Reta Passando pela Origem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4. Regressão Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2. Avaliação do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1. Análise dos Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2. Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3. Análise dos Coeficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Mapa Mental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Gabarito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Gabarito comentado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 4 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso aPREsENtaÇÃOaPREsENtaÇÃO Olá, aluno(a), seja bem-vindo(a) a mais uma aula de Estatística. Hoje, falaremos sobre Regressão Linear. Houve um tempo em que esse tema era praticamente inexplorado pelas provas de concurso. Porém, isso mudou. Considerando o panorama atual dos concursos, que estão, cada vez mais, valorizando a parte de Estatística Inferencial, devo lhe advertir de que esse é um dos temas mais importantes atualmente. Mas fique tranquilo(a). Você verá que a grande maioria das questões de Regressão Linear podem ser resolvidas com simples aplicações de fórmulas. Você raramente precisará desenvolver raciocínios complexos ou contas sofisticadas. Memorize as fórmulas e você terá sucesso nas questões desse tópico. Pronto(a) para começar? O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 5 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso REGRESSÃO LINEARREGRESSÃO LINEAR 1 . iNtRODUÇÃO1 . iNtRODUÇÃO A Regressão Linear é uma técnica muito utilizada em todas as áreas que se utilizam de gráficos e números. Ela tem por objetivo estudar o comportamento de uma variável em função da outra. Por exemplo, consideremos um estudo social sobre a idade e o salário de um grupo de pessoas. Como pessoas da mesma idade podem ter salários diferentes, o gráfico mais adequado para representar essas duas variáveis é o gráfico de dispersão. Figura 1: Gráfico de Dispersão de Salários pela Idade de um Grupo de Pessoas O gráfico de dispersão nos mostra que, de maneira geral, o salário de uma pessoa cresce com a sua idade. Não se trata de um comportamento absoluto. Por exemplo, há duas pessoas de 40 anos na pesquisa: uma delas tem o salário de pouco acima de 5,00 e outra em torno de 15,00. Também podemos encontrar uma pessoa de 25 anos que ganha mais que outra pessoa de 40 anos. Porém, há uma tendência de que os salários cresçam em função da idade. A fim de avaliar essa tendência, podemos traçar uma linha de tendência. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 6 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Figura 2: Linha de Tendência no Gráfico de Dispersão de Salários pela Idade No gráfico, temos algumas definições interessantes: • Variável independente, regressora, explicativa ou preditora: é a variável principal. No caso, é a variável idade, geralmente chamada de X. A variável independente é, também, chamada de explicativa ou preditora, porque ela é utilizada para explicar o comportamento da variável dependente e prever seus valores futuros. • Variável dependente ou resposta: é a variável cujos valores são observados em função da variável independente. No caso em apreço, é a variável salários, geralmente chamada de Y. Quando aumentamos a idade de um grupo de entrevistados, é natural esperarmos um aumento de seu salário médio em resposta a essa variação de idade. 1 .1 . PaRÂMEtROs DO MODELO DE REGREssÃO LiNEaR1 .1 . PaRÂMEtROs DO MODELO DE REGREssÃO LiNEaR O valor real da variável dependente é expresso no modelo de regressão linear pela soma: A estimativa é a estimativa feita pelo método de regressão linear e corresponde à linha de tendência que pode ser traçada no gráfico (Y x X). O conteúdo deste livro eletrônico é licenciado para ANTONIOMARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 7 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Por outro lado, o erro ou desvio corresponde aos desvios dos valores reais de Y em torno da linha de tendência. Como pode ser bem visualizado na Figura 2, nem sempre os valores reais observados para a variável Y se encaixam perfeitamente nos valores obtidos pelo método de regressão linear. Por isso, existe o erro de estimativa. Teremos uma seção mais adiante dedicada exclusivamente a comentar sobre esse fator. O erro de estimativa é dado pela diferença entre o valor real e a estimativa: Em geral, os modelos de regressão linear têm por objetivo diminuir esse erro segundo algum critério. Por hora, vamos comentar sobre os parâmetros a e b que definem o modelo de regressão linear. O parâmetro b é o mais importante e está relacionado à inclinação da linha de tendência. Quanto maior o parâmetro b, maior será a variação na variável Y em resposta a um aumento da variável X. Por outro lado, o parâmetro a é chamado de intercepto, pois corresponde ao ponto em que a linha de tendência intercepta o eixo dos Y. Isso acontece porque, quando X = 0, temos que a estimativa linear para Y será igual a esse parâmetro. Agora, vamos aprender formas de calcular esses coeficientes. 1 .2 . EstiMaDOR DE MíNiMOs QUaDRaDOs1 .2 . EstiMaDOR DE MíNiMOs QUaDRaDOs O estimador de mínimos quadrados é aquele que tem por objetivo minimizar a seguinte função de custo: Ou seja, pegamos o quadrado de todos os desvios encontrados e somamos. O estimador de mínimos quadrados é aquele que minimiza essa soma. A importância de somar os quadrados está no fato de que é dessa forma que consideramos todos os desvios para a esquerda e para direita (negativos ou positivos) como contribuintes para aumentar o erro total de estimativa. É exatamente o mesmo princípio do desvio-padrão. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 8 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso É possível demonstrar, por meio de cálculo diferencial, o que está além do escopo deste material, que o parâmetro b que minimiza essa soma é dado por: É bastante interessante que, para um problema tão complexo quanto a regressão linear, tenhamos uma solução razoavelmente simples e elegante. Basta dividir a covariância entre as duas variáveis pela variância da variável regressora. É natural, ainda, que as questões tentem confundi-lo(a). Elas vão colocar a variância da variável resposta no denominador ou trocar a covariância pela correlação. É possível, sim, obter uma expressão coeficiente b pela correlação, mas ela será ligeiramente diferente. Vejamos: Primeiramente, precisamos nos lembrar de que a correlação é igual à covariância dividida pelo produto dos desvios-padrões. Agora, podemos nos lembrar de que a variância é igual ao quadrado do desvio-padrão. Portanto, temos para o coeficiente de inclinação: Não considero necessário memorizar essa expressão, mas é interessante que você tenha visto a forma como chegamos até ela, porque isso pode ser exigido em questões de prova. Para o coeficiente a, considero que a forma mais fácil de se lembrar é partir do princípio de que a média da estimativa deve ser igual à média da variável real. Usando o fato de que o valor esperado é linear, temos que: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 9 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso (CESPE/TCE/PA/2016) Uma regressão linear simples é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item subsecutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal, média zero e variância constante. 001. 001. Para uma amostra de tamanho n = 25, em que a covariância amostral para o par de variáveis X e Y seja Cov(X, Y) = 20,0, a variância amostral para a variável Y seja Var(Y) = 4,0 e a variância amostral para a variável X seja Var(X) = 5,0, a estimativa via estimador de mínimos quadrados ordinários para o coeficiente b é igual a 5,0. O coeficiente b é dado por: Errado. 002. 002. A variável Y é denominada variável explicativa, e a variável X é denominada variável dependente. Como a regressão linear é escrita da forma Y = a + bX, temos que a variável Y é descrita em função da variável X. Sendo assim, a variável Y é a variável dependente ou resposta, enquanto a variável X é a variável explicativa. Errado. 003. 003. Considere que as estimativas via método de mínimos quadrados ordinários para o parâmetro a seja igual a 2,5 e, para o parâmetro b, seja igual a 3,5. Nessa situação, assumindo que X = 4,0, o valor predito para Y será igual a 16,5, se for utilizada a reta de regressão estimada. Calcularemos o valor predito para Y usando os dados fornecidos no enunciado. Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 10 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 004. 004. (ESAF/SUSEP/ANALISTA TÉCNICO/2010) A partir de uma amostra aleatória ,foram obtidas as estatísticas: • Médias: ; • Variâncias Amostrais: SX² = 30 e SY² = 54; • Covariância: SXY = 36. Qual é a reta de regressão estimada de Y em X? a) b) c) d) e) Podemos calcular o coeficiente de inclinação: Para calcular o coeficiente de intercepto por meio das médias: Dessa forma, a reta de regressão estimada é: Letra c. 005. 005. (FGV/DPE/RJ/TÉCNICO SUPERIOR ESPECIALIZADO/ESTATÍSTICO/2014) Considere a equação de regressão Yi = α + β. Xi + εi onde Y e X são as variáveis explicada e explicativa, respectivamente, ε é o erro aleatório e α e β os parâmetros a estimar. São supostos válidos todos os pressupostos clássicos do Modelo de Regressão Linear Simples (MRLS). Além disso, para determinada amostra de pares (X,Y), foram calculadas as estatísticas p ( X, Y ) = 0,8, 6, = 15, DP (Y ) = 5 e DP ( X ) = 2. Portanto, a partir do método de Mínimos Quadrados Ordinários os estimadores de α e β são O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 11 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso a) 2 e 3 b) 3 e 2 c) -9 e 4 d) 4 e -9 e) 6 e 1,5 O coeficiente de inclinação é dado por: Não nos foi fornecida a covariância, porém podemos calculá-la a partir da correlação: Sendo assim, temos: Por outro lado, o coeficiente de intercepto é dado pelas médias: Letra b. 1 .3 . REta PassaNDO PELa ORiGEM1 .3 . REta PassaNDO PELa ORiGEM Nesse caso, deseja-se fazer um ajuste forçando o coeficientede intercepto a ser igual a zero. Dessa forma, o coeficiente de inclinação b é dado por uma expressão ligeiramente diferente: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 12 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Não temos muito o que comentar. Basta apenas decorar a expressão. Observe bem se o modelo de regressão linear é fornecido também da forma Y = bX + erro. Se não houver intercepto, é a chave para utilizar a expressão acima. 006. 006. (CESPE/TCU/ANALISTA DE CONTROLE EXTERNO/2008) Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007. A estimativa do valor do coeficiente a da reta de regressão Y = aX, em que Y representa o número esperado de imóveis vendidos para uma quantidade X de imóveis ofertados, é superior a 0,23 e inferior a 0,26. Como o enunciado fala numa reta Y = aX sem o coeficiente de intercepto, devemos utilizar a expressão da reta passando pela origem: Quando o denominador termina em 25, o modo mais fácil de fazer a conta é multiplicando por 4: Certo. (CESPE/TCE/RN/INSPETOR/2015) Para k = 1,..., 5, um modelo de regressão linear é dado por em que e representam, respectivamente, os valores da variável O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 13 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso resposta e da variável regressora do k-ésimo elemento da amostra, e representa o erro aleatório. Os erros aleatórios ε1,..., ε5 são independentes e identicamente distribuídos. Cada erro segue uma distribuição normal com média zero e variância V. Sabendo que: Julgue os itens a seguir. 007. 007. A estimativa de mínimos quadrados ordinários do coeficiente a é igual ou superior a 1. Mais uma vez, temos o modelo Y = aX + erro, sem o coeficiente de intercepto. Sendo assim, devemos utilizar a expressão da reta passando pela origem: Errado. 008. 008. A variável aleatória yk, para k = 1,..., 5, segue uma distribuição normal com variância V. O modelo de regressão linear fornecido é: Como os valores da variável regressora são determinísticos, temos que a única fonte de erro para o valor de y é o erro aleatório, que é normal gaussiano de variância V. Sendo assim, Y seguirá uma normal com a mesma variância do erro aleatório fornecido e com média igual ao produto ax. Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 14 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 009. 009. A estimativa da variância V é igual ou inferior a 1,5. A resolução mais comum, mais simples e que eu acredito que o CESPE esperava que os alunos apresentassem na hora da prova é a seguinte. Podemos utilizar que a variância do erro é menor ou igual à variância de Y a priori, ou seja, antes do modelo de regressão linear: Nesse caso, como existe correlação entre X e Y, podemos descartar o sinal de igual. Logo, a variância V será: Portanto, a variância realmente é inferior a 1,5. Eu apresentei essa solução, pois é um recurso que você pode utilizar e será bem mais fácil do que calcular precisamente a estimativa da variância do erro. No entanto, é possível obter o valor preciso da estimativa da variância do erro utilizando fórmulas que já conhecemos. Sabemos que: Vamos nos lembrar da definição dos resíduos: Como temos todos os valores fornecidos, podemos dizer que: Agora, podemos calcular a estimativa da variância do erro: Portanto, isso nos levaria a concluir que o gabarito é errado. E, nesse momento, o(a) aluno(a) se questionaria: mas a variância do erro a posteriori não deveria ser menor que a variância a priori, que é 1,5? A resposta é que isso realmente só pode ser garantido quando a amostra é grande. Não se pode fazer um modelo de regressão linear com uma amostra muito pequena de apenas 5 elementos. O mesmo pode ser dito para vários e vários estimadores. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 15 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Por conta disso, considero uma pequena tragédia essa adaptação feita para uma questão de prova. Na vida prática, você nunca fará regressão linear com uma amostra de 5 elementos, precisará de mais dados. Quando a regressão é feita com poucos dados, ela pode, sim, ser pouco efetiva. A despeito disso, nenhum recurso foi elaborado e a banca manteve o gabarito oficial. Mas eu não poderia deixar de registrar a minha contrariedade a esse gabarito. Certo. 1 .4 . REGREssÃO MULtiVaRiaDa1 .4 . REGREssÃO MULtiVaRiaDa Obs.: Se você não conhece o assunto Matrizes, esta matéria será muito difícil e creio que não vale a pena estudá-la. Suponhamos que nós queremos escrever y como uma regressão linear em mais de uma variável independente: Daremos o nome de x ao vetor (matriz linha) formado por todas as variáveis independentes. No caso, temos: Os coeficientes b também podem ser agrupados em um vetor (matriz coluna). Para calcular o vetor B, precisamos anotar todas as observações das variações x1, x2 etc. em uma matriz. Essa matriz terá o número de colunas igual ao número de variáveis e o número de linhas igual ao número de observações. Dessa forma, o vetor B será dado por: Nessa notação, X’ corresponde à matriz transposta das observações de X, em que X representa as observações da variável X. Sinceramente, eu creio que não faça o menor sentido cobrar esse assunto numa prova de concurso. Porém, o CESPE já cobrou uma vez no TCU-2015. De qualquer forma, se você for capaz de entender matrizes, vale a pena saber a fórmula da regressão linear múltipla. Mas nem se preocupe em entender esse assunto em muitos O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 16 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso detalhes. Nem mesmo nas provas específicas para Estatísticos ele costuma aparecer em maior nível de dificuldade. 010. 010. (CESPE/TCU/AUDITOR FEDERAL DE CONTROLE EXTERNO/2015) Com o objetivo de modelar a arrecadação anual do ICMS em municípios brasileiros (y), o modelo de regressão linear múltipla foi representado, na forma matricial, como y = Xβ + ε, em que y representa o vetor de respostas, X denota a matriz de delineamento, β é o vetor de parâmetros e ε é o vetor de erros aleatórios independentes e identicamente distribuídos. Considerando-se que X’ representa a transposta da matriz de delineamento, apresenta-se a seguir a matriz inversa do produto matricial X’X produzida no modelo. Com base nessas informações e sabendo que: , julgue o próximo item.A estimativado vetor de parâmetros produzida pelo método de mínimos quadrados ordinários é: Observe que o enunciado já deu todas as matrizes trabalhadas para o(a) aluno(a). Basta multiplicar: Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 17 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 2 . aVaLiaÇÃO DO MODELO2 . aVaLiaÇÃO DO MODELO Agora, vamos falar um pouco mais sobre o erro de estimativa. Algumas características importantes que o erro deve apresentar: • média nula: o erro deve apresentar média nula. Caso o erro apresentasse qualquer desvio médio, o estimador seria claramente viesado e, portanto, essa média deveria ter sido incluída no parâmetro a. Pense, por exemplo, que você está fazendo uma pesquisa sobre o salário médio de um grupo de pessoas. Então, você descobre que, em média, a sua pesquisa erra o salário médio das pessoas em 1,00 unidade para cima. Isso significa, na verdade, que a sua linha de tendência está mal posicionada e que ela deveria ter aparecido 1,00 unidade para baixo. • independente da variável X: se houvesse qualquer dependência da variável X, isso significaria que esse fator deveria ter sido incluído no modelo. Essa propriedade também é conhecida pelo nome de homocedasticidade. Quando existe dependência entre o erro e a variável X, é bastante provável que o modelo de regressão linear não se adapte bem ao sistema que está sendo estudado. Dito isso, existem algumas métricas importantes de avaliação do erro em modelos de regressão linear. Primeiramente, vejamos uma ideia geral sobre ele. 2 .1 . aNÁLisE DOs REsíDUOs2 .1 . aNÁLisE DOs REsíDUOs A estimativa de um modelo de regressão linear corresponde à linha reta que pode ser derivada diretamente dos coeficientes de inclinação e intercepto, como constam no modelo. Os resíduos da variável resposta, por sua vez, correspondem às diferenças entre o valor correto dessa variável e as suas estimativas. O gráfico de resíduos é um gráfico que dispõe os resíduos da variável resposta em função da variável explicativa, e ele é uma importante ferramenta para a avaliação de um modelo de regressão linear. Pelas características ideias de um erro, um gráfico de resíduos saudável, sem problemas, deve: • não viesado: isto é, a média dos resíduos deve ser igual a zero; • homocedásticos: o desvio padrão dos resíduos é independente da variável aleatória independente. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 18 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Vejamos na Figura 3 um exemplo ideal dessa situação. Figura 3: Exemplo de um gráfico de resíduos sem problemas Agora, vejamos alguns problemas que podem ser notados com a análise do gráfico de resíduos. • Heterocedasticidade: a variância dos erros apresenta um comportamento heterogêneo em função da variável independente (X). Figura 4: Resíduos Heterocedásticos • Assimetria: a média dos erros não é nula, portanto, o coeficiente de intercepto deve ser ajustado. Figura 5: Resíduos Assimétricos O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 19 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso • Resíduos extremos: a presença de alguns resíduos muito distantes do padrão dos demais indica a presença de dados atípicos nas suas observações. Figura 6: Resíduos Extremos Esses dados atípicos podem ser meros frutos da aleatoriedade. Pense, por exemplo, que você estuda o salário das pessoas em função da sua idade e descobre um jovem de 20 anos que ganha 50 salários-mínimos por mês. Seria uma observação bastante atípica, não é? É possível de acontecer, mas certamente é bem raro. Mas, vale notar que esses dados atípicos também podem ser oriundos de erros de medidas. Pense, por exemplo, que você está estudando as velocidades de carros em uma via e descobre um carro que atravessou o radar acima de 500 km/h. Há uma grande chance de essa medida ter sido um erro do radar. • Não linearidade: quando se observa uma linha de tendência nos resíduos que não é uma linha reta. Figura 7: Linha de Tendência não linear Nesse gráfico, observamos uma linha de tendência não linear, o que mostra que uma estimativa Ŷ = a + bX não é suficiente para descrever a variável Y em função de X. Seria preciso incluir também a relação não linear entre as duas variáveis. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 20 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 011. 011. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Em um gráfico de resíduos em uma análise de regressão, são exibidos: a) Resíduos da variável explicativa versus resíduos da variável de resposta. b) Resíduos da variável explicativa versus a variável de resposta. c) A variável explicativa versus a variável de resposta. d) A variável explicativa sobre o eixo x, contra a variável resposta sobre o eixo y e) A variável explicativa versus resíduos da variável resposta. O gráfico de resíduos tem por objetivo estudar os resíduos da variável resposta em função da variável explicativa, que correspondem à diferença entre o valor correto e a estimativa da variável resposta. Letra e. 2 .2 . aNÁLisE DE VaRiÂNcia2 .2 . aNÁLisE DE VaRiÂNcia Voltemos ao caso da dispersão dos salários pela idade. Antes da regressão linear, tínhamos uma lista de salários de diversas pessoas e poderíamos calcular a sua média e o seu desvio-padrão. Podemos observar dois tipos de desvios a serem calculados: • Soma dos Quadrados Totais SQTot (antes): corresponde aos desvios em relação à média da variável Y, ou seja, antes de se fazer qualquer estimativa de regressão linear. Perceba que esse fator é diretamente relacionado ao desvio-padrão (ou à variância SYY) da variável resposta. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 21 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Utilizamos (N-1) no denominador, pois consideramos a variância amostral, que será o caso da maior parte das questões envolvendo regressão linear. • Soma dos Quadrados dos Erros ou Resíduos, SQRes ou SQEr (depois): é a soma dos quadrados dos erros ou resíduos de estimativa. Corresponde aos desvios em relação às estimativas lineares, ou seja, depois da regressão linear. É natural esperar que a soma dos erros depois da regressão linear seja menor que a soma dos erros antes da regressão linear. Afinal, é para isso que serve essa técnica: melhorar a estimativa da variável Y. Assim, define-se: • Soma dos Quadrados da Regressão SQReg: é a melhoria ou redução dos erros. Tem-se: Pode-se provar que a soma dos quadrados da regressãose relaciona com a variância entre as variáveis. A soma dos quadrados da regressão também pode ser relacionada com a variância da regressora. Para isso, devemos nos lembrar de que: Substituindo na expressão acima, temos: Temos, então, duas expressões muito úteis para o cálculo da soma dos quadrados do modelo de regressão: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 22 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 2 .2 .1 . cOEFiciENtE DE DEtERMiNaÇÃO OU EXPLicaÇÃO Esse é disparadamente o assunto mais cobrado em questões de prova. O coeficiente de determinação (R²) é dado pela razão de melhoria. Isto é, o quanto o modelo de regressão melhorou os erros da variável resposta sobre o quanto os erros eram antes. Pode-se demonstrar – e esse é disparado o assunto mais cobrado em questões de prova – que o coeficiente de determinação é igual ao quadrado da correlação. Assim como a variância, o coeficiente de determinação (R²) tem o seu símbolo R². Não caia no erro de tirar a raiz, tudo bem? Lembre-se da relação importantíssima: 2 .2 .2 . VaRiÁVEis ENDÓGENas E EXÓGENas Trata-se de uma definição simples, porém de suma importância. Uma variável explicativa pode ser classificada como: • endógena: quando está correlacionada com a perturbação (chamada endogeneidade), portanto o coeficiente de determinação do modelo de regressão linear é significativo; • exógena: quando está descorrelacionada com a perturbação (chamada exogeneidade), portanto o coeficiente de determinação do modelo de regressão linear é muito pequeno, próximo a zero. Vale observar que, como a correlação não implica causalidade, é bastante possível que a correlação observada seja fruto de erros de medição ou, até mesmo, da aleatoriedade. A endogeneidade não é uma prova definitiva de que há alguma relação entre as duas variáveis. Os modelos estatísticos servem apenas como um indicativo inicial de pesquisa. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 23 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 012. 012. (CESPE/PCDF/2021) Determinado pesquisador reuniu dados de vários municípios brasileiros e estimou um modelo de regressão linear múltipla por mínimos quadrados ordinários. A variável dependente foi a taxa de homicídios, e as variáveis independentes incluíam variáveis, como, por exemplo, PIB per capita, média de anos de estudo, índice de Gini e outras variáveis socioeconômicas. Após a estimação, o pesquisador calculou a correlação entre os resíduos e as variáveis independentes e notou que essas correlações foram iguais a zero. Com referência a essa situação hipotética, julgue o próximo item. A ausência de correlação entre as variáveis independentes e os resíduos da regressão mostra que as variáveis independentes são exógenas. Na análise de regressão, uma variável explicativa exógena é aquela que não está correlacionada com a perturbação da variável dependente. Portanto, para avaliar se a variável é realmente exógena, o pesquisador deveria analisar a correlação entre a variável dependente e a explicativa. Porém, nesse caso, ele avaliou a correlação entre a variável independente e o resíduo. E, note que, na realidade, essa é uma das exigências do método dos mínimos quadrados. Estudamos as características adequadas para o resíduo de regressão, que deve apresentar média nula e ser estatisticamente independente da variável explicativa. Portanto, o fato de a correlação entre os resíduos obtidos e as variáveis independentes ter sido nula é apenas uma característica esperada da estimativa por mínimos quadrados, e é prova apenas de que o modelo de regressão linear foi calculado adequadamente usando esse método. Errado. 2 .2 .3 . VaRiÂNcia DO ERRO A estimativa de variância do erro é dada por: Na equação acima, p é o número de variáveis envolvidas na regressão linear – tanto as dependentes como as independentes. Se estivermos falando de uma regressão linear comum, no caso, os salários (Y) pela idade (X) de um grupo de entrevistados, temos duas variáveis. Esse é o caso geral cobrado em questões de prova. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 24 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso No entanto, é útil saber que a mesma expressão poderia ser cobrada para uma regressão múltipla, em que se tem várias variáveis regressoras. Por exemplo, poderíamos avaliar o comportamento dos salários em função da idade e da carga horária semanal de um grupo de pessoas. Nesse caso, teríamos p = 3, pois são três variáveis envolvidas. O grande objetivo de um modelo de regressão linear é que essa estimativa do erro seja menor que a variância amostral obtida para a variável isoladamente. A razão para isso é que o erro ou desvio do modelo de regressão linear diz respeito ao quanto o valor real da variável se afasta em relação à estimativa de regressão linear. Por outro lado, a variância de Y se relaciona ao quanto o valor real da variável se afasta em relação à média da variável Y. Se, por acaso, a estimativa do erro do modelo de regressão linear for superior ao próprio desvio-padrão da variável Y, o nosso modelo está, na verdade, atrapalhando, pois resulta em desvios maiores do que simplesmente considerar a média de Y. Seria, portanto, melhor tomar a média da variável Y como sua estimativa em vez de tomar o nosso modelo de regressão linear. 013. 013. (CESPE/TCE/PA/2016) Uma regressão linear simples é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item subsecutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal, média zero e variância constante. Se, em uma amostra de tamanho n = 25, o coeficiente de correlação entre as variáveis X e Y for igual a 0,8, o coeficiente de determinação da regressão estimada via mínimos quadrados ordinários, com base nessa amostra, terá valor R2 = 0,64. Questão bastante direta. Basta nos lembrarmos de que o coeficiente de determinação é igual ao quadrado da correlação. Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 25 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 014. 014. (CONSULPLAN/TSE/2012) Na análise de regressão múltipla, foram encontrados: • Soma dos Quadrados da Regressão: 40.000. • Soma dos Quadrados dos Erros: 10.000. Assim, o coeficiente de determinação Múltipla dessa regressão é: a) 0,25 b) 0,80 c) 0,75 d) 0,90 O coeficiente de determinação é dado por: Já foi dado o SQReg. Podemos, agora, calcular o SQTot nos lembrando de que: Sendo assim, temos o coeficiente de determinação: Letra b. 015. 015. (FGVSEAD/AP/FISCAL DA RECEITA ESTADUAL/2010) Se no ajuste deuma reta de regressão linear simples de uma variável Y em uma variável X o coeficiente de determinação observado foi igual a 0,64, então o módulo do coeficiente de correlação amostral entre X e Y é igual a: a) 0,24 b) 0,36 c) 0,50 d) 0,64 e) 0,80 O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 26 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Questão clássica. O coeficiente de determinação é igual ao quadrado da correlação. Letra e. 016. 016. (FGV/ISS/RECIFE/ANALISTA DE CONTROLE INTERNO/2014) Numa regressão linear simples, obteve-se um coeficiente de correlação igual a 0,78. O coeficiente de determinação é aproximadamente igual a: a) 0,36 b) 0,48 c) 0,50 d) 0,61 e) 0,69 Outra questão clássica. O coeficiente de determinação é igual ao quadrado da correlação. Letra d. 017. 017. (FEPESE/SEFAZ/SC/ANALISTA FINANCEIRO/2010) Considere que um modelo de regressão qualquer gerou resíduos padronizados que estão representados no diagrama de dispersão a seguir, em função dos valores da variável independente: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 27 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Sobre o modelo de regressão que gerou os resíduos padronizados mostrados no diagrama acima, pode-se afirmar que: a) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos padronizados apresentam heterocedasticidade. b) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos padronizados apresentam homocedasticidade. c) É inadequado para representar o relacionamento entre as variáveis, pois seus resíduos padronizados apresentam homocedasticidade. d) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos padronizados apresentam padrão não aleatório. e) É inadequado para representar o relacionamento entre as variáveis, pois seus resíduos padronizados apresentam heterocedasticidade. A variância do erro depende do valor de X, sendo assim, o modelo de regressão utilizado apresenta heterocedasticidade, o que o torna inadequado para representar o relacionamento entre as variáveis. Letra e. 018. 018. (FGV/SEFAZ-RJ/AGENTE FISCAL DE RENDAS/2008) O coeficiente de determinação de um modelo de regressão linear serve como uma importante ferramenta para avaliar o grau de ajustamento do modelo aos dados. A respeito desse coeficiente, assinale a afirmativa incorreta. a) Seu valor varia entre 0 e 1. b) É invariante a uma mudança de escala das variáveis independentes. c) É utilizado para escolher modelos com número de variáveis independentes diferentes. d) É uma função não decrescente no número de variáveis independentes no modelo. e) Representa a participação relativa da soma dos quadrados da regressão sobre a soma dos quadrados total. Como o coeficiente de determinação é igual ao quadrado da correlação, que está entre -1 e 1, então, o coeficiente de determinação realmente ficará entre 0 e 1. Portanto, o item “a” está certo. De fato, também a mudança de escala não altera o coeficiente de determinação. O item “b” está certo. O item “c” é, no mínimo, estranho. Não faz muito sentido, de fato, escolher entre modelos diferentes com variáveis independentes diferentes. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 28 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso No que se refere ao item “d”, de fato, quanto maior o número de variáveis, melhor se ajustará o modelo de regressão linear às variáveis estudadas. Por fim, a definição do coeficiente de determinação é exatamente a que consta na letra “e”, que representa a razão entre a soma dos quadrados da regressão (SQReg) sobre a soma dos quadrados totais (SQTot). Letra c. 2 .2 .4 . GRaUs DE LiBERDaDE Já estudamos anteriormente os conceitos das somas dos quadrados totais, da regressão e dos erros. Considerando que os erros sigam distribuição normal e sejam estatisticamente independentes da variável explicativa, teremos que todas essas somas de quadrados seguem distribuições qui-quadradas. Cada distribuição qui-quadrada é caracterizada pelo seu número de graus de liberdade, que podem ser determinados, se conhecermos duas importantes características: • N: o tamanho das amostras das variáveis explicativas e resposta. • p: o número de variáveis totais envolvidas (explicativas e resposta). Assim, os graus de liberdade importantes de conhecermos são: • total: N – 1. • modelo: p – 1. • erro: N – p. É importante observar que o número de graus de liberdade do erro corresponde à diferença entre os graus de liberdade totais e o do modelo. Assim, podemos escrever: Considero que é importante apenas saber que todas elas seguem distribuição qui- quadrado e seus respectivos graus de liberdade. Apenas isso. Não creio que será necessário trabalhar com as tabelas da distribuição qui-quadrado para as variáveis aleatórias SqTot, SqReg e SqEr. Esses graus de liberdade são importantes também, porque eles aparecem no denominado do cálculo das variâncias. Lembre-se: Vejamos, como exemplo, essa tabela de graus de liberdade extraída da prova da Polícia Federal, aplicada pelo Cespe em 2018. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 29 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Somente com base nessa tabela, podemos determinar que: Assim, podemos concluir que esse modelo foi construído com base: • em duas variáveis aleatórias, sendo uma variável aleatória explicativa e uma variável regressora. Portanto, é um modelo do tipo: • em uma amostra de 901 elementos das variáveis X e Y. Vamos, então, treinar com questões? 019. 019. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +αX + α, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e α são os parâmetros do modelo e α é o erro aleatório. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico 30 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Com base nas informações e na tabela apresentadas, sabendo-se que e Var(X) = 0,2487 e considerando que 3,84 seja o valor aproximado de . Julgueo item a seguir. O modelo apresentado possui 2 graus de liberdade. Quanto aos graus de liberdade, sabe-se que: Substituindo os dados do enunciado, temos: Dessa forma, o modelo apresentado possui apenas 1 grau de liberdade. Errado. 020. 020. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2011) Complete a tabela de graus de liberdade para a realização do teste de ANOVA, a tabela deve ser preenchida de acordo os dados da tabela de dados abaixo, para comparar o desempenho de médias entre variáveis X1, X2 e X3: Tabela de graus de liberdade da ANOVA: Os graus de liberdade, respectivamente para o fator (I), para o erro (II) e para o total (III) são: a) 2, 18 e 20. b) 3, 18 e 21. c) 2, 20 e 22. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 31 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso d) 3, 20 e 23. e) 2, 19 e 21. Observe que foram colocados um total de 21 dados (N = 21) na tabela e que foram registrados 3 parâmetros (p = 3). Assim, podemos obter: • Total: N – 1 = 21 – 1 = 20; • Fator: p – 1 = 3 – 1 = 2; • Erro: N – p = 21 – 3 = 18. Letra a. 2 .3 . aNÁLisE DOs cOEFiciENtEs2 .3 . aNÁLisE DOs cOEFiciENtEs 2 .3 .1 . RaZÃO t O objetivo da razão t é determinar se a influência da variável explicativa é realmente significativa ou se ela pode ser materialmente nula. Uma visão muito importante sobre os modelos de regressão linear é que os próprios parâmetros do modelo são aleatórios, porque as variáveis X e Y são aleatórias, e o modelo de regressão linear é obtido a partir de amostras dessas variáveis. Assim, podemos obter o erro padrão. A razão t é a razão entre o valor estimado para o coeficiente e o seu erro padrão. Dessa maneira, temos: A razão t expressa quantos desvios-padrão está o coeficiente afastado de zero. Isso é muito importante, pois, se o coeficiente não está significativamente afastado da origem, o próprio modelo de regressão linear é pouco significativo. Nesse caso, a variável explicativa X é dita exógena. Outra forma de estudar se o modelo de regressão linear é realmente significativo em relação à variável é o valor-p associado aos coeficientes. Nesse caso, utilizam-se as mesmas ferramentas que já havíamos estudado em Testes de Hipóteses. Suponhamos que, em um modelo de regressão linear, a estimativa do coeficiente b > 0 e que seu p-valor seja igual a 10. O que isso significa? O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 32 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Pelas ferramentas de Testes de Hipóteses, isso significa que há uma probabilidade de 10% de que esse coeficiente tenha valor real negativo. Com isso, há uma probabilidade de 10% de que a influência da variável explicativa X sobre a variável resposta Y seja materialmente nula. Vamos ver um exemplo prático dessa análise. 021. 021. (CESPE/POLÍCIA FEDERAL/2021) Um estudo objetivou avaliar a evolução do número mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com base no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de regressão linear simples da forma. Ŷ = 5 – 0,1 x T, em que Ŷ representa a reta ajustada em função da variável regressora T, tal que 1 ≤ T ≤ 12. Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respectivos p-valores encontram-se na tabela a seguir. Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6. Com base nessas informações, julgue o item a seguir. Considere que a denote o coeficiente angular do modelo de regressão linear simples e considere, ainda, que o teste de hipóteses H0 : a = 0 versus H1 : a ≠ 0. Nessa situação, com referência a esse teste, caso o nível de significância escolhido seja igual a 5%, os resultados do estudo em questão indicarão que não há evidências estatísticas contra a hipótese nula H0 : a = 0. Foi fornecido o erro padrão para o modelo de coeficiente angular igual a 0,064. Esse erro já é muito próximo da própria estimativa do coeficiente. Podemos calcular a estatística normalizada para ele: O enunciado forneceu ainda o p-valor: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 33 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Esse p-valor é maior que 5%. Isso significa que, ao nível de 5% de significância, não temos como garantir que realmente o coeficiente de inclinação seja maior que zero. Portanto, não temos provas estatísticas suficientes contra essa hipótese nula. Em outras palavras, isso significa que o modelo de regressão linear deduzido não garante que o seu próprio coeficiente de inclinação seja significativo. Logo, a influência do parâmetro T sobre Y é muito pequena, materialmente nula. Podemos, então, dizer que a variável T é, na realidade, uma variável exógena, tendo em vista que sua influência sobre o parâmetro Y é pouco significativa. Certo. 2 .3 .2 . Estatística F O teste F tem por objetivo testar a significância global do modelo. Para isso, considere um modelo geral de regressão linear com p parâmetros e p – 1 variáveis independentes: Um modelo é significativo quando tivermos provas estatísticas de que os coeficientes são significativamente diferentes de zero. Para examinar isso, podemos montar um teste de hipóteses com as seguintes hipóteses nula e alternativa: • H 0: β1 = β2 = … = βp–1 = 0 • H 1: pelo menos um dos βi é diferente de zero Para determinar se o modelo é significativo, devemos recorrer ao teste F. Vamos nos recordar da definição da distribuição F de Snedecor. Se V 1 e V2 são duas variáveis aleatórias independentes que seguem distribuições qui- quadradas com graus de liberdade respectivamente iguais a m1 e m2 com média nula. Isto é: Então, a variável F definida como: Segue distribuição qui-quadrado. A distribuição qui-quadrado é obtida pela soma dos quadrados de uma distribuição normal. Considerando que os erros de um modelo de regressão linear seguem distribuição normal e são estatisticamente da variável resposta, então podemos criar a seguinte estatística de teste F: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 34 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Como vimos, tanto o SQReg como SQEr seguem distribuições qui-quadradas. Além disso, o modelo de regressão (SQReg) tem p – 1 graus de liberdade e os erros (SQEr) possuem N – p graus de liberdade. Assim, temos: O objetivo da estatística F é que ela testa a aderência do modelo como um todo, e não somente de cada coeficiente isoladamente. O valor calculado deve, então, ser comparado com a estatística crítica que é fornecida nas tabelas da distribuição F com os números de graus de liberdade apropriados, ou, ainda, com o auxílio de softwares de estatística, como o R ou até mesmo Excel com a função =INV.F. Se a estatística F for superior ao valor crítico, então, o modelo serásignificativo. Eu sei que você pode ter achado complicada a teoria. Mas, em termos práticos, em questões de prova tudo o que você precisa fazer é: • calcule a estatística F pela expressão: • • compare com a estatística crítica que, na hora da prova, pode ser fornecida por meio de uma tabela; • se for maior, conclua que o modelo é significativo. Caso contrário, conclua que o modelo não é significativo. Vejamos, como exemplo, essa tabela de graus de liberdade extraída da prova da Polícia Federal, aplicada pelo Cespe em 2018. Queremos Podemos calcular a estatística F referente ao modelo de regressão linear como: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 35 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Com o auxílio do Excel, podemos calcular a estatística limite usando o comando =INV.F(0,95; 1; 899) – usamos 0,95, porque o Excel calcula a distribuição acumulada. E, assim, obtemos a estatística crítica: Como F = 1153,8 > Fcrítico, podemos concluir que o modelo de regressão linear em estudo é significativo. Vejamos agora uma questão de prova sobre essa estatística. 022. 022. (VUNESP/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICO/2020) Numa regressão linear simples em que foi utilizada uma amostra com 52 observações, a soma dos quadrados totais é de 50 e a soma dos quadrados dos resíduos é de 20. O coeficiente de determinação e a estatística F dessa regressão são, respectivamente: a) 0,6 e 75. b) 0,6 e 12. c) 0,8 e 1,5. d) 0,8 e 12. e) 0,8 e 75. O coeficiente de determinação pode ser obtido como a relação entre a soma dos quadrados da regressão (SQR) e a soma dos quadrados totais (SQT). Assim, temos: A soma dos quadrados da regressão (SQR) não foi fornecida. Porém, ela pode ser obtida como a diferença entre a soma dos quadrados totais (SQT) e a soma dos quadrados dos resíduos ou erros (SQE): A estatística F, por sua vez, pode ser obtida como: Letra a. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 36 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso RESUMORESUMO cOEFiciENtEs Análise dos Resíduos sOMa DOs QUaDRaDOs Da REGREssÃO O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 37 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso GRaUs DE LiBERDaDE • total: N – 1. • modelo: p – 1. • erro: N – p. cOEFiciENtE DE DEtERMiNaÇÃO VaRiÂNcia DO ERRO Estatística F O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 38 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso MAPA MENTALMAPA MENTAL O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 39 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso EXERCÍCIOSEXERCÍCIOS 001. 001. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Num modelo de regressão linear pelo método dos mínimos quadrados, sabe-se que a inclinação da reta é a = 3,24 e o intercepto da reta é b = 12,6, então o valor de para x = 30 é: a) 126,8 b) 136,8 c) 116,2 d) 108,2 e) 109,8 002. 002. (VUNESP/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICO/2020) A variável x tem média 4 e desvio padrão 2, enquanto a variável y tem média 3 e desvio padrão 1. A covariância entre x e y é –1. A equação estimada da regressão linear simples de y por x é: a) y = 2 – 0,25x. b) y = 3 – 0,5x. c) y = 3 – x. d) y = 4 – x. e) y = 4 – 0,25x. 003. 003. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Em uma análise de regressão, se o coeficiente de determinação r² = 1, então: (Considere SQT = Soma de quadrados total; SQE = Soma de quadrados do erro; SQR = Soma de quadrados da regressão.) a) SQE = SQT. b) SQE = 1. c) SQR = SQE. d) SQR = SQT. e) SQR > SQT. 004. 004. (IBFC/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICA/2020) Um modelo de regressão linear simples foi gerado para explicar vendas (Y, em milhares de reais) a partir de propaganda (X, em centenas de reais). Algumas informações do modelo são apresentadas: Equação de regressão estimada: Y=12 + 1,8X Tamanho da amostra: 17 observações. Soma de quadrados da regressão: 225,00. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 40 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Soma de quadrados dos resíduos: 75,00. Sb1= 0,27. Considere as seguintes afirmações: I – De acordo com a equação de regressão estimada, um gasto de R$ 1.000,00 em propaganda resulta em vendas estimadas de R$ 40.000,00. II – O coeficiente de determinação do modelo (R²) é de 75%. III – A cada incremento unitário em X, espera-se que Y aumente 1,8. Estão corretas as afirmativas: a) I apenas b) I e II, apenas c) I e III, apenas d) II e III, apenas 005. 005. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA POLICIAL FEDERAL/2018) O intervalo de tempo entre a morte de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição normal com média zero e desvio padrão igual a 4. As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordinários foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual a 5 horas. A respeito dessa situação hipotética, julgue o item a seguir. O coeficiente de explicação do modelo (R2) foi superior a 0,70. 006. 006. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA/2018) O intervalo de tempo entre a morte de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição normal com média zero e desvio padrão igual a 4. As estimativas dos coeficientes a e b, obtidaspelo método dos mínimos quadrados ordinários foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2018-policia-federal-papiloscopista-policial-federal https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2018-policia-federal-papiloscopista-policial-federal 41 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual a 5 horas. A respeito dessa situação hipotética, julgue o item a seguir. A média amostral da variável resposta y foi superior a 30 horas. 007. 007. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Dentre os gráficos abaixo, o que melhor representa um coeficiente de correlação linear próximo de -0,23 é: a) b) c) d) e) 008. 008. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Considerando o relacionamento entre a variável independente X e a variável dependente Y, mostrado na figura abaixo, assinale a alternativa correta. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 42 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso a) O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%. b) O relacionamento entre X e Y é fraco e não deve ser considerado. c) Não existe relação linear entre as variáveis analisadas. d) O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y. e) O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y. 009. 009. (FCC/SEFAZ-BA/AUDITOR-FISCAL/ADMINISTRAÇÃO TRIBUTÁRIA/PROVA II/2019) Em uma determinada indústria, foi efetuada uma pesquisa a respeito da possível relação entre o número de horas trabalhadas (X), com X ≥ 2, e as quantidades produzidas de um produto (Y). Com base em 10 pares de observações (Xi,Yi) e considerando o gráfico de dispersão correspondente, optou-se por utilizar o modelo linear Yi = α + βXi + εi, com i representando a i-ésima observação, ou seja, i = 1, 2, 3,... 10. Os parâmetros α e β são desconhecidos e as suas estimativas (a e b, respectivamente) foram obtidas pelo método dos mínimos quadrados. Observação: εi é o erro aleatório com as respectivas hipóteses do modelo de regressão linear simples. Considere o gráfico, abaixo, construído utilizando os valores encontrados para as estimativas de α e β. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fcc-2019-sefaz-ba-auditor-fiscal-administracao-tributaria-prova-ii 43 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso A previsão da quantidade produzida será igual ao dobro da média verificada das 10 observações Yi quando o número de horas trabalhadas for igual a: a) 20. b) 24. c) 22. d) 18. e) 12. 010. 010. (CESPE/CGE-CE/CONHECIMENTOS BÁSICOS/2019) Considerando-se que, em uma regressão múltipla de dados estatísticos, a soma dos quadrados da regressão seja igual a 60.000 e a soma dos quadrados dos erros seja igual a 15.000, é correto afirmar que o coeficiente de determinação — R² — é igual a: a) 0,75. b) 0,25. c) 0,50. d) 0,20. e) 0,80. 011. 011. (CESPE/DEPEN/AGENTE PENITENCIÁRIO FEDERAL/ÁREA 4/2014) A tabela mostrada apresenta a quantidade de detentos no sistema penitenciário brasileiro por região em 2013. Nesse ano, o déficit relativo de vagas — que se define pela razão entre o déficit de vagas no sistema penitenciário e a quantidade de detentos no sistema penitenciário — registrado O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2019-cge-ce-conhecimentos-basicos https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-depen-agente-penitenciario-federal-area-4 44 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso em todo o Brasil foi superior a 38,7%, e, na média nacional, havia 277,5 detentos por 100 mil habitantes. Com base nessas informações e na tabela apresentada, julgue o item a seguir. Considerando que a figura a seguir apresente o diagrama de dispersão entre o tamanho populacional da região (em milhões de habitantes) e a população carcerária correspondente (em mil pessoas), então é correto afirmar que a população carcerária tende a crescer linearmente à medida que a população da região aumenta. 012. 012. (FCC/TRT 5ª REGIÃO-BA/ANALISTA JUDICIÁRIO/ESTATÍSTICA/2013) Utilizando o método dos mínimos quadrados, obteve-se o ajustamento do modelo linear Zi = α + βXi + γYi +εi , i = 1, 2, 3,..., em que Z é a variável dependente, X e Y são as variáveis explicativas, i corresponde a i-ésima observação, α, β e γ são parâmetros desconhecidos e εi o erro aleatório, com as respectivas hipóteses consideradas para a regressão linear múltipla. O ajustamento foi encontrado com base em uma amostra aleatória de 20 ternos (Xi , Yi , Zi ) apurando-se as estimativas de α, β e γ. Dados do correspondente quadro de análise de variância: A estimativa da variância populacional do modelo teórico (σ²), com base nos dados da amostra, é igual a: a) 15,300. b) 16,150. c) 17,100. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fcc-2013-trt-5-regiao-ba-analista-judiciario-estatistica 45 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso d) 18,165. e) 19,380. 013. 013. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) Um estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste. Considerando que , julgue o item subsequente relativo ao referido ajuste. A estimativa da variância de é inferior a 3. 014. 014. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) UM estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as estimativas de mínimos quadrados ordinários dos coeficientesda reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste. Considerando que , julgue o item subsequente relativo ao referido ajuste. A estimativa da variância do erro aleatório em torno da tendência ajustada é superior a 27. 015. 015. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) Um estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica 46 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste. Considerando que , julgue o item subsequente relativo ao referido ajuste. No período de 2010 a 2014, a média aritmética do índice Y foi igual a 30. 016. 016. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX + ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os parâmetros do modelo e ε é o erro aleatório. Com base nas informações e na tabela apresentadas, sabendo-se que e Var(X) = 0,2487 e considerando que 3,84 seja o valor aproximado de . Julgue o item a seguir. A porcentagem estimada de estudantes cotistas é menor que 50%. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX + ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os parâmetros do modelo e ε é o erro aleatório. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico 47 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Com base nas informações e na tabela apresentadas, sabendo-se que e Var(X) = 0,2487 e considerando que 3,84 seja o valor aproximado de . Julgue os itens a seguir. 017. 017. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) O coeficiente de determinação é maior que 0,7. 018. 018. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Julgue o item a seguir: A variância de Y é menor que 10. 019. 019. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua matriz de análise de variância (ANOVA) apresentada abaixo. A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência estatística. Dadas as hipóteses H0: µ = 8 e H1: µ ≠ 8, e sabendo-se que foi utilizada uma amostra de tamanho 25, que a variável em estudo X segue uma distribuição normal com média µ e variância 4 e que, para α = 0,05, Φ(-1,96) = 0,05 então o valor crítico para esse teste é aproximadamente 7,216. 020. 020. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua matriz de análise de variância (ANOVA) apresentada abaixo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica 48 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência estatística. O coeficiente de determinação é aproximadamente 0,59. 021. 021. (FGV/IBGE/TECNOLOGISTA/ESTATÍSTICA/2016) Após estimar um modelo de regressão linear múltipla, por MQO, um econometrista repara que, por algum motivo, a tabela contendo os resultados da análise da variância ficou incompleta, conforme abaixo: Apesar dos valores acima omitidos, é correto afirmar que: a) a equação de regressão tem cinco variáveis explicativas; b) o coeficiente de determinação R2 é igual a 0,8; c) ao nível de significância de 2% não se rejeita a hipótese nula de que o modelo explica a variável dependente; d) o tamanho da amostra é n = 20; e) a estimativa não tendenciosa da variância dos erros aleatórios do modelo é igual a 80. 022. 022. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua matriz de análise de variância (ANOVA) apresentada abaixo. A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência estatística. Foram utilizados 19 dados para a estimação do modelo de regressão linear. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fgv-2016-ibge-tecnologista-estatistica https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica 49 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso (CESPE/POLÍCIA FEDERAL/2021) UM estudo objetivou avaliar a evolução do número mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com base no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de regressãolinear simples da forma. Ŷ = 5 – 0,1 x T, em que Ŷ representa a reta ajustada em função da variável regressora T, tal que 1 ≤ T ≤ 12. Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respectivos p-valores encontram-se na tabela a seguir. Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6. Com base nessas informações, julgue os itens a seguir. 023. 023. Se a média amostral da variável T for igual a 6,5, então a média amostral da variável Y será igual a 4,35 mil ocorrências. 024. 024. (CESPE/POLÍCIA FEDERAL/2021) A correlação linear entre as variáveis Y e T foi igual a –0,1 (CESPE/POLÍCIA FEDERAL/AGENTE DA POLÍCIA FEDERAL/2018) Um pesquisador estudou a relação entre a taxa de criminalidade (Y) e a taxa de desocupação da população economicamente ativa (X) em determinada região do país. Esse pesquisador aplicou um modelo de regressão linear simples na forma Y = bX + a + ε, em que b representa o coeficiente angular, a é o intercepto do modelo e ε denota o erro aleatório com média zero e variância σ2 . A tabela a seguir representa a análise de variância (ANOVA) proporcionada por esse modelo. A respeito dessa situação hipotética, julgue o próximo item, sabendo que b > 0 e que o desvio padrão amostral da variável X é igual a 2. 025. 025. A estimativa do coeficiente angular b, pelo método de mínimos quadrados ordinários, é igual a 0,25. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 50 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 026. 026. A estimativa da variância σ² é superior a 0,5. 027. 027. A correlação linear de Pearson entre a variável resposta Y e a variável regressora X é igual a 0,75. 028. 028. (FGV/TJ-RO/ESTATÍSTICO/2015) Num modelo de regressão linear, a violação dos pressupostos de homocedasticidade e do emprego de variáveis explicativas não estocásticas, mantidas as demais hipóteses, poderá causar a perda, por parte dos estimadores de MQO, respectivamente, das propriedades de: a) não tendenciosidade e eficiência assintótica; b) consistência e eficiência; c) suficiência e completude; d) eficiência e consistência; e) não tendenciosidade assintótica e suficiência. 029. 029. (FGV/AL-RO/ASSISTENTE LEGISLATIVO/TÉCNICO EM LOGÍSTICA/2018) Há 5 meses, sua empresa fez um contrato para vender exclusivamente o trigo produzido por uma cooperativa. Seu fornecedor informa que não poderá fazer entrega nos próximos dois meses (mês 6 e mês 7). Em função dessa descontinuidade, o gerente geral de sua empresa pede para você calcular a previsão da soma das demandas dos dois meses citados. Ele o orientou a simplificar os cálculos, optando por uma projeção baseada em uma regressão linear que usa os dados das demandas dos 5 meses desde o início da venda de trigo. Os dados estão apresentados, mês a mês, na tabela a seguir. Assim, após fazer os cálculos segundo essas orientações, o resultado correto para a soma pedida é: a) 24,5. b) 31,6. c) 45,0. d) 51,9. e) 56,1. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fgv-2015-tj-ro-estatistico https://www.qconcursos.com/questoes-de-concursos/provas/fgv-2018-al-ro-assistente-legislativo-tecnico-em-logistica 51 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 030. 030. (FCC/TRT 5ª REGIÃO-BA/ANALISTA JUDICIÁRIO/ESTATÍSTICA/2013) O modelo linear Yt = α + βt + εt , t = 1, 2, 3,..., é utilizado para prever a venda (Yt ), em milhares de reais, de um produto no ano (2002 + t). α e β são parâmetros desconhecidos e εt é o erro aleatório com as respectivas hipóteses da regressão linear simples. As estimativas de α e β foram obtidas pelo método dos mínimos quadrados, com base nas observações das vendas de 2003 a 2012. Dados: Considerando a equação da reta obtida pelo método dos mínimos quadrados, a previsão do primeiro ano em que a venda irá superar R$ 60.000,00 será em: a) 2016. b) 2017. c) 2018. d) 2019. e) 2020. (CESPE/TCE/PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanhamento ambiental considerou, para, um modelo de regressão linear simples na forma, em que a e b são constantes reais, representa a variável resposta referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e denota o erro aleatório que segue distribuição normal com média nula e variância V. Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta ajustada , para Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação do modelo (R quadrado) seja igual a 0,64, julgue os seguintes itens. 031. 031. A razão para cada é uma variável aleatória que segue distribuição normal com média nula e variância unitária. 032. 032. Se representar a média amostral da variável regressora e se denotar a média amostral da variável resposta, com e , então . 033. 033. O desvio padrão amostral da variável regressora é igual a 1,6. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fcc-2013-trt-5-regiao-ba-analista-judiciario-estatistica 52 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 034. 034. A correlação linear entre as variáveis x e y é igual a 0,5, pois a reta invertida proporcionada pelo método de mínimos quadrados ordinários é expressa por , para . 035. 035. Se, para cada , o ponto seguir uma distribuição normal bivariada cuja matriz de covariânicas seja dada por então a estimativa do elemento será igual a 2. 036. 036. (FCC/AL/AP/ANALISTA LEGISLATIVO/ECONOMIA/2020) Em uma empresa de determinado ramo de atividade, utilizando o método de regressão linear, obteve-se a equação de tendência (T) da série temporal abaixo. Os dados apresentam 10 observações da série temporal Y, que representa o faturamento de uma empresa, em milhões de reais. Supõe-se que essa série é composta apenas de uma tendência T e um ruído branco de média zero e variância constante. A tendência apresenta a forma T = a + bt, em que a e b foram obtidos usando o método dos mínimos quadrados. Considerando a equação obtida, tem-se que o acréscimo no faturamento do ano t, com t > 1, para o ano (t + 1) é, em milhões de reais, de a) 1,2. b) 1,5. c) 0,6. d) 2,4. e) 1,8. (INÉDITA/2023) Sejam X e Y duas variáveis aleatórias tais que a covariância entre elas é dada por SXY = 3, cujas variâncias são iguais a SXX = 4 e SYY = 9 e cujas médias são iguais, respectivamente, a μX = 4 e μY = 0. A respeito dessa situação, julgue os seguintes itens. 037. 037. O modelo de regressão linear entre as duas variáveis é Y = X/3 – 4/3. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 53 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 038. 038. O coeficiente de determinação do modelo de regressão linear é iguala 25%. (INÉDITA/2023) Uma equipe de médicos desejava estudar a influência do consumo diário de açúcares (em gramas) sobre a pressão diastólica de indivíduos. Pelos estudos com uma população, foram registrados os seguintes dados: Pressão Diastólica (Y) Consumo de Açúcar (X) Média 120 mmHg 80 g Desvio-Padrão 20 mmHg 10 g Covariância 120 mmHg.g 120 mmHg.g Desejava-se fazer um estudo de regressão Y = a + bX + є, em que є é uma variável aleatória com média nula. Com base nessas informações, julgue os seguintes itens. 039. 039. O parâmetro b é menor que 1. 040. 040. O coeficiente de determinação para esse modelo de regressão linear é igual a 36%. 041. 041. (INÉDITA/2023) Se uma pessoa consome 100 g de açúcar, a expectativa de sua pressão diastólica é igual a 144 mmHg. 042. 042. (INÉDITA/2023) Considerando um grupo de pessoas que consomem 100 g de açúcar por dia, o desvio-padrão esperado para a pressão diastólica nesse grupo é igual a 16 mmHg. (INÉDITA/2023) Um pesquisador construiu um modelo de regressão linear para duas variáveis Y = a + bX + ε, em que ε é um ruído aleatório de média nula. X Y Média 2 10 Variância 4 36 Covariância 10,8 10,8 043. 043. A estimativa pelo método dos mínimos quadrados para o coeficiente b é maior que 3. 044. 044. A estimativa pelo método dos mínimos quadrados para o coeficiente a é menor que 4. 045. 045. O coeficiente de determinação do modelo é igual a 90%. (INÉDITA/2023) Um pesquisador coletou dados sobre a criminalidade em diversos países (Y) em função do desemprego (X), chegando ao modelo Y = 0,5 + 0,2.X + ε, em que ε é uma O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 54 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso variável aleatória com distribuição normal, média nula, estatisticamente independente X e com variância igual a 1. Sabe-se, ainda, que a média de X é igual a 1 e que a variância de X também é igual a 1. A respeito dessa situação, julgue os seguintes itens. 046. 046. A covariância entre X e Y é igual a 0,2. 047. 047. A média de Y é maior que a média X. 048. 048. O coeficiente de determinação do modelo é elevado, o que indica uma forte relação entre as duas variáveis. 049. 049. O modelo criado é homocedástico. (INÉDITA/2023) Um pesquisador estava pesquisando a relação entre o número de homicídios no Brasil (Y) e o número de operações policiais realizadas (X) na forma de uma regressão linear Y = a + bX + ε, em que ε é um erro aleatório com média nula. Para isso, ele coletou dados em uma amostra de 10 anos e calculou alguns somatórios chegando às seguintes expressões: 050. 050. A variável Y é a variável explicativa. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 55 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 051. 051. O coeficiente de variação de X é maior que 25%. 052. 052. Os dados indicam que o aumento do número de operações policiais provoca uma redução no número de homicídios naquela região. (INÉDITA/2023) Foi construído um modelo de regressão linear entre duas variáveis aleatórias X e Y, expresso por Y = a + b.X + ε, em que ε é um ruído branco gaussiano e estatisticamente independente de X. São conhecidos os seguintes dados sobre as variáveis: X Y Média 0 4 Desvio-Padrão 2 5 Covariância –9 –9 053. 053. O coeficiente de determinação do modelo é igual a 81%. 054. 054. O modelo de regressão linear é Y = 4 – 0,36X + ε. 055. 055. A variável X é a variável regressora. (INÉDITA/2023) Considere os seguintes dados sobre duas variáveis aleatórias X e Y. X Y Média 12 4 Variância 36 9 Covariância 16,2 16,2 Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído branco gaussiano de média nula. Com base nesses dados, julgue os seguintes itens. 056. 056. O coeficiente de variação da variável X é menor que o coeficiente de variação da variável Y. 057. 057. O coeficiente de variação de uma variável aleatória está sempre limitado entre -100% e +100%. 058. 058. O coeficiente angular do modelo de regressão linear descrito é igual a 3. 059. 059. A variância da variável aleatória X + Y é inferior a 50. 060. 060. O coeficiente de determinação do modelo de regressão linear é igual a 90%. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 56 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso (INÉDITA/2023) Um pesquisador desejava pesquisar a relação entre a taxa de criminalidade (X) e o volume movimentado de drogas (Y) em determinada região do país. Esse pesquisador utilizou um modelo de regressão linear simples na forma Y = a + bX + ε, em que ε denota o erro aleatório com média nula e variância σ². A tabela a seguir representa a análise de variância (ANOVA) proporcionada por esse modelo. Fonte de Variação Graus de Liberdade Soma dos Quadrados regressão 2 6400 erro 398 3600 total 400 10000 A respeito dessa situação, julgue os próximos itens: 061. 061. O coeficiente de determinação do modelo é igual a 80%. 062. 062. A estimativa da variância do erro é superior a 9. 063. 063. O desvio-padrão da variável Y é igual a 5. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 57 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso GABARITOGABARITO 1. e 2. e 3. d 4. d 5. E 6. C 7. c 8. d 9. c 10. e 11. E 12. c 13. C 14. b 15. C 16. E 17. E 18. C 19. C 20. C 21. e 22. E 23. C 24. E 25. C 26. E 27. C 28. d 29. d 30. b 31. E 32. C 33. C 34. E 35. E 36. c 37. E 38. C 39. E 40. C 41. E 42. C 43. E 44. E 45. E 46. C 47. E 48. E 49. C 50. E 51. C 52. C 53. C 54. E 55. C 56. C 57. E 58. E 59. E 60. E 61. E 62. C 63. C O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 58 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso GABARITO COMENTADOGABARITO COMENTADO 001. 001. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Num modelo de regressão linear pelo método dos mínimos quadrados, sabe-se que a inclinação da reta é a = 3,24 e o intercepto da reta é b = 12,6, então o valor de para x = 30 é: a) 126,8 b) 136,8 c) 116,2 d) 108,2 e) 109,8 Em uma reta de regressão linear, o coeficiente de inclinação é o que acompanha a variável independente x, enquanto o intercepto é o termo independente. Assim, temos a reta: Letra e. 002. 002. (VUNESP/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICO/2020) A variável x tem média 4 e desvio padrão 2, enquanto a variável y tem média 3 e desvio padrão 1. A covariância entre x e y é –1. A equação estimada da regressão linear simples de y por x é: a) y = 2 – 0,25x. b) y = 3 – 0,5x. c) y = 3 – x. d) y = 4 – x. e) y = 4– 0,25x. Pela estimativa dos mínimos quadrados, podemos obter o coeficiente de inclinação do modelo como a razão entre a covariância e a variância da regressora. Substituindo na expressão geral do modelo de regressão linear, temos: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 59 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Substituindo os dados do enunciado e o valor calculado para o coeficiente b, temos: Portanto, a estimativa do coeficiente Y a partir de X é: Letra e. 003. 003. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Em uma análise de regressão, se o coeficiente de determinação r² = 1, então: (Considere SQT = Soma de quadrados total; SQE = Soma de quadrados do erro; SQR = Soma de quadrados da regressão.) a) SQE = SQT. b) SQE = 1. c) SQR = SQE. d) SQR = SQT. e) SQR > SQT. O coeficiente de determinação corresponde à razão entre a soma dos quadrados da regressão (SQR) e a soma dos quadrados total (SQT). Assim, temos: Letra d. 004. 004. (IBFC/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICA/2020) Um modelo de regressão linear simples foi gerado para explicar vendas (Y, em milhares de reais) a partir de propaganda (X, em centenas de reais). Algumas informações do modelo são apresentadas: Equação de regressão estimada: Y=12 + 1,8X Tamanho da amostra: 17 observações. Soma de quadrados da regressão: 225,00. Soma de quadrados dos resíduos: 75,00. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 60 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Sb1= 0,27. Considere as seguintes afirmações: I – De acordo com a equação de regressão estimada, um gasto de R$ 1.000,00 em propaganda resulta em vendas estimadas de R$ 40.000,00. II – O coeficiente de determinação do modelo (R²) é de 75%. III – A cada incremento unitário em X, espera-se que Y aumente 1,8. Estão corretas as afirmativas: a) I apenas b) I e II, apenas c) I e III, apenas d) II e III, apenas Vamos analisar as afirmações. I – Façamos X = 1000 na equação de regressão apresentada pelo enunciado. Portanto, as receitas serão de R$30.000,00. Afirmação incorreta. II – O coeficiente de determinação é dado pela expressão: O enunciado não forneceu o SQTot, mas ele pode ser obtido como a soma: Então, substituindo na expressão do coeficiente de determinação, temos: Afirmação correta. III – Para X = 0, temos: Para X = 1, temos: Portanto, o incremento é: Afirmação correta. Letra d. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 61 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 005. 005. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA POLICIAL FEDERAL/2018) O intervalo de tempo entre a morte de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição normal com média zero e desvio padrão igual a 4. As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordinários foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual a 5 horas. A respeito dessa situação hipotética, julgue o item a seguir. O coeficiente de explicação do modelo (R2) foi superior a 0,70. Primeiramente, podemos utilizar a fórmula que relaciona o coeficiente angular com a correlação linear, para uma regressão do tipo y = a·x + b: Temos: • a = coeficiente angular = 2,5 • r = correlação linear • σy = desvio-padrão amostral de y = 5 • σx = desvio-padrão amostral de x = 1,6 Logo, basta substituir os valores: Entretanto, a pergunta é sobre o coeficiente de explicação do modelo, ou seja, o R2. Assim: Portanto, o resultado é menor que 0,70. Errado. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2018-policia-federal-papiloscopista-policial-federal 62 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 006. 006. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA/2018) O intervalo de tempo entre a morte de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição normal com média zero e desvio padrão igual a 4. As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordinários foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual a 5 horas. A respeito dessa situação hipotética, julgue o item a seguir. A média amostral da variável resposta y foi superior a 30 horas. Apesar do tamanho, trata-se de uma questão apenas de substituição de valores. Note que as estimativas ocorreram pelo método de mínimos quadrados ordinários, ou seja, o ε=0. Assim, usando a fórmula: Com as seguintes substituições: • a = 2,5 • b = 10 • x = 9 • ε = 0 Temos: Como a média amostral de y é superior a 30, a afirmação é correta. Certo. 007. 007. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Dentre os gráficos abaixo, o que melhor representa um coeficiente de correlação linear próximo de -0,23 é: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2018-policia-federal-papiloscopista-policial-federal 63 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso a) b) c) d) e) Como a correlação é negativa, a tendência geral é de que Y decresça com X. Por isso, as letras “a” e “b” estão incorretas. Além disso, como a correlação tem valor absoluto pequeno, muito distante de 1, devemos ter bastante flutuação em torno da reta de tendência. Vamos comparar o que acontece nas demais alternativas. Vale notar que o coeficiente dedeterminação do modelo é (–0,23)² = 0,0529 = 5,29%. Portanto, haverá muita flutuação em torno da linha de tendência. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 64 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Perceba, então, que a letra “e” se aproxima de uma elevada correlação negativa, que seria uma correlação próxima de –1. A letra “d” ainda tem um ajuste muito próximo, o que indica uma forte correlação. A letra “c”, portanto, é a que mais se adéqua à correlação –0,23, porque mostra uma tendência geral de decrescimento do item C, mas com baixíssimo coeficiente de determinação. Letra c. 008. 008. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Considerando o relacionamento entre a variável independente X e a variável dependente Y, mostrado na figura abaixo, assinale a alternativa correta. a) O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%. b) O relacionamento entre X e Y é fraco e não deve ser considerado. c) Não existe relação linear entre as variáveis analisadas. d) O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y. e) O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 65 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Como a variável Y decresce com o aumento da variável X, elas estão negativamente correlacionadas. Além disso, foi fornecido o R², o coeficiente de determinação do modelo. Podemos dizer, então, que a variação da variável X explica 73,2% das variações da variável Y. Não podemos dizer que o coeficiente de correlação é igual a –73,2%, porque o coeficiente de correlação é igual à raiz quadrada do coeficiente de determinação, que seria: Letra d. 009. 009. (FCC/SEFAZ-BA/AUDITOR-FISCAL/ADMINISTRAÇÃO TRIBUTÁRIA/PROVA II/2019) Em uma determinada indústria, foi efetuada uma pesquisa a respeito da possível relação entre o número de horas trabalhadas (X), com X ≥ 2, e as quantidades produzidas de um produto (Y). Com base em 10 pares de observações (Xi,Yi) e considerando o gráfico de dispersão correspondente, optou-se por utilizar o modelo linear Yi = α + βXi + εi, com i representando a i-ésima observação, ou seja, i = 1, 2, 3,... 10. Os parâmetros α e β são desconhecidos e as suas estimativas (a e b, respectivamente) foram obtidas pelo método dos mínimos quadrados. Observação: εi é o erro aleatório com as respectivas hipóteses do modelo de regressão linear simples. Considere o gráfico, abaixo, construído utilizando os valores encontrados para as estimativas de α e β. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fcc-2019-sefaz-ba-auditor-fiscal-administracao-tributaria-prova-ii 66 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso A previsão da quantidade produzida será igual ao dobro da média verificada das 10 observações Yi quando o número de horas trabalhadas for igual a: a) 20. b) 24. c) 22. d) 18. e) 12. Primeiramente, precisamos achar a equação que rege a reta no gráfico. Para encontrar o valor de b, basta fazer o seguinte cálculo: Substituindo, temos: Para achar o valor de a, basta substituir 1 ponto na equação da reta. Escolhendo o ponto (4,4), temos: Logo, a equação é: Como o somatório das 10 observações foi dado e é 120, temos que a média dessas 10 observações é 12. Substituindo a média na equação da reta, temos: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 67 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Encontrando o dobro desse valor, temos y=40. Logo, basta substituir novamente na equação para encontrarmos o valor de X quando Y for o dobro do y encontrado para a média das 10 observações: Letra c. 010. 010. (CESPE/CGE-CE/CONHECIMENTOS BÁSICOS/2019) Considerando-se que, em uma regressão múltipla de dados estatísticos, a soma dos quadrados da regressão seja igual a 60.000 e a soma dos quadrados dos erros seja igual a 15.000, é correto afirmar que o coeficiente de determinação — R² — é igual a: a) 0,75. b) 0,25. c) 0,50. d) 0,20. e) 0,80. O coeficiente de determinação é dado por: Podemos, agora, calcular o SQTot nos lembrando de que: Voltando para a fórmula do coeficiente, temos: Letra e. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2019-cge-ce-conhecimentos-basicos 68 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 011. 011. (CESPE/DEPEN/AGENTE PENITENCIÁRIO FEDERAL/ÁREA 4/2014) A tabela mostrada apresenta a quantidade de detentos no sistema penitenciário brasileiro por região em 2013. Nesse ano, o déficit relativo de vagas — que se define pela razão entre o déficit de vagas no sistema penitenciário e a quantidade de detentos no sistema penitenciário — registrado em todo o Brasil foi superior a 38,7%, e, na média nacional, havia 277,5 detentos por 100 mil habitantes. Com base nessas informações e na tabela apresentada, julgue o item a seguir. Considerando que a figura a seguir apresente o diagrama de dispersão entre o tamanho populacional da região (em milhões de habitantes) e a população carcerária correspondente (em mil pessoas), então é correto afirmar que a população carcerária tende a crescer linearmente à medida que a população da região aumenta. Para ser linear, o gráfico deveria crescer de forma constante entre cada faixa de população carcerária. O gráfico mostrado apresenta um comportamento mais exponencial do que linear. Errado. 012. 012. (FCC/TRT 5ª REGIÃO-BA/ANALISTA JUDICIÁRIO/ESTATÍSTICA/2013) Utilizando o método dos mínimos quadrados, obteve-se o ajustamento do modelo linear Zi = α + βXi + γYi +εi , i = 1, 2, 3,..., em que Z é a variável dependente, X e Y são as variáveis explicativas, i corresponde a i-ésima observação, α, β e γ são parâmetros desconhecidos e εi o erro aleatório, com as respectivas hipóteses consideradas para a regressão linear múltipla. O ajustamento foi encontrado com base em uma amostra aleatória de 20 ternos (Xi , Yi , Zi ) apurando-se as estimativas de α, β e γ. Dados do correspondente quadro de análise de variância: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-depen-agente-penitenciario-federal-area-4https://www.qconcursos.com/questoes-de-concursos/provas/fcc-2013-trt-5-regiao-ba-analista-judiciario-estatistica 69 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso A estimativa da variância populacional do modelo teórico (σ²), com base nos dados da amostra, é igual a: a) 15,300. b) 16,150. c) 17,100. d) 18,165. e) 19,380. Para o problema, basta usar a expressão: • Como o número de amostras é 20, nosso N=20. • Como há 3 variáveis envolvidas no problema, nosso p = 3. • O valor da soma dos quadrados da variação residual está na tabela e vale 290,7. Substituindo todos esses valores na fórmula, temos: Letra c. 013. 013. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) Um estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica 70 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Considerando que , julgue o item subsequente relativo ao referido ajuste. A estimativa da variância de é inferior a 3. É preciso saber a fórmula da variância do coeficiente angular. A variância do erro (var(ε)) é o quadrado médio do erro: O denominador da equação será calculado da seguinte forma: Substituindo os valores na fórmula da variância do coeficiente β, temos: Logo, a variância é inferior a 3. Certo. 014. 014. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) UM estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica 71 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Considerando que , julgue o item subsequente relativo ao referido ajuste. A estimativa da variância do erro aleatório em torno da tendência ajustada é superior a 27. a) Certo b) Errado Sabendo que a estimativa da variância erro aleatório é a razão da soma do quadrado do erro (dado na tabela) e o grau de liberdade (dado na tabela), basta calcular: Logo, é um valor inferior a 27. Letra b. 015. 015. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) Um estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 2013, 2014, é a estimativa desse índice no ano t correspondente; e representam as estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste. Considerando que , julgue o item subsequente relativo ao referido ajuste. No período de 2010 a 2014, a média aritmética do índice Y foi igual a 30. Para resolver a questão, precisamos lembrar a fórmula dos estimadores dos mínimos quadrados: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica 72 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Fazendo uma comparação com a fórmula da questão e a fórmula acima, temos que o = t – 2012. Além disso, o valor de a também foi dado e vale 30. Agora, é preciso calcular o valor de , a partir dos seguintes cálculos: Resolvendo: Isso significa que a média de Y independe do valor de b. Substituindo os dados, temos: Certo. 016. 016. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX + ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os parâmetros do modelo e ε é o erro aleatório. Com base nas informações e na tabela apresentadas, sabendo-se que e Var(X) = 0,2487 e considerando que 3,84 seja o valor aproximado de . Julgue o item a seguir. A porcentagem estimada de estudantes cotistas é menor que 50%. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico 73 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso A questão é simples, basta calcular o percentual de estudantes da ampla concorrência. Portanto, o percentual de estudantes cotistas será o complementar, ou seja, 54,2%. Errado. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX + ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os parâmetros do modelo e ε é o erro aleatório. Com base nas informações e na tabela apresentadas, sabendo-se que e Var(X) = 0,2487 e considerando que 3,84 seja o valor aproximado de . Julgue os itens a seguir. 017. 017. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) O coeficiente de determinação é maior que 0,7. Sabendo que o coeficiente de determinação é o coeficiente de explicação, temos: Logo, inserindo os dados encontrados na tabela: Assim, é um número inferior a 0,7. Errado. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico74 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 018. 018. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015)… Julgue o item a seguir: A variância de Y é menor que 10. Para o problema, basta sabermos a fórmula da variância de Y: Sabendo que: • • Temos: Logo, a variância de Y é menor que 10. Certo. 019. 019. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua matriz de análise de variância (ANOVA) apresentada abaixo. A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência estatística. Dadas as hipóteses H0: µ = 8 e H1: µ ≠ 8, e sabendo-se que foi utilizada uma amostra de tamanho 25, que a variável em estudo X segue uma distribuição normal com média µ e variância 4 e que, para α = 0,05, Φ(-1,96) = 0,05 então o valor crítico para esse teste é aproximadamente 7,216. Basta aplicar a ideia da distribuição normal. Assim: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica 75 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Sabendo que: • Z = valor de Z tabelado = -1,96 • = valor crítico para o teste • µ = 8 • σ = = 2 • N = 25 Então, substituindo na fórmula, temos: Certo. 020. 020. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua matriz de análise de variância (ANOVA) apresentada abaixo. A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência estatística. O coeficiente de determinação é aproximadamente 0,59. Sabendo que o coeficiente de determinação é o coeficiente de explicação, temos: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica 76 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Logo, inserindo os dados encontrados na tabela, temos: Certo. 021. 021. (FGV/IBGE/TECNOLOGISTA/ESTATÍSTICA/2016) Após estimar um modelo de regressão linear múltipla, por MQO, um econometrista repara que, por algum motivo, a tabela contendo os resultados da análise da variância ficou incompleta, conforme abaixo: Apesar dos valores acima omitidos, é correto afirmar que: a) a equação de regressão tem cinco variáveis explicativas; b) o coeficiente de determinação R2 é igual a 0,8; c) ao nível de significância de 2% não se rejeita a hipótese nula de que o modelo explica a variável dependente; d) o tamanho da amostra é n = 20; e) a estimativa não tendenciosa da variância dos erros aleatórios do modelo é igual a 80. a) Errada. A letra “a” está errada, pois a regressão tem apenas uma variável explicativa. b) Errada. A letra “b” também está errada porque o coeficiente de determinação é 0,4. c) Errada. Na letra “c”, a afirmação está errada. Com um nível de significância de 2%, deve- se rejeitar a hipótese nula de acordo com o p-valor de 1,05. d) Errada. A letra “d” está incorreta pois o tamanho da amostra, na verdade, é 21. e) Certa. Por fim, analisaremos a letra “e”. A estimativa da variância dos erros aleatórios é o W. Seu valor, pela fórmula, será: Alternativa correta. Letra e. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fgv-2016-ibge-tecnologista-estatistica 77 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 022. 022. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua matriz de análise de variância (ANOVA) apresentada abaixo. A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência estatística. Foram utilizados 19 dados para a estimação do modelo de regressão linear. Na tabela tem a informação de graus de liberdade totais. Então, basta aplicar na fórmula, com N = número de dados: Substituindo o valor, temos: Errado. (CESPE/POLÍCIA FEDERAL/2021) UM estudo objetivou avaliar a evolução do número mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com base no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de regressão linear simples da forma. Ŷ = 5 – 0,1 x T, em que Ŷ representa a reta ajustada em função da variável regressora T, tal que 1 ≤ T ≤ 12. Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respectivos p-valores encontram-se na tabela a seguir. Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6. Com base nessas informações, julgue os itens a seguir. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica 78 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 023. 023. Se a média amostral da variável T for igual a 6,5, então a média amostral da variável Y será igual a 4,35 mil ocorrências. Podemos utilizar a propriedade de que o valor esperado é linear. Então, o valor esperado da soma é igual à soma de valores esperados e o produto por uma constante; o valor esperado também fica multiplicado por essa mesma constante. Certo. 024. 024. (CESPE/POLÍCIA FEDERAL/2021) A correlação linear entre as variáveis Y e T foi igual a –0,1 Foi fornecido o coeficiente de inclinação do modelo de regressão, que é dado pela razão entre a covariância e o desvio-padrão da variável regressora (T). Então, podemos calcular a covariância: Em seguida, podemos calcular a correlação entre as duas variáveis pela definição de covariância dividida pelos desvios-padrões: Errado. (CESPE/POLÍCIA FEDERAL/AGENTE DA POLÍCIA FEDERAL/2018) Um pesquisador estudou a relação entre a taxa de criminalidade (Y) e a taxa de desocupação da população economicamente ativa (X) em determinada região do país. Esse pesquisador aplicou um modelo de regressão linear simples na forma Y = bX + a + ε, em que b representa o coeficiente angular, a é o intercepto do modelo e ε denota o erro aleatório com média zero e variância σ2 . A tabela a seguir representa a análise de variância (ANOVA) proporcionada por esse modelo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290,vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 79 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso A respeito dessa situação hipotética, julgue o próximo item, sabendo que b > 0 e que o desvio padrão amostral da variável X é igual a 2. 025. 025. A estimativa do coeficiente angular b, pelo método de mínimos quadrados ordinários, é igual a 0,25. Questão muito complicada! O enunciado forneceu o desvio-padrão de X e também o número de graus de liberdade total da amostra (N – 1 = 900). Então, podemos calcular: Como o enunciado forneceu a soma dos quadrados da regressão (SQReg), podemos relacioná- lo com a variância de X usando o coeficiente b e a variância de X usando a expressão: Então, basta tirar a raiz de b: Certo. 026. 026. A estimativa da variância σ² é superior a 0,5. A variância do erro pode ser calculada pela expressão: Errado. 027. 027. A correlação linear de Pearson entre a variável resposta Y e a variável regressora X é igual a 0,75. A forma mais simples e direta de calcular o coeficiente de determinação é por meio da sua definição: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 80 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Como o coeficiente de determinação é igual ao quadrado da correlação linear, basta tirar a raiz quadrada: Certo. 028. 028. (FGV/TJ-RO/ESTATÍSTICO/2015) Num modelo de regressão linear, a violação dos pressupostos de homocedasticidade e do emprego de variáveis explicativas não estocásticas, mantidas as demais hipóteses, poderá causar a perda, por parte dos estimadores de MQO, respectivamente, das propriedades de: a) não tendenciosidade e eficiência assintótica; b) consistência e eficiência; c) suficiência e completude; d) eficiência e consistência; e) não tendenciosidade assintótica e suficiência. Para ter melhor eficiência, o estimador deverá ter menor variância. A afirmação de que há violação dos pressupostos de homocedasticidade representa uma variação indesejada no estimador, seja ela positiva ou negativa. Para ter maior consistência, sabe-se que o aumento no número da amostra é fundamental. Isso fornecerá um resultado mais preciso e a variância tenderá a 0. Logo, o enunciado mostra que haverá perda de eficiência e consistência. Letra d. 029. 029. (FGV/AL-RO/ASSISTENTE LEGISLATIVO/TÉCNICO EM LOGÍSTICA/2018) Há 5 meses, sua empresa fez um contrato para vender exclusivamente o trigo produzido por uma cooperativa. Seu fornecedor informa que não poderá fazer entrega nos próximos dois meses (mês 6 e mês 7). Em função dessa descontinuidade, o gerente geral de sua empresa pede para você calcular a previsão da soma das demandas dos dois meses citados. Ele o orientou a simplificar os cálculos, optando por uma projeção baseada em uma regressão linear que usa os dados das demandas dos 5 meses desde o início da venda de trigo. Os dados estão apresentados, mês a mês, na tabela a seguir. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fgv-2015-tj-ro-estatistico https://www.qconcursos.com/questoes-de-concursos/provas/fgv-2018-al-ro-assistente-legislativo-tecnico-em-logistica 81 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Assim, após fazer os cálculos segundo essas orientações, o resultado correto para a soma pedida é: a) 24,5. b) 31,6. c) 45,0. d) 51,9. e) 56,1. Primeiramente, precisamos achar a equação da regressão linear da tabela que relaciona mês, considerado como x, e toneladas, consideradas como y. Segue a fórmula: Para encontrar os coeficientes a e b da regressão, precisamos descobrir, antes, alguns valores baseados nos dados da amostra. Uma tabela foi construída para tal. x y x·y x2 1 10 10 1 2 13 26 4 3 15 45 9 4 20 80 16 5 21 105 25 ∑ 15 79 266 55 Dessa forma, para encontrar o valor de b, precisamos fazer o seguinte cálculo: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 82 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Substituindo os valores e tomando n = 5 (pois são 5 meses), temos: Já para descobrir o valor de a, precisamos da seguinte fórmula: Substituindo os valores: Logo, a equação será da forma: Substituindo x=6 e x=7 para encontrar a soma dos meses 6 e 7, temos: Assim, a soma dos y para o mês 6 e 7 será: Letra d. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 83 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 030. 030. (FCC/TRT 5ª REGIÃO-BA/ANALISTA JUDICIÁRIO/ESTATÍSTICA/2013) O modelo linear Yt = α + βt + εt , t = 1, 2, 3,..., é utilizado para prever a venda (Yt ), em milhares de reais, de um produto no ano (2002 + t). α e β são parâmetros desconhecidos e εt é o erro aleatório com as respectivas hipóteses da regressão linear simples. As estimativas de α e β foram obtidas pelo método dos mínimos quadrados, com base nas observações das vendas de 2003 a 2012. Dados: Considerando a equação da reta obtida pelo método dos mínimos quadrados, a previsão do primeiro ano em que a venda irá superar R$ 60.000,00 será em: a) 2016. b) 2017. c) 2018. d) 2019. e) 2020. A questão tratou a regressão linear da seguinte forma: Precisamos calcular os coeficientes da reta. Calculando β a partir da fórmula: Assim, temos: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fcc-2013-trt-5-regiao-ba-analista-judiciario-estatistica 84 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Calculando α, basta lembrar-se de que o ponto ( , ) pertence à reta da regressão. Logo: Assim, a equação da regressão é: Note que a unidade de Y é em milhares de reais. Portanto, colocaremos 60 em vez de 60000 nos cálculos. Por fim, os valores de T para Y>60 serão: Então o ano pedido será, no mínimo, 14,75 anos a mais que o ano inicial. Logo, o primeiro ano em que a venda superará 60 mil reais será 2017. Letra b. (CESPE/TCE/PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanhamento ambiental considerou, para , um modelo de regressão linear simples na forma , em que a e b são constantes reais, representa a variável resposta referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e denota o erro aleatório que segue distribuição normal com média nula e variância V. Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta ajustada , para Considerando quea estimativa da variância V seja igual a 6 e que o coeficiente de explicação do modelo (R quadrado) seja igual a 0,64, julgue os seguintes itens. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 85 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 031. 031. A razão para cada é uma variável aleatória que segue distribuição normal com média nula e variância unitária. A normalização deve ser feita, sempre, dividindo-se pelo desvio-padrão, não pela variância. Portanto, a variável normal padrão correspondente ao erro será: Como já alertei no capítulo de Distribuição Normal, essa é uma pegadinha que as questões de prova sempre estão fazendo. Não caia nela. Errado. 032. 032. Se representar a média amostral da variável regressora e se denotar a média amostral da variável resposta, com e , então . Já vimos que a média da variável Y pode ser expressa em função da média da variável X: Certo. 033. 033. O desvio padrão amostral da variável regressora é igual a 1,6. Essa questão de regressão linear foi provavelmente a questão mais difícil de Estatística que eu já vi em provas de concurso público fora da área de Estatístico. Primeiramente, vamos à variância do erro, que é expresso em termos da soma dos quadrados dos resíduos (depois da regressão linear). Note que a amostra tem 26 elementos e duas variáveis envolvidas (X e Y). Agora, vamos ao coeficiente de determinação, que é dado pela razão entre a melhoria (SQRegressão) e os erros antes da regressão (SQTotais). O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 86 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Vamos nos lembrar de que a melhoria (soma dos quadrados da regressão) é igual à redução dos erros devido à regressão linear: Como já conhecemos a soma dos quadrados dos resíduos, podemos calcular a soma dos quadrados totais: Agora, podemos analisar a soma dos quadrados da regressão, ou seja, a melhoria promovida pelo modelo de regressão linear. Já vimos uma importante relação entre a soma dos quadrados da regressão e a covariância entre as variáveis: Agora, podemos examinar o coeficiente b: Porém, não queremos a variância, mas, sim, o desvio-padrão, que é a raiz quadrada da variância: Certo. 034. 034. A correlação linear entre as variáveis x e y é igual a 0,5, pois a reta invertida proporcionada pelo método de mínimos quadrados ordinários é expressa por para . O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 87 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso O coeficiente de correlação pode ser calculado a partir do coeficiente de determinação por meio de uma expressão clássica demais: Errado. 035. 035. Se, para cada , o ponto seguir uma distribuição normal bivariada cuja matriz de covariânicas seja dada por , então a estimativa do elemento será igual a 2. Na matriz de covariâncias, será a covariância. Sendo assim, temos: Errado. 036. 036. (FCC/AL/AP/ANALISTA LEGISLATIVO/ECONOMIA/2020) Em uma empresa de determinado ramo de atividade, utilizando o método de regressão linear, obteve-se a equação de tendência (T) da série temporal abaixo. Os dados apresentam 10 observações da série temporal Y, que representa o faturamento de uma empresa, em milhões de reais. Supõe-se que essa série é composta apenas de uma tendência T e um ruído branco de média zero e variância constante. A tendência apresenta a forma T = a + bt, em que a e b foram obtidos usando o método dos mínimos quadrados. Considerando a equação obtida, tem-se que o acréscimo no faturamento do ano t, com t > 1, para o ano (t + 1) é, em milhões de reais, de a) 1,2. b) 1,5. c) 0,6. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 88 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso d) 2,4. e) 1,8. Vamos utilizar a expressão para o cálculo do coeficiente angular. Vale notar que o coeficiente angular é o próprio incremento, porque, para X = 0, teríamos: Para X = 1, teríamos: Então, o incremento é: Tanto a covariância como a variância pode ser obtida a partir dos somatórios fornecidos, tendo em vista que: Então, o coeficiente b fica: Podemos obter as esperanças por suas definições: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 89 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Então, podemos calcular o coeficiente b: Letra c. (INÉDITA/2023) Sejam X e Y duas variáveis aleatórias tais que a covariância entre elas é dada por SXY = 3, cujas variâncias são iguais a SXX = 4 e SYY = 9 e cujas médias são iuais, respectivamente, a μX = 4 e μY = 0. A respeito dessa situação, julgue os seguintes itens. 037. 037. O modelo de regressão linear entre as duas variáveis é Y = X/3 – 4/3. Vamos calcular o coeficiente angular da regressão linear: Dessa forma, o modelo deve ser Y = 3/4.X + a, logo a afirmação está errada. Podemos, ainda, calcular o coeficiente linear. Para isso, basta tomar as médias: Portanto, o modelo de regressão linear é Y = ¾.X – 3. Errado. 038. 038. O coeficiente de determinação do modelo de regressão linear é igual a 25%. O coeficiente de determinação é igual ao quadrado da correlação. A correlação pode ser calculada pela definição, que é a razão entre a correlação e o produto dos desvios-padrões. No enunciado, foram fornecidas as variâncias. Para calcular os desvios- padrões, devemos tomar a raiz quadrada: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 90 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Agora, vamos utilizar a definição de correlação: Certo. (INÉDITA/2023) Uma equipe de médicos desejava estudar a influência do consumo diário de açúcares (em gramas) sobre a pressão diastólica de indivíduos. Pelos estudos com uma população, foram registrados os seguintes dados: Pressão Diastólica (Y) Consumo de Açúcar (X) Média 120 mmHg 80 g Desvio-Padrão 20 mmHg 10 g Covariância 120 mmHg.g 120 mmHg.g Desejava-se fazer um estudo de regressão Y = a + bX + є, em que є é uma variável aleatória com média nula. Com base nessas informações, julgue os seguintes itens. 039. 039. O parâmetro b é menor que 1. O parâmetro b pode ser calculado pela relação entre a covariância e o desvio-padrão da variável independente: Logo, o coeficiente b é superior a 1. Errado. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITOSANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 91 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 040. 040. O coeficiente de determinação para esse modelo de regressão linear é igual a 36%. O coeficiente de determinação é igual ao quadrado da correlação entre as variáveis. A correlação, por sua vez, pode ser obtida como a razão entre a covariância e os desvios- padrões de ambas as variáveis: Por fim, podemos obter o coeficiente de determinação: Certo. 041. 041. (INÉDITA/2023) Se uma pessoa consome 100 g de açúcar, a expectativa de sua pressão diastólica é igual a 144 mmHg. Vamos considerar o modelo de regressão linear: Agora, vamos tomar a média em ambos os lados: Dessa forma, podemos escrever: Errado. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 92 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 042. 042. (INÉDITA/2023) Considerando um grupo de pessoas que consomem 100 g de açúcar por dia, o desvio-padrão esperado para a pressão diastólica nesse grupo é igual a 16 mmHg. Voltemos ao modelo de regressão linear: Temos dois importantes erros sobre a variância de Y a considerar: • erro de Y a priori: é a variância de Y antes de se fazer o modelo de regressão linear; • erro de Y a posteriori: é o erro de Y que não pode ser explicado pelas variações de X. Corresponde justamente à variância do erro aleatório. E é o valor pedido. Podemos, também, provar matematicamente que a variável de Y após o modelo de regressão linear é igual à própria variância do erro. Se a variável X está fixa, no caso, X = 100 g por dia, podemos calcular a variância de Y como: Como o coeficiente a e a variável X são fixas, temos: Portanto, a variância de Y após fixar o parâmetro X em 100 g é igual à própria variância do erro de estimação. Para calcular a variância do erro de estimação, podemos tomar o modelo completo e usar a variância total de Y, isto é, antes do modelo de regressão linear. Vamos utilizar as propriedades das variâncias: Agora, vamos utilizar os valores fornecidos no enunciado: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 93 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Assim, podemos calcular o desvio-padrão do erro residual: Certo. (INÉDITA/2023) Um pesquisador construiu um modelo de regressão linear para duas variáveis Y = a + bX + ε, em que ε é um ruído aleatório de média nula. X Y Média 2 10 Variância 4 36 Covariância 10,8 10,8 043. 043. A estimativa pelo método dos mínimos quadrados para o coeficiente b é maior que 3. Pelo método dos mínimos quadrados, o coeficiente de inclinação é dado pela razão entre a covariância, as duas variáveis e a variância da regressora: Errado. 044. 044. A estimativa pelo método dos mínimos quadrados para o coeficiente a é menor que 4. Vamos escrever a expressão geral do modelo de regressão linear. Aplicando o valor esperado de ambos os lados, teremos: Errado. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 94 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 045. 045. O coeficiente de determinação do modelo é igual a 90%. O coeficiente de correlação pode ser obtido a partir da correlação entre as duas variáveis: Então, o coeficiente de determinação do modelo é igual ao quadrado da correlação: Errado. (INÉDITA/2023) Um pesquisador coletou dados sobre a criminalidade em diversos países (Y) em função do desemprego (X), chegando ao modelo Y = 0,5 + 0,2.X + ε, em que ε é uma variável aleatória com distribuição normal, média nula, estatisticamente independente X e com variância igual a 1. Sabe-se, ainda, que a média de X é igual a 1 e que a variância de X também é igual a 1. A respeito dessa situação, julgue os seguintes itens. 046. 046. A covariância entre X e Y é igual a 0,2. O coeficiente de inclinação do modelo é: Certo. 047. 047. A média de Y é maior que a média X. Como o valor esperado é um operador linear, podemos utilizar a propriedade de que o valor esperado da soma é igual à soma dos valores esperados: Como a média de Y é igual a 0,7 e a média de X é igual a 1, a média de Y é menor. Errado. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 95 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 048. 048. O coeficiente de determinação do modelo é elevado, o que indica uma forte relação entre as duas variáveis. Podemos calcular o desvio-padrão de Y: Agora, vamos calcular os coeficientes de variação: Portanto, o coeficiente de determinação do modelo é de apenas 3,85%, o que indica uma baixa relação entre as duas variáveis. Errado. 049. 049. O modelo criado é homocedástico. Como o erro é estatisticamente independente da variável X, o modelo é homocedástico. Certo. (INÉDITA/2023) Um pesquisador estava pesquisando a relação entre o número de homicídios no Brasil (Y) e o número de operações policiais realizadas (X) na forma de uma regressão linear Y = a + bX + ε, em que ε é um erro aleatório com média nula. Para isso, ele coletou dados em uma amostra de 10 anos e calculou alguns somatórios chegando às seguintes expressões: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 96 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 050. 050. A variável Y é a variável explicativa. A variável independente ou explicativa é aquela que se encontra no eixo X. A variável Y, portanto, não é a variável explicativa, já que ela está em função de X, ou seja, depende de X, e é classificada como variável dependente ou de resposta. Errado. 051. 051. O coeficiente de variação de X é maior que 25%. O coeficiente de variação é dado por . Para calcular a média amostral de X, vamos utilizar a fórmula . Como a questão nos forneceu os somatórios, temos: E para calcular o desvio-padrão, iremos, também, aproveitar os somatórios fornecidos e aplicar a expressão que diz que a variância de uma variável aleatória é igual à média dos quadrados menos o quadrado da média. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 97 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Por fim, o desvio-padrão é a raiz quadrada da variância: Podemos, então, aplicar o fatorde ajuste para o desvio amostral: Agora aplicaremos os valores encontrados na fórmula , ficando finalmente com: Dessa forma, o item está correto. Certo. 052. 052. Os dados indicam que o aumento do número de operações policiais provoca uma redução no número de homicídios naquela região. A covariância entre duas variáveis aleatórias é dada pela média do produto menos o produto das médias. A média dos produtos pode ser calculada pela mesma ideia de que é igual ao somatório dos produtos dividido pelo total de observações: Assim, temos: Podemos, então, aplicar o fator de ajuste para a covariância amostral: De todo modo, como a covariância é negativa, as duas variáveis se relacionam inversamente. Logo, o aumento das operações policiais provoca uma redução no número de homicídios. Poderíamos ir além e calcular o coeficiente de inclinação do modelo de regressão: Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 98 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso (INÉDITA/2023) Foi construído um modelo de regressão linear entre duas variáveis aleatórias X e Y, expresso por Y = a + b.X + ε, em que ε é um ruído branco gaussiano e estatisticamente independente de X. São conhecidos os seguintes dados sobre as variáveis: X Y Média 0 4 Desvio-Padrão 2 5 Covariância –9 –9 053. 053. O coeficiente de determinação do modelo é igual a 81%. Vamos calcular a correlação: O coeficiente de determinação é igual ao quadrado da correlação: Certo. 054. 054. O modelo de regressão linear é Y = 4 – 0,36X + ε. O coeficiente de inclinação pode ser obtido pela expressão: Portanto, a inclinação da curva é igual a –2,25. Errado. 055. 055. A variável X é a variável regressora. A variável regressora, também conhecida como independente, é a variável X. Vamos nos lembrar do esquema de regressão linear: Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 99 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso (INÉDITA/2023) Considere os seguintes dados sobre duas variáveis aleatórias X e Y. X Y Média 12 4 Variância 36 9 Covariância 16,2 16,2 Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído branco gaussiano de média nula. Com base nesses dados, julgue os seguintes itens. 056. 056. O coeficiente de variação da variável X é menor que o coeficiente de variação da variável Y. Vamos calcular os desvios-padrões associados às duas variáveis como a raiz quadrada de suas variâncias. Os coeficientes de variação podem ser obtidos como a relação entre o desvio-padrão e a média: Portanto, o coeficiente de variação de X é realmente menor. Certo. 057. 057. O coeficiente de variação de uma variável aleatória está sempre limitado entre -100% e +100%. O coeficiente de variação é obtido como a razão entre o desvio-padrão e a média da variável aleatória. O desvio-padrão é sempre positivo e pode ser maior que a média, portanto o coeficiente de variação é sempre maior ou igual a 0 e ele pode ser superior a 100%. Errado. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 100 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 058. 058. O coeficiente angular do modelo de regressão linear descrito é igual a 3. O coeficiente angular é igual à razão entre a covariância e a variância da regressora. Errado. 059. 059. A variância da variável aleatória X + Y é inferior a 50. Vamos utilizar a expressão da variância da soma: Errado. 060. 060. O coeficiente de determinação do modelo de regressão linear é igual a 90%. Vamos calcular a correlação entre as duas variáveis: O coeficiente de determinação é igual ao quadrado da correlação: Errado. (INÉDITA/2023) Um pesquisador desejava pesquisar a relação entre a taxa de criminalidade (X) e o volume movimentado de drogas (Y) em determinada região do país. Esse pesquisador utilizou um modelo de regressão linear simples na forma Y = a + bX + ε, em que ε denota o erro aleatório com média nula e variância σ². A tabela a seguir representa a análise de variância (ANOVA) proporcionada por esse modelo. Fonte de Variação Graus de Liberdade Soma dos Quadrados regressão 2 6400 Erro 398 3600 Total 400 10000 O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 101 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso A respeito dessa situação, julgue os próximos itens: 061. 061. O coeficiente de determinação do modelo é igual a 80%. Por definição, o coeficiente de determinação é igual à relação entre a soma dos quadrados da regressão e a soma dos quadrados totais: Errado. 062. 062. A estimativa da variância do erro é superior a 9. Seja N o número de elementos da amostra, N = 400, porque corresponde ao total de graus de liberdade. A expressão da variância do erro é: Certo. 063. 063. O desvio-padrão da variável Y é igual a 5. Por definição, a variância de Y é dada pelo SQTot, como mostrado a seguir: Então, o seu desvio-padrão é a raiz quadrada da variância: Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br Abra caminhos crie futuros gran.com.br O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. _Ref527367738 _Ref82947194 _Hlk82948612 Sumário Apresentação Regressão Linear 1. Introdução 1.1. Parâmetros do Modelo de Regressão Linear 1.2. Estimador de Mínimos Quadrados 1.3. Reta Passando pela Origem 1.4. Regressão Multivariada 2. Avaliação do Modelo 2.1. Análise dos Resíduos 2.2. Análise de Variância 2.3. Análise dos Coeficientes Resumo Mapa Mental Exercícios Gabarito Gabarito Comentado