Prévia do material em texto
Regressão Linear Apresentação Nesta Unidade de Aprendizagem abordaremos um método numérico para ajuste de curvas chamado regressão linear. Bons estudos. Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados: Definir regressão linear.• Reconhecer a diferença entre regressão e interpolação.• Utilizar a regressão linear para ajustar uma reta a um conjunto de dados.• Desafio João e Sara são alunos de Cálculo Numérico. Esta semana eles estavam estudando a regressão linear. João compreendeu que a regressão linear é um método de ajuste de curvas em que se procura uma reta que se ajusta à tendência dos dados sem necessariamente passar por todos os pontos. No entanto, ele não entendeu quando devemos utilizar o método. Então, questionou a sua colega: - Sara, por que, no caso da figura a seguir, em que tenho 7 pontos, o professor pediu para utilizar a regressão linear, que não passa por todos os pontos, e não a interpolação polinomial com um polinômio de grau 6, que passaria por todos os pontos dados? Sabendo que Sara respondeu corretamente ao questionamento de João, escreva o que ela pode ter lhe respondido. Infográfico Acompanhe o infográfico com o conteúdo abordado nesta Unidade de Aprendizagem. Conteúdo do livro Você provavelmente já tentou prever alguma coisa na sua vida, seja o valor de uma casa que gostou, se o valor da determinada ação iria subir ou descer, e assim por diante. Não só você, mas matemáticos e estatístico encaram esse tipo de problema todo o momento. Para isso, utilzam métodos em específico, como o que você verá nesse capítulo. Neste capítulo você irá aprender sobre regressão linear, e como ajustar uma reta a dados usamdo o método de mínimos quadrados. Verá também como diferenciar regressão de interpolação. Boa leitura. CÁLCULO NUMÉRICO OBJETIVOS DE APRENDIZAGEM > Definir regressão linear. > Reconhecer a diferença entre regressão e interpolação. > Utilizar a regressão linear para ajustar uma reta a um conjunto de dados. Introdução Estabelecer as relações entre variáveis a fim de prever uma em relação à outra é bastante comum em situações na área da estatística, como ao prever o preço da venda de uma casa em termos de variáveis, como a quantidade de quartos e banheiros. Para isso, deve-se encontrar uma relação entre as variáveis, que pode ser linear, quadrática ou polinomial, por exemplo. Neste capítulo, você vai estudar sobre a regressão linear, um tipo de relação específica, e como utilizá-la. Além disso, você também vai ver como diferenciá-la da interpolação e como realizar a metodologia da regressão na prática, ajustando uma reta a dados. Conceito Suponha que você tenha dados referentes a duas variáveis, e a partir deles você pode encontrar uma relação ou equação matemática que descreva esses dados, e com isso é possível fazer previsões a respeito de seus dados originais. Essa relação pode ser de diversos tipos, como linear, quadrática ou exponencial, por exemplo, e feita a partir dos gráficos dessas variáveis, assim, é preciso ajustar uma curva aos gráficos. A Figura 1 mostra um exemplo de aproximação linear a partir da análise da dispersão de dados de peso versus Regressão linear Mariana Sacrini Ayres Ferraz altura e outro de aproximação não-linear a partir da visualização da dispersão de dados de quantidade de apresentações versus tempo. Figura 1. Exemplos de aproximação linear e não linear em gráficos de dispersão. Fonte: Adaptada de Spiegel e Stephens (2009). Gráfico de dispersão de peso versus altura Gráfico de dispersão do número de apresentações versus o tempo Peso Al tu ra N úm er o de a pr es en ta çõ es Tempo A Figura 2 mostra exemplos de equações matemáticas possíveis para os modelos linear e polinomial. As variáveis são denotadas por X e Y, denomi- Regressão linear2 nadas variáveis independentes e dependentes, respectivamente. Os an são constantes, conhecidos como coeficientes, com n ≥ 0. Figura 2. Exemplos de equações matemáticas para modelar dados. Fonte: Spiegel e Stephens (2009, p. 337). A regressão linear se utiliza de um modelo linear para ajustar dados e fazer previsões, as equações lineares: y = a + bx onde a é uma constante que representa o corte da reta no eixo y, também conhecida como intercepto, ou seja, o valor de y quando x = 0; e b é uma constante referente à inclinação da reta (FREUND, 2007). A partir da reta estimada, pode-se fazer previsões, ou seja, dado um valor de x, pertencente aos dados originais, é possível encontrar o valor estimado de y. Regressão e interpolação Observe que na Figura 1, na seção anterior, os pontos são aproximados por determinada função matemática, tornando possível encontrar uma equação que melhor se ajuste aos pontos. Embora a curva encontrada seja a melhor possível, ela não passa necessariamente por todos os pontos dados. Já a interpolação é um método que possibilita a criação de novos dados a partir de dados discretos. Isso significa que o objetivo da interpolação é encontrar os dados “faltantes” entre os pontos dados e, portanto, podem ser criadas funções interpoladoras no conjunto de dados, a fim de conectar os pontos dados (JUSTO et al., 2020). Em relação aos tipos de interpolação, os mais comuns são a linear e polinomial. A Figura 3 mostra exemplos desses tipos de interpolação. Regressão linear 3 Figura 3. Exemplos de (a) regressão linear, (b) in- terpolação linear e (c) polinomial de pontos dados. Fonte: Chapra e Canale (2016, p. 390). Observe que a interpolação também gera uma aproximação dos pontos, mas ela passa por todos eles obrigatoriamente, gerando curvas de dados. Com ela, também podemos inferir valores de y a partir de valores de x diferentes dos pontos dados iniciais. Assim, pode-se dizer que há duas abordagens para fazer ajustes de curvas (CHAPRA; CANALE, 2016). Na primeira, o dado exibe alto grau de erro ou “ruído”, seu objetivo é encontrar uma curva de tendência, e o método utilizado para isso é denominado regressão por mínimos quadrados. Na segunda, os dados são considerados mais precisos, assim, ajustam-se curvas que passam por todos os pontos, e o método utilizado nesse caso é chamado de interpolação. Regressão linear4 Ajustando uma reta Nesta seção, você verá como encontrar a melhor reta que se ajusta nos dados de interesse. O método mais utilizado para isso é denominado método de mínimos quadrados. Para compreender esse processo, veja o exemplo a seguir. Primeiramente, suponha que há duas variáveis, tempo de exposição e alcance auditivo de pessoas expostas a alto ruído, medido em milhares de ciclos por segundo. Os respectivos dados são apresentados no Quadro 1. Quadro 1. Dados de número de semanas e alcance auditivo Número de semanas (x) Alcance auditivo (y) 47 15,1 56 14,1 116 13,2 178 12,7 19 14,6 75 13,8 160 11,9 31 14,8 12 15,3 164 12,6 43 14,7 74 14,0 Fonte: Adaptado de Freund (2007). A partir dos dados, você pode fazer um gráfico de dispersão, como mostra a Figura 4. A partir deste gráfico, é possível observar que os dados seguem um comportamento linear. Assim, uma reta seria um bom modelo nesse caso. Regressão linear 5 Figura 4. Gráfico de dispersão dos dados de número de se- manas e alcance auditivo. Fonte: Freund (2007, p. 401). Agora é preciso encontrar a reta mais adequada aos pontos dados. Se você pegasse uma régua e simplesmente traçasse retas, possivelmente haveria vá- rias retas que se encaixariam próximas aos pontos, como ilustrado na Figura 5. Então, para saber qual reta seria a ideal, usa-se o método dos mínimos qua- drados, que utiliza a propriedade mínima à soma dos quadrados das distâncias verticais dos pontos para encontrarmos a melhor reta (FREUND, 2007). Figura 5. Gráfico de dispersão dos dados de número de semanas e alcance auditivo com retas aproximadas aos pontos. Fonte: Adaptada de Freund (2007). Regressão linear6 Na Figura 6, há duas possibilidades de retas ajustadas a quatropontos, e os números indicam a distância entre os pontos e as retas. Assim, ao utilizar a reta para prever os valores de y dados os valores de x, haveria uma diferença entre os valores reais (pontos dados) e os valores previstos pelas retas, e essa diferença é o erro da previsão. Calculando a soma dos erros para a reta horizontal, o resultado seria – 3 + 1 – 3 + 5 = 0, e, para a segunda reta, seria 0 + 1 – 5 + 0 = –4. Embora o erro para a reta horizontal tenha resultado em 0, é possível observar que todos os pontos estão a certa distância da reta, e o erro da segunda é numericamente maior que o da primeira, mesmo que pareça se ajustar melhor aos pontos. Figura 6. Exemplo de retas ajustadas a quatro pontos. Os números indicam a distância dos pontos às retas. Fonte: Adaptada de Freund (2007). Para uma melhor comparação, utiliza-se, então, a soma do quadrado da distância: (–3)2 + 12 + (–3)2 + 52 = 44 e 02 + 12 + (–5)2 + 02 = 26 Então, obtém-se um valor menor para a segunda reta (a que melhor se ajusta aos dados). Assim, o método dos mínimos quadrados visa a diminuir o erro quadrático entre a reta e os dados, com a reta chamada de reta dos mínimos quadrados. Regressão linear 7 Agora veja como encontrar a reta ideal. Suponha a reta ideal dada por y ̂ = a + bx, e os n pontos dados escritos como pares x e y. A soma da diferença quadrática entre os dados e a reta é dada por: ( )2 = [ ( + )]2 Assim, é preciso encontrar os valores das constantes a e b que minimizem o erro quadrático. A Figura 7 mostra um esquema com a representação dos valores de y, y ̂ e y – y ̂. Figura 7. Representação de y, y ̂ e y – y ̂. Fonte: Freund (2007, p. 403). Deixando o cálculo implícito, obtém-se o seguinte sistema de equações, denominadas equações normais: = + = + 2 Regressão linear8 Resolvendo esse sistema, é possível encontrar as constantes a e b. Assim, dadas as quantidades: = 2 − 1 2 = − 1 As constantes são dadas por: = = ∑ (∑ ) Voltando agora ao exemplo do início da seção, sobre o alcance auditivo, determine a reta de mínimos quadrados. Calculando os somatórios, tem-se que ∑x = 975, ∑x2 = 117.397, ∑xy = 12.884,4 e ∑y = 166,8 (Quadro 2). Observe que é possível realizar esses cálculos no Excel. Quadro 2. Dados e somatórios (sombreados em cinza) x y x2 x ∙ y 47 15,1 2209 709,7 56 14,1 3136 789,6 116 13,2 13456 1531,2 178 12,7 31684 2260,6 19 14,6 361 277,4 75 13,8 5625 1035 160 11,9 25600 1904 31 14,8 961 458,8 12 15,3 144 183,6 (Continua) Regressão linear 9 x y x2 x ∙ y 164 12,6 26896 2066,4 43 14,7 1849 632,1 74 14,0 5476 1036 975 166,8 117397 12884,4 Fonte: Adaptado de Freund (2007). Calculados então os somatórios, obtêm-se os seguintes valores: = 117,397 − 1 12 (975)2 = 38.178,25 = 12.884,4 − 1 12 (975)(166,8) = −668,1 Assim, as constantes serão dadas por: = −668,1 38.178,25 ≈ −0,0175 = 166,8 − (−0,0175)(975) 12 ≈ 15,3 Portanto, a equação da reta de mínimos quadrados é dada por: y ̂ = 15,3 – 0,0175x Determinada a reta de mínimos quadrados, é possível prever valores do alcance auditivo dado um número de semanas. Por exemplo: qual será o alcance auditivo para um número de semanas de 300? É preciso substituir o valor de 300 na equação encontrada. Assim: = 15^ ,3 − 0,0175(300) = 15,3 − 5,25 = 10,05 O valor previsto do alcance auditivo será de 10,05. (Continuação) Regressão linear10 Quantificando o erro na regressão linear Para encontrar a melhor reta, utiliza-se a soma dos quadrados das diferenças, também chamado de soma dos quadrados dos resíduos, e denotá-lo como Sr: = ( − )2 = [ − ( + )]2 ^ A partir dessa medida, pode-se encontrar um desvio-padrão para a reta encontrada, que é dado por: / =⎷ − 2 onde a quantidade Sx/y é chamada de erro padrão da estimativa, a qual re- presenta a dispersão em torno da reta de regressão, similar ao que se tem ao calcular a dispersão em torno da média (Figura 8). Figura 8. Dispersão em torno de dados: (a) em torno da média; b) em torno da reta. Fonte: Chapra e Canale (2016, p. 407). A partir desses conceitos, pode-se determinar o “quão bom” é o ajuste realizado, o que também permite comparar diversas regressões. Assim, serão utilizadas duas quantidades, Sr e St, onde St é a soma dos quadrados dos resíduos entre os pontos dados e a média, ou seja: = ( −−)2 Regressão linear 11 Com esses valores, calcula-se o coeficiente de determinação r2 (e r é o coeficiente de correlação). Assim: 2 = − Esse parâmetro representa a melhora, ou a redução do erro, decorrentes do ajuste da reta. Se um ajuste for perfeito (Sr = 0) e resultar em r = r2 = 1, significa que a reta explica toda a variação dos dados. Para r = r2 = 0, tem-se Sr = St, e o ajuste não implica em nenhuma melhora. Calcule o coeficiente de determinação para o exemplo de alcance au- ditivo. Primeiramente, são calculados o Sr e o St, conforme o Quadro 3. Quadro 3. Dados e somatórios (em negrito) x y y – y– (y – y–)2 y ̂ y – y ̂ (y – ŷ)2 47 15,1 1,2 1,44 14,48 0,62 0,39 56 14,1 0,2 0,04 14,32 -0,22 0,05 116 13,2 -0,7 0,49 13,27 -0,07 0,00 178 12,7 -1,2 1,44 12,19 0,51 0,27 19 14,6 0,7 0,49 14,97 -0,37 0,14 75 13,8 -0,1 0,01 13,99 -0,19 0,04 160 11,9 -2 4 12,50 -0,60 0,36 31 14,8 0,9 0,81 14,76 0,04 0,00 12 15,3 1,4 1,96 15,09 0,21 0,04 164 12,6 -1,3 1,69 12,43 0,17 0,03 43 14,7 0,8 0,64 14,55 0,15 0,02 74 14,0 0,1 0,01 14,01 -0,01 0,00 St = 13,02 Sr = 1,33 Fonte: Adaptado de Freund (2007). Regressão linear12 Agora, o coeficiente é dado por: 2 = 13,02 − 1,33 13,02 = 0,8975 Assim, 89,75% da incerteza original foi explicada pelo modelo linear. Referências CHAPRA, S. C.; CANALE, R. P. Métodos numéricos para engenharia. 7. ed. Porto Alegre: AMGH, 2016. FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto Alegre: Bookman, 2007. JUSTO, D. A. R. et al. (Org.). Cálculo numérico: um livro colaborativo. Porto Alegre: UFRGS, 2020. Disponível em: https://www.ufrgs.br/reamat/CalculoNumerico/index. html. Acesso em: 3 fev. 2021. SPIEGEL, M. R.; STEPHENS, L. J. Estatística. 4. ed. Porto Alegre, Bookman, 2009. Os links para sites da web fornecidos neste capítulo foram todos testados, e seu funcionamento foi comprovado no momento da publicação do material. No entanto, a rede é extremamente dinâmica; suas páginas estão constantemente mudando de local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade sobre qualidade, precisão ou integralidade das informações referidas em tais links. Regressão linear 13 Dica do professor Acompanhe, no vídeo a seguir, uma síntese dos conceitos desta Unidade de Aprendizagem, o que pode ajudar na resolução dos exercícios. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/8a7df296966c778e19c6f0aff39e89ca Exercícios 1) Marque a alternativa correta sobre regressão linear. A) Na regressão linear um polinômio de grau 2 é ajustado a um conjunto de pares de observação (x1,y1), (x2,y2),..., (xn,yn). B) Na regressão linear ajustamos uma reta que passa por todos os pontos observados. C) Na regressão linear o coeficiente r2 é chamado de coeficiente de correlação. D) Na regressão linear a estratégia utilizada para encontrar a “melhor” retaque representa a tendência geral dos dados é minimizar o valor absoluto da soma dos erros residuais para todos os dados disponíveis. E) Na regressão linear o erro padrão da estimativa quantifica a dispersão em torno da reta de regressão. 2) Considere a tabela a seguir: Sabendo-se que St é a soma total dos quadrados dos resíduos entre os y dados e a média y , o valor encontrado para St é: (Para auxiliar nos cálculos, pode ser utilizado um recurso eletrônico, como uma planilha eletrônica, por exemplo, com uma aproximação de 4 casas decimais). A) 9,0740 B) 55,6 C) – 55,6 D) 82 E) 95 3) Considere a tabelaa seguir: Ao ajustarmos aos dados uma reta y = a0 + a1x utilizando regressão linear, a inclinação da reta será: (Para auxiliar nos cálculos, pode ser utilizado um recurso eletrônico, como uma planilha eletrônica, por exemplo, com uma aproximação de 4 casas decimais). A) 0,3525 B) 4,8515 C) y = 4,8515 + 0,3525x D) – 0,3525 E) 55,6 Considere a tabela a seguir: 4) Ao ajustarmos aos dados uma reta y = a0 + a1x utilizando regressão linear, o valor do erro padrão da estimativa será: (Para auxiliar nos cálculos, pode ser utilizado um recurso eletrônico, como uma planilha eletrônica, por exemplo, com uma aproximação de 4 casas decimais). A) 9,0714 B) 55,6 C) 8,2 D) 1,065 E) 9,5 5) Considere a tabela a seguir: Ao ajustarmos aos dados uma reta y = a0 + a1x utilizando regressão linear, o valor do coeficiente de correlação será: (Para auxiliar nos cálculos, pode ser utilizado um recurso eletrônico, como uma planilha eletrônica, por exemplo, com uma aproximação de 4 casas decimais). A) 9,074 B) 0,8368 C) 0,9148 D) – 0,9148 E) 82 Na prática A regressão linear aparece com frequência em problemas práticos em que a dispersão dos dados assemelha-se a uma reta. Por exemplo, suponha que os seguintes dados tenham sido obtidos em um experimento que mediu a corrente em um fio para várias tensões impostas: Com base em uma regressão linear desses dados é possível determinar a corrente para a tensão de 3,5 V. Saiba + Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor: Regressão Linear Simples - Ajuste de Reta Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. Métodos Numéricos para Engenharia Conteúdo interativo disponível na plataforma de ensino! Correlação e Regressão Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://www.youtube.com/embed/e5dKAK4Df04 https://www.youtube.com/embed/5WTiDaJg62k