Prévia do material em texto
RICARDO PRIMI VÍTHOR ROSA FRANCO INTELIGÊNCIA ARTIFICIAL E MACHINE LEARNING 38 Aprendizagem Supervisionada 2 UNIDADE 2 APRENDIZAGEM SUPERVISIONADA INTRODUÇÃO O aprendizado supervisionado envolve a tarefa de “ensinar” ao computador como um input (ou entrada) está relacionado com um output (ou saída). Tarefas desse tipo refle- tem o que conhece em estatística como modelos de probabilidade condicional. Esses modelos buscam responder a seguinte pergunta: qual é a probabilidade de se observar uma saída específica na presença de uma entrada específica? Neste texto, explorare- mos os fundamentos do Aprendizado Supervisionado (supervised learning), seus com- ponentes essenciais e algumas de suas aplicações. 1. FUNDAMENTOS DO APRENDIZADO SUPERVISIONADO No contexto de aprendizado de máquina (machine learning) os modelos do aprendizado supervisionado são chamados de modelos discriminativos, dado que eles, em princípio, permitem-nos discriminar qual tarefa realizar a partir de exemplos rotulados. 1.1. O QUE É APRENDIZADO SUPERVISIONADO? O aprendizado supervisionado é uma forma de aprendizagem de máquina que pode ser utilizado no caso onde um conjunto de dados contém exemplos de entrada e a saída desejada correspondente. Por exemplo, se a pessoa quer ensinar ao computa- dor a identificar e-mails que são ou não são spam, ela pode lhe oferecer uma lista de e-mails prévios que são ou não spam. Em outro exemplo, se a pessoa quer ensinar um computador a dirigir um carro, ela pode ter dados sensoriais sobre todos os aspectos ambientais de um trajeto que foi previamente percorrido da forma mais adequada pos- sível por um humano. Assim, a ideia com o aprendizado supervisionado é que o computador possa aprender a mapear as entradas para as saídas com base nos exemplos fornecidos durante o trei- namento. Em termos mais técnicos, o objetivo do aprendizado supervisionado é gerar um modelo matemático a partir de métodos estatísticos que possibilitem desenvol- ver um algoritmo que possa generalizar previsões ou tomar decisões sobre dados não vistos anteriormente. 1.2. COMPONENTES DO APRENDIZADO SUPERVISIONADO O uso adequado do aprendizado supervisionado envolve a identificação e compreen- são de seus componentes fundamentais. Certamente, esse processo é relativamente abstrato, dependendo, de forma geral, do nível de profundidade do conhecimento que 39 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co se pretende alcançar, bem como da didática almejada. Assim, neste capítulo se desen- volverá uma abordagem menos matemática/estatística e mais conceitual. No entanto, dado o teor natural do tema, é impossível não haver qualquer apresentação de fórmu- las, a qual será feita assumindo pouco conhecimento prévio do leitor. Assim definem-se os seguintes componentes para o uso do aprendizado supervisionado. ` A Escolha do Modelo Matemático e Estatístico. A modelagem quantitativa de dados é uma área geral de conhecimentos na interface entre matemática, estatística e computação, sendo que áreas mais específicas podem adaptar as técnicas de modelagem aos problemas específicos que as interessam. Isso significa que todas as áreas da ciência e engenharia que trabalham com modelagem quantitativa de dados partem das mesmas técnicas fundamentais e ferramentas de “abstração” do conhecimento. Com “abstração” aqui se pretende dizer que as fórmulas têm o mesmo sig- nificado em todas as áreas quantitativas do conhecimento. Em particular ao aprendizado supervisionado, dizemos que um input x está relacionado a um output y a partir de uma função f. Essa abstração significa que os valores de y vão mudar a partir das mudanças de valores em x. Além disso, a forma pela qual essa mudança ocorre é determinada a partir de f. Em termos formais, a equação usada para representar essa ideia é a seguinte: 1 2 A equação 1 representa o que se chama de uma relação determinística. Relações de- terminísticas são aquelas as quais o valor de uma variável é completamente determina- do pelo valor de uma ou mais variáveis. Um exemplo desse tipo de relação é a segunda lei de Newton, na física, que diz que a força resultante é igual ao produto da massa de um corpo pela sua aceleração. No entanto, quando nos deparamos com dados no mundo real, raramente encontramos relações determinísticas. Isso ocorre, de forma geral, porque o mundo real é diferente dos contextos de experimentos laboratoriais, nos quais as possíveis influências ao resultado da pesquisa são rigorosamente controladas. Assim, quando trabalhos com dados vindos de observações naturalísticas, geralmente estaremos estudando relações probabilísticas. Relações probabilísticas são aquelas as quais o valor de uma variável é determinado, majoritariamente, pelo valor de uma ou mais variáveis, mas uma parte da variação não é explicável. Na estatística, diz-se que a relação é acompanhada por uma medida de ruído, a qual reflete tudo o que desconhecemos sobre o que gera um output específico. Modelos, ou simplesmente as equações que descrevem relações entre variáveis, que representam relações probabilísticas são similares aos modelos de relações deter- minísticas, com a distinção de que devemos adicionar a letra grega epsilon, ε, para representar o fato de que existe uma parte da variação dos outputs que não é possível explicar apenas com os dados que temos disponíveis no momento da análise: 40 Aprendizagem Supervisionada 2 Dessa forma, o aprendizado supervisionado é definido a partir da forma que se estabe- lece como a relação entre o input x e o output y, , é definida. Se a relação é definida a partir de teoria ou de modelos parcimoniosos (na literatura de machine learning muitas vezes chamados de “procedimento theory driven”), estamos adotando uma abordagem paramétrica. No entanto, se a relação é definida exclusivamente a partir da melhor des- crição possível dos dados (na literatura de machine learning muitas vezes chamados de “procedimento data driven”), estamos adotando uma abordagem não-paramétrica. Em muitos textos se define o objetivo do aprendizado de máquina como “a criação de mo- delos que tenham a maior capacidade preditiva”, enquanto a análise estatística (ou seja, a estatística como abordagem de análise de dados e não necessariamente como teoria para criação de modelos quantitativos) teria como objetivo “a criação de modelos que tenham a maior capacidade explicativa”. Na nossa discussão até o momento, isso signi- fica que a estatística envolve principalmente o uso de modelos paramétricos, enquanto o aprendizado de máquina envolveria o uso de modelos não-paramétricos. Embora, de fato, os modelos não-paramétricos consigam muitas vezes apresentar desempenho su- perior aos modelos paramétricos, esse nem sempre é o caso. Além disso, há modelos semi-paramétricos, nos quais parte das relações são definidas de forma paramétrica, e outra parte é definida de forma não-paramétrica. Para este momento do texto, basta dizer que o mais adequado é sempre comparar as diferentes abordagens de análise para po- der se avaliar qual delas melhor lhe permite que você alcance seus objetivos. No resto do texto nos aprofundaremos sobre o processo de decisão desses modelos. ` Dados de Treinamento e de Teste Para que um algoritmo de machine learning possa aprender, é necessário que seja se- lecionado o conjunto de dados com os inputs e outputs que se pretende analisar. Para que se possa avaliar a performance do algoritmo, o conjunto de dados é geralmente separado em dois: o banco de treinamento e o banco de teste. Como o nome sugere, o banco de treinamento é aquele utilizado para “ensinar”, ou treinar, o computador de for- ma que ele aprenda o modelo matemático que relacionada nossas entradas às saídas. Já o banco de teste é aquele que usamos para avaliar o desempenho do modelo. Mais especificamente, o “teste” que é realizado é um teste de desempenho preditivo, o qual se define pela capacidade domodelo em descrever dados que não estavam presentes no banco de treinamento. Esse procedimento é comum na modelagem quantitativa e tem como objetivo evitar o sobreajuste (overfitting) do modelo aos dados. O sobreajuste ocorre quando o modelo matemático descreve muito bem os dados de treinamento, mas tem uma performance ruim para descrever os dados de teste. De forma geral, na prática de aprendizado de máquina, o melhor desempenho é alcan- çado ao se escolher o modelo no qual a performance não é muito diferente em relação aos dados de treinamento e aos dados de teste. Como o treinamento é um processo extensivo (ou seja, necessita de muita computação), o tamanho do banco de dados de treinamento é geralmente maior do que o banco de dados de teste. Muitas vezes as proporções de 80/20 (80% da amostra para treinamento e 20% para teste) ou 70/30 são utilizadas, mas não há uma regra rígida. O importante é compreender que o treinamento exige mais da computação e, portanto, é adequado prover mais informação para essa etapa da análise dos dados do que para o teste. 41 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co ` Modelo e Algoritmo Nesse ponto, é importante distinguir a diferença entre o modelo matemático/estatístico e o algoritmo que é criado a partir desse modelo. Um modelo é um conjunto amplo possível de relações entre entradas, unidades internas e saídas. Ele qualifica a forma das funções possíveis que podem ser estabelecidas e funciona como uma espécie de restrição dessas relações funcionais dadas pelo formato da função. Um algoritmo pode ser definido como o processo ou conjunto de regras a serem seguidos para que se possa chegar à resolução de um problema específico, isto é, fazer uma previsão mais acurada possível sobre o output. O algoritmo contém os valores dos parâmetros das funções do modelo definidos no processo de aprendizagem que conectam as entradas, unidades e saídas de modo ótimo para realizar a previsão da saída. No caso da modelagem quantitativa de dados, o problema que se quer resolver é saber qual predição é feita a partir de um modelo quantitativo que foi treinado em um determina- do conjunto de dados. Por exemplo, para um carro que dirige sozinho, o objetivo é saber em qual ângulo virar o volante, ou qual pressão aplicar ao pedal de frenagem, quando um obstáculo aparece abruptamente em frente ao veículo. Para um sistema que classifica e-mails como spam ou não-spam, o objetivo é classificar corretamente mensagens ou conteúdo de postagens que possam ser danosas a partir de seu conteúdo, de caracte- rísticas do remetente, entre outros. Assim, enquanto o modelo matemático é usado para “ensinar” algo ao computador, o algoritmo é o resultado da “aprendizagem” da máquina. ` Função de Perda (Loss Function) e Algoritmos de Otimização A função de perda é usada para avaliar o quão bem o modelo consegue descrever os dados. Mais especificamente, a função de perda é usada para calcular a diferença entre as predições do modelo e os valores reais observados nos dados. Em termos mais formais, as predições do modelo são definidas como , onde é o que chamamos de predição do modelo. As funções de perda são simplesmente o cálculo do erro do modelo. O erro do modelo, isto é, o componente , é tudo aquilo que não pode ser explicado pela relação entre a entrada e a saída. Dizemos, portanto, que o objetivo da modelagem é minimizar a função de perda, formalmente definida como: 3 onde a letra grega fi maiúsculo, , representa a forma como o erro de cada exemplo específico é calculada e agregada para se chegar a um número global quantificando o erro do modelo. Quando dizemos “minimizar a função de perda” queremos dizer que precisamos en- contrar qual a forma e os parâmetros do modelo matemático que geram o menor erro possível do modelo. No entanto, a solução para esse problema não pode ser calculada diretamente para uma parte considerável dos modelos de aprendizagem de máquina (e de modelagem quantitativa, de uma forma geral). Isso significa que muitas vezes não iremos trabalhar como soluções exatas em aprendizagem de máquina, mas apenas 42 Aprendizagem Supervisionada 2 com soluções aproximadas. Essas soluções aproximadas, no entanto, podem ser, ao menos a princípio, muito similares às soluções exatas. A forma de encontrar as soluções aproximadas é por meio do que se chama de algoritmos de otimização. Os algoritmos de otimização são conjuntos de regras que permitem encontrar a solução de um problema matemático (ou seja, do resultado de uma conta). No caso da função de perda, o objetivo é a minimização do erro. Em outros tipos especiais de funções de perda, como a função de verossimilhança, o objetivo é maximizar o quão bem uma distribuição estatística representa os dados. O algoritmo de otimização mais popular na área de aprendizagem de máquinas é o Gradiente Descendente Estocástico. No entanto, existem diversos outros algoritmos de otimização que podem ser, da forma mais abrangente possível, categorizados en- tre algoritmos determinísticos e algoritmos probabilísticos. Não é nosso objetivo nos aprofundar nesses algoritmos, tendo em vista que, inclusive, a grande maioria dos programas que implementam modelos e algoritmos de aprendizagem de máquina já definem a priori qual algoritmo será utilizado para o treino (ou ajuste) do modelo. No entanto, é conveniente citar esses algoritmos neste ponto, tendo em vista que os algorit- mos de otimização são muitas vezes citados em textos da área, mas sem que se tenha feito sequer uma definição mínima, como nós fizemos. De qualquer forma, o estudante interessado em otimização deve procurar materiais (sendo alguns listados na lista de referências) da grande área que estude especificamente esse tipo de algoritmo chama- da de otimização (ou programação) matemática. 2. MODELOS DE LINEARES E SUA APLICAÇÃO EM PROBLEMAS DE APRENDIZADO Existem diversos modelos diferentes de aprendizado supervisionado, sendo que cada um deles varia em níveis de dificuldade na implementação e de capacidade de des- crever fenômenos mais complexos. Entre esses modelos, os mais simples são prova- velmente os modelos lineares. Esses modelos são amplamente usados devido à sua simplicidade, interpretabilidade e eficácia em uma variedade de aplicações. A seguir exploraremos os princípios dos modelos lineares e como eles são aplicados em proble- mas de aprendizado supervisionado. 2.1. O QUE SÃO MODELOS LINEARES? Os modelos lineares são uma classe de modelos e algoritmos de aprendizado de má- quina que assumem a existência de uma relação linear entre as variáveis de entrada e a variável de saída de um problema. A relação linear é representada por uma equação matemática chamada de “função linear” que pode ser usada para fazer previsões ou tomar decisões. O uso da função linear para modelagem quantitativa se dá pelo modelo de análise de regressão linear. A forma mais simples de um modelo de regressão linear é a regressão linear univariada, a qual é representada pela seguinte equação: 4 43 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co Similar às outras equações deste capítulo, y é a variável de saída e x é a variável de entrada. O erro, que antes havíamos representado com a letra grega epsilon, ε, foi substituído pela letra grega fi minúscula, , a qual representa uma função de ligação. A função de ligação é usada para que se possa modelar saídas que tenham diferentes níveis de medida. De forma geral, variáveis podem ser separadas em duas categorias gerais de níveis de medida: variáveis categóricas e variáveis contínuas. Variáveis como renda, tempe- ratura, decibéis, volume, ângulo, entre outros, são exemplos de variáveis contínuas, as quais recebem esse nome porque, ao menos em princípio, podem receber qual valor. Variáveis como sexo, escolaridade, presença ou ausência de um estímulo, acerto ou erro numa prova, entreoutros, são exemplos de variáveis categóricas, as quais rece- bem esse nome porque seus valores são determinados a partir de um número limitado de respostas (chamados de categorias), os quais não representam uma relação clara de magnitude entre si. Por exemplo, um estudante acertar mais questões nas provas do que outro estudante pode ser um indicativo de que esses estudantes têm níveis diferen- tes de conhecimento sobre o conteúdo da prova. No entanto, caso soubermos apenas que um deles acertou uma questão enquanto o outro errou, não temos como saber o quanto da diferença entre os dois pode ser atribuída apenas à sorte (ou falta dela). Retomando a Equação 4, temos que definir que a letra grega beta, β, representa os parâmetros do modelo. Os parâmetros de qual modelo quantitativo são definidos como os valores estimados (a partir dos métodos de otimização) que afetam como o modelo faz predições. No caso do modelo linear, os parâmetros são facilmente interpretáveis, o que geralmente é apresentado como uma vantagem do modelo. O parâmetro (lê-se “beta zero”) é o intercepto do modelo e ele representa o valor da saída y quando a entrada x é igual a zero. O parâmetro (lê-se “beta um”) é o coeficiente angular, ou coeficiente de regressão, o qual representa a taxa de conversão da entrada x para a saída y. Em outras palavras, eles também podem ser interpretados como a “força” da relação entre a variável de entrada e a variável de saída. Por fim, a Equação 4 também pode ser estendida para o caso no qual temos mais de uma variável de entrada. O mo- delo é então representado pela seguinte equação: 5 Onde β é um vetor que representa todos os parâmetros do modelo e X é uma ma- triz que representa todas as variáveis de entrada que estão sendo usadas para predizer a variável de saída y. A forma adequada de se ler o produto de β e X é , onde n é a quantidade de variáveis de entrada. Esse modelo também é conhecido como regressão linear múltipla. 2.2. REGRESSÃO LINEAR MÚLTIPLA A regressão linear múltipla é um dos tipos mais comuns de modelos lineares e é usada para resolver problemas de previsão onde temos vários preditores. A equação da re- gressão linear múltipla é estabelecida ao se definir a função de ligação representada 44 Aprendizagem Supervisionada 2 pela letra grega fi minúscula, , como a função de identidade: . Assim, o modelo completo pode ser definido como: 6 7 A função de perda desse modelo geralmente é definida como: onde N é o tamanho da amostra (ou seja, a quantidade de pareamentos entre as vari- áveis de entrada e a variável de saída) e a letra regra maiúscula sigma, Σ, representa uma soma dos erros das predições para cada observação utilizada na análise. Uma observação é cada conjunto de valores das variáveis de entrada e da variável de saída que foram observadas. No caso da regressão linear simples, esse conjunto é um par: a observação é composta por um valor da variável de entrada e um valor da variável de saída. A função de perda representada na Equação 7 é chamada de L2, dado que ela mensura o quadrado da diferença entre a predição e o valor real observado na variável de saída, e é a função de perda mais comumente utilizada para uma diversidade de análises, mesmo para modelos mais complexos. Na Figura 01 é apresentada uma representação habitual do tipo de resultados avaliados com uma análise de regressão linear simples, onde se está presente apenas uma variável de entrada x. Em termos da representação gráfica, o objetivo da análise de regressão linear é identificar a linha que melhor descreve os dados. A linha que “melhor descreve os dados” é aquela que gera o menor valor possível de erro, conforme definido na equação 7. Na Figura 1, as linhas vermelhas representam resultados “ruins”, no sentido de que elas não são capazes de oferecer a melhor descrição dos dados em termos de um mo- delo linear. A linha verde é aquela que melhor representa os dados, no sentido de que ela é aquela que vai gerar o menor valor possível de erro. Vale salientar nesse ponto que o modelo linear representado pela linha verde não é o melhor modelo para os dados, mas sim o melhor modelo linear. Essa ênfase é importante dado que os resultados e as con- clusões que chegamos estão sempre limitadas as ferramentas que utilizamos em nossos dados, justificando-se, assim, a necessidade de se conhecer, o melhor possível, o máxi- mo possível de procedimentos distintos e como, e quando, eles funcionam. 45 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co Figura 01. Comparação de predições de modelos lineares Fonte: Produzido pelos autores, 2023. 2.3. CLASSIFICAÇÃO LINEAR Quando a variável de saída é uma variável categórica, os modelos lineares também po- dem ser usados para resolver problemas de classificação. A ideia das análises de clas- sificação linear é usar uma função linear para separar as diferentes classes. O exemplo mais simples é a classificação binária, onde temos duas classes (geralmente represen- tadas pelos números 0 e 1). Um dos modelos mais tradicionais para se realizar classifi- cação linear é a regressão logística, na qual se define a função de ligação representada pela letra grega fi minúscula, , como a função logística: : 8 9 A equação 8 não inclui diretamente o erro do modelo (que geralmente é represento pela letra grega epsilon, ), sendo que o erro é representado na função de perda desse mo- delo geralmente é definida pela verossimilhança de uma distribuição binomial: onde e log() é a função logarítmica natural. -3 -3 -2 -2 -1 -1 1 1 2 2 3 3 0y x 0 46 Aprendizagem Supervisionada 2 Foge ao propósito deste curso adentrar em questões aprofundadas de teoria estatística, como a definição de verossimilhança e distribuições de probabilidade. No entanto, há diversas boas referências e materiais didáticos disponibilizados de forma gratuita e online; por exemplo: SAIBA MAIS Disponível em: https://youtube.com/playlist?list=PL7xT0Gz6G0-RW8SXEKHsfLmF- NAexb3wYw. Essa função de perda é chamada de LogL, dado que ela é baseada numa medida do logaritmo das estimativas feitas pelo modelo. Essa função de perda é bastante utilizada para contextos de categorização de variáveis binárias de saída e, quando a variável de saída é categórica, mas não binária, funções com interpretações similares são também bastante utilizadas. Na Figura 2 é apresentada uma representação habitual do tipo de resultados avaliados com uma análise de regressão logística simples, onde se está presente apenas uma variável de entrada x. Em termos da representação gráfica, o objetivo da análise de regressão logística é identificar a curva em formato de “S”, com valor mínimo de 0 e máximo de 1, que melhor descreve os dados. Assim, como na Figura 1, as linhas ver- melhas representam resultados “ruins” e a linha verde é aquela que melhor representa os dados, no sentido de que ela é aquela que vai gerar o menor valor possível de erro de acordo com a equação 9. Figura 02. Comparação de predições de modelos logístico Fonte: Produzido pelos autores, 2023. -3 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 -2 -1 0 x y 1 2 3 https://youtube.com/playlist?list=PL7xT0Gz6G0-RW8SXEKHsfLmFNAexb3wYw https://youtube.com/playlist?list=PL7xT0Gz6G0-RW8SXEKHsfLmFNAexb3wYw 47 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co 2.4. AVALIAÇÃO DO MODELO Uma parte crítica do aprendizado supervisionado é a avaliação do desempenho do modelo em dados não utilizados durante o treinamento do modelo. Essa avaliação é essencial na modelagem quantitativa de dados e é particularmente importante no para- digma da aprendizagem de máquina. A partir de definições vindas da psicologia, uma aprendizagem efetiva é aquela que permite que o conhecimento adquirido seja aplicado em novos contextos não vistos no treinamento. Assim, no contexto de aprendizagem de máquina, é importante que o modelo ajustado aosdados de treino generalize bem. Para avaliar a capacidade de generalização dos modelos devemos considerar o tipo de variável categórica ou contínua, o que define as métricas de avaliação. A Acurácia (Ac- curacy) mede a proporção de previsões corretas em relação ao número total de previ- sões quando a variável de saída é categórica. Essas medidas são avaliadas a partir do que se conhece como matriz de confusão (confusion matrix). Por exemplo, em um problema binário de classificação, como um teste da presença do vírus SARS-CoV-2 no corpo de um indivíduo, temos uma classe positiva e negativa real e as previsões dadas pelo modelo usando dados de um teste biológico de uma amostra de secreção nasal. A matriz de confusão é uma tabela cruzada resumindo os resultados em uma amostra de casos com os valores reais positivos e negativos e quantos desses casos foram previs- tos como positivos e negativos pelo teste. Tabela 01. Teste da presença do vírus SARS-CoV-2. RESULTADOS DO TESTE Dados reais Valor previsto positivo Valor previsto negativo Valor verdadeiro positivo TP FN Valor verdadeiro negativo FP TN Fonte: Produzido pelos autores, 2023. A partir dessa tabela podemos calcular vários índices: ` Verdadeiro positivo (TP: true positive): proporção de casos que o modelo previu corre- tamente que o exemplo é da classe positiva. ` Falso positivo (FP: false positive): proporção que o modelo previu incorretamente que o exemplo é da classe positiva. ` Verdadeiro negativo (TN: true negative): proporção de casos que o modelo previu cor- retamente que o exemplo é da classe negativa. ` Falso negativo (FN: false negative): proporção de caso que o modelo previu incorreta- mente que o exemplo é da classe negativa. Precisão e recall são duas métricas que são usadas para avaliar o desempenho de um modelo de classificação baseado nesses indicadores. Precisão mede a porcentagem de previsões positivas do modelo que foram classificadas corretamente. É calculada como a razão entre o número de verdadeiros positivos e o número de verdadeiros 48 Aprendizagem Supervisionada 2 positivos mais o número de falsos positivos: Precisão = TP / (TP + FP). No caso acima, a precisão indicaria, de todos os exemplos que o teste identificou como COVID-19, qual proporção de fato eram casos reais da doença. Recall mede a porcentagem de exemplos positivos reais que foram classificados corre- tamente. É calculada como a razão entre o número de verdadeiros positivos e o número de verdadeiros positivos mais o número de falsos negativos: Recall = TP / (TP + FN). No exemplo de COVID-19, seria qual a proporção de casos reais da doença que o modelo conseguiu detectar. Precisão é mais importante quando o custo de um falso positivo é alto. Por exemplo, um modelo que classifica pacientes como saudáveis quando eles realmente estão doentes pode ter consequências graves. Recall é mais importante quando o custo de um falso negativo é alto. Por exemplo, um modelo que classifica spam como não-spam quando ele realmente é spam pode levar a uma enxurrada de mensagens em um ataque cibernético. Além da precisão e do recall, existem outras métricas que podem ser usadas para avaliar o desempenho de um modelo de classificação. Algumas dessas métricas incluem: F1-s- core e a Curva ROC. O escore F1 é uma métrica harmônica que combina precisão e recall em uma única medida. Ele é calculado como a média harmônica de precisão e recall: F1 = 2 * (precisão * recall) / (precisão + recall) A Curva ROC (Receiver Operating Characteristic) é uma medida do desempenho de um modelo de classificação binária e é usada em problemas de classificação para ava- liar o desempenho do modelo em diferentes limiares de decisão. Foi desenvolvida no contexto de um método analítico elaborado na engenharia e na psicologia para avaliar a capacidade de máquinas e pessoas, respectivamente, em identificar características relevantes de objetos. A curva ROC representa como as taxas de falsos positivos (por exemplo, quando um algoritmo diz que um e-mail é um spam quando na verdade ele não é) se relacionam com as taxas de positivos corretos (por exemplo, quando um algo- ritmo diz que um e-mail é um spam quando na verdade ele é). Tal análise permite avaliar qual o critério de decisão irá gerar, na média, melhores resultados. Quando a variável de saída é contínua temos dois índices mais comuns: ` Erro Médio Quadrático (Mean Squared Error - MSE): Uma medida de desem- penho do modelo utilizada em problemas de regressão que mede o erro médio quadrático entre as previsões e os valores reais. Essa medida é calculada ao se utilizar exatamente a mesma fórmula que aquela representada na equação 7. Em termos inferenciais, o MSE tem o efeito de definir pior desempenho àqueles modelos que não lidam bem com dados que são “pontos fora da curva” (outliers). ` Erro Médio Absoluto (Mean Absolute Error - MAE): Uma medida de desem- penho do modelo utilizada em problemas de regressão que mede o erro médio absoluto entre as previsões e os valores reais. Essa medida é calculada ao se utilizar uma fórmula muito similar àquela representada na equação 7, com a di- 49 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co ferença de que, ao invés de elevar a diferença entre a predição e o valor real ao quadrado, utiliza-se o valor absoluto dessa diferença (ou seja, o valor da diferen- ça, mas sem se levar em conta o sinal). Em termos inferenciais, o MAE é menos sensível aos “pontos fora da curva” do que o MSE. 2.5 VANTAGENS E DESVANTAGENS DOS MODELOS LINEARES Neste momento, é importante salientar que os modelos lineares apresentam muitas limi- tações. Por exemplo, veja os dados apresentados na Figura 3. Os dados apresentam um padrão “curvado” sistemático que, obviamente, não pode ser representado por um mo- delo linear. Nesta figura, a linha em vermelho representa o melhor modelo linear possível para descrever a relação entre a variável de entrada e a variável de saída. É possível observar que os valores mais baixos e mais altos são sempre estimados como maiores do que eles realmente são. No entanto, na Figura 3, também há uma curva na cor verde, a qual representa as predições do melhor modelo quadrático possível. Um modelo qua- drático é um tipo de modelo não-linear que assume que a relação entre a variável de entrada e a variável de saída seguem uma função polinomial do segundo grau. Com este exemplo, buscamos salientar três das principais desvantagens dos modelos lineares: ` Limitações na complexidade do modelo: Modelos lineares não conseguem cap- turar relações não-lineares entre as variáveis de entrada e a variável de saída. Como antes de realizarmos a análise, não podemos ter certeza absoluta de que a relação é necessariamente linear, pois esse modelo pode resultar em uma grande limitação às capacidades preditivas dos algoritmos de aprendizado de máquinas. ` Sensíveis a outliers: Modelos lineares são mais propensos a serem influen- ciados por valores que são muitos discrepantes nos dados de treinamento. Um valor “muito discrepante” é aquele que apresenta um valor distinto dos outros conjuntos de dados observados. Por exemplo, imagine que a altura e o peso das pessoas têm uma relação positiva (ou seja, quando uma aumenta a outra também deve aumentar). Assim, se a maioria das pessoas em uma amostra tem entre 1,60 metros e 1,80 metros e também entre 60 quilos e 80 quilos, uma pes- soa com 1,50 metros e 50 quilos apresenta um par de valores discrepantes para as variáveis. No entanto, muito provavelmente sua combinação de peso e altura estaria ainda dentro do padrão esperado de relação entre as variáveis. Por outro lado, uma pessoa com 1,80 metros e 45 quilos, ou uma pessoa com 1,45 metros e 80 quilos, estarão provavelmente fora do padrão esperado da relação entre altura e peso para as pessoas na amostra. 50 Aprendizagem Supervisionada 2 Figura 03. Comparação de predições de modelos lineare não-linear Fonte: Produzido pelos autores, 2023. É importante salientar que as limitações dos modelos lineares não necessariamente significam que eles não tenham benefícios. De fato, muitas vezes as pesquisas e aplicações com algoritmos de aprendizado de máquina chegam à conclusão de que os modelos lineares têm desempenho igual, ou às vezes até melhor, do que de modelos mais complexos. Por outro lado, mesmo que o desempenho não seja igual ou melhor do que de outros modelos, ainda cabe ressaltar três das principais vantagens dos modelos lineares: ` Simplicidade: São fáceis de implementar em praticamente qualquer linguagem de programação, mesmo com baixo conhecimento de modelagem quantitativa, estatística ou programação. Além disso, as equações para esses modelos ge- ralmente envolvem apenas relações de multiplicação e adição, facilitando sua generalização para uma diversidade de contextos, mesmo com dados que sejam de natureza bastante distinta. ` Eficiência: São computacionalmente eficientes (ou seja, são análises para as quais muito rapidamente se consegue um resultado) e funcionam bem com con- juntos de dados grandes. Dessa forma, são aplicáveis a conjuntos muito grandes de dados, sem necessariamente gerar custos extras ou necessidade de poder computacional muito grande. ` Interpretabilidade: Por apresentarem parâmetros que estão diretamente rela- cionados a como uma mudança nas variáveis de entrada geram mudanças nas variáveis de saída, esses modelos são bastante interpretáveis. Em particular, o 51 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co coeficiente angular permite uma avaliação intuitiva de como tomar uma decisão sobre como aumentar, ou diminuir, os valores esperados de uma variável de sa- ída a partir de intervenções nas variáveis de entrada. Além disso, é importante fazermos a distinção entre modelos paramétricos e mode- los não-paramétricos. Os modelos paramétricos, como a regressão linear e os mode- los não-lineares de regressão, assumem, antes de se observar os dados, uma forma específica da relação entre as variáveis de entrada e a variável de saída. Os modelos não-paramétricos, por outro lado, têm como objetivo, justamente, tentar descobrir qual é a forma da relação entre as variáveis de entrada e a variável de saída. Esse tipo de procedimento apresenta novas limitações e problemas, os quais serão discutidos no contexto das redes neurais artificiais (ou apenas “redes neurais”, dado que no contexto deste material, estaremos sempre focando em redes neurais como modelos de apren- dizado de máquina, e raramente sobre redes neurais biológicas). Neste momento é importante salientar a ampla gama de aplicações em problemas de aprendizado supervisionado que foram, e muitos ainda são resolvidos com o uso de modelos lineares para o aprendizado de máquina: ` Previsão de Preços Imobiliários: Os modelos lineares podem ser usados para prever o preço de casas com base em características como tamanho, número de quartos e localização. ` Previsão de Vendas: Em empresas de varejo, é possível prever vendas futuras com base em dados históricos de vendas e fatores como publicidade e promoções. ` Classificação linear de detecção de spam: Os modelos lineares podem ser aplicados para classificar e-mails como spam ou não spam com base em carac- terísticas do texto. ` Diagnóstico Médico: Na área médica, podem ser usados para classificar exa- mes como positivos ou negativos para uma doença com base em características médicas. ` Identificação de fraudes: Predições feitas por modelos lineares permitem iden- tificar padrões de dados que, em contexto contábeis, podem representar supos- tas fraudes. ` Análise de dados científicos: A depender dos dados sendo analisados, a line- aridade das relações é definida por procedimentos experimentais ou um pressu- posto razoável para descrever as relações de um pequeno conjunto de variáveis. 52 Aprendizagem Supervisionada 2 3. FUNDAMENTOS DE REDES NEURAIS PARA APRENDIZADO SUPERVISIONADO Pela necessidade de se contornar as limitações dos modelos lineares (e aos modelos paramétricos, de forma geral), uma diversidade de novos procedimentos foram desen- volvidos. A partir de teorias psicológicas que tentavam estabelecer modelos estatísticos baseados em princípios neurológicos do funcionamento do cérebro, pesquisadores da área de computação começaram a aplicar tais modelos para problemas de engenharia. Originou-se, assim, os estudos das redes neurais artificiais. Assim, as redes neurais artificiais são uma classe de modelos de aprendizado de máquina que buscam emular como o cérebro estabelece relações entre os estímulos físicos (em paralelo, as variá- veis de entrada) e as sensações subjetivas (em paralelo, as variáveis de saída). Apesar de existirem outras alternativas aos modelos lineares, as redes neurais artificiais serão o nosso foco por apresentarem um desempenho superior em uma diversidade de tare- fas e também maior popularidade. 3.1. O QUE SÃO REDES NEURAIS ARTIFICIAIS? As redes neurais são modelos computacionais compostos por camadas de unidades chamadas neurônios artificiais. Esses neurônios são organizados em camadas de entrada, camadas ocultas (ou latentes) e camadas de saída. A ideia geral do modelo é de que, ao invés de haver apenas uma forma de descrever a relação entre as entradas e as saídas, é que cada neurônio realize uma operação matemática simples em seus inputs e passe o resultado para o próximo neurônio ou faz diretamente a predição de qual resultado deveria ser observado. Nesse sentido, o resultado final da predição feita por um modelo de rede neural artificial é como a ponderação de diversos modelos mais simples. Por exemplo, é possível desenvolver redes neurais utilizando apenas a combi- nação de diversos modelos lineares. A forma matemática exata do modelo de rede neural artificial é chamada de arquitetu- ra. A arquitetura de uma rede neural artificial é definida pela organização das camadas e pelo número de neurônios em cada camada. As camadas de entrada recebem as variáveis de entrada, as camadas ocultas são as ponderações possíveis das variá- veis de entrada e as camadas de saída produzem as predições finais em relação às variáveis de saída. A Figura 4 apresenta a demonstração de uma rede neural artificial “rasa” (shallow) na qual existem quatro variáveis de entrada, seis variáveis latentes (ou “neurônios artificiais”) e duas variáveis de saída. Cada neurônio artificial é uma unidade de processamento que recebe um vetor de entrada (ou seja, uma combinação dos va- lores das variáveis de entrada), realiza uma combinação linear dos valores de entrada ponderados por pesos associados a cada conexão e aplica uma função de ativação para realizar a predição. Os pesos são, simplesmente, como os coeficientes angulares da análise de regressão linear. A função de ativação é uma fórmula matemática que re- aliza uma combinação linear dos valores dos neurônios artificiais ponderados por pesos que associam cada neurônio artificial a cada uma das saídas. Existem várias funções de ativação comuns em redes neurais: 53 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co ` Sigmoide (ou logística): Mapeia os valores de entrada para o intervalo (0, 1) e é usada principalmente em camadas de saída de redes binárias. ` ReLU (Rectified Linear Unit): Define a saída como zero para entradas negati- vas e a própria entrada para valores positivos. É uma das funções de ativação mais populares nas camadas ocultas. ` Tangente Hiperbólica: Mapeia os valores de entrada para o intervalo (-1, 1) e é usada em casos semelhantes aos da sigmoide. Figura 04. Exemplo de diagrama de modelo de rede neural artificial rasa Fonte: Produzido pelos autores, 2023. As redes neurais rasas, como aquela exemplificada na Figura 04, são matematicamen- te definidas como “aproximadores universais”. Esse nome é utilizadodado que existe um teorema, chamado de teorema de aproximação universal, que prova que as redes neurais rasas, usando a função logística (a fórmula representada na equação 8), são capazes de aproximar qualquer outra função matemática, desde que haja um número infinito de neurônios artificiais. No entanto, obviamente, não é possível utilizar um nú- mero infinito de cálculos para resolver problemas na finitude de tempo que temos como seres humanos. Tentando buscar maior eficiência nos modelos, alguns pesquisadores começaram a desenvolver o que hoje se conhece como redes neurais artificiais pro- fundas, conforme apresentado na Figura 05. A distinção entre as redes neurais rasas e as profundas é que as redes neurais artificiais profundas apresentam duas ou mais camadas ocultas. 54 Aprendizagem Supervisionada 2 Figura 05. Exemplo de diagrama de modelo de rede neural artificial profunda Fonte: Produzido pelos autores, 2023. De forma geral, as redes neurais artificiais profundas parecem apresentar um desem- penho melhor do que as redes neurais artificiais rasas. No entanto, isso nem sempre é verdade. De fato, muitas vezes as redes neurais, independentemente de serem rasas ou profundas, têm performance similar a modelos paramétricos não-lineares, ou até mesmo com modelos lineares nos quais foi feita uma melhor seleção das variáveis de entrada. A área de estudos das redes neurais profundas é muito prolífica, mas ainda há muito que não se sabe sobre problemas fundamentais da área. Assim, a cada dia são criadas maneiras cada vez mais eficazes de se utilizar redes profundas e algo que era muito inovador há cinco anos é frequentemente considerado hoje como ultrapassado. Isso se dá tanto pelas muitas descobertas novas, quanto pelo fato de que muitas das inovações são adquiridas a partir de “tentativa e erro”. De forma geral, isso significa que há pouca compreensão do que faz algumas coisas funcionarem tão bem e outras não. 3.2. TREINAMENTO E USO DE REDES NEURAIS O treinamento de redes neurais é o processo de ajustar os pesos das relações para que a rede produza os resultados desejados para as variáveis de saída com base nos dados de treinamento. O algoritmo de treinamento mais comum é o gradiente descendente, que utiliza o gradiente da função de perda para minimizar o ruído do modelo. O gradiente é uma medida que indica em qual direção (de redução ou de aumento) que é necessário alterar os valores dos parâmetros do modelo para poder se reduzir o ruído do modelo. O aprendizado supervisionado com redes neurais envolve treinar uma rede neural para fazer predições com base em variáveis de entrada com relação direta com as variáveis de saída. No entanto, anteriormente à análise em si dos dados, é necessário realizar uma diversi- dade de passos, os quais buscam maximizar a validade das informações geradas. Em in- glês existe a expressão garbage in; garbage out (GIGO). A tradução literal é “entra lixo; sai 55 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co lixo”. O “lixo” aqui está referenciando a escolha ruim de dados, a qual pode gerar vieses e decisões equivocadas. Estudos na literatura têm demonstrado que IAs mal desenvolvidas apresentam uma série de vieses e consequências sociais negativas, entre as quatro mais marcantes: (i) IAs têm gerado oportunidades desiguais para pessoas de determinados grupos raciais; (ii) IAs muitas vezes reproduzem discriminações raciais sistêmicas; (iii) aplicações de IA muitas vezes não são aplicadas para estudar as condições de saúde de grupos populacionais raciais específicos; e (iv) IAs são usadas com fins de controle demográficos diferentes para pessoas com origens raciais diferentes. Nesse sentido, é necessário seguir cinco passos gerais de definição de uma aplicação ou pesquisa fundamentada em aprendizado de máquina, e especialmente com redes neurais, com cuidados metodológicos reforçados: Coleta de Dados: O processa de coleta de dados deve ser minuciosamente elaborado para evitar que haja a inserção de vieses indesejados nos resultados. Assim, o propósito da coleta é reunir um conjunto de dados que inclua exemplos de variáveis de entrada e variáveis de saída que estejam alinhadas com os objetivos desejados. Em problemas de engenharia, as relações entre as variáveis de entrada e de saída são evidentes. Por exemplo, ao se desen- volver um veículo que seja capaz de se dirigir sozinho, sabemos que informações visuais (como as placas, a posição das pessoas na rua e a sinalização horizontal) e auditivas (como a buzina de outro veículo ou a frenada de um carro) são influências fundamentais ao com- portamento da direção de um carro. No entanto, no contexto científico, quando estudamos fenômenos que não são passíveis de experimentação, é difícil estabelecer relações causais. Por exemplo, no estudo das causas do câncer de pulmão e sua relação com o uso de cigar- ro, não é eticamente viável fazer um experimento com randomização de quem usa ou não cigarro para se observar quem desenvolve ou não câncer no pulmão. Assim, muitas vezes no contexto científico o que define o que é uma variável de entrada ou uma variável de saída não é resolvido de forma trivial, sendo o produto da convergência da construção coletiva das pesquisas no tema em questão. Ainda em outra possibilidade, que tem sido bastante comum no caso de aplicações de Processamento de Linguagem Natural, é a mineração de dados. A mineração de dados envolve, principalmente, a identificação e or- ganização de dados secundários, ou seja, informações que foram originalmente coletadas por outras pessoas. Os detalhes dos procedimentos de coleta de dados fogem ao escopo desta disciplina, sendo mais adequados a uma disciplina de métodos de pesquisa. Em conclusão, é fundamental saber qual informação levantar e como levanta-la da forma mais adequada. Definição da Arquitetura da Rede: Após a definição de como ocorrerá a coleta de dados, é necessário decidir qual a estrutura da rede neural, incluindo o número de camadas, o número de neurônios em cada camada e as funções de ativação que serão utilizadas. Esse procedi- mento, como descrito anteriormente, muitas vezes se dá a partir de tentativa e erro, sendo que ainda não existem orientações muito específicas na área. No entanto, existem orientações gerais que podem ser úteis a depender de cada aplicação específica. Por exemplo, a função de ativação ReLU pode ser interessante em contextos nos quais existam algum tipo de “limiar” para se definir alguma ação. No contexto de veículos autônomos, a função ReLU pode ajudar a indicar qual a distância mínima que o veículo em questão pode estar de obstáculos antes de começar a frear. A compreensão dessas, e outras, modificações que podem ser feitas nos mo- delos, e qual impacto elas têm no conjunto de dados, vão sendo adquiridos a partir da prática. 56 Aprendizagem Supervisionada 2 Ajuste de Hiperparâmetros: No contexto do aprendizado de máquinas, o termo “hiperparâ- metros” é utilizado com dois significados bastante distintos. No primeiro deles, os hiperparâ- metros são compreendidos como os parâmetros que definem o comportamento dos algoritmos de otimização. Nesse caso, esses parâmetros não estão relacionados diretamente com o parâ- metro, mas apenas como ocorre o treinamento do modelo aos dados. Para esse uso, dizemos, por exemplo, que se realiza a escolha da taxa de aprendizado e do número de épocas de treinamento. No segundo significado de hiperparâmetros estão os “parâmetros fixos” (termino- logia mais comumente utilizada em estatística), que são parâmetros do modelo em si, mas não estimados a partir do treino. Por exemplo, a definição da arquitetura de rede ou a definição da irrelevância de um neurônio em relação a uma variável de saída são exemplos de hiperparâ- metros do modelo. Salienta novamente neste ponto que esses dois tipos de hiperparâmetros são geralmente chamados apenas de hiperparâmetros nos materiais daárea e, portanto, é necessário utilizar o contexto para se ter certeza de qual uso está sendo utilizado. Avaliação do Desempenho: O último passo envolve o treinamento e a avaliação do desem- penho do modelo. O treinamento é feito a partir de um algoritmo de otimização para ajustar os pesos da rede de forma que as previsões se aproximem dos valores das variáveis de sa- ída nos dados de treinamento. O desempenho final do modelo é feito utilizando as métricas de avaliação e da capacidade do modelo de generalizar seu aprendizado para os dados de teste. “Generalizar o aprendizado” é definido como uma mudança quase nula em relação à magnitude da diferença do desempenho nos dados de treinamento e nos dados de teste. 4. INTRODUÇÃO ÀS APLICAÇÕES COMPUTACIONAIS EM DEEP LEARNING A área de aprendizado de máquina com o uso de redes neurais profundas recebe o nome de Deep Learning, ou aprendizado profundo. Seu principal objetivo tem sido a compreensão mais detalhada de como as redes neurais artificiais profundas de fato funcionam e como elas podem ser utilizadas para realizar tarefas complexas de forma automatizada. Em objetivos mais secundários, pesquisadores têm se interessado em identificar paralelos entre os modelos computacionais da área e quais suas reais simi- litudes com o funcionamento do cérebro humano e quais implicações isso poderia ter para a generalidade dos tipos de inteligência criados com esses métodos. Nesse sen- tido, o aprendizado profundo revoluciona uma série de aplicações em diversos setores da sociedade. 4.1. APLICAÇÕES EM VISÃO COMPUTACIONAL Uma das áreas mais impactadas pelo Deep Learning é a visão computacional. A capaci- dade de processar e entender imagens de forma semelhante ao ser humano tem levado a avanços significativos em muitas aplicações: ` Reconhecimento de Imagens: Sistemas de Deep Learning podem identificar objetos, rostos, números de placas de carros e até mesmo animais em imagens com alta precisão. 57 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co ` Detecção de Objetos: Essa tecnologia é usada em sistemas de vigilância para detectar e rastrear objetos em tempo real, sendo aplicada na segurança e no tráfego, por exemplo. ` Segmentação de Imagens: A capacidade de dividir uma imagem em segmentos permite, por exemplo, a segmentação de imagens de satélite para identificação de recursos naturais. ` Realidade Aumentada e Realidade Virtual: O Deep Learning possibilita a cria- ção de experiências imersivas, como jogos e simulações mais realistas, além de aplicações de treinamento e educação. 4.2. PROCESSAMENTO DE LINGUAGEM NATURAL (NLP) O Deep Learning também tem revolucionado o processamento de linguagem natural, permitindo que os computadores compreendam e gerem texto de forma mais eficaz: ` Tradução Automática: Sistemas de tradução automática baseados em Deep Learning, como o Google Translate, têm melhorado significativamente a tradução entre idiomas. ` Chatbots e Assistência Virtual: Chatbots alimentados por modelos de lingua- gem natural, como o ChatGPT e o Copilot, são usados para fundamentar a cria- ção de bots especializados em atendimento ao cliente, assistência pessoal e suporte técnico automatizado. ` Sumarização de Texto: O Deep Learning é aplicado para resumir automatica- mente textos longos, tornando a leitura e o entendimento mais eficientes. ` Análise de Sentimento: Empresas utilizam análise de sentimentos baseada em Deep Learning para compreender como seus produtos ou serviços estão sendo percebidos pelos clientes. 4.3. MEDICINA E CIÊNCIAS DA VIDA Em medicina e ciências da vida, o Deep Learning tem tido um impacto significativo: ` Diagnóstico Médico: Modelos de Deep Learning são usados para identificar doenças a partir de imagens médicas, como radiografias, ressonâncias magnéticas e tomografias computadorizadas. ` Descoberta de Medicamentos: Pesquisadores utilizam algoritmos de Deep Le- arning para analisar grandes conjuntos de dados moleculares e identificar candi- datos a medicamentos. 58 Aprendizagem Supervisionada 2 ` Genômica: O Deep Learning é aplicado para analisar e interpretar sequências de DNA, ajudando a entender melhor a genética e as manifestações patológicas. 4.4. INDÚSTRIA E MANUFATURA Na indústria e manufatura, o Deep Learning é utilizado para otimizar processos e melhorar a eficiência: ` Manutenção Preditiva: Sistemas de Deep Learning podem prever falhas em máquinas e equipamentos, permitindo manutenção preventiva. ` Controle de Qualidade: São usados para inspecionar produtos e identificar de- feitos em linhas de produção. ` Automação Robótica: Robôs com visão computacional baseada em Deep Lear- ning são usados em tarefas complexas de montagem e manipulação. 4.5. VEÍCULOS AUTÔNOMOS A indústria automobilística tem se beneficiado enormemente do Deep Learning na bus- ca por veículos autônomos mais seguros e eficientes: ` Navegação e Condução Autônoma: Redes neurais processam informações de sensores, como câmeras e radares, para permitir que veículos autônomos nave- guem e tomem decisões no trânsito. ` Detecção de Pedestres e Objetos: Sistemas de Deep Learning são usados para identificar pedestres, outros veículos e obstáculos na estrada. ` Prevenção de Acidentes: Alertas de colisão e sistemas de frenagem automática são acionados por algoritmos de Deep Learning. Nas próximas unidades desta disciplina iremos aprender como implementar alguns des- ses procedimentos. Serão usados estudos de casos relativamente simples, a partir dos quais o domínio das técnicas básicas irá estabelecer o fundamento para resolver pro- blemas mais complexos e de maior impacto. CONCLUSÃO Neste capítulo, vimos que para uma aplicação adequada dos procedimentos de apren- dizado supervisionado diversas outras questões precisam ser adequadamente traba- lhadas. Por exemplo, a necessidade de grandes volumes de dados de treinamento a depender do objetivo, o risco de sobreajuste e questões éticas em relação aos dados e ao viés algorítmico. Trabalharemos de forma mais aprofundada nessas e em outras 59 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co questões nas próximas seções desta e das próximas unidades. De qualquer forma, é importante salientar que o aprendizado supervisionado desempenha, e muito provavel- mente continuará desempenhando, um papel importante no avanço de tecnologias e aplicações em várias áreas. O desenvolvimento de modelos mais robustos, interpretação de resultados e aborda- gens para lidar com questões éticas são áreas de pesquisa em crescimento. Assim, ressalta-se que o aprendizado supervisionado é uma abordagem poderosa que per- mite que sistemas de computadores aprendam a partir de dados e façam previsões ou tomem decisões com base nesse aprendizado. Com a ampla gama de aplicações e contínuos avanços, o aprendizado supervisionado é indispensável na resolução de problemas complexos em ciência e engenharia. Entre as possibilidades de aplicações do aprendizado supervisionado que apresentam fácil interpretação das informações, discutimos alguns exemplos de modelos lineares. Esses modelos se apresentam como uma ferramenta valiosa em aprendizado de má- quina e encontram aplicações em uma variedade de problemas, desde regressão (ou seja, quando queremos predizer variáveis de saída com valores contínuos) até classi- ficação (ou seja, quando queremos predizer variáveis de saída com valores categóri- cos). Embora sejam simples e interpretáveis, é importante reconhecer suas limitações e considerar técnicas de regularização quando necessário. Os modelos lineares são uma base sólida para começar a abordar problemas do mundo real e entender os conceitos básicos de aprendizado supervisionado. No outro lado do contínuo de complexidade dos modelos para aprendizado supervisio- nado, discutimos sobre os princípios, as limitações e as principais aplicações das redes neurais.Reforçamos um ponto mais implícito anteriormente de que, embora as redes neurais tenham obtido resultados impressionantes em muitas tarefas, elas magnificam os problemas relacionados à necessidade de grandes conjuntos de dados de treina- mento, ao risco de sobreajuste e ao alto custo computacional. Avanços recentes, como arquiteturas de redes neurais profundas (deep learning) e técnicas de regularização, têm contribuído para superar alguns desses desafios. De qualquer forma, as redes neurais desempenham um papel central no aprendizado supervisionado moderno, especialmente nos contextos de engenharia, permitindo que sistemas de computadores aprendam com dados rotulados e façam previsões ou tomem decisões. Com uma variedade de arquiteturas e funções de ativação disponíveis, as re- des neurais podem ser adaptadas para uma ampla gama de problemas em diferentes domínios. Compreender os fundamentos das redes neurais é essencial para se estar atu- alizado sobre todos os potenciais do aprendizado de máquina em aplicações do mundo real de maior impacto. De fato, a grande maioria das ferramentas de inteligência artificial disponíveis ao público atualmente são baseadas em modelos de redes neurais. Assim, concluímos que embora as aplicações de deep learning sejam amplas e promis- soras, a tecnologia também enfrenta desafios. Estes incluem a necessidade de grandes conjuntos de dados rotulados, a interpretabilidade dos modelos complexos e questões éticas relacionadas à privacidade e ao viés algorítmico. As aplicações de modelos de deep learning estão transformando a maneira como abordamos problemas complexos 60 Aprendizagem Supervisionada 2 em várias indústrias e campos da ciência. Ao aproveitar o poder das redes neurais pro- fundas e grandes conjuntos de dados, as máquinas estão se tornando cada vez mais pro- ficientes em tarefas que antes eram consideradas exclusivamente humanas. À medida que a tecnologia avança, mudanças socioeconômicas profundas, para todos, precisam ser tratadas e discutidas, especialmente por aqueles que dominam essas ferramentas. 61 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co REFERÊNCIAS BIBLIOGRÁFICAS BOMMASANI, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., Brynjolfsson, E., Buch, S., Card, D., Castellon, R., Chatterji, N., Chen, A., Creel, K., Davis, J. Q., Demszky, D., … Liang, P. (2022). On the Opportunities and Risks of Foundation Models (arX- iv:2108.07258). arXiv. https://doi.org/10.48550/arXiv.2108.07258 BONACCORSO, G. (2017). Machine learning algorithms. Packt Publishing Ltd. BURKOV, A. (2019). The hundred-page machine learning book. Andriy Burkov. BURKOV, A. (2020). Machine learning engineering. True Positive Incorporated. Chen, Z., & Liu, B. (2018). Lifelong machine learning. Morgan & Claypool Publishers. CYBENKO, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Sig- nals and Systems, 2(4), 303-314. ELIASMITH, C. (2013). How to build a brain: A neural architecture for biological cognition. OUP USA. ESCOVEDO, T., & Koshiyama, A. (2020). Introdução a Data Science: Algoritmos de Machine Learning e mé- todos de análise. Casa do Código. FACELI, K., Lorena, A. C., Gama, J., Almeida, T. A. D., & Carvalho, A. C. P. D. L. F. D. (2021). Inteligência artificial: uma abordagem de aprendizado de máquina. LTC. GÉRON, A. (2021). Mãos à obra: aprendizado de máquina com Scikit-Learn. Keras & TensorFlow: Conceitos, ferramentas e técnicas para a construção de sistemas inteligentes. Altas Books. GOODFELLOW, I., Bengio Y., & Courville, A. (2017). Deep Learning. MIT Press. HARRISON, M. (2019). Machine Learning–Guia de referência rápida: trabalhando com dados estruturados em Python. Novatec Editora. INTAHCHOMPHOO, C., & Gundersen, O. E. (2020). Artificial intelligence and race: A systematic review. Legal Information Management, 20(2), 74-84. IZBICKI, R., & dos Santos, T. M. (2020). Aprendizado de máquina: uma abordagem estatística. Rafael Izbicki. JAMES, G., Witten, D., Hastie, T., Tibshirani, R., & Taylor, J. (2023). An Introduction to Statistical Learning: with Applications in Python. Springer International Publishing. KHAN, K. (2023). Modern research methods in computer science. Good Reads. LECUN, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444. LIN, J., Nogueira, R., & Yates, A. (2022). Pretrained transformers for text ranking: BERT and beyond. Springer Nature. 62 Aprendizagem Supervisionada 2 MCKINNEY, W. (2018). Python para análise de dados: Tratamento de dados com Pandas, NumPy e IPython. Novatec Editora. MORETTIN, P. A., & Singer, J. D. M. (2022). Estatística e ciência de dados. LTC. Mueller, J. P., & Massaron, L. (2019). Aprendizado de máquina para leigos. Alta Books Editora. MURPHY, K. P. (2022). Probabilistic machine learning: an introduction. MIT press. MURPHY, K. P. (2023). Probabilistic machine learning: Advanced topics. MIT press. RASCHKA, S., & Mirjalili, V. (2019). Python machine learning: Machine learning and deep learning with Py- thon, scikit-learn, and TensorFlow. Packt Publishing Ltd. ROSENBLATT, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386–408. https://doi.org/10.1037/h0042519 ROTHMAN, D. (2021). Transformers for Natural Language Processing: Build innovative deep neural network architectures for NLP with Python, PyTorch, TensorFlow, BERT, RoBERTa, and more. Packt Publishing Ltd. RUMELHART, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533–536. https://doi.org/10.1038/323533a0 RUMELHART, D. E., McClelland, J. L., & Group, P. R. (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition: Foundations. https://doi.org/10.7551/mitpress/5236.001.0001 SAMARTINI, A., Barth, N. L., & Sicsú, A. L. (2023). Técnicas de Machine Learning. Blucher. SILVEIRA, G., & Bullock, B. (2017). Machine Learning: introdução a classificação. Editora Casa do Código. STOROPOLI, J., Huijzer, R., & Alonso, L. (2021). Julia Data Science: Edição em Português. JuliaHub, Inc. SUTSKEVER, I., Martens, J., Dahl, G., & Hinton, G. (2013, May). On the importance of initialization and mo- mentum in deep learning. In International conference on machine learning (pp. 1139-1147). PMLR. TAULLI, T. (2020). Introdução à Inteligência Artificial: Uma abordagem não técnica. Novatec Editora. TEIXEIRA, João de Fernandes. O que é inteligência artificial. E-galáxia; 3ª edição (4 junho 2019). THIEL, D. V. (2014). Research methods for engineers. Cambridge University Press. TUNSTALL, L., Von Werra, L., & Wolf, T. (2022). Natural language processing with transformers. O’Reilly Media, Inc. VASWANI, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need (arXiv:1706.03762). arXiv. https://doi.org/10.48550/arXiv.1706.03762 63 2 Inteligência artificial e machine learning U ni ve rs id ad e S ão F ra nc is co