Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

RICARDO PRIMI
VÍTHOR ROSA FRANCO
INTELIGÊNCIA ARTIFICIAL E 
MACHINE LEARNING
38
Aprendizagem Supervisionada
2
UNIDADE 2
APRENDIZAGEM 
SUPERVISIONADA
INTRODUÇÃO
O aprendizado supervisionado envolve a tarefa de “ensinar” ao computador como um 
input (ou entrada) está relacionado com um output (ou saída). Tarefas desse tipo refle-
tem o que conhece em estatística como modelos de probabilidade condicional. Esses 
modelos buscam responder a seguinte pergunta: qual é a probabilidade de se observar 
uma saída específica na presença de uma entrada específica? Neste texto, explorare-
mos os fundamentos do Aprendizado Supervisionado (supervised learning), seus com-
ponentes essenciais e algumas de suas aplicações.
1. FUNDAMENTOS DO APRENDIZADO SUPERVISIONADO
No contexto de aprendizado de máquina (machine learning) os modelos do aprendizado 
supervisionado são chamados de modelos discriminativos, dado que eles, em princípio, 
permitem-nos discriminar qual tarefa realizar a partir de exemplos rotulados.
1.1. O QUE É APRENDIZADO SUPERVISIONADO?
O aprendizado supervisionado é uma forma de aprendizagem de máquina que pode 
ser utilizado no caso onde um conjunto de dados contém exemplos de entrada e a 
saída desejada correspondente. Por exemplo, se a pessoa quer ensinar ao computa-
dor a identificar e-mails que são ou não são spam, ela pode lhe oferecer uma lista de 
e-mails prévios que são ou não spam. Em outro exemplo, se a pessoa quer ensinar um 
computador a dirigir um carro, ela pode ter dados sensoriais sobre todos os aspectos 
ambientais de um trajeto que foi previamente percorrido da forma mais adequada pos-
sível por um humano. 
Assim, a ideia com o aprendizado supervisionado é que o computador possa aprender 
a mapear as entradas para as saídas com base nos exemplos fornecidos durante o trei-
namento. Em termos mais técnicos, o objetivo do aprendizado supervisionado é gerar 
um modelo matemático a partir de métodos estatísticos que possibilitem desenvol-
ver um algoritmo que possa generalizar previsões ou tomar decisões sobre dados 
não vistos anteriormente.
1.2. COMPONENTES DO APRENDIZADO SUPERVISIONADO
O uso adequado do aprendizado supervisionado envolve a identificação e compreen-
são de seus componentes fundamentais. Certamente, esse processo é relativamente 
abstrato, dependendo, de forma geral, do nível de profundidade do conhecimento que 
39
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
se pretende alcançar, bem como da didática almejada. Assim, neste capítulo se desen-
volverá uma abordagem menos matemática/estatística e mais conceitual. No entanto, 
dado o teor natural do tema, é impossível não haver qualquer apresentação de fórmu-
las, a qual será feita assumindo pouco conhecimento prévio do leitor. Assim definem-se 
os seguintes componentes para o uso do aprendizado supervisionado.
 ` A Escolha do Modelo Matemático e Estatístico. 
A modelagem quantitativa de dados é uma área geral de conhecimentos na interface entre 
matemática, estatística e computação, sendo que áreas mais específicas podem adaptar 
as técnicas de modelagem aos problemas específicos que as interessam. Isso significa 
que todas as áreas da ciência e engenharia que trabalham com modelagem quantitativa 
de dados partem das mesmas técnicas fundamentais e ferramentas de “abstração” do 
conhecimento. Com “abstração” aqui se pretende dizer que as fórmulas têm o mesmo sig-
nificado em todas as áreas quantitativas do conhecimento. Em particular ao aprendizado 
supervisionado, dizemos que um input x está relacionado a um output y a partir de uma 
função f. Essa abstração significa que os valores de y vão mudar a partir das mudanças 
de valores em x. Além disso, a forma pela qual essa mudança ocorre é determinada a 
partir de f. Em termos formais, a equação usada para representar essa ideia é a seguinte:
1
2
A equação 1 representa o que se chama de uma relação determinística. Relações de-
terminísticas são aquelas as quais o valor de uma variável é completamente determina-
do pelo valor de uma ou mais variáveis. Um exemplo desse tipo de relação é a segunda 
lei de Newton, na física, que diz que a força resultante é igual ao produto da massa 
de um corpo pela sua aceleração. No entanto, quando nos deparamos com dados no 
mundo real, raramente encontramos relações determinísticas. Isso ocorre, de forma 
geral, porque o mundo real é diferente dos contextos de experimentos laboratoriais, nos 
quais as possíveis influências ao resultado da pesquisa são rigorosamente controladas. 
Assim, quando trabalhos com dados vindos de observações naturalísticas, geralmente 
estaremos estudando relações probabilísticas.
Relações probabilísticas são aquelas as quais o valor de uma variável é determinado, 
majoritariamente, pelo valor de uma ou mais variáveis, mas uma parte da variação não 
é explicável. Na estatística, diz-se que a relação é acompanhada por uma medida de 
ruído, a qual reflete tudo o que desconhecemos sobre o que gera um output específico.
Modelos, ou simplesmente as equações que descrevem relações entre variáveis, que 
representam relações probabilísticas são similares aos modelos de relações deter-
minísticas, com a distinção de que devemos adicionar a letra grega epsilon, ε, para 
representar o fato de que existe uma parte da variação dos outputs que não é possível 
explicar apenas com os dados que temos disponíveis no momento da análise:
40
Aprendizagem Supervisionada
2
Dessa forma, o aprendizado supervisionado é definido a partir da forma que se estabe-
lece como a relação entre o input x e o output y, , é definida. Se a relação é definida 
a partir de teoria ou de modelos parcimoniosos (na literatura de machine learning muitas 
vezes chamados de “procedimento theory driven”), estamos adotando uma abordagem 
paramétrica. No entanto, se a relação é definida exclusivamente a partir da melhor des-
crição possível dos dados (na literatura de machine learning muitas vezes chamados 
de “procedimento data driven”), estamos adotando uma abordagem não-paramétrica.
Em muitos textos se define o objetivo do aprendizado de máquina como “a criação de mo-
delos que tenham a maior capacidade preditiva”, enquanto a análise estatística (ou seja, 
a estatística como abordagem de análise de dados e não necessariamente como teoria 
para criação de modelos quantitativos) teria como objetivo “a criação de modelos que 
tenham a maior capacidade explicativa”. Na nossa discussão até o momento, isso signi-
fica que a estatística envolve principalmente o uso de modelos paramétricos, enquanto 
o aprendizado de máquina envolveria o uso de modelos não-paramétricos. Embora, de 
fato, os modelos não-paramétricos consigam muitas vezes apresentar desempenho su-
perior aos modelos paramétricos, esse nem sempre é o caso. Além disso, há modelos 
semi-paramétricos, nos quais parte das relações são definidas de forma paramétrica, e 
outra parte é definida de forma não-paramétrica. Para este momento do texto, basta dizer 
que o mais adequado é sempre comparar as diferentes abordagens de análise para po-
der se avaliar qual delas melhor lhe permite que você alcance seus objetivos. No resto do 
texto nos aprofundaremos sobre o processo de decisão desses modelos.
 ` Dados de Treinamento e de Teste
Para que um algoritmo de machine learning possa aprender, é necessário que seja se-
lecionado o conjunto de dados com os inputs e outputs que se pretende analisar. Para 
que se possa avaliar a performance do algoritmo, o conjunto de dados é geralmente 
separado em dois: o banco de treinamento e o banco de teste. Como o nome sugere, o 
banco de treinamento é aquele utilizado para “ensinar”, ou treinar, o computador de for-
ma que ele aprenda o modelo matemático que relacionada nossas entradas às saídas. 
Já o banco de teste é aquele que usamos para avaliar o desempenho do modelo. Mais 
especificamente, o “teste” que é realizado é um teste de desempenho preditivo, o qual 
se define pela capacidade domodelo em descrever dados que não estavam presentes 
no banco de treinamento. Esse procedimento é comum na modelagem quantitativa e 
tem como objetivo evitar o sobreajuste (overfitting) do modelo aos dados. O sobreajuste 
ocorre quando o modelo matemático descreve muito bem os dados de treinamento, 
mas tem uma performance ruim para descrever os dados de teste. 
De forma geral, na prática de aprendizado de máquina, o melhor desempenho é alcan-
çado ao se escolher o modelo no qual a performance não é muito diferente em relação 
aos dados de treinamento e aos dados de teste. Como o treinamento é um processo 
extensivo (ou seja, necessita de muita computação), o tamanho do banco de dados de 
treinamento é geralmente maior do que o banco de dados de teste. Muitas vezes as 
proporções de 80/20 (80% da amostra para treinamento e 20% para teste) ou 70/30 são 
utilizadas, mas não há uma regra rígida. O importante é compreender que o treinamento 
exige mais da computação e, portanto, é adequado prover mais informação para essa 
etapa da análise dos dados do que para o teste.
41
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
 ` Modelo e Algoritmo
Nesse ponto, é importante distinguir a diferença entre o modelo matemático/estatístico 
e o algoritmo que é criado a partir desse modelo. Um modelo é um conjunto amplo 
possível de relações entre entradas, unidades internas e saídas. Ele qualifica a forma 
das funções possíveis que podem ser estabelecidas e funciona como uma espécie de 
restrição dessas relações funcionais dadas pelo formato da função. Um algoritmo pode 
ser definido como o processo ou conjunto de regras a serem seguidos para que se 
possa chegar à resolução de um problema específico, isto é, fazer uma previsão mais 
acurada possível sobre o output. O algoritmo contém os valores dos parâmetros das 
funções do modelo definidos no processo de aprendizagem que conectam as entradas, 
unidades e saídas de modo ótimo para realizar a previsão da saída. 
No caso da modelagem quantitativa de dados, o problema que se quer resolver é saber 
qual predição é feita a partir de um modelo quantitativo que foi treinado em um determina-
do conjunto de dados. Por exemplo, para um carro que dirige sozinho, o objetivo é saber 
em qual ângulo virar o volante, ou qual pressão aplicar ao pedal de frenagem, quando um 
obstáculo aparece abruptamente em frente ao veículo. Para um sistema que classifica 
e-mails como spam ou não-spam, o objetivo é classificar corretamente mensagens ou 
conteúdo de postagens que possam ser danosas a partir de seu conteúdo, de caracte-
rísticas do remetente, entre outros. Assim, enquanto o modelo matemático é usado para 
“ensinar” algo ao computador, o algoritmo é o resultado da “aprendizagem” da máquina.
 ` Função de Perda (Loss Function) e Algoritmos de Otimização
A função de perda é usada para avaliar o quão bem o modelo consegue descrever 
os dados. Mais especificamente, a função de perda é usada para calcular a diferença 
entre as predições do modelo e os valores reais observados nos dados. Em termos 
mais formais, as predições do modelo são definidas como , onde é o que 
chamamos de predição do modelo. As funções de perda são simplesmente o cálculo do 
erro do modelo. O erro do modelo, isto é, o componente , é tudo aquilo que 
não pode ser explicado pela relação entre a entrada e a saída. Dizemos, portanto, que 
o objetivo da modelagem é minimizar a função de perda, formalmente definida como:
3
onde a letra grega fi maiúsculo, , representa a forma como o erro de cada exemplo 
específico é calculada e agregada para se chegar a um número global quantificando o 
erro do modelo.
Quando dizemos “minimizar a função de perda” queremos dizer que precisamos en-
contrar qual a forma e os parâmetros do modelo matemático que geram o menor erro 
possível do modelo. No entanto, a solução para esse problema não pode ser calculada 
diretamente para uma parte considerável dos modelos de aprendizagem de máquina (e 
de modelagem quantitativa, de uma forma geral). Isso significa que muitas vezes não 
iremos trabalhar como soluções exatas em aprendizagem de máquina, mas apenas 
42
Aprendizagem Supervisionada
2
com soluções aproximadas. Essas soluções aproximadas, no entanto, podem ser, 
ao menos a princípio, muito similares às soluções exatas. A forma de encontrar as 
soluções aproximadas é por meio do que se chama de algoritmos de otimização. Os 
algoritmos de otimização são conjuntos de regras que permitem encontrar a solução 
de um problema matemático (ou seja, do resultado de uma conta). No caso da função 
de perda, o objetivo é a minimização do erro. Em outros tipos especiais de funções 
de perda, como a função de verossimilhança, o objetivo é maximizar o quão bem uma 
distribuição estatística representa os dados.
O algoritmo de otimização mais popular na área de aprendizagem de máquinas é o 
Gradiente Descendente Estocástico. No entanto, existem diversos outros algoritmos 
de otimização que podem ser, da forma mais abrangente possível, categorizados en-
tre algoritmos determinísticos e algoritmos probabilísticos. Não é nosso objetivo 
nos aprofundar nesses algoritmos, tendo em vista que, inclusive, a grande maioria dos 
programas que implementam modelos e algoritmos de aprendizagem de máquina já 
definem a priori qual algoritmo será utilizado para o treino (ou ajuste) do modelo. No 
entanto, é conveniente citar esses algoritmos neste ponto, tendo em vista que os algorit-
mos de otimização são muitas vezes citados em textos da área, mas sem que se tenha 
feito sequer uma definição mínima, como nós fizemos. De qualquer forma, o estudante 
interessado em otimização deve procurar materiais (sendo alguns listados na lista de 
referências) da grande área que estude especificamente esse tipo de algoritmo chama-
da de otimização (ou programação) matemática.
2. MODELOS DE LINEARES E SUA APLICAÇÃO EM 
PROBLEMAS DE APRENDIZADO
Existem diversos modelos diferentes de aprendizado supervisionado, sendo que cada 
um deles varia em níveis de dificuldade na implementação e de capacidade de des-
crever fenômenos mais complexos. Entre esses modelos, os mais simples são prova-
velmente os modelos lineares. Esses modelos são amplamente usados devido à sua 
simplicidade, interpretabilidade e eficácia em uma variedade de aplicações. A seguir 
exploraremos os princípios dos modelos lineares e como eles são aplicados em proble-
mas de aprendizado supervisionado.
2.1. O QUE SÃO MODELOS LINEARES?
Os modelos lineares são uma classe de modelos e algoritmos de aprendizado de má-
quina que assumem a existência de uma relação linear entre as variáveis de entrada e 
a variável de saída de um problema. A relação linear é representada por uma equação 
matemática chamada de “função linear” que pode ser usada para fazer previsões ou 
tomar decisões. O uso da função linear para modelagem quantitativa se dá pelo modelo 
de análise de regressão linear. A forma mais simples de um modelo de regressão 
linear é a regressão linear univariada, a qual é representada pela seguinte equação:
4
43
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Similar às outras equações deste capítulo, y é a variável de saída e x é a variável de 
entrada. O erro, que antes havíamos representado com a letra grega epsilon, ε, foi 
substituído pela letra grega fi minúscula, , a qual representa uma função de ligação. 
A função de ligação é usada para que se possa modelar saídas que tenham diferentes 
níveis de medida.
De forma geral, variáveis podem ser separadas em duas categorias gerais de níveis de 
medida: variáveis categóricas e variáveis contínuas. Variáveis como renda, tempe-
ratura, decibéis, volume, ângulo, entre outros, são exemplos de variáveis contínuas, as 
quais recebem esse nome porque, ao menos em princípio, podem receber qual valor. 
Variáveis como sexo, escolaridade, presença ou ausência de um estímulo, acerto ou 
erro numa prova, entreoutros, são exemplos de variáveis categóricas, as quais rece-
bem esse nome porque seus valores são determinados a partir de um número limitado 
de respostas (chamados de categorias), os quais não representam uma relação clara 
de magnitude entre si. Por exemplo, um estudante acertar mais questões nas provas do 
que outro estudante pode ser um indicativo de que esses estudantes têm níveis diferen-
tes de conhecimento sobre o conteúdo da prova. No entanto, caso soubermos apenas 
que um deles acertou uma questão enquanto o outro errou, não temos como saber o 
quanto da diferença entre os dois pode ser atribuída apenas à sorte (ou falta dela).
Retomando a Equação 4, temos que definir que a letra grega beta, β, representa os 
parâmetros do modelo. Os parâmetros de qual modelo quantitativo são definidos como 
os valores estimados (a partir dos métodos de otimização) que afetam como o modelo 
faz predições. No caso do modelo linear, os parâmetros são facilmente interpretáveis, 
o que geralmente é apresentado como uma vantagem do modelo. O parâmetro 
(lê-se “beta zero”) é o intercepto do modelo e ele representa o valor da saída y quando 
a entrada x é igual a zero. O parâmetro (lê-se “beta um”) é o coeficiente angular, 
ou coeficiente de regressão, o qual representa a taxa de conversão da entrada x para 
a saída y. Em outras palavras, eles também podem ser interpretados como a “força” da 
relação entre a variável de entrada e a variável de saída. Por fim, a Equação 4 também 
pode ser estendida para o caso no qual temos mais de uma variável de entrada. O mo-
delo é então representado pela seguinte equação:
5
Onde β é um vetor que representa todos os parâmetros do modelo e X é uma ma-
triz que representa todas as variáveis de entrada que estão sendo usadas para 
predizer a variável de saída y. A forma adequada de se ler o produto de β e X é 
, onde n é a quantidade de variáveis de entrada. 
Esse modelo também é conhecido como regressão linear múltipla.
2.2. REGRESSÃO LINEAR MÚLTIPLA
A regressão linear múltipla é um dos tipos mais comuns de modelos lineares e é usada 
para resolver problemas de previsão onde temos vários preditores. A equação da re-
gressão linear múltipla é estabelecida ao se definir a função de ligação representada 
44
Aprendizagem Supervisionada
2
pela letra grega fi minúscula, , como a função de identidade: . Assim, o 
modelo completo pode ser definido como:
6
7
A função de perda desse modelo geralmente é definida como:
onde N é o tamanho da amostra (ou seja, a quantidade de pareamentos entre as vari-
áveis de entrada e a variável de saída) e a letra regra maiúscula sigma, Σ, representa 
uma soma dos erros das predições para cada observação utilizada na análise. Uma 
observação é cada conjunto de valores das variáveis de entrada e da variável de saída 
que foram observadas. No caso da regressão linear simples, esse conjunto é um par: a 
observação é composta por um valor da variável de entrada e um valor da variável de 
saída. A função de perda representada na Equação 7 é chamada de L2, dado que ela 
mensura o quadrado da diferença entre a predição e o valor real observado na variável 
de saída, e é a função de perda mais comumente utilizada para uma diversidade de 
análises, mesmo para modelos mais complexos.
Na Figura 01 é apresentada uma representação habitual do tipo de resultados avaliados 
com uma análise de regressão linear simples, onde se está presente apenas uma variável 
de entrada x. Em termos da representação gráfica, o objetivo da análise de regressão 
linear é identificar a linha que melhor descreve os dados. A linha que “melhor descreve os 
dados” é aquela que gera o menor valor possível de erro, conforme definido na equação 
7. Na Figura 1, as linhas vermelhas representam resultados “ruins”, no sentido de que 
elas não são capazes de oferecer a melhor descrição dos dados em termos de um mo-
delo linear. A linha verde é aquela que melhor representa os dados, no sentido de que ela 
é aquela que vai gerar o menor valor possível de erro. Vale salientar nesse ponto que o 
modelo linear representado pela linha verde não é o melhor modelo para os dados, mas 
sim o melhor modelo linear. Essa ênfase é importante dado que os resultados e as con-
clusões que chegamos estão sempre limitadas as ferramentas que utilizamos em nossos 
dados, justificando-se, assim, a necessidade de se conhecer, o melhor possível, o máxi-
mo possível de procedimentos distintos e como, e quando, eles funcionam.
45
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Figura 01. Comparação de predições de modelos lineares
Fonte: Produzido pelos autores, 2023.
2.3. CLASSIFICAÇÃO LINEAR
Quando a variável de saída é uma variável categórica, os modelos lineares também po-
dem ser usados para resolver problemas de classificação. A ideia das análises de clas-
sificação linear é usar uma função linear para separar as diferentes classes. O exemplo 
mais simples é a classificação binária, onde temos duas classes (geralmente represen-
tadas pelos números 0 e 1). Um dos modelos mais tradicionais para se realizar classifi-
cação linear é a regressão logística, na qual se define a função de ligação representada 
pela letra grega fi minúscula, , como a função logística: :
8
9
A equação 8 não inclui diretamente o erro do modelo (que geralmente é represento pela 
letra grega epsilon, ), sendo que o erro é representado na função de perda desse mo-
delo geralmente é definida pela verossimilhança de uma distribuição binomial:
onde e log() é a função logarítmica natural. 
-3
-3
-2
-2
-1
-1
1
1
2
2
3
3
0y
x
0
46
Aprendizagem Supervisionada
2
Foge ao propósito deste curso adentrar em questões aprofundadas de teoria estatística, como 
a definição de verossimilhança e distribuições de probabilidade. No entanto, há diversas boas 
referências e materiais didáticos disponibilizados de forma gratuita e online; por exemplo: 
SAIBA MAIS
Disponível em: https://youtube.com/playlist?list=PL7xT0Gz6G0-RW8SXEKHsfLmF-
NAexb3wYw.
Essa função de perda é chamada de LogL, dado que ela é baseada numa medida do 
logaritmo das estimativas feitas pelo modelo. Essa função de perda é bastante utilizada 
para contextos de categorização de variáveis binárias de saída e, quando a variável de 
saída é categórica, mas não binária, funções com interpretações similares são também 
bastante utilizadas.
Na Figura 2 é apresentada uma representação habitual do tipo de resultados avaliados 
com uma análise de regressão logística simples, onde se está presente apenas uma 
variável de entrada x. Em termos da representação gráfica, o objetivo da análise de 
regressão logística é identificar a curva em formato de “S”, com valor mínimo de 0 e 
máximo de 1, que melhor descreve os dados. Assim, como na Figura 1, as linhas ver-
melhas representam resultados “ruins” e a linha verde é aquela que melhor representa 
os dados, no sentido de que ela é aquela que vai gerar o menor valor possível de erro 
de acordo com a equação 9.
Figura 02. Comparação de predições de modelos logístico
Fonte: Produzido pelos autores, 2023.
-3
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
-2 -1 0
x
y
1 2 3
https://youtube.com/playlist?list=PL7xT0Gz6G0-RW8SXEKHsfLmFNAexb3wYw
https://youtube.com/playlist?list=PL7xT0Gz6G0-RW8SXEKHsfLmFNAexb3wYw
47
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
2.4. AVALIAÇÃO DO MODELO
Uma parte crítica do aprendizado supervisionado é a avaliação do desempenho do 
modelo em dados não utilizados durante o treinamento do modelo. Essa avaliação é 
essencial na modelagem quantitativa de dados e é particularmente importante no para-
digma da aprendizagem de máquina. A partir de definições vindas da psicologia, uma 
aprendizagem efetiva é aquela que permite que o conhecimento adquirido seja aplicado 
em novos contextos não vistos no treinamento. Assim, no contexto de aprendizagem 
de máquina, é importante que o modelo ajustado aosdados de treino generalize bem. 
Para avaliar a capacidade de generalização dos modelos devemos considerar o tipo de 
variável categórica ou contínua, o que define as métricas de avaliação. A Acurácia (Ac-
curacy) mede a proporção de previsões corretas em relação ao número total de previ-
sões quando a variável de saída é categórica. Essas medidas são avaliadas a partir do 
que se conhece como matriz de confusão (confusion matrix). Por exemplo, em um 
problema binário de classificação, como um teste da presença do vírus SARS-CoV-2 no 
corpo de um indivíduo, temos uma classe positiva e negativa real e as previsões dadas 
pelo modelo usando dados de um teste biológico de uma amostra de secreção nasal. A 
matriz de confusão é uma tabela cruzada resumindo os resultados em uma amostra de 
casos com os valores reais positivos e negativos e quantos desses casos foram previs-
tos como positivos e negativos pelo teste.
Tabela 01. Teste da presença do vírus SARS-CoV-2.
RESULTADOS DO TESTE
Dados reais Valor previsto positivo Valor previsto negativo
Valor verdadeiro positivo TP FN
Valor verdadeiro negativo FP TN
Fonte: Produzido pelos autores, 2023.
A partir dessa tabela podemos calcular vários índices:
 ` Verdadeiro positivo (TP: true positive): proporção de casos que o modelo previu corre-
tamente que o exemplo é da classe positiva.
 ` Falso positivo (FP: false positive): proporção que o modelo previu incorretamente que 
o exemplo é da classe positiva.
 ` Verdadeiro negativo (TN: true negative): proporção de casos que o modelo previu cor-
retamente que o exemplo é da classe negativa.
 ` Falso negativo (FN: false negative): proporção de caso que o modelo previu incorreta-
mente que o exemplo é da classe negativa.
Precisão e recall são duas métricas que são usadas para avaliar o desempenho de um 
modelo de classificação baseado nesses indicadores. Precisão mede a porcentagem 
de previsões positivas do modelo que foram classificadas corretamente. É calculada 
como a razão entre o número de verdadeiros positivos e o número de verdadeiros 
48
Aprendizagem Supervisionada
2
positivos mais o número de falsos positivos: Precisão = TP / (TP + FP). No caso acima, 
a precisão indicaria, de todos os exemplos que o teste identificou como COVID-19, qual 
proporção de fato eram casos reais da doença. 
Recall mede a porcentagem de exemplos positivos reais que foram classificados corre-
tamente. É calculada como a razão entre o número de verdadeiros positivos e o número 
de verdadeiros positivos mais o número de falsos negativos: Recall = TP / (TP + FN). No 
exemplo de COVID-19, seria qual a proporção de casos reais da doença que o modelo 
conseguiu detectar.
Precisão é mais importante quando o custo de um falso positivo é alto. Por exemplo, um 
modelo que classifica pacientes como saudáveis quando eles realmente estão doentes 
pode ter consequências graves. Recall é mais importante quando o custo de um falso 
negativo é alto. Por exemplo, um modelo que classifica spam como não-spam quando ele 
realmente é spam pode levar a uma enxurrada de mensagens em um ataque cibernético.
Além da precisão e do recall, existem outras métricas que podem ser usadas para avaliar 
o desempenho de um modelo de classificação. Algumas dessas métricas incluem: F1-s-
core e a Curva ROC. O escore F1 é uma métrica harmônica que combina precisão e recall 
em uma única medida. Ele é calculado como a média harmônica de precisão e recall: 
F1 = 2 * (precisão * recall) / (precisão + recall)
A Curva ROC (Receiver Operating Characteristic) é uma medida do desempenho de 
um modelo de classificação binária e é usada em problemas de classificação para ava-
liar o desempenho do modelo em diferentes limiares de decisão. Foi desenvolvida no 
contexto de um método analítico elaborado na engenharia e na psicologia para avaliar 
a capacidade de máquinas e pessoas, respectivamente, em identificar características 
relevantes de objetos. A curva ROC representa como as taxas de falsos positivos (por 
exemplo, quando um algoritmo diz que um e-mail é um spam quando na verdade ele 
não é) se relacionam com as taxas de positivos corretos (por exemplo, quando um algo-
ritmo diz que um e-mail é um spam quando na verdade ele é). Tal análise permite avaliar 
qual o critério de decisão irá gerar, na média, melhores resultados.
Quando a variável de saída é contínua temos dois índices mais comuns: 
 ` Erro Médio Quadrático (Mean Squared Error - MSE): Uma medida de desem-
penho do modelo utilizada em problemas de regressão que mede o erro médio 
quadrático entre as previsões e os valores reais. Essa medida é calculada ao se 
utilizar exatamente a mesma fórmula que aquela representada na equação 7. 
Em termos inferenciais, o MSE tem o efeito de definir pior desempenho àqueles 
modelos que não lidam bem com dados que são “pontos fora da curva” (outliers).
 ` Erro Médio Absoluto (Mean Absolute Error - MAE): Uma medida de desem-
penho do modelo utilizada em problemas de regressão que mede o erro médio 
absoluto entre as previsões e os valores reais. Essa medida é calculada ao se 
utilizar uma fórmula muito similar àquela representada na equação 7, com a di-
49
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
ferença de que, ao invés de elevar a diferença entre a predição e o valor real ao 
quadrado, utiliza-se o valor absoluto dessa diferença (ou seja, o valor da diferen-
ça, mas sem se levar em conta o sinal). Em termos inferenciais, o MAE é menos 
sensível aos “pontos fora da curva” do que o MSE.
2.5 VANTAGENS E DESVANTAGENS DOS MODELOS LINEARES
Neste momento, é importante salientar que os modelos lineares apresentam muitas limi-
tações. Por exemplo, veja os dados apresentados na Figura 3. Os dados apresentam um 
padrão “curvado” sistemático que, obviamente, não pode ser representado por um mo-
delo linear. Nesta figura, a linha em vermelho representa o melhor modelo linear possível 
para descrever a relação entre a variável de entrada e a variável de saída. É possível 
observar que os valores mais baixos e mais altos são sempre estimados como maiores 
do que eles realmente são. No entanto, na Figura 3, também há uma curva na cor verde, 
a qual representa as predições do melhor modelo quadrático possível. Um modelo qua-
drático é um tipo de modelo não-linear que assume que a relação entre a variável de 
entrada e a variável de saída seguem uma função polinomial do segundo grau. Com este 
exemplo, buscamos salientar três das principais desvantagens dos modelos lineares:
 ` Limitações na complexidade do modelo: Modelos lineares não conseguem cap-
turar relações não-lineares entre as variáveis de entrada e a variável de saída. 
Como antes de realizarmos a análise, não podemos ter certeza absoluta de que a 
relação é necessariamente linear, pois esse modelo pode resultar em uma grande 
limitação às capacidades preditivas dos algoritmos de aprendizado de máquinas.
 ` Sensíveis a outliers: Modelos lineares são mais propensos a serem influen-
ciados por valores que são muitos discrepantes nos dados de treinamento. Um 
valor “muito discrepante” é aquele que apresenta um valor distinto dos outros 
conjuntos de dados observados. Por exemplo, imagine que a altura e o peso 
das pessoas têm uma relação positiva (ou seja, quando uma aumenta a outra 
também deve aumentar). Assim, se a maioria das pessoas em uma amostra tem 
entre 1,60 metros e 1,80 metros e também entre 60 quilos e 80 quilos, uma pes-
soa com 1,50 metros e 50 quilos apresenta um par de valores discrepantes para 
as variáveis. No entanto, muito provavelmente sua combinação de peso e altura 
estaria ainda dentro do padrão esperado de relação entre as variáveis. Por outro 
lado, uma pessoa com 1,80 metros e 45 quilos, ou uma pessoa com 1,45 metros 
e 80 quilos, estarão provavelmente fora do padrão esperado da relação entre 
altura e peso para as pessoas na amostra.
50
Aprendizagem Supervisionada
2
Figura 03. Comparação de predições de modelos lineare não-linear
Fonte: Produzido pelos autores, 2023.
É importante salientar que as limitações dos modelos lineares não necessariamente 
significam que eles não tenham benefícios. De fato, muitas vezes as pesquisas e aplicações 
com algoritmos de aprendizado de máquina chegam à conclusão de que os modelos lineares 
têm desempenho igual, ou às vezes até melhor, do que de modelos mais complexos. Por 
outro lado, mesmo que o desempenho não seja igual ou melhor do que de outros modelos, 
ainda cabe ressaltar três das principais vantagens dos modelos lineares:
 ` Simplicidade: São fáceis de implementar em praticamente qualquer linguagem 
de programação, mesmo com baixo conhecimento de modelagem quantitativa, 
estatística ou programação. Além disso, as equações para esses modelos ge-
ralmente envolvem apenas relações de multiplicação e adição, facilitando sua 
generalização para uma diversidade de contextos, mesmo com dados que sejam 
de natureza bastante distinta.
 ` Eficiência: São computacionalmente eficientes (ou seja, são análises para as 
quais muito rapidamente se consegue um resultado) e funcionam bem com con-
juntos de dados grandes. Dessa forma, são aplicáveis a conjuntos muito grandes 
de dados, sem necessariamente gerar custos extras ou necessidade de poder 
computacional muito grande.
 ` Interpretabilidade: Por apresentarem parâmetros que estão diretamente rela-
cionados a como uma mudança nas variáveis de entrada geram mudanças nas 
variáveis de saída, esses modelos são bastante interpretáveis. Em particular, o 
51
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
coeficiente angular permite uma avaliação intuitiva de como tomar uma decisão 
sobre como aumentar, ou diminuir, os valores esperados de uma variável de sa-
ída a partir de intervenções nas variáveis de entrada.
Além disso, é importante fazermos a distinção entre modelos paramétricos e mode-
los não-paramétricos. Os modelos paramétricos, como a regressão linear e os mode-
los não-lineares de regressão, assumem, antes de se observar os dados, uma forma 
específica da relação entre as variáveis de entrada e a variável de saída. Os modelos 
não-paramétricos, por outro lado, têm como objetivo, justamente, tentar descobrir qual 
é a forma da relação entre as variáveis de entrada e a variável de saída. Esse tipo de 
procedimento apresenta novas limitações e problemas, os quais serão discutidos no 
contexto das redes neurais artificiais (ou apenas “redes neurais”, dado que no contexto 
deste material, estaremos sempre focando em redes neurais como modelos de apren-
dizado de máquina, e raramente sobre redes neurais biológicas).
Neste momento é importante salientar a ampla gama de aplicações em problemas de 
aprendizado supervisionado que foram, e muitos ainda são resolvidos com o uso de 
modelos lineares para o aprendizado de máquina:
 ` Previsão de Preços Imobiliários: Os modelos lineares podem ser usados para 
prever o preço de casas com base em características como tamanho, número de 
quartos e localização.
 ` Previsão de Vendas: Em empresas de varejo, é possível prever vendas futuras 
com base em dados históricos de vendas e fatores como publicidade e promoções.
 ` Classificação linear de detecção de spam: Os modelos lineares podem ser 
aplicados para classificar e-mails como spam ou não spam com base em carac-
terísticas do texto. 
 ` Diagnóstico Médico: Na área médica, podem ser usados para classificar exa-
mes como positivos ou negativos para uma doença com base em características 
médicas.
 ` Identificação de fraudes: Predições feitas por modelos lineares permitem iden-
tificar padrões de dados que, em contexto contábeis, podem representar supos-
tas fraudes.
 ` Análise de dados científicos: A depender dos dados sendo analisados, a line-
aridade das relações é definida por procedimentos experimentais ou um pressu-
posto razoável para descrever as relações de um pequeno conjunto de variáveis.
52
Aprendizagem Supervisionada
2
3. FUNDAMENTOS DE REDES NEURAIS PARA APRENDIZADO 
SUPERVISIONADO
Pela necessidade de se contornar as limitações dos modelos lineares (e aos modelos 
paramétricos, de forma geral), uma diversidade de novos procedimentos foram desen-
volvidos. A partir de teorias psicológicas que tentavam estabelecer modelos estatísticos 
baseados em princípios neurológicos do funcionamento do cérebro, pesquisadores da 
área de computação começaram a aplicar tais modelos para problemas de engenharia. 
Originou-se, assim, os estudos das redes neurais artificiais. Assim, as redes neurais 
artificiais são uma classe de modelos de aprendizado de máquina que buscam emular 
como o cérebro estabelece relações entre os estímulos físicos (em paralelo, as variá-
veis de entrada) e as sensações subjetivas (em paralelo, as variáveis de saída). Apesar 
de existirem outras alternativas aos modelos lineares, as redes neurais artificiais serão 
o nosso foco por apresentarem um desempenho superior em uma diversidade de tare-
fas e também maior popularidade.
3.1. O QUE SÃO REDES NEURAIS ARTIFICIAIS?
As redes neurais são modelos computacionais compostos por camadas de unidades 
chamadas neurônios artificiais. Esses neurônios são organizados em camadas de 
entrada, camadas ocultas (ou latentes) e camadas de saída. A ideia geral do modelo é 
de que, ao invés de haver apenas uma forma de descrever a relação entre as entradas 
e as saídas, é que cada neurônio realize uma operação matemática simples em seus 
inputs e passe o resultado para o próximo neurônio ou faz diretamente a predição de 
qual resultado deveria ser observado. Nesse sentido, o resultado final da predição feita 
por um modelo de rede neural artificial é como a ponderação de diversos modelos mais 
simples. Por exemplo, é possível desenvolver redes neurais utilizando apenas a combi-
nação de diversos modelos lineares.
A forma matemática exata do modelo de rede neural artificial é chamada de arquitetu-
ra. A arquitetura de uma rede neural artificial é definida pela organização das camadas 
e pelo número de neurônios em cada camada. As camadas de entrada recebem as 
variáveis de entrada, as camadas ocultas são as ponderações possíveis das variá-
veis de entrada e as camadas de saída produzem as predições finais em relação às 
variáveis de saída. A Figura 4 apresenta a demonstração de uma rede neural artificial 
“rasa” (shallow) na qual existem quatro variáveis de entrada, seis variáveis latentes (ou 
“neurônios artificiais”) e duas variáveis de saída. Cada neurônio artificial é uma unidade 
de processamento que recebe um vetor de entrada (ou seja, uma combinação dos va-
lores das variáveis de entrada), realiza uma combinação linear dos valores de entrada 
ponderados por pesos associados a cada conexão e aplica uma função de ativação 
para realizar a predição. Os pesos são, simplesmente, como os coeficientes angulares 
da análise de regressão linear. A função de ativação é uma fórmula matemática que re-
aliza uma combinação linear dos valores dos neurônios artificiais ponderados por pesos 
que associam cada neurônio artificial a cada uma das saídas. Existem várias funções 
de ativação comuns em redes neurais:
53
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
 ` Sigmoide (ou logística): Mapeia os valores de entrada para o intervalo (0, 1) e 
é usada principalmente em camadas de saída de redes binárias.
 ` ReLU (Rectified Linear Unit): Define a saída como zero para entradas negati-
vas e a própria entrada para valores positivos. É uma das funções de ativação 
mais populares nas camadas ocultas.
 ` Tangente Hiperbólica: Mapeia os valores de entrada para o intervalo (-1, 1) e é 
usada em casos semelhantes aos da sigmoide.
Figura 04. Exemplo de diagrama de modelo de rede neural artificial rasa
Fonte: Produzido pelos autores, 2023.
As redes neurais rasas, como aquela exemplificada na Figura 04, são matematicamen-
te definidas como “aproximadores universais”. Esse nome é utilizadodado que existe 
um teorema, chamado de teorema de aproximação universal, que prova que as redes 
neurais rasas, usando a função logística (a fórmula representada na equação 8), são 
capazes de aproximar qualquer outra função matemática, desde que haja um número 
infinito de neurônios artificiais. No entanto, obviamente, não é possível utilizar um nú-
mero infinito de cálculos para resolver problemas na finitude de tempo que temos como 
seres humanos. Tentando buscar maior eficiência nos modelos, alguns pesquisadores 
começaram a desenvolver o que hoje se conhece como redes neurais artificiais pro-
fundas, conforme apresentado na Figura 05. A distinção entre as redes neurais rasas 
e as profundas é que as redes neurais artificiais profundas apresentam duas ou mais 
camadas ocultas.
54
Aprendizagem Supervisionada
2
Figura 05. Exemplo de diagrama de modelo de rede neural artificial profunda
Fonte: Produzido pelos autores, 2023.
De forma geral, as redes neurais artificiais profundas parecem apresentar um desem-
penho melhor do que as redes neurais artificiais rasas. No entanto, isso nem sempre é 
verdade. De fato, muitas vezes as redes neurais, independentemente de serem rasas 
ou profundas, têm performance similar a modelos paramétricos não-lineares, ou até 
mesmo com modelos lineares nos quais foi feita uma melhor seleção das variáveis de 
entrada. A área de estudos das redes neurais profundas é muito prolífica, mas ainda há 
muito que não se sabe sobre problemas fundamentais da área. Assim, a cada dia são 
criadas maneiras cada vez mais eficazes de se utilizar redes profundas e algo que era 
muito inovador há cinco anos é frequentemente considerado hoje como ultrapassado. 
Isso se dá tanto pelas muitas descobertas novas, quanto pelo fato de que muitas das 
inovações são adquiridas a partir de “tentativa e erro”. De forma geral, isso significa que 
há pouca compreensão do que faz algumas coisas funcionarem tão bem e outras não.
3.2. TREINAMENTO E USO DE REDES NEURAIS
O treinamento de redes neurais é o processo de ajustar os pesos das relações para que 
a rede produza os resultados desejados para as variáveis de saída com base nos dados 
de treinamento. O algoritmo de treinamento mais comum é o gradiente descendente, que 
utiliza o gradiente da função de perda para minimizar o ruído do modelo. O gradiente é uma 
medida que indica em qual direção (de redução ou de aumento) que é necessário alterar os 
valores dos parâmetros do modelo para poder se reduzir o ruído do modelo. O aprendizado 
supervisionado com redes neurais envolve treinar uma rede neural para fazer predições 
com base em variáveis de entrada com relação direta com as variáveis de saída.
No entanto, anteriormente à análise em si dos dados, é necessário realizar uma diversi-
dade de passos, os quais buscam maximizar a validade das informações geradas. Em in-
glês existe a expressão garbage in; garbage out (GIGO). A tradução literal é “entra lixo; sai 
55
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
lixo”. O “lixo” aqui está referenciando a escolha ruim de dados, a qual pode gerar vieses e 
decisões equivocadas. Estudos na literatura têm demonstrado que IAs mal desenvolvidas 
apresentam uma série de vieses e consequências sociais negativas, entre as quatro mais 
marcantes: (i) IAs têm gerado oportunidades desiguais para pessoas de determinados 
grupos raciais; (ii) IAs muitas vezes reproduzem discriminações raciais sistêmicas; (iii) 
aplicações de IA muitas vezes não são aplicadas para estudar as condições de saúde 
de grupos populacionais raciais específicos; e (iv) IAs são usadas com fins de controle 
demográficos diferentes para pessoas com origens raciais diferentes.
Nesse sentido, é necessário seguir cinco passos gerais de definição de uma aplicação 
ou pesquisa fundamentada em aprendizado de máquina, e especialmente com redes 
neurais, com cuidados metodológicos reforçados:
Coleta de Dados: O processa de coleta de dados deve ser minuciosamente elaborado para 
evitar que haja a inserção de vieses indesejados nos resultados. Assim, o propósito da coleta 
é reunir um conjunto de dados que inclua exemplos de variáveis de entrada e variáveis de 
saída que estejam alinhadas com os objetivos desejados. Em problemas de engenharia, as 
relações entre as variáveis de entrada e de saída são evidentes. Por exemplo, ao se desen-
volver um veículo que seja capaz de se dirigir sozinho, sabemos que informações visuais 
(como as placas, a posição das pessoas na rua e a sinalização horizontal) e auditivas (como 
a buzina de outro veículo ou a frenada de um carro) são influências fundamentais ao com-
portamento da direção de um carro. No entanto, no contexto científico, quando estudamos 
fenômenos que não são passíveis de experimentação, é difícil estabelecer relações causais. 
Por exemplo, no estudo das causas do câncer de pulmão e sua relação com o uso de cigar-
ro, não é eticamente viável fazer um experimento com randomização de quem usa ou não 
cigarro para se observar quem desenvolve ou não câncer no pulmão.
Assim, muitas vezes no contexto científico o que define o que é uma variável de entrada ou 
uma variável de saída não é resolvido de forma trivial, sendo o produto da convergência da 
construção coletiva das pesquisas no tema em questão. Ainda em outra possibilidade, que 
tem sido bastante comum no caso de aplicações de Processamento de Linguagem Natural, é 
a mineração de dados. A mineração de dados envolve, principalmente, a identificação e or-
ganização de dados secundários, ou seja, informações que foram originalmente coletadas por 
outras pessoas. Os detalhes dos procedimentos de coleta de dados fogem ao escopo desta 
disciplina, sendo mais adequados a uma disciplina de métodos de pesquisa. Em conclusão, é 
fundamental saber qual informação levantar e como levanta-la da forma mais adequada.
Definição da Arquitetura da Rede: Após a definição de como ocorrerá a coleta de dados, é 
necessário decidir qual a estrutura da rede neural, incluindo o número de camadas, o número 
de neurônios em cada camada e as funções de ativação que serão utilizadas. Esse procedi-
mento, como descrito anteriormente, muitas vezes se dá a partir de tentativa e erro, sendo que 
ainda não existem orientações muito específicas na área. No entanto, existem orientações 
gerais que podem ser úteis a depender de cada aplicação específica. Por exemplo, a função 
de ativação ReLU pode ser interessante em contextos nos quais existam algum tipo de “limiar” 
para se definir alguma ação. No contexto de veículos autônomos, a função ReLU pode ajudar 
a indicar qual a distância mínima que o veículo em questão pode estar de obstáculos antes de 
começar a frear. A compreensão dessas, e outras, modificações que podem ser feitas nos mo-
delos, e qual impacto elas têm no conjunto de dados, vão sendo adquiridos a partir da prática.
56
Aprendizagem Supervisionada
2
Ajuste de Hiperparâmetros: No contexto do aprendizado de máquinas, o termo “hiperparâ-
metros” é utilizado com dois significados bastante distintos. No primeiro deles, os hiperparâ-
metros são compreendidos como os parâmetros que definem o comportamento dos algoritmos 
de otimização. Nesse caso, esses parâmetros não estão relacionados diretamente com o parâ-
metro, mas apenas como ocorre o treinamento do modelo aos dados. Para esse uso, dizemos, 
por exemplo, que se realiza a escolha da taxa de aprendizado e do número de épocas de 
treinamento. No segundo significado de hiperparâmetros estão os “parâmetros fixos” (termino-
logia mais comumente utilizada em estatística), que são parâmetros do modelo em si, mas não 
estimados a partir do treino. Por exemplo, a definição da arquitetura de rede ou a definição da 
irrelevância de um neurônio em relação a uma variável de saída são exemplos de hiperparâ-
metros do modelo. Salienta novamente neste ponto que esses dois tipos de hiperparâmetros 
são geralmente chamados apenas de hiperparâmetros nos materiais daárea e, portanto, é 
necessário utilizar o contexto para se ter certeza de qual uso está sendo utilizado.
Avaliação do Desempenho: O último passo envolve o treinamento e a avaliação do desem-
penho do modelo. O treinamento é feito a partir de um algoritmo de otimização para ajustar 
os pesos da rede de forma que as previsões se aproximem dos valores das variáveis de sa-
ída nos dados de treinamento. O desempenho final do modelo é feito utilizando as métricas 
de avaliação e da capacidade do modelo de generalizar seu aprendizado para os dados de 
teste. “Generalizar o aprendizado” é definido como uma mudança quase nula em relação à 
magnitude da diferença do desempenho nos dados de treinamento e nos dados de teste.
4. INTRODUÇÃO ÀS APLICAÇÕES COMPUTACIONAIS EM DEEP 
LEARNING
A área de aprendizado de máquina com o uso de redes neurais profundas recebe o 
nome de Deep Learning, ou aprendizado profundo. Seu principal objetivo tem sido a 
compreensão mais detalhada de como as redes neurais artificiais profundas de fato 
funcionam e como elas podem ser utilizadas para realizar tarefas complexas de forma 
automatizada. Em objetivos mais secundários, pesquisadores têm se interessado em 
identificar paralelos entre os modelos computacionais da área e quais suas reais simi-
litudes com o funcionamento do cérebro humano e quais implicações isso poderia ter 
para a generalidade dos tipos de inteligência criados com esses métodos. Nesse sen-
tido, o aprendizado profundo revoluciona uma série de aplicações em diversos setores 
da sociedade.
4.1. APLICAÇÕES EM VISÃO COMPUTACIONAL 
Uma das áreas mais impactadas pelo Deep Learning é a visão computacional. A capaci-
dade de processar e entender imagens de forma semelhante ao ser humano tem levado 
a avanços significativos em muitas aplicações:
 ` Reconhecimento de Imagens: Sistemas de Deep Learning podem identificar 
objetos, rostos, números de placas de carros e até mesmo animais em imagens 
com alta precisão.
57
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
 ` Detecção de Objetos: Essa tecnologia é usada em sistemas de vigilância para 
detectar e rastrear objetos em tempo real, sendo aplicada na segurança e no 
tráfego, por exemplo.
 ` Segmentação de Imagens: A capacidade de dividir uma imagem em segmentos 
permite, por exemplo, a segmentação de imagens de satélite para identificação 
de recursos naturais.
 ` Realidade Aumentada e Realidade Virtual: O Deep Learning possibilita a cria-
ção de experiências imersivas, como jogos e simulações mais realistas, além de 
aplicações de treinamento e educação.
4.2. PROCESSAMENTO DE LINGUAGEM NATURAL (NLP) 
O Deep Learning também tem revolucionado o processamento de linguagem natural, 
permitindo que os computadores compreendam e gerem texto de forma mais eficaz:
 ` Tradução Automática: Sistemas de tradução automática baseados em Deep 
Learning, como o Google Translate, têm melhorado significativamente a tradução 
entre idiomas.
 ` Chatbots e Assistência Virtual: Chatbots alimentados por modelos de lingua-
gem natural, como o ChatGPT e o Copilot, são usados para fundamentar a cria-
ção de bots especializados em atendimento ao cliente, assistência pessoal e 
suporte técnico automatizado.
 ` Sumarização de Texto: O Deep Learning é aplicado para resumir automatica-
mente textos longos, tornando a leitura e o entendimento mais eficientes.
 ` Análise de Sentimento: Empresas utilizam análise de sentimentos baseada em 
Deep Learning para compreender como seus produtos ou serviços estão sendo 
percebidos pelos clientes.
4.3. MEDICINA E CIÊNCIAS DA VIDA 
Em medicina e ciências da vida, o Deep Learning tem tido um impacto significativo: 
 ` Diagnóstico Médico: Modelos de Deep Learning são usados para identificar 
doenças a partir de imagens médicas, como radiografias, ressonâncias 
magnéticas e tomografias computadorizadas.
 ` Descoberta de Medicamentos: Pesquisadores utilizam algoritmos de Deep Le-
arning para analisar grandes conjuntos de dados moleculares e identificar candi-
datos a medicamentos.
58
Aprendizagem Supervisionada
2
 ` Genômica: O Deep Learning é aplicado para analisar e interpretar sequências 
de DNA, ajudando a entender melhor a genética e as manifestações patológicas.
4.4. INDÚSTRIA E MANUFATURA 
Na indústria e manufatura, o Deep Learning é utilizado para otimizar processos e 
melhorar a eficiência:
 ` Manutenção Preditiva: Sistemas de Deep Learning podem prever falhas em 
máquinas e equipamentos, permitindo manutenção preventiva.
 ` Controle de Qualidade: São usados para inspecionar produtos e identificar de-
feitos em linhas de produção.
 ` Automação Robótica: Robôs com visão computacional baseada em Deep Lear-
ning são usados em tarefas complexas de montagem e manipulação.
4.5. VEÍCULOS AUTÔNOMOS 
A indústria automobilística tem se beneficiado enormemente do Deep Learning na bus-
ca por veículos autônomos mais seguros e eficientes:
 ` Navegação e Condução Autônoma: Redes neurais processam informações de 
sensores, como câmeras e radares, para permitir que veículos autônomos nave-
guem e tomem decisões no trânsito.
 ` Detecção de Pedestres e Objetos: Sistemas de Deep Learning são usados 
para identificar pedestres, outros veículos e obstáculos na estrada.
 ` Prevenção de Acidentes: Alertas de colisão e sistemas de frenagem automática 
são acionados por algoritmos de Deep Learning.
Nas próximas unidades desta disciplina iremos aprender como implementar alguns des-
ses procedimentos. Serão usados estudos de casos relativamente simples, a partir dos 
quais o domínio das técnicas básicas irá estabelecer o fundamento para resolver pro-
blemas mais complexos e de maior impacto.
CONCLUSÃO
Neste capítulo, vimos que para uma aplicação adequada dos procedimentos de apren-
dizado supervisionado diversas outras questões precisam ser adequadamente traba-
lhadas. Por exemplo, a necessidade de grandes volumes de dados de treinamento a 
depender do objetivo, o risco de sobreajuste e questões éticas em relação aos dados 
e ao viés algorítmico. Trabalharemos de forma mais aprofundada nessas e em outras 
59
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
questões nas próximas seções desta e das próximas unidades. De qualquer forma, é 
importante salientar que o aprendizado supervisionado desempenha, e muito provavel-
mente continuará desempenhando, um papel importante no avanço de tecnologias e 
aplicações em várias áreas.
O desenvolvimento de modelos mais robustos, interpretação de resultados e aborda-
gens para lidar com questões éticas são áreas de pesquisa em crescimento. Assim, 
ressalta-se que o aprendizado supervisionado é uma abordagem poderosa que per-
mite que sistemas de computadores aprendam a partir de dados e façam previsões 
ou tomem decisões com base nesse aprendizado. Com a ampla gama de aplicações 
e contínuos avanços, o aprendizado supervisionado é indispensável na resolução de 
problemas complexos em ciência e engenharia.
Entre as possibilidades de aplicações do aprendizado supervisionado que apresentam 
fácil interpretação das informações, discutimos alguns exemplos de modelos lineares. 
Esses modelos se apresentam como uma ferramenta valiosa em aprendizado de má-
quina e encontram aplicações em uma variedade de problemas, desde regressão (ou 
seja, quando queremos predizer variáveis de saída com valores contínuos) até classi-
ficação (ou seja, quando queremos predizer variáveis de saída com valores categóri-
cos). Embora sejam simples e interpretáveis, é importante reconhecer suas limitações e 
considerar técnicas de regularização quando necessário. Os modelos lineares são uma 
base sólida para começar a abordar problemas do mundo real e entender os conceitos 
básicos de aprendizado supervisionado.
No outro lado do contínuo de complexidade dos modelos para aprendizado supervisio-
nado, discutimos sobre os princípios, as limitações e as principais aplicações das redes 
neurais.Reforçamos um ponto mais implícito anteriormente de que, embora as redes 
neurais tenham obtido resultados impressionantes em muitas tarefas, elas magnificam 
os problemas relacionados à necessidade de grandes conjuntos de dados de treina-
mento, ao risco de sobreajuste e ao alto custo computacional. Avanços recentes, como 
arquiteturas de redes neurais profundas (deep learning) e técnicas de regularização, 
têm contribuído para superar alguns desses desafios.
De qualquer forma, as redes neurais desempenham um papel central no aprendizado 
supervisionado moderno, especialmente nos contextos de engenharia, permitindo que 
sistemas de computadores aprendam com dados rotulados e façam previsões ou tomem 
decisões. Com uma variedade de arquiteturas e funções de ativação disponíveis, as re-
des neurais podem ser adaptadas para uma ampla gama de problemas em diferentes 
domínios. Compreender os fundamentos das redes neurais é essencial para se estar atu-
alizado sobre todos os potenciais do aprendizado de máquina em aplicações do mundo 
real de maior impacto. De fato, a grande maioria das ferramentas de inteligência artificial 
disponíveis ao público atualmente são baseadas em modelos de redes neurais.
Assim, concluímos que embora as aplicações de deep learning sejam amplas e promis-
soras, a tecnologia também enfrenta desafios. Estes incluem a necessidade de grandes 
conjuntos de dados rotulados, a interpretabilidade dos modelos complexos e questões 
éticas relacionadas à privacidade e ao viés algorítmico. As aplicações de modelos de 
deep learning estão transformando a maneira como abordamos problemas complexos 
60
Aprendizagem Supervisionada
2
em várias indústrias e campos da ciência. Ao aproveitar o poder das redes neurais pro-
fundas e grandes conjuntos de dados, as máquinas estão se tornando cada vez mais pro-
ficientes em tarefas que antes eram consideradas exclusivamente humanas. À medida 
que a tecnologia avança, mudanças socioeconômicas profundas, para todos, precisam 
ser tratadas e discutidas, especialmente por aqueles que dominam essas ferramentas.
61
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
REFERÊNCIAS BIBLIOGRÁFICAS
BOMMASANI, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., 
Bosselut, A., Brunskill, E., Brynjolfsson, E., Buch, S., Card, D., Castellon, R., Chatterji, N., Chen, A., Creel, 
K., Davis, J. Q., Demszky, D., … Liang, P. (2022). On the Opportunities and Risks of Foundation Models (arX-
iv:2108.07258). arXiv. https://doi.org/10.48550/arXiv.2108.07258
BONACCORSO, G. (2017). Machine learning algorithms. Packt Publishing Ltd.
BURKOV, A. (2019). The hundred-page machine learning book. Andriy Burkov.
BURKOV, A. (2020). Machine learning engineering. True Positive Incorporated.
Chen, Z., & Liu, B. (2018). Lifelong machine learning. Morgan & Claypool Publishers.
CYBENKO, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Sig-
nals and Systems, 2(4), 303-314.
ELIASMITH, C. (2013). How to build a brain: A neural architecture for biological cognition. OUP USA.
ESCOVEDO, T., & Koshiyama, A. (2020). Introdução a Data Science: Algoritmos de Machine Learning e mé-
todos de análise. Casa do Código.
FACELI, K., Lorena, A. C., Gama, J., Almeida, T. A. D., & Carvalho, A. C. P. D. L. F. D. (2021). Inteligência 
artificial: uma abordagem de aprendizado de máquina. LTC.
GÉRON, A. (2021). Mãos à obra: aprendizado de máquina com Scikit-Learn. Keras & TensorFlow: Conceitos, 
ferramentas e técnicas para a construção de sistemas inteligentes. Altas Books.
GOODFELLOW, I., Bengio Y., & Courville, A. (2017). Deep Learning. MIT Press.
HARRISON, M. (2019). Machine Learning–Guia de referência rápida: trabalhando com dados estruturados 
em Python. Novatec Editora.
INTAHCHOMPHOO, C., & Gundersen, O. E. (2020). Artificial intelligence and race: A systematic review. Legal 
Information Management, 20(2), 74-84.
IZBICKI, R., & dos Santos, T. M. (2020). Aprendizado de máquina: uma abordagem estatística. Rafael Izbicki.
JAMES, G., Witten, D., Hastie, T., Tibshirani, R., & Taylor, J. (2023). An Introduction to Statistical Learning: with 
Applications in Python. Springer International Publishing.
KHAN, K. (2023). Modern research methods in computer science. Good Reads.
LECUN, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.
LIN, J., Nogueira, R., & Yates, A. (2022). Pretrained transformers for text ranking: BERT and beyond. Springer 
Nature.
62
Aprendizagem Supervisionada
2
MCKINNEY, W. (2018). Python para análise de dados: Tratamento de dados com Pandas, NumPy e IPython. 
Novatec Editora.
MORETTIN, P. A., & Singer, J. D. M. (2022). Estatística e ciência de dados. LTC.
Mueller, J. P., & Massaron, L. (2019). Aprendizado de máquina para leigos. Alta Books Editora.
MURPHY, K. P. (2022). Probabilistic machine learning: an introduction. MIT press.
MURPHY, K. P. (2023). Probabilistic machine learning: Advanced topics. MIT press.
RASCHKA, S., & Mirjalili, V. (2019). Python machine learning: Machine learning and deep learning with Py-
thon, scikit-learn, and TensorFlow. Packt Publishing Ltd.
ROSENBLATT, F. (1958). The perceptron: A probabilistic model for information storage and organization in the 
brain. Psychological Review, 65(6), 386–408. https://doi.org/10.1037/h0042519
ROTHMAN, D. (2021). Transformers for Natural Language Processing: Build innovative deep neural network 
architectures for NLP with Python, PyTorch, TensorFlow, BERT, RoBERTa, and more. Packt Publishing Ltd.
RUMELHART, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating 
errors. Nature, 323(6088), 533–536. https://doi.org/10.1038/323533a0
RUMELHART, D. E., McClelland, J. L., & Group, P. R. (1986). Parallel Distributed Processing: Explorations in 
the Microstructure of Cognition: Foundations. https://doi.org/10.7551/mitpress/5236.001.0001
SAMARTINI, A., Barth, N. L., & Sicsú, A. L. (2023). Técnicas de Machine Learning. Blucher.
SILVEIRA, G., & Bullock, B. (2017). Machine Learning: introdução a classificação. Editora Casa do Código.
STOROPOLI, J., Huijzer, R., & Alonso, L. (2021). Julia Data Science: Edição em Português. JuliaHub, Inc.
SUTSKEVER, I., Martens, J., Dahl, G., & Hinton, G. (2013, May). On the importance of initialization and mo-
mentum in deep learning. In International conference on machine learning (pp. 1139-1147). PMLR.
TAULLI, T. (2020). Introdução à Inteligência Artificial: Uma abordagem não técnica. Novatec Editora.
TEIXEIRA, João de Fernandes. O que é inteligência artificial. E-galáxia; 3ª edição (4 junho 2019).
THIEL, D. V. (2014). Research methods for engineers. Cambridge University Press.
TUNSTALL, L., Von Werra, L., & Wolf, T. (2022). Natural language processing with transformers. O’Reilly 
Media, Inc.
VASWANI, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. 
(2017). Attention Is All You Need (arXiv:1706.03762). arXiv. https://doi.org/10.48550/arXiv.1706.03762
63
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co

Mais conteúdos dessa disciplina