USF_EAD_U2_Inteligência_artificial_e_machine_learning

USF

murilo barbosa

em 30/07/2024

Conteúdos escolhidos para você

25 pág.

GE_Machine Learning_Unidade IV_DIGITAL PAGES

49 pág.

SIMULADO1 - Inteligência Artificial para CAIXA - 2024

61 pág.

Aula 05 - Aprendizado Supervisionado

UNIP

Perguntas dessa disciplina

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

ANHANGUERA

Pergunta 1. Os Sistemas de Informação Geográfica (SIG) permitem a integração e análise de diferentes tipos de dados geoespaciais organizados em camada

FACAP

A transição do Perceptron para a Rede Neural Multicamadas (MLP) representa um salto fundamental na capacidade de representação dos modelos conexionist

ESTÁCIO

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

IBMR

No desenvolvimento de sistemas inteligentes para reconhecimento de padrões em dados complexos, a escolha da arquitetura de rede neural é um fator dete

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

25 pág.

GE_Machine Learning_Unidade IV_DIGITAL PAGES

49 pág.

SIMULADO1 - Inteligência Artificial para CAIXA - 2024

61 pág.

Aula 05 - Aprendizado Supervisionado

UNIP

Perguntas dessa disciplina

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

ANHANGUERA

Pergunta 1. Os Sistemas de Informação Geográfica (SIG) permitem a integração e análise de diferentes tipos de dados geoespaciais organizados em camada

FACAP

A transição do Perceptron para a Rede Neural Multicamadas (MLP) representa um salto fundamental na capacidade de representação dos modelos conexionist

ESTÁCIO

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

IBMR

No desenvolvimento de sistemas inteligentes para reconhecimento de padrões em dados complexos, a escolha da arquitetura de rede neural é um fator dete

Prévia do material em texto

RICARDO PRIMI
VÍTHOR ROSA FRANCO
INTELIGÊNCIA ARTIFICIAL E
MACHINE LEARNING
38
Aprendizagem Supervisionada
2
UNIDADE 2
APRENDIZAGEM
SUPERVISIONADA
INTRODUÇÃO
O aprendizado supervisionado envolve a tarefa de “ensinar” ao computador como um
input (ou entrada) está relacionado com um output (ou saída). Tarefas desse tipo refle-
tem o que conhece em estatística como modelos de probabilidade condicional. Esses
modelos buscam responder a seguinte pergunta: qual é a probabilidade de se observar
uma saída específica na presença de uma entrada específica? Neste texto, explorare-
mos os fundamentos do Aprendizado Supervisionado (supervised learning), seus com-
ponentes essenciais e algumas de suas aplicações.
1. FUNDAMENTOS DO APRENDIZADO SUPERVISIONADO
No contexto de aprendizado de máquina (machine learning) os modelos do aprendizado
supervisionado são chamados de modelos discriminativos, dado que eles, em princípio,
permitem-nos discriminar qual tarefa realizar a partir de exemplos rotulados.
1.1. O QUE É APRENDIZADO SUPERVISIONADO?
O aprendizado supervisionado é uma forma de aprendizagem de máquina que pode
ser utilizado no caso onde um conjunto de dados contém exemplos de entrada e a
saída desejada correspondente. Por exemplo, se a pessoa quer ensinar ao computa-
dor a identificar e-mails que são ou não são spam, ela pode lhe oferecer uma lista de
e-mails prévios que são ou não spam. Em outro exemplo, se a pessoa quer ensinar um
computador a dirigir um carro, ela pode ter dados sensoriais sobre todos os aspectos
ambientais de um trajeto que foi previamente percorrido da forma mais adequada pos-
sível por um humano.
Assim, a ideia com o aprendizado supervisionado é que o computador possa aprender
a mapear as entradas para as saídas com base nos exemplos fornecidos durante o trei-
namento. Em termos mais técnicos, o objetivo do aprendizado supervisionado é gerar
um modelo matemático a partir de métodos estatísticos que possibilitem desenvol-
ver um algoritmo que possa generalizar previsões ou tomar decisões sobre dados
não vistos anteriormente.
1.2. COMPONENTES DO APRENDIZADO SUPERVISIONADO
O uso adequado do aprendizado supervisionado envolve a identificação e compreen-
são de seus componentes fundamentais. Certamente, esse processo é relativamente
abstrato, dependendo, de forma geral, do nível de profundidade do conhecimento que
39
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
se pretende alcançar, bem como da didática almejada. Assim, neste capítulo se desen-
volverá uma abordagem menos matemática/estatística e mais conceitual. No entanto,
dado o teor natural do tema, é impossível não haver qualquer apresentação de fórmu-
las, a qual será feita assumindo pouco conhecimento prévio do leitor. Assim definem-se
os seguintes componentes para o uso do aprendizado supervisionado.
` A Escolha do Modelo Matemático e Estatístico.
A modelagem quantitativa de dados é uma área geral de conhecimentos na interface entre
matemática, estatística e computação, sendo que áreas mais específicas podem adaptar
as técnicas de modelagem aos problemas específicos que as interessam. Isso significa
que todas as áreas da ciência e engenharia que trabalham com modelagem quantitativa
de dados partem das mesmas técnicas fundamentais e ferramentas de “abstração” do
conhecimento. Com “abstração” aqui se pretende dizer que as fórmulas têm o mesmo sig-
nificado em todas as áreas quantitativas do conhecimento. Em particular ao aprendizado
supervisionado, dizemos que um input x está relacionado a um output y a partir de uma
função f. Essa abstração significa que os valores de y vão mudar a partir das mudanças
de valores em x. Além disso, a forma pela qual essa mudança ocorre é determinada a
partir de f. Em termos formais, a equação usada para representar essa ideia é a seguinte:
1
2
A equação 1 representa o que se chama de uma relação determinística. Relações de-
terminísticas são aquelas as quais o valor de uma variável é completamente determina-
do pelo valor de uma ou mais variáveis. Um exemplo desse tipo de relação é a segunda
lei de Newton, na física, que diz que a força resultante é igual ao produto da massa
de um corpo pela sua aceleração. No entanto, quando nos deparamos com dados no
mundo real, raramente encontramos relações determinísticas. Isso ocorre, de forma
geral, porque o mundo real é diferente dos contextos de experimentos laboratoriais, nos
quais as possíveis influências ao resultado da pesquisa são rigorosamente controladas.
Assim, quando trabalhos com dados vindos de observações naturalísticas, geralmente
estaremos estudando relações probabilísticas.
Relações probabilísticas são aquelas as quais o valor de uma variável é determinado,
majoritariamente, pelo valor de uma ou mais variáveis, mas uma parte da variação não
é explicável. Na estatística, diz-se que a relação é acompanhada por uma medida de
ruído, a qual reflete tudo o que desconhecemos sobre o que gera um output específico.
Modelos, ou simplesmente as equações que descrevem relações entre variáveis, que
representam relações probabilísticas são similares aos modelos de relações deter-
minísticas, com a distinção de que devemos adicionar a letra grega epsilon, ε, para
representar o fato de que existe uma parte da variação dos outputs que não é possível
explicar apenas com os dados que temos disponíveis no momento da análise:
40
Aprendizagem Supervisionada
2
Dessa forma, o aprendizado supervisionado é definido a partir da forma que se estabe-
lece como a relação entre o input x e o output y, , é definida. Se a relação é definida
a partir de teoria ou de modelos parcimoniosos (na literatura de machine learning muitas
vezes chamados de “procedimento theory driven”), estamos adotando uma abordagem
paramétrica. No entanto, se a relação é definida exclusivamente a partir da melhor des-
crição possível dos dados (na literatura de machine learning muitas vezes chamados
de “procedimento data driven”), estamos adotando uma abordagem não-paramétrica.
Em muitos textos se define o objetivo do aprendizado de máquina como “a criação de mo-
delos que tenham a maior capacidade preditiva”, enquanto a análise estatística (ou seja,
a estatística como abordagem de análise de dados e não necessariamente como teoria
para criação de modelos quantitativos) teria como objetivo “a criação de modelos que
tenham a maior capacidade explicativa”. Na nossa discussão até o momento, isso signi-
fica que a estatística envolve principalmente o uso de modelos paramétricos, enquanto
o aprendizado de máquina envolveria o uso de modelos não-paramétricos. Embora, de
fato, os modelos não-paramétricos consigam muitas vezes apresentar desempenho su-
perior aos modelos paramétricos, esse nem sempre é o caso. Além disso, há modelos
semi-paramétricos, nos quais parte das relações são definidas de forma paramétrica, e
outra parte é definida de forma não-paramétrica. Para este momento do texto, basta dizer
que o mais adequado é sempre comparar as diferentes abordagens de análise para po-
der se avaliar qual delas melhor lhe permite que você alcance seus objetivos. No resto do
texto nos aprofundaremos sobre o processo de decisão desses modelos.
` Dados de Treinamento e de Teste
Para que um algoritmo de machine learning possa aprender, é necessário que seja se-
lecionado o conjunto de dados com os inputs e outputs que se pretende analisar. Para
que se possa avaliar a performance do algoritmo, o conjunto de dados é geralmente
separado em dois: o banco de treinamento e o banco de teste. Como o nome sugere, o
banco de treinamento é aquele utilizado para “ensinar”, ou treinar, o computador de for-
ma que ele aprenda o modelo matemático que relacionada nossas entradas às saídas.
Já o banco de teste é aquele que usamos para avaliar o desempenho do modelo. Mais
especificamente, o “teste” que é realizado é um teste de desempenho preditivo, o qual
se define pela capacidade domodelo em descrever dados que não estavam presentes
no banco de treinamento. Esse procedimento é comum na modelagem quantitativa e
tem como objetivo evitar o sobreajuste (overfitting) do modelo aos dados. O sobreajuste
ocorre quando o modelo matemático descreve muito bem os dados de treinamento,
mas tem uma performance ruim para descrever os dados de teste.
De forma geral, na prática de aprendizado de máquina, o melhor desempenho é alcan-
çado ao se escolher o modelo no qual a performance não é muito diferente em relação
aos dados de treinamento e aos dados de teste. Como o treinamento é um processo
extensivo (ou seja, necessita de muita computação), o tamanho do banco de dados de
treinamento é geralmente maior do que o banco de dados de teste. Muitas vezes as
proporções de 80/20 (80% da amostra para treinamento e 20% para teste) ou 70/30 são
utilizadas, mas não há uma regra rígida. O importante é compreender que o treinamento
exige mais da computação e, portanto, é adequado prover mais informação para essa
etapa da análise dos dados do que para o teste.
41
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
` Modelo e Algoritmo
Nesse ponto, é importante distinguir a diferença entre o modelo matemático/estatístico
e o algoritmo que é criado a partir desse modelo. Um modelo é um conjunto amplo
possível de relações entre entradas, unidades internas e saídas. Ele qualifica a forma
das funções possíveis que podem ser estabelecidas e funciona como uma espécie de
restrição dessas relações funcionais dadas pelo formato da função. Um algoritmo pode
ser definido como o processo ou conjunto de regras a serem seguidos para que se
possa chegar à resolução de um problema específico, isto é, fazer uma previsão mais
acurada possível sobre o output. O algoritmo contém os valores dos parâmetros das
funções do modelo definidos no processo de aprendizagem que conectam as entradas,
unidades e saídas de modo ótimo para realizar a previsão da saída.
No caso da modelagem quantitativa de dados, o problema que se quer resolver é saber
qual predição é feita a partir de um modelo quantitativo que foi treinado em um determina-
do conjunto de dados. Por exemplo, para um carro que dirige sozinho, o objetivo é saber
em qual ângulo virar o volante, ou qual pressão aplicar ao pedal de frenagem, quando um
obstáculo aparece abruptamente em frente ao veículo. Para um sistema que classifica
e-mails como spam ou não-spam, o objetivo é classificar corretamente mensagens ou
conteúdo de postagens que possam ser danosas a partir de seu conteúdo, de caracte-
rísticas do remetente, entre outros. Assim, enquanto o modelo matemático é usado para
“ensinar” algo ao computador, o algoritmo é o resultado da “aprendizagem” da máquina.
` Função de Perda (Loss Function) e Algoritmos de Otimização
A função de perda é usada para avaliar o quão bem o modelo consegue descrever
os dados. Mais especificamente, a função de perda é usada para calcular a diferença
entre as predições do modelo e os valores reais observados nos dados. Em termos
mais formais, as predições do modelo são definidas como , onde é o que
chamamos de predição do modelo. As funções de perda são simplesmente o cálculo do
erro do modelo. O erro do modelo, isto é, o componente , é tudo aquilo que
não pode ser explicado pela relação entre a entrada e a saída. Dizemos, portanto, que
o objetivo da modelagem é minimizar a função de perda, formalmente definida como:
3
onde a letra grega fi maiúsculo, , representa a forma como o erro de cada exemplo
específico é calculada e agregada para se chegar a um número global quantificando o
erro do modelo.
Quando dizemos “minimizar a função de perda” queremos dizer que precisamos en-
contrar qual a forma e os parâmetros do modelo matemático que geram o menor erro
possível do modelo. No entanto, a solução para esse problema não pode ser calculada
diretamente para uma parte considerável dos modelos de aprendizagem de máquina (e
de modelagem quantitativa, de uma forma geral). Isso significa que muitas vezes não
iremos trabalhar como soluções exatas em aprendizagem de máquina, mas apenas
42
Aprendizagem Supervisionada
2
com soluções aproximadas. Essas soluções aproximadas, no entanto, podem ser,
ao menos a princípio, muito similares às soluções exatas. A forma de encontrar as
soluções aproximadas é por meio do que se chama de algoritmos de otimização. Os
algoritmos de otimização são conjuntos de regras que permitem encontrar a solução
de um problema matemático (ou seja, do resultado de uma conta). No caso da função
de perda, o objetivo é a minimização do erro. Em outros tipos especiais de funções
de perda, como a função de verossimilhança, o objetivo é maximizar o quão bem uma
distribuição estatística representa os dados.
O algoritmo de otimização mais popular na área de aprendizagem de máquinas é o
Gradiente Descendente Estocástico. No entanto, existem diversos outros algoritmos
de otimização que podem ser, da forma mais abrangente possível, categorizados en-
tre algoritmos determinísticos e algoritmos probabilísticos. Não é nosso objetivo
nos aprofundar nesses algoritmos, tendo em vista que, inclusive, a grande maioria dos
programas que implementam modelos e algoritmos de aprendizagem de máquina já
definem a priori qual algoritmo será utilizado para o treino (ou ajuste) do modelo. No
entanto, é conveniente citar esses algoritmos neste ponto, tendo em vista que os algorit-
mos de otimização são muitas vezes citados em textos da área, mas sem que se tenha
feito sequer uma definição mínima, como nós fizemos. De qualquer forma, o estudante
interessado em otimização deve procurar materiais (sendo alguns listados na lista de
referências) da grande área que estude especificamente esse tipo de algoritmo chama-
da de otimização (ou programação) matemática.
2. MODELOS DE LINEARES E SUA APLICAÇÃO EM
PROBLEMAS DE APRENDIZADO
Existem diversos modelos diferentes de aprendizado supervisionado, sendo que cada
um deles varia em níveis de dificuldade na implementação e de capacidade de des-
crever fenômenos mais complexos. Entre esses modelos, os mais simples são prova-
velmente os modelos lineares. Esses modelos são amplamente usados devido à sua
simplicidade, interpretabilidade e eficácia em uma variedade de aplicações. A seguir
exploraremos os princípios dos modelos lineares e como eles são aplicados em proble-
mas de aprendizado supervisionado.
2.1. O QUE SÃO MODELOS LINEARES?
Os modelos lineares são uma classe de modelos e algoritmos de aprendizado de má-
quina que assumem a existência de uma relação linear entre as variáveis de entrada e
a variável de saída de um problema. A relação linear é representada por uma equação
matemática chamada de “função linear” que pode ser usada para fazer previsões ou
tomar decisões. O uso da função linear para modelagem quantitativa se dá pelo modelo
de análise de regressão linear. A forma mais simples de um modelo de regressão
linear é a regressão linear univariada, a qual é representada pela seguinte equação:
4
43
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Similar às outras equações deste capítulo, y é a variável de saída e x é a variável de
entrada. O erro, que antes havíamos representado com a letra grega epsilon, ε, foi
substituído pela letra grega fi minúscula, , a qual representa uma função de ligação.
A função de ligação é usada para que se possa modelar saídas que tenham diferentes
níveis de medida.
De forma geral, variáveis podem ser separadas em duas categorias gerais de níveis de
medida: variáveis categóricas e variáveis contínuas. Variáveis como renda, tempe-
ratura, decibéis, volume, ângulo, entre outros, são exemplos de variáveis contínuas, as
quais recebem esse nome porque, ao menos em princípio, podem receber qual valor.
Variáveis como sexo, escolaridade, presença ou ausência de um estímulo, acerto ou
erro numa prova, entreoutros, são exemplos de variáveis categóricas, as quais rece-
bem esse nome porque seus valores são determinados a partir de um número limitado
de respostas (chamados de categorias), os quais não representam uma relação clara
de magnitude entre si. Por exemplo, um estudante acertar mais questões nas provas do
que outro estudante pode ser um indicativo de que esses estudantes têm níveis diferen-
tes de conhecimento sobre o conteúdo da prova. No entanto, caso soubermos apenas
que um deles acertou uma questão enquanto o outro errou, não temos como saber o
quanto da diferença entre os dois pode ser atribuída apenas à sorte (ou falta dela).
Retomando a Equação 4, temos que definir que a letra grega beta, β, representa os
parâmetros do modelo. Os parâmetros de qual modelo quantitativo são definidos como
os valores estimados (a partir dos métodos de otimização) que afetam como o modelo
faz predições. No caso do modelo linear, os parâmetros são facilmente interpretáveis,
o que geralmente é apresentado como uma vantagem do modelo. O parâmetro
(lê-se “beta zero”) é o intercepto do modelo e ele representa o valor da saída y quando
a entrada x é igual a zero. O parâmetro (lê-se “beta um”) é o coeficiente angular,
ou coeficiente de regressão, o qual representa a taxa de conversão da entrada x para
a saída y. Em outras palavras, eles também podem ser interpretados como a “força” da
relação entre a variável de entrada e a variável de saída. Por fim, a Equação 4 também
pode ser estendida para o caso no qual temos mais de uma variável de entrada. O mo-
delo é então representado pela seguinte equação:
5
Onde β é um vetor que representa todos os parâmetros do modelo e X é uma ma-
triz que representa todas as variáveis de entrada que estão sendo usadas para
predizer a variável de saída y. A forma adequada de se ler o produto de β e X é
, onde n é a quantidade de variáveis de entrada.
Esse modelo também é conhecido como regressão linear múltipla.
2.2. REGRESSÃO LINEAR MÚLTIPLA
A regressão linear múltipla é um dos tipos mais comuns de modelos lineares e é usada
para resolver problemas de previsão onde temos vários preditores. A equação da re-
gressão linear múltipla é estabelecida ao se definir a função de ligação representada
44
Aprendizagem Supervisionada
2
pela letra grega fi minúscula, , como a função de identidade: . Assim, o
modelo completo pode ser definido como:
6
7
A função de perda desse modelo geralmente é definida como:
onde N é o tamanho da amostra (ou seja, a quantidade de pareamentos entre as vari-
áveis de entrada e a variável de saída) e a letra regra maiúscula sigma, Σ, representa
uma soma dos erros das predições para cada observação utilizada na análise. Uma
observação é cada conjunto de valores das variáveis de entrada e da variável de saída
que foram observadas. No caso da regressão linear simples, esse conjunto é um par: a
observação é composta por um valor da variável de entrada e um valor da variável de
saída. A função de perda representada na Equação 7 é chamada de L2, dado que ela
mensura o quadrado da diferença entre a predição e o valor real observado na variável
de saída, e é a função de perda mais comumente utilizada para uma diversidade de
análises, mesmo para modelos mais complexos.
Na Figura 01 é apresentada uma representação habitual do tipo de resultados avaliados
com uma análise de regressão linear simples, onde se está presente apenas uma variável
de entrada x. Em termos da representação gráfica, o objetivo da análise de regressão
linear é identificar a linha que melhor descreve os dados. A linha que “melhor descreve os
dados” é aquela que gera o menor valor possível de erro, conforme definido na equação
7. Na Figura 1, as linhas vermelhas representam resultados “ruins”, no sentido de que
elas não são capazes de oferecer a melhor descrição dos dados em termos de um mo-
delo linear. A linha verde é aquela que melhor representa os dados, no sentido de que ela
é aquela que vai gerar o menor valor possível de erro. Vale salientar nesse ponto que o
modelo linear representado pela linha verde não é o melhor modelo para os dados, mas
sim o melhor modelo linear. Essa ênfase é importante dado que os resultados e as con-
clusões que chegamos estão sempre limitadas as ferramentas que utilizamos em nossos
dados, justificando-se, assim, a necessidade de se conhecer, o melhor possível, o máxi-
mo possível de procedimentos distintos e como, e quando, eles funcionam.
45
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Figura 01. Comparação de predições de modelos lineares
Fonte: Produzido pelos autores, 2023.
2.3. CLASSIFICAÇÃO LINEAR
Quando a variável de saída é uma variável categórica, os modelos lineares também po-
dem ser usados para resolver problemas de classificação. A ideia das análises de clas-
sificação linear é usar uma função linear para separar as diferentes classes. O exemplo
mais simples é a classificação binária, onde temos duas classes (geralmente represen-
tadas pelos números 0 e 1). Um dos modelos mais tradicionais para se realizar classifi-
cação linear é a regressão logística, na qual se define a função de ligação representada
pela letra grega fi minúscula, , como a função logística: :
8
9
A equação 8 não inclui diretamente o erro do modelo (que geralmente é represento pela
letra grega epsilon, ), sendo que o erro é representado na função de perda desse mo-
delo geralmente é definida pela verossimilhança de uma distribuição binomial:
onde e log() é a função logarítmica natural.
-3
-3
-2
-2
-1
-1
1
1
2
2
3
3
0y
x
0
46
Aprendizagem Supervisionada
2
Foge ao propósito deste curso adentrar em questões aprofundadas de teoria estatística, como
a definição de verossimilhança e distribuições de probabilidade. No entanto, há diversas boas
referências e materiais didáticos disponibilizados de forma gratuita e online; por exemplo:
SAIBA MAIS
Disponível em: https://youtube.com/playlist?list=PL7xT0Gz6G0-RW8SXEKHsfLmF-
NAexb3wYw.
Essa função de perda é chamada de LogL, dado que ela é baseada numa medida do
logaritmo das estimativas feitas pelo modelo. Essa função de perda é bastante utilizada
para contextos de categorização de variáveis binárias de saída e, quando a variável de
saída é categórica, mas não binária, funções com interpretações similares são também
bastante utilizadas.
Na Figura 2 é apresentada uma representação habitual do tipo de resultados avaliados
com uma análise de regressão logística simples, onde se está presente apenas uma
variável de entrada x. Em termos da representação gráfica, o objetivo da análise de
regressão logística é identificar a curva em formato de “S”, com valor mínimo de 0 e
máximo de 1, que melhor descreve os dados. Assim, como na Figura 1, as linhas ver-
melhas representam resultados “ruins” e a linha verde é aquela que melhor representa
os dados, no sentido de que ela é aquela que vai gerar o menor valor possível de erro
de acordo com a equação 9.
Figura 02. Comparação de predições de modelos logístico
Fonte: Produzido pelos autores, 2023.
-3
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
-2 -1 0
x
y
1 2 3
https://youtube.com/playlist?list=PL7xT0Gz6G0-RW8SXEKHsfLmFNAexb3wYw
https://youtube.com/playlist?list=PL7xT0Gz6G0-RW8SXEKHsfLmFNAexb3wYw
47
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
2.4. AVALIAÇÃO DO MODELO
Uma parte crítica do aprendizado supervisionado é a avaliação do desempenho do
modelo em dados não utilizados durante o treinamento do modelo. Essa avaliação é
essencial na modelagem quantitativa de dados e é particularmente importante no para-
digma da aprendizagem de máquina. A partir de definições vindas da psicologia, uma
aprendizagem efetiva é aquela que permite que o conhecimento adquirido seja aplicado
em novos contextos não vistos no treinamento. Assim, no contexto de aprendizagem
de máquina, é importante que o modelo ajustado aosdados de treino generalize bem.
Para avaliar a capacidade de generalização dos modelos devemos considerar o tipo de
variável categórica ou contínua, o que define as métricas de avaliação. A Acurácia (Ac-
curacy) mede a proporção de previsões corretas em relação ao número total de previ-
sões quando a variável de saída é categórica. Essas medidas são avaliadas a partir do
que se conhece como matriz de confusão (confusion matrix). Por exemplo, em um
problema binário de classificação, como um teste da presença do vírus SARS-CoV-2 no
corpo de um indivíduo, temos uma classe positiva e negativa real e as previsões dadas
pelo modelo usando dados de um teste biológico de uma amostra de secreção nasal. A
matriz de confusão é uma tabela cruzada resumindo os resultados em uma amostra de
casos com os valores reais positivos e negativos e quantos desses casos foram previs-
tos como positivos e negativos pelo teste.
Tabela 01. Teste da presença do vírus SARS-CoV-2.
RESULTADOS DO TESTE
Dados reais Valor previsto positivo Valor previsto negativo
Valor verdadeiro positivo TP FN
Valor verdadeiro negativo FP TN
Fonte: Produzido pelos autores, 2023.
A partir dessa tabela podemos calcular vários índices:
` Verdadeiro positivo (TP: true positive): proporção de casos que o modelo previu corre-
tamente que o exemplo é da classe positiva.
` Falso positivo (FP: false positive): proporção que o modelo previu incorretamente que
o exemplo é da classe positiva.
` Verdadeiro negativo (TN: true negative): proporção de casos que o modelo previu cor-
retamente que o exemplo é da classe negativa.
` Falso negativo (FN: false negative): proporção de caso que o modelo previu incorreta-
mente que o exemplo é da classe negativa.
Precisão e recall são duas métricas que são usadas para avaliar o desempenho de um
modelo de classificação baseado nesses indicadores. Precisão mede a porcentagem
de previsões positivas do modelo que foram classificadas corretamente. É calculada
como a razão entre o número de verdadeiros positivos e o número de verdadeiros
48
Aprendizagem Supervisionada
2
positivos mais o número de falsos positivos: Precisão = TP / (TP + FP). No caso acima,
a precisão indicaria, de todos os exemplos que o teste identificou como COVID-19, qual
proporção de fato eram casos reais da doença.
Recall mede a porcentagem de exemplos positivos reais que foram classificados corre-
tamente. É calculada como a razão entre o número de verdadeiros positivos e o número
de verdadeiros positivos mais o número de falsos negativos: Recall = TP / (TP + FN). No
exemplo de COVID-19, seria qual a proporção de casos reais da doença que o modelo
conseguiu detectar.
Precisão é mais importante quando o custo de um falso positivo é alto. Por exemplo, um
modelo que classifica pacientes como saudáveis quando eles realmente estão doentes
pode ter consequências graves. Recall é mais importante quando o custo de um falso
negativo é alto. Por exemplo, um modelo que classifica spam como não-spam quando ele
realmente é spam pode levar a uma enxurrada de mensagens em um ataque cibernético.
Além da precisão e do recall, existem outras métricas que podem ser usadas para avaliar
o desempenho de um modelo de classificação. Algumas dessas métricas incluem: F1-s-
core e a Curva ROC. O escore F1 é uma métrica harmônica que combina precisão e recall
em uma única medida. Ele é calculado como a média harmônica de precisão e recall:
F1 = 2 * (precisão * recall) / (precisão + recall)
A Curva ROC (Receiver Operating Characteristic) é uma medida do desempenho de
um modelo de classificação binária e é usada em problemas de classificação para ava-
liar o desempenho do modelo em diferentes limiares de decisão. Foi desenvolvida no
contexto de um método analítico elaborado na engenharia e na psicologia para avaliar
a capacidade de máquinas e pessoas, respectivamente, em identificar características
relevantes de objetos. A curva ROC representa como as taxas de falsos positivos (por
exemplo, quando um algoritmo diz que um e-mail é um spam quando na verdade ele
não é) se relacionam com as taxas de positivos corretos (por exemplo, quando um algo-
ritmo diz que um e-mail é um spam quando na verdade ele é). Tal análise permite avaliar
qual o critério de decisão irá gerar, na média, melhores resultados.
Quando a variável de saída é contínua temos dois índices mais comuns:
` Erro Médio Quadrático (Mean Squared Error - MSE): Uma medida de desem-
penho do modelo utilizada em problemas de regressão que mede o erro médio
quadrático entre as previsões e os valores reais. Essa medida é calculada ao se
utilizar exatamente a mesma fórmula que aquela representada na equação 7.
Em termos inferenciais, o MSE tem o efeito de definir pior desempenho àqueles
modelos que não lidam bem com dados que são “pontos fora da curva” (outliers).
` Erro Médio Absoluto (Mean Absolute Error - MAE): Uma medida de desem-
penho do modelo utilizada em problemas de regressão que mede o erro médio
absoluto entre as previsões e os valores reais. Essa medida é calculada ao se
utilizar uma fórmula muito similar àquela representada na equação 7, com a di-
49
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
ferença de que, ao invés de elevar a diferença entre a predição e o valor real ao
quadrado, utiliza-se o valor absoluto dessa diferença (ou seja, o valor da diferen-
ça, mas sem se levar em conta o sinal). Em termos inferenciais, o MAE é menos
sensível aos “pontos fora da curva” do que o MSE.
2.5 VANTAGENS E DESVANTAGENS DOS MODELOS LINEARES
Neste momento, é importante salientar que os modelos lineares apresentam muitas limi-
tações. Por exemplo, veja os dados apresentados na Figura 3. Os dados apresentam um
padrão “curvado” sistemático que, obviamente, não pode ser representado por um mo-
delo linear. Nesta figura, a linha em vermelho representa o melhor modelo linear possível
para descrever a relação entre a variável de entrada e a variável de saída. É possível
observar que os valores mais baixos e mais altos são sempre estimados como maiores
do que eles realmente são. No entanto, na Figura 3, também há uma curva na cor verde,
a qual representa as predições do melhor modelo quadrático possível. Um modelo qua-
drático é um tipo de modelo não-linear que assume que a relação entre a variável de
entrada e a variável de saída seguem uma função polinomial do segundo grau. Com este
exemplo, buscamos salientar três das principais desvantagens dos modelos lineares:
` Limitações na complexidade do modelo: Modelos lineares não conseguem cap-
turar relações não-lineares entre as variáveis de entrada e a variável de saída.
Como antes de realizarmos a análise, não podemos ter certeza absoluta de que a
relação é necessariamente linear, pois esse modelo pode resultar em uma grande
limitação às capacidades preditivas dos algoritmos de aprendizado de máquinas.
` Sensíveis a outliers: Modelos lineares são mais propensos a serem influen-
ciados por valores que são muitos discrepantes nos dados de treinamento. Um
valor “muito discrepante” é aquele que apresenta um valor distinto dos outros
conjuntos de dados observados. Por exemplo, imagine que a altura e o peso
das pessoas têm uma relação positiva (ou seja, quando uma aumenta a outra
também deve aumentar). Assim, se a maioria das pessoas em uma amostra tem
entre 1,60 metros e 1,80 metros e também entre 60 quilos e 80 quilos, uma pes-
soa com 1,50 metros e 50 quilos apresenta um par de valores discrepantes para
as variáveis. No entanto, muito provavelmente sua combinação de peso e altura
estaria ainda dentro do padrão esperado de relação entre as variáveis. Por outro
lado, uma pessoa com 1,80 metros e 45 quilos, ou uma pessoa com 1,45 metros
e 80 quilos, estarão provavelmente fora do padrão esperado da relação entre
altura e peso para as pessoas na amostra.
50
Aprendizagem Supervisionada
2
Figura 03. Comparação de predições de modelos lineare não-linear
Fonte: Produzido pelos autores, 2023.
É importante salientar que as limitações dos modelos lineares não necessariamente
significam que eles não tenham benefícios. De fato, muitas vezes as pesquisas e aplicações
com algoritmos de aprendizado de máquina chegam à conclusão de que os modelos lineares
têm desempenho igual, ou às vezes até melhor, do que de modelos mais complexos. Por
outro lado, mesmo que o desempenho não seja igual ou melhor do que de outros modelos,
ainda cabe ressaltar três das principais vantagens dos modelos lineares:
` Simplicidade: São fáceis de implementar em praticamente qualquer linguagem
de programação, mesmo com baixo conhecimento de modelagem quantitativa,
estatística ou programação. Além disso, as equações para esses modelos ge-
ralmente envolvem apenas relações de multiplicação e adição, facilitando sua
generalização para uma diversidade de contextos, mesmo com dados que sejam
de natureza bastante distinta.
` Eficiência: São computacionalmente eficientes (ou seja, são análises para as
quais muito rapidamente se consegue um resultado) e funcionam bem com con-
juntos de dados grandes. Dessa forma, são aplicáveis a conjuntos muito grandes
de dados, sem necessariamente gerar custos extras ou necessidade de poder
computacional muito grande.
` Interpretabilidade: Por apresentarem parâmetros que estão diretamente rela-
cionados a como uma mudança nas variáveis de entrada geram mudanças nas
variáveis de saída, esses modelos são bastante interpretáveis. Em particular, o
51
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
coeficiente angular permite uma avaliação intuitiva de como tomar uma decisão
sobre como aumentar, ou diminuir, os valores esperados de uma variável de sa-
ída a partir de intervenções nas variáveis de entrada.
Além disso, é importante fazermos a distinção entre modelos paramétricos e mode-
los não-paramétricos. Os modelos paramétricos, como a regressão linear e os mode-
los não-lineares de regressão, assumem, antes de se observar os dados, uma forma
específica da relação entre as variáveis de entrada e a variável de saída. Os modelos
não-paramétricos, por outro lado, têm como objetivo, justamente, tentar descobrir qual
é a forma da relação entre as variáveis de entrada e a variável de saída. Esse tipo de
procedimento apresenta novas limitações e problemas, os quais serão discutidos no
contexto das redes neurais artificiais (ou apenas “redes neurais”, dado que no contexto
deste material, estaremos sempre focando em redes neurais como modelos de apren-
dizado de máquina, e raramente sobre redes neurais biológicas).
Neste momento é importante salientar a ampla gama de aplicações em problemas de
aprendizado supervisionado que foram, e muitos ainda são resolvidos com o uso de
modelos lineares para o aprendizado de máquina:
` Previsão de Preços Imobiliários: Os modelos lineares podem ser usados para
prever o preço de casas com base em características como tamanho, número de
quartos e localização.
` Previsão de Vendas: Em empresas de varejo, é possível prever vendas futuras
com base em dados históricos de vendas e fatores como publicidade e promoções.
` Classificação linear de detecção de spam: Os modelos lineares podem ser
aplicados para classificar e-mails como spam ou não spam com base em carac-
terísticas do texto.
` Diagnóstico Médico: Na área médica, podem ser usados para classificar exa-
mes como positivos ou negativos para uma doença com base em características
médicas.
` Identificação de fraudes: Predições feitas por modelos lineares permitem iden-
tificar padrões de dados que, em contexto contábeis, podem representar supos-
tas fraudes.
` Análise de dados científicos: A depender dos dados sendo analisados, a line-
aridade das relações é definida por procedimentos experimentais ou um pressu-
posto razoável para descrever as relações de um pequeno conjunto de variáveis.
52
Aprendizagem Supervisionada
2
3. FUNDAMENTOS DE REDES NEURAIS PARA APRENDIZADO
SUPERVISIONADO
Pela necessidade de se contornar as limitações dos modelos lineares (e aos modelos
paramétricos, de forma geral), uma diversidade de novos procedimentos foram desen-
volvidos. A partir de teorias psicológicas que tentavam estabelecer modelos estatísticos
baseados em princípios neurológicos do funcionamento do cérebro, pesquisadores da
área de computação começaram a aplicar tais modelos para problemas de engenharia.
Originou-se, assim, os estudos das redes neurais artificiais. Assim, as redes neurais
artificiais são uma classe de modelos de aprendizado de máquina que buscam emular
como o cérebro estabelece relações entre os estímulos físicos (em paralelo, as variá-
veis de entrada) e as sensações subjetivas (em paralelo, as variáveis de saída). Apesar
de existirem outras alternativas aos modelos lineares, as redes neurais artificiais serão
o nosso foco por apresentarem um desempenho superior em uma diversidade de tare-
fas e também maior popularidade.
3.1. O QUE SÃO REDES NEURAIS ARTIFICIAIS?
As redes neurais são modelos computacionais compostos por camadas de unidades
chamadas neurônios artificiais. Esses neurônios são organizados em camadas de
entrada, camadas ocultas (ou latentes) e camadas de saída. A ideia geral do modelo é
de que, ao invés de haver apenas uma forma de descrever a relação entre as entradas
e as saídas, é que cada neurônio realize uma operação matemática simples em seus
inputs e passe o resultado para o próximo neurônio ou faz diretamente a predição de
qual resultado deveria ser observado. Nesse sentido, o resultado final da predição feita
por um modelo de rede neural artificial é como a ponderação de diversos modelos mais
simples. Por exemplo, é possível desenvolver redes neurais utilizando apenas a combi-
nação de diversos modelos lineares.
A forma matemática exata do modelo de rede neural artificial é chamada de arquitetu-
ra. A arquitetura de uma rede neural artificial é definida pela organização das camadas
e pelo número de neurônios em cada camada. As camadas de entrada recebem as
variáveis de entrada, as camadas ocultas são as ponderações possíveis das variá-
veis de entrada e as camadas de saída produzem as predições finais em relação às
variáveis de saída. A Figura 4 apresenta a demonstração de uma rede neural artificial
“rasa” (shallow) na qual existem quatro variáveis de entrada, seis variáveis latentes (ou
“neurônios artificiais”) e duas variáveis de saída. Cada neurônio artificial é uma unidade
de processamento que recebe um vetor de entrada (ou seja, uma combinação dos va-
lores das variáveis de entrada), realiza uma combinação linear dos valores de entrada
ponderados por pesos associados a cada conexão e aplica uma função de ativação
para realizar a predição. Os pesos são, simplesmente, como os coeficientes angulares
da análise de regressão linear. A função de ativação é uma fórmula matemática que re-
aliza uma combinação linear dos valores dos neurônios artificiais ponderados por pesos
que associam cada neurônio artificial a cada uma das saídas. Existem várias funções
de ativação comuns em redes neurais:
53
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
` Sigmoide (ou logística): Mapeia os valores de entrada para o intervalo (0, 1) e
é usada principalmente em camadas de saída de redes binárias.
` ReLU (Rectified Linear Unit): Define a saída como zero para entradas negati-
vas e a própria entrada para valores positivos. É uma das funções de ativação
mais populares nas camadas ocultas.
` Tangente Hiperbólica: Mapeia os valores de entrada para o intervalo (-1, 1) e é
usada em casos semelhantes aos da sigmoide.
Figura 04. Exemplo de diagrama de modelo de rede neural artificial rasa
Fonte: Produzido pelos autores, 2023.
As redes neurais rasas, como aquela exemplificada na Figura 04, são matematicamen-
te definidas como “aproximadores universais”. Esse nome é utilizadodado que existe
um teorema, chamado de teorema de aproximação universal, que prova que as redes
neurais rasas, usando a função logística (a fórmula representada na equação 8), são
capazes de aproximar qualquer outra função matemática, desde que haja um número
infinito de neurônios artificiais. No entanto, obviamente, não é possível utilizar um nú-
mero infinito de cálculos para resolver problemas na finitude de tempo que temos como
seres humanos. Tentando buscar maior eficiência nos modelos, alguns pesquisadores
começaram a desenvolver o que hoje se conhece como redes neurais artificiais pro-
fundas, conforme apresentado na Figura 05. A distinção entre as redes neurais rasas
e as profundas é que as redes neurais artificiais profundas apresentam duas ou mais
camadas ocultas.
54
Aprendizagem Supervisionada
2
Figura 05. Exemplo de diagrama de modelo de rede neural artificial profunda
Fonte: Produzido pelos autores, 2023.
De forma geral, as redes neurais artificiais profundas parecem apresentar um desem-
penho melhor do que as redes neurais artificiais rasas. No entanto, isso nem sempre é
verdade. De fato, muitas vezes as redes neurais, independentemente de serem rasas
ou profundas, têm performance similar a modelos paramétricos não-lineares, ou até
mesmo com modelos lineares nos quais foi feita uma melhor seleção das variáveis de
entrada. A área de estudos das redes neurais profundas é muito prolífica, mas ainda há
muito que não se sabe sobre problemas fundamentais da área. Assim, a cada dia são
criadas maneiras cada vez mais eficazes de se utilizar redes profundas e algo que era
muito inovador há cinco anos é frequentemente considerado hoje como ultrapassado.
Isso se dá tanto pelas muitas descobertas novas, quanto pelo fato de que muitas das
inovações são adquiridas a partir de “tentativa e erro”. De forma geral, isso significa que
há pouca compreensão do que faz algumas coisas funcionarem tão bem e outras não.
3.2. TREINAMENTO E USO DE REDES NEURAIS
O treinamento de redes neurais é o processo de ajustar os pesos das relações para que
a rede produza os resultados desejados para as variáveis de saída com base nos dados
de treinamento. O algoritmo de treinamento mais comum é o gradiente descendente, que
utiliza o gradiente da função de perda para minimizar o ruído do modelo. O gradiente é uma
medida que indica em qual direção (de redução ou de aumento) que é necessário alterar os
valores dos parâmetros do modelo para poder se reduzir o ruído do modelo. O aprendizado
supervisionado com redes neurais envolve treinar uma rede neural para fazer predições
com base em variáveis de entrada com relação direta com as variáveis de saída.
No entanto, anteriormente à análise em si dos dados, é necessário realizar uma diversi-
dade de passos, os quais buscam maximizar a validade das informações geradas. Em in-
glês existe a expressão garbage in; garbage out (GIGO). A tradução literal é “entra lixo; sai
55
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
lixo”. O “lixo” aqui está referenciando a escolha ruim de dados, a qual pode gerar vieses e
decisões equivocadas. Estudos na literatura têm demonstrado que IAs mal desenvolvidas
apresentam uma série de vieses e consequências sociais negativas, entre as quatro mais
marcantes: (i) IAs têm gerado oportunidades desiguais para pessoas de determinados
grupos raciais; (ii) IAs muitas vezes reproduzem discriminações raciais sistêmicas; (iii)
aplicações de IA muitas vezes não são aplicadas para estudar as condições de saúde
de grupos populacionais raciais específicos; e (iv) IAs são usadas com fins de controle
demográficos diferentes para pessoas com origens raciais diferentes.
Nesse sentido, é necessário seguir cinco passos gerais de definição de uma aplicação
ou pesquisa fundamentada em aprendizado de máquina, e especialmente com redes
neurais, com cuidados metodológicos reforçados:
Coleta de Dados: O processa de coleta de dados deve ser minuciosamente elaborado para
evitar que haja a inserção de vieses indesejados nos resultados. Assim, o propósito da coleta
é reunir um conjunto de dados que inclua exemplos de variáveis de entrada e variáveis de
saída que estejam alinhadas com os objetivos desejados. Em problemas de engenharia, as
relações entre as variáveis de entrada e de saída são evidentes. Por exemplo, ao se desen-
volver um veículo que seja capaz de se dirigir sozinho, sabemos que informações visuais
(como as placas, a posição das pessoas na rua e a sinalização horizontal) e auditivas (como
a buzina de outro veículo ou a frenada de um carro) são influências fundamentais ao com-
portamento da direção de um carro. No entanto, no contexto científico, quando estudamos
fenômenos que não são passíveis de experimentação, é difícil estabelecer relações causais.
Por exemplo, no estudo das causas do câncer de pulmão e sua relação com o uso de cigar-
ro, não é eticamente viável fazer um experimento com randomização de quem usa ou não
cigarro para se observar quem desenvolve ou não câncer no pulmão.
Assim, muitas vezes no contexto científico o que define o que é uma variável de entrada ou
uma variável de saída não é resolvido de forma trivial, sendo o produto da convergência da
construção coletiva das pesquisas no tema em questão. Ainda em outra possibilidade, que
tem sido bastante comum no caso de aplicações de Processamento de Linguagem Natural, é
a mineração de dados. A mineração de dados envolve, principalmente, a identificação e or-
ganização de dados secundários, ou seja, informações que foram originalmente coletadas por
outras pessoas. Os detalhes dos procedimentos de coleta de dados fogem ao escopo desta
disciplina, sendo mais adequados a uma disciplina de métodos de pesquisa. Em conclusão, é
fundamental saber qual informação levantar e como levanta-la da forma mais adequada.
Definição da Arquitetura da Rede: Após a definição de como ocorrerá a coleta de dados, é
necessário decidir qual a estrutura da rede neural, incluindo o número de camadas, o número
de neurônios em cada camada e as funções de ativação que serão utilizadas. Esse procedi-
mento, como descrito anteriormente, muitas vezes se dá a partir de tentativa e erro, sendo que
ainda não existem orientações muito específicas na área. No entanto, existem orientações
gerais que podem ser úteis a depender de cada aplicação específica. Por exemplo, a função
de ativação ReLU pode ser interessante em contextos nos quais existam algum tipo de “limiar”
para se definir alguma ação. No contexto de veículos autônomos, a função ReLU pode ajudar
a indicar qual a distância mínima que o veículo em questão pode estar de obstáculos antes de
começar a frear. A compreensão dessas, e outras, modificações que podem ser feitas nos mo-
delos, e qual impacto elas têm no conjunto de dados, vão sendo adquiridos a partir da prática.
56
Aprendizagem Supervisionada
2
Ajuste de Hiperparâmetros: No contexto do aprendizado de máquinas, o termo “hiperparâ-
metros” é utilizado com dois significados bastante distintos. No primeiro deles, os hiperparâ-
metros são compreendidos como os parâmetros que definem o comportamento dos algoritmos
de otimização. Nesse caso, esses parâmetros não estão relacionados diretamente com o parâ-
metro, mas apenas como ocorre o treinamento do modelo aos dados. Para esse uso, dizemos,
por exemplo, que se realiza a escolha da taxa de aprendizado e do número de épocas de
treinamento. No segundo significado de hiperparâmetros estão os “parâmetros fixos” (termino-
logia mais comumente utilizada em estatística), que são parâmetros do modelo em si, mas não
estimados a partir do treino. Por exemplo, a definição da arquitetura de rede ou a definição da
irrelevância de um neurônio em relação a uma variável de saída são exemplos de hiperparâ-
metros do modelo. Salienta novamente neste ponto que esses dois tipos de hiperparâmetros
são geralmente chamados apenas de hiperparâmetros nos materiais daárea e, portanto, é
necessário utilizar o contexto para se ter certeza de qual uso está sendo utilizado.
Avaliação do Desempenho: O último passo envolve o treinamento e a avaliação do desem-
penho do modelo. O treinamento é feito a partir de um algoritmo de otimização para ajustar
os pesos da rede de forma que as previsões se aproximem dos valores das variáveis de sa-
ída nos dados de treinamento. O desempenho final do modelo é feito utilizando as métricas
de avaliação e da capacidade do modelo de generalizar seu aprendizado para os dados de
teste. “Generalizar o aprendizado” é definido como uma mudança quase nula em relação à
magnitude da diferença do desempenho nos dados de treinamento e nos dados de teste.
4. INTRODUÇÃO ÀS APLICAÇÕES COMPUTACIONAIS EM DEEP
LEARNING
A área de aprendizado de máquina com o uso de redes neurais profundas recebe o
nome de Deep Learning, ou aprendizado profundo. Seu principal objetivo tem sido a
compreensão mais detalhada de como as redes neurais artificiais profundas de fato
funcionam e como elas podem ser utilizadas para realizar tarefas complexas de forma
automatizada. Em objetivos mais secundários, pesquisadores têm se interessado em
identificar paralelos entre os modelos computacionais da área e quais suas reais simi-
litudes com o funcionamento do cérebro humano e quais implicações isso poderia ter
para a generalidade dos tipos de inteligência criados com esses métodos. Nesse sen-
tido, o aprendizado profundo revoluciona uma série de aplicações em diversos setores
da sociedade.
4.1. APLICAÇÕES EM VISÃO COMPUTACIONAL
Uma das áreas mais impactadas pelo Deep Learning é a visão computacional. A capaci-
dade de processar e entender imagens de forma semelhante ao ser humano tem levado
a avanços significativos em muitas aplicações:
` Reconhecimento de Imagens: Sistemas de Deep Learning podem identificar
objetos, rostos, números de placas de carros e até mesmo animais em imagens
com alta precisão.
57
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
` Detecção de Objetos: Essa tecnologia é usada em sistemas de vigilância para
detectar e rastrear objetos em tempo real, sendo aplicada na segurança e no
tráfego, por exemplo.
` Segmentação de Imagens: A capacidade de dividir uma imagem em segmentos
permite, por exemplo, a segmentação de imagens de satélite para identificação
de recursos naturais.
` Realidade Aumentada e Realidade Virtual: O Deep Learning possibilita a cria-
ção de experiências imersivas, como jogos e simulações mais realistas, além de
aplicações de treinamento e educação.
4.2. PROCESSAMENTO DE LINGUAGEM NATURAL (NLP)
O Deep Learning também tem revolucionado o processamento de linguagem natural,
permitindo que os computadores compreendam e gerem texto de forma mais eficaz:
` Tradução Automática: Sistemas de tradução automática baseados em Deep
Learning, como o Google Translate, têm melhorado significativamente a tradução
entre idiomas.
` Chatbots e Assistência Virtual: Chatbots alimentados por modelos de lingua-
gem natural, como o ChatGPT e o Copilot, são usados para fundamentar a cria-
ção de bots especializados em atendimento ao cliente, assistência pessoal e
suporte técnico automatizado.
` Sumarização de Texto: O Deep Learning é aplicado para resumir automatica-
mente textos longos, tornando a leitura e o entendimento mais eficientes.
` Análise de Sentimento: Empresas utilizam análise de sentimentos baseada em
Deep Learning para compreender como seus produtos ou serviços estão sendo
percebidos pelos clientes.
4.3. MEDICINA E CIÊNCIAS DA VIDA
Em medicina e ciências da vida, o Deep Learning tem tido um impacto significativo:
` Diagnóstico Médico: Modelos de Deep Learning são usados para identificar
doenças a partir de imagens médicas, como radiografias, ressonâncias
magnéticas e tomografias computadorizadas.
` Descoberta de Medicamentos: Pesquisadores utilizam algoritmos de Deep Le-
arning para analisar grandes conjuntos de dados moleculares e identificar candi-
datos a medicamentos.
58
Aprendizagem Supervisionada
2
` Genômica: O Deep Learning é aplicado para analisar e interpretar sequências
de DNA, ajudando a entender melhor a genética e as manifestações patológicas.
4.4. INDÚSTRIA E MANUFATURA
Na indústria e manufatura, o Deep Learning é utilizado para otimizar processos e
melhorar a eficiência:
` Manutenção Preditiva: Sistemas de Deep Learning podem prever falhas em
máquinas e equipamentos, permitindo manutenção preventiva.
` Controle de Qualidade: São usados para inspecionar produtos e identificar de-
feitos em linhas de produção.
` Automação Robótica: Robôs com visão computacional baseada em Deep Lear-
ning são usados em tarefas complexas de montagem e manipulação.
4.5. VEÍCULOS AUTÔNOMOS
A indústria automobilística tem se beneficiado enormemente do Deep Learning na bus-
ca por veículos autônomos mais seguros e eficientes:
` Navegação e Condução Autônoma: Redes neurais processam informações de
sensores, como câmeras e radares, para permitir que veículos autônomos nave-
guem e tomem decisões no trânsito.
` Detecção de Pedestres e Objetos: Sistemas de Deep Learning são usados
para identificar pedestres, outros veículos e obstáculos na estrada.
` Prevenção de Acidentes: Alertas de colisão e sistemas de frenagem automática
são acionados por algoritmos de Deep Learning.
Nas próximas unidades desta disciplina iremos aprender como implementar alguns des-
ses procedimentos. Serão usados estudos de casos relativamente simples, a partir dos
quais o domínio das técnicas básicas irá estabelecer o fundamento para resolver pro-
blemas mais complexos e de maior impacto.
CONCLUSÃO
Neste capítulo, vimos que para uma aplicação adequada dos procedimentos de apren-
dizado supervisionado diversas outras questões precisam ser adequadamente traba-
lhadas. Por exemplo, a necessidade de grandes volumes de dados de treinamento a
depender do objetivo, o risco de sobreajuste e questões éticas em relação aos dados
e ao viés algorítmico. Trabalharemos de forma mais aprofundada nessas e em outras
59
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
questões nas próximas seções desta e das próximas unidades. De qualquer forma, é
importante salientar que o aprendizado supervisionado desempenha, e muito provavel-
mente continuará desempenhando, um papel importante no avanço de tecnologias e
aplicações em várias áreas.
O desenvolvimento de modelos mais robustos, interpretação de resultados e aborda-
gens para lidar com questões éticas são áreas de pesquisa em crescimento. Assim,
ressalta-se que o aprendizado supervisionado é uma abordagem poderosa que per-
mite que sistemas de computadores aprendam a partir de dados e façam previsões
ou tomem decisões com base nesse aprendizado. Com a ampla gama de aplicações
e contínuos avanços, o aprendizado supervisionado é indispensável na resolução de
problemas complexos em ciência e engenharia.
Entre as possibilidades de aplicações do aprendizado supervisionado que apresentam
fácil interpretação das informações, discutimos alguns exemplos de modelos lineares.
Esses modelos se apresentam como uma ferramenta valiosa em aprendizado de má-
quina e encontram aplicações em uma variedade de problemas, desde regressão (ou
seja, quando queremos predizer variáveis de saída com valores contínuos) até classi-
ficação (ou seja, quando queremos predizer variáveis de saída com valores categóri-
cos). Embora sejam simples e interpretáveis, é importante reconhecer suas limitações e
considerar técnicas de regularização quando necessário. Os modelos lineares são uma
base sólida para começar a abordar problemas do mundo real e entender os conceitos
básicos de aprendizado supervisionado.
No outro lado do contínuo de complexidade dos modelos para aprendizado supervisio-
nado, discutimos sobre os princípios, as limitações e as principais aplicações das redes
neurais.Reforçamos um ponto mais implícito anteriormente de que, embora as redes
neurais tenham obtido resultados impressionantes em muitas tarefas, elas magnificam
os problemas relacionados à necessidade de grandes conjuntos de dados de treina-
mento, ao risco de sobreajuste e ao alto custo computacional. Avanços recentes, como
arquiteturas de redes neurais profundas (deep learning) e técnicas de regularização,
têm contribuído para superar alguns desses desafios.
De qualquer forma, as redes neurais desempenham um papel central no aprendizado
supervisionado moderno, especialmente nos contextos de engenharia, permitindo que
sistemas de computadores aprendam com dados rotulados e façam previsões ou tomem
decisões. Com uma variedade de arquiteturas e funções de ativação disponíveis, as re-
des neurais podem ser adaptadas para uma ampla gama de problemas em diferentes
domínios. Compreender os fundamentos das redes neurais é essencial para se estar atu-
alizado sobre todos os potenciais do aprendizado de máquina em aplicações do mundo
real de maior impacto. De fato, a grande maioria das ferramentas de inteligência artificial
disponíveis ao público atualmente são baseadas em modelos de redes neurais.
Assim, concluímos que embora as aplicações de deep learning sejam amplas e promis-
soras, a tecnologia também enfrenta desafios. Estes incluem a necessidade de grandes
conjuntos de dados rotulados, a interpretabilidade dos modelos complexos e questões
éticas relacionadas à privacidade e ao viés algorítmico. As aplicações de modelos de
deep learning estão transformando a maneira como abordamos problemas complexos
60
Aprendizagem Supervisionada
2
em várias indústrias e campos da ciência. Ao aproveitar o poder das redes neurais pro-
fundas e grandes conjuntos de dados, as máquinas estão se tornando cada vez mais pro-
ficientes em tarefas que antes eram consideradas exclusivamente humanas. À medida
que a tecnologia avança, mudanças socioeconômicas profundas, para todos, precisam
ser tratadas e discutidas, especialmente por aqueles que dominam essas ferramentas.
61
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
REFERÊNCIAS BIBLIOGRÁFICAS
BOMMASANI, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J.,
Bosselut, A., Brunskill, E., Brynjolfsson, E., Buch, S., Card, D., Castellon, R., Chatterji, N., Chen, A., Creel,
K., Davis, J. Q., Demszky, D., … Liang, P. (2022). On the Opportunities and Risks of Foundation Models (arX-
iv:2108.07258). arXiv. https://doi.org/10.48550/arXiv.2108.07258
BONACCORSO, G. (2017). Machine learning algorithms. Packt Publishing Ltd.
BURKOV, A. (2019). The hundred-page machine learning book. Andriy Burkov.
BURKOV, A. (2020). Machine learning engineering. True Positive Incorporated.
Chen, Z., & Liu, B. (2018). Lifelong machine learning. Morgan & Claypool Publishers.
CYBENKO, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Sig-
nals and Systems, 2(4), 303-314.
ELIASMITH, C. (2013). How to build a brain: A neural architecture for biological cognition. OUP USA.
ESCOVEDO, T., & Koshiyama, A. (2020). Introdução a Data Science: Algoritmos de Machine Learning e mé-
todos de análise. Casa do Código.
FACELI, K., Lorena, A. C., Gama, J., Almeida, T. A. D., & Carvalho, A. C. P. D. L. F. D. (2021). Inteligência
artificial: uma abordagem de aprendizado de máquina. LTC.
GÉRON, A. (2021). Mãos à obra: aprendizado de máquina com Scikit-Learn. Keras & TensorFlow: Conceitos,
ferramentas e técnicas para a construção de sistemas inteligentes. Altas Books.
GOODFELLOW, I., Bengio Y., & Courville, A. (2017). Deep Learning. MIT Press.
HARRISON, M. (2019). Machine Learning–Guia de referência rápida: trabalhando com dados estruturados
em Python. Novatec Editora.
INTAHCHOMPHOO, C., & Gundersen, O. E. (2020). Artificial intelligence and race: A systematic review. Legal
Information Management, 20(2), 74-84.
IZBICKI, R., & dos Santos, T. M. (2020). Aprendizado de máquina: uma abordagem estatística. Rafael Izbicki.
JAMES, G., Witten, D., Hastie, T., Tibshirani, R., & Taylor, J. (2023). An Introduction to Statistical Learning: with
Applications in Python. Springer International Publishing.
KHAN, K. (2023). Modern research methods in computer science. Good Reads.
LECUN, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.
LIN, J., Nogueira, R., & Yates, A. (2022). Pretrained transformers for text ranking: BERT and beyond. Springer
Nature.
62
Aprendizagem Supervisionada
2
MCKINNEY, W. (2018). Python para análise de dados: Tratamento de dados com Pandas, NumPy e IPython.
Novatec Editora.
MORETTIN, P. A., & Singer, J. D. M. (2022). Estatística e ciência de dados. LTC.
Mueller, J. P., & Massaron, L. (2019). Aprendizado de máquina para leigos. Alta Books Editora.
MURPHY, K. P. (2022). Probabilistic machine learning: an introduction. MIT press.
MURPHY, K. P. (2023). Probabilistic machine learning: Advanced topics. MIT press.
RASCHKA, S., & Mirjalili, V. (2019). Python machine learning: Machine learning and deep learning with Py-
thon, scikit-learn, and TensorFlow. Packt Publishing Ltd.
ROSENBLATT, F. (1958). The perceptron: A probabilistic model for information storage and organization in the
brain. Psychological Review, 65(6), 386–408. https://doi.org/10.1037/h0042519
ROTHMAN, D. (2021). Transformers for Natural Language Processing: Build innovative deep neural network
architectures for NLP with Python, PyTorch, TensorFlow, BERT, RoBERTa, and more. Packt Publishing Ltd.
RUMELHART, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating
errors. Nature, 323(6088), 533–536. https://doi.org/10.1038/323533a0
RUMELHART, D. E., McClelland, J. L., & Group, P. R. (1986). Parallel Distributed Processing: Explorations in
the Microstructure of Cognition: Foundations. https://doi.org/10.7551/mitpress/5236.001.0001
SAMARTINI, A., Barth, N. L., & Sicsú, A. L. (2023). Técnicas de Machine Learning. Blucher.
SILVEIRA, G., & Bullock, B. (2017). Machine Learning: introdução a classificação. Editora Casa do Código.
STOROPOLI, J., Huijzer, R., & Alonso, L. (2021). Julia Data Science: Edição em Português. JuliaHub, Inc.
SUTSKEVER, I., Martens, J., Dahl, G., & Hinton, G. (2013, May). On the importance of initialization and mo-
mentum in deep learning. In International conference on machine learning (pp. 1139-1147). PMLR.
TAULLI, T. (2020). Introdução à Inteligência Artificial: Uma abordagem não técnica. Novatec Editora.
TEIXEIRA, João de Fernandes. O que é inteligência artificial. E-galáxia; 3ª edição (4 junho 2019).
THIEL, D. V. (2014). Research methods for engineers. Cambridge University Press.
TUNSTALL, L., Von Werra, L., & Wolf, T. (2022). Natural language processing with transformers. O’Reilly
Media, Inc.
VASWANI, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I.
(2017). Attention Is All You Need (arXiv:1706.03762). arXiv. https://doi.org/10.48550/arXiv.1706.03762
63
2
Inteligência artificial e machine learning
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co

USF_EAD_U2_Inteligência_artificial_e_machine_learning

USF

Ferramentas de estudo

Conteúdos escolhidos para você

GE_Machine Learning_Unidade IV_DIGITAL PAGES

Mineração de dados - CAP 3

SIMULADO1 - Inteligência Artificial para CAIXA - 2024

CLASSIFICAÇÂO-E-PREDIÇÃO

Aula 05 - Aprendizado Supervisionado

Perguntas dessa disciplina

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

Pergunta 1. Os Sistemas de Informação Geográfica (SIG) permitem a integração e análise de diferentes tipos de dados geoespaciais organizados em camada

A transição do Perceptron para a Rede Neural Multicamadas (MLP) representa um salto fundamental na capacidade de representação dos modelos conexionist

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

No desenvolvimento de sistemas inteligentes para reconhecimento de padrões em dados complexos, a escolha da arquitetura de rede neural é um fator dete

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

GE_Machine Learning_Unidade IV_DIGITAL PAGES

Mineração de dados - CAP 3

SIMULADO1 - Inteligência Artificial para CAIXA - 2024

CLASSIFICAÇÂO-E-PREDIÇÃO

Aula 05 - Aprendizado Supervisionado

Perguntas dessa disciplina

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

Pergunta 1. Os Sistemas de Informação Geográfica (SIG) permitem a integração e análise de diferentes tipos de dados geoespaciais organizados em camada

A transição do Perceptron para a Rede Neural Multicamadas (MLP) representa um salto fundamental na capacidade de representação dos modelos conexionist

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

No desenvolvimento de sistemas inteligentes para reconhecimento de padrões em dados complexos, a escolha da arquitetura de rede neural é um fator dete

Mais conteúdos dessa disciplina