Apostila - Princípios Básicos do Aprendizado de Máquina

Outros

Assessoria de Comunicação

em 23/01/2025

Conteúdos escolhidos para você

17 pág.

SIMULADO1 - Inteligência Artificial para CAIXA - 2024

61 pág.

PROVA OBJETIVA - CONHECIMENTOS ESPECÍFICOS - CARGO 7

191 pág.

Aula 05 - Aprendizado Supervisionado

UNIP

Perguntas dessa disciplina

Entre 1950 e 1960, 0 cientista Frank Rosenblatt propôs 0 perceptron como 0 primeiro modelo para aprendizagem supervisionada, sendo que, para problemas

em, apenas, um dos vertices do poligono QUESTÃO 2 Valor: 1,0 Um estudo de Pesquisa Operacional consiste em, a partir de uma situação real existente...

UNIP

Desafio Prazo para envio: 31/12/25 23:59 Liberação do feedback: 01/01/26 00:00 As medidas de tendência central, como a média, a mediana e a moda,...

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

IBMR

mentas da qualidade são técnicas utilizadas com a finalidade de definir, mensurar, analisar e propor soluções para os problemas que interferem no dese

Material

Conteúdos escolhidos para você

17 pág.

SIMULADO1 - Inteligência Artificial para CAIXA - 2024

61 pág.

PROVA OBJETIVA - CONHECIMENTOS ESPECÍFICOS - CARGO 7

191 pág.

Aula 05 - Aprendizado Supervisionado

UNIP

Perguntas dessa disciplina

Entre 1950 e 1960, 0 cientista Frank Rosenblatt propôs 0 perceptron como 0 primeiro modelo para aprendizagem supervisionada, sendo que, para problemas

em, apenas, um dos vertices do poligono QUESTÃO 2 Valor: 1,0 Um estudo de Pesquisa Operacional consiste em, a partir de uma situação real existente...

UNIP

Desafio Prazo para envio: 31/12/25 23:59 Liberação do feedback: 01/01/26 00:00 As medidas de tendência central, como a média, a mediana e a moda,...

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

IBMR

mentas da qualidade são técnicas utilizadas com a finalidade de definir, mensurar, analisar e propor soluções para os problemas que interferem no dese

Prévia do material em texto

Princípios Básicos do
Aprendizado de Máquina
2
Princípios Básicos do
Aprendizado de Máquina
O aprendizado de máquina é a base da maioria das soluções modernas de inteligência
artificial. Uma familiaridade com os principais conceitos nos quais o aprendizado de
máquina é baseado é uma importante base para a compreensão da IA.
Objetivos de aprendizagem
Depois de concluir este módulo, você será capaz de:
● Descrever os conceitos básicos do aprendizado de máquina
● Identificar diferentes tipos de aprendizado de máquina
● Descreva as considerações sobre o treinamento e a avaliação de modelos
de aprendizado de máquina
● Descreva os principais conceitos de aprendizado profundo
● Use o aprendizado de máquina automatizado no Serviço do Azure Machine Learning
Pré-requisitos
Antes de iniciar este módulo, você deve ter:
● Um conhecimento básico de matemática
● Familiaridade com o Microsoft Azure e a computação em nuvem
Este módulo faz parte destes roteiros de aprendizagem
● Conceitos básicos de IA do Microsoft Azure: Visão geral da IA
Introdução
O que aprendizado da máquina?
Tipos de aprendizado de máquina
Regressão
Classificação binária
Classificação multiclasse
Clustering
Aprendizado
Azure Machine Learning
Resumo
3
Introdução
O aprendizado de máquina é, em muitos aspectos, a interseção de duas
disciplinas: ciência de dados e engenharia de software. O objetivo do
aprendizado de máquina é utilizar dados para criar um modelo preditivo que
possa ser incorporado a um aplicativo ou serviço de software. Para atingir esse
objetivo, é obrigatória a colaboração entre os cientistas de dados, que exploram
e preparam os dados antes de utilizá-los para treinar um modelo de aprendizado
de máquina, e os desenvolvedores de software, que integram os modelos aos
aplicativos em que são usados para prever novos valores de dados (um processo
conhecido como inferência).
Neste módulo, você vai explorar alguns dos principais conceitos nos quais o
machine learning se baseia, aprender a identificar diferentes tipos de modelos de
machine learning e analisar como os modelos de machine learning são treinados
e avaliados. Por fim, você saberá como utilizar o Microsoft Azure Machine
Learning para treinar e implantar um modelo de machine learning, sem a
necessidade de escrever nenhum código.
Observação
O aprendizado de máquina é baseado em técnicas matemáticas e estatísticas,
algumas das quais são descritas em um alto nível neste módulo. Mas não se preocupe
se você não for um especialista em matemática! O objetivo do módulo é ajudar você
a obter uma intuição de como o aprendizado de máquina funciona, manteremos a
matemática no mínimo necessário para entender os principais conceitos.
O que é o aprendizado de máquina?
O aprendizado de máquina tem suas origens na estatística e na modelagem
matemática de dados. A ideia fundamental do aprendizado de máquina é utilizar
dados de observações passadas para prever resultados ou valores desconhecidos.
Por exemplo:
● O proprietário de uma sorveteria pode usar um aplicativo que combina vendas
históricas e registros meteorológicos para prever quantos sorvetes provavelmente
serão vendidos em um determinado dia, com base na previsão do tempo.
● Um médico pode utilizar dados clínicos de pacientes anteriores para executar
testes automatizados que preveem se um novo paciente está em risco de
diabetes com base em fatores como peso, nível de glicose no sangue e outras
medidas.
● Um pesquisador na Antártica pode utilizar observações passadas para
automatizar a identificação de diferentes espécies de pinguins (como Adélia,
Gentoo ou Chinstrap) com base em medições das nadadeiras, bico e outros
atributos físicos da ave.
4
O aprendizado de máquina como uma função
Como o aprendizado de máquina é baseado na matemática e na estatística, é
comum pensar nos modelos de machine learning em termos matemáticos.
Fundamentalmente, um modelo de aprendizado de máquina é um aplicativo
de software que encapsula uma função para calcular um valor de saída com
base em um ou mais valores de entrada. O processo de definição dessa função
é conhecido como treinamento. Após a definição da função, você pode utilizá-
la para prever novos valores em um processo chamado inferência.
Vamos explorar as etapas envolvidas no treinamento e na inferência.
Os dados de treinamento consistem em observações passadas. Na maioria dos
casos, as observações incluem os atributos observados ou recursos do objeto que
está sendo observado e o valor conhecido do objeto que você deseja treinar um
modelo para prever (conhecido como rótulo).
Em termos matemáticos, você verá com frequência os recursos serem referidos
utilizando o nome abreviado da variável x, e o rótulo ser referido como y.
Normalmente, uma observação consiste em vários valores de recursos, de modo
que x é, na verdade, um vetor (uma matriz com vários valores), da seguinte forma:
[x1,x2,x3,...].
Para deixar isso mais claro, vamos considerar os exemplos descritos anteriormente:
● No cenário de vendas de sorvete, nosso objetivo é treinar um modelo que possa
prever o número de vendas de sorvete com base na previsão do tempo. As
medidas meteorológicas do dia (temperatura, precipitação, velocidade do vento
etc.) serão os recursos (x), e o número de sorvetes vendidos em cada dia será o
rótulo (y).
1.
5
● No cenário médico, o objetivo é prever se um paciente está ou não em
risco de diabetes com base nas suas medições clínicas. As medidas do
paciente (peso, nível de glicose no sangue etc.) são recursos (x), e a probabilidade
de diabetes (por exemplo, 1 para em risco, 0 para sem risco) é o rótulo (y).
● No cenário de pesquisa na Antártica, desejamos prever a espécie de um pinguim
com base em seus atributos físicos. As principais medidas do pinguim
(comprimento das nadadeiras, largura da cobrança e assim por diante) são os
recursos (x) e a espécie (por exemplo, 0 para Adélia, 1 para Gentoo ou 2 para
Chinstrap) é o rótulo (y).
Um algoritmo é aplicado aos dados para tentar determinar um relacionamento entre
os recursos e o rótulo e generalizar esse relacionamento como um cálculo que pode
ser executado em x para calcular y. O algoritmo específico usado depende do tipo
de problema preditivo que você está tentando resolver (há mais sobre este assunto
mais adiante), mas o princípio básico é tentar ajustar uma função aos dados, na qual
os valores dos recursos podem ser usados para calcular o rótulo.
O resultado do algoritmo é um modelo que encapsula o cálculo derivado pelo
algoritmo como uma função - vamos chamá-la de f. Em notação matemática:
y = f(x)
Agora que a fase de treinamento foi concluída, o modelo treinado pode ser utilizado
para inferência. O modelo é essencialmente um programa de software que
encapsula a função produzida pelo processo de treinamento. Você pode dar entrada
em um conjunto de valores de recursos e receber como saída uma previsão do
rótulo correspondente. Como a saída do modelo é uma previsão calculada pela
função, e não um valor observado, você verá com frequência a saída da função
mostrada como ŷ (que será deliciosamente verbalizado como "y-hat").
2.
3.
4.
Tipos de aprendizado de máquina
Existem vários tipos de aprendizado de máquina, e você deve aplicar o tipo
apropriado dependendo do que está tentando prever. Um detalhamento dos tipos
comuns de aprendizado de máquina será mostrado no diagrama a seguir.
6
Machine Learning supervisionado
O aprendizado de máquina Supervisionado é um termo geral para algoritmos
de aprendizado de máquina em que os dados de treinamento incluem valores
de recursos e valores conhecidos de rótulo. O aprendizado de máquina
supervisionado é utilizado para treinar modelos determinando um relacionamento
entre os recursos e os rótulos em observações passadas, de modo que rótulos
desconhecidos possam ser previstos para recursos em casos futuros.
RegressãoRegressão é uma forma de aprendizado de máquina supervisionado em que o
rótulo previsto pelo modelo é um valor numérico. Por exemplo:
● O número de sorvetes vendidos em um determinado dia,
com base na temperatura, na chuva e na velocidade do vento.
● O preço de venda de um imóvel com base no seu tamanho em pés quadrados, no
número de quartos que contém e nas métricas socioeconômicas da sua localização.
● A eficiência de combustível (em milhas por galão) de um carro com
base no tamanho do motor, peso, largura, altura e comprimento.
Classificação
Classificação é uma forma de aprendizado de máquina supervisionado
em que o rótulo representa uma categorização, ou classe.
Existem dois cenários comuns de classificação.
Classificação binária
Na classificação binária, o rótulo determina se o item observado é (ou não é) uma
instância de uma classe específica. Em outras palavras, os modelos de classificação
binária preveem um de dois resultados mutuamente exclusivos. Por exemplo:
● Se um paciente está em risco de diabetes com base em métricas clínicas
como peso, idade, nível de glicose no sangue e assim por diante.
● Se um cliente do banco ficará inadimplente em um empréstimo com
base na renda, no histórico de crédito, na idade e em outros fatores.
● Se um cliente da lista de emails responderá positivamente a uma oferta de
marketing com base nos atributos demográficos e nas compras anteriores.
Em todos esses exemplos, o modelo prevê uma previsão binária verdadeira/falsa
ou positiva/negativa para uma única classe possível.
Classificação multiclasse
A classificação multiclasse amplia a classificação binária para prever um
rótulo que representa uma das várias classes possíveis. Por exemplo:
● A espécie de um pinguim (Adélia, Gentoo ou Chinstrap)
com base em suas medidas físicas.
● O gênero de um filme (comédia, terror, romance, aventura ou ficção científica)
com base na equipe de elenco, no diretor e no orçamento.
Na maioria dos cenários que envolvem um conjunto conhecido de várias classes,
a classificação multiclasse é utilizada para prever rótulos mutuamente exclusivos.
Por exemplo, um pinguim não pode ser um Gentoo e um Adélia.
7
Entretanto, há também alguns algoritmos que você pode utilizar para treinar
os modelos de classificação com vários rótulos, nos quais pode existir mais de
um rótulo válido para uma única observação. Por exemplo, um filme poderia
ser potencialmente categorizado como ficção científica e comédia.
Aprendizado de máquina não supervisionado
O aprendizado de máquina não supervisionado envolve o treinamento de modelos
usando dados que consistem apenas em valores de recursos sem rótulos conhecidos.
Os algoritmos de aprendizado de máquina não supervisionados determinam
relacionamentos entre os recursos das observações nos dados de treinamento.
Clustering
A forma mais comum de aprendizado de máquina não supervisionado é o clustering.
Um algoritmo de clustering identifica semelhanças entre observações com base nos
seus recursos e as agrupa em clusters discretos. Por exemplo:
● Agrupe flores semelhantes com base no tamanho,
no número de folhas e no número de pétalas.
● Identificar os grupos de clientes semelhantes com base nos atributos
demográficos e no comportamento de compra.
Em alguns aspectos, o clustering é semelhante à classificação multiclasse, pois
categoriza as observações em grupos discretos. A diferença é que, ao usar a
classificação, você já conhece as classes às quais pertencem as observações nos
dados de treinamento; portanto, o algoritmo funciona determinando o
relacionamento entre os recursos e o rótulo de classificação conhecido. No
clustering, não existe um rótulo de cluster previamente conhecido e o algoritmo
agrupa as observações de dados com base puramente na similaridade dos recursos.
Em alguns casos, o clustering é utilizado para determinar o conjunto de classes
existentes antes de treinar um modelo de classificação. Por exemplo, você deve usar
o clustering para segmentar seus clientes em grupos e, em seguida, analisar esses
grupos para identificar e categorizar diferentes classes de clientes (alto valor - baixo
volume, pequenos compradores frequentes e assim por diante). Em seguida, você
pode usar suas categorizações para rotular as observações nos resultados do
clustering e usar os dados rotulados para treinar um modelo de classificação que
preveja a qual categoria de cliente um novo cliente pode pertencer.
Regressão
Os modelos de regressão são treinados para prever valores numéricos de rótulo
com base em dados de treinamento que incluem recursos e rótulos conhecidos.
O processo de treinamento de um modelo de regressão (ou qualquer modelo de
machine learning supervisionado) envolve várias iterações nas quais você usa um
algoritmo apropriado (geralmente com algumas configurações parametrizadas)
para treinar um modelo, avaliar o desempenho preditivo do modelo e refinar o
modelo repetindo o processo de treinamento com algoritmos e parâmetros
diferentes até atingir um nível aceitável de precisão preditiva.
8
O diagrama mostra quatro elementos-chave do processo de treinamento
de modelos de machine learning supervisionados:
1. Divida os dados de treinamento (aleatoriamente) para criar um conjunto de
dados com o qual treinar o modelo, mantendo um subconjunto dos dados
que você usará para validar o modelo treinado.
2. Usar um algoritmo para ajustar os dados de treinamento a um modelo. No
caso de um modelo de regressão, use um algoritmo de regressão, como
regressão linear.
3. Use os dados de validação retidos para testar o modelo prevendo rótulos
dos recursos.
4. Compare os rótulos reais conhecidos no conjunto de dados de validação com
os rótulos previstos pelo modelo. Em seguida, agregue as diferenças entre os
valores de rótulo previstos e reais para calcular uma métrica que indica a
precisão do modelo previsto para os dados de validação.
Após cada treinamento, validação e iteração de avaliação, você pode repetir o
processo com diferentes algoritmos e parâmetros até que uma métrica de
avaliação aceitável seja alcançada.
Exemplo – regressão
Vamos explorar a regressão com um exemplo simplificado no qual treinaremos
um modelo para prever um rótulo numérico (y) com base em um único valor de
recurso (x). A maioria dos cenários reais envolve vários valores de recurso, o que
adiciona complexidade, mas o princípio é o mesmo.
Para nosso exemplo, vamos manter o cenário de vendas de sorvetes que
discutimos anteriormente. Para nosso recurso, consideraremos
a temperatura (vamos supor que o valor seja a temperatura máxima em um
determinado dia), e o rótulo que queremos treinar um modelo para prever
é a quantidade de sorvetes vendidos naquele dia.
9
Começaremos com alguns dados históricos que incluem registros
de temperaturas diárias (x) e vendas de sorvetes (y):
Temperatura (x) Vendas de sorvete (y)
51 1
52 0
67 14
65 14
70 23
69 20
72 23
75 26
73 22
81 30
78 26
83 36
Treinar um modelo de regressão
Começaremos dividindo os dados e usando um subconjunto
dele para treinar um modelo.
Aqui está o conjunto de dados de treinamento:
Temperatura (x) Vendas de sorvete (y)
51 1
65 14
69 20
72 23
75 26
81 30
10
Para obter um insight de como esses valores x e y podem se relacionar
uns com os outros, podemos mostra-los em gráficos como
coordenadas ao longo de dois eixos, dessa forma:
Agora estamos prontos para aplicar um algoritmo aos nossos dados de
treinamento e ajustá-lo a uma função que aplica uma operação a x para calcular
y. Um desses algoritmos é a regressão linear, que funciona derivando uma função
que produz uma linha reta através das interseções dos valores x e y, minimizando
a distância média entre a linha e os pontos mostrados no gráfico, dessa forma:
A linha é uma representação visual da função na qual a inclinação da linha
descreve como calcular o valor de y de um determinado valor de x.A linha
intercepta o eixo x em 50, portanto, quando x é 50, y é 0. Como você pode
ver nos marcadores de eixo no gráfico, a linha inclina para que cada aumento
de 5 ao longo do eixo x resulte em um aumento de 5 no eixo y.
11
Portanto, quando x é 55, y é 5, quando x é 60, y é 10 e assim por diante.
Para calcular um valor de y de um determinado valor de x, a função
simplesmente subtrai 50. Em outras palavras, a função pode ser
expressa dessa forma:
f(x) = x-50
Você pode usar essa função para prever o número de sorvetes vendidos
em um dia com uma temperatura determinada. Por exemplo, suponha
que a previsão do tempo nos diga que amanhã será de 77 ºF (25 ºC).
Podemos aplicar nosso modelo para calcular 77-50 e prever
que venderemos 27 sorvetes amanhã.
Qual é a precisão do nosso modelo?
Avaliar um modelo de regressão
Para validar o modelo e avaliar o quão bem ele prevê, retivemos alguns dados para
os quais sabemos o valor do rótulo (y). Aqui estão os dados que foram retidos:
Temperatura (x) Vendas de sorvete (y)
52 0
67 14
70 23
73 22
78 26
83 36
Podemos usar o modelo para prever o rótulo de cada uma das observações
nesse conjunto de dados com base no valor do recurso (x) e, em seguida,
comparar o rótulo previsto (ŷ) com o valor de rótulo real conhecido (y).
Usar o modelo que treinamos anteriormente, que encapsula a função
f(x) = x-50, resulta nas seguintes previsões:
Temperatura (x) Vendas reais (y) Vendas previstas (ŷ)
52 0 2
67 14 17
70 23 20
73 22 23
78 26 28
83 36 33
12
Podemos mostrar no gráfico os rótulos previstos e os reais em relação
aos valores de recurso como esse:
Os rótulos previstos são calculados pelo modelo para que estejam na linha
de função, mas há uma variação entre os valores ŷ calculados pela função e
os valores y reais do conjunto de dados de validação, que é indicado no gráfico
como uma linha entre os valores ŷ e y que mostra a distância entre a previsão
e o valor real.
Métricas de avaliação de regressão
Com base nas diferenças entre os valores previstos e reais, você pode calcular
algumas métricas comuns que são usadas para avaliar um modelo de regressão.
MAE (Erro Médio Absoluto)
A variação nesse exemplo indica quantos sorvetes cada previsão errou.
Não importa se a previsão estava acima ou abaixo do valor real (portanto,
por exemplo, -3 e +3 indicam uma variação de 3). Essa métrica é conhecida
como o erro absoluto para cada previsão e pode ser resumida para todo o
conjunto de validação como o MAE (erro absoluto médio).
No exemplo do sorvete, a média dos erros absolutos (2, 3, 3, 1, 2 e 3) is 2,33.
EQM (erro quadrático médio)
A métrica do erro médio absoluto leva em conta todas as discrepâncias entre
rótulos previstos e reais igualmente. No entanto, seria preferível ter um modelo
consistentemente errado por uma pequena quantidade do que um que produz
menos erros, mas maiores. Uma maneira de produzir uma métrica que
"amplifica" erros maiores elevando ao quadrado os erros individuais e calculando
a média dos valores quadrados. Essa métrica é chamada de EQM
(erro quadrático médio).
Em nosso exemplo do sorvete, a média dos valores absolutos quadrados
(que são 4, 9, 9, 1, 4 e 9) é 6.
13
REQM (Raiz do Erro Quadrático Médio)
O erro quadrático médio ajuda a levar em conta a magnitude dos erros, mas como
ele eleva ao quadrado os valores de erro, a métrica resultante não representa mais a
quantidade medida pelo rótulo. Em outras palavras, podemos dizer que o EQM do
nosso modelo é 6, mas isso não mede sua precisão em termos do número de
sorvetes que foram previstos de forma errada; 6 é apenas uma pontuação numérica
que indica o nível do erro nas previsões de validação.
Se quisermos medir o erro em termos do número de sorvetes, precisamos calcular
a raiz quadrada do EQM, que produz uma métrica chamada raiz do erro
quadrático médio. Nesse caso, √6, que é 2,45 (sorvetes).
Coeficiente de determinação (R2)
Todas as métricas até agora comparam a discrepância entre os valores previstos e os
reais para avaliar o modelo. No entanto, na realidade, há uma variação aleatória
natural nas vendas diárias de sorvetes que o modelo leva em conta. Em um modelo
de regressão linear, o algoritmo de treinamento se ajusta em uma linha reta que
minimiza a variação média entre a função e os valores de rótulo conhecidos.
O coeficiente de determinação (mais comumente conhecido como R2 ou R ao
quadrado) é uma métrica que mede a proporção de variação nos resultados de
validação que podem ser explicados pelo modelo, em oposição a algum aspecto
anômalo dos dados de validação (por exemplo, um dia com um número de vendas
de sorvetes altamente incomum devido a um festival local).
O cálculo do R2 é mais complexo do que das métricas anteriores. Ele compara a
soma das diferenças quadradas entre rótulos previstos e os reais com a soma das
diferenças quadradas entre os valores de rótulo reais e a média dos valores de
rótulo reais, dessa forma:
R2 = 1- ∑(y-ŷ)2 ÷ ∑(y-ȳ)2
Não se preocupe muito se isso parece complicado. A maioria das ferramentas de
machine learning pode calcular a métrica para você. O ponto importante é que o
resultado é um valor entre 0 e 1 que descreve a proporção de variação explicada
pelo modelo. Em termos simples, quanto mais próximo de 1 esse valor for, melhor
será o ajuste dos dados de validação do modelo. No caso do modelo de regressão
do sorvete, o R2 calculado com base nos dados de validação é 0,95.
Treinamento iterativo
As métricas descritas acima são comumente usadas para avaliar um modelo de
regressão. Na maioria dos cenários do mundo real, um cientista de dados usará um
processo iterativo para treinar e avaliar repetidamente um modelo, variando:
•Seleção e preparação de recursos (escolhendo quais recursos incluir no modelo e
cálculos aplicados a eles para ajudar a garantir um ajuste melhor).
•Seleção de algoritmo (exploramos a regressão linear no exemplo anterior, mas há
muitos outros algoritmos de regressão)
•Parâmetros de algoritmo (configurações numéricas para controlar o
comportamento do algoritmo, mais precisamente chamados
de hiperparâmetros para diferenciá-los dos parâmetros x e y).
Após várias iterações, o modelo que resulta na melhor métrica de avaliação aceitável
para o cenário específico é selecionado.
14
REQM (Raiz do Erro Quadrático Médio)
O erro quadrático médio ajuda a levar em conta a magnitude dos erros, mas como
ele eleva ao quadrado os valores de erro, a métrica resultante não representa mais a
quantidade medida pelo rótulo. Em outras palavras, podemos dizer que o EQM do
nosso modelo é 6, mas isso não mede sua precisão em termos do número de
sorvetes que foram previstos de forma errada; 6 é apenas uma pontuação numérica
que indica o nível do erro nas previsões de validação. Se quisermos medir o erro
em termos do número de sorvetes, precisamos calcular a raiz quadrada do EQM,
que produz uma métrica chamada raiz do erro quadrático médio.
Nesse caso, √6, que é 2,45 (sorvetes).
Coeficiente de determinação (R2)
Todas as métricas até agora comparam a discrepância entre os valores previstos
e os reais para avaliar o modelo. No entanto, na realidade, há uma variação aleatória
natural nas vendas diárias de sorvetes que o modelo leva em conta. Em um modelo
de regressão linear, o algoritmo de treinamento se ajusta em uma linha reta que
minimiza a variação média entre a função e os valores de rótulo conhecidos.
O coeficiente de determinação (mais comumente conhecido como R2 ou R ao
quadrado) é uma métrica que mede a proporção de variação nos resultados de
validação que podem ser explicados pelo modelo, em oposição a algum aspecto
anômalo dos dados de validação (por exemplo, um dia com um número de vendas
de sorvetes altamente incomum devido a um festival local).
O cálculo do R2 é mais complexo do que das métricas anteriores. Ele compara a
soma das diferenças quadradas entre rótulos previstose os reais com a soma das
diferenças quadradas entre os valores de rótulo reais e a média dos valores de
rótulo reais, dessa forma:
R2 = 1- ∑(y-ŷ)2 ÷ ∑(y-ȳ)2
Não se preocupe muito se isso parece complicado. A maioria das ferramentas de
machine learning pode calcular a métrica para você. O ponto importante é que o
resultado é um valor entre 0 e 1 que descreve a proporção de variação explicada
pelo modelo. Em termos simples, quanto mais próximo de 1 esse valor for, melhor
será o ajuste dos dados de validação do modelo. No caso do modelo de regressão
do sorvete, o R2 calculado com base nos dados de validação é 0,95.
Treinamento iterativo
As métricas descritas acima são comumente usadas para avaliar um modelo de
regressão. Na maioria dos cenários do mundo real, um cientista de dados usará
um processo iterativo para treinar e avaliar repetidamente um modelo, variando:
● Seleção e preparação de recursos (escolhendo quais recursos incluir no modelo
e cálculos aplicados a eles para ajudar a garantir um ajuste melhor).
● Seleção de algoritmo (exploramos a regressão linear no exemplo anterior,
mas há muitos outros algoritmos de regressão)
● Parâmetros de algoritmo (configurações numéricas para controlar o comportamento
do algoritmo, mais precisamente chamados de hiperparâmetros para
diferenciá-los dos parâmetros x e y).
Após várias iterações, o modelo que resulta na melhor métrica de
avaliação aceitável para o cenário específico é selecionado.
15
Classificação binária
A classificação, como regressão, é uma técnica de machine learning supervisionada
e, portanto, segue o mesmo processo iterativo de treinamento, validação e
avaliação de modelos. Em vez de calcular valores numéricos como em um modelo
de regressão, os algoritmos usados para treinar modelos de classificação calculam
valores de probabilidade para atribuição de classe e as métricas de avaliação
usadas para aferir o desempenho do modelo e comparam as classes
previstas com as classes reais.
Os algoritmos de classificação binária são usados para treinar um modelo que
prevê um dos dois rótulos possíveis para uma única classe. Basicamente, a previsão
de verdadeiro ou falso. Na maioria dos cenários reais, as observações de dados
usadas para treinar e validar o modelo consistem em vários valores de recurso
(x) e um valor y que é 1 ou 0.
Exemplo – classificação binária
Para entender como funciona a classificação binária, vejamos um exemplo
simplificado que usa um único recurso (x) para prever se o rótulo y é 1 ou 0. Neste
exemplo, usaremos o nível de glicose no sangue de um paciente para prever se ele
tem diabetes ou não. Aqui estão os dados com os quais treinaremos o modelo:
Glicose no sangue (x) Diabético? (y)
67 0
103 1
114 1
72 0
116 1
65 0
Treinamento de um modelo de classificação binária
Para treinar o modelo, usaremos um algoritmo para ajustar os dados de
treinamento em uma função que calcula a probabilidade do rótulo de
classe ser verdadeiro (em outras palavras, que o paciente tem diabetes).
A probabilidade é medida como um valor entre 0,0 e 1,0, de modo que
a probabilidade total para todas as classes possíveis seja 1,0.
Então, por exemplo, se a probabilidade de um paciente ter diabetes é
de 0,7, então há uma probabilidade correspondente de 0,3 de que o
paciente não tenha diabetes.
16
Há muitos algoritmos que podem ser usados para classificação binária,
como regressão logística, que deriva uma função sigmoide (em forma de S) com
valores entre 0,0 e 1,0, desta forma:
Observação
Apesar do nome, no machine learning, a regressão logística é usada para classificação,
não para regressão. O ponto importante é a natureza logística da função produzida,
que descreve uma curva em forma de S entre um valor inferior e superior
(0,0 e 1,0 quando usado para classificação binária).
A função produzida pelo algoritmo descreve a probabilidade de y ser
verdadeiro (y=1) para um determinado valor de x. Matematicamente,
você pode expressar a função desta forma:
f(x) = P(y=1 | x)
Para três das seis observações nos dados de treinamento, sabemos que y é
definitivamente verdadeiro, portanto, a probabilidade para essas observações
que y=1 é 1,0 e, para as outras três, sabemos que y é definitivamente falso,
portanto, a probabilidade de y=1 é 0,0. A curva em forma de S descreve a
distribuição de probabilidade, então, ao traçar um valor de x na linha,
identifica-se a probabilidade correspondente de que y seja 1.
O diagrama também inclui uma linha horizontal para indicar o limite no qual um
modelo baseado nessa função preverá verdadeiro (1) ou falso (0). O limite está
no ponto médio de y (P(y) = 0,5). Para quaisquer valores neste ponto ou acima
dele, o modelo preverá verdadeiro (1); enquanto para quaisquer valores abaixo
deste ponto, preverá falso (0).
Por exemplo, para um paciente com 90 de nível de glicose no sangue, a função
resultaria em um valor de probabilidade de 0,9. Como 0,9 é maior que o limite
de 0,5, o modelo prevê verdadeiro (1).
Em outras palavras, a previsão é de que o paciente tem diabetes.
17
Avaliação de um modelo de classificação binária
Assim como ocorre com a regressão, ao treinar um modelo de classificação
binária, você retém um subconjunto aleatório de dados pra
validar o modelo treinado.
Vamos supor que retivemos os seguintes dados
para validar nosso classificador de diabetes:
Glicose no sangue (x) Diabético? (y)
66 0
107 1
112 1
71 0
87 1
89 1
A aplicação da função logística que derivamos anteriormente
aos valores x resulta no gráfico a seguir.
Com base na probabilidade calculada pela função estar acima ou abaixo do
limite, o modelo gera um rótulo previsto de 1 ou 0 para cada observação.
Em seguida, podemos comparar os rótulos de classe previstos (ŷ) com
os rótulos de classe reais (y), conforme mostrado aqui:
18
Glicose no
sangue (x)
Diagnóstico real
de diabetes (y)
Diagnóstico previsto
de diabetes (ŷ)
66 0 0
107 1 1
112 1 1
71 0 0
87 1 0
89 1 1
Métricas de avaliação de classificação binária
A primeira etapa no cálculo das métricas de avaliação de um modelo de
classificação binária geralmente é criar uma matriz do número de previsões
corretas e incorretas para cada rótulo de classe possível:
Essa visualização é chamada de
matriz de confusão e mostra os
totais da previsão em que:
● ŷ=0 e y=0: Verdadeiros negativos (TN)
● ŷ=1 e y=0: Falsos positivos (FP)
● ŷ=0 e y=1: Falsos negativos (FN)
● ŷ=1 e y=1: Verdadeiros positivos (TP)
A disposição da matriz de confusão é feita de forma que as previsões corretas
(verdadeiras) sejam mostradas em uma linha diagonal do canto superior
esquerdo ao canto inferior direito. Muitas vezes, a intensidade de cor é usada
para indicar o número de previsões em cada célula; portanto, uma olhada
rápida em um modelo que faz boas previsões deve revelar uma tendência
diagonal profundamente sombreada.
Exatidão
A métrica mais simples que você pode calcular com base na matriz de
confusão é a exatidão: a proporção de previsões que o modelo acertou.
A exatidão é calculada como:
(TN+TP) ÷ (TN+FN+FP+TP)
19
No caso do nosso exemplo de diabetes, o cálculo é:
2+3 ÷ (2+1+0+3)
= 5 ÷ 6
= 0,83
Assim, para nossos dados de validação, o modelo de classificação de diabetes
produziu previsões corretas em 83% das vezes.
Em um primeiro momento, a exatidão pode parecer uma boa métrica para
avaliar um modelo, mas considere o seguinte. Suponha que 11% da população
tenha diabetes. Você poderia criar um modelo que sempre prevê 0 e atingiria
uma exatidão de 89%, embora não faça nenhuma tentativa real de diferenciar
entre os pacientes avaliando suas características. O que realmente precisamos
é de uma compreensão mais profunda de como o modelo se sai ao
prever 1 para casos positivos e 0 para casos negativos.
Recall
Recall é uma métrica que mede a proporção de casos positivos identificados
corretamente pelo modelo. Em outras palavras, em comparaçãocom o número
de pacientes que têm diabetes, quantos o modelo previu ter diabetes?
A fórmula para o recall é:
TP ÷ (TP+FN)
Para nosso exemplo de diabetes:
3 ÷ (3+1)
= 3 ÷ 4
= 0,75
Assim, nosso modelo identificou corretamente 75% dos pacientes que têm
diabetes como diabéticos.
Precisão
Precisão é uma métrica semelhante ao recall, mas mede a proporção
de casos positivos previstos em que o rótulo verdadeiro é realmente positivo.
Em outras palavras, qual proporção dos pacientes previstos pelo
modelo como diabéticos realmente tem diabetes?
A fórmula para precisão é:
TP ÷ (TP+FP)
Para nosso exemplo de diabetes:
3 ÷ (3+0)
= 3 ÷ 3
= 1,0
Portanto, 100% dos pacientes previstos pelo nosso modelo
como diabéticos, de fato têm diabetes.
20
Medida F1
A medida F1 é uma métrica geral que combina recall e precisão.
A fórmula para medida F1 é:
(2 x Precisão x Recall) ÷ (Precisão + Recall)
Para nosso exemplo de diabetes:
(2 x 1,0 x 0,75) ÷ (1,0 + 0,75)
= 1,5 ÷ 1,75
= 0,86
Área sob a curva (AUC)
Outro nome para recall é a taxa de verdadeiros positivos (TPR) e há uma métrica
equivalente chamada taxa de falsos positivos (FPR) calculada como FP÷(FP+TN).
Já sabemos que a TPR do nosso modelo ao usar um limite de 0,5 é 0,75;
e podemos usar a fórmula para FPR para calcular um valor de 0÷2 = 0.
É claro que, se alterássemos o limite acima, a partir do qual o modelo
prevê verdadeiro (1), isso afetaria o número de previsões positivas e negativas;
E, portanto, alteraria as métricas de TPR e FPR. Essas métricas geralmente são
usadas para avaliar um modelo plotando uma curva característica de operação
do receptor (ROC) que compara a TPR e a FPR para cada valor
limite possível entre 0,0 e 1,0:
A curva ROC de um modelo
perfeito subiria diretamente pelo
eixo TPR à esquerda e, em
seguida, atravessaria o eixo FPR
na parte superior. Como a área de
plotagem para a curva mede 1x1,
a área perfeita sob essa curva seria
1,0 (o que significa que o modelo
está correto 100% das vezes).
Por outro lado, uma linha diagonal que vai do canto inferior esquerdo ao
canto superior direito representa os resultados que seriam obtidos ao
adivinhar aleatoriamente um rótulo binário; produzindo uma área sob a curva
de 0,5. Em outras palavras, considerando dois rótulos de classe possíveis,
você poderia esperar adivinhar corretamente 50% do tempo.
No caso do nosso modelo de diabetes, a curva acima é produzida e a área
sob a métrica de curva (AUC) é 0,875. Como a AUC é maior que 0,5,
podemos concluir que o modelo tem um desempenho melhor ao prever
se um paciente tem diabetes ou não do que adivinhar aleatoriamente.
21
Classificação multiclasse
A classificação multiclasse é utilizada para prever a qual das várias classes
possíveis uma observação pertence. Como uma técnica de aprendizado de
máquina supervisionada, ela segue o mesmo processo iterativo treinar, validar
e avaliar que a regressão e a classificação binária, no qual um subconjunto
dos dados de treinamento é retido para validar o modelo treinado.
Exemplo: classificação multiclasse
Os algoritmos de classificação multiclasse são utilizados para calcular valores
de probabilidades para rótulos de várias classes, habilitando um modelo
a prever a classe mais provável para uma determinada observação.
Vamos explorar um exemplo no qual temos algumas observações de pinguins,
em que o comprimento da nadadeira (x) de cada pinguim é registrado.
Para cada observação, os dados incluem a espécie do pinguim (y),
que é codificada da seguinte forma:
● 0: Adélia
● 1: Gentoo
● 2: Chinstrap
Observação
Como nos exemplos anteriores deste módulo, um cenário real incluiria vários valores
de recursos (x). Utilizaremos um único recurso para manter as coisas simples.
Comprimento da nadadeira (x) Espécie (y)
167 0
172 0
225 2
197 1
189 1
232 2
158 0
Treinamento de um modelo de classificação multiclasse
Para treinar um modelo de classificação multiclasse, precisamos utilizar um
algoritmo para ajustar os dados de treinamento a uma função que calcula
um valor de probabilidade para cada classe possível. Existem dois tipos
de algoritmo que você pode utilizar para fazer isso:
● Algoritmos One-vs-Rest (OvR)
● Algoritmos multinomiais
22
Algoritmos One-vs-Rest (OvR)
Os algoritmos One-vs-Rest treinam uma função de classificação binária para
cada classe, cada uma calculando a probabilidade de que a observação seja um
exemplo da classe de destino.
Cada função calcula a probabilidade de a observação ser de uma
classe específica em comparação com qualquer outra classe.
Para o nosso modelo de classificação de espécies de pinguins, o
algoritmo criaria essencialmente três funções de classificação binária:
● f0(x) = P(y=0 | x)
● f1(x) = P(y=1 | x)
● f2(x) = P(y=2 | x)
Cada algoritmo produz uma função sigmoide que calcula
um valor de probabilidade entre 0,0 e 1,0.
Um modelo treinado utilizando esse tipo de algoritmo prevê
a classe para a função que produz a saída de maior probabilidade.
Algoritmos multinomiais
Uma abordagem alternativa é utilizar um algoritmo multinomial, que cria
uma única função que retorna uma saída com vários valores.
A saída é um vetor (uma matriz de valores) que contém a distribuição de
probabilidades para todas as classes possíveis, com uma pontuação de
probabilidade para cada classe que, quando totalizada, adiciona 1,0:
f(x) =[P(y=0|x), P(y=1|x), P(y=2|x)]
Um exemplo desse tipo de função é uma função softmax, que poderia
produzir uma saída como a do exemplo a seguir:
[0.2, 0.3, 0.5]
Os elementos do vetor representam as probabilidades das classes 0, 1 e 2,
respectivamente; portanto, nesse caso, a classe com a maior probabilidade é 2.
Independentemente do tipo de algoritmo utilizado, o modelo usa a função
resultante para determinar a classe mais provável para um dado conjunto
de recursos (x) e prevê o rótulo da classe correspondente (y).
Avaliação de um modelo de classificação multiclasse
Você pode avaliar um classificador multiclasse calculando as métricas
de classificação binária para cada classe individual.
Alternativamente, você pode calcular as métricas de agregação
que levam em conta todas as classes.
23
Vamos supor que tenhamos validado nosso classificador
multiclasse e obtido os seguintes resultados:
Comprimento
da nadadeira (x)
Espécies
reais (y)
Espécies
Previstas (ŷ)
165 0 0
171 0 0
205 2 1
195 1 1
183 1 1
221 2 2
214 2 2
A matriz de confusão de
um classificador multiclasse
é semelhante à de um
classificador binário,
exceto pelo fato de mostrar
o número de previsões para
cada combinação de rótulos de
classe previsto (ŷ) e real (y):
A partir dessa matriz de confusão, podemos determinar as
métricas para cada classe individual da seguinte maneira:
Classe TP TN FP FN Exatidão Recall Precisão Pontuação F1
0 2 5 0 0 1.0 1.0 1.0 1.0
1 2 4 1 0 0,86 1.0 0.67 0,8
2 2 4 0 1 0,86 0.67 1.0 0,8
Para calcular as métricas de exatidão geral, recall e precisão,
você usa o total das métricas TP, TN, FP e FN:
● Exatidão geral = (13+6)÷(13+6+1+1) = 0,90
● Recordação geral = 6÷(6+1) = 0,86
● Precisão geral = 6÷(6+1) = 0,86
A pontuação F1 geral é calculada utilizando as métricas de recall e precisão gerais:
● Pontuação geral da F1 = (2x0,86x0,86)÷(0,86+0,86) = 0,86
24
Clustering
Clustering é uma forma de machine learning não supervisionado no qual as
observações são agrupadas em clusters com base em semelhanças em seus
valores de dados ou recursos. Esse tipo de machine learning é considerado
não supervisionado porque não usa valores de rótulos conhecidos
anteriormente para treinar um modelo. Em um modelo de clustering, o rótulo
é o cluster ao qual a observação é atribuída com base apenas em seus
recursos.
Exemplo - clustering
Por exemplo, suponha que um botânico observe uma amostra de flores
e registra o número de folhas e pétalas em cada flor:
Não há rótulos conhecidos no conjunto de dados, apenas dois recursos.O objetivo não é identificar os diferentes tipos (espécies) de flores; apenas
agrupar flores semelhantes com base no número de folhas e pétalas.
Folhas (x1) Pétalas (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8
25
Treinando um modelo de clustering
Há vários algoritmos que você pode usar para clustering. Um dos algoritmos
mais usados é o cluster K-means, que consiste nas seguintes etapas:
Os valores dos recursos (x) são vetorizados para definir coordenadas n-
dimensionais (onde n é o número de recursos). No exemplo da flor, temos dois
recursos: número de folhas (x1) e número de pétalas (x2). O vetor de recursos
tem, portanto, duas coordenadas, que podem ser usadas para plotar
conceitualmente os pontos de dados em um espaço bidimensional ([x1,x2])
Você decide quantos clusters deseja usar para agrupar as flores - chame esse
valor k. Por exemplo, para criar três clusters, você usaria um valor de k de 3.
Em seguida, os pontos k são plotados em coordenadas aleatórias. Esses se
tornam os pontos centrais de cada cluster e são chamados de centroides.
Cada ponto de dados (nesse caso, uma flor) é atribuído
ao seu centroide mais próximo.
Cada centroide é movido para o centro dos pontos de dados
atribuídos a ele com base na distância média entre os pontos.
Depois que o centroide é movido, os pontos de dados podem estar mais
próximos de um centroide diferente, portanto, os pontos de dados são
reatribuídos aos clusters com base no novo centroide mais próximo.
As etapas de movimentação de centroide e realocação de cluster
são repetidas até que os clusters se tornem estáveis ou um número
máximo de iterações predeterminado seja atingido.
A seguinte animação mostra esse processo:
1 2
3 4
5 6
26
Avaliando um modelo de clustering
Como não há um rótulo conhecido com o qual comparar as atribuições de
cluster previstas, a avaliação de um modelo de clustering se baseia em quão
bem os clusters resultantes são separados uns dos outros.
Há várias métricas que você pode usar para avaliar
a separação de cluster, incluindo:
● Distância média para o centro do cluster:
Qual a proximidade, em média, de cada ponto do cluster
em relação ao centroide do cluster.
● Distância média para o outro centro:
Qual a proximidade, em média, de cada ponto do cluster
em relação aos centroides de todos os outros clusters.
● Distância máxima até o centro do cluster:
A maior distância mais distante entre um ponto do cluster e seu centroide.
● Silhueta:
Um valor entre -1 e 1 que resume a proporção da distância
entre pontos no mesmo cluster e pontos em clusters diferentes
(quanto mais próximo de 1, melhor a separação do cluster).
Aprendizado
O aprendizado profundo é uma forma avançada de aprendizado de máquina
que tenta emular a maneira como o cérebro humano aprende. A chave para o
aprendizado profundo é a criação de uma rede neural artificial que simula a
atividade eletroquímica em neurônios biológicos utilizando funções
matemáticas, como mostrado aqui.
Rede Neural Biológica Rede Neural Artificial
Os neurônios disparam
em resposta aos estímulos
eletroquímicos. Quando
disparado, o sinal é passado
para os neurônios
conectados.
Cada neurônio é uma função
que opera em um valor de
entrada (x) e um peso (w). A função
é encapsulada em uma função
de ativação que determina se a
saída deve ser passada adiante.
27
As redes neurais artificiais são compostas de várias camadas de
neurônios - essencialmente definindo uma função profundamente aninhada.
Essa arquitetura é o motivo pelo qual a técnica é chamada de aprendizado
profundo e os modelos produzidos por ela são frequentemente chamados
de redes neurais profundas (DNNs). Você pode utilizar redes neurais profundas
para muitos tipos de problemas de aprendizado de máquina, incluindo
regressão e classificação, bem como modelos mais especializados para
processamento de linguagem natural e visão computacional.
Assim como outras técnicas de aprendizado de máquina discutidas neste
módulo, o aprendizado profundo envolve o ajuste dos dados de treinamento
a uma função que pode prever um rótulo (y) com base no valor de um ou
mais recursos (x). A função (f(x)) é a camada externa de uma função aninhada
na qual cada camada da rede neural encapsula funções que operam em x e
os valores de peso (w) associados a elas.
O algoritmo utilizado para treinar o modelo envolve a alimentação iterativa
dos valores dos recursos (x) nos dados de treinamento por meio das camadas
para calcular as saídas para ŷ, validando o modelo para avaliar a distância
entre os valores calculados ŷ e os valores conhecidos y (que quantifica o nível
de erro, ou perda, no modelo) e, em seguida, modificando os pesos (w) para
reduzir a perda. O modelo treinado inclui os valores finais de peso que
resultam nas previsões mais precisas.
Exemplo: usando aprendizado profundo para classificação
Para entender melhor como um modelo de rede neural profunda funciona,
vamos explorar um exemplo em que uma rede neural é utilizada para definir
um modelo de classificação para espécies de pinguins.
Os dados do recurso (x) consistem em algumas medidas de um pinguim.
Especificamente, as medidas são:
● O comprimento do bico do pinguim.
● A profundidade do bico do pinguim.
● O comprimento das nadadeiras do pinguim.
● O peso do pinguim.
Nesse caso, x é um vetor de quatro valores, ou matematicamente,
x=[x1,x2,x3,x4].
28
O rótulo que estamos tentando prever (y) é a espécie do pinguim,
e que existem três espécies possíveis que será:
● Adélia
● Gentoo
● Chinstrap
Esse é um exemplo de um problema de classificação, no qual o modelo de
machine learning deve prever a classe mais provável à qual uma observação
pertence. Um modelo de classificação faz isso prevendo um rótulo que consiste
na probabilidade de cada classe.
Em outras palavras, y é um vetor de três valores de probabilidade; um para cada
uma das classes possíveis: [P(y=0|x), P(y=1|x), P(y=2|x)].
O processo de inferência de uma classe de pinguins prevista
utilizando essa rede é:
1. O vetor de recursos para a observação de um pinguim é alimentado na camada
de entrada da rede neural, que consiste em um neurônio para cada valor x. Neste
exemplo, o seguinte vetor x é utilizado como entrada: [37.3, 16.8, 19.2, 30.0]
2. Cada uma das funções da primeira camada de neurônios calcula uma soma
ponderada, combinando o valor x e o peso w, e a passa para uma função de ativação
que determina se ela atende ao limite que será passado para a próxima camada.
3. Cada neurônio de uma camada está conectado a todos os neurônios da camada
seguinte (uma arquitetura às vezes chamada de rede completamente conectada),
de modo que os resultados de cada camada são alimentados pela rede
até chegarem à camada de saída.
4. A camada de saída produz um vetor de valores; nesse caso, utilizando uma
função softmax ou similar para calcular a distribuição da probabilidade para as três
classes possíveis de pinguins. Neste exemplo, o vetor de saída é: [0,2, 0,7, 0,1]
5. Os elementos do vetor representam as probabilidades das classes 0, 1 e 2.
O segundo valor é o mais alto, portanto o modelo prevê que a
espécie do pinguim é 1 (Gentoo).
Como uma rede neural aprende?
Os pesos em uma rede neural são fundamentais para a forma como ela calcula
os valores previstos para os rótulos. Durante o processo de treinamento,
o modelo aprende os pesos que resultarão nas previsões mais precisas.
Vamos explorar o processo de treinamento com um pouco mais de
detalhes para entender como se dá esse aprendizado.
29
1. Os conjuntos de dados de treinamento e validação são definidos
e os recursos de treinamento alimentados na camada de entrada.
2. Os neurônios em cada camada da rede aplicam seus pesos
(que são inicialmente atribuídos de forma aleatória)
e alimentam os dados por meio da rede.
3. A camada de saída produz um vetor que contém os valores
calculados para ŷ. Por exemplo, uma saída para umaprevisão
de classe de pinguim pode ser [0,3. 0,1. 0,6].
4. Uma função de perda é utilizada para comparar os valores previstos ŷ com
os valores conhecidos y e agregar a diferença (que é conhecida como perda).
Por exemplo, se a classe conhecida para o caso que retornou a saída na
etapa anterior for Chinstrap, então o valor y deverá ser [0.0, 0.0, 1.0].
A diferença absoluta entre isso e o vetor ŷ é [0,3, 0,1, 0,4]. Na realidade,
a função de perda calcula a variação agregada de vários casos
e a resume em um único valor de perda.
5. Como a rede inteira é essencialmente uma grande função aninhada,
uma função de otimização pode utilizar o cálculo diferencial para avaliar
a influência de cada peso na rede sobre a perda e determinar como eles
podem ser ajustados (para cima ou para baixo) para reduzir a quantidade
de perda de modo geral. A técnica de otimização específica pode variar,
mas geralmente envolve uma abordagem de descida de gradiente em
que cada peso é aumentado ou diminuído para minimizar a perda.
6. As alterações nos pesos são retropropagadas para as camadas
da rede, substituindo os valores utilizados anteriormente.
7. O processo é repetido em várias iterações (conhecidas como épocas) até
que a perda seja minimizada e o modelo preveja com precisão aceitável.
Observação
Embora seja mais fácil pensar em cada caso dos dados de treinamento sendo passado
pela rede um de cada vez, na realidade os dados são colocados em lote em matrizes e
processados utilizando cálculos algébricos lineares. Por esse motivo, o treinamento da
rede neural é melhor executado nos computadores com unidades de processamento
gráfico (GPUs) otimizadas para a manipulação de vetores e matrizes.
Azure Machine Learning
O Microsoft Azure Machine Learning é um serviço de nuvem para
treinamento, implantação e gerenciamento de modelos de machine learning.
Ele foi projetado para ser usado por cientistas de dados, engenheiros
de software, profissionais de DevOps e outros para gerenciar o ciclo de vida
de ponta a ponta de projetos de machine learning, incluindo:
● Exploração de dados e preparação para modelagem.
● Treinamento e avaliação de modelos de machine learning.
● Registro e gerenciamento de modelos treinados.
30
● Implantação de modelos treinados para uso por aplicativos e serviços.
● Revisão e aplicação de princípios e práticas de IA responsáveis.
Recursos e funcionalidades do Azure Machine Learning
O Azure Machine Learning fornece os seguintes recursos e funcionalidades
para dar suporte a cargas de trabalho de machine learning:
● Armazenamento e gerenciamento centralizado de conjuntos de dados
para treinamento e avaliação de modelos.
● Recursos de computação sob demanda nos quais você pode executar
trabalhos de machine learning, como o treinamento de um modelo.
● AutoML (machine learning automatizado), que facilita a execução de vários
trabalhos de treinamento com diferentes algoritmos e parâmetros para
encontrar o melhor modelo para seus dados.
● Ferramentas visuais para definir pipelines orquestrados para processos
como treinamento ou inferência de modelos.
● Integração com estruturas comuns de machine learning, como o MLflow,
que facilitam o gerenciamento do treinamento, da avaliação
e da implantação de modelos em escala.
● Suporte integrado para visualizar e avaliar métricas relacionadas à IA responsável,
incluindo explicabilidade do modelo, avaliação de imparcialidade e outros.
Provisionamento de recursos do Azure Machine Learning
O principal recurso necessário para o Azure Machine Learning é um
workspace do Azure Machine Learning, que você pode provisionar em
uma assinatura do Azure. Outros recursos de suporte, incluindo contas
de armazenamento, registros de contêineres, máquinas virtuais e outros,
são criados automaticamente conforme necessário.
Para criar um workspace do Azure Machine Learning, você pode usar
os modelos do portal do Azure, como mostrado aqui:
31
Azure Machine Learning Studio
Depois de provisionar um workspace do Azure Machine Learning, você pode
usá-lo no Estúdio do Azure Machine Learning; um portal baseado em
navegador para gerenciar seus recursos e trabalhos de machine learning.
No Estúdio do Azure Machine Learning, você pode (entre outras coisas):
● Importar e explorar dados.
● Criar e usar recursos de computação.
● Executar o código em notebooks.
● Usar ferramentas visuais para criar trabalhos e pipelines.
● Usar o machine learning automatizado para treinar um modelo.
● Exibir detalhes de modelos treinados, incluindo métricas de avaliação,
informações de IA responsável e parâmetros de treinamento.
● Implantar modelos treinados para inferência em lote e solicitação.
● Importar e gerenciar modelos a partir de um catálogo de modelos abrangente.
A captura de tela mostra a página Métricas de um modelo
treinado no Estúdio do Azure Machine Learning, na qual você
pode ver as métricas de avaliação de um modelo de
classificação multiclasse treinado.
32
Resumo
Aprendizado de máquina é a base sobre a qual a inteligência
artificial é compilada. Neste módulo, você aprendeu sobre
alguns dos principais princípios e conceitos nos quais se baseia
o aprendizado de máquina e sobre os diferentes tipos de
modelos que podem ser treinados e avaliados.
O módulo também apresentou o Azure Machine Learning;
uma plataforma de nuvem para operações de aprendizado de
máquina de ponta a ponta e lhe deu a oportunidade de usar o
machine learning automatizado no Azure Machine Learning.
Dica
Para saber mais sobre o Azure Machine Learning e seus recursos,
consulte a página do Azure Machine Learning
https://azure.microsoft.com/products/machine-learning/
Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32

Apostila - Princípios Básicos do Aprendizado de Máquina

Outros

Ferramentas de estudo

Conteúdos escolhidos para você

Aula3

SIMULADO1 - Inteligência Artificial para CAIXA - 2024

CLASSIFICAÇÂO-E-PREDIÇÃO

PROVA OBJETIVA - CONHECIMENTOS ESPECÍFICOS - CARGO 7

Aula 05 - Aprendizado Supervisionado

Perguntas dessa disciplina

Entre 1950 e 1960, 0 cientista Frank Rosenblatt propôs 0 perceptron como 0 primeiro modelo para aprendizagem supervisionada, sendo que, para problemas

em, apenas, um dos vertices do poligono QUESTÃO 2 Valor: 1,0 Um estudo de Pesquisa Operacional consiste em, a partir de uma situação real existente...

Desafio Prazo para envio: 31/12/25 23:59 Liberação do feedback: 01/01/26 00:00 As medidas de tendência central, como a média, a mediana e a moda,...

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

mentas da qualidade são técnicas utilizadas com a finalidade de definir, mensurar, analisar e propor soluções para os problemas que interferem no dese

Conteúdos escolhidos para você

Aula3

SIMULADO1 - Inteligência Artificial para CAIXA - 2024

CLASSIFICAÇÂO-E-PREDIÇÃO

PROVA OBJETIVA - CONHECIMENTOS ESPECÍFICOS - CARGO 7

Aula 05 - Aprendizado Supervisionado

Perguntas dessa disciplina

Entre 1950 e 1960, 0 cientista Frank Rosenblatt propôs 0 perceptron como 0 primeiro modelo para aprendizagem supervisionada, sendo que, para problemas

em, apenas, um dos vertices do poligono QUESTÃO 2 Valor: 1,0 Um estudo de Pesquisa Operacional consiste em, a partir de uma situação real existente...

Desafio Prazo para envio: 31/12/25 23:59 Liberação do feedback: 01/01/26 00:00 As medidas de tendência central, como a média, a mediana e a moda,...

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

mentas da qualidade são técnicas utilizadas com a finalidade de definir, mensurar, analisar e propor soluções para os problemas que interferem no dese

Mais conteúdos dessa disciplina