Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Princípios Básicos do 
Aprendizado de Máquina
2
Princípios Básicos do 
Aprendizado de Máquina
O aprendizado de máquina é a base da maioria das soluções modernas de inteligência 
artificial. Uma familiaridade com os principais conceitos nos quais o aprendizado de 
máquina é baseado é uma importante base para a compreensão da IA.
Objetivos de aprendizagem
Depois de concluir este módulo, você será capaz de:
● Descrever os conceitos básicos do aprendizado de máquina
● Identificar diferentes tipos de aprendizado de máquina
● Descreva as considerações sobre o treinamento e a avaliação de modelos 
de aprendizado de máquina
● Descreva os principais conceitos de aprendizado profundo
● Use o aprendizado de máquina automatizado no Serviço do Azure Machine Learning
Pré-requisitos
Antes de iniciar este módulo, você deve ter:
● Um conhecimento básico de matemática
● Familiaridade com o Microsoft Azure e a computação em nuvem
Este módulo faz parte destes roteiros de aprendizagem
● Conceitos básicos de IA do Microsoft Azure: Visão geral da IA
Introdução
O que aprendizado da máquina?
Tipos de aprendizado de máquina
Regressão
Classificação binária
Classificação multiclasse
Clustering
Aprendizado
Azure Machine Learning
Resumo
3
Introdução
O aprendizado de máquina é, em muitos aspectos, a interseção de duas 
disciplinas: ciência de dados e engenharia de software. O objetivo do 
aprendizado de máquina é utilizar dados para criar um modelo preditivo que 
possa ser incorporado a um aplicativo ou serviço de software. Para atingir esse 
objetivo, é obrigatória a colaboração entre os cientistas de dados, que exploram 
e preparam os dados antes de utilizá-los para treinar um modelo de aprendizado 
de máquina, e os desenvolvedores de software, que integram os modelos aos 
aplicativos em que são usados para prever novos valores de dados (um processo 
conhecido como inferência).
Neste módulo, você vai explorar alguns dos principais conceitos nos quais o 
machine learning se baseia, aprender a identificar diferentes tipos de modelos de 
machine learning e analisar como os modelos de machine learning são treinados 
e avaliados. Por fim, você saberá como utilizar o Microsoft Azure Machine 
Learning para treinar e implantar um modelo de machine learning, sem a 
necessidade de escrever nenhum código.
Observação
O aprendizado de máquina é baseado em técnicas matemáticas e estatísticas, 
algumas das quais são descritas em um alto nível neste módulo. Mas não se preocupe 
se você não for um especialista em matemática! O objetivo do módulo é ajudar você 
a obter uma intuição de como o aprendizado de máquina funciona, manteremos a 
matemática no mínimo necessário para entender os principais conceitos.
O que é o aprendizado de máquina?
O aprendizado de máquina tem suas origens na estatística e na modelagem 
matemática de dados. A ideia fundamental do aprendizado de máquina é utilizar 
dados de observações passadas para prever resultados ou valores desconhecidos. 
Por exemplo:
● O proprietário de uma sorveteria pode usar um aplicativo que combina vendas 
históricas e registros meteorológicos para prever quantos sorvetes provavelmente 
serão vendidos em um determinado dia, com base na previsão do tempo.
● Um médico pode utilizar dados clínicos de pacientes anteriores para executar 
testes automatizados que preveem se um novo paciente está em risco de 
diabetes com base em fatores como peso, nível de glicose no sangue e outras 
medidas.
● Um pesquisador na Antártica pode utilizar observações passadas para 
automatizar a identificação de diferentes espécies de pinguins (como Adélia, 
Gentoo ou Chinstrap) com base em medições das nadadeiras, bico e outros 
atributos físicos da ave.
4
O aprendizado de máquina como uma função
Como o aprendizado de máquina é baseado na matemática e na estatística, é 
comum pensar nos modelos de machine learning em termos matemáticos. 
Fundamentalmente, um modelo de aprendizado de máquina é um aplicativo 
de software que encapsula uma função para calcular um valor de saída com 
base em um ou mais valores de entrada. O processo de definição dessa função 
é conhecido como treinamento. Após a definição da função, você pode utilizá-
la para prever novos valores em um processo chamado inferência.
Vamos explorar as etapas envolvidas no treinamento e na inferência.
Os dados de treinamento consistem em observações passadas. Na maioria dos 
casos, as observações incluem os atributos observados ou recursos do objeto que 
está sendo observado e o valor conhecido do objeto que você deseja treinar um 
modelo para prever (conhecido como rótulo).
Em termos matemáticos, você verá com frequência os recursos serem referidos 
utilizando o nome abreviado da variável x, e o rótulo ser referido como y. 
Normalmente, uma observação consiste em vários valores de recursos, de modo
que x é, na verdade, um vetor (uma matriz com vários valores), da seguinte forma: 
[x1,x2,x3,...].
Para deixar isso mais claro, vamos considerar os exemplos descritos anteriormente:
● No cenário de vendas de sorvete, nosso objetivo é treinar um modelo que possa 
prever o número de vendas de sorvete com base na previsão do tempo. As 
medidas meteorológicas do dia (temperatura, precipitação, velocidade do vento 
etc.) serão os recursos (x), e o número de sorvetes vendidos em cada dia será o 
rótulo (y).
1.
5
● No cenário médico, o objetivo é prever se um paciente está ou não em
risco de diabetes com base nas suas medições clínicas. As medidas do
paciente (peso, nível de glicose no sangue etc.) são recursos (x), e a probabilidade 
de diabetes (por exemplo, 1 para em risco, 0 para sem risco) é o rótulo (y).
● No cenário de pesquisa na Antártica, desejamos prever a espécie de um pinguim 
com base em seus atributos físicos. As principais medidas do pinguim 
(comprimento das nadadeiras, largura da cobrança e assim por diante) são os 
recursos (x) e a espécie (por exemplo, 0 para Adélia, 1 para Gentoo ou 2 para 
Chinstrap) é o rótulo (y).
Um algoritmo é aplicado aos dados para tentar determinar um relacionamento entre 
os recursos e o rótulo e generalizar esse relacionamento como um cálculo que pode 
ser executado em x para calcular y. O algoritmo específico usado depende do tipo 
de problema preditivo que você está tentando resolver (há mais sobre este assunto 
mais adiante), mas o princípio básico é tentar ajustar uma função aos dados, na qual 
os valores dos recursos podem ser usados para calcular o rótulo.
O resultado do algoritmo é um modelo que encapsula o cálculo derivado pelo 
algoritmo como uma função - vamos chamá-la de f. Em notação matemática:
y = f(x)
Agora que a fase de treinamento foi concluída, o modelo treinado pode ser utilizado 
para inferência. O modelo é essencialmente um programa de software que 
encapsula a função produzida pelo processo de treinamento. Você pode dar entrada 
em um conjunto de valores de recursos e receber como saída uma previsão do 
rótulo correspondente. Como a saída do modelo é uma previsão calculada pela 
função, e não um valor observado, você verá com frequência a saída da função 
mostrada como ŷ (que será deliciosamente verbalizado como "y-hat").
2.
3.
4.
Tipos de aprendizado de máquina
Existem vários tipos de aprendizado de máquina, e você deve aplicar o tipo 
apropriado dependendo do que está tentando prever. Um detalhamento dos tipos 
comuns de aprendizado de máquina será mostrado no diagrama a seguir.
6
Machine Learning supervisionado
O aprendizado de máquina Supervisionado é um termo geral para algoritmos
de aprendizado de máquina em que os dados de treinamento incluem valores
de recursos e valores conhecidos de rótulo. O aprendizado de máquina 
supervisionado é utilizado para treinar modelos determinando um relacionamento 
entre os recursos e os rótulos em observações passadas, de modo que rótulos 
desconhecidos possam ser previstos para recursos em casos futuros.
RegressãoRegressão é uma forma de aprendizado de máquina supervisionado em que o 
rótulo previsto pelo modelo é um valor numérico. Por exemplo:
● O número de sorvetes vendidos em um determinado dia,
com base na temperatura, na chuva e na velocidade do vento.
● O preço de venda de um imóvel com base no seu tamanho em pés quadrados, no 
número de quartos que contém e nas métricas socioeconômicas da sua localização.
● A eficiência de combustível (em milhas por galão) de um carro com
base no tamanho do motor, peso, largura, altura e comprimento.
Classificação
Classificação é uma forma de aprendizado de máquina supervisionado
em que o rótulo representa uma categorização, ou classe.
Existem dois cenários comuns de classificação.
Classificação binária
Na classificação binária, o rótulo determina se o item observado é (ou não é) uma 
instância de uma classe específica. Em outras palavras, os modelos de classificação 
binária preveem um de dois resultados mutuamente exclusivos. Por exemplo:
● Se um paciente está em risco de diabetes com base em métricas clínicas
como peso, idade, nível de glicose no sangue e assim por diante.
● Se um cliente do banco ficará inadimplente em um empréstimo com
base na renda, no histórico de crédito, na idade e em outros fatores.
● Se um cliente da lista de emails responderá positivamente a uma oferta de
marketing com base nos atributos demográficos e nas compras anteriores.
Em todos esses exemplos, o modelo prevê uma previsão binária verdadeira/falsa 
ou positiva/negativa para uma única classe possível.
Classificação multiclasse
A classificação multiclasse amplia a classificação binária para prever um
rótulo que representa uma das várias classes possíveis. Por exemplo:
● A espécie de um pinguim (Adélia, Gentoo ou Chinstrap)
com base em suas medidas físicas.
● O gênero de um filme (comédia, terror, romance, aventura ou ficção científica)
com base na equipe de elenco, no diretor e no orçamento.
Na maioria dos cenários que envolvem um conjunto conhecido de várias classes,
a classificação multiclasse é utilizada para prever rótulos mutuamente exclusivos. 
Por exemplo, um pinguim não pode ser um Gentoo e um Adélia. 
7
Entretanto, há também alguns algoritmos que você pode utilizar para treinar
os modelos de classificação com vários rótulos, nos quais pode existir mais de
um rótulo válido para uma única observação. Por exemplo, um filme poderia
ser potencialmente categorizado como ficção científica e comédia.
Aprendizado de máquina não supervisionado
O aprendizado de máquina não supervisionado envolve o treinamento de modelos 
usando dados que consistem apenas em valores de recursos sem rótulos conhecidos. 
Os algoritmos de aprendizado de máquina não supervisionados determinam 
relacionamentos entre os recursos das observações nos dados de treinamento.
Clustering
A forma mais comum de aprendizado de máquina não supervisionado é o clustering. 
Um algoritmo de clustering identifica semelhanças entre observações com base nos 
seus recursos e as agrupa em clusters discretos. Por exemplo:
● Agrupe flores semelhantes com base no tamanho,
no número de folhas e no número de pétalas.
● Identificar os grupos de clientes semelhantes com base nos atributos
demográficos e no comportamento de compra.
Em alguns aspectos, o clustering é semelhante à classificação multiclasse, pois 
categoriza as observações em grupos discretos. A diferença é que, ao usar a 
classificação, você já conhece as classes às quais pertencem as observações nos 
dados de treinamento; portanto, o algoritmo funciona determinando o 
relacionamento entre os recursos e o rótulo de classificação conhecido. No 
clustering, não existe um rótulo de cluster previamente conhecido e o algoritmo 
agrupa as observações de dados com base puramente na similaridade dos recursos.
Em alguns casos, o clustering é utilizado para determinar o conjunto de classes 
existentes antes de treinar um modelo de classificação. Por exemplo, você deve usar 
o clustering para segmentar seus clientes em grupos e, em seguida, analisar esses 
grupos para identificar e categorizar diferentes classes de clientes (alto valor - baixo 
volume, pequenos compradores frequentes e assim por diante). Em seguida, você 
pode usar suas categorizações para rotular as observações nos resultados do 
clustering e usar os dados rotulados para treinar um modelo de classificação que 
preveja a qual categoria de cliente um novo cliente pode pertencer.
Regressão
Os modelos de regressão são treinados para prever valores numéricos de rótulo 
com base em dados de treinamento que incluem recursos e rótulos conhecidos. 
O processo de treinamento de um modelo de regressão (ou qualquer modelo de 
machine learning supervisionado) envolve várias iterações nas quais você usa um 
algoritmo apropriado (geralmente com algumas configurações parametrizadas) 
para treinar um modelo, avaliar o desempenho preditivo do modelo e refinar o 
modelo repetindo o processo de treinamento com algoritmos e parâmetros 
diferentes até atingir um nível aceitável de precisão preditiva.
8
O diagrama mostra quatro elementos-chave do processo de treinamento
de modelos de machine learning supervisionados:
1. Divida os dados de treinamento (aleatoriamente) para criar um conjunto de 
dados com o qual treinar o modelo, mantendo um subconjunto dos dados 
que você usará para validar o modelo treinado.
2. Usar um algoritmo para ajustar os dados de treinamento a um modelo. No 
caso de um modelo de regressão, use um algoritmo de regressão, como 
regressão linear.
3. Use os dados de validação retidos para testar o modelo prevendo rótulos 
dos recursos.
4. Compare os rótulos reais conhecidos no conjunto de dados de validação com 
os rótulos previstos pelo modelo. Em seguida, agregue as diferenças entre os 
valores de rótulo previstos e reais para calcular uma métrica que indica a 
precisão do modelo previsto para os dados de validação.
Após cada treinamento, validação e iteração de avaliação, você pode repetir o 
processo com diferentes algoritmos e parâmetros até que uma métrica de 
avaliação aceitável seja alcançada.
Exemplo – regressão
Vamos explorar a regressão com um exemplo simplificado no qual treinaremos 
um modelo para prever um rótulo numérico (y) com base em um único valor de 
recurso (x). A maioria dos cenários reais envolve vários valores de recurso, o que 
adiciona complexidade, mas o princípio é o mesmo.
Para nosso exemplo, vamos manter o cenário de vendas de sorvetes que 
discutimos anteriormente. Para nosso recurso, consideraremos 
a temperatura (vamos supor que o valor seja a temperatura máxima em um 
determinado dia), e o rótulo que queremos treinar um modelo para prever
é a quantidade de sorvetes vendidos naquele dia. 
9
Começaremos com alguns dados históricos que incluem registros 
de temperaturas diárias (x) e vendas de sorvetes (y):
Temperatura (x) Vendas de sorvete (y)
51 1
52 0
67 14
65 14
70 23
69 20
72 23
75 26
73 22
81 30
78 26
83 36
Treinar um modelo de regressão
Começaremos dividindo os dados e usando um subconjunto
dele para treinar um modelo.
Aqui está o conjunto de dados de treinamento:
Temperatura (x) Vendas de sorvete (y)
51 1
65 14
69 20
72 23
75 26
81 30
10
Para obter um insight de como esses valores x e y podem se relacionar 
uns com os outros, podemos mostra-los em gráficos como 
coordenadas ao longo de dois eixos, dessa forma:
Agora estamos prontos para aplicar um algoritmo aos nossos dados de
treinamento e ajustá-lo a uma função que aplica uma operação a x para calcular
y. Um desses algoritmos é a regressão linear, que funciona derivando uma função 
que produz uma linha reta através das interseções dos valores x e y, minimizando
a distância média entre a linha e os pontos mostrados no gráfico, dessa forma:
A linha é uma representação visual da função na qual a inclinação da linha 
descreve como calcular o valor de y de um determinado valor de x.A linha 
intercepta o eixo x em 50, portanto, quando x é 50, y é 0. Como você pode 
ver nos marcadores de eixo no gráfico, a linha inclina para que cada aumento 
de 5 ao longo do eixo x resulte em um aumento de 5 no eixo y.
11
Portanto, quando x é 55, y é 5, quando x é 60, y é 10 e assim por diante.
Para calcular um valor de y de um determinado valor de x, a função
simplesmente subtrai 50. Em outras palavras, a função pode ser
expressa dessa forma:
f(x) = x-50
Você pode usar essa função para prever o número de sorvetes vendidos
em um dia com uma temperatura determinada. Por exemplo, suponha
que a previsão do tempo nos diga que amanhã será de 77 ºF (25 ºC).
Podemos aplicar nosso modelo para calcular 77-50 e prever
que venderemos 27 sorvetes amanhã.
Qual é a precisão do nosso modelo?
Avaliar um modelo de regressão
Para validar o modelo e avaliar o quão bem ele prevê, retivemos alguns dados para 
os quais sabemos o valor do rótulo (y). Aqui estão os dados que foram retidos:
Temperatura (x) Vendas de sorvete (y)
52 0
67 14
70 23
73 22
78 26
83 36
Podemos usar o modelo para prever o rótulo de cada uma das observações
nesse conjunto de dados com base no valor do recurso (x) e, em seguida, 
comparar o rótulo previsto (ŷ) com o valor de rótulo real conhecido (y).
Usar o modelo que treinamos anteriormente, que encapsula a função
f(x) = x-50, resulta nas seguintes previsões:
Temperatura (x) Vendas reais (y) Vendas previstas (ŷ)
52 0 2
67 14 17
70 23 20
73 22 23
78 26 28
83 36 33
12
Podemos mostrar no gráfico os rótulos previstos e os reais em relação 
aos valores de recurso como esse:
Os rótulos previstos são calculados pelo modelo para que estejam na linha
de função, mas há uma variação entre os valores ŷ calculados pela função e
os valores y reais do conjunto de dados de validação, que é indicado no gráfico 
como uma linha entre os valores ŷ e y que mostra a distância entre a previsão
e o valor real.
Métricas de avaliação de regressão
Com base nas diferenças entre os valores previstos e reais, você pode calcular 
algumas métricas comuns que são usadas para avaliar um modelo de regressão.
MAE (Erro Médio Absoluto)
A variação nesse exemplo indica quantos sorvetes cada previsão errou. 
Não importa se a previsão estava acima ou abaixo do valor real (portanto,
por exemplo, -3 e +3 indicam uma variação de 3). Essa métrica é conhecida 
como o erro absoluto para cada previsão e pode ser resumida para todo o 
conjunto de validação como o MAE (erro absoluto médio).
No exemplo do sorvete, a média dos erros absolutos (2, 3, 3, 1, 2 e 3) is 2,33.
EQM (erro quadrático médio)
A métrica do erro médio absoluto leva em conta todas as discrepâncias entre 
rótulos previstos e reais igualmente. No entanto, seria preferível ter um modelo 
consistentemente errado por uma pequena quantidade do que um que produz 
menos erros, mas maiores. Uma maneira de produzir uma métrica que 
"amplifica" erros maiores elevando ao quadrado os erros individuais e calculando 
a média dos valores quadrados. Essa métrica é chamada de EQM
(erro quadrático médio).
Em nosso exemplo do sorvete, a média dos valores absolutos quadrados
(que são 4, 9, 9, 1, 4 e 9) é 6.
13
REQM (Raiz do Erro Quadrático Médio)
O erro quadrático médio ajuda a levar em conta a magnitude dos erros, mas como 
ele eleva ao quadrado os valores de erro, a métrica resultante não representa mais a 
quantidade medida pelo rótulo. Em outras palavras, podemos dizer que o EQM do 
nosso modelo é 6, mas isso não mede sua precisão em termos do número de 
sorvetes que foram previstos de forma errada; 6 é apenas uma pontuação numérica 
que indica o nível do erro nas previsões de validação.
Se quisermos medir o erro em termos do número de sorvetes, precisamos calcular 
a raiz quadrada do EQM, que produz uma métrica chamada raiz do erro 
quadrático médio. Nesse caso, √6, que é 2,45 (sorvetes).
Coeficiente de determinação (R2)
Todas as métricas até agora comparam a discrepância entre os valores previstos e os 
reais para avaliar o modelo. No entanto, na realidade, há uma variação aleatória 
natural nas vendas diárias de sorvetes que o modelo leva em conta. Em um modelo 
de regressão linear, o algoritmo de treinamento se ajusta em uma linha reta que 
minimiza a variação média entre a função e os valores de rótulo conhecidos. 
O coeficiente de determinação (mais comumente conhecido como R2 ou R ao 
quadrado) é uma métrica que mede a proporção de variação nos resultados de 
validação que podem ser explicados pelo modelo, em oposição a algum aspecto 
anômalo dos dados de validação (por exemplo, um dia com um número de vendas 
de sorvetes altamente incomum devido a um festival local).
O cálculo do R2 é mais complexo do que das métricas anteriores. Ele compara a 
soma das diferenças quadradas entre rótulos previstos e os reais com a soma das 
diferenças quadradas entre os valores de rótulo reais e a média dos valores de 
rótulo reais, dessa forma:
R2 = 1- ∑(y-ŷ)2 ÷ ∑(y-ȳ)2
Não se preocupe muito se isso parece complicado. A maioria das ferramentas de 
machine learning pode calcular a métrica para você. O ponto importante é que o 
resultado é um valor entre 0 e 1 que descreve a proporção de variação explicada 
pelo modelo. Em termos simples, quanto mais próximo de 1 esse valor for, melhor 
será o ajuste dos dados de validação do modelo. No caso do modelo de regressão 
do sorvete, o R2 calculado com base nos dados de validação é 0,95.
Treinamento iterativo
As métricas descritas acima são comumente usadas para avaliar um modelo de 
regressão. Na maioria dos cenários do mundo real, um cientista de dados usará um 
processo iterativo para treinar e avaliar repetidamente um modelo, variando:
•Seleção e preparação de recursos (escolhendo quais recursos incluir no modelo e 
cálculos aplicados a eles para ajudar a garantir um ajuste melhor).
•Seleção de algoritmo (exploramos a regressão linear no exemplo anterior, mas há 
muitos outros algoritmos de regressão)
•Parâmetros de algoritmo (configurações numéricas para controlar o 
comportamento do algoritmo, mais precisamente chamados 
de hiperparâmetros para diferenciá-los dos parâmetros x e y).
Após várias iterações, o modelo que resulta na melhor métrica de avaliação aceitável 
para o cenário específico é selecionado.
14
REQM (Raiz do Erro Quadrático Médio)
O erro quadrático médio ajuda a levar em conta a magnitude dos erros, mas como 
ele eleva ao quadrado os valores de erro, a métrica resultante não representa mais a 
quantidade medida pelo rótulo. Em outras palavras, podemos dizer que o EQM do 
nosso modelo é 6, mas isso não mede sua precisão em termos do número de 
sorvetes que foram previstos de forma errada; 6 é apenas uma pontuação numérica 
que indica o nível do erro nas previsões de validação. Se quisermos medir o erro
em termos do número de sorvetes, precisamos calcular a raiz quadrada do EQM, 
que produz uma métrica chamada raiz do erro quadrático médio.
Nesse caso, √6, que é 2,45 (sorvetes).
Coeficiente de determinação (R2)
Todas as métricas até agora comparam a discrepância entre os valores previstos
e os reais para avaliar o modelo. No entanto, na realidade, há uma variação aleatória 
natural nas vendas diárias de sorvetes que o modelo leva em conta. Em um modelo 
de regressão linear, o algoritmo de treinamento se ajusta em uma linha reta que 
minimiza a variação média entre a função e os valores de rótulo conhecidos. 
O coeficiente de determinação (mais comumente conhecido como R2 ou R ao 
quadrado) é uma métrica que mede a proporção de variação nos resultados de 
validação que podem ser explicados pelo modelo, em oposição a algum aspecto 
anômalo dos dados de validação (por exemplo, um dia com um número de vendas 
de sorvetes altamente incomum devido a um festival local).
O cálculo do R2 é mais complexo do que das métricas anteriores. Ele compara a 
soma das diferenças quadradas entre rótulos previstose os reais com a soma das 
diferenças quadradas entre os valores de rótulo reais e a média dos valores de 
rótulo reais, dessa forma:
R2 = 1- ∑(y-ŷ)2 ÷ ∑(y-ȳ)2
Não se preocupe muito se isso parece complicado. A maioria das ferramentas de 
machine learning pode calcular a métrica para você. O ponto importante é que o 
resultado é um valor entre 0 e 1 que descreve a proporção de variação explicada 
pelo modelo. Em termos simples, quanto mais próximo de 1 esse valor for, melhor 
será o ajuste dos dados de validação do modelo. No caso do modelo de regressão 
do sorvete, o R2 calculado com base nos dados de validação é 0,95.
Treinamento iterativo
As métricas descritas acima são comumente usadas para avaliar um modelo de 
regressão. Na maioria dos cenários do mundo real, um cientista de dados usará
um processo iterativo para treinar e avaliar repetidamente um modelo, variando:
● Seleção e preparação de recursos (escolhendo quais recursos incluir no modelo
e cálculos aplicados a eles para ajudar a garantir um ajuste melhor).
● Seleção de algoritmo (exploramos a regressão linear no exemplo anterior,
mas há muitos outros algoritmos de regressão)
● Parâmetros de algoritmo (configurações numéricas para controlar o comportamento
do algoritmo, mais precisamente chamados de hiperparâmetros para
diferenciá-los dos parâmetros x e y).
Após várias iterações, o modelo que resulta na melhor métrica de
avaliação aceitável para o cenário específico é selecionado.
15
Classificação binária
A classificação, como regressão, é uma técnica de machine learning supervisionada
e, portanto, segue o mesmo processo iterativo de treinamento, validação e 
avaliação de modelos. Em vez de calcular valores numéricos como em um modelo 
de regressão, os algoritmos usados para treinar modelos de classificação calculam 
valores de probabilidade para atribuição de classe e as métricas de avaliação
usadas para aferir o desempenho do modelo e comparam as classes
previstas com as classes reais.
Os algoritmos de classificação binária são usados para treinar um modelo que 
prevê um dos dois rótulos possíveis para uma única classe. Basicamente, a previsão 
de verdadeiro ou falso. Na maioria dos cenários reais, as observações de dados 
usadas para treinar e validar o modelo consistem em vários valores de recurso
(x) e um valor y que é 1 ou 0.
Exemplo – classificação binária
Para entender como funciona a classificação binária, vejamos um exemplo 
simplificado que usa um único recurso (x) para prever se o rótulo y é 1 ou 0. Neste 
exemplo, usaremos o nível de glicose no sangue de um paciente para prever se ele 
tem diabetes ou não. Aqui estão os dados com os quais treinaremos o modelo:
Glicose no sangue (x) Diabético? (y)
67 0
103 1
114 1
72 0
116 1
65 0
Treinamento de um modelo de classificação binária
Para treinar o modelo, usaremos um algoritmo para ajustar os dados de 
treinamento em uma função que calcula a probabilidade do rótulo de 
classe ser verdadeiro (em outras palavras, que o paciente tem diabetes).
A probabilidade é medida como um valor entre 0,0 e 1,0, de modo que 
a probabilidade total para todas as classes possíveis seja 1,0.
Então, por exemplo, se a probabilidade de um paciente ter diabetes é 
de 0,7, então há uma probabilidade correspondente de 0,3 de que o 
paciente não tenha diabetes.
16
Há muitos algoritmos que podem ser usados para classificação binária, 
como regressão logística, que deriva uma função sigmoide (em forma de S) com 
valores entre 0,0 e 1,0, desta forma:
Observação
Apesar do nome, no machine learning, a regressão logística é usada para classificação, 
não para regressão. O ponto importante é a natureza logística da função produzida, 
que descreve uma curva em forma de S entre um valor inferior e superior
(0,0 e 1,0 quando usado para classificação binária).
A função produzida pelo algoritmo descreve a probabilidade de y ser
verdadeiro (y=1) para um determinado valor de x. Matematicamente,
você pode expressar a função desta forma:
f(x) = P(y=1 | x)
Para três das seis observações nos dados de treinamento, sabemos que y é 
definitivamente verdadeiro, portanto, a probabilidade para essas observações 
que y=1 é 1,0 e, para as outras três, sabemos que y é definitivamente falso, 
portanto, a probabilidade de y=1 é 0,0. A curva em forma de S descreve a 
distribuição de probabilidade, então, ao traçar um valor de x na linha,
identifica-se a probabilidade correspondente de que y seja 1.
O diagrama também inclui uma linha horizontal para indicar o limite no qual um 
modelo baseado nessa função preverá verdadeiro (1) ou falso (0). O limite está
no ponto médio de y (P(y) = 0,5). Para quaisquer valores neste ponto ou acima 
dele, o modelo preverá verdadeiro (1); enquanto para quaisquer valores abaixo 
deste ponto, preverá falso (0).
Por exemplo, para um paciente com 90 de nível de glicose no sangue, a função 
resultaria em um valor de probabilidade de 0,9. Como 0,9 é maior que o limite
de 0,5, o modelo prevê verdadeiro (1).
Em outras palavras, a previsão é de que o paciente tem diabetes.
17
Avaliação de um modelo de classificação binária
Assim como ocorre com a regressão, ao treinar um modelo de classificação 
binária, você retém um subconjunto aleatório de dados pra
validar o modelo treinado.
Vamos supor que retivemos os seguintes dados
para validar nosso classificador de diabetes:
Glicose no sangue (x) Diabético? (y)
66 0
107 1
112 1
71 0
87 1
89 1
A aplicação da função logística que derivamos anteriormente 
aos valores x resulta no gráfico a seguir.
Com base na probabilidade calculada pela função estar acima ou abaixo do 
limite, o modelo gera um rótulo previsto de 1 ou 0 para cada observação.
Em seguida, podemos comparar os rótulos de classe previstos (ŷ) com
os rótulos de classe reais (y), conforme mostrado aqui:
18
Glicose no
sangue (x)
Diagnóstico real
de diabetes (y)
Diagnóstico previsto
de diabetes (ŷ)
66 0 0
107 1 1
112 1 1
71 0 0
87 1 0
89 1 1
Métricas de avaliação de classificação binária
A primeira etapa no cálculo das métricas de avaliação de um modelo de 
classificação binária geralmente é criar uma matriz do número de previsões 
corretas e incorretas para cada rótulo de classe possível:
Essa visualização é chamada de
matriz de confusão e mostra os
totais da previsão em que:
● ŷ=0 e y=0: Verdadeiros negativos (TN)
● ŷ=1 e y=0: Falsos positivos (FP)
● ŷ=0 e y=1: Falsos negativos (FN)
● ŷ=1 e y=1: Verdadeiros positivos (TP)
A disposição da matriz de confusão é feita de forma que as previsões corretas 
(verdadeiras) sejam mostradas em uma linha diagonal do canto superior 
esquerdo ao canto inferior direito. Muitas vezes, a intensidade de cor é usada 
para indicar o número de previsões em cada célula; portanto, uma olhada 
rápida em um modelo que faz boas previsões deve revelar uma tendência 
diagonal profundamente sombreada.
Exatidão
A métrica mais simples que você pode calcular com base na matriz de 
confusão é a exatidão: a proporção de previsões que o modelo acertou. 
A exatidão é calculada como:
(TN+TP) ÷ (TN+FN+FP+TP)
19
No caso do nosso exemplo de diabetes, o cálculo é:
2+3 ÷ (2+1+0+3)
= 5 ÷ 6
= 0,83
Assim, para nossos dados de validação, o modelo de classificação de diabetes 
produziu previsões corretas em 83% das vezes.
Em um primeiro momento, a exatidão pode parecer uma boa métrica para 
avaliar um modelo, mas considere o seguinte. Suponha que 11% da população 
tenha diabetes. Você poderia criar um modelo que sempre prevê 0 e atingiria 
uma exatidão de 89%, embora não faça nenhuma tentativa real de diferenciar 
entre os pacientes avaliando suas características. O que realmente precisamos 
é de uma compreensão mais profunda de como o modelo se sai ao 
prever 1 para casos positivos e 0 para casos negativos.
Recall
Recall é uma métrica que mede a proporção de casos positivos identificados 
corretamente pelo modelo. Em outras palavras, em comparaçãocom o número 
de pacientes que têm diabetes, quantos o modelo previu ter diabetes?
A fórmula para o recall é:
TP ÷ (TP+FN)
Para nosso exemplo de diabetes:
3 ÷ (3+1)
= 3 ÷ 4
= 0,75
Assim, nosso modelo identificou corretamente 75% dos pacientes que têm 
diabetes como diabéticos.
Precisão
Precisão é uma métrica semelhante ao recall, mas mede a proporção
de casos positivos previstos em que o rótulo verdadeiro é realmente positivo.
Em outras palavras, qual proporção dos pacientes previstos pelo
modelo como diabéticos realmente tem diabetes?
A fórmula para precisão é:
TP ÷ (TP+FP)
Para nosso exemplo de diabetes:
3 ÷ (3+0)
= 3 ÷ 3
= 1,0
Portanto, 100% dos pacientes previstos pelo nosso modelo
como diabéticos, de fato têm diabetes.
20
Medida F1
A medida F1 é uma métrica geral que combina recall e precisão.
A fórmula para medida F1 é:
(2 x Precisão x Recall) ÷ (Precisão + Recall)
Para nosso exemplo de diabetes:
(2 x 1,0 x 0,75) ÷ (1,0 + 0,75)
= 1,5 ÷ 1,75
= 0,86
Área sob a curva (AUC)
Outro nome para recall é a taxa de verdadeiros positivos (TPR) e há uma métrica 
equivalente chamada taxa de falsos positivos (FPR) calculada como FP÷(FP+TN). 
Já sabemos que a TPR do nosso modelo ao usar um limite de 0,5 é 0,75;
e podemos usar a fórmula para FPR para calcular um valor de 0÷2 = 0.
É claro que, se alterássemos o limite acima, a partir do qual o modelo 
prevê verdadeiro (1), isso afetaria o número de previsões positivas e negativas;
E, portanto, alteraria as métricas de TPR e FPR. Essas métricas geralmente são 
usadas para avaliar um modelo plotando uma curva característica de operação
do receptor (ROC) que compara a TPR e a FPR para cada valor
limite possível entre 0,0 e 1,0:
A curva ROC de um modelo 
perfeito subiria diretamente pelo 
eixo TPR à esquerda e, em 
seguida, atravessaria o eixo FPR
na parte superior. Como a área de 
plotagem para a curva mede 1x1, 
a área perfeita sob essa curva seria 
1,0 (o que significa que o modelo 
está correto 100% das vezes). 
Por outro lado, uma linha diagonal que vai do canto inferior esquerdo ao
canto superior direito representa os resultados que seriam obtidos ao 
adivinhar aleatoriamente um rótulo binário; produzindo uma área sob a curva 
de 0,5. Em outras palavras, considerando dois rótulos de classe possíveis, 
você poderia esperar adivinhar corretamente 50% do tempo.
No caso do nosso modelo de diabetes, a curva acima é produzida e a área 
sob a métrica de curva (AUC) é 0,875. Como a AUC é maior que 0,5, 
podemos concluir que o modelo tem um desempenho melhor ao prever
se um paciente tem diabetes ou não do que adivinhar aleatoriamente.
21
Classificação multiclasse
A classificação multiclasse é utilizada para prever a qual das várias classes 
possíveis uma observação pertence. Como uma técnica de aprendizado de 
máquina supervisionada, ela segue o mesmo processo iterativo treinar, validar 
e avaliar que a regressão e a classificação binária, no qual um subconjunto 
dos dados de treinamento é retido para validar o modelo treinado.
Exemplo: classificação multiclasse
Os algoritmos de classificação multiclasse são utilizados para calcular valores 
de probabilidades para rótulos de várias classes, habilitando um modelo
a prever a classe mais provável para uma determinada observação.
Vamos explorar um exemplo no qual temos algumas observações de pinguins, 
em que o comprimento da nadadeira (x) de cada pinguim é registrado.
Para cada observação, os dados incluem a espécie do pinguim (y),
que é codificada da seguinte forma:
● 0: Adélia
● 1: Gentoo
● 2: Chinstrap
Observação
Como nos exemplos anteriores deste módulo, um cenário real incluiria vários valores 
de recursos (x). Utilizaremos um único recurso para manter as coisas simples.
Comprimento da nadadeira (x) Espécie (y)
167 0
172 0
225 2
197 1
189 1
232 2
158 0
Treinamento de um modelo de classificação multiclasse
Para treinar um modelo de classificação multiclasse, precisamos utilizar um 
algoritmo para ajustar os dados de treinamento a uma função que calcula
um valor de probabilidade para cada classe possível. Existem dois tipos
de algoritmo que você pode utilizar para fazer isso:
● Algoritmos One-vs-Rest (OvR)
● Algoritmos multinomiais
22
Algoritmos One-vs-Rest (OvR)
Os algoritmos One-vs-Rest treinam uma função de classificação binária para
cada classe, cada uma calculando a probabilidade de que a observação seja um 
exemplo da classe de destino.
Cada função calcula a probabilidade de a observação ser de uma
classe específica em comparação com qualquer outra classe. 
Para o nosso modelo de classificação de espécies de pinguins, o
algoritmo criaria essencialmente três funções de classificação binária:
● f0(x) = P(y=0 | x)
● f1(x) = P(y=1 | x)
● f2(x) = P(y=2 | x)
Cada algoritmo produz uma função sigmoide que calcula
um valor de probabilidade entre 0,0 e 1,0.
Um modelo treinado utilizando esse tipo de algoritmo prevê
a classe para a função que produz a saída de maior probabilidade.
Algoritmos multinomiais
Uma abordagem alternativa é utilizar um algoritmo multinomial, que cria
uma única função que retorna uma saída com vários valores.
A saída é um vetor (uma matriz de valores) que contém a distribuição de 
probabilidades para todas as classes possíveis, com uma pontuação de
probabilidade para cada classe que, quando totalizada, adiciona 1,0:
f(x) =[P(y=0|x), P(y=1|x), P(y=2|x)]
Um exemplo desse tipo de função é uma função softmax, que poderia
produzir uma saída como a do exemplo a seguir:
[0.2, 0.3, 0.5]
Os elementos do vetor representam as probabilidades das classes 0, 1 e 2, 
respectivamente; portanto, nesse caso, a classe com a maior probabilidade é 2.
Independentemente do tipo de algoritmo utilizado, o modelo usa a função 
resultante para determinar a classe mais provável para um dado conjunto
de recursos (x) e prevê o rótulo da classe correspondente (y).
Avaliação de um modelo de classificação multiclasse
Você pode avaliar um classificador multiclasse calculando as métricas
de classificação binária para cada classe individual.
Alternativamente, você pode calcular as métricas de agregação
que levam em conta todas as classes.
23
Vamos supor que tenhamos validado nosso classificador 
multiclasse e obtido os seguintes resultados:
Comprimento
da nadadeira (x)
Espécies
reais (y)
Espécies
Previstas (ŷ)
165 0 0
171 0 0
205 2 1
195 1 1
183 1 1
221 2 2
214 2 2
A matriz de confusão de
um classificador multiclasse
é semelhante à de um 
classificador binário,
exceto pelo fato de mostrar
o número de previsões para 
cada combinação de rótulos de 
classe previsto (ŷ) e real (y):
A partir dessa matriz de confusão, podemos determinar as 
métricas para cada classe individual da seguinte maneira:
Classe TP TN FP FN Exatidão Recall Precisão Pontuação F1
0 2 5 0 0 1.0 1.0 1.0 1.0
1 2 4 1 0 0,86 1.0 0.67 0,8
2 2 4 0 1 0,86 0.67 1.0 0,8
Para calcular as métricas de exatidão geral, recall e precisão,
você usa o total das métricas TP, TN, FP e FN:
● Exatidão geral = (13+6)÷(13+6+1+1) = 0,90
● Recordação geral = 6÷(6+1) = 0,86
● Precisão geral = 6÷(6+1) = 0,86
A pontuação F1 geral é calculada utilizando as métricas de recall e precisão gerais:
● Pontuação geral da F1 = (2x0,86x0,86)÷(0,86+0,86) = 0,86
24
Clustering
Clustering é uma forma de machine learning não supervisionado no qual as 
observações são agrupadas em clusters com base em semelhanças em seus 
valores de dados ou recursos. Esse tipo de machine learning é considerado 
não supervisionado porque não usa valores de rótulos conhecidos 
anteriormente para treinar um modelo. Em um modelo de clustering, o rótulo 
é o cluster ao qual a observação é atribuída com base apenas em seus 
recursos.
Exemplo - clustering
Por exemplo, suponha que um botânico observe uma amostra de flores
e registra o número de folhas e pétalas em cada flor:
Não há rótulos conhecidos no conjunto de dados, apenas dois recursos.O objetivo não é identificar os diferentes tipos (espécies) de flores; apenas 
agrupar flores semelhantes com base no número de folhas e pétalas.
Folhas (x1) Pétalas (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8
25
Treinando um modelo de clustering
Há vários algoritmos que você pode usar para clustering. Um dos algoritmos
mais usados é o cluster K-means, que consiste nas seguintes etapas:
Os valores dos recursos (x) são vetorizados para definir coordenadas n-
dimensionais (onde n é o número de recursos). No exemplo da flor, temos dois 
recursos: número de folhas (x1) e número de pétalas (x2). O vetor de recursos 
tem, portanto, duas coordenadas, que podem ser usadas para plotar 
conceitualmente os pontos de dados em um espaço bidimensional ([x1,x2])
Você decide quantos clusters deseja usar para agrupar as flores - chame esse 
valor k. Por exemplo, para criar três clusters, você usaria um valor de k de 3.
Em seguida, os pontos k são plotados em coordenadas aleatórias. Esses se 
tornam os pontos centrais de cada cluster e são chamados de centroides.
Cada ponto de dados (nesse caso, uma flor) é atribuído
ao seu centroide mais próximo.
Cada centroide é movido para o centro dos pontos de dados
atribuídos a ele com base na distância média entre os pontos.
Depois que o centroide é movido, os pontos de dados podem estar mais 
próximos de um centroide diferente, portanto, os pontos de dados são 
reatribuídos aos clusters com base no novo centroide mais próximo.
As etapas de movimentação de centroide e realocação de cluster
são repetidas até que os clusters se tornem estáveis ou um número
máximo de iterações predeterminado seja atingido.
A seguinte animação mostra esse processo:
1 2
3 4
5 6
26
Avaliando um modelo de clustering
Como não há um rótulo conhecido com o qual comparar as atribuições de
cluster previstas, a avaliação de um modelo de clustering se baseia em quão
bem os clusters resultantes são separados uns dos outros.
Há várias métricas que você pode usar para avaliar
a separação de cluster, incluindo:
● Distância média para o centro do cluster:
Qual a proximidade, em média, de cada ponto do cluster
em relação ao centroide do cluster.
● Distância média para o outro centro:
Qual a proximidade, em média, de cada ponto do cluster
em relação aos centroides de todos os outros clusters.
● Distância máxima até o centro do cluster:
A maior distância mais distante entre um ponto do cluster e seu centroide.
● Silhueta:
Um valor entre -1 e 1 que resume a proporção da distância
entre pontos no mesmo cluster e pontos em clusters diferentes
(quanto mais próximo de 1, melhor a separação do cluster).
Aprendizado
O aprendizado profundo é uma forma avançada de aprendizado de máquina 
que tenta emular a maneira como o cérebro humano aprende. A chave para o 
aprendizado profundo é a criação de uma rede neural artificial que simula a 
atividade eletroquímica em neurônios biológicos utilizando funções 
matemáticas, como mostrado aqui.
Rede Neural Biológica Rede Neural Artificial
Os neurônios disparam
em resposta aos estímulos 
eletroquímicos. Quando 
disparado, o sinal é passado 
para os neurônios
conectados.
Cada neurônio é uma função
que opera em um valor de
entrada (x) e um peso (w). A função 
é encapsulada em uma função 
de ativação que determina se a 
saída deve ser passada adiante.
27
As redes neurais artificiais são compostas de várias camadas de
neurônios - essencialmente definindo uma função profundamente aninhada.
Essa arquitetura é o motivo pelo qual a técnica é chamada de aprendizado 
profundo e os modelos produzidos por ela são frequentemente chamados 
de redes neurais profundas (DNNs). Você pode utilizar redes neurais profundas 
para muitos tipos de problemas de aprendizado de máquina, incluindo 
regressão e classificação, bem como modelos mais especializados para 
processamento de linguagem natural e visão computacional.
Assim como outras técnicas de aprendizado de máquina discutidas neste 
módulo, o aprendizado profundo envolve o ajuste dos dados de treinamento 
a uma função que pode prever um rótulo (y) com base no valor de um ou 
mais recursos (x). A função (f(x)) é a camada externa de uma função aninhada 
na qual cada camada da rede neural encapsula funções que operam em x e 
os valores de peso (w) associados a elas.
O algoritmo utilizado para treinar o modelo envolve a alimentação iterativa 
dos valores dos recursos (x) nos dados de treinamento por meio das camadas 
para calcular as saídas para ŷ, validando o modelo para avaliar a distância 
entre os valores calculados ŷ e os valores conhecidos y (que quantifica o nível 
de erro, ou perda, no modelo) e, em seguida, modificando os pesos (w) para 
reduzir a perda. O modelo treinado inclui os valores finais de peso que 
resultam nas previsões mais precisas.
Exemplo: usando aprendizado profundo para classificação
Para entender melhor como um modelo de rede neural profunda funciona, 
vamos explorar um exemplo em que uma rede neural é utilizada para definir 
um modelo de classificação para espécies de pinguins.
Os dados do recurso (x) consistem em algumas medidas de um pinguim.
Especificamente, as medidas são:
● O comprimento do bico do pinguim.
● A profundidade do bico do pinguim.
● O comprimento das nadadeiras do pinguim.
● O peso do pinguim.
Nesse caso, x é um vetor de quatro valores, ou matematicamente,
x=[x1,x2,x3,x4].
28
O rótulo que estamos tentando prever (y) é a espécie do pinguim,
e que existem três espécies possíveis que será:
● Adélia
● Gentoo
● Chinstrap
Esse é um exemplo de um problema de classificação, no qual o modelo de
machine learning deve prever a classe mais provável à qual uma observação 
pertence. Um modelo de classificação faz isso prevendo um rótulo que consiste 
na probabilidade de cada classe.
Em outras palavras, y é um vetor de três valores de probabilidade; um para cada 
uma das classes possíveis: [P(y=0|x), P(y=1|x), P(y=2|x)].
O processo de inferência de uma classe de pinguins prevista
utilizando essa rede é:
1. O vetor de recursos para a observação de um pinguim é alimentado na camada
de entrada da rede neural, que consiste em um neurônio para cada valor x. Neste 
exemplo, o seguinte vetor x é utilizado como entrada: [37.3, 16.8, 19.2, 30.0]
2. Cada uma das funções da primeira camada de neurônios calcula uma soma 
ponderada, combinando o valor x e o peso w, e a passa para uma função de ativação 
que determina se ela atende ao limite que será passado para a próxima camada.
3. Cada neurônio de uma camada está conectado a todos os neurônios da camada 
seguinte (uma arquitetura às vezes chamada de rede completamente conectada),
de modo que os resultados de cada camada são alimentados pela rede
até chegarem à camada de saída.
4. A camada de saída produz um vetor de valores; nesse caso, utilizando uma 
função softmax ou similar para calcular a distribuição da probabilidade para as três 
classes possíveis de pinguins. Neste exemplo, o vetor de saída é: [0,2, 0,7, 0,1]
5. Os elementos do vetor representam as probabilidades das classes 0, 1 e 2.
O segundo valor é o mais alto, portanto o modelo prevê que a
espécie do pinguim é 1 (Gentoo).
Como uma rede neural aprende?
Os pesos em uma rede neural são fundamentais para a forma como ela calcula
os valores previstos para os rótulos. Durante o processo de treinamento,
o modelo aprende os pesos que resultarão nas previsões mais precisas.
Vamos explorar o processo de treinamento com um pouco mais de
detalhes para entender como se dá esse aprendizado.
29
1. Os conjuntos de dados de treinamento e validação são definidos
e os recursos de treinamento alimentados na camada de entrada.
2. Os neurônios em cada camada da rede aplicam seus pesos
(que são inicialmente atribuídos de forma aleatória)
e alimentam os dados por meio da rede.
3. A camada de saída produz um vetor que contém os valores
calculados para ŷ. Por exemplo, uma saída para umaprevisão
de classe de pinguim pode ser [0,3. 0,1. 0,6].
4. Uma função de perda é utilizada para comparar os valores previstos ŷ com 
os valores conhecidos y e agregar a diferença (que é conhecida como perda). 
Por exemplo, se a classe conhecida para o caso que retornou a saída na 
etapa anterior for Chinstrap, então o valor y deverá ser [0.0, 0.0, 1.0].
A diferença absoluta entre isso e o vetor ŷ é [0,3, 0,1, 0,4]. Na realidade,
a função de perda calcula a variação agregada de vários casos
e a resume em um único valor de perda.
5. Como a rede inteira é essencialmente uma grande função aninhada,
uma função de otimização pode utilizar o cálculo diferencial para avaliar
a influência de cada peso na rede sobre a perda e determinar como eles 
podem ser ajustados (para cima ou para baixo) para reduzir a quantidade
de perda de modo geral. A técnica de otimização específica pode variar,
mas geralmente envolve uma abordagem de descida de gradiente em
que cada peso é aumentado ou diminuído para minimizar a perda.
6. As alterações nos pesos são retropropagadas para as camadas
da rede, substituindo os valores utilizados anteriormente.
7. O processo é repetido em várias iterações (conhecidas como épocas) até
que a perda seja minimizada e o modelo preveja com precisão aceitável.
Observação
Embora seja mais fácil pensar em cada caso dos dados de treinamento sendo passado 
pela rede um de cada vez, na realidade os dados são colocados em lote em matrizes e 
processados utilizando cálculos algébricos lineares. Por esse motivo, o treinamento da 
rede neural é melhor executado nos computadores com unidades de processamento 
gráfico (GPUs) otimizadas para a manipulação de vetores e matrizes.
Azure Machine Learning
O Microsoft Azure Machine Learning é um serviço de nuvem para 
treinamento, implantação e gerenciamento de modelos de machine learning.
Ele foi projetado para ser usado por cientistas de dados, engenheiros
de software, profissionais de DevOps e outros para gerenciar o ciclo de vida
de ponta a ponta de projetos de machine learning, incluindo: 
● Exploração de dados e preparação para modelagem.
● Treinamento e avaliação de modelos de machine learning.
● Registro e gerenciamento de modelos treinados.
30
● Implantação de modelos treinados para uso por aplicativos e serviços.
● Revisão e aplicação de princípios e práticas de IA responsáveis.
Recursos e funcionalidades do Azure Machine Learning
O Azure Machine Learning fornece os seguintes recursos e funcionalidades 
para dar suporte a cargas de trabalho de machine learning:
● Armazenamento e gerenciamento centralizado de conjuntos de dados
para treinamento e avaliação de modelos.
● Recursos de computação sob demanda nos quais você pode executar
trabalhos de machine learning, como o treinamento de um modelo.
● AutoML (machine learning automatizado), que facilita a execução de vários 
trabalhos de treinamento com diferentes algoritmos e parâmetros para
encontrar o melhor modelo para seus dados.
● Ferramentas visuais para definir pipelines orquestrados para processos
como treinamento ou inferência de modelos.
● Integração com estruturas comuns de machine learning, como o MLflow, 
que facilitam o gerenciamento do treinamento, da avaliação
e da implantação de modelos em escala.
● Suporte integrado para visualizar e avaliar métricas relacionadas à IA responsável, 
incluindo explicabilidade do modelo, avaliação de imparcialidade e outros.
Provisionamento de recursos do Azure Machine Learning
O principal recurso necessário para o Azure Machine Learning é um
workspace do Azure Machine Learning, que você pode provisionar em
uma assinatura do Azure. Outros recursos de suporte, incluindo contas
de armazenamento, registros de contêineres, máquinas virtuais e outros,
são criados automaticamente conforme necessário.
Para criar um workspace do Azure Machine Learning, você pode usar
os modelos do portal do Azure, como mostrado aqui:
31
Azure Machine Learning Studio
Depois de provisionar um workspace do Azure Machine Learning, você pode 
usá-lo no Estúdio do Azure Machine Learning; um portal baseado em 
navegador para gerenciar seus recursos e trabalhos de machine learning.
No Estúdio do Azure Machine Learning, você pode (entre outras coisas):
● Importar e explorar dados.
● Criar e usar recursos de computação.
● Executar o código em notebooks.
● Usar ferramentas visuais para criar trabalhos e pipelines.
● Usar o machine learning automatizado para treinar um modelo.
● Exibir detalhes de modelos treinados, incluindo métricas de avaliação,
informações de IA responsável e parâmetros de treinamento.
● Implantar modelos treinados para inferência em lote e solicitação.
● Importar e gerenciar modelos a partir de um catálogo de modelos abrangente.
A captura de tela mostra a página Métricas de um modelo 
treinado no Estúdio do Azure Machine Learning, na qual você 
pode ver as métricas de avaliação de um modelo de 
classificação multiclasse treinado.
32
Resumo
Aprendizado de máquina é a base sobre a qual a inteligência 
artificial é compilada. Neste módulo, você aprendeu sobre
alguns dos principais princípios e conceitos nos quais se baseia
o aprendizado de máquina e sobre os diferentes tipos de
modelos que podem ser treinados e avaliados.
O módulo também apresentou o Azure Machine Learning;
uma plataforma de nuvem para operações de aprendizado de 
máquina de ponta a ponta e lhe deu a oportunidade de usar o 
machine learning automatizado no Azure Machine Learning.
Dica
Para saber mais sobre o Azure Machine Learning e seus recursos,
consulte a página do Azure Machine Learning
https://azure.microsoft.com/products/machine-learning/
	Slide 1
	Slide 2
	Slide 3
	Slide 4
	Slide 5
	Slide 6
	Slide 7
	Slide 8
	Slide 9
	Slide 10
	Slide 11
	Slide 12
	Slide 13
	Slide 14
	Slide 15
	Slide 16
	Slide 17
	Slide 18
	Slide 19
	Slide 20
	Slide 21
	Slide 22
	Slide 23
	Slide 24
	Slide 25
	Slide 26
	Slide 27
	Slide 28
	Slide 29
	Slide 30
	Slide 31
	Slide 32

Mais conteúdos dessa disciplina