CIÊNCIA DE DADOS - Slides de Aula - Unidade I

breadcrumb-separator

FAPAL

em 17/09/2023

Conteúdos escolhidos para você

Noções Gerais de Mineração de Dados

Noções Gerais de Mineração de Dados

ESTÁCIO

Técnicas de Ciência de Dados e Big Data

CLASSIFICAÇÂO-E-PREDIÇÃO

CLASSIFICAÇÂO-E-PREDIÇÃO

ESTÁCIO

Machine Learning - Unidade 1

Machine Learning - Unidade 1

UAM

Introdução à Ciência de Dados (UniFatecie)

Introdução à Ciência de Dados (UniFatecie)

Perguntas dessa disciplina

Se um gestor escolar deseja comparar a quantidade de alunos matriculados por série ou o índice de participação em atividades extracurriculares, quais

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

ANHANGUERA

Desafio Prazo para envio: 31/12/25 23:59 Liberação do feedback: 01/01/26 00:00 Os conceitos pertencentes ao campo de estudos da estatística são m...

Pergunta 1 Qual é a principal característica do aprendizado não supervisionado? a. Aprende a partir de dados sem rótulos. b. Utiliza dados rotulados.

UNIP

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que um...

UNIP

Material

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

Noções Gerais de Mineração de Dados

Noções Gerais de Mineração de Dados

ESTÁCIO

Técnicas de Ciência de Dados e Big Data

CLASSIFICAÇÂO-E-PREDIÇÃO

CLASSIFICAÇÂO-E-PREDIÇÃO

ESTÁCIO

Machine Learning - Unidade 1

Machine Learning - Unidade 1

UAM

Introdução à Ciência de Dados (UniFatecie)

Introdução à Ciência de Dados (UniFatecie)

Perguntas dessa disciplina

Se um gestor escolar deseja comparar a quantidade de alunos matriculados por série ou o índice de participação em atividades extracurriculares, quais

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

ANHANGUERA

Desafio Prazo para envio: 31/12/25 23:59 Liberação do feedback: 01/01/26 00:00 Os conceitos pertencentes ao campo de estudos da estatística são m...

Pergunta 1 Qual é a principal característica do aprendizado não supervisionado? a. Aprende a partir de dados sem rótulos. b. Utiliza dados rotulados.

UNIP

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que um...

UNIP

Prévia do material em texto

Profa. Dra. Miryam de Moraes
UNIDADE I
Ciência de Dados
 Introdução e Visão Geral sobre a Ciência de Dados.
 Descoberta de Conhecimento em Base de Dados.
 Visão Geral sobre o Aprendizado de Máquina.
 Viés Indutivo.
 Aprendizado Descritivo e Preditivo.
 Mineração de Dados.
Ciência de Dados
 Big Data x Ciência de Dados.
 “Big Data é qualquer dado que seja computacionalmente caro de gerenciar e difícil de extrair 
valor”. – Michael Franklin, UC, Berkeley.
 Big Data refere-se ao volume de dados tão grandes e/ou complexos para serem efetiva e/ou 
eficientemente tratados por teorias tradicionais sobre os dados relacionados, as tecnologias 
e as ferramentas (CAO, 2017). 
 Avanços recentes nas tecnologias para a aquisição, o armazenamento, a transmissão e os 
processamento de dados geram maior quantidade de dados, com maior rapidez e a menor 
custo. Os dados têm natureza não ortodoxas, como: imagens, sons etc.
Introdução e Visão Geral sobre a Ciência de Dados
 Dados que são grandes demais para os sistemas tradicionais de processamento de dados.
 Dados que precisam de novas técnicas para serem processados.
 Dados que são muito complexos.
 Dados que são importantes.
 Desafios e oportunidades decorrentes da disponibilidade de dados sobre tudo.
Big Data (CARVALHO, 2021)
 Grande volume de dados, gerados com grande velocidade e variedade (3 Vs).
 Volume: tanto de dados estruturados quanto de não estruturados.
 Variedade: vindos de fontes diferentes e que precisam ser integrados.
 Velocidade: gerados em fluxos cada vez mais rápidos.
Características de Big Data (CARVALHO, 2021)
 Trata-se de um novo campo interdisciplinar que sintetiza e se fundamenta sobre as 
disciplinas, como: Estatística, Informática, Computação, Ciências Sociais, para estudar os 
dados e os seus ambientes, incluindo os aspectos contextuais tais como aqueles 
organizacionais e sociológicos, a fim de transformar os dados em insights para a tomada de 
decisões (CAO, 2017).
 “A Ciência de Dados é um novo campo transdisciplinar que constrói e sintetiza várias 
disciplinas, e corpos de conhecimento relevantes, incluindo: Estatística, Informática, 
Computação, Comunicação, Gerenciamento e Sociologia” (CAO, 2017).
 Os resultados de Ciência de Dados são produtos de dados.
 Produtos de dados: são sistemas com inteligência estatística 
desenvolvidos para responder uma pergunta de negócio a 
partir de dados.
 São exemplos: previsão, serviço, recomendação, insight de 
tomada de decisão, pensamento, modelo, modo e paradigma.
Ciência de Dados
 Ciência de Dados: estuda os princípios e as técnicas para extrair o conhecimento de um 
conjunto de dados (novo, relevante e útil).
 Big Data lida com as tecnologias para coletar, gerenciar e processar os (Big) dados.
 Ciência de Dados lida com a criação de soluções para a modelagem de dados, capazes de 
extrair o conhecimento de dados reais.
 As tecnologias de processamento de dados, através da Ciência de Dados, permite que 
sejam tomadas as decisões, orientadas pelos dados.
Ciência de Dados (CARVALHO, 2021)
 Dotado de pensamento crítico, criativo, inquisitivo e analítico.
 Estatística.
 Mineração de Dados.
 Metodologias e Modelos de Aprendizado de Máquina (Machine Learning).
 Infraestruturas de Big Data: computação em nuvem, paradigmas de sistemas distribuídos, 
processamento de stream e bancos de dados.
 Conhecimento sobre a interação homem – máquina, representação, gerenciamento e 
visualização do conhecimento.
 Background em Engenharia de Software e Qualidade de Software.
 Interesse em estudos multidisciplinares: métodos em Ciências 
Sociais e da vida.
 Linguagens de programação, estruturas de dados e 
desenvolvimento em plataformas Linux, sistemas
distribuídos, nuvem.
Conjunto de habilidades do profissional cientista de dados (CAO, 2017)
 Negociação.
 Comunicação.
 Pensamento crítico.
 Curiosidade.
 Conhecimento de negócio.
Conjunto de habilidades do profissional cientista de dados 
(PRÓXIMO NÍVEL, 2020)
 Visão Geral sobre KDD (Knowledge Discovery in Database).
Segundo Fayyad et al. (1996), esse conjunto é composto de cinco etapas:
 Seleção dos dados;
 Pré-processamento e limpeza dos dados;
 Transformação dos dados;
 Mineração de dados;
 Interpretação dos dados.
Descoberta de Conhecimento em Base de Dados
Fonte: Adaptado de: Steiner et al. (2006).
Dados relevantes
Dados
pré-processados
Dados
transformados
Padrões
Conhecimento
a) Ação 1
b) Ação 2
Dados
Seleção
Pré-
processamento
Transformação
Data Mining
Interpretação
 Os algoritmos de Aprendizado de Máquina (Machine Learning) são ferramentas de propósito 
geral para se obter as generalizações a partir dos dados. São capazes de resolver os 
problemas de diferentes disciplinas sem que se tenha um conhecimento detalhado de um 
específico domínio. São algoritmos que têm sido empregados com muito sucesso em visão 
computacional, reconhecimento de voz, classificação de documentos e suporte
à decisão (HOPCROFT et al., 2020).
Trata-se de uma disciplina centrada em duas questões inter-relacionadas:
Como é possível construir um sistema computacional que, 
automaticamente, aprende com a experiência?
Quais são as leis que governam cada sistema de aprendizagem, 
independentemente, se o mesmo é implementado em 
computadores, humanos ou organizações? (MITCHELL, 2017).
Aprendizado de Máquina
 Como resultado, cada vez mais empresas, órgãos públicos e instituições sem fins lucrativos 
empregam IA e AM. 
 O maior crescimento ocorre em empresas onde o uso de IA e AM varia desde a sua adoção 
como a estratégia de negócio, como é o caso da companhia Google, até para o 
desenvolvimento de aplicações marginais ao negócio, como os assistentes automáticos 
comuns nos aplicativos e sites de diversos bancos. 
Exemplos:
 Organização de fotos no Google Fotos, em que AM é utilizado, 
por exemplo, para a identificação dos elementos das fotos ou 
agrupamento das fotos por padrões;
 Legendas automáticas para os vídeos no YouTube;
 Recomendação de respostas rápidas às mensagens de e-mail 
no Gmail;
 Uso de redes neurais artificiais, mais, especificamente, Deep 
Learning, para melhorar a fluência e a eficácia das traduções 
no Google Tradutor.
Aprendizado de Máquina (CARVALHO, 2021)
Aplicações incluem:
 Interfaces que utilizam a linguagem natural (escrita ou falada);
 Reconhecimento facial;
 Filtragem de spam em e-mails, detecção de fraude por bancos e operadoras de cartões de 
crédito, auxílio ao diagnóstico;
 Doenças por meio da análise de dados clínicos, de imagem e/ou dados genéticos;
 Recomendação de produtos com base no perfil do consumidor e em seu histórico
de consumo;
 Comportamento inteligente em personagens de jogos.
Aprendizado de Máquina (CARVALHO, 2021)
 Em AM, os dispositivos computacionais empregam um princípio de inferência denominado de 
indução, que permite extrair as conclusões genéricas a partir de um conjunto particular
de exemplos.
 Exemplo: um conjunto de dados de pacientes de um hospital: 
cada dado (também chamado de objeto, exemplo, padrão ou 
registro) corresponde a um paciente, representado por uma 
tupla formada pelos valores de características (também 
chamadas de campos, variáveis ou atributos) e as 
observações do estado do paciente, tais como: código de 
identificação, nome, idade, sexo, estado de origem, além de 
alguns sintomas e resultados de exames clínicos. Alguns 
exemplos de sintomas podem ser: pressão sanguínea, 
manchas na pele, peso e temperatura do corpo.
Aprendizado de Máquina (CARVALHO, 2021)
 Seja, por exemplo, um algoritmo de AM aplicado aos dados para aprender um modelo (por 
exemplo, uma regra) capaz de diagnosticar os pacientes de acordo com os valores de seus 
atributos de entrada. 
 Esse modelo deve ser capaz de diagnosticar, corretamente, novos pacientes. 
 A regra tambémdeve ser válida para outros objetos do mesmo domínio ou problema, que 
não fazem parte do conjunto de treinamento. 
 A essa propriedade de um modelo continuar a ser válido para os novos objetos dá-se o 
nome de capacidade de generalização. 
 Quando um modelo apresenta baixa capacidade de 
generalização, a regra está superajustada aos dados 
(overfitting). Isso significa que o modelo memorizou ou se 
especializou nos dados de treinamento.
 Quando o modelo possui baixa capacidade preditiva
para os dados de treinamento, pode ter ocorrido um
subajuste (underfitting).
Aprendizado de Máquina (CARVALHO, 2021)
 Durante o processo de aprendizado, um algoritmo de AM 
procura por um modelo, no espaço de possíveis modelos, 
capaz de modelar a relação entre os atributos preditivos
e o atributo-alvo.
Viés Indutivo
Fonte: Adaptado de: Carvalho (2021).
(a) [Árvore de Decisão] (b) [Conjunto de regras] (c) [Redes neurais]
Doente Saudável Doente
M F
Sexo
Peso
< 50 > 50
Se Peso > 50, então Doente
Se Peso < 50 e Sexo = M, então Doente
Se Peso < 50 e Sexo = F, então Saudável
0,45 –0,40 0,54 0,12 0,98 0,37
–0,45 0,11 0,91 0,34 –0,20 0,83
0,29 0,32 –0,25 –0,51 0,41 0,70
 A forma como um algoritmo procura pelo melhor modelo, espaço de possíveis modelos, 
define um outro viés, o viés de busca. Por exemplo, o algoritmo ID3, que é utilizado para a 
indução de árvores de decisão, tem como viés de busca a sua preferência por Árvores de 
Decisão com poucos nós.
 Assim, cada algoritmo de AM possui dois vieses, um viés de representação e um viés de 
busca. O viés é necessário para restringir os modelos a serem avaliados no espaço de 
busca. Sem viés não haveria o(a) aprendizado/generalização.
Viés Indutivo
 O aprendizado de máquina pode ser classificado em supervisionado e não supervisionado.
Aprendizado de Máquina (ARTERO, 2009)
Fonte: Adaptado de: Carvalho (2021).
Preditivo Descritivo
Aprendizado de Máquina
Aprendizado de Máquina
Não supervisionadoSupervisionado
Agrupamento Associação SumarizaçãoRegressãoClassificação
 No aprendizado não supervisionado, apenas, as entradas são fornecidas, sendo que, neste 
caso, o padrão de saída deve ser deduzido pelo próprio sistema de aprendizado.
 No aprendizado supervisionado, deve ser apresentado um conjunto de pares entrada-saídas, 
sendo as entradas formadas por alguns atributos relativos aos objetos em que se deseja 
descobrir algum padrão ou tendência, e as saídas correspondem às classes desejadas.
Aprendizado de Máquina (ARTERO, 2009)
Fonte: Adaptado de: Carvalho (2021).
Preditivo Descritivo
Aprendizado de Máquina
Não supervisionadoSupervisionado
Agrupamento Associação SumarizaçãoRegressãoClassificação
 A classificação visa identificar à qual classe determinado registro pertence. Nesta tarefa,
o modelo analisa o conjunto de registros fornecidos, com cada registro já contendo a 
indicação à qual classe pertence, a fim de “aprender” como classificar um novo registro 
(aprendizado supervisionado).
Aprendizado supervisionado
Fonte: Adaptado de: Carvalho (2021). 
Classificação e Regressão
(a) [Classificação] (b) [Regressão]
Exame 1 Ano
E
x
a
m
e
 2
V
a
z
ã
o
Função aproximada
Classe
saudável
Classe
doente
Exemplo de conjunto de dados para os problemas de classificação
(CARVALHO, 2021)
Tamanho (P) Largura (P) Tamanho (S) Largura (S) Espécie
5,1 3,5 1,4 0,2 Setosa
4,9 3,0 1,4 0,2 Setosa
7,0 3,2 4,7 1,4 Versicolor
6,4 3,2 4,5 1,5 Versicolor
6,3 3,3 6,0 2,5 Virgínica
5,8 2,7 5,1 1,9 Virgínica
Fonte: Adaptado de: Carvalho (2021).
 A regressão é similar à classificação, porém, é usada quando o registro é identificado por um 
valor numérico e não um categórico. Assim, pode-se estimar o valor de determinada variável 
analisando-se os valores das demais.
Aprendizado supervisionado – Regressão
Fonte: Adaptado de: Carvalho (2021).
(a) [Classificação] (b) [Regressão]
Exame 1 Ano
E
x
a
m
e
 2
V
a
z
ã
o
Função aproximada
Classe
saudável
Classe
doente
Exemplo de conjunto de dados para o problema de regressão 
(CARVALHO, 2021)
Fertilidade Agricultura Educação Renda Mortalidade
80,2 17,0 12 9,9 22,2
83,1 45,1 9 84,8 22,2
92,5 39,7 5 93,4 20,2
85,8 36,5 7 33,7 20,3
76,9 43,5 15 5,2 20,6
Fonte: Adaptado de: Carvalho (2021).
Considere às seguintes afirmações:
I. Estuda os princípios e as técnicas para extrair o conhecimento de um conjunto novo, 
relevante e útil de dados;
II. Dados que são grandes demais para os sistemas tradicionais de processamento de dados,
ou seja, são os dados que precisam de novas técnicas para serem processados;
III. Trata-se de uma disciplina centrada na questão: como é possível construir um sistema 
computacional que, automaticamente, aprende com a experiência?
Tais asserções referem-se, respectivamente, ao/à:
a) Aprendizado de Máquina, Ciência de Dados, Big Data.
b) Big Data, Ciência de Dados, Ciência de Dados.
c) Ciência de Dados, Big Data, Aprendizado de Máquina.
d) Aprendizado de Máquina, Big Data, Ciência de Dados.
e) Big Data, Ciência de Dados, Aprendizado de Máquina.
Interatividade
Considere às seguintes afirmações:
I. Estuda os princípios e as técnicas para extrair o conhecimento de um conjunto novo, 
relevante e útil de dados;
II. Dados que são grandes demais para os sistemas tradicionais de processamento de dados,
ou seja, são os dados que precisam de novas técnicas para serem processados;
III. Trata-se de uma disciplina centrada na questão: como é possível construir um sistema 
computacional que, automaticamente, aprende com a experiência?
Tais asserções referem-se, respectivamente, ao/à:
a) Aprendizado de Máquina, Ciência de Dados, Big Data.
b) Big Data, Ciência de Dados, Ciência de Dados.
c) Ciência de Dados, Big Data, Aprendizado de Máquina.
d) Aprendizado de Máquina, Big Data, Ciência de Dados.
e) Big Data, Ciência de Dados, Aprendizado de Máquina.
Resposta
 No aprendizado não supervisionado, as tarefas descritivas são genericamente divididas em: 
agrupamento, que dividem os dados em grupos de acordo com a sua similaridade; 
sumarização, que buscam uma descrição simples e compacta para um conjunto de dados; e 
associação, que procuram os padrões frequentes de associações entre os atributos de um 
conjunto de dados.
 As principais técnicas em aprendizado não supervisionado são as redes neurais com 
treinamento não supervisionado, como a Rede de Kohonen; os algoritmos de agrupamento, 
como o k-médias, entre outros e, também, a técnica de mineração de dados, chamada de 
regras de associação.
Aprendizado não supervisionado
 Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise 
de dados e algoritmos de descobrimento que produzem uma enumeração de padrões (ou 
modelos) particular sobre os dados.
 São técnicas de mineração de dados: Árvores de Decisão, K-vizinhos mais próximos,
K-Médias e Naive Bayes.
 O k-NN considera que os registros do conjunto de dados correspondem aos pontos no Rn,
em que cada atributo corresponde a uma dimensão deste espaço.
 Utilizado em aplicações envolvendo a Tarefa de Classificação.
 O conjunto de dados é armazenado.
Mineração de Dados – K-vizinhos mais próximos (GOLDSCHMIDT E 
BEZERRA, 2015)
 Quando um novo registro deve ser classificado, este registro é comparado a todos os 
registros do conjunto de treinamento para identificar k-vizinhos mais próximos, i.e., mais 
semelhantes, de acordo com alguma métrica.
 Além disso, o valor de k é um parâmetro de entrada deste método. A classe do novo registro 
é determinada por inspeção das classes desses vizinhos mais próximos, de acordo com a 
métrica selecionada.
São portanto, passos do Método KNN:
1. Cálculo da distância do novo registro a cada um dos registros 
existentes no conjunto de referência;
2. Identificação dos k registros do conjunto de referência que 
apresentaram menor distância em relação ao novo registro(i.e., mais similares);
3. Apuração da classe mais frequente entre os k registros 
identificados no passo anterior.
Passos do Método KNN
 Considere o exemplo no contexto da análise de crédito, cujo conjunto de dados de referência 
(fictício) é reapresentado. Este conjunto está dividido em duas classes: os negligentes, 
representados com um “X” e os não negligentes, representados por um “O”. Nesta aplicação, 
deseja-se avaliar a possibilidade de concessão de crédito às novas solicitações.
Exemplo
Renda
D
e
s
p
e
s
a
s
Negligentes
Não negligentes
Fonte: Goldschmidt e Bezerra (2015).
Suponha que um novo registro (solicitante) é apresentado, registro este representado por *, a 
seguir. O método k-NN calcula a distância entre o novo registro e todos os 14 registros 
existentes no conjunto de dados de referência. Se considerarmos que k, o número de vizinhos 
mais próximos, seja 3, somente os 3 registros com menor distância ao novo registro são 
considerados. Esses 3 vizinhos estão delimitados pelo círculo na próxima figura:
K-vizinhos mais próximos 
Renda
D
e
s
p
e
s
a
s
Negligentes
Não negligentes
Fonte: Goldschmidt e Bezerra (2015).
 Observa-se que a classe com maior ocorrência dentro da região delimitada pelo algoritmo 
k-NN foi o “cliente não negligente” (dois votos contra um da outra classe). Sendo assim, pela 
aplicação do algoritmo k-NN, no exemplo apresentado, o crédito seria concedido
ao solicitante.
 Um valor adequado para o parâmetro k é, normalmente, determinado em função do conjunto 
de dados de referência. Em geral, quanto maior o valor de k, menor o efeito de eventuais 
ruídos no conjunto de referência. Por outro lado, os valores grandes para k tornam mais 
difusas as fronteiras entre as classes existentes.
K-vizinhos mais próximos
 Uma Árvore de Decisão é um modelo de representação de conhecimento em que cada nó 
interno representa uma decisão sobre um atributo que determina como os dados estão 
particionados pelos seus nós filhos. 
 Uma Árvore de Decisão indutiva (ou Árvore de Decisão de aprendizado) envolve o uso de 
um conjunto de dados de treinamento para gerar uma árvore de decisão que classifique, 
corretamente, os dados de treinamento. Se o aprendizado tiver funcionado, a Árvore de 
Decisão classificará, então, corretamente, os novos dados de entrada também.
 O algoritmo de Árvore de Decisão indutiva mais bem conhecido é o ID3, que foi desenvolvido 
por Quinlan, nos anos 1980.
 No algoritmo ID3, os nós são selecionados pela escolha de 
características do conjunto de dados de treinamento que 
forneçam o máximo de informação sobre os dados, 
transformando, então, essas características em perguntas.
Árvore de Decisão (COPPIN, 2013)
 O algoritmo ID3 encontra a menor Árvore de Decisão possível que classifica, corretamente, 
os dados de treinamento.
O método usado pelo ID3, para determinar quais características usar, a cada estágio da Árvore 
de Decisão, é selecionar, em cada estágio, a característica que oferece o maior ganho de 
informação. Ganho de informação é definido como a redução em entropia. A entropia de um 
conjunto de dados de treinamento, S, é definida por:
H(S) = –p1 log2 p1 – p0 log2 p0, onde:
 p1 é a proporção dos dados de treinamento que inclui 
exemplos positivos;
 p0 é definido como a proporção que inclui exemplos negativos;
 A entropia de S será zero quando todos os exemplos forem 
positivos ou quando todos os exemplos forem negativos;
 A entropia alcançará o seu valor máximo, de 1, quando, 
exatamente, a metade dos exemplos for positiva e a outra 
metade, negativa.
Árvore de Decisão (COPPIN, 2013)
 O ganho de informação de uma característica específica nos mostra o quanto aquela 
característica representa toda a função-alvo e, então, a cada estágio a característica que 
proporcionar o maior ganho de informação será escolhida para se transformar
em uma pergunta.
Exemplo: considere-se os seguintes dados de treinamento:
Árvore de Decisão indutiva (COPPIN, 2013)
Filme Origem
Grande 
estrela
Gênero Sucesso
1
Estados
Unidos
Sim
Ficção
científica
Verdadeiro
2
Estados
Unidos
Não Comédia Falso
3
Estados 
Unidos
Sim Comédia Verdadeiro
4 Europeu Não Comédia Verdadeiro
5 Europeu Sim
Ficção 
científica
Falso
Exemplo (continuação)
Filme Origem
Grande
estrela
Gênero Sucesso
6 Europeu Sim Romance Falso
7
Outros 
países
Sim Comédia Falso
8
Outros 
países
Não
Ficção 
científica
Falso
9 Europeu Sim Comédia Verdadeiro
10
Estados 
Unidos
Sim Comédia Verdadeiro
Calcularemos, agora, o ganho de informação para os três atributos diferentes dos filmes, para 
selecionar qual usar no topo da árvore:
 H (EUA) = – (3/4) log2 (3/4) – (1/4) log2 (1/4) = 0,311 + 0,5 = 0,811;
 H (Europeu) = 1;
 H (Do restante do mundo) = 0.
 O ganho de informação total é definido, agora, pela entropia 
original do conjunto, menos a soma ponderada dessas 
entropias, onde o peso aplicado a cada valor de entropia é a 
proporção dos dados de treinamento que se enquadraram 
naquela categoria. Por exemplo, quatro décimos dos dados de 
treinamento eram dos Estados Unidos; então, o peso aplicado 
à H(EUA) é de 4/10 = 0,4.
O ganho de informação é definido por:
 Ganho = 1 – (0,4 × 0,811) – (0,4 × 1) – (0,2 × 0);
 = 1 – 0,3244 – 0,4 – 0 = 0,2756.
Árvore de Decisão indutiva (COPPIN, 2013)
 Então, neste estágio, o ganho de informação para o atributo “Origem” é de 0,2756.
Para o atributo de “Grande estrela”:
 H(sim) = 0,9852;
 H(não) = 1.
Então, o ganho de informação para este atributo é:
 Ganho = 1 – (0,7 × 0,9852) – (0,3 × 1) = 1 – 0,68964 – 0,3 = 0,01.
Para o atributo “Gênero”:
 H (Ficção científica) = 0,918296;
 H (Comédia) = 0,918296;
 H (Romance) = 0;
 Ganho = 1 – (0,3× 0,918296) – (0,6 × 0,918296) – (0,1 × 0) =
1 – 0,2754888 – 0,5509776 – 0 = 0,17.
Árvore de Decisão indutiva (COPPIN, 2013)
 O k-Means é um método popular da tarefa de agrupamento. Assim como o método k-NN, o 
k-Means considera que os registros do conjunto de dados correspondem aos pontos no Rn, 
em que cada atributo corresponde a uma dimensão deste espaço. Além disso, o k-Means
também possui um parâmetro de entrada, k, que, aqui, corresponde à quantidade de grupos 
a ser identificados.
 Inicialmente, o k-Means seleciona k pontos do conjunto de dados. Esses pontos são 
denominados de sementes. Essas sementes são os representantes iniciais, ou centroides, 
dos k grupos a serem formados. Em seguida, para cada ponto (ou registro do conjunto de 
dados), calcula-se a distância deste ponto a cada um dos centroides. Atribui-se este ponto ao 
grupo representado pelo centroide, cuja distância é a menor entre todas as calculadas.
 O resultado desse passo inicial é que cada ponto do conjunto 
de dados fica associado a um e, apenas, um dos k grupos.
K-Médias (GOLDSCHMIDT E BEZERRA, 2015)
 Após a alocação inicial, o método segue iterativamente, por meio da atualização dos 
centroides de cada grupo e da realocação dos pontos ao centroide mais próximo. O novo 
centroide de cada grupo G é calculado pela média dos pontos alocados a G. O processo 
iterativo termina quando os centroides dos grupos param de se modificar ou após um 
número preestabelecido de iterações ter sido realizado.
 O k-Means divide um conjunto de n objetos em k grupos tal que a similaridade intragrupos 
resultante seja alta, mas a similaridade intergrupos seja baixa. A similaridade em um grupo é 
a média dos pontos alocados neste grupo (i.e., é o centro de gravidade do grupo).
 Isso é equivalente a determinar uma partição de tamanho k que minimize a função do erro 
quadrático médio (do inglês, Mean Squared Error, MSE).
K-Médias
 Escolher k centroides aleatoriamente.
Repita:
 Calcular k-distância dos clusters;
 Obter a menor distância;
 Atribuir objeto ao cluster;
 Calcular um erro acumulado;
 Atualizar os clusters;
 Até que não haja mais mudança na configuração dos clusters.K-Médias
 Muitas variações do k-Means são 
encontradas, atualmente. Em geral, 
essas variações diferem na seleção 
das k-Médias iniciais, no cálculo da 
similaridade, ou na estratégia para 
calcular a média dos grupos.
K-Médias
Inicialização das médias Atribuição dos rótulos aos objetos
Atualização das médias
Nova atribuição de rótulos
e atualização das médias
Fonte: Goldschmidt e Bezerra (2015).
 Trata-se de um dos classificadores bayesianos mais populares.
 Naive Bayes: abordagem probabilística para a aprendizagem.
É uma técnica estatística (probabilidade condicional) baseada no Teorema de Thomas Bayes. 
Segundo o Teorema de Bayes, é possível encontrar a probabilidade de certo evento ocorrer, 
dada a probabilidade de um outro evento que já ocorreu:
 Probabilidade (B dado A) = Probabilidade (A e B)/Probabilidade(A);
 O classificador Naive Bayes será apresentado na próxima unidade.
Naive Bayes – Introdução
Considere as seguintes afirmações:
I. No aprendizado supervisionado, se apresentam um conjunto de pares entradas-saídas, 
sendo as entradas formadas por alguns atributos relativos aos objetos que se deseja 
descobrir algum padrão ou tendência, e as saídas correspondem às classes desejadas;
II. No aprendizado não supervisionado, apenas, as entradas são fornecidas e o padrão de 
saída deve ser deduzido pelo próprio sistema de aprendizado;
III. A grande vantagem das técnicas de agrupamento, como KNN e K-Médias, é aquela de não 
ser necessário conhecer a classe de saída de cada item de dado.
Estão corretas as afirmações:
a) Apenas a I e a II.
b) Apenas a II e a III.
c) Apenas a I.
d) I, II e III.
e) Apenas a III.
Interatividade
Considere as seguintes afirmações:
I. No aprendizado supervisionado, se apresentam um conjunto de pares entradas-saídas, 
sendo as entradas formadas por alguns atributos relativos aos objetos que se deseja 
descobrir algum padrão ou tendência, e as saídas correspondem às classes desejadas;
II. No aprendizado não supervisionado, apenas, as entradas são fornecidas e o padrão de 
saída deve ser deduzido pelo próprio sistema de aprendizado;
III. A grande vantagem das técnicas de agrupamento, como KNN e K-Médias, é aquela de não 
ser necessário conhecer a classe de saída de cada item de dado.
Estão corretas as afirmações:
a) Apenas a I e a II.
b) Apenas a II e a III.
c) Apenas a I.
d) I, II e III.
e) Apenas a III.
Resposta
 ARTERO, A. O. Inteligência Artificial – Teoria e Prática. São Paulo: Livraria da Física, 2009.
 CAO, L. Data Science: A Comprehensive Overview ACM Computing Surveys, v. 50, n. 3, 
Article 43, June 2017.
 CARVALHO, A. C. P. L. F. de. Data Science and Big Data. Disponível em: 
ciencia-dados.pdf (usp.br).
 CARVALHO, A. C. P. L. F. de. et al. Inteligência Artificial – Uma Abordagem de Aprendizado 
de Máquina. 2. ed. São Paulo: Grupo GEN, 2021.
 COPPIN, B. Inteligência Artificial. Rio de Janeiro: LTC, 2013.
 FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The 
KDD process for extracting useful knowledge from volumes of 
data. Communications of the ACM. 1996. Acesso em: 01 
mai. 2022.
 GOLDSCHMIDT, R.; BEZERRA, E. Data mining: conceitos, 
técnicas, algoritmos, orientações e aplicações. 2. ed. Rio de 
Janeiro: Elsevier, 2015. ISBN 978-85-352-7822-4.
Referências
 HOPCROFT, J.; BLUM, A.; KANNAN, R. Foundations of Data Science. 1. ed. Cambridge 
University Press, 2020.
 MITCHELL, T. Key Ideas in Machine Learning. 2017. Disponível em: keyIdeas.pdf (cmu.edu).
 PRÓXIMO NÍVEL. Data Science: 10 habilidades que seu cientista de dados deve ter. 
10/02/2020. Disponível em: https://proximonivel.embratel.com.br/data-science-10-
habilidades-que-seu-cientista-de-dados-deve-ter/. Acesso em: 01 mai. 2022.
 STEINER, M. T. A. et al. Abordagem de um problema médico por meio do processo de KDD 
com ênfase à análise exploratória dos dados. Gestão & Produção, 13(2), mai. 2006. 
Disponível em: https://www.scielo.br/j/gp/a/gC9RkgLD8B8FffPsNhBYWkB/?lang=pt. Acesso 
em: 01 mai. 2022.
Referências
ATÉ A PRÓXIMA!