Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

APRESENTAÇÃO
DE APOIO
Data Mining (Mineração de Dados)
DA DISCIPLINA
1º ENCONTRO 2º ENCONTRO 3º ENCONTRO
Fabiano Castello Fabiano Castello
Duncan Dubugras
Alcoba Ruiz
DA DISCIPLINA
CONVIDADO
FABIANO CASTELLO
PUCRS
DUNCAN DUBUGRAS ALCOBA RUIZ
data wisdom
signals
actionable
intelligence
Visão geral sobre sistemas de suporte à 
decisão e inteligência de negócio. 
Entendimento sobre o processo de KDD e, 
em especial sobre preparação de dados.
Estudo sobre as principais tarefas de 
mineração de dados. A Mineração de 
Dados e suas utilizações em estudos de 
casos reais.
nós poderíamos passar 2 aulas 
apenas discutindo os nomes...
Olson (2018) Han et al (2011) Hair et al (2009) 
Brown (2014) 
intro
BI, KDD & DM
“A Business Intelligence System” (IBM 1958) 
H. P. Luhn, "A Business Intelligence System," in IBM Journal of Research and Development, 
vol. 2, no. 4, pp. 314-319, Oct. 1958. doi: 10.1147/rd.24.0314
business intelligence and analytics (BI&A)
“BI&A systems provide support 
for collecting and transforming 
data and put particular 
emphasis on data analysis with 
the purpose of improving 
decision making”
Chen et al., 2012; Davenport, 2006; Shanks et al., 2010
apud Kowalczyk, Martin. (2017). The Support of Decision Processes with Business Intelligence and 
Analytics: Insights on the Roles of Ambidexterity, Information Processing and Advice. 
DOI: 10.1007/978-3-658-19230-3. 
KDD & DM 
•são a mesma coisa?
•similares?
•como de relacionam?
DM é uma fase do processo de KDD
mas, na prática, muitas vezes são 
usados de forma intercambiável
definições variam mas, de uma forma geral,
the overall process of discovering 
useful knowledge from data
a particular step in the KDD process. 
data mining is the application of 
specific algorithms for extracting 
patterns from data. 
KDD
DM
source: Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge 
Discovery in Databases. AI Magazine, 17(3), 37. https://doi.org/10.1609/aimag.v17i3.1230
BI&A
contexto parece confuso... mas não é!
KDD
DM
artificial intelligence
machine learning
deep learning
source: Fabiano Castello, adaptado de Brendan Tiernan (2012)
hierarquia
DIKW 
where is the Life we have lost in living?
where is the wisdom we have lost in knowledge?
where is the knowledge we have lost in the information?
T.S. Elliot, 1934
“lançada para eternidade” da forma como a conhecemos
hoje por Russell Ackoff em 1989
source: Harvard Business Review, David Weinberger , 2010
hierarquia
DIKW 
como chegar lá é nosso próximo assunto...
de para
data wisdom
signals
actionable
intelligence
o segredo é fazer de forma estruturada!
(técnicas, processos ou metodologias)
_ KDD
_ SEMMA
_ CRISP-DM
CRISP-DM
(cross industry standard process for data mining)
• uma das técnicas mais 
utilizados em data mining, e 
também considerada uma das 
mais completas
• principais vantagens são poder 
ser aplicada a qualquer tipo de 
negócio e não ter dependência 
de ferramenta específica para 
ser executada.
CRISP-DM
business understand
• identificação do problema a ser
resolvido
• três artefatos
•background: explica contexto e o problema, e como o 
projeto vai ser direcionado para solucioná-lo
•objetivo do projeto
•critério de sucesso: qual será a métrica para 
determinar se o projeto atingiu o sucesso ou não.
CRISP-DM
data understanding
•coletar
•descrever
•explorar
•verificar a qualidade
CRISP-DM
data preparation
•fase crítica: criação do
“dataset”
•atividades:
•data selection
•data cleaning
•construct data
• integrating data
CRISP-DM
modeling
•selecting modeling
techniques
•designing tests
•building models
•assessing models
CRISP-DM
evaluation
•evaluating results
•reviewing the 
process
•determining the 
next steps
CRISP-DM
deployment
•planning deployment
•planning monitoring and 
maintenance
•reporting final results
•reviewing final results
KDD
“there is an urgent need for a new 
generation of computational theories 
and tools to assist humans in extracting 
useful information (knowledge) from the 
rapidly growing volumes of digital data.”
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996)
KDD
(knowledge discovery in databases)
• talvez o mais famoso, ou mais conhecido do 
“grande público”
•um dos métodos mais antigos existentes
•compreende uma fase chamada data mining
•não foca em questões de negócio ou geração de 
modelos, mas sim na 
descoberta de conhecimentos 
a partir dos dados (padrões 
ou “patterns”)
KDD
source: traduzido a partir de 
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases. AI Magazine
SEMMA
(Sample, Explore, Modify, Model e Assess) 
• criada pelo SAS Institute
• semelhante ao CRISP-DM em muitos aspectos, mas, foca 
principalmente nas tarefas de criação do modelo, sem o 
protagonismo dos problemas de negócio
• principais steps: explorar informações
básicas dos dados, modificar e
transformar variáveis, gerar o modelo
e validá-lo
• SEMMA é útil para projetos de porte
menor
• contra: não considera a necessidade
do negócio
SEMMA
source: Shafique, Umair & Qaiser, Haseeb. (2014). A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA)
International Journal of Innovation and Scientific Research. 12. 2351-8014. 
source: Shafique, Umair & Qaiser, Haseeb. (2014). A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA)
International Journal of Innovation and Scientific Research. 12. 2351-8014. 
problema de negócio
entender, limpar
e transformar dados
“modelar”: descobrir 
padrões, fazer previsões
resultados para o negócio
1
2
independente da metodologia escolhida:
data exploration
data preprocessing
data transformation
mining
data exploration
“big data”
foundation, data sources
dados não-estruturados
qualquer tipo de dado: posts, imagens, áudio, vídeo, livros
dados semiestruturados
exemplos: XML e JSON
dados estruturados
tabelas; nosso dia a dia empresarial; em geral linhas e 
colunas; bancos de dados relacionais m
a
io
r 
c
o
m
p
le
xi
d
a
d
e
,
m
a
io
r 
n
e
c
e
ss
id
a
d
e
 d
e
 r
e
c
u
rs
o
s
foundation, data sources
dados estruturados
tabelas; nosso dia a dia empresarial; em geral linhas e 
colunas; bancos de dados relacionais
nossos exemplos vão focar em 
dados estruturados
explorar os dados é fundamental
• totalizações
• missing values
• outliers 
conhecer
os dados
validar
os dados
• tamanho dos dados
• tipos de variáveis
• como os valores estão 
distribuídos
tabela
re
gi
st
ro
s,
ca
so
s,
 “
tu
p
le
”,
o
b
se
rv
aç
õ
es
atributos, variáveis,
características, features
foundation, data formats
• numerical (continuous values: 0,5; 1,2; -1,55; idade)
• integer (integer values: 0, 1, -2; número de filhos)
• binary (dois estados: true/false; 1/0 ; aposentado)
• category (a finite set of possible values: estados BR)
• date (08/11/2019 19:45)
• string/text (texto comum: brasil, João Silva)
source: adaptado de Olson, D. (2018) Data Mining Models, Second Edition, Business Expert Press
visualização de dados 
(data visualization ou dataviz) 
é uma excelente forma 
de explorar dados 
https://youtu.be/xw9etmhojlQ
Hans Hosling 200 países, 200 anos, 4 minutos (LegBR)
ia.fabianocastello.com
referências em dataviz
great book!
Storytelling com Dados: 
um Guia Sobre 
Visualização de Dados 
Para Profissionais de 
Negócios
em Português 
barato! Amazon ~R$50
a importância da visualização de dados:
4 conjuntos de dados diferentes, mesmos números
source: Wikipedia, “Quarteto de Anscombe”
• mesma média e variância de X
• mesma média de Y (até p2)
• mesma variância de y (até p3)
• mesma correlação (até p3)
• mesma regressão
y = 3,00 + 0,500x
(até p2 e p3)
histogram,
gráfico de barras
• criado por william
Playfair há 200+ anos
• muito popular, usado
para comparar categorias. 
fácil de interpretar e bastantepreciso
• podem ser usados também 
para representar tendências 
(mas mais entre períodos do 
que para continuidade)
scatter plot,
gráfico de dispersão
• correlaciona duas variáveis
• pode ser usado para até quatro variáveis (tamanho e cor do ponto)
tree maps
• apesar de nosso cérebro ser péssimo para comparar áreas, 
tree maps são excelentes para dar contexto.
• use como um gráfico auxiliar
boxplot
diagrama de caixa
uma forma sintética de 
analisar estatística descritiva 
de uma variável numérica
“mediana” 
entre a 
mediana e o 
menor número
“mediana” 
entre a 
mediana e 
o maior 
número
mediana é diferente de média!
mediana é o valor central do dataset
outliers: valores atípicos
mais informação sobre estatística descritiva? Veja wikipedia. completo e em português. 
facets
• olhar análises combinadas pode dar 
uma visão abrangente sobre o dataset
• é uma forma de mesclar categorias e 
números
• matriz de 
correlações de 
variáveis 
numéricas.
• importantíssimo 
quando formos ver 
técnicas de análise 
multivariada
• diretamente 
relacionado com 
um importante 
conceito: 
multicolinearidade
antes de finalizar, uma dica sobre dataviz:
nunca mais faça um gráfico 3D!
usar 3D é exemplo de amadorismo em análise de dados!
3D
aparentemente charmosos, na verdade podem esconder partes 
importantes de informação e prejudicar o entendimento por 
conta de cores, sombras e inclinações de eixos.
algumas ferramentas (não exaustivo)
alteryx automatiza 
todo o processo 
prévio do mining
ótima opção mas 
precisa ter skills de 
programação
FCA2 FC auto analyser
ferramenta gratuita para análise de dados
• ferramenta gratuita de produtividade para analisar dados em 
formato XLS e CSV
• roda em Python 
• mantida pela comunidade
tabelas de entrada
XLS ou CSV
FCA2
resultados
automáticos
• morfologia: registros, campos, 
tipos dos campos
• campos texto: registros, 
duplicações, missing, 
frequência das top "n" 
categorias 
• registros, registros zerados, 
missing, soma, média, desvio, 
máximos e mínimos, amplitude, 
quartis (dois conjuntos, o 
segundo desconsiderando 
zeros).
• gráficos para cada variável 
numérica: boxplot e histograma
FCA2 FC auto analyser
o que está no pipeline
• colocar todas as informações juntas em um único PDF.
• inserir data labels nos histogramas.
• montar correlação entre variáveis numéricas (facets).
• criar uma versão compilada para ampliar o uso por 
pessoas que não usam python (Windows EXE), e uma 
interface gráfica
https://github.com/fabianocastello/fca2
quer ajudar a desenvolver a ferramenta?
data preprocessing:
cleaning, integration,
reduction, quality
missing values
valores ausentes em datasets são comuns: é importante entender a 
quantidade e a gravidade (ex.: missing keys) para definir a estratégia.
cuidado: nem sempre um missing é um erro (ex.: CNH em análise de crédito)
missing values: estratégias
1. ignorar os registros (eliminar do dataset)
2. completar manualmente (“time consuming”, 
não assegura padrão)
3. usar uma constante global para todos os 
casos
4. usar as medidas de tendência central 
“global” do atributo
5. usar as medidas de tendência central do 
atributo com base em classes presentes em 
outro atributo
6. usar o valor mais provável (ex.: regressão ou 
inferência)
• essas estratégias trazem 
viés
• 3 a 6: ordem de 
complexidade
• 6 é a mais popular, mas 
precisa ser algo que 
realmente importa na 
análise
outliers: usar mesmas estratégias de missing
duplicados: o desafio é saber porque 
estão lá, e se são erros ou não.
importante: computador, por definição, é uma 
máquina burra!
joão
≠
joao
noise: erros aleatórios
o maior desafio de data mining é separar noise e signal
Silver, N. (2012) The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t. Penguim Books
noise: estratégias
1. binning: tornar valores contínuos 
em valores discretos; “amaciar” 
usando valores de tendência 
central do bin
2. regression: achar os valores mais 
prováveis de uma variável em 
função de outra (veremos com 
detalhes em mining)
3. outliers: filtrar outliers e utilizar 
estratégias de missing values
data integration
•datasets que montamos para minerar em geral são 
uma base única, mas raramente parte-se de uma única 
base
•para integrar bases de dados dois conceitos são 
importantes
• entendimento das variáveis segundo unique rules, 
consecutive rules, and null rules (também é técnica de 
validação)
• como as bases de relacionam (chaves, modelo E/R)
data integration
•unique rules: os valores de um determinado atributo 
devem ser únicos, não podem se repetir (ex.: códigos de 
identificação em geral)
•consecutive rules: não pode haver missing values entre 
o valor mínimo e o valor máximo, bem como também 
precisam ser únicos (ex.: numero de NF)
•null rules: especifica condições específicas em que 
valores ausentes são admissíveis
left outer right outer
full outer
left inner
inner
right inner
data reduction - estratégias
reduzir registros
reduzir dimensões
redução dimensional
• técnica mais utilizada: 
análise fatorial - PCA – principal component analisys
•ótima referência para entender com profundidade e 
utilizar: HAIR et al (2009). Análise multivariada de 
dados. 6.ed. Porto Alegre, Bookman. revisão técnica do 
livro em português: Prof. Dra. Maria Aparecida Gouvêa, 
FEA/USP
•não podemos perder de vista: reduzir dados 
minimizando a perda nos resultados principais
PCA
•técnica de análise multivariada que identifica 
um número menor de fatores que podem 
representar relações entre variáveis que estão 
interrelacionadas
• lógica: variáveis que apresentam correlação 
expressiva compartilham algum fator em comum 
que pode substituí-las, preservando um bom 
percentual da variabilidade dos dado originais.
PCA aplica-se apenas para variáveis numéricas
uma vez que estamos capturando a variância total 
de um conjunto de variáveis, as mesmas precisam 
estar numa escala similar.
idade altura
27
34
22
40
15
1,70
1,75
1,68
1,90
1,50
escalas diferentes 
precisam ser 
padronizadas
veremos com mais detalhes em data transformation
source: HAIR et al. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009
source: HAIR et al. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009
PCA: observações importantes
•PCA não é regressão: é uma técnica de 
interdependência
•existem condicionais para o uso da técnica, 
principalmente em relação ao tamanho da amostra
•multicolinearidade: em PCA é até mesmo desejável!
•a técnica utiliza estatísticas para verificar a qualidade 
de sua utilização: carga fatorial, MSA, KMO, Barlett, 
eigenvalues. não basta rodar: tem que ver se ficou 
bom!
redução numérica
redução numérica –
estratégia histograma ou binning
•definir “bins” ou “buckets” ou faixas.
•há perda de informação: perde-se granularidade
•regras:
•equal-width: limites de faixa fixos
•equal-frequency: quantidade de itens por faixa 
constante
redução numérica –
estratégia histograma ou binning
1, 1, 5, 5, 5, 
5, 5, 8, 8, 10, 
10, 10, 10, 
12, 14, 14, 
14, 15, 15, 
15, 15, 15, 
15, 18, 18, 
18, 18, 18, 
18, 18, 18, 
20, 20, 20, 
20, 20, 20, 
20, 21, 21, 
21, 21, 25, 
25, 25, 25, 
25, 28, 28, 
30, 30, 30
singleton buckets
redução numérica –
estratégia histograma ou binning
•esta estratégia é interessante para 
transformar variáveis contínuas em 
discretas. fazemos muito isto 
transformando idade (contínua) 
em faixas de idade (discreta) 
(discretization – veremos mais a frente)
•cube-aggregation é
semelhante, com mais
dimensões
redução numérica –
estratégia agrupamento ou clustering
•cluster é uma técnica de 
interdependência
•cada registro ou “tuple” é 
considerado um objeto, e os 
objetos são agrupados de 
acordo com similaridade.
redução numérica –
estratégia agrupamento ou clustering
•cluster é uma técnica espacial 
que utiliza a distância entre 
objetos
•a lógica é maximizar 
similaridadesde objetos em 
cada cluster e maximizar a 
dissimilaridade entre os 
clusters
redução numérica –
estratégia agrupamento ou clustering
•dentro da lógica de redução, utilizam-
se os clusters ao invés dos objetos 
originais
•métodos
•hierárquico (mais tradicional)
•k-means (mais utilizado e bem mais fácil) 
redução numérica – sampling ou amostragem
source: Anderson et al (2011) Essentials of Statistics for Business & Economics, South-Western Cengage 
Learning; Seema Singh S (2018) Sampling Techniques. towardsdatascience.com.
• técnica muito usada em estatística de uma forma 
geral: tentar, a partir de uma parte, inferir sobre 
o todo
•no nosso contexto, muitas
vezes não conseguimos
processar toda a informação que temos, então 
uma das técnicas de redução que podemos usar 
é o sampling ou amostragem
probability 
sampling
non- probability 
Sampling
•simple random
•stratified
•cluster
•systematic
•multi-stage
•convenience
•purposive
•quota
•referral/ snowball
pouco interesse no nosso contexto
simple random sampling
cada elemento da população tem a mesma 
chance de ser selecionado 
numa população de 
15 alunos cada um 
tem uma chance de 
1/15 de ser escolhido
stratified sampling
como a randômica mas feita a partir de uma 
pré-divisão da população.
estratificação traz grupos 
homogêneos entre si mas 
heterogêneos quando 
comparados a outros grupos. a 
seleção é aleatória dentro de 
cada grupo
cluster sampling é muito semelhante. 
veja a documentação
systematic sampling
elementos são selecionados em intervalos 
regulares da população (exceto o primeiro elemento).
multi-stage sampling
combinação 
dos métodos 
anteriores
data quality
qualidade dos dados está diretamente relacionada 
com o resultado final do processo de mining!
data quality
•o maior problema: não há receita pronta nem 
software específico. há necessidade de 
conhecimento do negócio e.g. adolescentes com 
alta renda, gravidez para sexo masculino
•checar consistências e redundâncias
• com fontes externas e.g. total NF emitidas x receita DRE
• cross- reference e.g. totalização da valorização dos itens 
NF x total do cabeçalho da NF 
the proportion of stored data 
against the potential of 
"100% complete"
no thing will be 
recorded more than 
once based upon 
how that thing is 
identified
the degree to which 
data represent 
reality from the 
required point in 
time
data are valid if it conforms to the syntax 
(format, type, range) of its definition
The degree to which 
data correctly describes 
the "real world" object or 
event being described.
The absence of 
difference, when 
comparing two or more 
representations of a 
thing against a 
definition.
the six primary dimensions 
for DQ assessment
data transformation
data transformation
transformar ou consolidar dados 
visando tornar o processo de mining 
mais eficiente e os padrões 
(patterns) mais fáceis de serem 
identificados e entendidos.
data transformation – estratégias
1. smoothing
2. attribute (feature)
construction
3. aggregation
4. discretization
5.normalization
6. hierarchy generation for nominal data
overlap com 
técnicas de 
cleaning
•normalização e padronização são sinônimos?
• não: normalização, em estatística, tem conotações específicas.
• sim: na prática (mercado) o termo é usado de forma intercambiável
idade altura
27
34
22
40
15
1,70
1,75
1,68
1,90
1,50
•quais os tipos principais de 
normalização?
• min-max normalization
• z-score normalization
normalization serve para comparar:
dar peso igual para coisas diferentes
1; 1; 5; 5; 5; 5; 5; 8; 8; 
10; 10; 10; 10; 12; 14; 
14; 14; 15; 15; 15; 15; 
15; 15; 18; 18; 18; 18; 
18; 18; 18; 18; 20; 20; 
20; 20; 20; 20; 20; 21; 
21; 21; 21; 25; 25; 25; 
25; 25; 28; 28; 30; 30; 
30
normalização por máximo e mínimo
(max – min)
(X – min)
• X: observação
• min: valor mínimo amostra
• max: valor máximo amostra
• minN: novo valor mínimo
• maxN: novo valor máximo 
x (maxN – minN) minN+ 
normalização
min máx
(0,1)
0,00; 0,00; 0,14; 0,14; 0,14; 0,14; 0,14; 
0,24; 0,24; 0,31; 0,31; 0,31; 0,31; 0,38; 
0,45; 0,45; 0,45; 0,48; 0,48; 0,48; 0,48; 
0,48; 0,48; 0,59; 0,59; 0,59; 0,59; 0,59; 
0,59; 0,59; 0,59; 0,66; 0,66; 0,66; 0,66; 
0,66; 0,66; 0,66; 0,69; 0,69; 0,69; 0,69; 
0,83; 0,83; 0,83; 0,83; 0,83; 0,93; 0,93; 
1,00; 1,00; 1,00;
1; 1; 5; 5; 5; 5; 5; 8; 8; 10; 
10; 10; 10; 12; 14; 14; 14; 
15; 15; 15; 15; 15; 15; 18; 
18; 18; 18; 18; 18; 18; 18; 
20; 20; 20; 20; 20; 20; 20; 
21; 21; 21; 21; 25; 25; 25; 
25; 25; 28; 28; 30; 30; 30
normalização
por z-score
desvio
X – média
• X: observação
• média: média da amostra
• desvio: desvio padrão da
amostra
normalização
z-score
-2,09; -2,09; -1,56; -1,56; -1,56; -1,56; -1,56; -
1,15; -1,15; -0,89; -0,89; -0,89; -0,89; -0,62; -
0,35; -0,35; -0,35; -0,22; -0,22; -0,22; -0,22; -
0,22; -0,22; 0,18; 0,18; 0,18; 0,18; 0,18; 0,18; 
0,18; 0,18; 0,45; 0,45; 0,45; 0,45; 0,45; 0,45; 
0,45; 0,58; 0,58; 0,58; 0,58; 1,11; 1,11; 1,11; 
1,11; 1,11; 1,51; 1,51; 1,78; 1,78; 1,78
média 16,7
desvio 7,5
média 0
desvio 1
hierarquização
país
estado
cidade
bairro
rua
número
ano
mês
dia
hora
minuto
segundo
outras transformações
•não há regra, é caso a caso
•um bom exemplo: raramente um dataset tem 
o campo idade
365
(data base) - (data nascimento)
= idade decimal
data mining
data mining techniques (não exaustivo)
source: adaptado de Olson, D. (2018) Data Mining Models, Second Edition, Business Expert Press
Estatística
Inteligência
Artificial
•cluster detection
• linear regression
• logistic regression
•machine 
learning
•neural networks
•decision trees
•rule induction
nosso foco em mining
machine 
learning
regressão linear 
e logística
visão geral de como 
IA se aplica em 
mining, e um 
exemplo real
como funciona na 
prática, com 
exemplos 
reproduzíveis pelos 
alunos
inteligência
artificial
...pode ajudar nas 
respostas mas está 
muito longe de saber 
fazer as perguntas!
simplificando...
inteligência artificial
machine learning 
(aprendizado de máquina)
predictive analysis
(análise preditiva)
“prever” está mais rápido, 
mais barato e mais assertivo.
predictive analysis
(análise preditiva) O termos mais correto é “predição” 
mas para simplificação estamos 
usando “previsão”
e possibilita novas aplicações.
autonomia veicular nunca foi 
pensado como um problema 
de previsão!
autonomia não é novo mas 
tradicionalmente é utilizada em 
ambientes controlados, como por 
exemplos armazéns.
os CONDICIONAIS são simples:
SE Então• alguém está na 
frente
• pare
• prateleira está 
vazia
• vá para próxima 
prateleira
autonomia numa cidade 
é impossível com o 
método tradicional!
muitos condicionais
SE
• está escuro
• está chovendo
• uma criança corre para 
frente do carro
• outro veículo freia a frente
• farol está apagado
• placa é ilegível
• há blitz da lei-seca
etc, etc, etc
o mundo real é 
imperfeito ☺
o mundo real é 
imperfeito ☺
similaridade é 
óbvio para o 
ser humano, 
mas não é 
para um 
computador
autonomia veicular SÓ 
pode ser resolvido com 
previsão!
o que um “bom
humano” faria?
“bom humano”
“programa” que 
faz previsões
dirige aprende
olhos e ouvidos
câmeras, radares e 
sensores
aprende
câmeras, radares e 
sensores
dados
“bom humano”
dirige
“programa” define 
uma ação
erra ou
acerta
atualiza
121
APRENDE
câmera capta
a imagem
dados
“bom humano”
vê um pedestre
“programa”
decide frear
acerta
atualiza
122
no início o “programa” comete erros…
…mas aprende com estes erros e atualiza o 
“programa” sempre que prevê de forma 
errada o que um “bom humano” faria.
as previsões melhoram até o momento em 
que o “programa” fica melhor que um 
“bom humano”; neste ponto, o “programa” 
pode atuar sozinho. 
outro exemplo,
mais próximo do 
dia a dia
+ Desligado
“dataset”
Característica Coeficiente P-Valor
Idade -0,2626090 0,0018000 
Operacional -0,7491820 0,0065000 
Horas extras -0,01747580,0083000 
Tempo empresa 0,5350320 0,0001000 
Bairro residência -0,0095723 0,0192000 
Tipo cargo 0,1963290 0,0528000 
Turno -0,3351620 0,1575000 
Faixa salarial 0,1384160 0,2216000 
Estado emissor RG 0,0603732 0,2688000 
Tempo sem promoção 0,0133276 0,3939000 
Absenteísmo -0,0017207 0,4510000 
Estado civil -0,0781035 0,5865000 
Promoções 0,0883532 0,7951000 
Escolaridade -0,0068517 0,9443000 
Possibilidades ilimitadas de 
análise
RESULTADO
Matrícula Nome P(Desligado)
1 José 20%
2 Maria 23%
3 Ana 40%
4 Joaquim 12%
5 Mário 60%
6 Cristina 30%
7 Valéria 20%
...
999 Daniel 90%
• Concentração em algum gestor? 
Unidade? Processo?
• Homogêneo entre sexo? Idade? 
Cargo?
• Baixo turnover está correlacionado 
com promoções?
• O turnover está correlacionado 
com tempo de casa? Menores? 
Maiores? Ou não se relaciona? 
• Quais os principais “drivers” do 
ALTO turnover? E do BAIXO 
turnover?
• Levamos em conta os drivers de 
baixo turnover no processo de 
recrutamento?
Lista individualizada de colaboradores ativos e suas 
respectivas probabilidades de deixar a organização
Ações de 
retenção 
Individuais
aviso aos navegantes:
mantenha a mente aberta!
• esta é uma aula técnica: fala sobre conceito e sobre aplicação.
• regressão é a forma mais simples de análise preditiva. é uma 
ferramenta poderosa, que pode ser utilizada imediatamente para 
ajudar a resolver muitos problemas do dia a dia, com base em fatos e 
dados (cada vez mais necessário para suportar decisões de negócio).
• a matemática envolvida é simples. tenha em mente que, na prática, 
você não vai precisar fazer nenhum cálculo, apenas entender o sentido.
• mesmo que vc não seja da área de exatas, esta é uma ótima 
oportunidade de aprender uma ferramenta que pode ser uma 
vantagem competitiva no seu negócio e na sua carreira
•
•
•
•
•
•
HTTP://GRETL.SOURCEFORGE.NET/PT.HTML
http://gretl.sourceforge.net/pt.html
131
o plano “cartesiano”
René Descartes
1596 - 1650
132
gráficos são parte do nosso dia a dia!
133
correlação
134
correlação
135
qual software devo utilizar?
Regressão LINEAR 
Simples
DEMONSTRAÇÃO
Demonstração Regressão Linear
ARQUIVO SALARYDATA.CSV 
NO EXCEL
Demonstração Regressão Linear
ARQUIVO SALARYDATA.CSV 
NO GRETL
Demonstração Regressão Linear
VIEW
SUMMARY STATISTICS.
Demonstração Regressão Linear
BOTÃO DIREITO DO MOUSE
DISPLAY VALUES .
Demonstração Regressão Linear
CRIAR UM MODELO DE
REGRESSÃO LINEAR
SIMPLES.
Demonstração Regressão Linear
SALARY É O QUE QUEREMOS PREVER 
CONST É A CONSTANTE
YEARSEXPERIENCE É UM “REGRESSOR” 
I.E. SERÁ USAR COMO BASE PARA
PREVER O SALÁRIO
Demonstração Regressão Linear
VOILÁ! ESTE É O MODELO!
Demonstração Regressão Linear
REGRESSÃO LINEAR É DEFINIR A
MELHOR CURVA (NO CASO, 
RETA) DE FORMA QUE A
DISTÂNCIA ENTRE OS PONTOS E A
CURVA AJUSTADA SEJA A MENOR
POSSÍVEL
Demonstração Regressão Linear
A CURVA É DEFINIDA POR UMA EQUAÇÃO
𝑦 = 𝛼 + 𝛽. x
VARIÁVEL
EXPLICADA OU
DEPENDENTE
Y É O QUE
QUEREMOS
PREVER
CONSTANTE COEFICIENTE
𝛽 DETERMINA A
INCLINAÇÃO DA
CURVA. PODE SER
POSITIVA OU
NEGATIVA
VARIÁVEL
EXPLICATIVA OU
INDEPENDENTE
X É UM DOS
COMPONENTES DA
PREDIÇÃO
Demonstração Regressão Linear
QUEREMOS PREVER SALÁRIO EM FUNÇÃO DOS ANOS DE EXPERIÊNCIA, ENTÃO:
= 𝛼 + 𝛽SALÁRIO
ANOS DE
EXPERIÊNCIA
“CRIAR UM MODELO” É USAR UM SOFTWARE QUE
DETERMINA ESTES COEFICIENTES
Demonstração Regressão Linear
Demonstração Regressão Linear
= 25792.2 + 9449.96SALÁRIO
ANOS DE
EXPERIÊNCIA
ESTA EQUAÇÃO É O SEU MODELO PREDITIVO!
VOCÊ PODE USÁ-LA, POR EXEMPLO, NO EXCEL
(MAS ANTES TEMOS QUE VER ALGUNS OUTROS PONTOS IMPORTANTES DO “OUTPUT” DO GRETL)
X
p-value é uma medida 
importante. O significado é que 
quanto menor for o valor mais 
significativa é a variável para 
prever a variável dependente.
Neste caso o p-value é muito 
pequeno (note que o resultado é 
mostrado em potencia de 10.
Exemplo: 5.51x10-12, ou 
0,000000000551)
DEMONSTRAÇÃO REGRESSÃO LINEAR
Demonstração Regressão Linear
R2 e R2AJ são medidas para saber quanto o modelo pode 
explicar os dados analisados. Variam de 0 a 1, e quanto 
mais próximo de 1 mais a equação explica os dados.
O “nosso” R²AJ é 0,955419. Isto significa que 95,54% da variável dependente 
(salário) consegue ser explicada pelos regressores presentes no modelo 
(constante e anos de experiência).
Demonstração Regressão Linear
NOSSO MODELO NO EXCEL
P
R
E
V
IS
Ã
O
D
O
N
O
S
S
O
M
O
D
E
LO
D
E
0
 A
2
1
 
A
N
O
S
D
E
E
X
P
E
R
IÊ
N
C
IA
Anos Exp. Salário Anos Exp. Salário
0 25,792.20 11 129,741.76 
1 35,242.16 12 139,191.72 
2 44,692.12 13 148,641.68 
3 54,142.08 14 158,091.64 
4 63,592.04 15 167,541.60 
5 73,042.00 16 176,991.56 
6 82,491.96 17 186,441.52 
7 91,941.92 18 195,891.48 
8 101,391.88 19 205,341.44 
9 110,841.84 20 214,791.40 
10 120,291.80 21 224,241.36 
7 ANOS DE
EXPERIÊNCIA...
PREDIZ 92K
DE SALÁRIO.
Regressão 
LINEAR Múltipla
DEMONSTRAÇÃO
Demonstração Regressão Múltipla
FONTE DE DADOS:
50-STARTUPS.CSV
Demonstração Regressão Múltipla
Baseada numa amostra de 50 startups, 
criar um modelo preditivo de lucro.
Os atributos disponíveis são:
•Gastos em pesquisa e desenvolvimento (“R&D”)
•Gastos em Administração (“administration”)
•Gastos em Marketing
•Estado onde está baseada a startup
A variável dependente é o lucro (“profit”)
Demonstração Regressão Múltipla
VARÍAVEL
DEPENDENTE
VARÍAVEIS
INDEPENDENTE
VARÍAVEIS
“DUMMY”
INCLUIR CALIFORNIA CRIA UM PROBLEMA DE COLINEARIDADE
A VIDA É FÁCIL COM SOMENTE
UMA VARIÁVEL INDEPENDENTE...
Demonstração Regressão Múltipla
POR QUÊ ELIMINAR VARIÁVEIS ? ? ?
Demonstração Regressão Múltipla
1º 2º
MAS COMO ESCOLHER QUAIS VARIÁVEIS SAEM DA EQUAÇÃO?
Demonstração Regressão Múltipla
1.ALL-IN
2.BACKWARD ELIMINATION
3.FORWARD ELIMINATION
4.BIDIRECTIONAL ELIMINATION
5.SCORE COMPARISION
Stepwise
Regression
Demonstração Regressão Múltipla
ABRIR O ARQUIVO
50-STARTUPS.CSV
CRIAÇÃO DAS VARIÁVEIS “DUMMY”
CRIAÇÃO DO MODELO (OLS)
“Administration” cai fora...
E rodamos o modelo novamente!
Modelo 1 Modelo 2
Modelo 2 Modelo 3
Modelo 3 Modelo 4
OOPS! MAS SE O MODELO “3” É MELHOR QUE O “4”...
“3” IS THE GUY! WE HAVE A WINNER!
Modelo 3
Demonstração Regressão Múltipla
PROFIT = 46975,9 + 0,796584 RDSPEND + 0,0299079 MARKETINGSPEND
3
PRONTO PARA EXCEL!! I.E. QUANDO VC QUISER PREVER O
LUCRO DE UMA STARTUP BASTA VOCÊ SABER QUANTO ELA
GASTA DE PESQUISA E DESENVOLVIMENTO E DE MARKETING.
Regressão 
Logística
DEMONSTRAÇÃO
Demonstração Regressão Logística
Nos modelos de regressão 
linear simples e múltipla 
estávamos tentando 
prever um valor numérico. 
Usamos regressão 
logística como um 
algorítmo de 
classificação, ou seja, 
estamos buscando uma 
opção.
Escolher pela opção 
depende da 
probabilidade de ocorrer 
o evento. Modelos de 
regressão logística dão 
como resultado uma 
probabilidade.
Demonstração Regressão Logística
FONTE DE DADOS:
EMAILOFFER.CSV
Demonstração Regressão Logística
Demonstração Regressão Logística
VAMOS VIZUALIZAR OS DADOS NUM GRÁFICO DE DISPERSÃO
Demonstração Regressão Logística
CLARAMENTE UMA
REGRESSÃO LINEAR
NÃO É A MELHOR
OPÇÃO PARA
FAZER UMA
PREDIÇÃO...
EXISTE UMA
TENDÊNCIA PARA
PESSOAS MAIS
JOVENS NÃO
RESPONDEREM A
OFERTA
EXISTE UMA
TENDÊNCIA PARA
PESSOAS MAIS VELHAS
RESPONDEREM A
OFERTA
Demonstração Regressão Logística
PROBABILIDADES SÃO VALORES ENTRE 0 E 1
Demonstração Regressão Logística
Demonstração Regressão Logística
Demonstração Regressão Logística
Demonstração Regressão Logística
O MODELO CALCULA AS PROBABILIDADES. A LINHA QUE SEPARA O QUE É
“SUCESSO” OU “FRACASSO” É ARBITRÁRIA E.G. DESCISÃO DE NEGÓCIO
DemonstraçãoRegressão Logística
VAMOS VER COMO FAZER ISTO NO GRETL
Demonstração Regressão Logística
MAS ANTES VAMOS CRIAR AS VARIÁVEIS “DUMMY”
Demonstração Regressão Logística
Demonstração Regressão Logística
VOILÁ!
Demonstração Regressão Logística
VAMOS VER O
RESULTADO DO
MODELO
Demonstração Regressão Logística
O MODELO PREDIZ
PROBABILIDADES, CONFORME AO
LADO. VAMOS SALVAR OS
VALORES PREDITOS COMO UMA
NOVA VARIÁVEL
Demonstração Regressão Logística
VAMOS ANALISAR O RESULTADO DO MODELO COM AS VARIÁVEIS
REGRESSORAS E AS PREDIÇÕES
Demonstração Regressão Logística
Demonstração Regressão Logística
PARA USAR NO EXCEL TEMOS
QUE TER A EQUAÇÃO DA
PROBABILIDADE
NO EXCEL É ASSIM QUE VAMOS USAR
Demonstração Regressão Logística
NO EXCEL É ASSIM QUE VAMOS USAR
Demonstração Regressão Logística
Demonstração Regressão Logística
A PARTIR DO MOMENTO
QUE DEFINIMOS UM
THRESHOLD (OU LIMITE), 
PODEMOS TRANSFORMAR
PROBABILIDADES EM
PREDIÇÕES, COM UM
SIMPLES “=IF(“ NO EXCEL.
Uma última questão!
REGRESSÃO LOGÍSTICA É UM
ALGORITMO DE REGRESSÃO
OU DE CLASSIFICAÇÃO?
Característica Coeficiente P-Valor
Idade -0,2626090 0,0018000 
Operacional -0,7491820 0,0065000 
Horas extras -0,0174758 0,0083000 
Tempo empresa 0,5350320 0,0001000 
Bairro residência -0,0095723 0,0192000 
Tipo cargo 0,1963290 0,0528000 
Turno -0,3351620 0,1575000 
Faixa salarial 0,1384160 0,2216000 
Estado emissor RG 0,0603732 0,2688000 
Tempo sem promoção 0,0133276 0,3939000 
Absenteísmo -0,0017207 0,4510000 
Estado civil -0,0781035 0,5865000 
Promoções 0,0883532 0,7951000 
Escolaridade -0,0068517 0,9443000 Lembram do case do Turnover?
Regressão logística na veia!
Visão geral sobre sistemas de suporte à 
decisão e inteligência de negócio. 
Entendimento sobre o processo de KDD e, 
em especial sobre preparação de dados.
Estudo sobre as principais tarefas de 
mineração de dados. A Mineração de 
Dados e suas utilizações em estudos de 
casos reais.
Você não pode copiar ou compartilhar o material em qualquer suporte ou 
formato.
Você não pode adaptar, remixar, transformar e criar a partir do material.
Se você utilizar alguma referência deste material em mídia diferente de 
uma apresentação, você deverá citá-lo como “Castello, Fabiano (2019): 
Apresentação de apoio da aula de Data Mining do programa MBA PUC/RS 
em Tecnologia para Negócios: AI, Data Science e Big Data. figshare. 
Presentation. https://doi.org/10.6084/m9.figshare.10279748”
Este material foi originalmente criado por
Fabiano Castello fabiano.castello@cdatalab.net
http://fabianocastello.com | https://orcid.org/0000-0003-0162-0458 | http://bit.ly/fcastello
Exceto no caso de 
fotos de pessoas, 
e material de 
copyright 
específico, você 
tem os deveres ao 
lado. 
Este material é de uso exclusivo dos alunos do programa MBA em 
Tecnologia para Negócios: AI, Data Science e Big Data, disponibilizado 
pela PUC/RS, e está registrado no DOI (“document object identifier”) 
https://doi.org/10.6084/m9.figshare.10279748
Respeite o
direito autoral
bit.ly/plagioV1
Respeite
o direito autoral
bit.ly/plagioV1
	2019-11 PUCRS DM Apresentação de Apoio vPUB.2 (1)
	Capa 1

Mais conteúdos dessa disciplina