Prévia do material em texto
APRESENTAÇÃO DE APOIO Data Mining (Mineração de Dados) DA DISCIPLINA 1º ENCONTRO 2º ENCONTRO 3º ENCONTRO Fabiano Castello Fabiano Castello Duncan Dubugras Alcoba Ruiz DA DISCIPLINA CONVIDADO FABIANO CASTELLO PUCRS DUNCAN DUBUGRAS ALCOBA RUIZ data wisdom signals actionable intelligence Visão geral sobre sistemas de suporte à decisão e inteligência de negócio. Entendimento sobre o processo de KDD e, em especial sobre preparação de dados. Estudo sobre as principais tarefas de mineração de dados. A Mineração de Dados e suas utilizações em estudos de casos reais. nós poderíamos passar 2 aulas apenas discutindo os nomes... Olson (2018) Han et al (2011) Hair et al (2009) Brown (2014) intro BI, KDD & DM “A Business Intelligence System” (IBM 1958) H. P. Luhn, "A Business Intelligence System," in IBM Journal of Research and Development, vol. 2, no. 4, pp. 314-319, Oct. 1958. doi: 10.1147/rd.24.0314 business intelligence and analytics (BI&A) “BI&A systems provide support for collecting and transforming data and put particular emphasis on data analysis with the purpose of improving decision making” Chen et al., 2012; Davenport, 2006; Shanks et al., 2010 apud Kowalczyk, Martin. (2017). The Support of Decision Processes with Business Intelligence and Analytics: Insights on the Roles of Ambidexterity, Information Processing and Advice. DOI: 10.1007/978-3-658-19230-3. KDD & DM •são a mesma coisa? •similares? •como de relacionam? DM é uma fase do processo de KDD mas, na prática, muitas vezes são usados de forma intercambiável definições variam mas, de uma forma geral, the overall process of discovering useful knowledge from data a particular step in the KDD process. data mining is the application of specific algorithms for extracting patterns from data. KDD DM source: Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases. AI Magazine, 17(3), 37. https://doi.org/10.1609/aimag.v17i3.1230 BI&A contexto parece confuso... mas não é! KDD DM artificial intelligence machine learning deep learning source: Fabiano Castello, adaptado de Brendan Tiernan (2012) hierarquia DIKW where is the Life we have lost in living? where is the wisdom we have lost in knowledge? where is the knowledge we have lost in the information? T.S. Elliot, 1934 “lançada para eternidade” da forma como a conhecemos hoje por Russell Ackoff em 1989 source: Harvard Business Review, David Weinberger , 2010 hierarquia DIKW como chegar lá é nosso próximo assunto... de para data wisdom signals actionable intelligence o segredo é fazer de forma estruturada! (técnicas, processos ou metodologias) _ KDD _ SEMMA _ CRISP-DM CRISP-DM (cross industry standard process for data mining) • uma das técnicas mais utilizados em data mining, e também considerada uma das mais completas • principais vantagens são poder ser aplicada a qualquer tipo de negócio e não ter dependência de ferramenta específica para ser executada. CRISP-DM business understand • identificação do problema a ser resolvido • três artefatos •background: explica contexto e o problema, e como o projeto vai ser direcionado para solucioná-lo •objetivo do projeto •critério de sucesso: qual será a métrica para determinar se o projeto atingiu o sucesso ou não. CRISP-DM data understanding •coletar •descrever •explorar •verificar a qualidade CRISP-DM data preparation •fase crítica: criação do “dataset” •atividades: •data selection •data cleaning •construct data • integrating data CRISP-DM modeling •selecting modeling techniques •designing tests •building models •assessing models CRISP-DM evaluation •evaluating results •reviewing the process •determining the next steps CRISP-DM deployment •planning deployment •planning monitoring and maintenance •reporting final results •reviewing final results KDD “there is an urgent need for a new generation of computational theories and tools to assist humans in extracting useful information (knowledge) from the rapidly growing volumes of digital data.” Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996) KDD (knowledge discovery in databases) • talvez o mais famoso, ou mais conhecido do “grande público” •um dos métodos mais antigos existentes •compreende uma fase chamada data mining •não foca em questões de negócio ou geração de modelos, mas sim na descoberta de conhecimentos a partir dos dados (padrões ou “patterns”) KDD source: traduzido a partir de Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases. AI Magazine SEMMA (Sample, Explore, Modify, Model e Assess) • criada pelo SAS Institute • semelhante ao CRISP-DM em muitos aspectos, mas, foca principalmente nas tarefas de criação do modelo, sem o protagonismo dos problemas de negócio • principais steps: explorar informações básicas dos dados, modificar e transformar variáveis, gerar o modelo e validá-lo • SEMMA é útil para projetos de porte menor • contra: não considera a necessidade do negócio SEMMA source: Shafique, Umair & Qaiser, Haseeb. (2014). A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA) International Journal of Innovation and Scientific Research. 12. 2351-8014. source: Shafique, Umair & Qaiser, Haseeb. (2014). A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA) International Journal of Innovation and Scientific Research. 12. 2351-8014. problema de negócio entender, limpar e transformar dados “modelar”: descobrir padrões, fazer previsões resultados para o negócio 1 2 independente da metodologia escolhida: data exploration data preprocessing data transformation mining data exploration “big data” foundation, data sources dados não-estruturados qualquer tipo de dado: posts, imagens, áudio, vídeo, livros dados semiestruturados exemplos: XML e JSON dados estruturados tabelas; nosso dia a dia empresarial; em geral linhas e colunas; bancos de dados relacionais m a io r c o m p le xi d a d e , m a io r n e c e ss id a d e d e r e c u rs o s foundation, data sources dados estruturados tabelas; nosso dia a dia empresarial; em geral linhas e colunas; bancos de dados relacionais nossos exemplos vão focar em dados estruturados explorar os dados é fundamental • totalizações • missing values • outliers conhecer os dados validar os dados • tamanho dos dados • tipos de variáveis • como os valores estão distribuídos tabela re gi st ro s, ca so s, “ tu p le ”, o b se rv aç õ es atributos, variáveis, características, features foundation, data formats • numerical (continuous values: 0,5; 1,2; -1,55; idade) • integer (integer values: 0, 1, -2; número de filhos) • binary (dois estados: true/false; 1/0 ; aposentado) • category (a finite set of possible values: estados BR) • date (08/11/2019 19:45) • string/text (texto comum: brasil, João Silva) source: adaptado de Olson, D. (2018) Data Mining Models, Second Edition, Business Expert Press visualização de dados (data visualization ou dataviz) é uma excelente forma de explorar dados https://youtu.be/xw9etmhojlQ Hans Hosling 200 países, 200 anos, 4 minutos (LegBR) ia.fabianocastello.com referências em dataviz great book! Storytelling com Dados: um Guia Sobre Visualização de Dados Para Profissionais de Negócios em Português barato! Amazon ~R$50 a importância da visualização de dados: 4 conjuntos de dados diferentes, mesmos números source: Wikipedia, “Quarteto de Anscombe” • mesma média e variância de X • mesma média de Y (até p2) • mesma variância de y (até p3) • mesma correlação (até p3) • mesma regressão y = 3,00 + 0,500x (até p2 e p3) histogram, gráfico de barras • criado por william Playfair há 200+ anos • muito popular, usado para comparar categorias. fácil de interpretar e bastantepreciso • podem ser usados também para representar tendências (mas mais entre períodos do que para continuidade) scatter plot, gráfico de dispersão • correlaciona duas variáveis • pode ser usado para até quatro variáveis (tamanho e cor do ponto) tree maps • apesar de nosso cérebro ser péssimo para comparar áreas, tree maps são excelentes para dar contexto. • use como um gráfico auxiliar boxplot diagrama de caixa uma forma sintética de analisar estatística descritiva de uma variável numérica “mediana” entre a mediana e o menor número “mediana” entre a mediana e o maior número mediana é diferente de média! mediana é o valor central do dataset outliers: valores atípicos mais informação sobre estatística descritiva? Veja wikipedia. completo e em português. facets • olhar análises combinadas pode dar uma visão abrangente sobre o dataset • é uma forma de mesclar categorias e números • matriz de correlações de variáveis numéricas. • importantíssimo quando formos ver técnicas de análise multivariada • diretamente relacionado com um importante conceito: multicolinearidade antes de finalizar, uma dica sobre dataviz: nunca mais faça um gráfico 3D! usar 3D é exemplo de amadorismo em análise de dados! 3D aparentemente charmosos, na verdade podem esconder partes importantes de informação e prejudicar o entendimento por conta de cores, sombras e inclinações de eixos. algumas ferramentas (não exaustivo) alteryx automatiza todo o processo prévio do mining ótima opção mas precisa ter skills de programação FCA2 FC auto analyser ferramenta gratuita para análise de dados • ferramenta gratuita de produtividade para analisar dados em formato XLS e CSV • roda em Python • mantida pela comunidade tabelas de entrada XLS ou CSV FCA2 resultados automáticos • morfologia: registros, campos, tipos dos campos • campos texto: registros, duplicações, missing, frequência das top "n" categorias • registros, registros zerados, missing, soma, média, desvio, máximos e mínimos, amplitude, quartis (dois conjuntos, o segundo desconsiderando zeros). • gráficos para cada variável numérica: boxplot e histograma FCA2 FC auto analyser o que está no pipeline • colocar todas as informações juntas em um único PDF. • inserir data labels nos histogramas. • montar correlação entre variáveis numéricas (facets). • criar uma versão compilada para ampliar o uso por pessoas que não usam python (Windows EXE), e uma interface gráfica https://github.com/fabianocastello/fca2 quer ajudar a desenvolver a ferramenta? data preprocessing: cleaning, integration, reduction, quality missing values valores ausentes em datasets são comuns: é importante entender a quantidade e a gravidade (ex.: missing keys) para definir a estratégia. cuidado: nem sempre um missing é um erro (ex.: CNH em análise de crédito) missing values: estratégias 1. ignorar os registros (eliminar do dataset) 2. completar manualmente (“time consuming”, não assegura padrão) 3. usar uma constante global para todos os casos 4. usar as medidas de tendência central “global” do atributo 5. usar as medidas de tendência central do atributo com base em classes presentes em outro atributo 6. usar o valor mais provável (ex.: regressão ou inferência) • essas estratégias trazem viés • 3 a 6: ordem de complexidade • 6 é a mais popular, mas precisa ser algo que realmente importa na análise outliers: usar mesmas estratégias de missing duplicados: o desafio é saber porque estão lá, e se são erros ou não. importante: computador, por definição, é uma máquina burra! joão ≠ joao noise: erros aleatórios o maior desafio de data mining é separar noise e signal Silver, N. (2012) The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t. Penguim Books noise: estratégias 1. binning: tornar valores contínuos em valores discretos; “amaciar” usando valores de tendência central do bin 2. regression: achar os valores mais prováveis de uma variável em função de outra (veremos com detalhes em mining) 3. outliers: filtrar outliers e utilizar estratégias de missing values data integration •datasets que montamos para minerar em geral são uma base única, mas raramente parte-se de uma única base •para integrar bases de dados dois conceitos são importantes • entendimento das variáveis segundo unique rules, consecutive rules, and null rules (também é técnica de validação) • como as bases de relacionam (chaves, modelo E/R) data integration •unique rules: os valores de um determinado atributo devem ser únicos, não podem se repetir (ex.: códigos de identificação em geral) •consecutive rules: não pode haver missing values entre o valor mínimo e o valor máximo, bem como também precisam ser únicos (ex.: numero de NF) •null rules: especifica condições específicas em que valores ausentes são admissíveis left outer right outer full outer left inner inner right inner data reduction - estratégias reduzir registros reduzir dimensões redução dimensional • técnica mais utilizada: análise fatorial - PCA – principal component analisys •ótima referência para entender com profundidade e utilizar: HAIR et al (2009). Análise multivariada de dados. 6.ed. Porto Alegre, Bookman. revisão técnica do livro em português: Prof. Dra. Maria Aparecida Gouvêa, FEA/USP •não podemos perder de vista: reduzir dados minimizando a perda nos resultados principais PCA •técnica de análise multivariada que identifica um número menor de fatores que podem representar relações entre variáveis que estão interrelacionadas • lógica: variáveis que apresentam correlação expressiva compartilham algum fator em comum que pode substituí-las, preservando um bom percentual da variabilidade dos dado originais. PCA aplica-se apenas para variáveis numéricas uma vez que estamos capturando a variância total de um conjunto de variáveis, as mesmas precisam estar numa escala similar. idade altura 27 34 22 40 15 1,70 1,75 1,68 1,90 1,50 escalas diferentes precisam ser padronizadas veremos com mais detalhes em data transformation source: HAIR et al. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009 source: HAIR et al. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009 PCA: observações importantes •PCA não é regressão: é uma técnica de interdependência •existem condicionais para o uso da técnica, principalmente em relação ao tamanho da amostra •multicolinearidade: em PCA é até mesmo desejável! •a técnica utiliza estatísticas para verificar a qualidade de sua utilização: carga fatorial, MSA, KMO, Barlett, eigenvalues. não basta rodar: tem que ver se ficou bom! redução numérica redução numérica – estratégia histograma ou binning •definir “bins” ou “buckets” ou faixas. •há perda de informação: perde-se granularidade •regras: •equal-width: limites de faixa fixos •equal-frequency: quantidade de itens por faixa constante redução numérica – estratégia histograma ou binning 1, 1, 5, 5, 5, 5, 5, 8, 8, 10, 10, 10, 10, 12, 14, 14, 14, 15, 15, 15, 15, 15, 15, 18, 18, 18, 18, 18, 18, 18, 18, 20, 20, 20, 20, 20, 20, 20, 21, 21, 21, 21, 25, 25, 25, 25, 25, 28, 28, 30, 30, 30 singleton buckets redução numérica – estratégia histograma ou binning •esta estratégia é interessante para transformar variáveis contínuas em discretas. fazemos muito isto transformando idade (contínua) em faixas de idade (discreta) (discretization – veremos mais a frente) •cube-aggregation é semelhante, com mais dimensões redução numérica – estratégia agrupamento ou clustering •cluster é uma técnica de interdependência •cada registro ou “tuple” é considerado um objeto, e os objetos são agrupados de acordo com similaridade. redução numérica – estratégia agrupamento ou clustering •cluster é uma técnica espacial que utiliza a distância entre objetos •a lógica é maximizar similaridadesde objetos em cada cluster e maximizar a dissimilaridade entre os clusters redução numérica – estratégia agrupamento ou clustering •dentro da lógica de redução, utilizam- se os clusters ao invés dos objetos originais •métodos •hierárquico (mais tradicional) •k-means (mais utilizado e bem mais fácil) redução numérica – sampling ou amostragem source: Anderson et al (2011) Essentials of Statistics for Business & Economics, South-Western Cengage Learning; Seema Singh S (2018) Sampling Techniques. towardsdatascience.com. • técnica muito usada em estatística de uma forma geral: tentar, a partir de uma parte, inferir sobre o todo •no nosso contexto, muitas vezes não conseguimos processar toda a informação que temos, então uma das técnicas de redução que podemos usar é o sampling ou amostragem probability sampling non- probability Sampling •simple random •stratified •cluster •systematic •multi-stage •convenience •purposive •quota •referral/ snowball pouco interesse no nosso contexto simple random sampling cada elemento da população tem a mesma chance de ser selecionado numa população de 15 alunos cada um tem uma chance de 1/15 de ser escolhido stratified sampling como a randômica mas feita a partir de uma pré-divisão da população. estratificação traz grupos homogêneos entre si mas heterogêneos quando comparados a outros grupos. a seleção é aleatória dentro de cada grupo cluster sampling é muito semelhante. veja a documentação systematic sampling elementos são selecionados em intervalos regulares da população (exceto o primeiro elemento). multi-stage sampling combinação dos métodos anteriores data quality qualidade dos dados está diretamente relacionada com o resultado final do processo de mining! data quality •o maior problema: não há receita pronta nem software específico. há necessidade de conhecimento do negócio e.g. adolescentes com alta renda, gravidez para sexo masculino •checar consistências e redundâncias • com fontes externas e.g. total NF emitidas x receita DRE • cross- reference e.g. totalização da valorização dos itens NF x total do cabeçalho da NF the proportion of stored data against the potential of "100% complete" no thing will be recorded more than once based upon how that thing is identified the degree to which data represent reality from the required point in time data are valid if it conforms to the syntax (format, type, range) of its definition The degree to which data correctly describes the "real world" object or event being described. The absence of difference, when comparing two or more representations of a thing against a definition. the six primary dimensions for DQ assessment data transformation data transformation transformar ou consolidar dados visando tornar o processo de mining mais eficiente e os padrões (patterns) mais fáceis de serem identificados e entendidos. data transformation – estratégias 1. smoothing 2. attribute (feature) construction 3. aggregation 4. discretization 5.normalization 6. hierarchy generation for nominal data overlap com técnicas de cleaning •normalização e padronização são sinônimos? • não: normalização, em estatística, tem conotações específicas. • sim: na prática (mercado) o termo é usado de forma intercambiável idade altura 27 34 22 40 15 1,70 1,75 1,68 1,90 1,50 •quais os tipos principais de normalização? • min-max normalization • z-score normalization normalization serve para comparar: dar peso igual para coisas diferentes 1; 1; 5; 5; 5; 5; 5; 8; 8; 10; 10; 10; 10; 12; 14; 14; 14; 15; 15; 15; 15; 15; 15; 18; 18; 18; 18; 18; 18; 18; 18; 20; 20; 20; 20; 20; 20; 20; 21; 21; 21; 21; 25; 25; 25; 25; 25; 28; 28; 30; 30; 30 normalização por máximo e mínimo (max – min) (X – min) • X: observação • min: valor mínimo amostra • max: valor máximo amostra • minN: novo valor mínimo • maxN: novo valor máximo x (maxN – minN) minN+ normalização min máx (0,1) 0,00; 0,00; 0,14; 0,14; 0,14; 0,14; 0,14; 0,24; 0,24; 0,31; 0,31; 0,31; 0,31; 0,38; 0,45; 0,45; 0,45; 0,48; 0,48; 0,48; 0,48; 0,48; 0,48; 0,59; 0,59; 0,59; 0,59; 0,59; 0,59; 0,59; 0,59; 0,66; 0,66; 0,66; 0,66; 0,66; 0,66; 0,66; 0,69; 0,69; 0,69; 0,69; 0,83; 0,83; 0,83; 0,83; 0,83; 0,93; 0,93; 1,00; 1,00; 1,00; 1; 1; 5; 5; 5; 5; 5; 8; 8; 10; 10; 10; 10; 12; 14; 14; 14; 15; 15; 15; 15; 15; 15; 18; 18; 18; 18; 18; 18; 18; 18; 20; 20; 20; 20; 20; 20; 20; 21; 21; 21; 21; 25; 25; 25; 25; 25; 28; 28; 30; 30; 30 normalização por z-score desvio X – média • X: observação • média: média da amostra • desvio: desvio padrão da amostra normalização z-score -2,09; -2,09; -1,56; -1,56; -1,56; -1,56; -1,56; - 1,15; -1,15; -0,89; -0,89; -0,89; -0,89; -0,62; - 0,35; -0,35; -0,35; -0,22; -0,22; -0,22; -0,22; - 0,22; -0,22; 0,18; 0,18; 0,18; 0,18; 0,18; 0,18; 0,18; 0,18; 0,45; 0,45; 0,45; 0,45; 0,45; 0,45; 0,45; 0,58; 0,58; 0,58; 0,58; 1,11; 1,11; 1,11; 1,11; 1,11; 1,51; 1,51; 1,78; 1,78; 1,78 média 16,7 desvio 7,5 média 0 desvio 1 hierarquização país estado cidade bairro rua número ano mês dia hora minuto segundo outras transformações •não há regra, é caso a caso •um bom exemplo: raramente um dataset tem o campo idade 365 (data base) - (data nascimento) = idade decimal data mining data mining techniques (não exaustivo) source: adaptado de Olson, D. (2018) Data Mining Models, Second Edition, Business Expert Press Estatística Inteligência Artificial •cluster detection • linear regression • logistic regression •machine learning •neural networks •decision trees •rule induction nosso foco em mining machine learning regressão linear e logística visão geral de como IA se aplica em mining, e um exemplo real como funciona na prática, com exemplos reproduzíveis pelos alunos inteligência artificial ...pode ajudar nas respostas mas está muito longe de saber fazer as perguntas! simplificando... inteligência artificial machine learning (aprendizado de máquina) predictive analysis (análise preditiva) “prever” está mais rápido, mais barato e mais assertivo. predictive analysis (análise preditiva) O termos mais correto é “predição” mas para simplificação estamos usando “previsão” e possibilita novas aplicações. autonomia veicular nunca foi pensado como um problema de previsão! autonomia não é novo mas tradicionalmente é utilizada em ambientes controlados, como por exemplos armazéns. os CONDICIONAIS são simples: SE Então• alguém está na frente • pare • prateleira está vazia • vá para próxima prateleira autonomia numa cidade é impossível com o método tradicional! muitos condicionais SE • está escuro • está chovendo • uma criança corre para frente do carro • outro veículo freia a frente • farol está apagado • placa é ilegível • há blitz da lei-seca etc, etc, etc o mundo real é imperfeito ☺ o mundo real é imperfeito ☺ similaridade é óbvio para o ser humano, mas não é para um computador autonomia veicular SÓ pode ser resolvido com previsão! o que um “bom humano” faria? “bom humano” “programa” que faz previsões dirige aprende olhos e ouvidos câmeras, radares e sensores aprende câmeras, radares e sensores dados “bom humano” dirige “programa” define uma ação erra ou acerta atualiza 121 APRENDE câmera capta a imagem dados “bom humano” vê um pedestre “programa” decide frear acerta atualiza 122 no início o “programa” comete erros… …mas aprende com estes erros e atualiza o “programa” sempre que prevê de forma errada o que um “bom humano” faria. as previsões melhoram até o momento em que o “programa” fica melhor que um “bom humano”; neste ponto, o “programa” pode atuar sozinho. outro exemplo, mais próximo do dia a dia + Desligado “dataset” Característica Coeficiente P-Valor Idade -0,2626090 0,0018000 Operacional -0,7491820 0,0065000 Horas extras -0,01747580,0083000 Tempo empresa 0,5350320 0,0001000 Bairro residência -0,0095723 0,0192000 Tipo cargo 0,1963290 0,0528000 Turno -0,3351620 0,1575000 Faixa salarial 0,1384160 0,2216000 Estado emissor RG 0,0603732 0,2688000 Tempo sem promoção 0,0133276 0,3939000 Absenteísmo -0,0017207 0,4510000 Estado civil -0,0781035 0,5865000 Promoções 0,0883532 0,7951000 Escolaridade -0,0068517 0,9443000 Possibilidades ilimitadas de análise RESULTADO Matrícula Nome P(Desligado) 1 José 20% 2 Maria 23% 3 Ana 40% 4 Joaquim 12% 5 Mário 60% 6 Cristina 30% 7 Valéria 20% ... 999 Daniel 90% • Concentração em algum gestor? Unidade? Processo? • Homogêneo entre sexo? Idade? Cargo? • Baixo turnover está correlacionado com promoções? • O turnover está correlacionado com tempo de casa? Menores? Maiores? Ou não se relaciona? • Quais os principais “drivers” do ALTO turnover? E do BAIXO turnover? • Levamos em conta os drivers de baixo turnover no processo de recrutamento? Lista individualizada de colaboradores ativos e suas respectivas probabilidades de deixar a organização Ações de retenção Individuais aviso aos navegantes: mantenha a mente aberta! • esta é uma aula técnica: fala sobre conceito e sobre aplicação. • regressão é a forma mais simples de análise preditiva. é uma ferramenta poderosa, que pode ser utilizada imediatamente para ajudar a resolver muitos problemas do dia a dia, com base em fatos e dados (cada vez mais necessário para suportar decisões de negócio). • a matemática envolvida é simples. tenha em mente que, na prática, você não vai precisar fazer nenhum cálculo, apenas entender o sentido. • mesmo que vc não seja da área de exatas, esta é uma ótima oportunidade de aprender uma ferramenta que pode ser uma vantagem competitiva no seu negócio e na sua carreira • • • • • • HTTP://GRETL.SOURCEFORGE.NET/PT.HTML http://gretl.sourceforge.net/pt.html 131 o plano “cartesiano” René Descartes 1596 - 1650 132 gráficos são parte do nosso dia a dia! 133 correlação 134 correlação 135 qual software devo utilizar? Regressão LINEAR Simples DEMONSTRAÇÃO Demonstração Regressão Linear ARQUIVO SALARYDATA.CSV NO EXCEL Demonstração Regressão Linear ARQUIVO SALARYDATA.CSV NO GRETL Demonstração Regressão Linear VIEW SUMMARY STATISTICS. Demonstração Regressão Linear BOTÃO DIREITO DO MOUSE DISPLAY VALUES . Demonstração Regressão Linear CRIAR UM MODELO DE REGRESSÃO LINEAR SIMPLES. Demonstração Regressão Linear SALARY É O QUE QUEREMOS PREVER CONST É A CONSTANTE YEARSEXPERIENCE É UM “REGRESSOR” I.E. SERÁ USAR COMO BASE PARA PREVER O SALÁRIO Demonstração Regressão Linear VOILÁ! ESTE É O MODELO! Demonstração Regressão Linear REGRESSÃO LINEAR É DEFINIR A MELHOR CURVA (NO CASO, RETA) DE FORMA QUE A DISTÂNCIA ENTRE OS PONTOS E A CURVA AJUSTADA SEJA A MENOR POSSÍVEL Demonstração Regressão Linear A CURVA É DEFINIDA POR UMA EQUAÇÃO 𝑦 = 𝛼 + 𝛽. x VARIÁVEL EXPLICADA OU DEPENDENTE Y É O QUE QUEREMOS PREVER CONSTANTE COEFICIENTE 𝛽 DETERMINA A INCLINAÇÃO DA CURVA. PODE SER POSITIVA OU NEGATIVA VARIÁVEL EXPLICATIVA OU INDEPENDENTE X É UM DOS COMPONENTES DA PREDIÇÃO Demonstração Regressão Linear QUEREMOS PREVER SALÁRIO EM FUNÇÃO DOS ANOS DE EXPERIÊNCIA, ENTÃO: = 𝛼 + 𝛽SALÁRIO ANOS DE EXPERIÊNCIA “CRIAR UM MODELO” É USAR UM SOFTWARE QUE DETERMINA ESTES COEFICIENTES Demonstração Regressão Linear Demonstração Regressão Linear = 25792.2 + 9449.96SALÁRIO ANOS DE EXPERIÊNCIA ESTA EQUAÇÃO É O SEU MODELO PREDITIVO! VOCÊ PODE USÁ-LA, POR EXEMPLO, NO EXCEL (MAS ANTES TEMOS QUE VER ALGUNS OUTROS PONTOS IMPORTANTES DO “OUTPUT” DO GRETL) X p-value é uma medida importante. O significado é que quanto menor for o valor mais significativa é a variável para prever a variável dependente. Neste caso o p-value é muito pequeno (note que o resultado é mostrado em potencia de 10. Exemplo: 5.51x10-12, ou 0,000000000551) DEMONSTRAÇÃO REGRESSÃO LINEAR Demonstração Regressão Linear R2 e R2AJ são medidas para saber quanto o modelo pode explicar os dados analisados. Variam de 0 a 1, e quanto mais próximo de 1 mais a equação explica os dados. O “nosso” R²AJ é 0,955419. Isto significa que 95,54% da variável dependente (salário) consegue ser explicada pelos regressores presentes no modelo (constante e anos de experiência). Demonstração Regressão Linear NOSSO MODELO NO EXCEL P R E V IS Ã O D O N O S S O M O D E LO D E 0 A 2 1 A N O S D E E X P E R IÊ N C IA Anos Exp. Salário Anos Exp. Salário 0 25,792.20 11 129,741.76 1 35,242.16 12 139,191.72 2 44,692.12 13 148,641.68 3 54,142.08 14 158,091.64 4 63,592.04 15 167,541.60 5 73,042.00 16 176,991.56 6 82,491.96 17 186,441.52 7 91,941.92 18 195,891.48 8 101,391.88 19 205,341.44 9 110,841.84 20 214,791.40 10 120,291.80 21 224,241.36 7 ANOS DE EXPERIÊNCIA... PREDIZ 92K DE SALÁRIO. Regressão LINEAR Múltipla DEMONSTRAÇÃO Demonstração Regressão Múltipla FONTE DE DADOS: 50-STARTUPS.CSV Demonstração Regressão Múltipla Baseada numa amostra de 50 startups, criar um modelo preditivo de lucro. Os atributos disponíveis são: •Gastos em pesquisa e desenvolvimento (“R&D”) •Gastos em Administração (“administration”) •Gastos em Marketing •Estado onde está baseada a startup A variável dependente é o lucro (“profit”) Demonstração Regressão Múltipla VARÍAVEL DEPENDENTE VARÍAVEIS INDEPENDENTE VARÍAVEIS “DUMMY” INCLUIR CALIFORNIA CRIA UM PROBLEMA DE COLINEARIDADE A VIDA É FÁCIL COM SOMENTE UMA VARIÁVEL INDEPENDENTE... Demonstração Regressão Múltipla POR QUÊ ELIMINAR VARIÁVEIS ? ? ? Demonstração Regressão Múltipla 1º 2º MAS COMO ESCOLHER QUAIS VARIÁVEIS SAEM DA EQUAÇÃO? Demonstração Regressão Múltipla 1.ALL-IN 2.BACKWARD ELIMINATION 3.FORWARD ELIMINATION 4.BIDIRECTIONAL ELIMINATION 5.SCORE COMPARISION Stepwise Regression Demonstração Regressão Múltipla ABRIR O ARQUIVO 50-STARTUPS.CSV CRIAÇÃO DAS VARIÁVEIS “DUMMY” CRIAÇÃO DO MODELO (OLS) “Administration” cai fora... E rodamos o modelo novamente! Modelo 1 Modelo 2 Modelo 2 Modelo 3 Modelo 3 Modelo 4 OOPS! MAS SE O MODELO “3” É MELHOR QUE O “4”... “3” IS THE GUY! WE HAVE A WINNER! Modelo 3 Demonstração Regressão Múltipla PROFIT = 46975,9 + 0,796584 RDSPEND + 0,0299079 MARKETINGSPEND 3 PRONTO PARA EXCEL!! I.E. QUANDO VC QUISER PREVER O LUCRO DE UMA STARTUP BASTA VOCÊ SABER QUANTO ELA GASTA DE PESQUISA E DESENVOLVIMENTO E DE MARKETING. Regressão Logística DEMONSTRAÇÃO Demonstração Regressão Logística Nos modelos de regressão linear simples e múltipla estávamos tentando prever um valor numérico. Usamos regressão logística como um algorítmo de classificação, ou seja, estamos buscando uma opção. Escolher pela opção depende da probabilidade de ocorrer o evento. Modelos de regressão logística dão como resultado uma probabilidade. Demonstração Regressão Logística FONTE DE DADOS: EMAILOFFER.CSV Demonstração Regressão Logística Demonstração Regressão Logística VAMOS VIZUALIZAR OS DADOS NUM GRÁFICO DE DISPERSÃO Demonstração Regressão Logística CLARAMENTE UMA REGRESSÃO LINEAR NÃO É A MELHOR OPÇÃO PARA FAZER UMA PREDIÇÃO... EXISTE UMA TENDÊNCIA PARA PESSOAS MAIS JOVENS NÃO RESPONDEREM A OFERTA EXISTE UMA TENDÊNCIA PARA PESSOAS MAIS VELHAS RESPONDEREM A OFERTA Demonstração Regressão Logística PROBABILIDADES SÃO VALORES ENTRE 0 E 1 Demonstração Regressão Logística Demonstração Regressão Logística Demonstração Regressão Logística Demonstração Regressão Logística O MODELO CALCULA AS PROBABILIDADES. A LINHA QUE SEPARA O QUE É “SUCESSO” OU “FRACASSO” É ARBITRÁRIA E.G. DESCISÃO DE NEGÓCIO DemonstraçãoRegressão Logística VAMOS VER COMO FAZER ISTO NO GRETL Demonstração Regressão Logística MAS ANTES VAMOS CRIAR AS VARIÁVEIS “DUMMY” Demonstração Regressão Logística Demonstração Regressão Logística VOILÁ! Demonstração Regressão Logística VAMOS VER O RESULTADO DO MODELO Demonstração Regressão Logística O MODELO PREDIZ PROBABILIDADES, CONFORME AO LADO. VAMOS SALVAR OS VALORES PREDITOS COMO UMA NOVA VARIÁVEL Demonstração Regressão Logística VAMOS ANALISAR O RESULTADO DO MODELO COM AS VARIÁVEIS REGRESSORAS E AS PREDIÇÕES Demonstração Regressão Logística Demonstração Regressão Logística PARA USAR NO EXCEL TEMOS QUE TER A EQUAÇÃO DA PROBABILIDADE NO EXCEL É ASSIM QUE VAMOS USAR Demonstração Regressão Logística NO EXCEL É ASSIM QUE VAMOS USAR Demonstração Regressão Logística Demonstração Regressão Logística A PARTIR DO MOMENTO QUE DEFINIMOS UM THRESHOLD (OU LIMITE), PODEMOS TRANSFORMAR PROBABILIDADES EM PREDIÇÕES, COM UM SIMPLES “=IF(“ NO EXCEL. Uma última questão! REGRESSÃO LOGÍSTICA É UM ALGORITMO DE REGRESSÃO OU DE CLASSIFICAÇÃO? Característica Coeficiente P-Valor Idade -0,2626090 0,0018000 Operacional -0,7491820 0,0065000 Horas extras -0,0174758 0,0083000 Tempo empresa 0,5350320 0,0001000 Bairro residência -0,0095723 0,0192000 Tipo cargo 0,1963290 0,0528000 Turno -0,3351620 0,1575000 Faixa salarial 0,1384160 0,2216000 Estado emissor RG 0,0603732 0,2688000 Tempo sem promoção 0,0133276 0,3939000 Absenteísmo -0,0017207 0,4510000 Estado civil -0,0781035 0,5865000 Promoções 0,0883532 0,7951000 Escolaridade -0,0068517 0,9443000 Lembram do case do Turnover? Regressão logística na veia! Visão geral sobre sistemas de suporte à decisão e inteligência de negócio. Entendimento sobre o processo de KDD e, em especial sobre preparação de dados. Estudo sobre as principais tarefas de mineração de dados. A Mineração de Dados e suas utilizações em estudos de casos reais. Você não pode copiar ou compartilhar o material em qualquer suporte ou formato. Você não pode adaptar, remixar, transformar e criar a partir do material. Se você utilizar alguma referência deste material em mídia diferente de uma apresentação, você deverá citá-lo como “Castello, Fabiano (2019): Apresentação de apoio da aula de Data Mining do programa MBA PUC/RS em Tecnologia para Negócios: AI, Data Science e Big Data. figshare. Presentation. https://doi.org/10.6084/m9.figshare.10279748” Este material foi originalmente criado por Fabiano Castello fabiano.castello@cdatalab.net http://fabianocastello.com | https://orcid.org/0000-0003-0162-0458 | http://bit.ly/fcastello Exceto no caso de fotos de pessoas, e material de copyright específico, você tem os deveres ao lado. Este material é de uso exclusivo dos alunos do programa MBA em Tecnologia para Negócios: AI, Data Science e Big Data, disponibilizado pela PUC/RS, e está registrado no DOI (“document object identifier”) https://doi.org/10.6084/m9.figshare.10279748 Respeite o direito autoral bit.ly/plagioV1 Respeite o direito autoral bit.ly/plagioV1 2019-11 PUCRS DM Apresentação de Apoio vPUB.2 (1) Capa 1