Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

<p>ESTATÍSTICA APLICADA AO DATA SCIENCE</p><p>PREDIÇÕES COM MODELOS DE REGRESSÃO LINEAR</p><p>UNIDADE 1</p><p>Introdução</p><p>Nesta unidade, aprenderemos as “Predições com Modelos de Regressão</p><p>Linear”. Modelos de regressão linear são um dos principais métodos preditivos</p><p>da estatística e da ciência dos dados (data science). São muito usados em</p><p>praticamente todos os campos de conhecimento humano (saúde, engenharia,</p><p>economia, geologia etc.), onde se quer estimar o valor de uma variável</p><p>quantitativa em função de outras variáveis, chamadas de variáveis de entrada</p><p>ou preditoras.</p><p>Veremos um pouco sobre a evolução recente da estatística e como a</p><p>mesma se tornou uma das principais ferramentas da ciência dos dados.</p><p>Falaremos sobre a fusão de métodos de machine learning com aqueles da</p><p>estatística, todos esses usados na ciência dos dados.</p><p>Feita essa passagem introdutória por parte do mundo da estatística, de</p><p>machine learning e ciência dos dados, voltaremos nossas atenções ao principal</p><p>foco dessa unidade, que são os modelos de regressão linear. Apresentaremos o</p><p>que são esses modelos, em que situações são usados, tudo isso ilustrado com</p><p>um exemplo que nos acompanhará ao longo desta unidade. Praticaremos esse</p><p>aprendizado com atividades a serem realizadas por você.</p><p>Estatística, Machine Learning e Ciência dos Dados</p><p>Nesta seção, discutiremos sobre a relação entre a estatística, a ciência</p><p>da computação e a ciência dos dados. Falaremos sobre como a estatística e a</p><p>ciência dos dados fizeram proveito dos algoritmos de aprendizagem de</p><p>máquina (machine learning) da ciência da computação.</p><p>Breve Histórico</p><p>O nome dessa disciplina é “Estatística Aplicada ao Data Science”. Temos,</p><p>aqui, a fusão de duas áreas, a estatística e a ciência dos dados, a primeira</p><p>aplicada à segunda. A estatística é uma área de conhecimento humano mais</p><p>antigo que a ciência dos dados. Sua estrutura atual começou a tomar forma há</p><p>aproximadamente 130 anos. Verdadeiramente, sua origem se estende por</p><p>muitos séculos atrás, mas foram os trabalhos de grandes nomes, tais como os</p><p>famosos Karl Pearson e Ronald Fisher, que começaram a dar, à estatística, a</p><p>forma como a conhecemos hoje. Uma ciência forte, com brilho próprio e</p><p>enorme relevância para a sociedade humana.</p><p>Uma outra ciência de enorme relevância para a sociedade moderna é a</p><p>ciência da computação. Essa é mais recente que a estatística, e só surge com o</p><p>advento dos computadores, a partir das décadas de 1940 e 1950. A ciência da</p><p>computação preocupou-se, inicialmente, com temas ligados à arquitetura e</p><p>funcionamento dos computadores. Porém, em algum momento, passou a tentar</p><p>emular a inteligência humana. Essas tentativas levaram ao nascimento de uma</p><p>nova área de conhecimento humano denominada de inteligência artificial, uma</p><p>área muito vasta e diversificada. Dentro dela, como um dos seus ramos,</p><p>surgiram os algoritmos de aprendizado de máquina, em inglês machine learning.</p><p>Mas por que falamos aqui de machine learning? Porque entre ciências não</p><p>há fronteiras rígidas, e tanto os cientistas da computação tomaram emprestados</p><p>os modelos já desenvolvidos pela estatística, quanto os estatísticos tomaram</p><p>emprestados os algoritmos de machine learning desenvolvidos pela ciência da</p><p>computação. Essa fusão mostrou-se ser muito rica, vigorosa, e pavimentou o</p><p>caminho para o surgimento de uma nova área chamada de ciência dos dados.</p><p>A ciência dos dados é muito recente na história da sociedade humana. De</p><p>fato, parece ter surgido entre 20 a 10 anos atrás. Um dos relatos que se ouve é</p><p>que uma das grandes empresas americanas da era digital anunciou seu interesse</p><p>em contratar “cientistas de dados”. Mas quem ela queria contratar? Bem,</p><p>parece que ela queria contratar um estatístico, mas um estatístico com um viés</p><p>computacional forte. Um que soubesse programar. Mas ela também ficaria</p><p>satisfeita com um cientista da computação, porém um que possuísse algum</p><p>conhecimento de estatística, pois um cientista da computação sabe programar</p><p>muito bem, mas para se tornar um cientista de dados precisa conhecer</p><p>estatística.</p><p>É por esse motivo que a estatística está intimamente ligada à ciência dos</p><p>dados e ao mundo dos algoritmos de machine learning da ciência da</p><p>computação. Enfim, todos, de alguma forma, entrelaçados. Cada um desses</p><p>mundos com suas especialidades, mas usufruindo mutuamente dos</p><p>conhecimentos gerados pelos outros três mundos: 1) a estatística, com seus</p><p>métodos tão cuidadosamente construídos e aplicados; 2) a ciência da</p><p>computação, com seus algoritmos de machine learning; e 3) a ciência dos dados,</p><p>que aplica todos esses conhecimentos e métodos de forma fértil e produtiva.</p><p>Linguagens de Programação na Ciência dos Dados</p><p>Conversamos cada vez mais com as máquinas (sejam computadores,</p><p>smartphones, nossos carros etc.), e as máquinas entre si (IoT = Internet of</p><p>Things, a Internet das Coisas). Essa conversa com as máquinas e a conversa delas</p><p>entre elas mesmas é construída por meio de linguagens de programação que se</p><p>transformam em códigos executáveis e permitem a realização das</p><p>comunicações dos seres humanos com as máquinas e das máquinas entre si.</p><p>São tão diversas as linguagens de programação, e suas histórias tão</p><p>variadas, que seria impossível tentarmos abordar esse assunto aqui. Mas aqui</p><p>devemos deixar claro que não se faz mais estatística sem o uso intensivo de</p><p>computadores e, para isso, precisamos lançar mão de linguagens de</p><p>programação. E isso também se aplica à ciência dos dados. Sendo assim, que</p><p>linguagens de programação são as mais empregadas por essas duas ciências, a</p><p>ciência dos dados e a estatística?</p><p>A resposta é: Para rodar poderosas rotinas computacionais usam-se</p><p>linguagens como Fortran, C, C++ e Java, e para o desenvolvimento de aplicações</p><p>em ciência dos dados, linguagens mais flexíveis como R, Python, Julia e MatLab</p><p>são preferidas.</p><p>Dentre essas, R e Python são aquelas que se destacam no mundo da</p><p>estatística e da ciência dos dados. Ambas incríveis e muito produtivas. Aqui,</p><p>nesta disciplina, será mais fácil usarmos o R. A razão é simples. O R base já vem</p><p>com todas as funções estatísticas e gráficas das quais precisaremos. Mas não se</p><p>preocupe, usaremos o R apenas para alguns exercícios bem simples, só para</p><p>mostrar a você que é possível. Além disso, é muito fácil instalar e rodar o R.</p><p>Em suma, preste muita atenção a essas duas linguagens de programação:</p><p>o R e o Python. O mercado valoriza quem possui alguma familiaridade com elas</p><p>e com a estatística e a ciência dos dados.</p><p>Vamos Praticar</p><p>Campo em crescimento exponencial, a Ciência dos Dados tem se</p><p>tornado uma área apaixonante para entusiastas das mais diversas áreas.</p><p>Estatísticos contribuem com sólida teoria de análise de dados enquanto</p><p>cientistas e engenheiros da computação contribuem com novas capacidades e</p><p>possibilidades computacionais. Assim, pesquisadores(as) da biologia,</p><p>psicologia, direito, economia, comunicação, sociologia e diversas outras áreas</p><p>podem usufruir desse conjunto de técnicas (algumas nem tão novas) para</p><p>aprimorar e desenvolver suas pesquisas. E a linguagem R é uma das principais</p><p>linguagens de programação utilizadas para isso. Diante disso, assinale a</p><p>alternativa correta:</p><p>a) A ciência dos dados desenvolveu-se sem qualquer ligação com a estatística</p><p>ou com a ciência da computação.</p><p>b) Linguagens de programação não têm relevância nas aplicações da estatística</p><p>à ciência dos dados.</p><p>c) O R não é uma linguagem de programação de referência para a estatística e</p><p>a ciência dos dados.</p><p>d) A ciência dos dados, campo que vem apresentando um crescimento</p><p>exponencial, pode ser usufruída por pesquisadores e profissionais das mais</p><p>diversas áreas.</p><p>e) Não é possível a aplicação da estatística ou da ciência dos dados em ciências</p><p>humanas ou sociais, mas apenas nas ciências exatas.</p><p>Predição com Regressão Linear - Estudo de Caso</p><p>Nesta seção, discutiremos sobre</p><p>II. Resumos estatísticos são calculados com base em amostras de dados e</p><p>também são chamados sumários estatísticos.</p><p>III. Técnicas gráficas são poderosas para a interpretação e análise de dados, e</p><p>qualquer análise estatística deve sempre começar plotando gráficos.</p><p>IV. O termo estatística descritiva refere-se a um conjunto de técnicas de</p><p>organização de dados, cálculo de resumos e exposição gráfica dos dados.</p><p>Está correto o que se afirma em:</p><p>a) II, III e IV, apenas.</p><p>b) II e III, apenas.</p><p>c) III e IV, apenas.</p><p>d) I, II, III, apenas.</p><p>e) I, II, III e IV.</p><p>Predições com Modelos de Regressão Logística</p><p>Nesta seção, ajustaremos modelos de regressão logística simples e</p><p>múltipla aos dados. Com os modelos prontos, realizaremos predições de classes,</p><p>usando o caso para o qual foi contratada, pelo gerente do banco, a nossa jovem</p><p>cientista de dados.</p><p>Modelo de Regressão Logística Simples</p><p>Como já dito, a regressão logística é um classificador muito usado em</p><p>situações nas quais a variável qualitativa é dicotômica. Não somente isso, mas</p><p>também quando as classes se misturam um pouco e não há uma fronteira muito</p><p>clara de divisão entre elas. Aqui, entre adimplentes e inadimplentes. Para</p><p>enxergar esse ponto, volte à Figura 2.6 e veja como os pontos azuis dos</p><p>adimplentes se misturam um pouco com os pontos laranja dos inadimplentes.</p><p>Nessa situação, a regressão logística também se mostra uma opção</p><p>interessante.</p><p>Outro ponto a observar é que nossa jovem cientista de dados verificou,</p><p>na sua análise descritiva dos dados, que dentre as duas variáveis quantitativas</p><p>(renda) e (gastos com cartão), a segunda é mais influente. Dessa forma, decidiu</p><p>começar com um modelo de regressão logística simples, com uma só variável de</p><p>entrada, justamente a mais influente, a variável (gastos médios mensais com o</p><p>cartão). O modelo preditivo que vai tentar desenvolver será um de predição da</p><p>probabilidade de a pessoa ficar inadimplente em função dos seus gastos médios</p><p>com o cartão.</p><p>Reflita</p><p>“Os cientistas de dados costumam encarar problemas que exigem</p><p>decisões automatizadas. É um e-mail ou uma tentativa de phishing? O cliente</p><p>está propenso a desistir? O usuário web está propenso a clicar em um anúncio?</p><p>Esses problemas são todos de classificação. A classificação é, talvez, a forma</p><p>mais importante de previsão: o objetivo é prever se um registro é 0 ou um 1</p><p>(phishing/não phishing, clicar/não clicar, desistir/não desistir), ou, em alguns</p><p>casos, uma entre muitas categorias (por exemplo, a filtragem do Gmail em suas</p><p>caixa de entrada “principal”, “social”, “promoções” ou “fóruns”).</p><p>Geralmente, precisamos saber de mais do que uma simples classificação binária:</p><p>queremos saber a probabilidade prevista de um caso pertencer a uma classe”.</p><p>Na discussão que se segue, anotaremos p(x2) para a probabilidade</p><p>esperada da variável resposta YY do status de adimplência das pessoas ser igual</p><p>a sua classe y=1 (inadimplente), quando o valor da variável de entrada X2 for</p><p>igual a um determinado valor x2 de gasto médio mensal dessa pessoa com o seu</p><p>cartão de crédito, isto é, P (Y=1 | X=x2). Essa notação, típica dos campos da</p><p>probabilidade e da estatística, lê-se: probabilidade de Y=1 dado X=x2.</p><p>A palavra regressão, em regressão logística, tem relação com a regressão</p><p>linear, que já vimos na Unidade 1. Por outro lado, nesta unidade, já vimos que a</p><p>regressão logística é um classificador probabilístico. Porém, não é boa ideia a</p><p>nossa cientista de dados tentar desenvolver um modelo preditivo de</p><p>probabilidade usando uma equação como</p><p>p(x2) = b0 + b2x2</p><p>pois essa equação representa uma reta e p(x2); sendo uma reta, poderia assumir</p><p>valores menores do que 0 (probabilidades negativas) ou maiores do que 1</p><p>(maiores do que 100%), o que não é possível para probabilidades.</p><p>Para resolver esse problema, os estatísticos recorreram a outro modelo,</p><p>substituindo a probabilidade p(x2) na equação acima pelo logaritmo de sua</p><p>chance, escrita como:</p><p>Log [p(x2) / (1−p(x2))] = b0 + b2x2</p><p>Dessa equação, podemos isolar p(x2), com alguns poucos passos de álgebra,</p><p>para obter</p><p>p(x2) = [exp (b0+b2x2)] / [1+exp (b0 + b2x2)]</p><p>Essa última equação garante que a probabilidade p(x2) ficará contida</p><p>entre os limites 0 e 1, para qualquer valor da variável de entrada x2.</p><p>A partir desse ponto, o procedimento seguido pela jovem cientista de dados foi</p><p>o de estimar os coeficientes b0 e b2 usando o software estatístico R. O método</p><p>que o R usa, aqui, é o de Minimização da Função de Verossimilhança, algo</p><p>parecido ao que faz o Método dos Mínimos Quadrados para o caso dos modelos</p><p>de regressão linear. A cientista obteve os seguintes valores para os coeficientes</p><p>do modelo:</p><p>b0 = - 4,16 e b2 = 0,00314</p><p>Podemos, agora, predizer a probabilidade de uma pessoa ser</p><p>inadimplente em função dos seus gastos médios com o cartão de crédito.</p><p>Analisemos duas pessoas: uma com gastos mensais médios com cartão de</p><p>crédito de R$ 500,00, e outra de R$ 1000,00, ou seja, o dobro da primeira.</p><p>Usando os valores calculados para seus coeficientes, a equação fica</p><p>p(x2) = [exp ( −4,16 + 0,0314 x 2)] / [1 + exp ( −4,16 + 0,00314 x 2)]</p><p>e obtemos</p><p>p(500) = 0,07p(500) = 0,07 e p(1000) = 0,27 p(1000) = 0,27</p><p>Em palavras, a probabilidade de a primeira pessoa ficar inadimplente</p><p>gastando R$ 500,00 por mês com cartão de crédito é de 7%, enquanto para a</p><p>segunda pessoa com gastos de R$ 1000,00, essa mesma probabilidade é de 27%.</p><p>Ou seja, a segunda pessoa tem uma probabilidade 3,8 vezes maior de ficar</p><p>inadimplente do que a primeira pessoa.</p><p>Para visualizar esse resultado, a jovem cientista de dados construiu um gráfico</p><p>no qual plotou, simultaneamente:</p><p>1. na cor azul-claro não inadimplentes y=0 versus gastos com cartão x2</p><p>2. na cor laranja inadimplentes y=1 versus gastos com cartão x2</p><p>3. na cor salmão probabilidade p(x2) de inadimplência (y=1) versus gastos</p><p>com cartão x2</p><p>Obteve o gráfico exibido na Figura 2.10:</p><p>Figura 2.10 - Inadimplência (1 = Sim ou 0 = Não) versus gastos com cartão (x2)</p><p>Esse exemplo deixa claro o que queremos dizer quando denominamos, a</p><p>regressão logística, classificador probabilístico, que estima a probabilidade de</p><p>acontecer uma das classes da variável resposta, em função do valor da variável</p><p>de entrada. No caso, o da pessoa ficar inadimplente. A predição para a</p><p>probabilidade de a outra classe acontecer é, simplesmente,</p><p>1−p(x2)</p><p>que é a probabilidade de a pessoa não ficar inadimplente. O banco pode, então,</p><p>decidir usar um valor limite superior, tal como p(x2) = 0.05, isto é, 5%, como seu</p><p>critério de aprovação do cartão. Se a probabilidade de a pessoa ficar</p><p>inadimplente for menor ou igual a esse valor, o banco aprova o cartão e</p><p>desaprova se essa probabilidade for superior a esse valor limite.</p><p>Ao chegar a esse ponto, a jovem cientista de dados já estava bastante</p><p>satisfeita com esses resultados parciais. Decidiu dar mais um passo adiante.</p><p>Saiba mais</p><p>Neste estudo, você poderá ler sobre técnicas de regressão logística</p><p>aplicadas à análise ambiental. Procura-se demonstrar o quanto se pode ganhar</p><p>em entendimento dos fatores que promovem alterações no padrão de uso do</p><p>solo com análise estatística e geográfica.</p><p>Modelo de Regressão Logística Múltipla</p><p>Regressão múltipla é aquela cujo modelo de regressão considera mais de uma</p><p>variável de entrada. Na amostra cedida pelo gerente do banco à jovem cientista</p><p>de dados, há 200 observações de 4 variáveis. Dessa forma, ela escreveu o</p><p>modelo de regressão logística múltipla da seguinte forma:</p><p>Log [p(x) / (1−p(x))] = b0 + b1x1 + b2x2 + b3x3</p><p>em que</p><p>x=(x1,x2,x3)</p><p>x1=Renda mensal da pessoa (R$)</p><p>x2=Gasto médio mensal com cartão de crédito (R$)</p><p>x3=Se a pessoa tem um emprego estável (1=Sim ou 0=Não)</p><p>p(x)=Probabilidade esperada da pessoa ficar inadimplente (0≤p(x)≤1)</p><p>Assim como no caso do modelo de regressão logística simples, a jovem</p><p>cientista</p><p>de dados fez o ajuste desse modelo aos dados da amostra com a ajuda</p><p>do software R, e obteve, para os coeficientes:</p><p>b0 = - 2,85</p><p>b1= 0,000920</p><p>b2 = 0,00519</p><p>b3 = -1,52</p><p>Ela sabia que a relação entre log[p(x) / (1 − p(x))] e p(x) é tal que, quando</p><p>uma cresce, a outra também cresce. Com isso, pôde deduzir que p(x2) a</p><p>probabilidade de a pessoa ser inadimplente:</p><p>1. CRESCE COM A RENDA DA PESSOA PORQUE B1 É POSITIV</p><p>2. CRESCE COM O AUMENTO DOS GASTOS COM O CARTÃO PORQUE B2 É</p><p>POSITIVO</p><p>3. DECRESCE COM A ESTABILIDADE NO EMPREGO PORQUE B3 É NEGATIVO</p><p>Isso nós já sabíamos, da análise descritiva feita pela nossa jovem cientista</p><p>de dados, mas, agora, ela foi muito além. Quantificou essas relações por meio</p><p>desse modelo de regressão logística múltipla. E se apressou em mostrar esse</p><p>resultado ao gerente do banco, aquele que a havia contratado. Este logo pediu,</p><p>à cientista, que demonstrasse o poder de predição desse modelo e, para isso,</p><p>ela apresentou duas situações:</p><p>Primeira situação</p><p>Duas pessoas, com renda de R$ 1000,00 ao mês e gastos médios mensais</p><p>com cartão de crédito de R$ 400,00; porém, uma com emprego estável e a outra</p><p>sem emprego estável, como segue:</p><p>Pessoa A: x1 = 1200, x2 = 400 e x3 = 1 ⇒ p (1200,400,1) = 0,032</p><p>Pessoa B: x1 = 1200, x2 = 400 e x3 = 0 ⇒ p (1200,400,0) = 0,133</p><p>A pessoa A tem uma probabilidade de 3,2% de ficar inadimplente com o</p><p>cartão. Para a pessoa B, essa probabilidade é de 13,3%. Desse modo, se o banco</p><p>usar o critério do limite máximo de 5%, aprovaria o cartão para A, e não para B.</p><p>Segunda situação</p><p>Duas pessoas, com renda de R$ 8.000,00 ao mês e ambas com empregos</p><p>estáveis; porém, uma com gastos médios mensais com cartão de crédito de R$</p><p>1.500,00 e a outra, R$ 3.000,00:</p><p>Pessoa C: x1 = 8000, x2 = 1500 e x3 = 1 ⇒ p (8000,1500,1) = 0,019</p><p>Pessoa D: x1 = 8000, x2 = 3000 e x3 = 1 ⇒ p (8000,3000,1) = 0,979</p><p>A pessoa C tem uma probabilidade de 1,9% de ficar inadimplente com o</p><p>cartão. Para a pessoa B, essa probabilidade é de 97,9%. Obviamente, para essa</p><p>pessoa, o banco não aprovaria o cartão de crédito.</p><p>O gerente do banco ficou tão contente que convidou a jovem cientista de</p><p>dados a ingressar definitivamente para sua equipe de inteligência de negócios e</p><p>também pediu-lhe para liderar um time no uso desse tipo de ferramentas de</p><p>estatística e machine learning. Concluiu que já estava na hora de mudar alguns</p><p>dos processos do banco com esse tipo de tecnologia.</p><p>Vamos Praticar</p><p>Considere os seguintes exemplos de aplicação de regressão logística,</p><p>assim como as afirmativas, a seguir: 1) previsão de risco na área tributária –</p><p>calcular a probabilidade de o contribuinte ser inadimplente ou adimplente após</p><p>o parcelamento de tributos; 2) utilizada para classificar se a empresa encontra-</p><p>se no grupo de empresas solvente ou insolvente; 3) determinar quais</p><p>características levam as empresas a adotarem o balanced scorecard.</p><p>I. É uma técnica recomendada para situações em que a variável dependente é</p><p>de natureza dicotômica ou binária. Quanto às independentes, podem ser</p><p>categóricas ou não.</p><p>II. A regressão logística é um recurso que nos permite estimar a probabilidade</p><p>associada à ocorrência de determinado evento em face de um conjunto de</p><p>variáveis explanatórias.</p><p>III. Busca estimar a probabilidade de a variável dependente assumir um</p><p>determinado valor em função dos conhecidos de outras variáveis.</p><p>IV. Os resultados da análise ficam contidos no intervalo entre zero a um.</p><p>Está correto o que se afirma em:</p><p>a) II, III e IV, apenas.</p><p>b) II e III, apenas.</p><p>c) I, II, III e IV.</p><p>d) I, II, III, apenas.</p><p>e) III e IV, apenas.</p><p>Conclusão</p><p>Nesta unidade, vimos um caso simulado. Casos reais são similares ao caso</p><p>abordado. Porém, é comum encontrarmos, nos casos reais, muito mais dados,</p><p>tanto em número de observações, que chegam à casa de milhares ou milhões,</p><p>como também em número de variáveis, que facilmente chegam a algumas</p><p>dezenas ou mesmo centenas. No caso aqui estudado, a amostra possuía apenas</p><p>200 observações e somente quatro variáveis. Para problemas em dimensões</p><p>maiores – ou muito maiores, como os problemas chamados de big data –, mais</p><p>importante ainda é o uso intensivo de técnicas computacionais na aplicação da</p><p>estatística à ciência dos dados.</p><p>A ideia, nesta unidade, como também foi a da unidade anterior, foi a de</p><p>mostrar poder dessas técnicas, modelos e algoritmos, quando usados em favor</p><p>da sociedade humana, dos seus negócios, das suas pesquisas. Não seria</p><p>produtivo tentar, nessa introdução, cobrir em mais profundidade detalhes</p><p>importantes para a construção desses modelos, como treiná-los, como testá-los</p><p>e como validá-los, por exemplo. Sendo assim, há muitas coisas que não vimos e</p><p>que deixamos para você, ao longo da sua trajetória como estudante e, no futuro,</p><p>como profissional, explorar e aprender, se assim desejar.</p><p>Concluindo, essa área, hoje, é muito promissora e valorizada pelo</p><p>mercado de trabalho, e que qualquer profissional pode se apoderar dessas</p><p>ferramentas e aplicá-las à sua área de especialização.</p><p>A2</p><p>PERGUNTA 1</p><p>Os dados cedidos pelo gerente do banco estavam bem organizados e livres de</p><p>erros. A nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e</p><p>pré-tratamento dos dados e pode prosseguir imediatamente para uma análise</p><p>descritiva deles antes do desenvolvimento do modelo.</p><p>Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s)</p><p>Verdadeira(s) e F para a(s) Falsa(s).</p><p>() Chamamos de análise descritiva dos dados seus sumários (ou resumos)</p><p>estatísticos dos mesmos e a sua visualização. Ambos, os sumários e as</p><p>visualizações, nos ajudam a entender o comportamento dos dados e, através deles,</p><p>do fenômeno ou processo estudado.</p><p>() São quatro as variáveis estudadas pela cientista de dados: renda mensal da</p><p>pessoa, seus gastos médios com o cartão, se a pessoa tinha ou não um emprego</p><p>estável ao longo do período amostrado e se ficou ou não inadimplente ao longo do</p><p>deste período.</p><p>() Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da</p><p>pessoa e seus gastos com o cartão, a cientista de dados usou as funções min(),</p><p>mean() e max() do software estatístico R para calcular os valores mínimo, médio e</p><p>máximo dos dados observados para essas variáveis.</p><p>() Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não</p><p>um emprego estável e se tinha ou não ficado inadimplente com o pagamento das</p><p>faturas do cartão ao longo do período amostrado, a cientista de dados usou a função</p><p>table() do software estatístico R para calcular a frequência com que os níveis de cada</p><p>uma dessas variáveis se manifestaram na amostra estudada.</p><p>Assinale a alternativa que apresenta a sequência correta.</p><p>A) V, V, V, V. B) V, F, F, V. C)F, V, V, F. D)V, V, F, F. E) F, F, V, V.</p><p>PERGUNTA 2</p><p>A atividade de venda de produtos financeiros por bancos, tais como cartões de</p><p>crédito, requer que se faça uma avaliação do cliente. São focos dessa avaliação</p><p>aprovar ou não um cartão de crédito para o cliente e, se aprovado, definir o limite do</p><p>cartão, ou seja, o valor do crédito a conceder.</p><p>Com base nessa introdução, analise as afirmativas a seguir.</p><p>-O primeiro foco da avaliação é um problema de regressão: aprovar (sim ou não) o</p><p>cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes).</p><p>-O primeiro foco da avaliação é um problema de classificação: aprovar (sim ou não)</p><p>o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes).</p><p>-O segundo foco da avaliação é um problema de classificação, predizer o valor do</p><p>limite (do crédito) do cartão.</p><p>-O segundo foco da avaliação é um problema de regressão, predizer o valor do limite</p><p>(do crédito) do cartão.</p><p>Está correto o que se afirma em:</p><p>A) I e III, apenas. B) II, III e IV, apenas. C) I, II e III, apenas.</p><p>D) II e IV, apenas. E) II, apenas.</p><p>PERGUNTA 3</p><p>Naturalmente, dados ocupam uma posição central, tanto na estatística quanto</p><p>na ciência dos dados. Entendê-los, saber da sua natureza, o que representam, é de</p><p>suma importância, antes da realização de qualquer análise ou projeto. Os dados são</p><p>divididos entre quantitativos e qualitativos, na estatística e na ciência dos dados.</p><p>Relativamente aos qualitativos, analise as afirmativas a seguir e assinale V para a(s)</p><p>Verdadeira(s) e F para a(s) Falsa(s).</p><p>() Dados qualitativos dicotômicos são dados observados de variáveis qualitativas que</p><p>podem assumir apenas dois níveis (também chamados de classes) como seus</p><p>valores, tais como sexo (feminino ou masculino), ocupação (empregado ou</p><p>desempregado), localização (bairro ou centro), emprego estável (sim ou não),</p><p>inadimplente (sim ou não).</p><p>() Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas que</p><p>podem assumir três ou mais níveis como seus valores, tais como classe social (A, B,</p><p>C, D e E), escolaridade (fundamental, médio, superior), gravidade da doença (baixa,</p><p>média, alta).</p><p>() A função table() do R permite a contagem da frequência de cada nível assumido</p><p>por uma variável qualitativa em uma dada amostra, e foi usada pela jovem cientista</p><p>de dados para contar a frequência de pessoas com ou sem emprego estável e se</p><p>ficaram ou não inadimplentes com o pagamento das faturas do cartão no período</p><p>amostrado.</p><p>() Um mosaicplot permite a visualização gráfica da relação entre duas variáveis</p><p>qualitativas. Foi usado por uma jovem cientista de dados para examinar a possível</p><p>relação entre duas variáveis qualitativas dicotômicas: pessoas com ou sem emprego</p><p>estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão de</p><p>crédito ao longo do período amostrado. Ela percebeu, ao ver o gráfico resultante (ver</p><p>figura adiante), que parece haver um maior nível de inadimplência com o cartão entre</p><p>aquelas que não têm emprego estável.</p><p>Assinale a alternativa que apresenta a sequência correta.</p><p>A) V, V, F, F. B) V, V, V, V. C) V, V, F, V. D) F, V, F, V. E) F, F, F, F.</p><p>PERGUNTA 4</p><p>A amostra relativa aos dados de inadimplência com cartões tinha 200</p><p>observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto médio com</p><p>cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou Não) e se a</p><p>pessoa havia, ao longo do período pesquisado, ficado inadimplente com o pagamento</p><p>de faturas do cartão ao menos uma vez (Sim ou Não).</p><p>Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s)</p><p>Verdadeira(s) e F para a(s) Falsa(s).</p><p>() Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são</p><p>dados relativos a variáveis quantitativas.</p><p>() Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são</p><p>dados relativos a variáveis qualitativas.</p><p>() Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, dois</p><p>são relativos a uma variável quantitativa e dois são relativos a variáveis qualitativas.</p><p>() Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, um</p><p>é relativo a uma variável quantitativa e os outros são relativos a variáveis qualitativas.</p><p>Assinale a alternativa que apresenta a sequência correta.</p><p>A) F, F, V, F. B) V, V, F, F. C) F, V, V, V. D) V, V, F, V. E) F, V,</p><p>F, V.</p><p>PERGUNTA 5</p><p>Estudamos algoritmos preditivos com base em (1) modelos de regressão linear</p><p>e (2) modelos de regressão logística. Esses modelos são aplicados em situações bem</p><p>distintas, que dependem, essencialmente, da natureza da variável resposta, também</p><p>chamada de variável dependente.</p><p>Com esses dois modelos em mente, analise as afirmativas a seguir.</p><p>-Modelos de regressão logística simples são usados na predição de uma variável</p><p>resposta qualitativa quando há mais do que uma variável de entrada.</p><p>-Modelos de regressão linear simples são usados na predição de uma variável</p><p>resposta qualitativa quando se considera apenas uma variável de entrada.</p><p>-Um possível modelo de regressão logística simples para a predição da probabilidade</p><p>de inadimplência é:</p><p>P (x2) = [ exp (bo + b2x2)] / [1 + exp (bo + b2x2)]</p><p>em que bo e b2 são os coeficientes do modelo, x2, o gasto médio mensal da</p><p>pessoa com cartão de crédito e p(x2), o valor esperado para a probabilidade de</p><p>a pessoa ficar ou não inadimplente com o pagamento das faturas do cartão.</p><p>O método comumente usado para calcular os valores dos coeficientes bo e b2 é</p><p>o Método da Máxima Verossimilhança. Para isso, pode-se fazer uso do software</p><p>estatístico R.</p><p>Está correto o que se afirma em</p><p>A) II e III, apenas B) II, III e IV, apenas C) III e IV, apenas D) I, II e IV,</p><p>apenas E) I e II, apenas</p><p>PERGUNTA 6</p><p>Entre as técnicas das quais lançou mão para a visualização dos dados da</p><p>amostra, uma jovem cientista de dados usou gráficos de dispersão. Como cientista</p><p>de dados, ela sabia exatamente em que situações empregar gráficos de dispersão. E</p><p>você, será que você também já sabe?</p><p>Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)</p><p>Falsa(s).</p><p>() Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser usados</p><p>para a visualização de uma única variável, a qual deve ser obrigatoriamente uma</p><p>variável qualitativa.</p><p>() Gráficos de dispersão são usados para a visualização da relação entre duas</p><p>variáveis quantitativas, em que os dados das duas variáveis são plotados aos pares.</p><p>Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista de dados,</p><p>se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir</p><p>quando a outra diminui, ou se não há uma relação aparente entre as duas.</p><p>() Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do</p><p>imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, de scatter plot.</p><p>() Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do</p><p>imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, de scatter plot.</p><p>Assinale a alternativa que apresenta a sequência correta.</p><p>A) F, V, V, V. B) F, V, F, V. C) F, F, V, V. D) V, V, F, V.E) V, V, F, V.</p><p>PERGUNTA 7</p><p>Vimos que há dois principais tipos de aprendizagem supervisionada: problema</p><p>de regressão e problema de classificação. São os tipos de variáveis resposta dos</p><p>dados em análise que distinguem esses dois tipos entre si.</p><p>Relativamente a esses dois tipos, analise as afirmativas a seguir.</p><p>-Na aprendizagem supervisionada, um problema de regressão é um no qual a variável</p><p>resposta é qualitativa.</p><p>-Na aprendizagem supervisionada, um problema de regressão é um no qual a variável</p><p>resposta é quantitativa.</p><p>-Na aprendizagem supervisionada, um problema de classificação é um no qual a</p><p>variável resposta é qualitativa.</p><p>-Na aprendizagem supervisionada, um problema de classificação é um no qual a</p><p>variável resposta é quantitativa.</p><p>Está correto o que se afirma em:</p><p>A) II e IV, apenas. B) III e IV, apenas. C) II e III, apenas. D) III, apenas.</p><p>E) I e III, apenas.</p><p>PERGUNTA 8</p><p>Continuando com o mesmo caso da questão anterior, relativa à aprovação,</p><p>pelos bancos, de crédito na forma de cartão de crédito, como se fazia, no passado, a</p><p>aprovação da concessão de cartões de crédito pelos bancos? E, hoje em dia, como</p><p>os bancos fazem essa aprovação?</p><p>Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e</p><p>assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).</p><p>() No passado, os bancos faziam, e ainda fazem, ao menos em parte, a aprovação</p><p>da concessão de cartões de crédito através da definição de regras que devem ser</p><p>atendidas por cada cliente, tais como idade, emprego estável, renda fixa, dívidas</p><p>pequenas, nome limpo e casa própria.</p><p>() Hoje em dia, dentre outras alternativas, uma que é frequentemente usada pelos</p><p>bancos são algoritmos de aprendizagem supervisionada</p><p>que classificam se o cliente</p><p>é um potencial bom ou mau pagador.</p><p>() Para usarmos algoritmos de classificação com esse propósito de aprovar ou não</p><p>cartões de crédito, precisamos de dados. Ensinamos ao algoritmo, com base nos</p><p>dados que lhe são passados, a predizer clientes que são maus pagadores potenciais</p><p>das faturas do cartão. Dessa forma, se o algoritmo, ao ser alimentado com os dados</p><p>referentes a um novo cliente, classificar esse cliente como um mau pagador potencial,</p><p>o banco não aprovará o cartão.</p><p>() Para equipes de análise de crédito, poder contar com a ajuda de um software com</p><p>a capacidade de recomendar a aprovação ou não da concessão do cartão é de</p><p>grande valor.</p><p>() A recomendação feita pelo software poderá ser tratada ao lado de outras regras de</p><p>crédito para uma decisão final sobre a concessão de cartão para o cliente.</p><p>Assinale a alternativa que apresenta a sequência correta.</p><p>A) F, F, F, F. B) F, V, F, V. C) V, V, F, V. D) V, V, V, V.</p><p>E) V, V, F, F.</p><p>PERGUNTA 9</p><p>Discutimos sobre classificadores determinísticos e probabilísticos. Demos, como</p><p>exemplo, uma variável resposta qualitativa Y com dois níveis (classes), o indivíduo</p><p>está infectado pelo vírus HIV (Y = 1) ou não está infectado (Y= 0), dado um conjunto</p><p>de sintomas x = (x1, x2, x3....xp) que ele apresenta.</p><p>Reveja esse assunto e analise as afirmativas a seguir.</p><p>-Um classificador determinístico vai dizer se o indivíduo está ou não está infectado,</p><p>dados os sintomas que apresenta.</p><p>-Um classificador probabilístico vai dizer qual é a probabilidade de o indivíduo estar</p><p>ou não infectado, dados os sintomas que apresenta.</p><p>-No jargão da estatística, escrever Y = y significa que a variável aleatória Y resultou</p><p>no valor y, em que y é um dos possíveis valores que a variável aleatória Y pode</p><p>assumir (ou seja, uma de suas classes, no caso, das variáveis qualitativas).</p><p>-Nesse mesmo jargão, escrever P (Y = y | X = x) significa a probabilidade de Y ser</p><p>igual a um dos seus possíveis valores y, quando a variável de entrada X é igual a x</p><p>(dado que X = x).</p><p>Está correto o que se afirma em:</p><p>A) I, II, III e IV. B) I, II e III, apenas. C) I, II e IV.</p><p>D) III e IV, apenas. E) II e III, apenas.</p><p>PERGUNTA 10</p><p>A jovem cientista de dados, tendo em mãos os dados que lhe foram passados</p><p>pelo gerente do banco, precisou denominá-los corretamente para a fase de treino</p><p>(ajuste) do algoritmo preditivo. Ela escolheu a regressão logística como seu algoritmo</p><p>preditivo, para classificar o potencial (a probabilidade) de uma pessoa ficar ou não</p><p>inadimplente com o pagamento das faturas do cartão de crédito.</p><p>Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)</p><p>Falsa(s).</p><p>() A jovem cientista de dados escolheu como variável resposta a renda mensal da</p><p>pessoa, e tratou as demais variáveis como variáveis de entrada.</p><p>() A jovem cientista de dados escolheu o gasto médio mensal da pessoa com cartão</p><p>de crédito como a variável resposta, e tratou as demais como variáveis de entrada.</p><p>( ) A jovem cientista de dados não definiu qualquer das quatro variáveis como a</p><p>variável resposta, e decidiu realizar uma análise baseada em aprendizagem não</p><p>supervisionada.</p><p>() A jovem cientista de dados escolheu como variável resposta se a pessoa havia, ao</p><p>longo do período pesquisado, ficado inadimplente com o pagamento das faturas do</p><p>cartão ao menos uma vez (Sim ou Não), e tratou as demais variáveis como variáveis</p><p>de entrada.</p><p>Assinale a alternativa que apresenta a sequência correta.</p><p>A) F, F, F, V. B) F, V, V, F. C) V, V, F, F. D) F, F, V, V. E) F, V, F, V.</p><p>UNIDADE 3</p><p>Introdução</p><p>Sabemos que, a partir de um conjunto de dados, o qual chamamos de</p><p>amostra, podemos desenvolver algoritmos preditivos e aplicá-los a situações da</p><p>vida.</p><p>Especificamente, aplicamos modelos de regressão linear na predição do valor</p><p>de imóveis (apartamentos) em função da sua área, do seu andar e da sua</p><p>localização. Nesse caso, a variável resposta era quantitativa. Também aplicamos</p><p>modelos preditivos para o caso em que a variável resposta é qualitativa, o que</p><p>chamamos de problemas de classificação. Fizemos isso com modelos de</p><p>regressão logística e aplicamos este tipo de modelo para a predição da</p><p>inadimplência com cartões de crédito em função da renda da pessoa, seus</p><p>gastos mensais com o cartão e se ela tinha ou não um emprego estável.</p><p>Aqui, veremos um outro tipo de modelo preditivo, as árvores de decisão.</p><p>Aplicaremos árvores de decisão a um outro exemplo de problema de</p><p>classificação. Faremos a predição do volume de vendas de um produto de</p><p>varejo.</p><p>Visão Geral Sobre Aprendizagem Supervisionada</p><p>Já tivemos uma discussão inicial sobre o que são métodos de</p><p>aprendizagem supervisionada e não supervisionada. Também vimos quais são</p><p>os dois tipos mais importantes dos métodos de aprendizagem supervisionada.</p><p>Vamos, aqui, caminhar um pouco mais sobre esse assunto, procurando ampliar</p><p>a sua visão sobre esses métodos de aprendizagem.</p><p>Problemas de Regressão e de Classificação</p><p>Quando falamos sobre aprendizagem supervisionada, dois tipos de</p><p>problemas são considerados principais: regressão e classificação. A diferença</p><p>entre eles está centrada no conceito de variáveis quantitativas e variáveis</p><p>qualitativas. Variáveis quantitativas referem-se a coisas que são medidas, tais</p><p>como comprimento (metros), massa (quilos), temperatura (Kelvin), valor</p><p>monetário de coisas que compramos (R$) e assim por diante. Variáveis</p><p>qualitativas, às vezes chamadas de variáveis categóricas, na estatística, referem-</p><p>se à qualidade das coisas, e, assim, não são coisas que se possa medir, mas são</p><p>coisas que se consegue contar. Por exemplo, em uma sala de aula podemos ter</p><p>um certo número de alunas e de alunos. A variável qualitativa aqui é o sexo do</p><p>aluno, que pode assumir dois valores (também chamados de níveis ou classes):</p><p>feminino ou masculino. Ao observarmos a sala, podemos contar quantas alunas</p><p>há, e fazer o mesmo para os alunos. Outro exemplo seria um hospital, onde</p><p>observamos os pacientes e os classificamos por gravidade da doença. Por</p><p>exemplo, a gravidade da doença pode assumir cinco valores (que também</p><p>chamamos de níveis ou classes): sem gravidade, baixa gravidade, média</p><p>gravidade, alta gravidade e altíssima gravidade. Essa classificação é feita pelos</p><p>profissionais de saúde do hospital, que analisam as condições clínicas de cada</p><p>paciente e os classificam em termos da gravidade da sua doença. Depois que</p><p>cada paciente é classificado dessa forma, podemos contar quantos há para cada</p><p>um dos níveis de gravidade da doença.</p><p>Problemas ditos de regressão são aqueles em que a variável resposta é</p><p>quantitativa, e problemas de classificação são aqueles em que a variável</p><p>resposta é qualitativa. Vamos ver alguns exemplos de cada um para fixarmos</p><p>melhor esses conceitos.</p><p>Problemas de regressão</p><p>a. Predição do valor de um imóvel em função da sua área, do seu andar e da</p><p>sua localização. Este foi o exemplo que vimos na Unidade 1. Importante</p><p>destacar que, havendo dados, podemos aumentar o número de variáveis</p><p>de entrada, incluindo outras, como o número de vagas de garagem, o</p><p>número de banheiros, tipo da área de lazer (vários tipos, com ou sem</p><p>churrasqueira, com ou sem piscina, com ou sem quadra poliesportiva</p><p>etc.). Algumas empresas já usam algoritmos preditivos para avaliar preço</p><p>de imóveis. Podemos citar, como exemplo provável, a empresa Quinto</p><p>Andar, bastante avançada tecnologicamente nos seus processos de</p><p>negócio.</p><p>b. Predição da redução de massa corporal em função da dieta alimentar e</p><p>prática de atividades físicas. Este foi o exemplo que vimos no Pratique e</p><p>Compartilhe da Unidade 1. Aqui também podemos incluir outras variáveis</p><p>de entrada, tais como o sexo, a idade da pessoa dividida em faixas etárias,</p><p>a etnia, a região em que mora etc.</p><p>c. Predição da performance atlética de um jogador profissional de futebol</p><p>(ou outro esporte qualquer) em função da sua dieta alimentar e da sua</p><p>rotina de treinos aeróbicos e anaeróbicos. Aqui também podemos incluir</p><p>outras variáveis de entrada, tais como frequência média de jogos por</p><p>semana (que, se muito alta, causa desgaste físico), número de lesões nos</p><p>últimos seis meses (que afeta a performance atlética dos jogadores),</p><p>variáveis biométricas (altura, peso, idade etc.). Este campo é chamado de</p><p>estatística esportiva, e não se limita ao estudo da performance dos atletas</p><p>e também pode ser aplicado ao estudo de táticas de jogo, por exemplo. É</p><p>um campo em crescimento no mundo inteiro, havendo muitas</p><p>oportunidades para a aplicação da estatística e da ciência dos dados.</p><p>d. Predição da resistência à tração de uma liga metálica, em um ensaio de</p><p>tração em corpos de prova, em função da sua composição, granulometria</p><p>e condições gerais do processo de fabricação da liga. Este é um problema</p><p>típico da engenharia, em que problemas de regressão são muito comuns.</p><p>Na engenharia e na física, é comum lidarmos com problemas em que a</p><p>variável resposta é quantitativa, mas também há outros em que a variável</p><p>resposta é qualitativa (categórica).</p><p>e. Predição da taxa de mortalidade anual por melanoma maligno em função</p><p>da latitude. No livro Biostatistics — A Methodology for the Health Science</p><p>(BELLE et al., 2004, p. 291–300), você encontra um exemplo de estudo em</p><p>que foi possível ajustar um modelo de regressão linear simples à relação</p><p>entre a latitude — quanto menor a latitude de uma determinada região,</p><p>maior a incidência de raios solares naquela região — e a taxa de</p><p>mortalidade anual por melanoma maligno.</p><p>São muitos outros exemplos de problemas de regressão, e nunca terminaríamos</p><p>essa nossa lista se tentássemos incluir todos os exemplos possíveis — estão</p><p>presentes em praticamente todas as áreas da atividade humana: medicina,</p><p>engenharia, economia, contabilidade, botânica, sociologia, geologia, direito etc.</p><p>Problemas de classificação</p><p>a. Predição de inadimplência com cartões de crédito em função da renda da</p><p>pessoa, seus gastos mensais com o cartão de crédito e se ela tinha ou não</p><p>um emprego estável. Fizemos isso com modelos de regressão logística na</p><p>Unidade 2. Este é um problema de classificação, em que a predição é da</p><p>probabilidade de a pessoa ficar inadimplente. Também vimos na Unidade</p><p>2 que há outros tipos de classificadores que, em vez de fazerem a predição</p><p>de uma probabilidade para uma das classes da variável resposta, fazem a</p><p>predição direta da classe. Por exemplo, neste exemplo do estudo de</p><p>inadimplência com o cartão, esse tipo de classificador simplesmente diria</p><p>se uma determinada pessoa ficaria ou não inadimplente. Ele classificaria</p><p>cada pessoa em uma das duas classes possíveis, adimplente ou</p><p>inadimplente, e não a sua probabilidade de ficar inadimplente, como</p><p>fazem os modelos de regressão logística.</p><p>b. Predição de falha de um componente estrutural em função da</p><p>temperatura. Este foi o exemplo dado no Pratique e Compartilhe da</p><p>Unidade 2. Discutimos lá o famoso caso do acidente com o ônibus espacial</p><p>Challenger, para o qual aplicamos um modelo de regressão logística, que</p><p>consegue predizer a probabilidade de falha dos anéis de vedação dos</p><p>foguetes de propelente sólido em função da temperatura na hora do</p><p>lançamento do Space Shuttle. Esse caso foi intensamente estudado, e</p><p>todos dados e discussões sobre ele estão amplamente difundidos na</p><p>literatura técnica mundial. Ou seja, é um caso de domínio público.</p><p>c. Predição de se a pessoa é diabética, em função de dados gerais sobre seu</p><p>quadro clínico. Um classificador pode ser alimentado com dados</p><p>históricos armazenados em um banco de dados sobre pessoas sem e com</p><p>diabetes. Com esses dados, ele aprenderá a fazer uma predição de se a</p><p>pessoa é ou não diabética. Há muitas aplicações desse tipo na área da</p><p>saúde, e são particularmente importantes em estudos de saúde pública,</p><p>e valiosos também como ferramenta auxiliar no diagnóstico aplicado a</p><p>pessoas com suspeita de estarem doentes; podem ser usados para</p><p>quaisquer tipos de doença. Para isso precisamos, basicamente, contar</p><p>com dados suficientes para treinar o algoritmo.</p><p>d. Predição de se uma determinada ação negociada na bolsa de valores</p><p>subirá ou descerá no pregão de um determinado dia, em função dos</p><p>resultados de subida ou queda de todas as ações negociadas no pregão</p><p>do dia anterior e de alguma notícia relevante nos âmbitos político ou</p><p>econômico, publicada nas primeiras horas do dia em questão, em jornais</p><p>de grande circulação. Este é um algoritmo dos sonhos de muitos</p><p>investidores, pois ficariam ricos com ele. E, na verdade, se considerarmos</p><p>todas grandes corretoras operando no Brasil ou no mundo, elas já contam</p><p>com algoritmos de alta performance que fazem esse tipo de predição. São</p><p>chamados de robôs (são robôs virtuais), e, como competem arduamente</p><p>entre si, não fica tão fácil acertarem sempre, pois os movimentos de um</p><p>são monitorados pelos outros. Mas essas corretoras têm uma vantagem</p><p>competitiva clara em comparação com investidores pequenos, que não</p><p>têm tais algoritmos preditivos à sua disposição.</p><p>e. Predição de se um e-mail que chega à sua caixa de entrada é ou não um</p><p>spam. Ser ou não ser um spam é uma variável qualitativa dicotômica.</p><p>Graças a algoritmos de classificação, que ficam vigiando os e-mails que</p><p>chegam à sua caixa de entrada, vários deles são classificados como spam</p><p>e armazenados em um arquivo específico. Dessa forma previne-se que a</p><p>sua caixa fique cheia com e-mails que são meros spams. Porém, como já</p><p>dissemos, todos algoritmos têm uma certa taxa de falha. É por isso que os</p><p>spams não são simplesmente descartados; eles ficam armazenados em</p><p>uma pasta, para a eventualidade de você querer se certificar de que</p><p>houve ou não um engano na classificação de alguns deles e poder</p><p>transferi-los, no caso de equívoco de classificação, para a sua caixa de</p><p>entrada.</p><p>Aqui também nossa lista não terminaria nunca, pois são infinitas as</p><p>possibilidades de aplicação de algoritmos de classificação. Para encerrar esta</p><p>seção, vamos lembrar que, assim como os seres humanos, esses algoritmos</p><p>erram — tanto os de regressão quanto os de classificação. A sua performance</p><p>preditiva depende de fatores como: os dados disponíveis para o seu treino, em</p><p>quantidade e qualidade; do próprio jeito de funcionar do algoritmo, pois cada</p><p>um tem suas particularidades; e dos critérios usados para medir sua</p><p>performance preditiva nas fases de treino e de teste. Além disso, se o fenômeno</p><p>ou processo estudado mudar com o tempo, naturalmente a performance</p><p>preditiva dos algoritmos treinados e testados com dados anteriores tende a</p><p>piorar. Eles precisam ser, nessas situações, treinados periodicamente.</p><p>Aprendizagem de Máquina e Aprendizagem Profunda</p><p>Como já discutimos, a estatística influenciou e foi influenciada pela ciência</p><p>da computação e pela ciência dos dados, com vantagens mútuas para todas</p><p>essas áreas do conhecimento humano. Especificamente quanto à influência</p><p>exercida pela ciência da computação, é dela que herdamos a denominação</p><p>“aprendizado de máquina”, em inglês, machine learning (ML). Essa área, pouco</p><p>a pouco, foi mostrando-se muito poderosa, e mesmo técnicas já desenvolvidas</p><p>anteriormente pela estatística passaram a ser classificadas conforme os jargões</p><p>criados pela área de aprendizado de máquina. Machine learning é considerado</p><p>um subcampo da grande área de estudos de IA — inteligência artificial.</p><p>Algoritmos de aprendizagem de máquina nos permitem tratar de</p><p>problemas que seriam difíceis de tratar por regras criadas por seres humanos,</p><p>mas que, curiosamente, ficam relativamente fáceis de serem tratados por</p><p>algoritmos criados pelos seres humanos. Esses problemas também são</p><p>chamados de tarefas de aprendizado de máquina e não se limitam àqueles já</p><p>abordados aqui. Com o intuito de reforçar seu entendimento sobre essas</p><p>tarefas, apresentamos adiante uma lista de algumas dessas tarefas, com mais</p><p>tipos de tarefas do que já havíamos discutido antes:</p><p>• Regressão: Já vimos como modelos de regressão funcionam — capazes</p><p>de predizer valores para variáveis resposta quantitativas.</p><p>• Classificação: Também já vimos como modelos de classificação</p><p>funcionam — capazes de predizer uma classe da variável resposta ou a</p><p>probabilidade de aquela classe acontecer.</p><p>• Classificação com dados faltantes: Imagine que você esteja analisando</p><p>dados relativos a 100 pacientes de um hospital, e para cada um deles você</p><p>coleta informações sobre 20 variáveis (idade, peso, pressão, índice</p><p>glicêmico etc.). Pode acontecer que, para alguns deles, você não encontre</p><p>todas as 20 informações, e, neste caso, algumas delas estarão faltando na</p><p>tabela final com os dados desses 100 pacientes. Este tipo de tarefa de</p><p>classificação é mais difícil de ser resolvido, quando faltam alguns dados</p><p>para algumas das observações, mas isso é comum.</p><p>• Transcrição: Neste tipo de tarefa, pede-se que o algoritmo de</p><p>aprendizado de máquina transcreva um conjunto de dados não tão bem</p><p>estruturados em uma forma discreta bem estruturada.</p><p>• Tradução: Em tradução, chamada de tradução de máquina, a entrada é</p><p>uma sequência de símbolos escritos em alguma linguagem natural. Pede-</p><p>se que o algoritmo converta essa sequência em uma sequência de</p><p>símbolos de outra linguagem natural. Linguagens naturais são as</p><p>linguagens faladas por seres humanos.</p><p>Um outro tipo de aprendizado de máquina é a chamada aprendizagem</p><p>profunda, em inglês deep learning (DL). Segue muitos dos paradigmas dos</p><p>algoritmos de aprendizado de máquina já descritos, porém com uma grande</p><p>distinção: usa como modelos as redes neurais. Esses modelos de redes neurais</p><p>foram inicialmente desenvolvidos para emular a inteligência humana,</p><p>constituindo-se de um dos campos da chamada IA — inteligência artificial; em</p><p>inglês AI — artificial intelligence. Pouco a pouco deixaram de tentar reproduzir</p><p>a arquitetura biológica do cérebro humano e ganharam independência, sendo</p><p>usados como algoritmos de aprendizagem em situações em que os algoritmos</p><p>tradicionais de aprendizado de máquina não têm boa performance,</p><p>particularmente nos campos de visão computacional (CV — computer vision) e</p><p>processamento de linguagem natural. De alguns anos para cá, as redes neurais</p><p>vêm rompendo barreiras e conquistando o mundo com aplicações dessa</p><p>natureza. Os algoritmos que têm como base redes neurais são chamados de</p><p>aprendizagem profunda por serem construídos em várias camadas. Quanto mais</p><p>camadas, mais profunda é a aprendizagem.</p><p>Algoritmos de deep learning não serão estudados aqui, mas é importante</p><p>você saber que existem e que estão ao seu lado o tempo todo, no seu dia a dia,</p><p>tais como quando usamos tradutores de textos ou em situações de</p><p>reconhecimento facial, ao sermos identificados visualmente. Por trás dessas</p><p>câmeras, há um desses algoritmos nos vigiando.</p><p>Vamos Praticar</p><p>Uma rede neural artificial (ou rede neural) é um modelo preditivo</p><p>motivado pela forma como o cérebro funciona. Pense no cérebro como uma</p><p>coleção de neurônios conectados. Cada neurônio olha para a saída de outros</p><p>neurônios que o alimentam, faz um cálculo e, então, dispara (se o cálculo</p><p>exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver</p><p>uma variedade de problemas como reconhecimento de caligrafia e detecção</p><p>facial, e elas são muito usadas em deep learning (aprendizado profundo), uma</p><p>das subáreas mais populares de data science. Entretanto, a maioria das redes</p><p>neurais são “caixas-pretas” — inspecionar seus detalhes não lhe fornece muito</p><p>entendimento de como elas estão resolvendo um problema. E grandes redes</p><p>neurais podem ser difíceis de treinar. Para a maioria de problemas que você</p><p>encontrará como um cientista de dados, elas provavelmente não são a melhor</p><p>opção [...]</p><p>Está correto o que se afirma em:</p><p>a) Redes neurais possuem alta interpretabilidade.</p><p>b) Grandes redes neurais são fáceis de ser treinadas.</p><p>c) Redes neurais não consistem em neurônios artificiais</p><p>d) Redes neurais servem para reconhecimento de caligrafia e detecção facial.</p><p>e) Redes neurais não são modelos de aprendizagem profunda (deep learning).</p><p>Estudo de Caso: Volume de Vendas de um Produto de Varejo</p><p>Nesta seção descreveremos um caso em que árvores de decisão são</p><p>usadas para predizer o volume de vendas de um produto de varejo — uma</p><p>boneca falante. Também aqui, duas personagens nos ajudarão com isso. Uma</p><p>delas é a gerente comercial do fabricante dessa boneca, e a outra é uma</p><p>economista especializada no mercado varejista, que domina ferramentas</p><p>estatísticas. Vamos ver o que elas têm a nos contar.</p><p>Árvores de Decisão para Regressão e Classificação</p><p>Árvores de decisão são muito usadas nos campos da economia,</p><p>administração, pesquisa operacional, engenharia e ciência dos dados. A forma</p><p>de usar árvores de decisão nesses campos varia ligeiramente. Vamos ver aqui</p><p>como elas são usadas na ciência dos dados e na estatística.</p><p>Figura 3.1 - Árvore de decisão ajustada aos valores dos imóveis</p><p>Na ciência de dados, árvores de decisão são usadas como algoritmos</p><p>preditivos, tanto para variáveis quantitativas — problemas de regressão —</p><p>quanto para variáveis qualitativas — problemas de regressão. Começaremos</p><p>vendo como elas funcionam quando aplicadas a problemas de regressão. Para</p><p>isso, vamos usar os dados relativos aos valores dos imóveis da Unidade 1.</p><p>Selecionamos aleatoriamente metade daqueles dados e, com a ajuda do</p><p>software estatístico R, obtivemos a árvore exibida na Figura 3.1.</p><p>O ponto forte das árvores de decisão é sua fácil interpretabilidade.</p><p>Normalmente elas são exibidas de cabeça para baixo, como essa da Figura 3.1.</p><p>De cima para baixo, há um primeiro nó, que se bifurca em dois ramos, e nós</p><p>intermediários, sempre com dois ramos, até chegarmos aos nós terminais, as</p><p>folhas da árvore. Nos nós terminais, há a predição da variável resposta. Neste</p><p>exemplo, são as predições para os valores dos apartamentos. Você lembra bem</p><p>quais eram as variáveis de entrada: a área do apartamento (em metros</p><p>quadrados), seu andar (1, 2, 3, …) e sua localização (Bairro = 0 ou Centro = 1).</p><p>A leitura da árvore se faz da seguinte forma:</p><p>• Começamos no nó superior. Lá encontramos a área do imóvel como</p><p>sendo a variável mais importante, neste estágio, que a árvore considerou</p><p>para a predição do valor do apartamento. Se o valor for igual ou superior</p><p>a 73,6 metros quadrados, caminhamos pelo ramo à direita, e o valor</p><p>estimado para o apartamento é de 448,8 mil reais.</p><p>• Caminhando pelo ramo à esquerda da partição do primeiro nó, que é</p><p>quando a área for menor que 73,6 metros quadrados, vemos que agora a</p><p>árvore não prediz um valor, porém indica um nó intermediário, no qual</p><p>está a segunda variável que ela, neste estágio, considera mais importante:</p><p>a localização do imóvel.</p><p>• Se a localização for no bairro (Bairro = 0), caminhamos pelo ramo à</p><p>esquerda do nó, e o valor estimado para o imóvel é de 390,4 mil reais.</p><p>• Se a localização for no centro (Centro = 1), também aqui a árvore não faz</p><p>uma estimativa do valor do imóvel, mas indica outro nó intermediário, no</p><p>qual está a terceira variável que ela considera, neste estágio, a mais</p><p>importante: o andar do imóvel.</p><p>• Se o andar for menor que 6,5, ou seja, igual ou menor que 6, caminhamos</p><p>pelo ramo à esquerda, e o valor estimado para o apartamento é de 319,2</p><p>mil reais.</p><p>• Se o andar for maior ou igual a 6,5, ou seja, igual ou maior que 7,</p><p>caminhamos pelo ramo à direita do nó, e o valor estimado para o</p><p>apartamento é de 366,5 mil reais.</p><p>O número de nós terminais é definido por quem está construindo a árvore — o</p><p>especialista, o estatístico ou o cientista de dados. Se for muito grande, a árvore</p><p>fica um pouco confusa e perde sua maior qualidade, que é a sua fácil</p><p>interpretabilidade.</p><p>Se for muito pequena, a predição pode ficar muito grosseira.</p><p>Há vários métodos e critérios de otimização da performance preditiva da árvore,</p><p>mas, aqui, o nosso interesse é apenas o de apresentar essas árvores de decisão</p><p>a você, mostrar como você deve “ler uma árvore de decisão”, e como elas são</p><p>aplicadas à ciência de dados. Lembre-se que, na estatística e na ciência dos</p><p>dados, essas árvores são um pouco diferentes daquelas usadas nos campos da</p><p>economia, administração, na engenharia etc. Aquelas têm nós de decisão — as</p><p>nossas, aqui, não têm esses nós de decisão; e, naquelas, os nós referentes às</p><p>alternativas probabilísticas podem ter mais que dois ramos — os nós inicial e</p><p>intermediários das nossas árvores só têm dois ramos.</p><p>Outro ponto a deixar mais claro é como caminhar pelos ramos da árvore.</p><p>Todos eles nascem de nós, ou do primeiro nó ou dos nós intermediário. Em cada</p><p>um deles, há uma variável de entrada, com seu domínio bipartido. Se a variável</p><p>desse nó for quantitativa, o valor da partição é um valor quantitativo. No ramo</p><p>esquerdo está a predição da variável resposta para valores menores que o valor</p><p>da partição, ou então outro nó intermediário; e no ramo direito está a predição</p><p>da variável resposta para valores maiores ou iguais que o da partição, ou outro</p><p>nó intermediário. Nos nós terminais sempre haverá a predição da variável</p><p>resposta — uma quantidade, se ela for quantitativa, ou uma classe (ou nível), se</p><p>ela for qualitativa.</p><p>Quando a partição no nó é feita para uma variável qualitativa, então os</p><p>níveis (ou classes) indicados à direita do nome da variável são aqueles do ramo</p><p>que se estende à esquerda do nó intermediário, e os níveis omissos são aqueles</p><p>do ramo que se estende à direita do nó intermediário. Com um pouco de prática</p><p>isso fica automático.</p><p>O exemplo de árvore que vimos aqui foi o de uma árvore de decisão</p><p>aplicada a um problema de regressão, em que a variável resposta é quantitativa.</p><p>As predições da árvore, que são os valores exibidos nos nós terminais, são os</p><p>valores estimados da variável resposta para a qual o modelo foi desenvolvido.</p><p>Uma árvore de decisão para classificação funciona da mesma forma, com a única</p><p>diferença sendo a variável resposta, que deve ser agora qualitativa. Para este</p><p>caso, os valores estimados da variável resposta serão seus níveis (ou classes),</p><p>também exibidos nos nós terminais da árvore. Isso será visto, na prática, no</p><p>estudo de caso desta unidade, que é o de predição de volume de vendas de um</p><p>produto de varejo, logo em seguida nesta unidade.</p><p>Reflita</p><p>Como as árvores são usadas: Um dos grandes obstáculos enfrentados</p><p>pelos modeladores preditivos nas organizações é a percebida natureza de</p><p>“caixa-preta” dos métodos que eles usam, o que eleva a oposição de outros</p><p>elementos da organização. Nesse sentido, os modelos de árvores têm dois</p><p>aspectos atraentes:</p><p>• Os modelos de árvores oferecem uma ferramenta visual para explorar os</p><p>dados, para obter uma ideia de quais variáveis são importantes e como se</p><p>relacionam umas com as outras. As árvores são capazes de capturar o</p><p>relacionamento não linear entre as variáveis preditoras.</p><p>• Os modelos de árvores oferecem um conjunto de regras que pode ser</p><p>efetivamente comunicado a não especialistas, seja para implementação</p><p>ou para “vender” um projeto de pesquisa de dados.</p><p>Quando se trata de previsão, no entanto, aproveitar os resultados de</p><p>múltiplas árvores costuma ser mais potente do que simplesmente usar uma</p><p>única árvore. Em especial, a floresta aleatória e os algoritmos de árvore boosted</p><p>sempre oferecem maior precisão e desempenho preditivos, mas as vantagens</p><p>anteriormente mencionadas de uma única árvore são perdidas.</p><p>Estudo de Caso: Produto de Varejo</p><p>Acima, você foi apresentado à árvore de decisão aplicada a um problema</p><p>de regressão. Agora, veremos a sua aplicação a um problema de classificação,</p><p>na predição de venda de um produto de varejo — uma boneca falante. A ideia</p><p>da gerente comercial da fábrica que a produzia era otimizar as vendas da</p><p>boneca. Para isso, ela tinha dados relativos ao volume de vendas em 200 pontos</p><p>comerciais, assim como dados relativos a diversos fatores que poderiam</p><p>influenciar nesse volume de vendas. Mas ela não sabia como destrinchar esses</p><p>dados. Felizmente tinha uma colega economista que era especialista em varejo.</p><p>Essa economista dominava técnicas estatísticas e já as havia usado, por diversas</p><p>vezes, na análise de dados e no desenvolvimento de modelos preditivos. Então,</p><p>combinaram que a gerente passaria todos os dados para ela, e assim foi feito.</p><p>As variáveis dessa base de dados eram, para cada ponto de venda:</p><p>Volume de vendas da boneca falante (em unidades por mês).</p><p>Preço da boneca falante (em reais).</p><p>Preço da boneca do concorrente mais forte (em reais).</p><p>Gasto com publicidade (em mil reais por mês).</p><p>Idade média da população local (em anos).</p><p>Local de exposição da boneca na loja (ruim, médio, bom).</p><p>A variável resposta de interesse é o volume de vendas, que, na base de</p><p>dados da gerente, era uma variável qualitativa. A economista era bastante</p><p>experiente e sabia que fazer algo mais simples inicialmente poderia ser</p><p>vantajoso. Então combinou com a gerente que discretizaria essa variável</p><p>qualitativa, o volume de vendas em unidades por mês, transformando-a em uma</p><p>variável qualitativa dicotômica, vendas altas ou baixas (Altas=1 e Baixas=0).</p><p>Assim, ela não usou como variável resposta a variável quantitativa volume de</p><p>vendas, em unidades vendidas por mês, mas, sim, no seu lugar, a variável</p><p>qualitativa vendas altas ou baixas.</p><p>Figura 3.2 - Transformando uma variável quantitativa em uma variável</p><p>qualitativa dicotômica</p><p>A economista organizou os dados cedidos pela gerente comercial em uma</p><p>tabela, conforme o Quadro 3.1. Neste quadro, temos alguns exemplos dos</p><p>dados coletados nos 200 pontos de venda durante um determinado mês.</p><p>PrecoCon</p><p>(reais)</p><p>GastosPu</p><p>(mil reais)</p><p>Preço</p><p>(reais)</p><p>LocalExp</p><p>(B, M e R)</p><p>Idade</p><p>Média</p><p>(anos)</p><p>Vendas</p><p>Altas (SIM</p><p>ou NAO)</p><p>315,00 32 287,50 Médio 37 SIM</p><p>350,00 23 347,50 Bom 50 SIM</p><p>235,00 30 192,50 Medio 41 SIM</p><p>302,50 0 332,50 Bom 63 NAO</p><p>290,00 34 360,00 Ruim 61 NAO</p><p>192,50 0 60,00 Medio 40 SIM</p><p>397,50 0 415,00 Médio 36 NÃO</p><p>... .... ... ... ... ...</p><p>277,50 0 302,50 Ruim 33 NÃO</p><p>332,50 0 210,00 Medio 40 SIM</p><p>Quadro 3.1 - Dados relativos a vendas da boneca falante</p><p>Com isso, ela já estava em condições de prosseguir para o próximo passo,</p><p>que era o de fazer uma análise descritiva dos dados antes de tentar desenvolver</p><p>um modelo preditivo.</p><p>Vamos Praticar</p><p>O vice-presidente de talentos da DataSciencester entrevistou um número</p><p>de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou</p><p>um conjunto de dados com vários atributos (qualitativos) de cada candidato,</p><p>bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar</p><p>esses dados para construir um modelo identificando quais candidatos farão</p><p>boas entrevistas, para que ele não precise perder tempo fazendo entrevistas?</p><p>Isso parece perfeito para uma árvore de decisão, outra ferramenta de</p><p>modelagem de previsão no kit de um cientista de dados.</p><p>Está correto o que se afirma em:</p><p>a) Não é possível usar árvore de decisão como modelo preditivo para este caso,</p><p>pois não é possível usar atributos como dados de entrada de uma árvore.</p><p>b) Árvores de decisão não podem ser usadas como modelos preditivos para esse</p><p>caso, pois o texto fala em previsão e não predição.</p><p>c) Para esse caso não é possível usar árvores de decisão como modelo preditivo;</p><p>só modelos preditivos com base em regressão logística.</p><p>d) Árvore de decisão não poderia ser usada como modelo preditivo para essa</p><p>situação, pois se sair bem ou mal é uma variável resposta qualitativa.</p><p>e) Árvores de decisão são, sim, uma boa alternativa como modelo preditivo para</p><p>saber qual candidato se sairia bem ou mal na entrevista de emprego.</p><p>Análise Descritiva dos Dados</p><p>Nesta seção, veremos como a economista, especializada em comércio de</p><p>varejo, fez a análise descritiva dos dados relativos às vendas da boneca falante,</p><p>em 200 pontos de vendas de um determinado mês.</p><p>Análise Descritiva de Cada Variável Individualmente</p><p>Ela começou examinando em quantos pontos de venda as vendas foram</p><p>altas. Para isso usou da função table() do software estatístico R aplicada à</p><p>variável indicativa de vendas altas ou baixas (variável VendasAltas no Quadro</p><p>3.1) e obteve o seguinte resultado:</p><p>NAO SIM</p><p>110 90</p><p>Logo percebeu que havia um grande potencial para aumento das vendas,</p><p>pois, na maior parte dos pontos de venda, as vendas foram baixas. A outra</p><p>variável qualitativa da sua amostra referia-se ao local de exposição da boneca</p><p>nas lojas (variável LocalExp no Quadro 3.1). Ela aplicou a função table() do R a</p><p>essa variável e obteve:</p><p>Bom Medio Ruim</p><p>45 114 41</p><p>Em seguida, decidiu examinar o preço praticado nesses 200 pontos de</p><p>vendas. Para isso, ela usou a função summary() do software estatístico do R</p><p>aplicada à variável preço da boneca falante (variável Preco no Quadro 3.1) e</p><p>obteve:</p><p>Min. 1st Qu. Median Mean 3rd Qu. Max.</p><p>60.0 249.4 297.5 291.7 330.6 477.5</p><p>Logo percebeu também que havia uma grande variação de preços</p><p>praticados por este fabricante, onde a sua colega trabalhava como gerente</p><p>comercial.</p><p>Aqui estamos vendo pela primeira vez o uso da função summary() do R, uma de</p><p>suas funções mais úteis. Quando aplicada a uma variável quantitativa contínua,</p><p>como é o caso aqui para o preço da boneca, seu output sempre aparece nesta</p><p>ordem:</p><p>1. o valor mínimo observado da variável em questão;</p><p>2. o valor que delimita a fronteira do primeiro quartil;</p><p>3. a mediana, que é a fronteira que delimita o segundo quartil;</p><p>4. a média (valor médio dos dados observado para a variável em questão);</p><p>5. o valor que delimita a fronteira do terceiro quartil;</p><p>6. o valor máximo observado da variável em questão.</p><p>Vamos explicar os quartis. Lembre-se de que foram coletados dados de</p><p>preços de venda praticados em 200 pontos de venda em um determinado mês.</p><p>O primeiro quartil delimita a fronteira até qual estão contidos 25% (um quarto)</p><p>dos 200 preços amostrados. Este valor é 249,20 reais. A mediana é igual à</p><p>fronteira que delimita o segundo quartil, ou seja, o valor até qual estão contidos</p><p>50% (dois quartos) dos 200 preços amostrados. Finalmente, o terceiro quartil</p><p>delimita a fronteira até qual estão contidos 75% (três quartos) dos 200 preços</p><p>amostrados.</p><p>A nossa economista resolveu então analisar o preço do concorrente e</p><p>aplicou a função summary() do R à variável relativa ao preço da boneca do maior</p><p>concorrente (variável PrecoCon no Quadro 3.1) e obteve:</p><p>Min. 1st Qu. Median Mean 3rd Qu. Max.</p><p>192.5 290.0 313.8 314.3 338.1 437.5</p><p>Percebeu que os preços da boneca do maior concorrente variavam menos</p><p>que os da sua boneca, porém o preço médio da sua boneca (igual a R$291,77)</p><p>era menor que o da boneca do concorrente (igual a R$314,30). Isso certamente</p><p>contribui para vendas mais altas.</p><p>Finalmente, ela realizou análise similar relativamente às variáveis de</p><p>idade média da população local e de gastos com publicidade, mas resolveu que</p><p>seria melhor concentrar sua atenção na relação dessas variáveis com vendas</p><p>altas. Acreditava que esta análise traria informações mais interessantes. É isto</p><p>que veremos na seção a seguir.</p><p>Análise Descritiva da Relação entre as Variáveis</p><p>A primeira relação que a economista decidiu examinar foi a de vendas</p><p>altas (sim ou não) versus o preço da boneca. Como se trata da relação entre uma</p><p>variável qualitativa e uma quantitativa, já vimos que boxplot é uma ótima opção</p><p>para retratar essa relação. Foi isso que a economista fez, e obteve o gráfico</p><p>exibido na Figura 3.3.</p><p>Figura 3.3 - Efeito do preço nas vendas</p><p>Aparentemente, há um efeito do preço no volume de vendas, mas não</p><p>parece ser tão forte assim para os dados observados. Em seguida ela passou a</p><p>examinar a relação entre vendas altas (sim ou não) e os gastos com publicidade</p><p>(em mil reais) no mês em questão. Novamente, usou a função gráfica boxplot()</p><p>do R e obteve o gráfico exibido na Figura 3.4.</p><p>Figura 3.4 - Efeito dos gastos com publicidade nas vendas</p><p>Parece haver um efeito dos gastos com publicidade no volume de vendas da</p><p>boneca mais acentuado que o efeito do preço.</p><p>Finalmente, nesta fase de exame de relações entre variáveis, ela</p><p>investigou a relação entre vendas altas (sim ou não) e o local de exposição da</p><p>boneca nas lojas (bom, médio e ruim). Agora são duas variáveis qualitativas:</p><p>uma dicotômica (com dois níveis) e a outra tricotômica (com três níveis ou</p><p>classes). Para investigar essa relação, a economista começou com a função</p><p>table() do R e obteve:</p><p>VendasAltas</p><p>LocalExp NAO SIM</p><p>Bom 9 36</p><p>Medio 68 46</p><p>Ruim 33 8</p><p>Essa tabela que resultou da aplicação da função table() do R a essas duas</p><p>variáveis indica que há um forte efeito do local de exposição no volume de</p><p>vendas. Veja que 36 pontos de venda, do total de 9 + 36 = 45 pontos de vendas</p><p>em que as bonecas estavam expostas em uma boa posição na loja, as vendas</p><p>foram altas. Em outras palavras, nesses pontos em que a boneca estava bem</p><p>posicionada na loja, 80% deles tiveram vendas altas. Por outro lado, em 8 pontos</p><p>de venda, do total de 33 + 8 = 41 pontos de vendas em que as bonecas estavam</p><p>expostas em uma posição ruim na loja, as vendas foram baixas. Em outras</p><p>palavras, dos pontos em que a boneca estava mal posicionada na loja, só 19,5%</p><p>tiveram vendas altas.</p><p>Figura 3.5 - Efeito do local de exposição nas vendas</p><p>Isso pode ser visto graficamente por meio da função gráfica mosaicplot()</p><p>do R. Foi isso que a nossa economista fez, obtendo o gráfico exibido na Figura</p><p>3.5. Esta figura é autoexplicativa e está em consonância com o resultado já</p><p>discutido da função table() do R.</p><p>Ao chegar a esse ponto, a nossa economista decidiu já estar em condições</p><p>de tentar desenvolver seu modelo preditivo para esta situação, para o que ela</p><p>também já havia decidido usar árvores de decisão para classificação, já que a</p><p>variável resposta era qualitativa (vendas altas, sim ou não), e as árvores</p><p>permitem fácil interpretação.</p><p>Vamos Praticar</p><p>O quadro típico para uma análise em ciência de dados é um objeto de dados</p><p>retangulares, como uma planilha ou tabela de banco de dados. Dado retangular</p><p>é basicamente uma matriz bidimensional com linhas indicando registros (caso)</p><p>e colunas indicando características (variáveis). Os dados nem sempre começam</p><p>dessa forma: dados não estruturados (por exemplo, texto) devem ser</p><p>processados e tratados de modo a serem representados como um conjunto de</p><p>características nos dados retangulares.</p><p>Está correto o que se afirma em:</p><p>a) É impossível converter dados não estruturados em representações</p><p>estruturadas para que possam ser analisados pela ciência dos dados.</p><p>b) Dados retangulares não são uma forma típica de organização de dados para</p><p>análise em ciência dos dados.</p><p>c) Textos são dados estruturados, pois sempre vêm em estruturas bem</p><p>padronizadas, como aquelas que estudamos em gramática.</p><p>d) Dados retangulares, dados tabulares ou dados estruturados são termos</p><p>usados como sinônimos na ciência dos dados.</p><p>e) Dados de séries temporais, dados espaciais e dados de redes também são</p><p>exemplos de dados retangulares.</p><p>Predições com Árvore de Decisão para Classificação</p><p>Nesta seção veremos a aplicação de árvores de decisão aos dados de</p><p>volume de vendas da boneca falante, um produto de varejo. Será a nossa</p><p>personagem economista, especializada em comércio de varejo e experiente no</p><p>uso de técnicas da ciência dos dados, que desenvolverá esta aplicação.</p><p>Predição do Volume de Vendas de Produto de Varejo</p><p>Na Seção 2.1 vimos a aplicação de uma árvore de decisão a um problema</p><p>de regressão. Aqui usaremos essas árvores na predição do volume de vendas de</p><p>um produto de varejo, as bonecas falantes. Como a economista decidiu</p><p>transformar volume de vendas, uma variável quantitativa, em vendas altas ou</p><p>baixas, uma variável qualitativa dicotômica, a nossa árvore será uma árvore de</p><p>decisão de classificação.</p><p>Figura 3.6 - Árvore de decisão ajustada às vendas do produto de varejo</p><p>Ao fazer o ajuste do modelo de uma árvore de decisão de classificação aos</p><p>dados que lhe foram fornecidos pela colega gerente comercial da fábrica das</p><p>bonecas, a nossa economista obteve como resultado a árvore exibida na Figura</p><p>3.6. Já sabemos como interpretar essa árvore, então, mãos à obra:</p><p>• O primeiro nó exibe a variável que a árvore considerou mais importante.</p><p>Aqui, o local de exposição do produto. Os níveis médio e ruim se referem</p><p>àqueles para o ramo da esquerda. Portanto, no ramo da direita está o</p><p>nível bom para o local de exposição da boneca. Caminhando por este</p><p>ramo, vemos que o próximo nó, um nó intermediário, exibe a variável</p><p>preço. Se o preço ficar abaixo de 356,50 reais, as vendas serão altas. Se o</p><p>preço ficar acima de 356,50 reais, as vendas serão baixas.</p><p>• Partindo do nó inicial, se o local de exposição da boneca for ruim ou</p><p>médio, devemos caminhar pelo ramo esquerdo, até encontrarmos a</p><p>variável preço. Se o preço for menor que 242,25 reais, o ramo esquerdo</p><p>chega a um nó terminal com a predição de vendas altas para a boneca</p><p>nessas condições (local de exposição médio ou ruim, porém preço abaixo</p><p>de 242,25 reais).</p><p>• Voltando ao nó inicial, e ainda no cenário em que o local de exposição da</p><p>boneca é ruim ou médio, devemos caminhar pelo ramo esquerdo e</p><p>encontraremos novamente o preço. Vamos ver agora qual a predição se</p><p>o preço, neste nó intermediário, for maior ou igual a 242,25 reais. Neste</p><p>caso devemos caminhar pelo ramo à direita, até encontrarmos a variável</p><p>gastos com publicidade. Se, nessas condições, os gastos com publicidade</p><p>estiveram abaixo de 78 mil reais ao mês, as vendas serão baixas. Porém,</p><p>se os gastos com publicidade forem maior ou igual a 78 mil reais ao mês,</p><p>encontraremos no ramo da direita a variável idade média da população</p><p>local.</p><p>• Continuando deste ponto, se a idade média for abaixo de 44 anos, ou seja,</p><p>uma população relativamente jovem com vários adultos com crianças que</p><p>demandam brinquedos e bonecas, aí as vendas serão altas. Porém, se a</p><p>idade média for maior ou igual a 44 anos, neste caso as vendas serão</p><p>baixas.</p><p>Bem, é dessa forma que uma árvore de decisão faz predições. No caso</p><p>aqui estudado, predições dos valores de uma variável qualitativa dicotômica —</p><p>vendas altas ou baixas para um produto de varejo. A nossa economista elaborou</p><p>um relatório e comunicou esses resultados à sua colega gerente comercial, que</p><p>percebeu ter, agora, uma ferramenta muito boa para saber como otimizar as</p><p>vendas desse seu produto. E ficou muito feliz com isso!</p><p>Teste da Performance Preditiva do Modelo</p><p>Mas o nosso caso não termina aqui. As duas combinaram testar o modelo</p><p>com novos dados. A gerente tinha consigo dados relativos ao mês seguinte, em</p><p>que as condições do mercado estavam idênticas às do mês para o qual a árvore</p><p>foi treinada.</p><p>Para fazer esse teste, a economista simplesmente usou a função table()</p><p>do R, aplicando-a aos resultados corretos de vendas altas e baixas naquele mês</p><p>e aos valores altos e baixos preditos pela árvore para aquele mesmo mês, e</p><p>obteve o seguinte resultado:</p><p>pred NAO SIM</p><p>NAO 91 35</p><p>SIM 19 55</p><p>Vamos ler esse resultado. São duas as linhas dessa matriz, NAO e SIM, que</p><p>se referem às predições feitas pela árvore quando alimentada como os novos</p><p>dados relativos aos 200 pontos de vendas. Na linha do NAO, ou seja, vendas</p><p>baixas, a árvore acertou ao estimar 91 pontos comerciais com vendas baixas,</p><p>mas errou ao dizer que 35 desses pontos comerciais tiveram vendas baixas, pois</p><p>na verdade esses pontos tiveram vendas altas. Na linha do SIM, ou seja, predição</p><p>de vendas altas, a árvore acertou ao dizer que 55 desses pontos comerciais</p><p>tiveram vendas altas, mas errou ao dizer que 19 desses pontos tiveram vendas</p><p>altas, pois na verdade eles tiveram vendas baixas. Do total de 200 predições que</p><p>ela fez, acertou 91 + 55, levando a uma acurácia de (91 + 55) / 200 = 0,73 ou</p><p>73%. Não é uma performance excelente, mas já é boa o suficiente para ajudar a</p><p>gerente comercial. A economista sabia como aumentar a capacidade preditiva</p><p>dessas árvores, com algoritmos chamados de florestas randômicas, que são</p><p>muitas árvores funcionando ao mesmo tempo. Mas isso ficará para uma outra</p><p>oportunidade!</p><p>Só mais uma observação. Se você achou um pouco difícil interpretar essa</p><p>matriz que mede a performance preditiva de um classificador determinístico,</p><p>como a das árvores de decisão para classificação, não se assuste. Todos temos</p><p>essa mesma dificuldade — é daí que o nome oficial dessa matriz é “matriz de</p><p>confusão”.</p><p>Vamos Praticar</p><p>Os modelos de árvores, também chamados de Árvores de Classificação e</p><p>Regressão, árvores de decisão ou apenas árvores, são um método de</p><p>classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo</p><p>Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais</p><p>potentes, florestas aleatórias e boosting, formam a base das ferramentas de</p><p>modelagem preditiva mais potentes e amplamente usadas na ciência de dados</p><p>tanto para regressão quanto para classificação.</p><p>Quanto a este assunto de árvores de decisão para classificação e</p><p>regressão, analise as afirmativas a seguir:</p><p>i. Uma árvore faz partição recursiva das variáveis de entrada, selecionando</p><p>uma de cada vez, de forma hierárquica, das mais importante às menos</p><p>importantes, a cada estágio da sua construção, até chegar aos nós</p><p>terminais, suas folhas, que exibem os valores estimados para a variável</p><p>resposta.</p><p>ii. A cada estágio da construção da árvore, o nó inicial e depois os nós</p><p>intermediários dividem o domínio da variável de entrada em questão, de</p><p>onde bifurcam os seus ramos para a esquerda e para a direita. Os valores</p><p>exibidos no nó indicam como se deve ler a árvore, ao se caminhar pelos</p><p>ramos à esquerda ou à direita do nó em questão.</p><p>iii. Em cada um dos nós intermediários, assim como no nó inicial, há um valor</p><p>quantitativo ou qualitativo, que representa o valor escolhido pela árvore</p><p>para fazer a partição da variável tratada naquele estágio da construção da</p><p>árvore.</p><p>iv. Em árvores de decisão de classificação ou regressão, folha é um termo</p><p>que designa os nós terminais das árvores, nos quais são exibidos os</p><p>valores estimados para a variável resposta do modelo preditivo. Cada</p><p>caminho da árvore indica, dessa forma, o valor a estimar para aqueles</p><p>valores das variáveis de entrada informadas no caminho do nó inicial até</p><p>a folha.</p><p>Está correto o que se afirma em:</p><p>a) II, III e IV, apenas.</p><p>b) II e III, apenas.</p><p>c) III e IV, apenas.</p><p>d) I, II, III e IV.</p><p>e) I, II e III, apenas.</p><p>Conclusão</p><p>Nesta unidade, vimos um outro tipo de classificador: uma árvore de</p><p>decisão. Usamos esse algoritmo, que é muito popular na estatística, na ciência</p><p>dos dados e na mineração de dados, para uma tarefa de classificação. Mais</p><p>especificamente, fizemos uma análise de predição de vendas de um produto de</p><p>varejo, uma boneca falante, e vimos como a árvore pode nos ajudar a entender</p><p>quais variáveis contribuem para um aumento das vendas do produto em</p><p>questão. Com isso terminamos, aqui, a primeira parte do nosso passeio pelo</p><p>mundo das aplicações da estatística à ciência dos dados: a modelagem preditiva.</p><p>São técnicas de muito poder, que nos auxiliam em praticamente todas as áreas</p><p>da atividade humana. Na próxima unidade, daremos atenção a um outro</p><p>assunto: os modelos de aprendizagem não supervisionada, que têm um jeito</p><p>diferente de funcionar. Vamos lá!</p><p>A3</p><p>PERGUNTA 1</p><p>Uma determinada companhia de telefonia</p><p>móvel vinha sofrendo com o alto</p><p>número de contratos defeituosos de vendas realizadas nas suas lojas para pessoas</p><p>físicas. Ela decidiu pedir ajuda a uma Engenheira da qualidade, que – em trabalho</p><p>conjunto com as equipes operacionais e alguns gestores – testou 3 novos processos</p><p>de emissão de contratos, denominados de processos A, B e C, em várias das lojas</p><p>da companhia, para verificar qual deles traria melhor resultado na diminuição do</p><p>índice de contratos defeituosos. Na linguagem da qualidade, defeito e não</p><p>conformidade são sinônimos. Além disso, testaram esses processos em dias de</p><p>movimento alto e baixo, e com equipes de tamanho normal ou reduzido. Para a</p><p>classificação, os dados foram coletados e tratados por meio de uma árvore de decisão</p><p>cujo gráfico resultante é mostrado a seguir:</p><p>Nessa árvore, C = Conforme e NC = Não Conforme. Com esse resultado em mãos,</p><p>a engenheira da qualidade pôde recomendar qual a melhor solução a adotar para a</p><p>redução do índice de contratos não conformes. Tomando esse relato como base,</p><p>responda às seguintes perguntas:</p><p>a. Quais são as variáveis de entrada e qual é a variável resposta? E quais</p><p>são os seus tipos?</p><p>b. Que variável de entrada a árvore de decisão considerou como a mais</p><p>importante? E qual a segunda variável mais importante?</p><p>c. Esta árvore, como modelo preditivo, considerou relevante o efeito do</p><p>movimento alto ou baixo na produção de contratos não conformes?</p><p>d. De acordo com as predições desta árvore, qual a melhor solução a ser</p><p>empregada pela companhia de telefonia móvel?</p><p>UNIDADE 3</p><p>Introdução</p><p>Já discutimos como, a partir de um conjunto de dados, que na estatística</p><p>chamamos de amostra, podemos desenvolver algoritmos preditivos e aplicá-los</p><p>a situações da vida.</p><p>Especificamente, aplicamos modelos de regressão linear simples e</p><p>múltipla na predição do valor de imóveis, modelos de regressão logística simples</p><p>e múltipla na predição da probabilidade de inadimplência com cartões de</p><p>crédito, e árvores de decisão na predição do volume de vendas de um produto</p><p>de varejo, uma boneca falante. Dessas aplicações, a primeira é chamada de</p><p>tarefa de regressão, as outras duas de tarefas de classificação.</p><p>Aqui, nesta unidade, deixaremos de lado os modelos preditivos da</p><p>aprendizagem supervisionada, que são aqueles em que treinamos um algoritmo</p><p>com base em exemplos da variável resposta, de tal forma que esse algoritmo,</p><p>alimentado com novos dados de entrada, seja capaz de predizer o resultado</p><p>dessa variável resposta. Nosso foco, agora, será em algoritmos de aprendizagem</p><p>não supervisionada. Mais especificamente, discutiremos sobre dois tipos de</p><p>algoritmos de agrupamento, que também são chamados de algoritmos de</p><p>clusterização.</p><p>Análise Exploratória</p><p>Nesta seção abordaremos o que vem a ser mineração de dados e sua</p><p>relação com a ciência de dados e algoritmos de machine learning. Também</p><p>falaremos sobre análise exploratória de dados.</p><p>Mineração de Dados</p><p>No início deste e-book, apresentamos uma discussão sobre estatística,</p><p>ciência da computação e ciências dos dados. A estatística é a mais antiga dessas</p><p>ciências, seguida da ciência da computação e da ciência de dados, que é a mais</p><p>nova dentre elas. Mas nem na discussão inicial, nem nas unidades que se</p><p>seguiram, demos atenção à “Mineração de Dados”, em inglês, Data Mining, a</p><p>menos de algumas menções esparsas. Aqui, vamos corrigir isso, pois há, entre a</p><p>mineração de dados e a estatística, a ciência da computação e a ciência dos</p><p>dados, uma relação muito forte.</p><p>Por volta dos anos 70 e 80 do século passado, as grandes corporações já</p><p>possuíam, como parte de sua infraestrutura e de sua estrutura organizacional,</p><p>centrais de processamento de dados. Nelas, armazenavam e processavam</p><p>informações sobre suas transações comerciais, sobre seus estoques, sobre suas</p><p>finanças, sobre sua contabilidade, sobre seus clientes etc. Todos esses eram</p><p>dados que chamamos de dados estruturados. Algumas corporações já</p><p>começavam também a armazenar dados não estruturados. Essa época pode ser</p><p>considerada como a antessala do que depois viemos chamar de big data.</p><p>Por outro lado, processos gerenciais envolvem sempre as etapas de</p><p>planejamento, execução do que é planejado, monitoramento e controle do que</p><p>é executado para se averiguar se saiu conforme o plano. Processos gerenciais</p><p>demandam muitos dados, que se agrupam em coisas que chamamos de</p><p>informações e geram conhecimento, conhecimento sobre quão bem, ou não,</p><p>está indo a produção ou os serviços da empresa, quão equilibrados ou</p><p>desequilibrados estão seus estoques, quão satisfeitos ou insatisfeitos estão seus</p><p>clientes e tudo mais que seja relevante para a empresa ter sucesso nos seus</p><p>negócios.</p><p>Quando temos poucos dados, um ser humano pode armazená-los em um</p><p>livro de registros, processá-los em uma calculadora, e exibi-los em uma tabela</p><p>ou um gráfico em papel milimetrado. Mas, naquela época, essas grandes</p><p>corporações começaram a ter muitos dados. Tornou-se importante saber</p><p>processá-los de forma inteligente, extrair deles informações e gerar</p><p>conhecimento, e fazer isso da forma mais automatizada possível. Para isso,</p><p>usaram de algoritmos e essa atividade de extrair conhecimento de dados por</p><p>meio de algoritmos foi designada de data mining, ou seja, de mineração de</p><p>dados. Inicialmente, era realizada por meio de abordagens que alguns autores</p><p>chamam, em inglês, de “design approach”, que pode ser traduzido por</p><p>“abordagem por regras”, essas regras definidas pelo ser humano.</p><p>Ora, explorar dados e procurar descobrir padrões e gerar conhecimento</p><p>sempre foi a principal tarefa da estatística. Também veio a ser um dos</p><p>propósitos da ciência da computação, quando deu início às tentativas de emular</p><p>a inteligência humana com seus algoritmos de aprendizagem supervisionada e</p><p>não supervisionada. E também é um dos principais propósitos, senão o mais</p><p>importante, da ciência dos dados. Todas essas ciências, a estatística, a ciência da</p><p>computação (essa parte da ciência da computação dedicada ao machine</p><p>learning), a mineração de dados e a ciência dos dados, então, com propósitos</p><p>similares, interesses similares e abertas a fazerem proveito dos avanços</p><p>produzidos pelas outras ciências.</p><p>A mineração de dados também fez isso e, para além dos mecanismos que</p><p>criou inicialmente para explorar dados, descobrir padrões e gerar</p><p>conhecimento, abraçou aqueles da estatística e da ciência da computação. Em</p><p>especial, abraçou algoritmos de machine learning. Daí que, em muitos aspectos,</p><p>a mineração de dados ficou muito parecida com a ciência dos dados, e alguns</p><p>autores não fazem muita distinção entre as duas, mas todos reconhecem que</p><p>fazem uso de muitas abordagens e ferramentas iguais. Veja o Quadro 4.1. Lá</p><p>apresentamos uma breve descrição de características de cada uma dessas áreas:</p><p>a Estatística, a Ciência da Computação, a Mineração de Dados e a Ciência de</p><p>Dados. Espero que sirva para você entender a relação entre elas.</p><p>Talvez a maior diferença esteja no fato de que mineradores de dados dão</p><p>maior atenção aos aspectos de gerenciamento de bancos de dados, e à ciência</p><p>de dados um pouco menos. Uma outra diferença pode ser que a mineração de</p><p>dados trata explicitamente de métodos da “abordagem por regras”, que não são</p><p>habitualmente discutidos na ciência dos dados, mas poderiam ser. Recomendo</p><p>a você, ao se deparar com esses termos, mineração de dados e ciência dos</p><p>dados, imaginar que são áreas irmãs, com muitas similaridades.</p><p>Estatística</p><p>A mais antiga. Usa, de forma profunda, a matemática como pilar do</p><p>seu desenvolvimento. Considerada aquela mais sutil e a mais ampla</p><p>quanto ao assunto são dados. É usada por todas as áreas científicas.</p><p>Além de ser a ciência dos dados mãe, é especializada em interpretar</p><p>os fenômenos aleatórios que observamos no mundo.</p><p>Machine Learning</p><p>Tem sua origem na ciência da computação. Sua base são algoritmos,</p><p>um dos pontos</p><p>o desenvolvimento de modelos</p><p>preditivos e apresentaremos o estudo de caso que nos acompanhará ao longo</p><p>desta unidade. Através desse caso, aprenderemos as regressões linear e</p><p>múltipla.</p><p>Fases do Desenvolvimento de Modelos Preditivos</p><p>Nesta seção, veremos como modelos de regressão linear podem nos</p><p>ajudar a predizer o valor de venda de um imóvel, a partir de dados coletados</p><p>relativos a algumas de suas características. Faremos isso por meio de um</p><p>exemplo ilustrativo, centrado em dois personagens principais: uma corretora de</p><p>imóveis, especializada na venda de apartamentos, e um estatístico. Esse</p><p>exemplo, um estudo de caso simulado, nos acompanhará até o final da unidade.</p><p>Ele vai nos permitir entender sobre uma das maneiras como a estatística pode</p><p>ser aplicada à ciência dos dados.</p><p>Na criação de uma aplicação que tem como objetivo o desenvolvimento</p><p>de um algoritmo preditivo, uma das maneiras possíveis de descrever as</p><p>principais etapas do seu desenvolvimento é:</p><p>1. Definição da questão a ser resolvida (business case);</p><p>2. Definição dos dados necessários ao desenvolvimento do caso;</p><p>3. Coleta dos dados (evitando vícios de amostragem);</p><p>4. Limpeza e tratamento dos dados (quando necessário);</p><p>5. Análise descritiva (resumos estatísticos e visualização gráfica);</p><p>6. Escolha de um modelo (algoritmo) preditivo;</p><p>7. Ajuste (treino) do modelo (do algoritmo);</p><p>8. Teste do modelo para verificação da sua performance preditiva;</p><p>9. Entrega do modelo para validação e utilização pelo cliente;</p><p>10. Feedback do cliente para ajustes e melhoramentos do modelo.</p><p>Como, neste material, pretendemos dar apenas uma visão inicial, e</p><p>também como não podemos nos estender com mais profundidade em aspectos</p><p>mais técnicos, não daremos atenção a todas essas etapas. Concentraremo-nos</p><p>em mostrar, de uma forma mais direta e simples possível, o poder de predição</p><p>de modelos de regressão linear, em situações típicas onde podem ser</p><p>empregados.</p><p>Predição do Valor de Venda de Imóveis</p><p>Uma corretora de imóveis residenciais queria saber se seria possível,</p><p>através de algum tipo de aplicativo, estimar valores de venda de imóveis</p><p>residenciais. Ela trabalhava exclusivamente com venda de apartamentos e sabia</p><p>que, se pudesse contar com tal aplicativo, teria mais agilidade na definição do</p><p>valor de venda dos imóveis junto aos proprietários, assim como tornaria mais</p><p>assertiva sua conversa junto a compradores potenciais. Em outras palavras,</p><p>imaginava que com tal aplicativo ela teria mais e melhores argumentos, pois</p><p>seriam argumentos balizados tecnicamente. Sendo mais precisa, imaginava que</p><p>poderia dar mais velocidade aos negócios, gerando mais satisfação para os seus</p><p>clientes, assim como melhores resultados para a imobiliária onde trabalhava já</p><p>há anos.</p><p>Como tinha um amigo estatístico, decidiu conversar com ele. Seu amigo</p><p>estatístico lhe pediu para trazer alguns dados de mercado. Passados alguns dias,</p><p>a corretora voltou a procurar seu amigo estatístico e lhe mostrou os seguintes</p><p>dados, observados de 100 imóveis residenciais – todos apartamentos, sua</p><p>especialidade – vendidos nos últimos meses pela imobiliária. No Quadro 1.1</p><p>exibimos algumas do total das 100 observações que ela coletou:</p><p>Ap. Área (m2) Andar Local Valor (R$mil)</p><p>1 59,4 2 Bairro 398</p><p>2 62,7 8 Bairro 340</p><p>3 80,6 4 Centro 544</p><p>4 65,7 9 Bairro 283</p><p>... ... ... ... ...</p><p>99 62,6 4 Centro 304</p><p>100 54,7 6 Centro 347</p><p>Quadro 1.1 - Dados amostrados relativos aos apartamentos</p><p>Fonte: Elaborado pelo autor.</p><p>Com isso, o estatístico tinha, em suas mãos, dados. O estatístico podia, a</p><p>partir desse momento, examinar esses dados e decidir sobre o que fazer, o que</p><p>veremos em seguida, após uma atividade para você treinar seus conhecimentos.</p><p>Vamos Praticar</p><p>Workflow da Ciência dos Dados: não existe apenas uma forma de</p><p>estruturar e aplicar os conhecimentos da Ciência dos Dados. A forma de</p><p>aplicação varia bastante conforme a necessidade do projeto ou do objetivo</p><p>que se busca alcançar. Neste curso, usaremos um modelo de workflow</p><p>bastante utilizado. Esse workflow propõe basicamente os seguintes passos:</p><p>Carregar os dados; Limpar os dados; Transformar, visualizar e modelar;</p><p>Comunicar o resultado.</p><p>Descrevemos as principais etapas para o desenvolvimento de um</p><p>algoritmo preditivo na ciência dos dados. Deixamos claro que as etapas lá</p><p>descritas são apenas uma das formas de se definir essas etapas, porém, entre</p><p>todas as descrições, há similaridades. Veja, por exemplo, a descrição dessas</p><p>etapas como dadas no texto introdutório referenciado. Analise as duas</p><p>descrições (do e-book e do texto introdutório), reflita e assinale a alternativa</p><p>correta:</p><p>a) No desenvolvimento de um projeto em ciência dos dados nunca se faz a</p><p>visualização dos dados, também chamada de análise descritiva dos dados.</p><p>b) No desenvolvimento de um projeto em ciência dos dados nunca se faz a</p><p>etapa de limpeza e tratamento dos dados.</p><p>c) No desenvolvimento de um projeto em ciência dos dados é comum que se</p><p>faça a modelagem dos dados, que consiste na escolha, treino e teste de um</p><p>modelo.</p><p>d) No desenvolvimento de um projeto em ciência dos dados nunca se faz a</p><p>comunicação dos resultados, pois eles só interessam ao próprio cientista de</p><p>dados.</p><p>e) Nas etapas de desenvolvimento de um projeto em ciência dos dados</p><p>descritas no e-book não se considera a etapa de feedback do cliente para</p><p>ajustes e melhoramentos do modelo.</p><p>Análise Descritiva dos Dados</p><p>Nesta seção, discutiremos sobre a estrutura de dados preferida pelos</p><p>estatísticos e cientistas de dados e, em seguida, veremos um exemplo de como</p><p>um cientista de dados examina seus dados através de técnicas descritivas, que</p><p>são sumários estatísticos, também chamados de resumos, e gráficos para a</p><p>visualização dos dados.</p><p>Dados Retangulares e Data-frames</p><p>O estatístico decidiu examinar os dados que sua amiga corretora lhe</p><p>trouxe. Ele logo percebeu que estavam bem organizados, na forma de uma</p><p>tabela, com as variáveis dispostas em colunas, e as observações relativas a cada</p><p>imóvel dispostas em linhas. Essa é, talvez, a forma preferida por um estatístico,</p><p>ou por um cientista de dados, de organização de dados.</p><p>Por vezes, referimo-nos a dados que podem ser organizados em uma</p><p>tabela desse jeito, ou seja, as variáveis dispostas nas colunas e as observações</p><p>dispostas nas linhas, como dados retangulares, ou dados estruturados. No</p><p>software estatístico R, essa forma de organização de dados é referida como</p><p>“data-frame”. Esse conceito foi copiado, alguns anos depois (em 2012), pelo</p><p>Python, por meio de sua famosa biblioteca “Pandas”.</p><p>Voltando ao estatístico, ele também viu que sua amostra tinha tamanho</p><p>n=100, ou seja, lá havia dados relativos a 100 diferentes apartamentos. Para</p><p>simplificar a sua análise, ele decidiu adotar uma notação compacta para as</p><p>variáveis observadas:</p><p>X1=área do imóvel (m2)</p><p>X2=andar do imóvel (1, 2, 3, ...)</p><p>X3=localização do imóvel (Bairro ou Centro)</p><p>Y=valor de venda do imóvel (kR$)</p><p>Dados Relativos à Área do Imóvel</p><p>O estatístico iniciou sua análise examinando X1 (área do imóvel). Usou as</p><p>funções min(), mean(), max() e sd() do software estatístico R na determinação</p><p>dos valores mínimo, médio, máximo e desvio-padrão dos dados observados para</p><p>x1x1:</p><p>min(x1)=41,9 mean(x1)=65,6 max(x1)=86,9 sd=9,1</p><p>Ele viu, então, que para esses 100 apartamentos vendidos, a área variou</p><p>entre um mínimo de 41,9 m2 e um máximo de 86,9 m2, com área média de 65,6</p><p>m2 e desvio-padrão da área de 9,1 m2.</p><p>Em seguida, decidiu visualizar esses dados. Como área é uma variável</p><p>quantitativa, optou por construir um histograma de X1X1 usando a função</p><p>gráfica hist() do R:</p><p>Figura 1.1 - Histograma dos dados relativos à área dos apartamentos</p><p>Dados Relativos ao Andar do Imóvel</p><p>Depois o estatístico passou ao exame dos dados relativos à variável X2</p><p>(andar do imóvel). Também aqui usou de algumas funções do R para</p><p>fortes da ciência da computação, que desenvolveu</p><p>aprendizagem de máquina quando deu início às tentativas de emular</p><p>a inteligência humana. Teve enorme sucesso com esses algoritmos e,</p><p>hoje, também com a sua importante extensão, o Deep Learning.</p><p>Mineração de Dados</p><p>Teve início com aplicações da ciência da computação e tecnologia da</p><p>informação, em ambientes corporativos, para extrair conhecimento</p><p>de grandes bases de dados. Do uso inicial, quase que exclusivo, de</p><p>regras para a descoberta de padrões e geração de conhecimento,</p><p>passou também a usar os algoritmos de aprendizagem de máquina.</p><p>Ciência de Dados</p><p>A mais nova delas. Fala-se que teve seu início, de forma prática, no</p><p>mercado de trabalho, quando grandes empresas começaram a</p><p>procurar estatísticos capazes de fazer uso intensivo de recursos</p><p>computacionais ou, alternativamente, cientistas de computação que</p><p>entendessem um pouco de estatística. Tem um caráter mais aplicado</p><p>que a estatística, pois a estatística também desenvolve teorias,</p><p>enquanto a ciência dos dados se concentra nas aplicações.</p><p>Quadro 4.1 - Quadro resumo das áreas relacionadas à ciência dos dados</p><p>Podemos fechar essa seção observando algo que você já deve ter</p><p>notado. A terminologia empregada por essas áreas, a estatística, a ciência da</p><p>computação, a mineração de dados e a ciência de dados possuem similaridade</p><p>e dissimilaridades, pois, às vezes, usam dos mesmos termos para dizer a mesma</p><p>coisa, às vezes, usam dos mesmos termos para dizer coisas um pouco diferentes</p><p>e, muitas vezes, usam termos diferentes para dizer a mesma coisa. Como</p><p>convivemos com todas elas, o jeito é prestar atenção e não nos confundirmos.</p><p>Veja o que dizem os autores abaixo citados:</p><p>A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo</p><p>estatística, ciência da computação, tecnologia da informação e campos de</p><p>domínios específicos. Consequentemente, podem-se utilizar de muitos termos</p><p>diferentes para se referir a um dado conceito.</p><p>Passaremos, agora, a um outro assunto, parte importante desse mundo</p><p>da estatística, da ciência dos dados e das suas ciências irmãs: a análise</p><p>exploratória de dados.</p><p>Análise Exploratória</p><p>Não há um sentido estrito, único e universal, para o que se convencionou</p><p>chamar de análise exploratória de dados. Alguns autores definem análise</p><p>exploratória de dados como as atividades iniciais do processo de análise dos</p><p>dados, e chamam atividades posteriores de atividades de modelagem de dados.</p><p>Nesse sentido, explorar dados é o exame inicial dos dados, as primeiras</p><p>descobertas, as primeiras ideias que você tem sobre o que eles parecem dizer.</p><p>Outros admitem que análise exploratória de dados pode englobar o esforço</p><p>completo de examinar, depurar, tratar, visualizar e modelar dados. Vamos</p><p>examinar, como exemplo, as palavras de um muito famoso cientista de dados,</p><p>Hadley Wickham que, em um livro que escreveu em coautoria, diz (tradução</p><p>livre do autor deste e-book):</p><p>O objetivo da primeira parte deste livro é fazer com que você ganhe</p><p>velocidade com as ferramentas básicas de exploração de dados o mais rápido</p><p>possível. Exploração de dados é a arte de olhar os seus dados, rapidamente gerar</p><p>hipóteses sobre eles, e rapidamente testar essas hipóteses. E repetir isso outra</p><p>vez, outra vez, outra vez. O objetivo da exploração de dados é a geração de pistas</p><p>sobre o que os dados nos revelam, pistas que você poderá explorar, mais tarde,</p><p>em maior profundidade.</p><p>E ele avança nesse tema escrevendo (tradução livre do autor deste e-</p><p>book):</p><p>A análise exploratória dos dados não é um processo formal, com um conjunto</p><p>estrito de regras. Análise exploratória de dados é um estado de espírito. Durante</p><p>as fases iniciais você deve se sentir livre para investigar todas as ideias que lhe</p><p>ocorrerem. Algumas dessas ideias vingarão, outras não trarão resultados.</p><p>Veja que ponto interessante! Aqui, um dos maiores cientistas de dados da</p><p>atualidade dá maior ênfase a um estado de espírito do que às técnicas</p><p>propriamente ditas: a curiosidade, a vontade de explorar o desconhecido, a</p><p>capacidade de gerar ideias (hipóteses) sobre o que os dados nos contam. As</p><p>técnicas são, e continuarão a ser, cada vez mais importantes. Mas elas não serão</p><p>nada se o seu espírito não for investigativo e criativo, o verdadeiro espírito de</p><p>um cientista de dados.</p><p>Neste e-book, entenderemos análise exploratória de dados como as fases</p><p>iniciais do processo de investigação dos dados, incluindo a etapa de análise</p><p>descritiva dos dados. Essa etapa inicial de análise nos leva a descobertas de</p><p>padrões e nos ajuda a formular hipóteses, que podem ser investigadas em mais</p><p>profundidade depois, por exemplo, com modelos preditivos.</p><p>Passaremos agora a uma atividade para, em seguida, prosseguirmos com</p><p>o estudo de caso que, nesta unidade, servirá de base para a discussão sobre</p><p>algoritmos de agrupamento.</p><p>Vamos Praticar</p><p>“Este livro é sobre descoberta. Nele, o conceito de descoberta assume dois</p><p>sentidos. Primeiro, o romântico, no qual a descoberta é vista como um fenômeno</p><p>emocionante e prazeroso. E é esse fenômeno que se espera provocar durante a</p><p>sua leitura. Segundo, o sentido técnico, no qual a descoberta continua sendo</p><p>igualmente emocionante e prazerosa, mas passa também a ser o resultado de</p><p>um criterioso estudo sobre dados. A partir do estudo e da mineração de dados,</p><p>a descoberta acontece, e então novo conhecimento é produzido, contribuindo</p><p>para a melhoria de produtos, sistemas, processos, negócios etc.[...] Contudo,</p><p>minerar dados para descobrir conhecimento não é uma tarefa trivial. É preciso</p><p>conhecer os dados, o processo de análise e descoberta, as tarefas e técnicas de</p><p>mineração e as ferramentas matemáticas e computacionais que se aplicam</p><p>nesse contexto. Portanto, a descoberta é um processo. Ainda, é preciso conhecer</p><p>o ambiente em que os dados são produzidos e que tipo de conhecimento esse</p><p>ambiente necessita e espera receber.”</p><p>A respeito da mineração de dados e sua relação com áreas, tais como a</p><p>estatística, a ciência da computação e a ciência dos dados, assinale a alternativa</p><p>correta:</p><p>a) Vimos que a estatística, a ciência da computação e a ciência de dados são</p><p>áreas relacionadas, mas a mineração de dados e ciência de dados são áreas</p><p>independentes, sem nenhuma relação.</p><p>b) Machine learning são algoritmos desenvolvidos, principalmente, pela ciência</p><p>da computação. São usados na ciência de dados e não são usados na mineração</p><p>de dados.</p><p>c) Minerar dados para descobrir conhecimento é uma tarefa trivial. Basta</p><p>conhecer dos dados, o processo de análise e descoberta, as tarefas de</p><p>mineração e as ferramentas matemáticas e computacionais que se aplicam</p><p>nesse contexto.</p><p>d) Não é importante conhecer o ambiente em que os dados são produzidos e</p><p>que tipo de conhecimento esse ambiente necessita e espera receber.</p><p>Importante, de fato, é que o minerador de dados ou cientista de dados seja</p><p>curioso.</p><p>e) O processo de descoberta de padrões e geração de conhecimento por meio</p><p>de dados tem um sentido romântico, por ser emocionante e prazeroso, e um</p><p>sentido técnico, pois demanda estudos técnicos criteriosos.</p><p>Estudo de Caso - Violência Urbana</p><p>Nesta seção, apresentaremos a você o caso que nos servirá de principal</p><p>exemplo na discussão sobre algoritmos de agrupamento. Algoritmos de</p><p>agrupamento, também chamados de algoritmos de clusterização, são,</p><p>habitualmente, considerados parte do instrumental do estatístico (e do cientista</p><p>de dados, do minerador de dados etc.) para a análise exploratória dos dados.</p><p>Dois personagens nos guiarão por esse caminho, um estatístico sênior</p><p>americano e um jovem cientista de dados brasileiro.</p><p>Algoritmos de Agrupamento</p><p>Agrupamento é uma das tarefas da mineração de dados. Também é da</p><p>estatística e da ciência dos dados, como já explicamos. É uma tarefa que faz</p><p>parte dos métodos de aprendizagem não supervisionada, ou seja, nesse tipo de</p><p>aprendizagem, não há uma variável,</p><p>dentre as variáveis observadas, que sirva</p><p>de exemplo (que funcione como um supervisor), para o treinamento de</p><p>algoritmos preditivos.</p><p>Observação Comprimento (m) Massa Corporal (kg)</p><p>1 1,51 150,4</p><p>2 1,59 136,3</p><p>3 2,51 229,5</p><p>4 2,09 197,5</p><p>5 1,63 131,1</p><p>6 1,50 204,0</p><p>7 2,40 180,2</p><p>8 1,58 146,2</p><p>9 2,32 224,8</p><p>10 1,52 160,2</p><p>Quadro 4.2 - Dados biométricos sobre um animal desconhecido</p><p>Ora, se é assim, o que é que a gente faz ao tomar a decisão de fazer uma</p><p>análise de agrupamento? Vamos voltar aos dados estruturados na forma de uma</p><p>tabela, com as variáveis dispostas nas colunas e as observações dispostas nas</p><p>linhas. Imagine que alguém nos passe dados biométricos sobre uma espécie</p><p>animal. Os dados estão em uma tabela com 10 observações do comprimento do</p><p>animal e da sua massa corporal (coloquialmente, o seu peso). Esses dados são</p><p>exibidos no Quadro 4.2.</p><p>Em uma análise preditiva, poderíamos pensar em escolher uma dessas</p><p>variáveis com a variável resposta e a outra seria a variável de entrada. Por</p><p>exemplo, o comprimento como a variável de entrada e o peso como a variável</p><p>resposta e, assim, poderíamos investigar se há uma relação entre as duas, tal</p><p>que o valor de uma servisse para informar o valor da outra.</p><p>Em uma análise de agrupamento não fazemos assim. Nós procuramos observar</p><p>cada linha da tabela e compará-la a outras linhas. Formamos um grupo com</p><p>todas linhas que forem parecidas e outro grupo - ou outros grupos - com outras</p><p>linhas que forem parecidas entre si. Ao final, teremos dois, três ou mais grupos,</p><p>cada um contendo observações (linhas) similares. Depois de formarmos esses</p><p>grupos, podemos dar nomes a eles.</p><p>No nosso exemplo, temos apenas dez observações. Cada linha é uma</p><p>observação e refere-se a um determinado indivíduo da amostra de animais.</p><p>Vamos imaginar que dividimos essas observações (linhas) em dois grupos</p><p>similares entre si. Não sabemos ainda, porque ainda não separamos os grupos,</p><p>quantas observações (linhas) terão cada um desses grupos. Feita essa separação</p><p>das observações (linhas) em dois grupos, podemos dar nome a eles. Por</p><p>exemplo, Grupo A e Grupo B. E cada indivíduo pode, então, ser classificado com</p><p>indivíduo A ou indivíduo B. E um novo indivíduo, se for mais parecido com os</p><p>indivíduos do Grupo B, será denominado indivíduo B. O mesmo para um novo</p><p>indivíduo que seja mais parecido com os indivíduos do Grupo A.</p><p>Veja que, nesse processo, primeiramente, criamos grupos por</p><p>similaridades entre si, depois damos nomes aos grupos e só, depois,</p><p>classificamos novos indivíduos como sendo de uma classe, A ou B, conforme</p><p>mais parecidos com um grupo ou com o outro. O ser humano faz isso com</p><p>enorme facilidade, agrupar e depois classificar. Nós classificamos tudo com</p><p>tanta naturalidade, que nem percebemos que primeiramente criamos os grupos</p><p>para só depois classificarmos.</p><p>Em princípio, somos nós mesmos que devemos decidir em quantos grupos</p><p>agrupar as observações, com base em algum critério de similaridade. Veja,</p><p>então, que esse tipo de análise de agrupamento, que é parte da análise</p><p>exploratória de dados, é um pouco “mais solta” que a análise para o</p><p>desenvolvimento de modelos preditivos. As palavras de especialistas nos</p><p>ajudarão a reforçar esse ponto (tradução livre do autor deste e-book):</p><p>Em contraste à aprendizagem supervisionada, aprendizagem não</p><p>supervisionada é, frequentemente, mais desafiadora. Tende a ser mais subjetiva.</p><p>Não há um objetivo claro para a análise, tal como a predição de uma variável</p><p>resposta. Aprendizagem supervisionada é, frequentemente, parte da análise</p><p>exploratória dos dados. Além disso, pode ser difícil avaliar os resultados obtidos</p><p>da aprendizagem supervisionada. Não há um mecanismo universal, por todos</p><p>aceitos, de validação cruzada do resultado, ou validação do resultado com um</p><p>conjunto de dados independentes dos dados de treino. A razão para essa</p><p>diferença é simples. Quando ajustamos um modelo preditivo usando uma</p><p>técnica de aprendizado supervisionado, é possível checar o resultado verificando</p><p>quão bem o nosso modelo prediz a resposta Y para observações não usadas no</p><p>ajuste do modelo (treino do modelo). Entretanto, na aprendizagem não</p><p>supervisionada, não é possível fazer essa checagem, pois não conhecemos uma</p><p>resposta verdadeira. Afinal, o problema não é supervisionado.</p><p>Voltando ao nosso exemplo, como temos apenas duas variáveis, o</p><p>comprimento e a massa corporal do animal, podemos tentar plotar os dados</p><p>usando a função plot() do sistema básico de gráficos do R ou outra ferramenta</p><p>qualquer. Fazendo isso, obtemos o gráfico exibido na Figura 4.1. A visualização</p><p>dessa pequena amostra é muito ilustrativa. Claramente, parece haver dois</p><p>grupos de animais: um grupo com comprimento menor que 1,8 metros e outro</p><p>com comprimento maior que 1,8 metros. No primeiro grupo, as massas</p><p>corporais são menores que as massas corporais do segundo grupo. Vamos</p><p>chamar o primeiro grupo de Grupo A e o segundo grupo de Grupo B.</p><p>Bem, dessa forma, com uma análise visual, acabamos de realizar nossa</p><p>primeira tarefa de agrupamento, para uma pequena amostra de dados</p><p>biométricos de alguns animais, que não sabemos quais são. A partir desse ponto,</p><p>podemos usar um critério de similaridade: Qualquer outro animal que cair perto</p><p>do Grupo A classificaremos como A e qualquer outro animal que cair perto do</p><p>Grupo B classificaremos como B.</p><p>Figura 4.1 - Massa corporal (kg) versus comprimento (m) dos animais</p><p>Mas o que aconteceria se, ao invés de uma amostra com apenas</p><p>duas variáveis e dez observações, tivéssemos de lidar com uma amostra com 30</p><p>variáveis e 2000 observações, ou mesmo maiores, como é comum hoje em dia?</p><p>Não teríamos como fazer isso visualmente. É justamente aqui que aparecem os</p><p>algoritmos de agrupamento. Eles usam algum critério de similaridade, por nós</p><p>definido, e automatizam a tarefa de agrupamento. Caberá a nós decidirmos se</p><p>os grupos fazem algum sentido ou não. É por esse motivo que dizemos que é</p><p>uma análise mais difícil ou “mais solta”. E a presença de um especialista</p><p>(especialista na área que está sendo investigada) é sempre importante, mais</p><p>importante ainda fica nessa situação.</p><p>Mas, afinal, quem são aqueles animais? Na verdade, são leoas e leões. Os</p><p>dados foram obtidos em consulta ao site do Zoológico de San Diego, nos Estados</p><p>Unidos da América (SAN DIEGO ZOO). Lá, podemos ver que leoas medem de 1,4</p><p>a 1,7 metros (sem contar o rabo) e pesam de 122 a 180 quilos, e leões medem</p><p>de 1,7 a 2,5 metros e pesam de 150 a 260 quilos. Criamos uma amostra aleatória</p><p>com base nesses dados, com propósito didático. É como se realmente</p><p>estivéssemos medindo o comprimento e o peso de 10 leões. Aqui, nessa</p><p>simulação, acabamos com 6 fêmeas e 4 machos. Como são apenas 2 variáveis e</p><p>10 observações, ficou fácil agrupá-los. Na verdade, o Grupo A é o grupo das leoas</p><p>(as fêmeas, menores e menos pesadas) e o Grupo B é o grupo dos leões (os</p><p>machos, maiores e mais pesados).</p><p>Isso é o que os biólogos chamam de dimorfismo sexual. Para algumas</p><p>espécies, pode se manifestar com machos maiores, como é o caso dos leões,</p><p>para outras espécies, com fêmeas maiores. Para essa amostra didática, a</p><p>fronteira entre eles é relativamente clara e foi suficiente observar apenas duas</p><p>variáveis quantitativas para fazer o agrupamento. Mas poderíamos incluir</p><p>outras variáveis, quantitativas ou qualitativas. Novas variáveis podem,</p><p>eventualmente, ajudar a desvendar características de grupos de indivíduos que,</p><p>de fato, não conhecemos. Aqui, as leoas e leões, que são uma das espécies de</p><p>mamíferos mais estudada do mundo, serviram como um exemplo simples, para</p><p>lhe mostrar o princípio de funcionamento de algoritmos de agrupamento.</p><p>Estudo de Caso - Violência Urbana</p><p>O jovem cientista de dados brasileiro, já mencionado no início dessa Seção</p><p>2, foi fazer um estágio em uma empresa de pesquisa e análise de dados sociais.</p><p>Lá soube que seu supervisor</p><p>seria um estatístico sênior americano, muito</p><p>respeitado em análise de dados sociais. E uma das primeiras tarefas que lhe</p><p>passou foi a de análise exploratória com algoritmos de agrupamento, com bases</p><p>em dados reais de violência urbana, coletados de uma pesquisa feita em 50</p><p>estados americanos (McNEIL). Esses dados, que são facilmente acessíveis em</p><p>uma base de dados do R, chamada de USArrest (R DOCUMENTATION), são de</p><p>uso livre (de domínio público) e adequados a propósitos didáticos. O estatístico</p><p>sênior americano explicou ao jovem cientista de dados que os mesmos métodos</p><p>que ele usaria, no seu treinamento, poderiam ser aplicados a estudos similares,</p><p>relativos a estados ou municípios brasileiros.</p><p>Murder Assault UrbanPop Rape</p><p>Alabama 13,2 236 58 21,2</p><p>Alaska 10,0 263 48 44,5</p><p>Arizona 8,1 294 80 31,0</p><p>Arkansas 8,8 190 50 19,5</p><p>Califórnia 9,0 276 91 40,6</p><p>Colorado 7,9 204 78 38,7</p><p>... ... ... ... ...</p><p>Wisconsin 2,6 53 66 10,8</p><p>Wyoming 6,8 161 60 15,6</p><p>Quadro 4.3 - Dados USArrest sobre violência urbana</p><p>O conjunto de dados USArrest consiste em um data-frame com 50</p><p>observações e 4 variáveis (ver alguns exemplos no Quadro 4.3). As 50</p><p>observações são os cinquenta Estados dos EUA e as 4 variáveis são:</p><p>Murder Númerode homicídios por 100.000 habitantes</p><p>Assault Número de assaltos por 100.000 habitantes</p><p>UrbanPop Porcentagem de habitantes urbanos no estado</p><p>Rape Números de estupros por 100.000 habitantes</p><p>Na próxima seção, o nosso jovem cientista de dados se dedicará à boa</p><p>prática de começar fazendo uma análise descritiva desses dados. Como já</p><p>explicado, tanto a análise descritiva como a análise de agrupamento podem ser</p><p>consideradas parte do que chamamos de análise exploratória dos dados. Há</p><p>outras técnicas que também são consideradas parte integrante da análise</p><p>exploratória dos dados, mas não serão discutidas aqui.</p><p>Vamos Praticar</p><p>O aprendizado não supervisionado pode ter diferentes objetivos</p><p>possíveis. Em alguns casos, pode ser usado para criar uma regra preditiva na</p><p>ausência de uma resposta rotulada. Os métodos de agrupamento podem ser</p><p>usados para identificar grupos de dados significativos. Por exemplo, usando os</p><p>cliques da web e dados demográficos de usuários de um site, podemos ser</p><p>capazes de agrupar diferentes tipos de usuários. O site poderia, então, ser</p><p>personalizado para esses diferentes grupos.</p><p>A respeito da análise de agrupamento, assinale a alternativa correta:</p><p>a) Análise de agrupamento faz parte do método de aprendizado supervisionado.</p><p>b) Não é possível realizar análise de agrupamento se não temos definida qual é</p><p>a variável resposta na amostra analisada.</p><p>c) Agrupar diferentes espécies de animais e diferentes espécies de plantas não</p><p>são exemplos de análise de agrupamento.</p><p>d) Agrupar diferentes usuários de um site ou diferentes grupos de clientes de</p><p>uma empresa são exemplos de análise de agrupamento.</p><p>e) Análise de agrupamento é um dos métodos preditivos que faz parte da</p><p>chamada aprendizagem supervisionada.</p><p>Análise Descritiva dos Dados</p><p>Deu início à sua análise descritiva examinando a variável Murder, que é o</p><p>número de homicídios por cada 100.000 habitantes, para cada um dos 50</p><p>Estados americanos. Como recomendado, gerou alguns sumários estatísticos,</p><p>para o que fez uso da função summary() do R, obtendo:</p><p>Min. 1stQu. Median Mean 3rd Qu. Max.</p><p>0.800 4.075 7.250 7.788 11.250 17.400</p><p>Percebeu haver uma grande variação do número de homicídios entre os</p><p>Estados americanos, já que o mínimo é de 0,8 por cada 100.000 mil habitantes,</p><p>contra um máximo de 17,4 por cada 100.000 habitantes. Quase 22 vezes mais.</p><p>Figura 4.2 - Histograma dos dados relativos a homicídios por cada estado.</p><p>Em seguida, o jovem cientista de dados, para a visualização desses</p><p>dados, lançou mão da função gráfica hist() do R, apropriada para a visualização</p><p>de dados quantitativos, e obteve como resultado o gráfico exibido na Figura 4.2.</p><p>Essa figura demonstra visualmente aquilo que já observamos com os sumários</p><p>estatísticos. Da figura, vemos que a maior frequência se dá com Estados que</p><p>apresentam entre dois a quatro homicídios por cada 100.000 habitantes.</p><p>O cientista de dados aprendiz voltou sua atenção, agora, para os dados</p><p>relativos à variável Assault. Novamente, gerou sumários estatísticos com a</p><p>função summary() do R e obteve os seguintes resultados:</p><p>Min. 1st Qu. Median Mean 3rd Qu. Max.</p><p>45.0 109.0 159.0 170.8 249.0 337.0</p><p>A variação entre o valor mínimo e máximo observado não é tão grande</p><p>quanto no caso anterior da variável Murder, porém, em termos absolutos, o</p><p>número de assaltos é maior do que o de homicídios por cada 100.000</p><p>habitantes, como se espera que seja: menos homicídios que assaltos. Passou,</p><p>então, à visualização desses dados, por meio de um histograma, exibido na</p><p>Figura 4.3, onde podemos observar dois picos (modas) na distribuição da</p><p>frequência de assaltos para os 50 Estados.</p><p>Figura 4.3 - Histograma dos dados relativos a assaltos por cada estado</p><p>Em seguida, o cientista de dados aprendiz voltou sua atenção para os</p><p>dados relativos à variável Rape e, novamente, gerou resumos estatísticos com a</p><p>função summary() do R, obtendo os seguintes resultados:</p><p>Min. 1st Qu. Median Mean 3rd Qu. Max.</p><p>7.30 15.07 20.10 21.23 26.18 46.00</p><p>A variação entre o valor mínimo e máximo observado não é tão grande</p><p>quanto no caso da variável Murder, porém, em termos absolutos, o número de</p><p>estupros é maior do que o de homicídios por cada 100.000 habitantes. O jovem</p><p>cientista de dados também gerou o histograma exibido na Figura 4.4, onde</p><p>podemos observar uma certa assimetria, com a mediana se situando entre 20 e</p><p>21 casos por cada 100.000 habitantes para os 50 Estados.</p><p>Figura 4.4 - Histograma dos dados relativos a estupros por cada estado</p><p>Finalmente, o nosso cientista de dados aprendiz voltou sua atenção para</p><p>os dados relativos à variável UrbanPop. Gerou sumários estatísticos com a</p><p>função summary() do R, obtendo os seguintes resultados:</p><p>Min. 1st Qu. Median Mean 3rd Qu. Max.</p><p>32.00 54.50 66.00 65.54 77.75 91.00</p><p>Percebeu que a variação entre o valor mínimo e máximo observado para</p><p>a porcentagem de população urbana dos Estados era o menor dentre todas as</p><p>variáveis observadas. Também viu que havia ao menos um Estado com uma</p><p>baixa porcentagem de população urbana, de apenas 32% e, ao menos, um</p><p>Estado com população quase que inteiramente urbana, de 91%. Na média, os</p><p>Estados apresentaram cerca de 65,5% da sua população vivendo nas cidades.</p><p>Gerou o histograma dos dados relativos à porcentagem da população urbana,</p><p>exibido na Figura 4.5, onde podemos observar uma certa assimetria, com a</p><p>mediana se situando entre 60% e 70% de população urbana para os 50 Estados,</p><p>o que o sumário estatístico confirma.</p><p>Figura 4.5 - Histograma dos dados relativos à população urbana por cada estado</p><p>Com isso, o nosso jovem cientista de dados concluiu a etapa da análise</p><p>descritiva de cada variável individualmente e passou à etapa de análise</p><p>descritiva de possíveis relações entre essas variáveis.</p><p>Análise Descritiva da Relação entre as Variáveis</p><p>O nosso jovem cientista de dados passou ao exame da possível relação</p><p>entre as variáveis. Todas elas são variáveis quantitativas. Para casos como esse,</p><p>ele se lembrou de que existe, no software estatístico R, a função cor(), a qual</p><p>calcula a correlação entre múltiplas variáveis quantitativas simultaneamente.</p><p>Ele obteve o seguinte resultado:</p><p>Murder Assault UrbanPop Rape</p><p>Murder 1.00 0.80 0.07 0.56</p><p>Assault 0.80 1.00 0.26 0.67</p><p>UrbanPop 0.07 0.26 1.00 0.41</p><p>Rape 0.56 0.67 0.41 1.00</p><p>Imediatamente, notou que todas correlações são positivas. Se há uma</p><p>relação entre duas variáveis quantitativas, e elas se comportam uma em relação</p><p>à outra de forma aproximadamente linear, correlações positivas indicam que,</p><p>quando uma aumenta, a outra também aumenta. Veja que correlações entre</p><p>dados da mesma variável - a correlação da variável com ela mesma - são sempre</p><p>iguais a 1 (um). O jovem cientista de dados também percebeu que as menores</p><p>correlações são aquelas entre quaisquer das outras variáveis com a variável</p><p>UrbanPop, a porcentagem de população vivendo nas cidades nos 50 Estados</p><p>americanos.</p><p>Ao consultar seu supervisor, este o fez notar que, para dados sociais, não</p><p>se devem desprezar correlações nessa faixa. Por exemplo, a correlação de 0,41</p><p>entre a porcentagem de população urbana (UrbanPop) e o número de estupros</p><p>por cada 100.000 habitantes (Rape) é significativa, indicando haver um efeito da</p><p>concentração da população em cidades com a frequência de estupros, isto é,</p><p>um aumento da população urbana do Estado associado a um aumento dos casos</p><p>de estupro, por 100.000 habitantes, para os dados da amostra analisada. O</p><p>supervisor americano também disse que, até mesmo, a correlação de 0,21 entre</p><p>assaltos e a porcentagem da população urbana não deve ser desprezada.</p><p>Melhor investigada sim, desprezada não, mesmo se não tão forte quanto os 0,41</p><p>do caso anterior.</p><p>O jovem cientista de dados percebeu o valor do apoio de alguém mais</p><p>experiente, ainda mais em situações desse tipo, de análise de dados associados</p><p>aos fenômenos sociais, como a violência urbana. Fenômenos sociais estão entre</p><p>os mais complexos que conhecemos. Refletiu um pouco sobre isso e decidiu</p><p>avançar com a visualização dessas relações. Lembrou-se do R e da sua função</p><p>gráfica pairs(). Aplicou-a aos dados de USArrests e obteve o gráfico exibido na</p><p>Figura 4.6.</p><p>Figura 4.6 - Múltiplos gráficos de dispersão entre as variáveis de USArrest</p><p>Esse é o output gráfico da função pairs() do R aplicada aos dados de</p><p>USArrest. São múltiplos gráficos de dispersão, de cada uma das quatro variáveis</p><p>contra cada uma das outras três. Como já dissemos, só pode ser aplicada a</p><p>variáveis quantitativas, pois gráficos de dispersão só podem ser aplicados para</p><p>a visualização da possível relação entre variáveis quantitativas. No entanto, o</p><p>nosso jovem cientista de dados não sabia muito bem como ler este gráfico. Seu</p><p>supervisor o ajudou, explicando assim:</p><p>• O nome de cada variável aparece uma vez ocupando uma das células do</p><p>gráfico. Essa é a célula que seria do gráfico de dispersão da variável contra</p><p>ela mesma, com cor = 1. Esse seria um gráfico de dispersão sem utilidade,</p><p>por não trazer informação relevante, a relação de uma variável com ela</p><p>mesma;</p><p>• Ao caminharmos na horizontal, partindo de qualquer uma dessas</p><p>variáveis, ela deve ser vista como se estivesse no eixo vertical y, e cada</p><p>uma das outras variáveis como se estivessem no eixo horizontal x;</p><p>• Dessa forma, como temos 4 variáveis, 4 x 3 resultam nos 12 gráficos de</p><p>dispersão exibidos na figura.</p><p>O supervisor americano continuou e explicou que esses 12 gráficos são:</p><p>• y = Murder versus x = Assalt ou UrbanPop ou Rape (3 gráficos);</p><p>• y = Assault versus x = Murder ou UrbanPop ou Rape (3 gráficos);</p><p>• y = UrbanPop versus x = Murder ou Assault ou Rape (3 gráficos);</p><p>• y = Rape versus x = Murder ou Assault ou UrbanPop (3 gráficos).</p><p>Com essa explicação, o jovem cientista de dados finalmente entendeu que</p><p>se são 4 variáveis e cada uma com 1 gráfico de dispersão com cada uma das</p><p>outras 3 variáveis, ao final, chega-se aos 12 gráficos. Tudo estava se encaixando</p><p>até aqui.</p><p>As correlações e os gráficos da Figura 4.6 conversam entre si. Veja, por</p><p>exemplo, a correlação entre Murder (homicídios por 100.000 habitantes) e</p><p>Assault (assaltos por 100.000 mil habitantes), de 0,80. É uma correlação positiva</p><p>forte, indicando que um aumento no número de assaltos leva a um aumento no</p><p>número de homicídios, o que pode ser visto também no gráfico de dispersão</p><p>entre Murder versus Assault. Os pontos dos pares ordenados (x, y), onde x é</p><p>Assault e y é Murder, apresentam uma dispersão não muito alta e uma</p><p>tendência de subida, pois com um aumento de x = Assault, y = Murder aumenta.</p><p>A análise descritiva, feita pelo jovem cientista de dados, ainda rendeu</p><p>muitas discussões entre ele e seu supervisor, mas ficaremos por aqui com esse</p><p>assunto, pois devemos progredir e ver como ele aplicou algoritmos de</p><p>agrupamento a este e outros casos.</p><p>Vamos Praticar</p><p>O agrupamento é uma técnica para dividir dados em diferentes grupos,</p><p>na qual os registros de cada grupo são semelhantes uns aos outros. Um objetivo</p><p>do agrupamento é identificar grupos de dados significantes e significativos. Os</p><p>grupos podem ser usados diretamente, analisados mais a fundo ou passados</p><p>como características ou resultado para um modelo de regressão ou</p><p>classificação.</p><p>A respeito da técnica de agrupamento, assinale a alternativa correta:</p><p>a) O agrupamento não é uma técnica para dividir dados em diferentes grupos,</p><p>na qual os registros de cada grupo são semelhantes uns aos outros</p><p>b) Como agrupamento é um método de aprendizagem supervisionada, não é</p><p>possível realizar análise de agrupamento se não há uma variável resposta nos</p><p>dados analisados.</p><p>c) Agrupar registros de dados semelhantes é o mesmo que agrupar observações</p><p>semelhantes, pois os termos, observações e registros são empregados como</p><p>sinônimos em mineração de dados e na ciência de dados.</p><p>d) Depois de realizado o agrupamento, os grupos identificados não podem ser</p><p>nomeados e seus exemplares usados como variáveis de resposta em modelos</p><p>preditivos.</p><p>e) Análise de agrupamento é um método de análise relativamente fácil, pois faz</p><p>parte dos métodos de aprendizagem supervisionada. A variável supervisora</p><p>(que é a variável resposta) nos ajudaria a avaliar o quão bom é o resultado</p><p>obtido.</p><p>Agrupamento ou Análise de Cluster</p><p>Nesta seção, veremos como o nosso jovem cientista de dados faz uso de</p><p>alguns algoritmos para realizar análise de agrupamento. Especificamente,</p><p>instruído pelo seu supervisor, ele utiliza dois dos mais famosos desses</p><p>algoritmos, agrupamento por k-médias e agrupamento hierárquico.</p><p>Agrupamento por k-Médias</p><p>O supervisor americano do nosso jovem cientista de dados decidiu que já</p><p>estava na hora de treiná-lo em alguns métodos de aprendizagem não</p><p>supervisionada, muito aplicados na análise exploratória de dados. Achou melhor</p><p>começar com algoritmos de agrupamento, e escolheu o de k-médias por ser o</p><p>de mais simples entendimento. Chamou o jovem cientista de dados e explicou</p><p>como esse algoritmo funciona:</p><p>1. É aplicado em agrupamento de dados oriundos de variáveis quantitativas,</p><p>como no caso dos leões e das leoas, onde as variáveis são comprimento</p><p>(m) e massa corporal (kg) dos felinos;</p><p>2. O analista decide em quantos grupos dividir as observações. Como nunca</p><p>se sabe se a divisão fará sentido, convém experimentar alguns números</p><p>até que, em consenso com o especialista da área que está sendo</p><p>investigada, se chegue a um resultado que tenha algum sentido;</p><p>3. Depois de decidido o número de grupos que serão formados, o próprio</p><p>algoritmo faz uma escolha randômica das observações formando os</p><p>grupos aleatoriamente;</p><p>4. A partir desse ponto, ele calcula a centroide dos grupos e verifica, para</p><p>uma observação, de qual centroide ela está mais próxima. Troca essa</p><p>observação de grupo se ela estiver no grupo errado (ela está no grupo</p><p>errado se estiver mais longe</p><p>da centroide do seu grupo do que do outro</p><p>grupo);</p><p>5. O passo 4 é repetido até não mais haver troca de observações entre os</p><p>grupos.</p><p>O jovem cientista de dados quase não acreditou que esse algoritmo</p><p>funcionasse, e perguntou se ele - o algoritmo - não entraria em um loop infinito.</p><p>Na verdade, não, explicou o estatístico sênior americano, pois esse algoritmo</p><p>sempre converge para uma solução final, cada observação alocada a um grupo,</p><p>cuja centroide está mais perto do que a centroide de qualquer outro grupo. E</p><p>pediu ao jovem cientista de dados que praticasse o algoritmo de k-médias com</p><p>os dados relativos aos leões e leoas. Vamos, agora, colocar os sexos na tabela</p><p>dos dados, conforme o Quadro 4.4.</p><p>Observação</p><p>Comprimento</p><p>(m)</p><p>Massa Corporal</p><p>(kg)</p><p>Sexo (F/M)</p><p>1 1,51 150,4 F</p><p>2 1,59 136,3 F</p><p>3 2,51 229,5 M</p><p>4 2,09 197,5 M</p><p>5 1,63 131,1 F</p><p>6 1,50 204,0 F</p><p>7 2,40 180,2 M</p><p>8 1,58 146,2 F</p><p>9 2,32 224,8 M</p><p>10 1,52 160,2 F</p><p>Quadro 4.4 - Comprimento, massa corporal e sexo dos leões</p><p>A ideia era esconder do algoritmo o sexo dos animais e ver se ele</p><p>agruparia de forma correta por sexo, mas logo se percebeu um problema, pois</p><p>o comprimento (m) e massa corporal (kg) estão em escalas diferentes. Para</p><p>evitar distorções no resultado, ele decidiu padronizar essas variáveis subtraindo</p><p>de cada uma sua média, e dividindo o resultado pelo desvio padrão. Essa</p><p>padronização, às vezes, chamada de reescalonamento, é muito comum na</p><p>estatística. Feita essa operação, o jovem cientista de dados usou da função</p><p>kmeans() do R, especificando querer 2 grupos, plotou o resultado e obteve o</p><p>gráfico exibido na Figura 4.7.</p><p>Figura 4.7 - Agrupamento dos dados relativos a leões e leoas</p><p>Veja que interessante: o algoritmo de agrupamento por k-médias, tendo</p><p>sido informado pelo cientista de dados que deveria formar dois grupos das 10</p><p>observações das leoas e leões, usando apenas como conhecimento o</p><p>comprimento e a massa corporal padronizados dos felinos, agrupou-os</p><p>exatamente em 6 fêmeas (em vermelho) e 4 machos (em verde). Ao lado de</p><p>cada uma das observações individuais, há um número, que é o número da</p><p>observação (linha) da tabela de dados.</p><p>Por exemplo, vamos ver quem é a leoa da linha 6 na tabela. Ela está</p><p>destoando um pouco das demais leoas, com comprimento de 1,50 metros e</p><p>massa de 204,0 quilos. Seu comprimento está na faixa normal dos</p><p>comprimentos de leoas, mas sua massa corporal está acima do normal. A Figura</p><p>4.7 mostra isso visualmente, de forma clara, mas note que, nesse exemplo</p><p>simples, atribuído ao jovem cientista de dados com o propósito de treinamento,</p><p>nós já sabíamos quem eram as fêmeas e quem eram os machos e suas</p><p>características. Para um conjunto de dados oriundos de um fenômeno ou</p><p>processo desconhecido, esses agrupamentos permitem descobertas, se os</p><p>grupos formados fizerem algum sentido, por isso a importância de um</p><p>especialista da área ao lado do estatístico ou do cientista de dados para ajudar</p><p>a interpretar os resultados.</p><p>Também é importante, na análise exploratória com algoritmos de</p><p>agrupamento, fazer diversas tentativas, pois, como já dissemos, é um processo</p><p>de descoberta e não há uma resposta certa, como em problemas</p><p>supervisionados. Nada é garantido e não se sabe exatamente onde se vai chegar,</p><p>pois é uma exploração!</p><p>Mas havia outra tarefa atribuída ao jovem cientista de dados que o</p><p>aguardava desde o início dessa jornada, a análise dos dados de USArrest. Vamos</p><p>ver, em seguida, como ele enfrentou esse desafio.</p><p>Agrupamento Hierárquico</p><p>Por recomendação do estatístico sênior americano, o jovem cientista de</p><p>dados deveria usar na análise dos dados de USArrest um outro algoritmo de</p><p>agrupamento, denominado de agrupamento hierárquico. A ideia do seu</p><p>supervisor era apenas de treiná-lo nesses dois importantes algoritmos de</p><p>agrupamento, o de k-médias e o de agrupamento hierárquico. Não se sabe, a</p><p>priori, para um dado conjunto de dados, qual deles trará melhores descobertas.</p><p>É um processo de tentativa e erro. Além disso, há outros algoritmos de</p><p>agrupamento, mas não os discutiremos aqui.</p><p>A forma de funcionamento do algoritmo de agrupamento hierárquico é</p><p>diferente do de k-médias. O estatístico sênior americano chamou o jovem</p><p>cientista de dados e, como fez anteriormente para o algoritmo de k-médias,</p><p>explicou como o algoritmo de agrupamento hierárquico funciona:</p><p>1. É aplicado em agrupamento de dados oriundos de variáveis quantitativas,</p><p>como no caso das variáveis Murder, Assault, UrbanPop e Rape de</p><p>USArrest;</p><p>2. O analista não decide em quantos grupos dividir as observações. O</p><p>algoritmo hierárquico sempre vai começar com grupos com um só</p><p>indivíduo, ou seja, tanto os grupos quanto o número de observações na</p><p>amostra analisada;</p><p>3. O analista escolhe um critério de medida de distância de qualquer grupo</p><p>do conjunto de dados até qualquer outro grupo já formado. Por exemplo,</p><p>pode ser a distância mais próxima entre indivíduos dos dois grupos, a mais</p><p>afastada entre indivíduos dos dois grupos ou a distância entre as</p><p>centroides dos dois grupos;</p><p>4. A partir desse ponto, o algoritmo calcula, para cada grupo, de qual outro</p><p>grupo ele está mais próximo e funde esses grupos mais próximos em um</p><p>só;</p><p>5. O passo 4 é repetido até se chegar a apenas um grupo, com todas as</p><p>observações do conjunto de dados.</p><p>O estatístico sênior americano continuou e disse que, por exemplo, no</p><p>caso do conjunto de dados de USArrest, com suas 4 variáveis quantitativas e 50</p><p>observações (ou seja, 50 é o tamanho da amostra), o algoritmo de agrupamento</p><p>hierárquico começaria com 50 grupos de um só indivíduo cada e, aos poucos,</p><p>fundiria os mais próximos entre si, dois a dois, até acabar com um só grupo com</p><p>50 indivíduos.</p><p>Nesse ponto, o jovem cientista de dados fez uma pergunta óbvia ao seu</p><p>supervisor: bem, afinal, nesse exemplo, se o algoritmo começa com 50 grupos e</p><p>acaba com 1 grupo, que agrupamento devo escolher? O seu supervisor já</p><p>esperava por essa pergunta e deu uma resposta que é típica para análises de</p><p>agrupamento: é. você que escolhe qual agrupamento faz mais sentido. Por isso,</p><p>se você não é um expert no assunto analisado, tenha ao seu lado um especialista</p><p>da área para lhe ajudar com esse processo de descoberta. Em seguida, seu</p><p>supervisor pediu que fizesse a análise de agrupamento dos dados USArrest, mas,</p><p>para simplificar, limitou o conjunto de observações a apenas 5 Estados, como</p><p>mostra o Quadro 4.5.</p><p>Murder Assault UrbanPop Rape</p><p>Arkansas 8,8 190 50 19,5</p><p>Louisiana 15,4 249 66 22,5</p><p>New Mexico 11,4 285 70 32,1</p><p>Oklahoma 6,6 151 68 20,2</p><p>Texas 12,7 201 80 25,5</p><p>Quadro 4.5 - Dados de USArrests para apenas cinco estados americanos</p><p>Só restava, agora, ao jovem cientista de dados, arregaçar as mangas</p><p>da sua camisa e colocar suas mãos à obra. Aqui, também decidiu fazer o</p><p>reescalonamento das variáveis (para cada variável subtrair sua média e dividir</p><p>pelo seu desvio padrão). Escolheu um critério de medida de distância entre</p><p>grupos de observações e, por meio do R, obteve o resultado exibido na Figura</p><p>4.8.</p><p>Figura 4.8 - Dendrograma do agrupamento dos cinco Estados</p><p>Esse gráfico é denominado de dendrograma, que significa diagrama na</p><p>forma de uma árvore. Esse é o output típico da função hclust() do R que realiza</p><p>agrupamento hierárquico. Veja que ele exibe, de baixo para cima, primeiro</p><p>todas observações, que são os grupos de um só indivíduo, e vai agrupando-as</p><p>até o topo, onde só há um grupo com todos indivíduos.</p><p>Ao analisar esse gráfico de cima para baixo, e comparar com o Quadro 4.5,</p><p>o jovem cientista de dados viu que o algoritmo forma dois grupos, um com dois</p><p>Estados, Arkansas e Oklahoma, que têm taxas de homicídios por 100.000 mil</p><p>habitantes entre 6,6 a 8,8, e o outro com três Estados, Louisiana, Texas e New</p><p>Mexico, que têm taxas de homicídios entre 11,4 a 15,4, ou seja, são dois grupos</p><p>onde os com menores taxas de homicídio estão em um primeiro grupo</p><p>e os com</p><p>maiores taxas de homicídio estão em um segundo grupo.</p><p>Ele continuou analisando o segundo grupo e viu que dentro dele há um</p><p>subgrupo com um só indivíduo, New Mexico, e outro subgrupo com dois</p><p>Estados, Louisiana e Texas. Ao examinar o Quadro 4.5, percebeu que a taxa de</p><p>estupros por 100.000 habitantes do New Mexico é de 32,2, enquanto as taxas</p><p>da Louisiana e do Texas ficam entre 22,5 e 25,5. Esse novo exemplo de</p><p>agrupamento o fez ter uma ideia melhor de como os algoritmos de agrupamento</p><p>podem nos ajudar, sugerindo “padrões similares de comportamento” entre</p><p>observação (registros, linhas) de um conjunto de dados, principalmente, em</p><p>casos em que há muitas observações (milhares ou mais) e muitas variáveis</p><p>(dezenas ou centenas). Também ficou feliz que o seu supervisor não pediu, de</p><p>imediato, que analisasse todos os 50 Estados de USArrest. Ele iria precisar de</p><p>vários dias!</p><p>Reflita</p><p>“As regras de negócios mudaram. Em todos os setores de atividades, a</p><p>difusão de tecnologias novas digitais e o surgimento de novas ameaças</p><p>disruptivas estão transformando modelos e processos de negócios. A revolução</p><p>digital está virando de cabeça para baixo o velho guia de negócios[...] Empresas</p><p>constituídas antes do surgimento da internet enfrentam um grande desafio:</p><p>muitas das regras e pressupostos fundamentais que governavam e orientavam</p><p>a atuação e o progresso dos negócios na era pré-digital não mais se aplicam. A</p><p>boa notícia é que a mudança é possível. As empresas pré-digitais não são</p><p>dinossauros condenados à extinção. A ruptura não é inevitável. As empresas</p><p>podem transformar-se e florescer na era digital.”</p><p>Vamos Praticar</p><p>Uma companhia internacional de vendas on-line deseja agrupar seus</p><p>clientes com base em suas características comuns. Os gestores da companhia</p><p>não têm rótulos predefinidos para esses grupos. Com base no resultado do</p><p>agrupamento, eles definirão campanhas de marketing e de divulgação</p><p>específicas para cada um dos diferentes grupos que vierem a ser definidos. As</p><p>informações que dispõe sobre seus clientes incluem renda, idade, número de</p><p>filhos, estado civil e grau de educação.</p><p>A respeito de algoritmos de agrupamento, assinale a alternativa correta:</p><p>a) Algoritmos de agrupamento só conseguem lidar com variáveis quantitativas.</p><p>Sendo assim, parte das variáveis disponíveis para esse caso são irrelevantes.</p><p>b) Algoritmos de agrupamento podem ter as suas soluções verificadas por um</p><p>supervisor e, dessa forma, saberemos se o resultado é bom ou ruim.</p><p>c) Seres humanos não possuem habilidade natural para agrupar e depois</p><p>classificar, já que isso só pode ser realizado por meio de algoritmos.</p><p>d) O resultado de um problema de agrupamento pode ser usado, depois, como</p><p>entrada para um problema de classificação.</p><p>e) Algoritmos de agrupamento são especializados no tratamento de conjuntos</p><p>de dados exclusivamente qualitativos.</p><p>Conclusão</p><p>Muito bem, chegamos ao fim, mas todo fim é um recomeço, de outro</p><p>ponto de partida, para uma nova jornada. Nessa que acabou, estudamos como</p><p>a estatística é aplicada à ciência dos dados e, com a ajuda de alguns</p><p>personagens, vimos exemplos de aplicações de: (1) Como fazer a predição do</p><p>valor de imóveis; (2) Como fazer a predição da inadimplência com cartões de</p><p>crédito; (3) Como fazer a predição do volume de vendas de um produto de</p><p>varejo; e (4) Como estudar a violência urbana com algoritmos de agrupamento.</p><p>Tudo isso de forma introdutória, apenas para lhe propiciar uma visão geral do</p><p>grande potencial de aplicação dessas técnicas ao mundo dos negócios e à ciência</p><p>em geral. Caberá a você decidir se tudo isso lhe interessa e, se assim for o seu</p><p>desejo, prosseguir estudando esse tema e temas correlatos. Sem dúvida, há</p><p>muitas oportunidades que, hoje, o mercado de trabalho oferece, voltadas às</p><p>aplicações desse tipo, mas há também tantas outras mais que, seja qual for a</p><p>sua decisão, estude, cuide do seu desenvolvimento, e tenha muito sucesso!</p><p>A4</p><p>PERGUNTA 1</p><p>Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico:</p><p>“Começa com todos os registros. Progressivamente, os grupos são unidos aos</p><p>grupos próximos até que todos os registros pertençam a um único grupo. O histórico</p><p>de aglomeração é retido e plotado, e o usuário pode visualizar o número e a estrutura</p><p>dos grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos</p><p>diferentes, todas baseadas no conjunto de distância inter-registros.”</p><p>A partir do apresentado, analise as asserções a seguir e a relação proposta entre</p><p>elas.</p><p>I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número</p><p>de grupos que deseja ver o algoritmo formar.</p><p>Pois</p><p>II. O algoritmo começa com grupos formados por registros individuais e,</p><p>progressivamente, os grupos são unidos aos grupos mais próximos, até que todos os</p><p>registros pertençam a um único grupo.</p><p>A) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta</p><p>da I.</p><p>B) A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.</p><p>C) A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.</p><p>D) As asserções I e II são proposições falsas.</p><p>E) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa</p><p>da I.</p><p>PERGUNTA 2</p><p>Os métodos de aprendizagem estatística (statistical learning, em inglês) são</p><p>divididos em métodos de aprendizagem supervisionada e métodos de aprendizagem</p><p>não supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção</p><p>relativamente grande de diferentes métodos, cada um com seu próprio jeito de</p><p>funcionamento.</p><p>Assinale a alternativa que indica um problema de aprendizagem não</p><p>supervisionada:</p><p>A) Ajudaremos médicos se conseguirmos avaliar a gravidade de uma doença a partir</p><p>de dados relativos às condições do paciente.</p><p>B) Pretendemos ter uma ideia do volume de vendas de um produto de varejo a partir</p><p>de algumas características do ponto de venda.</p><p>C) Gostaríamos de saber que pessoas ficarão inadimplentes com o pagamento das</p><p>faturas de seus cartões de crédito.</p><p>D) Desejamos entender se há similaridade entre observações (indivíduos) de uma</p><p>certa amostra de dados.</p><p>E) Queremos estimar o valor de imóveis a partir das suas características, tais como</p><p>sua área, seu andar e sua localização.</p><p>PERGUNTA 3</p><p>Depois que formamos grupos de observações de um conjunto de dados</p><p>(amostra), por meio de um algoritmo de agrupamento, podemos dar nomes aos</p><p>mesmos, e cada indivíduo de cada grupo será classificado de acordo com esse nome.</p><p>O ser humano faz isso com naturalidade, primeiro agrupar e, depois de formados os</p><p>grupos, dar nomes aos grupos. Por exemplo, animais vertebrados ou invertebrados,</p><p>carros ou aviões, homens ou mulheres.</p><p>A partir do apresentado, analise as asserções a seguir e a relação proposta</p><p>entre elas. e assinale a alternativa correta:</p><p>I. Ao usarmos de algoritmos de agrupamento, depois que formados e nomeados</p><p>(classificados) os grupos de observações resultantes do algoritmo, não é possível</p><p>usar essas classes como variáveis respostas e, a partir desse ponto, executar tarefas</p><p>preditivas com algoritmos de classificação.</p><p>Pois</p><p>II. Algoritmos de agrupamento fazem parte dos métodos da chamada aprendizagem</p><p>não supervisionada. Não são modelos preditivos.</p><p>A) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa</p><p>da I.</p><p>B) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.</p><p>C) As asserções I e II são proposições falsas.</p><p>D) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta</p><p>da I.</p><p>E) A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.</p><p>PERGUNTA 4</p><p>Leia o excerto a seguir:</p><p>“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística,</p><p>ciência da computação, tecnologia da informação e</p><p>campos de domínios específicos.</p><p>Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a</p><p>um dado conceito.”</p><p>A partir do apresentado, analise as asserções a seguir e a relação proposta entre</p><p>elas.</p><p>I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes</p><p>para se referir a um dado conceito.</p><p>Pois</p><p>II. A estatística usa, de forma profunda, a matemática como pilar do seu</p><p>desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto o</p><p>assunto são dados. É usada por todas áreas científicas.</p><p>A) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta</p><p>da I.</p><p>B) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa</p><p>da I.</p><p>C) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.</p><p>D) A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.</p><p>E) As asserções I e II são proposições falsas.</p><p>PERGUNTA 5</p><p>Discutimos o que são aprendizagem supervisionada e não supervisionada.</p><p>Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença</p><p>entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses</p><p>dois tipos são os mais importantes dentre os diversos tipos de aprendizagem.</p><p>Relativamente a esse assunto, analise as afirmativas a seguir:</p><p>I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como</p><p>sendo a variável resposta, a qual responde em função dos valores assumidos pelas</p><p>outras variáveis, as quais são chamadas de variáveis de entrada.</p><p>II. Especificamente na aprendizagem supervisionada, também denominamos uma</p><p>variável resposta de variável de saída ou variável dependente.</p><p>III. Especificamente na aprendizagem supervisionada, também denominamos uma</p><p>variável de entrada de variável regressora, variável preditora, variável explanatória</p><p>ou variável independente.</p><p>IV. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da</p><p>mesma forma, sem procurar explicar o comportamento de uma delas em função dos</p><p>valores assumidos pelas outras.</p><p>A) II e III, apenas. B) II, III e IV, apenas. C) I, III e IV, apenas. D) I, II e IV,</p><p>apenas. E) I, II, III e IV.</p><p>PERGUNTA 6</p><p>Um jovem cientista de dados realizou uma análise de agrupamento de apenas</p><p>cinco estados americanos parte do famoso conjunto de dados USArrests, o qual</p><p>possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault,</p><p>UrbanPop e Rape).</p><p>Obteve o resultado exibido na figura exibida adiante:</p><p>Figura - Dendrograma do agrupamento dos cinco estados</p><p>Relativamente à interpretação desta figura, assinale a alternativa correta:</p><p>A) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de baixo</p><p>para cima, na altura (height) 1,5 sugere a formação de 6 grupos.</p><p>B) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere</p><p>serem os estados Texas e Arkansas os mais próximos em termos de violência</p><p>urbana.</p><p>C) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de</p><p>cima para baixo, na altura (height) 1,5 sugere a formação de 10 grupos.</p><p>D) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa</p><p>os vários grupos formados em cada estágio do processo de agrupamento hierárquico.</p><p>E) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem</p><p>os estados New Mexico e Oklahoma os mais próximos em termos de violência</p><p>urbana.</p><p>PERGUNTA 7</p><p>A escolha de grupos formados por um algoritmo de agrupamento hierárquico</p><p>pode ser feita por meio da leitura do dendrograma resultante. Escolhe-se a altura</p><p>(Height) desejada, se traça uma linha horizontal a partir dessa altura, que cruzará com</p><p>as linhas verticais dos grupos formados nesta altura. O cientista de dados decide se</p><p>esses grupos são adequados para a sua análise.</p><p>Veja, por exemplo, a figura abaixo.</p><p>Figura - Dendrograma do agrupamento de oito estados</p><p>Com respeito da leitura deste dendrograma, analise as afirmativas a seguir e assinale</p><p>V</p><p>para a(s) Verdadeira(s) e F para a(s) Falsa(s).</p><p>I. () A altura 4 cruza com duas linhas verticais, que indicam dois grupos, o primeiro</p><p>deles formado pelos estados {Connecticut, Delaware}, e o segundo deles formado</p><p>pelos estados {Colorado, Arizona, California, Alaska, Alabama, Arkansas}.</p><p>II. () A altura 4 cruza com três linhas verticais, que indicam três grupos, o primeiro</p><p>deles formado pelos estados {Connecticut, Delaware}, o segundo deles formado pelos</p><p>estados {Colorado, Arizona, California}, e o terceiro deles formado pelos estados</p><p>{Alaska, Alabama, Arkansas}.</p><p>III. () A altura 3 cruza com duas linhas verticais, que indicam dois grupos, o primeiro</p><p>deles formado pelos estados {Connecticut, Delaware}, e o segundo deles formado</p><p>pelos estados {Colorado, Arizona, California, Alaska, Alabama, Arkansas}.</p><p>IV. () A altura 3 cruza com três linhas verticais, que indicam três grupos, o primeiro</p><p>deles formado pelos estados {Connecticut, Delaware}, o segundo deles formado pelos</p><p>estados {Colorado, Arizona, California}, e o terceiro deles formado pelos estados</p><p>{Alaska, Alabama, Arkansas}.</p><p>A) V, F, F, V. B) F, V, F, V. C) V, F, V, F D) F, V, V, F. E) F, V, V, F.</p><p>PERGUNTA 8</p><p>Na estatística ou, genericamente, na análise de dados, muito frequentemente</p><p>analisamos dados ditos retangulares ou estruturados, onde as variáveis -</p><p>quantitativas ou qualitativas - são dispostas nas colunas e as observações na linhas</p><p>de uma tabela. Em algumas situações é vantajoso se fazer a padronização das</p><p>variáveis quantitativas.</p><p>Assinale a alternativa correta relativamente ao assunto de padronização de</p><p>variáveis quantitativas na estatística:</p><p>A) Na padronização, se calcula a média geral entre todas variáveis e depois se</p><p>subtrai este valor de cada uma das variáveis</p><p>B) Na padronização, se subtrai de cada variável seu desvio padrão, e depois se divide</p><p>o resultado pela média da variável</p><p>C) Na padronização, se subtrai de cada variável sua média, e depois se divide o</p><p>resultado pelo seu desvio padrão</p><p>D) Na padronização, se subtrai de cada variável sua média, e não se faz nada com</p><p>respeito ao seu desvio padrão.</p><p>E) Na padronização, se subtrai de cada variável seu desvio padrão, e não se faz nada</p><p>com respeito à sua média.</p><p>PERGUNTA 9</p><p>Leia o excerto a seguir:</p><p>“Normalização: É comum normalizar (padronizar) variáveis contínuas através</p><p>da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com</p><p>grande escala dominarão o processo de agrupamento (veja Padronização</p><p>(Normalização, Escores Z), no Capítulo 6).”</p><p>A partir do apresentado, analise as asserções a seguir e a relação proposta</p><p>entre elas.</p><p>I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar</p><p>(padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de</p><p>uma análise de agrupamento.</p><p>Pois</p><p>II. No conjunto de dados observados (a amostra de dados), podem existir variáveis</p><p>que estão em uma escala muito maior que as outras, e a medida de distância entre</p><p>observações dessas variáveis dominarão o resultado da análise de agrupamento, na</p><p>formação dos grupos de observações similares entre si.</p><p>A) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta</p><p>da I.</p><p>B) A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.</p><p>C) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa</p><p>correta da I.</p><p>D) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.</p><p>E) As asserções I e II são proposições falsas.</p><p>PERGUNTA 10</p><p>O texto em referência apresenta como exemplo de agrupamento uma</p><p>companhia de vendas online que deseja agrupar seus clientes com base em suas</p><p>características comuns (renda, idade, número de filhos, estado civil, grau de</p><p>educação, etc.). Com o resultado do agrupamento, eles</p><p>definirão campanhas de</p><p>marketing e de divulgação específicas para cada um dos diferentes grupos que</p><p>vierem a ser definidos.</p><p>A respeito das fontes que originaram os contos de fadas, analise as afirmativas a</p><p>seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).</p><p>I. () Algoritmos de agrupamento só conseguem lidar com variáveis quantitativas.</p><p>Sendo assim, parte das variáveis disponíveis para esse caso são irrelevantes.</p><p>II. () Algoritmos de agrupamento são especializados no tratamento de conjuntos de</p><p>dados exclusivamente qualitativos.</p><p>III. () Algoritmos de agrupamento podem ter as suas soluções verificadas por um</p><p>supervisor e, dessa forma, saberemos se o resultado é bom ou ruim.</p><p>IV. () Seres humanos não possuem habilidade natural para agrupar e depois</p><p>classificar, já que isso só pode ser realizado por meio de algoritmos.</p><p>A) F, F, F, F. B) V, V, F, V. C) V, V, V, V. D) F, V, F, V. E) V, V, F,</p><p>F.</p><p>Breve Histórico</p><p>Linguagens de Programação na Ciência dos Dados</p><p>Fases do Desenvolvimento de Modelos Preditivos</p><p>Predição do Valor de Venda de Imóveis</p><p>Dados Retangulares e Data-frames</p><p>Dados Relativos ao Valor de Venda do Imóvel</p><p>Visualização do Valor versus Área do Imóvel</p><p>Visualização do Valor versus Localização</p><p>Modelos de Regressão Linear</p><p>Valor versus Área do Imóvel</p><p>Valor versus Andar do Imóvel</p><p>Valor versus Área e Andar do Imóvel</p><p>Valor versus Área, Andar e Localização do Imóvel</p><p>A1</p><p>PERGUNTA 1</p><p>Aprendizagem não Supervisionada e Supervisionada</p><p>Dois Principais Tipos de Aprendizagem Supervisionada</p><p>Regressão Logística e Outros Classificadores</p><p>Predição de Inadimplência com Cartões de Crédito</p><p>Dados de Inadimplência com Cartões de Crédito</p><p>Análise Descritiva de Cada Variável da Amostra</p><p>Análise Descritiva da Relação entre Variáveis</p><p>Modelo de Regressão Logística Simples</p><p>Modelo de Regressão Logística Múltipla</p><p>1. CRESCE COM A RENDA DA PESSOA PORQUE B1 É POSITIV</p><p>2. CRESCE COM O AUMENTO DOS GASTOS COM O CARTÃO PORQUE B2 É POSITIVO</p><p>3. DECRESCE COM A ESTABILIDADE NO EMPREGO PORQUE B3 É NEGATIVO</p><p>A2</p><p>PERGUNTA 1</p><p>PERGUNTA 2</p><p>PERGUNTA 3</p><p>PERGUNTA 5</p><p>PERGUNTA 7</p><p>PERGUNTA 8</p><p>PERGUNTA 9</p><p>PERGUNTA 10</p><p>Problemas de Regressão e de Classificação</p><p>Aprendizagem de Máquina e Aprendizagem Profunda</p><p>Árvores de Decisão para Regressão e Classificação</p><p>Análise Descritiva de Cada Variável Individualmente</p><p>Análise Descritiva da Relação entre as Variáveis</p><p>Predição do Volume de Vendas de Produto de Varejo</p><p>Teste da Performance Preditiva do Modelo</p><p>A3</p><p>pERGUNTA 1</p><p>Mineração de Dados</p><p>Análise Exploratória</p><p>Algoritmos de Agrupamento</p><p>Estudo de Caso - Violência Urbana</p><p>Análise Descritiva da Relação entre as Variáveis</p><p>Agrupamento por k-Médias</p><p>Agrupamento Hierárquico</p><p>A4</p><p>PERGUNTA 1</p><p>PERGUNTA 2</p><p>PERGUNTA 3</p><p>PERGUNTA 6</p><p>PERGUNTA 8</p><p>calcular o</p><p>valor mínimo (min), a mediana (median), o máximo (max) e o desvio-padrão (sd)</p><p>dos dados observados:</p><p>min(x2)=1 median(x2)=4 max(x2)=14 sd=3,1</p><p>Ele viu, então, que para esses 100 apartamentos vendidos, o andar do</p><p>imóvel variou entre um mínimo de 1 (primeiro andar), uma mediana de 4 (50%</p><p>dos apartamentos até o quarto andar), um máximo de 14 (décimo-quarto andar)</p><p>e um desvio-padrão de 3,1 andares (uma indicação da variabilidade desses</p><p>dados relativos ao andar dos apartamentos).</p><p>Saiba mais</p><p>Ao longo da unidade, falamos diversas vezes sobre o R. Primeiro na</p><p>seção em que discutimos sobre linguagens de programação e, ao longo do caso</p><p>estudado, quando o estatístico recorreu ao R inúmeras vezes, ou para produzir</p><p>sumários estatísticos, ou estimar os coeficientes dos modelos, ou mesmo para</p><p>a visualização dos dados, com as funções gráficas do R. Se você quiser</p><p>conhecer mais sobre o R, você pode instalá-lo e usá-lo livremente, em casa ou</p><p>no trabalho, pois é público e gratuito.</p><p>Em seguida decidiu visualizar esses dados. Como o andar do imóvel é uma</p><p>variável quantitativa, optou por construir um histograma de X2 usando a função</p><p>gráfica hist() do R:</p><p>Figura 1.2 - Histograma dos dados relativos ao andar dos apartamentos</p><p>Dados Relativos à Localização do Imóvel</p><p>Em seguida, o estatístico passou ao exame dos dados relativos à</p><p>localização dos apartamentos. Logo percebeu que essa variável, X3 (local do</p><p>imóvel) tratava-se de uma variável qualitativa nominal com apenas dois níveis,</p><p>“Bairro” e “Centro”, uma variável por vezes chamada de dicotômica, em</p><p>oposição às variáveis qualitativas politômicas, as quais podem assumir mais de</p><p>dois níveis, ou classes. Decidiu codificar esses dados usando uma forma de</p><p>codificação muito comum para variáveis dicotômicas, como segue:</p><p>Bairro=0 Centro=1</p><p>Após isso, como esses dados são qualitativos, uma das formas mais</p><p>práticas para sumarizá-los é contando a frequência de aparição de cada nível (0</p><p>ou 1) na amostra coletada. Para isso usou de uma interessante função do R,</p><p>denominada de table(), obtendo os seguintes resultados:</p><p>table(x3) 0 1</p><p>32 68</p><p>Ou seja, do total de apartamentos observados, 32 estavam localizados no</p><p>Bairro (0) e 68 no Centro (1). A corretora havia explicado, ao estatístico, que a</p><p>imobiliária havia coletado os dados dessa forma, sem tentar distinguir em maior</p><p>detalhe qual exato bairro ou qual exato local no centro, porque com base na sua</p><p>experiência de vários anos, havia concluído não haver a necessidade de maior</p><p>detalhamento, ao menos naquele município onde ela atuava.</p><p>Em seguida decidiu visualizar esses dados. A forma preferida do estatístico</p><p>ou do cientista de dados de visualizar dados qualitativos é por meio de</p><p>diagramas de barras. Nesse diagrama, cada nível (classe) da variável é associada</p><p>a uma barra, e a altura da barra é proporcional à frequência absoluta com que</p><p>o nível (classe) foi observado na amostra.</p><p>O estatístico usou uma função gráfica do R, denominada de barplot(), e</p><p>obteve o seguinte resultado:</p><p>Figura 1.3 - Diagrama de barras dos dados de localização dos apartamentos</p><p>Como você pode observar, o diagrama de barras oferece uma simples,</p><p>porém bastante efetiva, visualização da frequência de observações de cada nível</p><p>(classe) da variável qualitativa. Vale notar aqui que podemos usar a frequência</p><p>relativa no lugar da frequência absoluta, com o mesmo resultado visual.</p><p>Também vale notar que gráficos de pizza são uma alternativa aos diagramas de</p><p>barras.</p><p>Dados Relativos ao Valor de Venda do Imóvel</p><p>Finalmente, o estatístico prosseguiu com sua análise descritiva</p><p>examinando a variável YY (valor de venda do imóvel) e, novamente, usou de</p><p>funções do R para calcular os valores mínimo (min), médio (mean), máximo</p><p>(max) e desvio-padrão (sd) dos dados observados:</p><p>min(y)=129 mean(y)=366,5 max(y)=556 sd=85,9</p><p>Vemos que, para esses 100 apartamentos, o valor de venda variou entre</p><p>um mínimo de 129 kR$ e um máximo de 556 kR$, com valor médio de 366,5 kR$</p><p>e um desvio padrão de 85,9 kR$.</p><p>Assim como fez para as outras variáveis, também aqui resolveu visualizar</p><p>os dados coletados quanto ao valor de venda. Sendo esses dados quantitativos,</p><p>construiu um histograma de YY (valor de venda do imóvel) usando a função</p><p>gráfica hist() do R:</p><p>Figura 1.4 - Histograma dos dados do valor de venda dos apartamentos</p><p>Percebeu serem dos dados relativos aos valores de venda dos imóveis</p><p>distribuídos de forma ligeiramente assimétrica, com uma maior frequência de</p><p>observações se concentrando à direita.</p><p>Visualização do Valor versus Área do Imóvel</p><p>Como a ideia da corretora era conseguir fazer uma predição do valor de</p><p>venda de um apartamento dadas as suas características (com base nos dados</p><p>coletados na amostra), o estatístico decidiu visualizar essa possível relação</p><p>construindo um gráfico de dispersão (scatter plot em inglês), no qual plotaria os</p><p>dados relativos à área do imóvel X1X1 no eixo horizontal, e os dados relativos</p><p>ao valor de venda do imóvel YY no eixo vertical. Gráficos de dispersão são</p><p>usados para a visualização da relação entre variáveis quantitativas. Os dados,</p><p>nesse caso, devem ser tomados aos pares, isto é (X1, Y)(X1, Y), a primeira e a</p><p>última coluna da tabela, linha a linha (aos pares):</p><p>X1 = Área (m2) Y = Valor (R$mil)</p><p>59,4 398</p><p>62,7 340</p><p>80,6 544</p><p>65,7 283</p><p>... ...</p><p>62,6 304</p><p>54,7 347</p><p>Quadro 1.2 - Tabela área e valor</p><p>Fonte: Elaborado pelo autor.</p><p>Para isso o estatístico usou uma função gráfica do R de nominada de</p><p>plot(), obtendo o seguinte resultado exibido na Figura 1.5. Essa figura mostra</p><p>que há uma associação positiva entre Y e X1. Há uma tendência de Y subir (o</p><p>valor do imóvel), quando X1 cresce (a área do imóvel). A dispersão dos dados se</p><p>dá porque há outros fatores influentes que causam essa variabilidade nas</p><p>observações da amostra coletada. A função cor() do R permite uma medida da</p><p>força dessa associação:</p><p>cor(y,x1)=0,55</p><p>Esse valor indica que, para os dados amostrados, a correlação entre Y e X1 é</p><p>positiva, com uma força moderada.</p><p>Figura 1.5 - Gráfico de dispersão da área e valor dos apartamentos</p><p>Visualização do Valor versus o Andar do Imóvel</p><p>Em seguida, fez o mesmo para a relação entre os dados de valor de venda</p><p>do imóvel Y versus seu andar X2, e os plotou aos pares, isto é, (X2, Y), a segunda</p><p>e a última coluna da tabela com os dados dos imóveis, linha a linha (aos pares).</p><p>Novamente o estatístico recorreu à função plot() do R e obteve o resultado</p><p>exibido na Figura 1.6.</p><p>Essa figura também mostra que há uma associação positiva entre Y e X2,</p><p>porém mais sutil. Talvez você não consiga ver isso muito bem, mas não se</p><p>preocupe. O estatístico tem já uma grande experiência, e mesmo ele pode ter</p><p>dificuldade em ver que há uma tendência de Y subir (o valor do apartamento),</p><p>quando X2 cresce (o andar do apartamento). Para verificar essa questão, o</p><p>estatístico aqui lançou mão da função cor() do R, obtendo:</p><p>cor(y,x2)=0,24</p><p>Também nesse caso a correlação é positiva, porém aqui com uma força</p><p>mais fraca do que a correlação entre Y e X1. A dispersão dos dados se dá porque</p><p>há outros fatores influentes e ruídos, que causam variabilidade nas observações</p><p>da amostra coletada.</p><p>Figura 1.6 - Gráfico de dispersão do andar e valor dos apartamentos</p><p>Outra curiosidade é que os dados relativos à Y encontram-se</p><p>“empilhados” sobre alguns valores de X2, mas isto é apenas fruto direto do fato</p><p>que X2 varia de forma discreta, ou seja, X2 =1,2,3,... , o andar de cada</p><p>apartamento vendido.</p><p>Visualização do Valor versus Localização</p><p>Aqui o estatístico teve de lançar mão de um tipo de gráfico que permitisse</p><p>a visualização de dados quantitativos Y (valor de venda) versus dados</p><p>qualitativos X3 (localização do imóvel). Uma solução muito inteligente para isso</p><p>é recorrer aos boxplots (diagramas</p><p>de caixas), onde no eixo horizontal indicamos</p><p>os níveis da variável qualitativa X3 e no eixo vertical os valores observados da</p><p>variável quantitativa Y, também aos pares (X3, Y), isto é, a terceira e a quarta</p><p>coluna da tabela de dados. O resultado que o estatístico obteve foi o seguinte:</p><p>Figura 1.7 - Boxplots da localização e valor dos apartamentos</p><p>Esse gráfico permite ver como se dispersam os valores de venda dos</p><p>imóveis da amostra, exibidos ao longo do eixo vertical, em função da sua</p><p>localização, exibida no eixo horizontal. Veja que imóveis no centro têm valor</p><p>inferior a imóveis no bairro. Nas palavras de um especialista: “Boxplots são</p><p>muito úteis na visualização gráfica entre diferentes conjuntos de dados, porque</p><p>têm um alto impacto visual e são fáceis de entender”. São muito usados nas</p><p>situações em que queremos visualizar a relação de dados quantitativos com</p><p>dados qualitativos.</p><p>Vamos Praticar</p><p>Dados Estruturados: talvez seja o formato mais fácil de se trabalhar no R.</p><p>São conjuntos de informações organizadas em colunas (atributos, variáveis,</p><p>features etc.) e linhas (registros, itens, observações etc.). São dados mais</p><p>comumente encontrados diretamente em bancos de dados, arquivos com</p><p>algum tipo de separação entre as colunas, Excel, arquivos com campos de</p><p>tamanhos fixo etc. Com base neste texto, assinale a alternativa correta:</p><p>a) Dados estruturados não são importantes para a estatística ou para a ciência</p><p>dos dados.</p><p>b) No R, estruturas de dados organizados em tabelas, com as variáveis</p><p>dispostas nas colunas e as observações nas linhas, são chamados de data-</p><p>frames.</p><p>c) Dados retangulares não são a mesma coisa que dados estruturados. Dados</p><p>retangulares têm estrutura de retângulos, e dados estruturados são</p><p>organizados na forma de tabelas.</p><p>d) Dados retangulares não são organizados com as variáveis dispostas nas</p><p>colunas e as observações dispostas nas linhas.</p><p>e) Chamar variáveis de atributos é impróprio na ciência dos dados, já que</p><p>variáveis são sempre variáveis.</p><p>Predição com Modelos de Regressão Linear</p><p>Nesta seção, veremos como modelos de regressão linear simples e</p><p>múltipla são empregados como modelos preditivos de valores de variáveis</p><p>quantitativas. Isso será ilustrado com o desenvolvimento de um modelo de</p><p>regressão linear na predição do valor de venda de imóveis.</p><p>Modelos de Regressão Linear</p><p>Modelos de regressão linear são usados para a predição do valor esperado</p><p>de uma variável resposta quantitativa, habitualmente anotada como Y, em</p><p>função de uma ou muitas variáveis de entrada, habitualmente anotadas como</p><p>X, com um índice a elas associados se mais do que uma. Por exemplo, no caso</p><p>aqui estudado, temos três variáveis de entrada, X1, X2 e X3. Esquematicamente,</p><p>podemos representar essa ideia da seguinte forma:</p><p>Figura 1.8 - Representação da transformação das entradas na saída</p><p>O modelo aqui funciona como uma função que transforma os dados</p><p>de entrada em um dado de saída. Vale dizer, nesse momento, que há outras</p><p>denominações comuns para essas variáveis, tais como:</p><p>X=varia´vel de entrada, regressora, preditora, independente</p><p>Y=varia´vel de sai´da, de resposta, dependente, target variableY</p><p>Vamos ver como evolui o caso da nossa corretora, seus apartamentos e a</p><p>ajuda do seu amigo estatístico.</p><p>Valor versus Área do Imóvel</p><p>Em um primeiro momento, a corretora pediu para o estatístico fazer uma</p><p>tentativa inicial de predição usando apenas a variável área do imóvel X1 como</p><p>variável de entrada (preditora).</p><p>O estatístico imediatamente pensou em um modelo de regressão linear</p><p>simples. O nome simples, na regressão linear, significa que o modelo de</p><p>regressão considerará apenas uma variável de entrada (aqui, neste nosso caso,</p><p>X1, a área do imóvel) e procurará verificar qual seu possível efeito na variável</p><p>resposta (aqui, neste nosso caso, Y, o valor do imóvel), com base nos dados</p><p>amostrados.</p><p>O estatístico, então, escreveu o seguinte modelo de regressão linear</p><p>simples para essa situação:</p><p>y=b0+b1x1</p><p>Aqui, b0 e b1 são coeficientes do modelo. Seu maior interesse, nesse</p><p>momento, era o de determinar os valores desses coeficientes. Com isso, ele</p><p>poderia estimar y=E[Y], o valor esperado (valor médio) para o imóvel, quando</p><p>sua área X1 for igual a x1 metros quadrados, ou seja, X1=x1.</p><p>Ele fez isso usando de um método clássico da estatística, o Método dos</p><p>Mínimos Quadrados. Não é nosso objetivo discutir o funcionamento desse</p><p>método, mas apenas ilustrar o poder da estatística quando aplicada à ciência</p><p>dos dados. Vamos nos concentrar nos resultados da aplicação desse método</p><p>quando o usamos para o cálculo dos coeficientes b0 e b1. O estatístico usou do</p><p>software R para fazer esses cálculos, e obteve:</p><p>b0=kR$27,22 e b1=kR$5,15/m2</p><p>tal que, substituindo esses valores no modelo de regressão linear simples acima,</p><p>chegamos a:</p><p>y=27,22+5,15 x1</p><p>Esse resultado pode ser plotado no gráfico de dispersão que vimos</p><p>anteriormente para o valor do imóvel y, em função da área do imóvel x1:</p><p>Figura 1.9 - Gráfico de dispersão da área e valor dos apartamentos</p><p>Vemos que a plotagem do modelo ajustado fornece uma reta, com</p><p>interseção com o eixo vertical em x1=0 igual a b0=27,22 m2 e inclinação igual a</p><p>b1=kR$ 5,15/m2. Podemos mudar a escala do eixo horizontal para a mesma</p><p>escala que usamos anteriormente para a construção do gráfico de dispersão</p><p>entre y e x1, resultando numa melhor visualização:</p><p>Figura 1.10 - Gráfico de dispersão da área e valor dos apartamentos.</p><p>Devemos interpretar esse resultado. O coeficiente de interseção é</p><p>o valor esperado (valor médio) para y quando x1=0, ou seja, o valor esperado</p><p>para o preço de venda quando a área do apartamento for igual a zero. Essa</p><p>interpretação não tem um sentido real, pois não existem apartamentos com</p><p>área igual a zero. Nessa situação, é comum tomarmos esse coeficiente apenas</p><p>como um coeficiente de ajuste do modelo, sem nos preocuparmos em atribuir</p><p>a ele um significado “real”.</p><p>Apenas quando faz sentido a variável preditora assumir um valor igual a</p><p>zero, é que também faz sentido interpretar o coeficiente b0 não só como um</p><p>coeficiente de ajuste do modelo, mas efetivamente como o valor esperado para</p><p>y quando x1 é igual a zero. Espero que você tenha entendido esse ponto. Não é</p><p>muito complicado.</p><p>Já com respeito ao coeficiente b1, que é a inclinação da reta, esse sempre terá</p><p>uma interpretação bastante útil. O valor calculado pelo estatístico para esse</p><p>coeficiente foi:</p><p>b1=kR$5,15/m2</p><p>Ele representa o quanto aumenta o preço de venda do apartamento com</p><p>o aumento da área em exatamente 1 metro quadrado. Isto é, ele é o valor do</p><p>metro quadrado médio para os apartamentos da amostra que a corretora</p><p>passou para o estatístico.</p><p>Fazer uma predição do valor esperado de yy (preço de venda do imóvel),</p><p>dada sua área em x1 em metros quadrados, fica fácil agora. Suponha que você</p><p>quer saber qual seria o preço de venda médio estimado para um apartamento</p><p>de 65 m2. Basta substituir esse valor na equação do modelo e o resultado será</p><p>y=27,22 + 5,15×65 = 362</p><p>Aqui, arredondamos o valor 361,97 mil para 362 mil reais, pois estamos</p><p>estimando em mil reais, e não temos interesse em frações de mil reais.</p><p>Valor versus Andar do Imóvel</p><p>O estatístico mostrou à sua amiga corretora a análise preditiva que ele</p><p>havia realizado com base nos dados da área dos imóveis x1 e seus valores de</p><p>venda y. Ela ficou muito admirada e curiosa em saber como seria esse resultado</p><p>se, ao invés de usarmos como dados de entrada a área dos imóveis, usássemos</p><p>o número x2 do seu andar. E pediu que o estatístico desenvolvesse esse outro</p><p>modelo preditivo.</p><p>Obviamente, o estatístico, já tendo usado um modelo de regressão linear</p><p>simples para a situação anterior, decidiu fazer o mesmo para esse novo caso, e</p><p>escreveu o seguinte modelo de regressão linear simples para essa nova situação:</p><p>Y = b0 + b2x2</p><p>Também aqui aplicou o</p><p>Método dos Mínimos Quadrados para o ajuste do</p><p>modelo, por meio do software estatístico R. Obteve os seguintes valores para os</p><p>coeficientes do modelo:</p><p>B0 = kR6,55/andar</p><p>tal que, substituindo esses valores no modelo de regressão linear simples acima,</p><p>chegamos a:</p><p>y= 333,71 + 6,55 x2</p><p>Esse resultado pode ser plotado no gráfico de dispersão que vimos</p><p>anteriormente para valor do imóvel y (kR$) em função de andar do imóvel x2 (1,</p><p>2, 3, …):</p><p>Figura 1.11 - Gráfico de dispersão do andar e valor dos apartamentos</p><p>Também aqui devemos interpretar esse resultado. O coeficiente de</p><p>interseção é o valor esperado para y quando x2=0, ou seja, o valor esperado para</p><p>o preço de venda quando o andar do apartamento for igual a zero, o térreo.</p><p>Nesse caso, temos uma interpretação para o coeficiente de interseção do</p><p>modelo, além de um mero parâmetro de ajuste do modelo aos dados</p><p>amostrados, pois existem apartamentos em andares térreos. Devemos notar,</p><p>entretanto, que na amostra coletada pela imobiliária onde trabalha a corretora,</p><p>nenhum dos apartamentos vendidos ficava no andar térreo. Fazer x2=0, nesse</p><p>caso, é uma extrapolação da predição para além da região onde os dados foram</p><p>observados. Quando x2=0 (andar térreo), a predição para o valor do imóvel é</p><p>Y = 333,71 + 6,55 × 0 = 333,71</p><p>Ou seja, y é exatamente igual a b0, a interseção da reta com o eixo vertical</p><p>na posição x2=0 do gráfico.</p><p>Quanto ao coeficiente b2, que é a inclinação da reta, a interpretação é</p><p>similar àquela que já demos anteriormente para o caso do coeficiente b1. O</p><p>valor calculado para esse coeficiente foi:</p><p>b2 = kR 6,55/andar representa o valor do aumento por cada 1 andar (valor</p><p>unitário por andar), o qual deve se somar a R$ 333,71 mil para se ter a estimativa</p><p>do valor esperado para o valor do imóvel.</p><p>Fazer uma predição do valor esperado de y (preço de venda do imóvel), dado</p><p>seu andar, fica fácil agora. Suponha que você quer saber qual seria o preço de</p><p>venda médio estimado para um apartamento no décimo andar. Basta substituir</p><p>esse valor na equação do modelo e o resultado será</p><p>Y = 333,71 + 6,55 × 10 = 399</p><p>Aqui, arredondamos o valor 399,21 para 399 mil reais, pois estamos</p><p>estimando em mil reais, e não temos interesse em frações de mil reais.</p><p>Valor versus Área e Andar do Imóvel</p><p>Nesse ponto o estatístico decidiu combinar os dois modelos anteriores em</p><p>um só, onde o valor esperado para yy (valor do imóvel) é escrito como função</p><p>de x1 (área do imóvel) e x2 (andar do imóvel), simultaneamente. Esse modelo</p><p>fica assim:</p><p>Y = b0 + b1 x 1 + b2x2</p><p>Denominamos um modelo desse tipo, onde há mais do que uma variável</p><p>de entrada, de modelo de regressão linear múltipla. Muito importante é</p><p>evitarmos a tentação de usar os valores previamente determinados, nos</p><p>modelos de regressão simples anteriores, para b0, b1 e b2 , nesse modelo de</p><p>regressão múltipla. Quando aplicamos o Método dos Mínimos Quadrados, cada</p><p>novo modelo deve ser ajustado aos dados da amostra independentemente de</p><p>outros modelos, gerando assim um conjunto de coeficientes específicos para si.</p><p>O estatístico, que conhecia muito bem sobre isso, recorreu novamente ao</p><p>software estatístico R para calcular os valores dos coeficientes desse novo</p><p>modelo. Chegou aos seguintes resultados:</p><p>B0 = −kR5,12/m2b2 = kR$6,34/andar</p><p>Substituindo esses valores no modelo de regressão múltipla, temos:</p><p>y = −2,59 + 5,12 x1 + 6,34 x2</p><p>Essa expressão pode ser usada para fazermos predições do valor esperado</p><p>de y à área desejada e o andar desejado para o apartamento. A corretora já</p><p>aproveitou para fazer um teste, pois uma cliente gostaria de saber qual valor</p><p>esperado de um apartamento com uma área de 50 metros quadrados, situado</p><p>no 10º andar. Esse apartamento seria para ela, o seu marido e um filhinho. De</p><p>posse do modelo, foi simples fazer a predição:</p><p>Y = −2,59 + 5,12 × 50 + 6,34 × 10 = 317</p><p>Aqui, novamente, arredondamos 316,81 para 317 mil reais, pois</p><p>queremos avaliar o valor do imóvel sem nos preocuparmos com frações de mil</p><p>reais.</p><p>Valor versus Área, Andar e Localização do Imóvel</p><p>Naturalmente, a corretora ficou muito feliz ao ver que já dispunha de um</p><p>algoritmo de predição. Percebeu que agora só faltava incluir no modelo de</p><p>regressão múltipla a última variável da base de dados da imobiliária, ou seja,</p><p>aquela relativa à localização do imóvel.</p><p>A imobiliária só registrava se o imóvel havia sido vendido em um bairro</p><p>ou no centro. Sendo assim, essa variável, que é uma variável qualitativa, só</p><p>podia assumir dois valores (dois níveis, duas classes). Você lembra que o</p><p>estatístico já havia decidido codificar esses dois níveis da seguinte forma:</p><p>Bairro = 0 Centro = 1</p><p>O estatístico prosseguiu e escreveu o seguinte modelo de regressão</p><p>múltipla com variáveis preditoras mistas (quantitativas e qualitativas):</p><p>Y = b0 + b1x1 + b2x2 + b3x3</p><p>Novamente, recorreu ao R e calculou os coeficientes para esse modelo,</p><p>obtendo:</p><p>b0 = kR 4,87 / m2</p><p>b2 = kR 27,43 / localização</p><p>Substituindo esses valores na expressão do modelo, fica assim:</p><p>Y = 32,67 + 4,87 x1 + 6,36 x2 − 27,43 x3</p><p>Já discutimos a interpretação dos coeficientes b1 e b2. Vamos, agora,</p><p>discutir a interpretação do coeficiente b3. Para isso basta lembrar que x3 pode</p><p>assumir dois valores, ou níveis (classes), Bairro = 0 e Centro = 1. Como o</p><p>coeficiente b3 está multiplicando x3, a contribuição do termo contendo b3 para</p><p>o valor de y será zero quando x3=0 e menos kR$ 27,43 quando x3=1. Ou seja, o</p><p>modelo nos informa que, quando o imóvel está localizado no centro, ele custa,</p><p>em média, 27,43 mil reais a menos que um apartamento de bairro de mesma</p><p>área e mesmo andar.</p><p>A corretora pediu um exemplo. Precisava entender melhor. O estatístico,</p><p>então, deu o seguinte exemplo: pensou na mesma cliente que já havia solicitado</p><p>uma predição do valor esperado para um apartamento de 50 metros quadrados</p><p>de décimo andar; mas ela não havia especificado onde, se no bairro ou no</p><p>centro; ora, agora ele tinha um modelo que levava em conta essa variável e só</p><p>substituiu os 50 metros e 10º andar no modelo. Obteve o seguinte resultado:</p><p>Y = 32,67 + 4,87 × 50 + 6,36 × 10 − 27,43 x3 = 339,77 − 27,43 x3</p><p>e viu que:</p><p>x3=0 (bairro) ⇒ y=339,77</p><p>x3=1 (centro) ⇒ y=312,34</p><p>A diferença de valor é 27,43 mil reais, que resulta em 27 mil reais ao</p><p>arredondarmos para mil. Apartamentos de mesmas características no centro</p><p>custam 27 mil reais a menos que apartamentos nos bairros. Isso vale para aquele</p><p>município, para os dados amostrados pela imobiliária e para esse modelo</p><p>específico de regressão linear múltipla, com variáveis de entrada (preditoras)</p><p>mistas, quantitativas e qualitativas. Outros dados e outros modelos podem levar</p><p>a resultados diferentes.</p><p>A corretora entendeu e quase atingiu o auge de sua felicidade. Agora tinha</p><p>à sua disposição um algoritmo preditor de valores esperados para os imóveis</p><p>que ela comercializava. Mas, e o aplicativo?</p><p>O aplicativo deve ser produzido em um passo posterior ao</p><p>desenvolvimento do algoritmo. Com o algoritmo de predição pronto, agora, a</p><p>corretora deverá procurar um profissional que possa desenvolver um aplicativo</p><p>(um engenheiro de software, por exemplo), especializado em aplicações na web</p><p>ou em smartphones. Esse profissional criará uma interface entre o usuário (a</p><p>corretora) e o algoritmo (o modelo preditivo), tal que, com a entrada de dados</p><p>das características de um apartamento, o aplicativo produzirá, na tela do</p><p>computador ou do smartphone, a predição do seu valor esperado (médio) de</p><p>venda.</p><p>Reflita</p><p>Será que você sabia que a estatística e a ciência dos dados são muito</p><p>usadas nas ciências dos esportes, tanto amadores quanto profissionais? E você?</p><p>Consegue se imaginar trabalhando para um grande clube como especialista em</p><p>análise estatística esportiva? Reflita sobre isso, enquanto lê, analisa e pensa</p><p>sobre o que lhe propomos aqui.</p><p>Além disso, o engenheiro</p><p>de software poderá desenvolver o aplicativo de</p><p>uma forma ainda mais robusta, permitindo que a imobiliária o alimente,</p><p>periodicamente, com novos dados de apartamentos vendidos. Isso permitirá</p><p>que o aplicativo se mantenha atualizado frente à evolução das condições de</p><p>preços do mercado imobiliário, que podem subir ou descer com as flutuações</p><p>da economia.</p><p>Vamos Praticar</p><p>Exemplo didático para regressão linear: como exemplo didático para a</p><p>regressão linear, considere o proprietário de um restaurante que deseja</p><p>aumentar as vendas investindo em propaganda na rádio da cidade. Considere</p><p>também que o gasto nesse tipo de publicidade é calculado pelo número de</p><p>inserções do anúncio na programação da rádio durante o mês. Com o cuidado</p><p>de mensurar o efeito desses anúncios, o proprietário do restaurante somou, ao</p><p>final dos meses em que fez o investimento com o anúncio, o número de</p><p>vendas do prato filé à parmegiana.</p><p>O texto em referência descreve um problema de regressão linear, para o</p><p>qual se obteve o seguinte modelo:</p><p>Y = 117,38 + 9,62x</p><p>onde:</p><p>x=número de inserões de anúncios durante o mês</p><p>y=número de pratos de Filé à Parmegiana vendidos no mês</p><p>Para essa situação, assinale a alternativa correta:</p><p>a) Os modelos de regressão linear são divididos em modelos de regressão</p><p>linear simples e múltipla. O modelo desenvolvido para a situação aqui descrita</p><p>é um modelo de regressão linear múltipla, onde há mais do que uma variável</p><p>de entrada.</p><p>b) A variável resposta deste modelo de regressão linear é o número de</p><p>inserções de anúncios em um mês. A variável resposta também é chamada de</p><p>variável independente ou regressora.</p><p>c) O parâmetro 9,62 representa o número de pratos de filé à parmegiana que</p><p>são vendidos em um mês em que não se fez nenhuma inserção de anúncios.</p><p>Em outras palavras, representa o número de pratos y quando x = 0.</p><p>d) Para saber quanto pratos de filé à parmegiana conseguirá vender no mês se</p><p>investir em 50 inserções de anúncios, o proprietário substituiu o x da equação</p><p>do modelo por 50 e obteve 598 pratos (arredondando para um número inteiro</p><p>de pratos).</p><p>e) Como a estatística e a ciência dos dados possuem em suas bases teorias</p><p>matemáticas, não é possível aplicá-las a ciências sociais ou humanas</p><p>(sociologia, história, antropologia, ciências políticas, direito, administração,</p><p>filosofia, geografia, economia etc.).</p><p>Conclusão</p><p>Nessa unidade, contamos com a ajuda de dois personagens, uma</p><p>corretora de imóveis e um estatístico, e pudemos ver – com essa valiosa ajuda</p><p>– como é possível desenvolvermos uma capacidade preditiva se tivermos dados</p><p>onde nos basear e modelos que “aprendem com os dados”. Especificamente,</p><p>iniciamos a nossa jornada por este mundo, o da “Estatística Aplicada à Ciência</p><p>dos Dados”, com os modelos preditivos chamados de regressão linear, simples</p><p>e múltipla. Nas próximas unidades aprofundaremos nossa jornada por esse</p><p>incrível e poderoso mundo. Vamos lá?</p><p>A1</p><p>PERGUNTA 1</p><p>Uma fábrica de autopeças possuía duas linhas de produção idênticas para seu</p><p>principal produto. Os gestores precisavam aumentar a capacidade de produção</p><p>dessas linhas para atender a um novo contrato de fornecimento com uma grande</p><p>montadora que passaria a vigorar em 6 meses. Eles precisavam decidir entre a</p><p>alternativa de investir em duas máquinas novas, uma para cada linha de produção,</p><p>ou se seria suficiente otimizar a produção fazendo um retrofitting das máquinas</p><p>existentes, um novo layout para o fluxo da produção e um maior número de</p><p>funcionários dedicados a cada linha. Eles também queriam ter maior flexibilidade em</p><p>controlar a taxa de produção.</p><p>Os gestores pediram a uma jovem engenheira de produção, recém-contratada, para</p><p>ajudá-los na análise dessas alternativas. Essa jovem engenheira, após alguns testes,</p><p>desenvolveu o seguinte modelo:</p><p>em que</p><p>Com base no modelo descrito, responda às seguintes perguntas:</p><p>1) Quais foram as variáveis estudadas?</p><p>2) Qual o tipo de cada variável, quantitativa ou qualitativa? Se quantitativa, qual sua</p><p>unidade de medida? Se qualitativa, que níveis ou classes podem assumir?</p><p>3) Como pode esse modelo de regressão linear múltipla ser usado para fazer predição</p><p>de volume de produção de cada linha da fábrica?</p><p>4) Reflita sobre situações similares em que você poderia aplicar essa mesma técnica</p><p>(regressão linear múltipla) para gerar conhecimento a partir de dados. Descreva</p><p>brevemente uma dessas situações que você pensou, identifique cada uma das</p><p>variáveis de entrada e a variável resposta, descreva o tipo de cada uma delas (se</p><p>quantitativa ou qualitativa) e forneça suas unidades de medida (se quantitativas) ou</p><p>seus níveis ou classes (se qualitativas).</p><p>UNIDADE 2</p><p>Introdução</p><p>Na primeira unidade, vimos como aplicar modelos da estatística à ciência</p><p>dos dados. Especificamente, estudamos um caso de aplicação de modelos de</p><p>regressão linear simples e múltipla na predição do valor esperado de venda de</p><p>imóveis. Nesse caso, a variável resposta, o valor do imóvel, é quantitativa.</p><p>Denominamos modelos de regressão a classe de modelos que produzem, como</p><p>saída, uma variável resposta quantitativa.</p><p>Nesta unidade, veremos outra classe de modelos preditivos, aqueles que</p><p>produzem, como saída, o resultado de uma variável qualitativa. Modelos desse</p><p>tipo são chamados modelos de classificação. Daremos início ao estudo de</p><p>algoritmos de classificação examinando um dos mais famosos: o de regressão</p><p>logística. Mas há uma curiosidade, afinal, regressão logística é um algoritmo de</p><p>regressão (que faz predição de valores para variáveis quantitativas) ou um</p><p>algoritmo de classificação (que faz predição de valores de variáveis qualitativas).</p><p>Regressão logística é, de fato, empregada como um algoritmo de classificação,</p><p>mas parte de sua construção funciona como um modelo de regressão. Esses</p><p>pontos ficarão mais notórios ao longo da unidade.</p><p>O fato é que regressão logística é muito popular e aplicada à ciência dos</p><p>dados com enorme frequência.</p><p>Tipos de Aprendizagem de Máquina</p><p>Nesta seção, veremos aprendizagem supervisionada e não</p><p>supervisionada, jargões típicos da área de machine learning, que acabou sendo</p><p>empregada também na ciência dos dados. Em seguida, como nosso foco são</p><p>modelos preditivos, veremos quais são os dois tipos principais de aprendizagem</p><p>supervisionada, regressão e classificação.</p><p>Aprendizagem não Supervisionada e Supervisionada</p><p>Em primeiro lugar, antes de descrevermos quais são os dois principais</p><p>tipos de aprendizagem supervisionada, precisamos entender o que são</p><p>aprendizagem supervisionada e não supervisionada. Vamos começar com esta</p><p>última, utilizando dados estruturados, organizados em uma tabela, na qual as</p><p>variáveis são dispostas nas colunas e as observações, nas linhas.</p><p>X1 X2 ... Xm</p><p>1 x11 x12 ... x1m</p><p>2 x21 x22 ... x2m</p><p>... ... ... ... ...</p><p>n xn1 xn2 ... xnm</p><p>Tabela 2.1 - Organização dos dados em aprendizagem não supervisionada</p><p>LINHAS Observações, repetições, realizações, instâncias, exemplos</p><p>COLUNAS Variáveis qualitativas ou quantitativas</p><p>CÉLULA xij = Resultado da i-ésima observação da variável Xj</p><p>Na aprendizagem não supervisionada, não apontamos uma das variáveis</p><p>como uma variável resposta, sobre a qual gostaríamos de predizer o resultado</p><p>para diferentes valores das variáveis de entrada. O foco é nas observações, e o</p><p>objetivo do aprendizado é o de procurar padrões comuns entre as observações</p><p>da amostra.</p><p>Chamamos uma linha da tabela de observação. Uma observação i é um</p><p>vetor de registros</p><p>(xi1, xi2, xi3, ..., xim) i=1,2,...,n</p><p>dos valores das variáveis X1, X2, X3, ...,Xm da observação i, e n é o tamanho da</p><p>amostra, igual ao número de linhas na tabela. Cada um desses vetores</p><p>representa uma observação individual. Uma das mais frequentes abordagens da</p><p>aprendizagem não supervisionada é a de tentar identificar</p><p>similaridades entre</p><p>essas observações Xi (isto é, similaridades entre os vetores de observações Xi)</p><p>e, ao encontrar similaridades, agrupá-las. Aos indivíduos de um mesmo grupo,</p><p>podemos dar um nome. A partir desse ponto, qualquer novo indivíduo</p><p>observado será classificado como pertencente a um dos grupos previamente</p><p>identificados. Esse ponto será elucidado na Unidade 4, quando estudaremos</p><p>algoritmos de agrupamento, que fazem parte dos métodos de aprendizagem</p><p>não supervisionada. Entretanto, se você quiser já ler algo sobre esse tema,</p><p>recomendamos o livro Introdução à Mineração de Dados com o R, de Leandro</p><p>Augusto da Silva et al. (2016) ou Estatística Prática para Cientistas de Dados, de</p><p>Peter Bruce e Andrew Bruce (2019).</p><p>X1 X2 ... Xp Y</p><p>1 x11 x12 ... x1p y1</p><p>2 x21 x22 ... x2p y2</p><p>... ... ... ... ... ...</p><p>n xn1 xn2 ... xnp yn</p><p>Tabela 2.2 - Organização dos dados em aprendizagem supervisionada</p><p>LINHAS Observações, repetições, realizações, instâncias, exemplos</p><p>COLUNAS Variáveis qualitativas ou quantitativas</p><p>CÉLULA xij = Resultado da i-ésima observação da variável Xj</p><p>yi = Resultado da i-ésima observação da variável Y</p><p>Na aprendizagem supervisionada, as variáveis X1, X2, …, Xp são as</p><p>variáveis de entrada, enquanto a variável Y é a variável de saída. Ao coletarmos</p><p>os dados, consideramos uma das variáveis, que chamamos de Y, como uma</p><p>resposta aos valores (dados de entrada) assumidos pelas outras variáveis,</p><p>denominadas X1, X2, …, Xp e procuramos descobrir uma função que, alimentada</p><p>com os dados de entrada, produza a resposta (Y). Os dados da variável</p><p>resposta agem como supervisores ou exemplos das tentativas de acertar qual</p><p>função leva aos valores de saída. Comparamos nossas estimativas y^1, y^2, ...,</p><p>y^n, obtidas por meio do modelo escolhido, com os valores observados y1, y2,</p><p>..., yn. Essa comparação funciona com um supervisor, que nos diz quão boas são</p><p>nossas estimativas. Quando fazemos essas tentativas, podemos aprimorar</p><p>nosso modelo, usando algum critério de medida de performance, até ficarmos</p><p>satisfeitos. Cada modelo preditivo possui um ou mais critérios de medida da sua</p><p>performance.</p><p>Na aprendizagem supervisionada, outros nomes dados para as variáveis</p><p>de entrada são: variáveis regressoras, explanatórias, preditoras ou</p><p>independentes; e, para a variável resposta: variável de saída, dependente ou</p><p>target variable (este último nome é um jargão da ciência da computação). Na</p><p>Unidade 1, usamos esse arranjo de variáveis para fazer o ajuste dos modelos de</p><p>regressão linear simples e múltipla aos dados observados. Especificamente,</p><p>ajustamos os modelos aos dados usando o Método dos Mínimos Quadrados, já</p><p>automaticamente embutido no software estatístico R, para determinar os</p><p>coeficientes do modelo.</p><p>Dois Principais Tipos de Aprendizagem Supervisionada</p><p>Na aprendizagem supervisionada, usamos valores conhecidos das</p><p>variáveis de entrada, obtidos por meio de uma amostra de tamanho nn, e</p><p>tentamos predizer o valor da variável resposta YY. Se anotarmos as variáveis de</p><p>entrada como um vetor</p><p>X=(X1, X2, ..., Xp)</p><p>podemos escrever esse processo como aquele de procurar uma função preditiva</p><p>ff que faça esse trabalho, qual seja,</p><p>Y=f(X)+ϵ</p><p>em que ϵ é um termo de erro aleatório. Representa a aleatoriedade do</p><p>fenômeno estudado, ruídos ambientais, erros de medições, efeitos de variáveis</p><p>que não sabemos existir, mas que influenciam o fenômeno estudado.</p><p>Quando Y é uma variável aleatória quantitativa, assume valores</p><p>quantitativos, que são coisas que a gente consegue medir:</p><p>massa, comprimento, temperatura, preço, área, densidade, inflação…</p><p>Quando Y é uma variável qualitativa, assume como valores suas classes</p><p>ou níveis, que são coisas que se consegue contar, por exemplo: quantas pessoas</p><p>moram no Centro, Zona Leste, Zona Sul, Zona Norte ou Zona Oeste, na sua turma</p><p>da faculdade. A sua turma é a sua amostra, e você conta quantos dos alunos são</p><p>de uma ou de outra classe (zona onde moram). Outros exemplos são:</p><p>classes sociais (A, B, C, D e E), escolaridade (fundamental, médio, superior), sexo</p><p>(feminino ou masculino), cor (vermelho, azul ou verde), gravidade de uma</p><p>doença (leve, moderada, grave)...</p><p>Quando em um problema de aprendizagem supervisionada a variável</p><p>resposta que queremos predizer é quantitativa, denominamos regressão.</p><p>Quando em um problema de aprendizagem supervisionada a variável resposta</p><p>é qualitativa, é denominado classificação.</p><p>Note que, para ambos os problemas, as variáveis de entrada podem ser</p><p>quantitativas ou qualitativas, conforme já estudamos, na Unidade 1, para</p><p>modelos de regressão linear simples e múltipla, na predição de valores de venda</p><p>esperados para imóveis.</p><p>Figura 2.1 - Problemas de regressão e de classificação</p><p>Finalmente, observamos que classificação é tanto ou mesmo mais</p><p>frequente que regressão. Alguns exemplos nos ajudarão a perceber isso:</p><p>i. Os sintomas apresentados por uma pessoa (X = batimentos cardíacos, pressão</p><p>arterial, ritmo respiratório, movimentação ocular, ...) levam à suspeita de que</p><p>pode estar tendo um dentre três tipos de ataques: Y = overdose, ataque</p><p>cardíaco, ataque epiléptico.</p><p>ii. Um serviço de banco on-line pode suspeitar que a operação que está sendo</p><p>realizada (X = IP do cliente, localização, valor, padrão de digitação, ....) é</p><p>fraudulenta (Y = sim ou não fraudulenta).</p><p>iii. Um teste de sequência de DNA (X = sequência) pode indicar se o paciente</p><p>tem alguma doença genética (Y = sim ou não doença genética).</p><p>Vamos Praticar</p><p>A análise preditiva é uma tarefa de mineração de dados aplicável em um</p><p>grande número de domínios. Alguns exemplos de áreas nas quais a análise</p><p>preditiva está presente são: análise do comportamento e expressão das</p><p>emoções em redes sociais, realizada com base no vocabulário usado nas</p><p>manifestações de opiniões sobre produtos; na biometria, com reconhecimento</p><p>de íris, impressão digital, face ou assinatura; na predição de subida ou queda de</p><p>ações no mercado financeiro; na Biologia, mediante a classificação de novas</p><p>espécies de organismos vivos; na Medicina, com aplicação de modelos de</p><p>predição categórica para auxiliar no diagnóstico de um tumor como maligno ou</p><p>benigno.</p><p>Está correto o que se afirma em:</p><p>a) Análise de comportamento é um problema de regressão.</p><p>b) Reconhecimento de íris, impressão digital, face ou assinatura são um</p><p>problema de regressão.</p><p>c) A predição se um tumor é maligno ou benigno é um problema de regressão.</p><p>d) Todas as aplicações descritas são problemas de classificação.</p><p>e) Apenas a predição de subida e queda de ações são um problema de</p><p>classificação.</p><p>Estudo de Caso - Predição de Inadimplência</p><p>Nesta seção, veremos como fazer predição de classes de uma variável</p><p>qualitativa com modelos de regressão logística. Regressão logística é um</p><p>método de classificação da estatística, de emprego muito comum na ciência dos</p><p>dados. Explicaremos a aparente contradição do nome regressão, usado em</p><p>problemas de classificação.</p><p>Regressão Logística e Outros Classificadores</p><p>São muitos os algoritmos de classificação disponíveis para o</p><p>desenvolvimento de modelos preditivos: regressão logística, análise</p><p>discriminante linear (LDA = Linear Discriminant Analysis), árvores de decisão</p><p>para classificação, máquinas de vetores de suporte (SVM = support vector</p><p>machines), k-vizinhos mais próximos (KNN = k-nearest neighbors). A lista não</p><p>acaba aqui. Nesses listados estão alguns métodos de classificação clássicos e</p><p>outros mais recentes, originados da fusão de métodos da estatística com</p><p>métodos de aprendizado de máquina (ML = Machine Learning) da ciência da</p><p>computação.</p><p>Este último termo, machine learning, você já deve ter ouvido ou lido.</p><p>Classificação por métodos de machine learning estão, hoje, muito presentes no</p><p>nosso dia a dia. São algoritmos como os que a Netflix usa para recomendar</p><p>o</p><p>próximo filme a ser assistido, ou que o Facebook usa para sugerir uma nova</p><p>amiga ou um novo amigo para nossa rede de relacionamento social, ou bancos</p><p>usam para detectar operações potencialmente fraudulentas com cartões de</p><p>débito ou crédito, ou que concessionárias de distribuição de energia elétrica</p><p>usam para identificar casos potenciais de roubo de energia da rede, os famosos</p><p>“gatos”.</p><p>Entraremos nesse mundo via regressão logística. Nada melhor para</p><p>demonstrar a aplicação da estatística à ciência dos dados. Porém, antes de</p><p>apresentar o modelo de classificação por regressão logística, devemos entender</p><p>duas formas diferentes de fazer classificação: determinística ou probabilística.</p><p>Tome, por exemplo, a variável resposta qualitativa YY com dois níveis (classes);</p><p>o indivíduo está infectado pelo vírus HIV (Y=1Y=1) ou não está infectado (Y=0),</p><p>dado um conjunto de sintomas x=(x1,x2,...,xp) que apresenta.</p><p>Figura 2.2 - Classificação determinística e classificação probabilística</p><p>No jargão da estatística, escrever Y=y significa que a variável aleatória Y</p><p>resultou no valor y, em que y é um dos possíveis valores que a variável aleatória</p><p>Y pode assumir (ou seja, uma de suas classes, no caso das variáveis qualitativas).</p><p>Também, nesse mesmo jargão, escrever P(Y=y | X=x) significa a probabilidade</p><p>de Y ser igual a um dos seus possíveis valores y quando a variável de entrada X</p><p>é igual a x (dado que X=x).</p><p>Um classificador determinístico confirmará se o indivíduo está ou não está</p><p>infectado, dados os sintomas que apresenta. Um classificador probabilístico</p><p>determinará a probabilidade de o indivíduo estar ou não infectado, dados os</p><p>sintomas que apresenta. Veja que, no primeiro caso, a variável resposta é</p><p>claramente uma qualidade, estar ou não infectado, e o classificador classificará</p><p>o indivíduo em uma das duas classes da variável resposta: sim ou não infectado.</p><p>No segundo caso, o classificador produz, como saída, a probabilidade de cada</p><p>um dos níveis (classes) se manifestar, ou seja, a probabilidade de o indivíduo</p><p>estar ou não infectado.</p><p>Ambos os tipos de classificadores precisam ser treinados com base em</p><p>dados que lhes são passados. No exemplo aqui discutido, são dados relativos a</p><p>pessoas com sintomas indicativos de possível infecção por HIV, x=(x1,x2,...,xp),</p><p>e o resultado exato de um teste diagnóstico padrão ouro, que confirmou se</p><p>essas pessoas estavam ou não com o vírus (Y=1 ou 0).</p><p>O modelo de classificação por regressão logística é um classificador</p><p>probabilístico. Indica a probabilidade de uma determinada classe e, em sintonia</p><p>com o exemplo que acabamos de ver, é mais usado para o caso de variáveis</p><p>respostas qualitativas com duas classes, apenas, ditas dicotômicas. Pode ser</p><p>usado para variáveis respostas qualitativas com mais de duas classes, dita</p><p>politômicas, mas isso é menos frequente no caso de classificação por regressão</p><p>logística.</p><p>Finalmente, todos os modelos ou algoritmos da estatística ou de machine</p><p>learning aplicados à ciência de dados erram. Em outras palavras, apresentam</p><p>uma performance com maior ou menor nível de acertos e erros. Isso depende</p><p>dos dados com os quais foram treinados e testados, e também do próprio jeito</p><p>de funcionar do algoritmo. Cada um tem seu jeito próprio de funcionar, que</p><p>pode ser melhor ou pior do que outro algoritmo, para cada situação específica.</p><p>Adiante, apresentaremos a técnica de classificação da regressão logística</p><p>com a ajuda de um estudo de caso simulado. Mesmo sendo simulado, reflete</p><p>bem situações vividas no mundo real para a aprovação de créditos bancários,</p><p>tais como cartões de créditos. A diferença é que no mundo real a classificação é</p><p>feita com um grande número de variáveis de entrada, enquanto neste estudo</p><p>de caso simulado por conta de seu propósito didático, trabalharemos com um</p><p>conjunto pequeno de variáveis preditivas. Esse estudo abrirá um grande leque</p><p>de possíveis aplicações da estatística e das ciências dos dados no mundo no qual</p><p>vivemos hoje. De fato, é exatamente isso que já está acontecendo em,</p><p>praticamente, todas as áreas da atividade humana, seja no mundo acadêmico</p><p>ou no mundo dos negócios.</p><p>Predição de Inadimplência com Cartões de Crédito</p><p>Um gerente de pessoas físicas de um banco de varejo vive em um</p><p>ambiente onde questões relativas à análise de aprovação de cartão de crédito</p><p>para seus clientes e à inadimplência no pagamento das faturas mensais desses</p><p>cartões são frequentes.</p><p>A atividade de venda de produtos financeiros por bancos de varejo, tais</p><p>como cartões de crédito, requer que se faça uma avaliação do cliente. É foco</p><p>dessa avaliação aprovar ou não um cartão de crédito para o cliente e, se</p><p>aprovado, definir o limite do cartão, ou seja, o valor do crédito a conceder.</p><p>O primeiro problema é um problema de classificação: aprovar (sim ou</p><p>não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis</p><p>(classes). O segundo problema é um problema de regressão, predizer o valor do</p><p>limite (do crédito) do cartão. Como já explicado, aqui, daremos atenção ao</p><p>primeiro problema.</p><p>Como se fazia isso nos bancos e ainda se faz, ao menos em parte? Por meio da</p><p>definição de regras que devem ser atendidas por cada cliente, tais como idade,</p><p>emprego estável, renda fixa, dívidas pequenas, nome “limpo”, casa própria etc.</p><p>Como se faz isso com algoritmos ou modelos preditivos? Uma alternativa</p><p>frequentemente usada são algoritmos de aprendizagem supervisionada. Para</p><p>isso, precisamos de dados. Ensinamos ao algoritmo, com base nos dados que</p><p>lhes são passados, a predizer clientes que são maus pagadores potenciais das</p><p>faturas do cartão. Dessa forma, se o algoritmo, ao ser alimentado com os dados</p><p>referentes a um novo cliente, classificar esse cliente como um mau pagador</p><p>potencial, o banco não aprovará o cartão.</p><p>Figura 2.3 - Algoritmo de classificação para aprovação de crédito</p><p>Para equipes de análise de crédito, poder contar com a ajuda de um</p><p>software com a capacidade de recomendar a aprovação ou não da concessão do</p><p>cartão é de grande valor. A recomendação feita pelo software poderá ser</p><p>tratada ao lado de outras regras de crédito, para uma decisão final sobre a</p><p>concessão de cartão para o cliente.</p><p>Dados de Inadimplência com Cartões de Crédito</p><p>Usaremos um conjunto de dados de um banco fictício de nome “Banco</p><p>Mais com Menos”. O gerente desse banco decidiu investigar a possibilidade de</p><p>trabalhar com um algoritmo de predição de potencial de inadimplência</p><p>referente ao pagamento das faturas de cartão de crédito. Para isso, contratou</p><p>uma jovem cientista de dados, que solicitou uma amostra, colhida</p><p>randomicamente da base cadastral do banco, de pessoas físicas, dos últimos</p><p>dois anos. A cientista de dados pediu uma amostra pequena, de tamanho 200,</p><p>com o propósito de realizar alguns testes iniciais. Se tivesse sucesso, solicitaria</p><p>mais dados ao banco para melhor treinar e testar o seu algoritmo, para uma</p><p>futura validação pelo seu cliente: o banco.</p><p>A amostra lhe foi passada na forma de uma tabela, com 200 observações</p><p>de 4 variáveis. Alguns de seus valores encontram-se exibidos no Quadro 2.3. As</p><p>variáveis observadas foram a renda mensal da pessoa (R$), seu gasto médio com</p><p>cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou Não), e se</p><p>a pessoa havia, ao longo do período pesquisado, ficado inadimplente com o</p><p>pagamento de faturas do cartão ao menos uma vez (Sim ou Não).</p><p>Renda Mensal</p><p>(R$)</p><p>Gasto Médio</p><p>com Cartão (R$)</p><p>Emprego Estável</p><p>(1=Sim ou</p><p>0=Não)</p><p>Inadimplente</p><p>(1=Sim ou</p><p>0=Não)</p><p>1 5483,78 2208,36 1 1</p><p>2 4040,42 1196,97 0 1</p><p>3 4677,89 636,81 1 0</p><p>4 1732,46 1225,13 0 1</p><p>5 3773,9 956,66 0 0</p><p>6 1404,97 392,73 1 0</p><p>7 2914,27 946,97 1 0</p><p>... ... ... ... ...</p><p>199 2099,97 929,99 0 1</p><p>200 2789,75 1438,22 1 1</p><p>Tabela 2.3 - Dados de inadimplência com cartões de crédito</p><p>A jovem cientista de dados usou a seguinte nomenclatura, com o</p><p>objetivo de</p><p>usar uma notação mais compacta para as variáveis a serem analisadas:</p><p>n=Tamanho da amostra = 200</p><p>X1=Renda mensal da pessoa (R$)X1</p><p>X2= Gasto médio com cartão (R$)</p><p>X3=Se a pessoa tem emprego estável (1=Sim ou 0=Não)</p><p>Y= Se a ficou inadimplente nos últimos 2 anos (1=Sim ou 0=Não)</p><p>Decidiu realizar, em primeiro lugar, uma análise descritiva dos dados</p><p>amostrados. Como a variável resposta de interesse é uma variável qualitativa</p><p>dicotômica, também decidiu que adotaria, como modelo preditivo, o de</p><p>classificação por regressão logística. Veremos adiante como ela prosseguiu com</p><p>seu trabalho.</p><p>Vamos Praticar</p><p>“Tipicamente, uma base de dados usada em sistemas informatizados</p><p>convencionais é organizada de forma que se tenham dados armazenados em</p><p>estruturas tabulares, em que as linhas armazenam uma ocorrência de um</p><p>evento caracterizado por um conjunto de colunas que representam</p><p>características que descrevem um exemplar (instância) daquele evento.”</p><p>a) O trecho refere-se a dados não estruturados, tais como textos, imagens,</p><p>vídeos e sons. Outros tipos de dados são chamados dados estruturados.</p><p>b) O trecho refere-se a dados qualitativos, que são os únicos que podem ser</p><p>organizados em forma tabular. Dados quantitativos não podem ser organizados</p><p>em forma tabular.</p><p>c) O trecho refere-se a dados quantitativos, que são os únicos que podem ser</p><p>organizados em forma tabular. Dados qualitativos não podem ser organizados</p><p>em forma tabular.</p><p>d) O trecho refere-se a dados dicotômicos ou binários, os únicos que podem ser</p><p>organizados em forma tabular. Dados politômicos não podem ser organizados</p><p>em forma tabular.</p><p>e) O trecho refere-se a dados estruturados, que são aqueles que podem ser</p><p>organizados em forma tabular. Podem conter tanto dados quantitativos como</p><p>qualitativos.</p><p>Análise Descritiva dos Dados</p><p>Nesta seção, faremos uma análise descritiva dos dados. Iniciaremos com</p><p>a análise descritiva de cada variável da amostra, isoladamente. Depois,</p><p>examinaremos a relação entre algumas dessas variáveis.</p><p>Análise Descritiva de Cada Variável da Amostra</p><p>São quatro as variáveis observadas neste estudo. A primeira delas é a</p><p>renda mensal das pessoas. Usando as funções min(), mean() e max() do R, a</p><p>cientista de dados obteve:</p><p>min(x1) = 1.137,02 mean(x1) = 3.405,56 max(x1) = 9.086,15</p><p>Para visualizarmos a distribuição de frequências desses dados, como se</p><p>trata de uma variável quantitativa, recorreu à função gráfica hist() do R. Obteve</p><p>o histograma exibido na Figura 2.4.</p><p>A segunda delas é o gasto médio das pessoas com cartão de crédito.</p><p>Usando as funções min(), mean() e max() do R, obteve:</p><p>min(x2) = 379,79 mean(x2) = 1.180,87 max(x2) = 3.118,27</p><p>Figura 2.4 - Histograma da renda mensal das pessoas (R$)</p><p>Para visualizar a distribuição de frequências desses dados, como também</p><p>se trata de uma variável quantitativa, novamente recorreu à função gráfica hist()</p><p>do R e obteve o histograma exibido na Figura 2.5.</p><p>Figura 2.5 - Histograma do gasto médio mensal das pessoas com cartão de</p><p>crédito (R$ mil)</p><p>A terceira é uma variável qualitativa dicotômica, que indica se a pessoa</p><p>tem ou não um emprego estável. Para contar a frequência desses valores no</p><p>conjunto de dados da amostra, a jovem cientista de dados empregou a função</p><p>table() do R:</p><p>table(x3) N S</p><p>94 106</p><p>Ou seja, das 200 pessoas da amostra, 94 não tinham emprego estável,</p><p>enquanto 106 tinham um emprego estável.</p><p>A quarta e última refere-se à variável resposta (também qualitativa dicotômica),</p><p>que indica se a pessoa ficou ou não inadimplente ao longo do período estudado.</p><p>A jovem cientista de dados também usou, nesse caso, a função table() do</p><p>software estatístico R, para contar a frequência de aparecimento desses valores</p><p>na amostra coletada e obteve:</p><p>table(y) N S</p><p>122 78</p><p>Ou seja, das 200 pessoas da amostra, 122 não tinham ficado</p><p>inadimplentes nos dois anos do período selecionado e 78, sim, e falharam em</p><p>pagar a fatura do cartão ao menos uma vez ao longo desse período.</p><p>Análise Descritiva da Relação entre Variáveis</p><p>Até agora, a jovem cientista de dados havia examinado as variáveis uma</p><p>a uma. Decidiu analisar a relação entre algumas delas. Começou com a tentativa</p><p>de visualizar a relação entre três variáveis: a renda mensal das pessoas, gasto</p><p>médio mensal com o cartão de crédito dessas mesmas pessoas, e se haviam ou</p><p>não ficado inadimplentes. Para isso, recorreu à função plot() do R base e obteve</p><p>o gráfico exibido na Figura 2.6. Esse gráfico exibe as duas variáveis quantitativas</p><p>nos eixos horizontal e vertical, respectivamente, e a variável qualitativa, que</p><p>indica se a pessoa ficou ou não inadimplente, foi exibida com as cores azul-claro</p><p>para os adimplentes e laranja para os inadimplentes.</p><p>Figura 2.6 - Renda mensal x gasto médio cartão x inadimplência</p><p>Para visualizar a relação da renda mensal (variável quantitativa) com o</p><p>status de adimplência das pessoas (variável qualitativa), decidiu usar a função</p><p>gráfica boxplot() do R. Fez o mesmo para visualizar a relação entre o gasto médio</p><p>mensal das pessoas com cartão de crédito com seu status de adimplência. As</p><p>Figuras 2.7 e 2.8 exibem esses gráficos:</p><p>Figura 2.7 - Boxplot renda mensal x inadimplência</p><p>Figura 2.8 - Boxplot gasto médio mensal com cartão x inadimplência</p><p>É fácil perceber que há um efeito de aumento da inadimplência, tanto</p><p>com um aumento da renda média da pessoa quanto com o aumento de seus</p><p>gastos com cartão de crédito. Esse efeito, porém, é mais pronunciado pelo</p><p>aumento dos gastos com cartão do que com a renda mensal das pessoas. Por</p><p>meio do software R é possível verificar que as pessoas adimplentes têm uma</p><p>renda média de R$ 3.188,31 e as inadimplentes, de R$ 3.745,33, ou seja, 17.5%</p><p>a mais. Igualmente, é possível verificar que as pessoas adimplentes gastaram,</p><p>em média, R$ 879,01 por mês com o cartão de crédito e que as inadimplentes</p><p>gastaram, em média, R$ 1.653,00, ou seja, 88.1% a mais, quase o dobro.</p><p>Figura 2.9 - Mosaicplot da estabilidade no emprego x inadimplência</p><p>Para finalizar a análise descritiva, a jovem cientista resolveu investigar a</p><p>relação entre as duas variáveis qualitativas emprego estável (S ou N) e</p><p>inadimplência (S ou N). Para isso, empregou, novamente, a função table() do R</p><p>e obteve:</p><p>y</p><p>x3 N S</p><p>N 41 53</p><p>S 81 25</p><p>Esse resultado indica que, das 53 + 25 = 78 pessoas com emprego estável,</p><p>apenas 25 ficaram inadimplentes (32,1%). Por outro lado, do total das 41 + 81 =</p><p>122 pessoas sem emprego estável, 81 ficaram inadimplentes (66,4%). O efeito</p><p>da instabilidade de empregos no nível de inadimplência das pessoas é muito</p><p>forte, ao menos para essa pequena amostra de 200 pessoas. A jovem cientista</p><p>de dados resolveu visualizar esse resultado recorrendo à função gráfica</p><p>mosaicplot() do R, como mostra a Figura 2.9.</p><p>Com isso, a análise descritiva inicial foi finalizada. A nossa jovem cientista</p><p>de dados, já tendo decidido anteriormente desenvolver seu modelo preditivo</p><p>para esse caso, adotando a regressão logística, respirou fundo e deu partida a</p><p>esse desafiante passo, com veremos adiante.</p><p>Vamos Praticar</p><p>“Estatística é a ciência dos dados. Um aspecto importante de lidar com</p><p>dados é organizar e resumir os dados em maneiras que facilitem sua</p><p>interpretação e análise subsequente […] Veremos que há métodos numéricos</p><p>para resumir dados e um número de técnicas gráficas poderosas. As técnicas</p><p>gráficas são particularmente importantes. Qualquer boa análise estatística deve</p><p>sempre começar plotando os dados.”</p><p>Quanto a esse assunto, analise as afirmativas a seguir:</p><p>I. A organização de dados em tabelas e o cálculo de resumos estatísticos são um</p><p>aspecto importante para a interpretação e análise de dados.</p>

Mais conteúdos dessa disciplina