Prévia do material em texto
docProps/app.xml Normal_Wordconv.dotm 0 0 false false false false Doxillion © NCH Software docProps/core.xml 1 word/document.xml ESTATÍSTICA APLICADA AO DATA SCIENCE - Prova N2 1-Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo. Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, analise as afirmativas a seguir. 1- A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados “contaram” para o algoritmo de regressão logística múltipla. 2- A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos coragem de generalizar para outras situações, mas foi o que os dados da amostra do gerente do banco “contaram” para o algoritmo de regressão logística múltipla. 3- Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. Novamente, isto foi o que os dados amostrados “contaram” para o algoritmo de regressão logística múltipla. 4- O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e ferramentas analíticas disponíveis para o banco. Está correto o que se afirma em: (X) I, II, III e IV. 2- Em algumas situações, o cientista de dados pode decidir transformar dados quantitativos em dados qualitativos, o que chamamos discretização. Por exemplo, em vez de tratar idade como uma variável quantitativa contínua, podemos transformá-la em uma variável qualitativa com quatro níveis: criança, jovem, adulto, idoso. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. A discretização (transformação) de variáveis quantitativas em qualitativas é comum na estatística e na ciência dos dados. Pois: II. A discretização, em muitas situações, simplifica a análise e, principalmente, traz maior clareza à interpretação dos resultados. A seguir, assinale a alternativa correta: (X) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 3- A amostra relativa aos dados de inadimplência com cartões tinha 200 observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto médio com cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou Não) e se a pessoa havia, ao longo do período pesquisado, ficado inadimplente com o pagamento de faturas do cartão ao menos uma vez (Sim ou Não). Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são dados relativos a variáveis quantitativas. 2. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são dados relativos a variáveis qualitativas. 3. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, dois são relativos a uma variável quantitativa e dois são relativos a variáveis qualitativas. 4. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, um é relativo a uma variável quantitativa e os outros são relativos a variáveis qualitativas. Assinale a alternativa que apresenta a sequência correta. (X) F, F, V, F 4- Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da análise descritiva dos dados, ao lado das técnicas gráficas para a visualização dos dados. Nesta unidade, usamos pela primeira vez a função summary() do software estatístico R. Em relação ao output dessa função, aplicada a dados quantitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A ordem do output é valor máximo, terceiro quartil, mediana, média, segundo quartil e valor mínimo observado. II. ( ) A ordem do output é valor mínimo, segundo quartil, mediana, média, terceiro quartil e valor máximo observado. III. ( ) O segundo quartil informa o valor da variável, acima do qual se encontram 25% dos dados observados. IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% dos dados observados. Assinale a alternativa que apresenta a sequência correta: (X) F, V, F, V. 5- O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, mineração de dados e machine learning, analise as afirmativas a seguir: I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação. São usados na estatística, na ciência de dados e na mineração de dados. II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos. III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas a mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação. IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber. Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): (X) I e II apenas; 6- O estatístico empregou gráficos clássicos, isto é, de emprego consagrado, para a visualização de dados quantitativos e qualitativos, que são histogramas e diagramas de barras. Diante do exposto, analise as afirmativas a seguir. I. O estatístico usou de histogramas para a visualização dos dados quantitativos das amostras, quais sejam: a área, o andar e o valor do imóvel. II. O estatístico usou de diagramas de barras para a visualização do único dado qualitativo da amostra: a localização do imóvel. III. Histogramas e diagramas de barra são formas tradicionais de visualização gráfica de dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados. IV. Gráficos de pizza são uma alternativa aos diagramas de barras para a representação visual de dados qualitativos. Está correto o que se afirma em: (X) II e III, apenas 7- Os modelos de regressão são de enorme importância na estatística e na ciência dos dados. Dentre os diversos modelos de regressão que existem, por exemplo, árvores de decisão para regressão, k-vizinhos mais próximos para regressão e outros (não vimos nenhum desses aqui, masnão se preocupe: o nosso curso é introdutório!), são justamente os modelos de regressão linear aqueles considerados os mais importantes e, sem dúvida, os mais difundidos, com aplicações nas mais diversas áreas. Desse modo, é sobre eles que queremos saber o que você já aprendeu. Para isso, analise as afirmativas a seguir. I. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é quantitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas. II. As variáveis de entrada também são denominadas variáveis regressoras, variáveis preditoras ou variáveis independentes. III. A variável resposta também pode ser denominada variável de saída ou variável dependente. IV. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é qualitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas. Está correto o que se afirma em: (X) I, II e III, apenas. 8- Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função cor(). Adiante apresentamos um output típico da função cor() quando aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um determinado conjunto de dados. A respeito deste output típico da função cor() do software estatístico R, para o cálculo da correlação entre múltiplas variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Todas correlações são positivas, o que indica que, para todas variáveis quantitativas dessa amostra, quando uma aumenta, a outra também aumenta. II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma correlação perfeita dela com ela mesma. III. ( ) A maior correlação positiva entre essas variáveis é aquela entre Murder e Assault, cujo valor é de 0,80. IV. ( ) A segunda maior correlação positiva entre essas variáveis é aquela entre Rape e Assault, cujo valor é de 0,67 e não de 0,56. (X) V,V,V,F ESCOLHIDA (V,V,V,V) POR NÃO TER NAS OPÇOES A V,V,V,F 9-Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a variável do local de exposição da boneca (ruim, médio, bom) no ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico adiante. Figura: Efeito do local de exposição nas vendas Fonte: Elaborada pelo autor. Quanto à relação entre o local de exposição da boneca (ruim, médio, bom) e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir: I. Ao estudarmos este caso, percebemos que vendas altas ocorrem com mais frequência nos pontos de venda onde o local de exposição da boneca é bom. II. Ao estudarmos este caso, percebemos que não há qualquer efeito do local de exposição sobre o volume de vendas da boneca nos pontos de venda. III. O gráfico exibido acima mostra que a frequência de pontos com vendas altas é baixa quando o local de exposição da boneca é ruim. IV. O gráfico de visualização da relação entre o local de exposição da boneca no ponto de venda e o volume de vendas, por se tratarem ambas de variáveis qualitativas, é um gráfico do tipo mosaic plot, apropriado para esta situação. Está correto o que se afirma em: (x) I, III e IV, apenas. 10- Leia o excerto a seguir: “Os modelos de árvores, também chamados de Árvores de Classificação e Regressão, árvores de decisão ou apenas árvores, são um método de classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais potentes, florestas aleatórias e boosting, formam a base das ferramentas de modelagem preditiva mais potentes e amplamente usadas na ciência de dados tanto para regressão quanto para classificação.” BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 226. Quanto às árvores de decisão para classificação e regressão, analise as afirmativas a seguir: I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando uma de cada vez, de forma hierárquica, das mais importante às menos importantes, a cada estágio da sua construção, até chegar aos nós terminais, suas folhas, em que exibe os valores estimados para a variável resposta. II. A cada estágio da construção da árvore, o nó inicial e depois os nós intermediários dividem o domínio da variável de entrada em questão, de onde bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos no nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à esquerda ou à direita do nó em questão. III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor quantitativo ou qualitativo, que representa o valor escolhido pela árvore para fazer a partição da variável tratada naquele estágio da construção da árvore. IV. Em árvores de decisão de classificação ou regressão, folha é um termo que designa os nós terminais das árvores, nos quais são exibidos os valores estimados para a variável resposta do modelo preditivo. Cada caminho da árvore indica, dessa forma, o valor a estimar para os valores das variáveis de entrada, informadas no caminho do nó inicial até a folha. Está correto o que se afirma em: (x) I, II, III e IV. word/fontTable.xml word/media/image1 word/media/image2 word/numbering.xml word/settings.xml word/styles.xml word/theme/theme1.xml word/webSettings.xml word/_rels/document.xml.rels [Content_Types].xml _rels/.rels