Prévia do material em texto
ESTATÍSTICA ● Pergunta 1 ● 1 em 1 pontos ● Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: “Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que todos os registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário pode visualizar o número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos diferentes, todas baseadas no conjunto de distância inter-registros.” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 278. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja ver o algoritmo formar. Pois II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são unidos aos grupos mais próximos, até que todos os registros pertençam a um único grupo. ESTATÍSTICA Resposta Selecionad a: A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. Resposta Correta: A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. Feedback da respo sta: Resposta correta. A alternativa está correta, pois no agrupamento hierárquico, diferentemente do que se requer para o agrupamento por k-médias, o usuário não especifica o número de grupos que o algoritmo deve formar. Em estágios progressivos, se parte de tantos grupos quanto o número de registros (observações) do conjunto de dados, formam-se sequencialmente vários agrupamentos, por fusão entre grupos mais similares entre si, até se formar um único grupo, ao final, com todos os registro do conjunto de dados analisado. Ao usuário cabe examinar essa estrutura, e decidir que agrupamentos fazem mais sentido para a sua análise. ● Pergunta 2 ● 0 em 1 pontos ● ESTATÍSTICA Os modelos de regressão são de enorme importância na estatística e na ciência dos dados. Dentre os diversos modelos de regressão que existem, por exemplo, árvores de decisão para regressão, k-vizinhos mais próximos para regressão e outros (não vimos nenhum desses aqui, mas não se preocupe: o nosso curso é introdutório!), são justamente os modelos de regressão linear aqueles considerados os mais importantes e, sem dúvida, os mais difundidos, com aplicações nas mais diversas áreas. Desse modo, é sobre eles que queremos saber o que você já aprendeu. Para isso, analise as afirmativas a seguir. I. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é quantitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas. II. As variáveis de entrada também são denominadas variáveis regressoras, variáveis preditoras ou variáveis independentes. III. A variável resposta também pode ser denominada variável de saída ou variável dependente. IV. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é qualitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas. Está correto o que se afirma em: Resposta Selecionada: IV, apenas. Resposta Correta: I, II e III, apenas. Feedback da respo sta: Sua resposta está incorreta. A alternativa está incorreta, pois a única afirmativa falsa é a que expõe que modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é qualitativa. Assim, é correto afirmar que modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é quantitativa e as variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas. ESTATÍSTICA ● Pergunta 3 ● 1 em 1 pontos ● O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados : com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, mineração de dados e machine learning, analise as afirmativas a seguir: I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação. São usados na estatística, na ciência de dados e na mineração de dados. II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos. III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas a mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação. IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber. Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): ESTATÍSTICA Resposta Selecionada: I e II apenas; Resposta Correta: I e II apenas; Feedback da respo sta: Resposta correta. A alternativa está correta, pois machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação, e são usados na estatística, na ciência de dados e na mineração de dados, e o processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos. Também sabemos que a mineração de dados e ciência de dados são áreas relacionadas, e que é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber. ● Pergunta 4 ● 0 em 1 pontos ● ESTATÍSTICA Na Unidade 1, usamos um modelo de regressão múltipla para a predição do valor de imóveis. Aqui, para o mesmo problema, usamos como modelo uma árvore de decisão. Dizemos que este modelo é um modelo de árvore de decisão para regressão, já que a variável resposta, o valor do imóvel, é quantitativa. Figura: Árvore de decisão ajustada aos valores dos imóveis Fonte: Elaborada pelo autor. A respeito deste modelo de árvore de decisão aplicado ao problema de predição do valor dos imóveis (replicado aqui, para sua conveniência), analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Se o apartamento tiver uma área menor que 73,6 metros quadrados e for localizado no bairro, a estimativa para seu valor é de 319,20 mil reais, se seu andar for menor ou igual ao 6º andar. II. ( ) Se o apartamento tiver uma área menor que 73,6 metros quadrados, for localizado no centro e seu andar for menor ou igual ao 6º andar, a estimativa para seu valor é de 366,50 mil reais. III. ( ) Se o apartamento tiver uma área maior que 73,6 metros quadrados, a estimativa para seu valor é de 448,80 mil reais, independentemente da sua localização, bairro ou centro, e do seu andar. IV. ( ) Se o apartamento tiver uma área menor que 73,7 metros quadrados, for localizado no centro e seu andar for igual ou maior que o 7º andar, a estimativa para seu valor é de 366,50 mil reais. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: F, V, V, V. Resposta Correta: F, F, V, V. ESTATÍSTICA Feedbackda respo sta: Sua resposta está incorreta. A sequência está incorreta. Se o apartamento tiver uma área menor que 73,6 metros quadrados e for localizado no bairro, a estimativa para seu valor não é de 319,20 mil reais. Se seu andar for menor ou igual ao 6º andar, assim como se o apartamento tiver uma área menor que 73,6 metros quadrados, for localizado no centro e seu andar for menor ou igual ao 6º andar, a estimativa para seu valor não é de 366,50 mil reais. Você deve percorrer a árvore de cima para baixo, até os nós terminais, nos quais encontrará as estimativas corretas. ● Pergunta 5 ● 1 em 1 pontos ● ESTATÍSTICA Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados são denominados modelos paramétricos, ou seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se ajusta) o modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados coeficientes do modelo. No que tange aos coeficientes do modelo de regressão linear simples para o valor do imóvel em função do seu andar, analise as afirmativas a seguir. I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do imóvel em função do seu, b0 = 333,71 e b2 = 6,55. II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são, respectivamente, kR$ (mil reais) para b0 e kR$/andar(mil reais dividido pelo andar do imóvel) para b2. III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x2 = 0. Pode ser interpretado como o valor estimado de um apartamento localizado no térreo, porém isso é uma extrapolação, pois, na amostra analisada, não há nenhum apartamento no andar térreo. IV. O coeficiente b2 indica quanto varia o valor esperado do imóvel para um aumento de seu andar em exatamente 1 andar. Graficamente, esse coeficiente é a inclinação da reta que representa o modelo de regressão linear simples ajustado aos dados da amostra. Está correto o que se afirma em: Resposta Selecionada: I, II, III e IV. Resposta Correta: I, II, III e IV. ESTATÍSTICA Feedback da respo sta: Resposta correta. A alternativa está correta, pois todas as afirmativas dessa questão se apresentam de maneira adequada. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples, b0 = 333,71 e b2 = 6,55; os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são, respectivamente, kR$ para b0 e kR$/andar para b2; o coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x2 = 0 e pode ser interpretado como o valor estimado de um apartamento localizado no térreo; já o coeficiente b2 indica quanto varia o valor esperado do imóvel para um aumento de seu andar em exatamente 1 andar. ● Pergunta 6 ● 1 em 1 pontos ● ESTATÍSTICA Algoritmos de aprendizado de máquina nos permitem tratar de problemas que seriam difíceis de serem tratados por regras criadas por seres humanos, mas que, curiosamente, ficam relativamente fáceis de serem tratados por algoritmos criados por seres humanos. As formas de solução desses problemas são chamadas tarefas de aprendizado de máquina. Tomando como base esse texto e o que já discutimos sobre as tarefas de aprendizado de máquina, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Tarefas de regressão são capazes de predizer valores para variáveis resposta quantitativas e tarefas de classificação para variáveis resposta qualitativas. II. ( ) Tarefas de classificação com dados faltantes são tarefas de classificação aplicadas a situações em que alguns dados de entrada estão faltando. III. ( ) Transcrição é uma tarefa na qual se pede ao algoritmo que transcreva um conjunto de dados não tão bem estruturados em uma forma discreta bem estruturada. IV. ( ) Tradução é uma tarefa em que se pede ao algoritmo que converta uma sequência de símbolos escritos em uma linguagem para uma sequência de símbolos em outra linguagem. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: V, V, V, V. Resposta Correta: V, V, V, V. Feedback da respo sta: Resposta correta. A sequência está correta, pois tarefas de regressão são capazes de predizer valores para variáveis resposta quantitativas e tarefas de classificação para variáveis resposta qualitativas. Tarefas de classificação com dados faltantes são tarefas de classificação aplicadas a situações em que alguns dados de entrada estão faltando. Transcrição é uma tarefa na qual se pede ao algoritmo que transcreva um conjunto de dados não tão bem estruturados em uma forma discreta bem estruturada. Tradução é uma tarefa em que se pede ESTATÍSTICA ao algoritmo que converta uma sequência de símbolos escritos em uma linguagem para uma sequência de símbolos em outra linguagem. ● Pergunta 7 ● 0 em 1 pontos ● Leia o excerto a seguir: “O vice-presidente de Talentos da DataSciencester entrevistou um número de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou um conjunto de dados com vários atributos (qualitativos) de cada candidato, bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar esses dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que ele não precise perder tempo fazendo entrevistas? [...] Isso parece perfeito para uma árvore de decisão, outra ferramenta de modelagem de previsão no kit de um cientista de dados.” GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 201. Tomando como base esse texto e o conteúdo apresentado sobre árvores de decisão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A resposta à pergunta “Você poderia usar dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que o vice-presidente não precise perder tempo entrevistando-os?” é “não”. II. ( ) Uma árvore de decisão pode ser desenvolvida para o processo de seleção de candidatos, em que as variáveis de entrada seriam um conjunto de dados com vários atributos (qualitativos) de cada candidato. III. ( ) O autor do texto imagina poder usar uma árvore de decisão para o processo de seleção de candidatos, em que a variável de saída é qualitativa dicotômica — se o candidato se ESTATÍSTICA sairá bem ou mal na entrevista. IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore de decisão de classificação para o processo de seleção, pois a variável resposta é qualitativa, porém árvores de decisão também podem ser usadas para problemas de regressão. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: V, V, F, V. Resposta Correta: F, V, V, V. Feedback da respo sta: Sua resposta está incorreta. A sequência está incorreta. A única afirmativa errada desta questão é a que diz que a resposta à pergunta é “não”, pois o procedimento é possível e, de fato, é comum que seja feito — podemos usar uma árvore para modelar o processo de seleção de candidatos. ● Pergunta 8 ● 1 em 1 pontos ● ESTATÍSTICA Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo. Contudo, vamos rever o queo modelo de regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, analise as afirmativas a seguir. ● A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados “contaram” para o algoritmo de regressão logística múltipla. ● A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos coragem de generalizar para outras situações, mas foi o que os dados da amostra do gerente do banco “contaram” para o algoritmo de regressão logística múltipla. ● Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. Novamente, isto foi o que os dados amostrados “contaram” para o algoritmo de regressão logística múltipla. ● O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e ferramentas analíticas disponíveis para o banco. Está correto o que se afirma em: ESTATÍSTICA Resposta Selecionada: I, II, III e IV. Resposta Correta: I, II, III e IV. Feedback da respo sta: Resposta correta. Todas as asserções desta questão são verdadeiras. Para os dados analisados, probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito e com o aumento da renda média mensal das pessoas. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. E o modelo de regressão logística múltipla é um modelo preditivo, um classificador probabilístico. ● Pergunta 9 ● 0 em 1 pontos ● ESTATÍSTICA Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da análise descritiva dos dados, ao lado das técnicas gráficas para a visualização dos dados. Nesta unidade, usamos pela primeira vez a função summary() do software estatístico R. Em relação ao output dessa função, aplicada a dados quantitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A ordem do output é valor máximo, terceiro quartil, mediana, média, segundo quartil e valor mínimo observado. II. ( ) A ordem do output é valor mínimo, segundo quartil, mediana, média, terceiro quartil e valor máximo observado. III. ( ) O segundo quartil informa o valor da variável, acima do qual se encontram 25% dos dados observados. IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% dos dados observados. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: F, V, V, F. Resposta Correta: F, V, F, V. Feedback da respo sta: Sua resposta está incorreta. A sequência está incorreta. A ordem correta do output da função summary() do R, quando aplicada aos dados de uma variável quantitativa, como o preço da boneca falante, é valor mínimo, segundo quartil, mediana, média, terceiro quartil e valor máximo observado. O segundo quartil informa o valor da variável, abaixo do qual se encontram 25% dos dados observados, e a mediana fornece o valor da variável, abaixo do qual se encontram 50% dos valores observados. ● Pergunta 10 ESTATÍSTICA ● 1 em 1 pontos ● Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, listas, sequências, séries, etc. São muitos os dados que hoje coletamos de diferentes fontes, e muitas as formas de organizá-los e armazená-los. Uma dessas forma, talvez a mais importante delas, são os dados estruturados. Relativamente a esse assunto, analise as afirmativas a seguir. ● Dados estruturados são dados que não possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciências da computação, estatística e ciência dos dados. ● A forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas linhas e as observações são dispostas nas colunas. ● Dados estruturados são dados que possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciência da computação, estatística e ciência dos dados. ● A forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas colunas e as observações são dispostas nas linhas. Está correto o que se afirma em: Resposta Selecionada: III e IV, apenas. Resposta Correta: III e IV, apenas. ESTATÍSTICA Feedback da respo sta: Resposta correta. Dados estruturados são dados que possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciência da computação, estatística e ciência dos dados. Também está correto dizer que a forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas colunas e as observações são dispostas nas linhas. Quinta-feira, 16 de Abril de 2020 12h50min18s BRT