Prévia do material em texto
ANÁLISE ESTATÍSTICA DE DADOS PADRÃO- RESPOSTA 2 CAPÍTULO I Atividades de Estudo 1 Cite uma forma pela qual a análise de dados pode ajudar a melhorar o desenvolvimento da empresa. R.: A análise de dados pode identificar quais clientes têm mais chance de cancelar um produto através do seu perfil, ou seja, pode-se investigar a renda e o histórico de cancelamentos anteriores de cada cliente e, através dessas informações, verificar as chances desses clientes cancelarem o serviço. 2 Vamos estudar outro exemplo de aplicação: Cinco baldes contêm 4 litros de água cada um. Três baldes com 2 litros de água cada um. E ao final, dois outros contêm 5 litros de água cada um. Se toda essa água fosse distribuída igualmente em cada um dos baldes, com quantos litros ficaria cada um? Então, como faríamos esse cálculo? R.: Inicialmente é preciso notar que não podemos usar a média comum, pois cada balde tem litros diferentes de água. Então vamos usar a média ponderada. E a solução do problema vai ficar da seguinte forma: 3 Por exemplo, como podemos usar a variância para otimizar a produção de uma empresa? Em uma linha de produção de cabos de ferro pode ocorrer uma pane na máquina que molda o tamanho ou espessura dos cabos. Então, vai haver uma variação do formato dos cabos, que modificará o resultado esperado. Como podemos verificar estatisticamente esse erro? R.: Podemos retirar uma amostra dos cabos e verificar se o tamanho e a espessura estão conformes. Neste caso, a variância da amostra vai informar que existem tamanhos e espessuras que estão fora do padrão que a empresa fabrica. Ela vai verificar se os cabos estão muito acima ou muito abaixo da média. 3 4 Marque verdadeiro ou falso para as opções: População: Conjuntos de todos os elementos que possuem pelo menos uma característica comum. Porém, todos os seus elementos têm que ser novos. (F) Amostra: Característica que descreve a população. (F) Variável: Atributo que deve ser analisado da população. (V) Estimador: Característica numérica estabelecida na amostra. (V) Qual a sequência correta? a) FFVV (correta) b) FVVV c) VVVV d) FFVF 5 Como poderíamos classificar uma variável quantitativa: a) São usados para quantificar o problema por meio da geração de dados numéricos. (correta) b) São usados para quantificar o problema por meio da geração de dados, onde os problemas somente podem conter duas variáveis. c) Dados quantitativos podem ser usados para dados numéricos, porém não pode ultrapassar o limite de 100 dados. d) Os estudos com variáveis quantidade não produzem resultados bons, por esse motivo não têm respaldo junto com a comunidade científica. 6 Sobre as distribuições de frequência, marque a opção correta. a) É uma forma de agrupar os dados coletados em um estudo. (correta) b) É uma forma de agrupar os dados coletados do estudo, porém somente em formato de gráfico. c) Nas distribuições de frequências podemos somente usar tabelas de dupla entrada. d) As distribuições de frequências não são aconselháveis para usar em uma empresa, por conta da sua falta de consistência. 7 Qual dos gráficos citados abaixo podemos usar para verificar a relação entre as variáveis? a) Dispersão (correta) b) Linha c) Pizza d) Coluna 4 CAPÍTULO II Atividades de Estudo 1 Em nosso problema de previsão de fumantes, quais são os melhores segmentos para prever o câncer de pulmão? R.: Poderíamos escolher algumas variáveis, como: histórico familiar, fumante/ não fumante, predisposição para a doença. 2 No seguinte exemplo: Queremos analisar se o número de casos de dengue aumenta com a chegada da quadra invernosa? Quem são nossas variáveis dependente e independente? R.: Y: Casos de dengue. X: Quadra invernosa. 3 Uma empresa quer verificar se o aumento das vendas dos seus produtos está relacionado com o atendimento dos seus vendedores, localização da loja ou horário da venda. Então, quem são nossas variáveis dependentes e independentes? R.: Basta raciocinar qual é a variável em que a partir dela temos o interesse de construir o modelo. Esta seria a variável “aumento de vendas”. E quais seriam as variáveis independentes? Para nosso exemplo, seriam as variáveis atendimento dos seus vendedores, localização da loja ou horário da venda. A partir dessas variáveis o modelo será composto, em que as variáveis independentes (atendimento, localização, horário) explicam a variável dependente (aumento de vendas). 8 Qual a medida que mostra o grau de variação dos dados? a) Desvio-padrão (correta) b) Desvio-médio c) Média d) Moda 5 4 Qual a diferença entre aprendizagem Regressão e Classificação? a) Regressão: tenta estimar ou prever, para cada indivíduo, o valor numérico de alguma variável para esse indivíduo. Classificação: a estimativa de classificar um indivíduo em uma classe. b) Regressão: tenta estimar ou prever, para cada indivíduo, apenas um valor numérico de alguma variável para esse indivíduo. Classificação: a estimativa de classificar um indivíduo em uma classe. c) Regressão: tenta estimar, prever ou classificar, para cada indivíduo, apenas um valor numérico de alguma variável para esse indivíduo. Classificação: a estimativa de classificar ou prever um indivíduo em uma classe. d) Regressão: tenta estimar ou prever, para cada indivíduo, apenas um valor numérico de alguma variável para esse indivíduo. Classificação: a estimativa de classificar e prever um indivíduo em uma classe. 5 Qual o propósito da aprendizagem não supervisionada? a) Algoritmos de aprendizado de máquina não supervisionados inferem padrões de um conjunto de dados sem referência a resultados conhecidos ou rotulados. b) Algoritmos de aprendizado de máquina não supervisionados inferem padrões de um conjunto de dados obrigatoriamente com referência a resultados conhecidos. c) Algoritmos de aprendizado de máquina não supervisionados inferem padrões de um conjunto de dados somente que possuem rótulos. d) Algoritmos de aprendizado de máquina não supervisionados possuem as mesmas propriedades dos algoritmos de aprendizado de máquina supervisionados. 6 Em qual etapa do processo de mineração de dados acontece esse procedimento: Momento onde as técnicas de mineração de dados são aplicadas aos dados, sendo aplicados estatísticas e padrões para gerar previsões e fazer inferências sobre as informações extraídas. a) Modeling. b) Deployment. c) Data Warehousing. d) Business Understanding. 6 CAPÍTULO III Atividades de Estudo 1. Em um estudo em que precisamos analisar as variáveis preço, produto, local e consumidor, qual tipo de técnica devemos usar? R.: Neste caso temos quatro variáveis (preço, produto, local e consumidor), então usaremos as técnicas multivariadas. 2 Sobre o modelo logístico, coloque F para falso e V para verdadeiro, nas alternativas abaixo: a) (F) Os parâmetros do modelo devem seguir normalidade. b) (F) Ele é usado frequentemente para variáveis quantitativas. c) (F) Podemos usá-lo no caso univariado. d) (V) As variáveis do modelo devem ser dicotômicas. 3 Vamos supor que temos um conjunto de dados em que devemos analisar a predominância de uma criança ter câncer ou não. Qual seria a melhor de fazer essa previsão? R.: Regressão Logística: Y: A criança vai ter câncer. 0 = A criança não vai ter câncer. 1 = criança vai ter câncer. Para fazer essa investigação é preciso trabalhar com dados dicotômicos. Dados que são bem ajustados para uma regressão logística. 4 Sobre os conceitos iniciais da análise multivariada podemos afirmar: a) ( ) Ela é usada apenas para dados bivariados. b) (X) Classifica objetos de maneira que cada objeto seja semelhante aos outros no agrupamento. c) ( ) O principal propósito é fazer previsões sobre seus objetos no mesmo grupo. d) ( ) O principal propósito é fazer previsões sobre seus objetos em grupos diferentes. 7 5 Para as alternativas abaixo, responda F para falso e V para verdadeiro. a) (V) A análise multivariada usa a similaridade para determinar o grau de semelhança entreos objetos dos grupos. b) (F) A análise multivariada usa a similaridade para determinar a previsão de um elemento em comparação a outro elemento no mesmo grupo. c) (F) A distância Euclidiana é definida pela soma das diferenças entre x e y em cada dimensão. d) ( ) A distância de Mahalanobis é definida como a soma da raiz quadrada da diferença entre x e y em suas respectivas dimensões. 6 Conforme a tabela a seguir, quais são as variáveis que têm agrupamento similar? Y1 Y2 Y3 Y1 0 0,2 0,1 Y2 0,5 0 0,6 Y3 0,1 0,5 0 R.: Y1 e Y3. 7 Marque a opção correta. a) ( ) A Ligação individual é definida pela semelhança entre agrupamentos, como a menor distância de qualquer elemento de um agrupamento a qualquer elemento em outro grupo, porém ela não é muito utilizada devido ao seu alto grau de não correlação dos dados. b) ( ) Na Ligação completa a similaridade tem como base a distância mínima entre as observações dos grupos formados. c) ( ) A Ligação média tem como base a distância máxima entre os elementos dos agrupamentos. d) (X) Nenhuma das anteriores. 8 Para a próxima afirmativa, responda verdadeiro ou falso: O K-means é um algoritmo de agrupamento que possibilita dividir um conjunto de dados em K clusters (grupos) disjuntos. Embora os centros iniciais dos K clusters sejam escolhidos aleatoriamente, eles apresentam bom desempenho. R.: Verdadeiro. 8 9 Sobre as etapas dos processos de K-Means, marque V para verdadeiro e F para falso: a) (F) Inicialização: nesta etapa acontece a atribuição ao cluster e a movimentação de centroides é repetida até o cluster se tornar estático. b) (V) Atribuição ao Cluster: Nesta etapa calcula-se a distância entre os pontos dos dados de cada um dos centroides. c) (V) Movimentação de Centroides: nesta etapa é modificada a localização do centroide. d) (F) Otimização: nesta etapa calcula-se a média dos valores dos pontos de dados de cada cluster, e o valor médio será o novo centroide.