Prévia do material em texto
Desa�o Final Entrega 28 out em 23:59 Pontos 100 Perguntas 10 Disponível até 28 out em 23:59 Limite de tempo Nenhum Instruções Histórico de tentativas Tentativa Tempo Pontuação MAIS RECENTE Tentativa 1 5.213 minutos 100 de 100 As respostas corretas estarão disponíveis em 28 out em 23:59. Pontuação deste teste: 100 de 100 Enviado 25 out em 14:18 Esta tentativa levou 5.213 minutos. O Desafio Final está disponível! 1. Instruções para realizar o desafio Consulte a data de entrega no teste e em seu calendário. Reserve um tempo para realizar a atividade, leia as orientações e enunciados com atenção. Em caso de dúvidas utilize o "Fórum de dúvidas do Desafio Final". Para iniciá-lo clique em "Fazer teste". Você tem somente uma tentativa e não há limite de tempo definido para realizá-lo. Caso precise interromper a atividade, apenas deixe a página e, ao retornar, clique em "Retomar teste". Clique em "Enviar teste" somente quando você concluí-lo. Antes de enviar confira todas as questões. Caso o teste seja iniciado e não enviado até o final do prazo de entrega, a plataforma enviará a tentativa não finalizada automaticamente, independente do progresso no teste. Fique atento ao seu teste e ao prazo final, pois novas tentativas só serão concedidas em casos de questões médicas. O gabarito será disponibilizado partir de sexta-feira, 28/10/2022, às 23h59. Bons estudos! 2. O arquivo abaixo contém o enunciado do desafio Enunciado do Desafio Final - Bootcamp Analista de Machine Learning.pdf https://online.igti.com.br/courses/4867/quizzes/67155/history?version=1 https://online.igti.com.br/courses/4867/files/354367/download 10 / 10 ptsPergunta 1 Sobre o dataset creditcard.csv, é CORRETO afirmar: Existe menos de 1% de instâncias classificadas como fraudulentas. A quantidade de instâncias da classe 0 e da classe 1 possuem a mesma proporção. O dataset pode ser visto como balanceado. Para esse dataset não é possível definir estratégias de balanceamento. 10 / 10 ptsPergunta 2 Sobre as estatísticas descritivas e características do dataset creditcard.csv, é INCORRETO afirmar: Para as instâncias da classe 1 (Class=1), o valor máximo para a variável V1 é, aproximadamente, 2,13. O desvio padrão de V1 é superior ao de V2. O valor máximo da variável Time é maior para a classe 1 (Class=1) do que a presente para as instâncias da classe 0 (Class=0). O valor máximo de V3 para as instâncias da classe 0 (Class=0) é maior do que o presente para as instâncias da classe 1 (Class=1). 10 / 10 ptsPergunta 3 Aplique a normalização StandardScaler() para as variáveis "Amount" e “Time”. Após essa normalização qual é o valor máximo, em módulo, para a variável “Amount”? 100,31 110,45 115,00 102,36 10 / 10 ptsPergunta 4 Selecione a quantidade de clusters igual a 4 e aplique o algoritmo k- means. Para essa quantidade de clusters, qual cluster apresenta a maior quantidade de instâncias marcadas como transações fraudulentas (Class=1)? 1 3 2 0 10 / 10 ptsPergunta 5 Após a aplicação do StandardScaler() e do train_test_split(), como mostrado no enunciado, utilize como saída a variável “Class” e como entrada o restante das colunas. Aplique o algoritmo de classificação por meio da Regressão Logística, como mostrado no enunciado. Qual é o valor aproximado para a acurácia do modelo? 0,79 0,99 0,89 0,69 10 / 10 ptsPergunta 6 Após a aplicação do StandardScaler() e do train_test_split(), como mostrado no enunciado, utilize como saída a variável “Class” e como entrada o restante das colunas. Aplique o algoritmo de classificação por meio da rede neural MLP, como mostrado no enunciado. Qual é o valor aproximado para a acurácia do modelo? 0,79 0,99 0,89 0,69 10 / 10 ptsPergunta 7 Agora, aplique o modelo de subamostragem, como mostrado no enunciado da questão, sobre os dados normalizados por meio do StandardScaler(). Divida, novamente, os dados entre treinamento e teste por meio do train_test_split(). Quantas instâncias fraudulentas (Class=1) existem nos dados de treinamento? 246 346 242 342 10 / 10 ptsPergunta 8 Após a normalização (StandardScaler()), divisão dos dados entre treinamento e teste (train_test_split()) e subamostragem (seguindo os comandos apresentados no enunciado), aplique o algoritmo de classificação por meio da regressão logística, como mostrado no enunciado. Qual é o valor aproximado da acurácia obtida? 0,63 0,73 0,93 0,83 10 / 10 ptsPergunta 9 Após a normalização (StandardScaler()), divisão dos dados entre treinamento e teste (train_test_split()) e subamostragem (seguindo os comandos apresentados no enunciado), aplique o algoritmo de classificação por meio da rede neural MLP, como mostrado no enunciado. Qual é o valor aproximado da acurácia obtida? 0,62 0,92 0,72 0,82 10 / 10 ptsPergunta 10 Após a normalização (StandardScaler()), divisão dos dados entre treinamento e teste (train_test_split()) e subamostragem (), aplique o algoritmo de classificação por meio da regressão logística, como mostrado no enunciado. Qual é o valor aproximado do recall obtido? 0,79 0,89 0,99 0,69 Pontuação do teste: 100 de 100