Prévia do material em texto
Prova 2: Avanços e Desafios em Algoritmos de Machine Learning Introdução: Esta prova aborda conceitos de aprendizado supervisionado e não supervisionado, explorando técnicas de regularização, avaliação de modelos, e otimização de algoritmos para grandes volumes de dados. Questão 1 Qual das alternativas descreve corretamente a técnica de Naive Bayes? a) Um modelo baseado em uma análise de clusters de dados para previsão de classes. b) Um modelo probabilístico que faz suposições de independência entre as variáveis para prever classes. c) Um modelo de redes neurais profundas utilizado para aprendizado supervisionado. d) Um modelo de aprendizado não supervisionado utilizado para análise de sentimentos. e) Um modelo de regressão utilizado para prever valores contínuos. Questão 2 Qual a principal função da técnica de Regularização L2 (Ridge) em modelos de aprendizado? a) Forçar o modelo a usar apenas variáveis importantes, excluindo as irrelevantes. b) Reduzir o overfitting ao adicionar uma penalização ao tamanho dos coeficientes dos parâmetros do modelo. c) Aumentar a complexidade do modelo para melhorar a precisão. d) Ajustar as variáveis de entrada para melhorar a linearidade dos dados. e) Eliminar os dados de entrada com alta colinearidade. Questão 3 O que caracteriza a técnica de Clustering? a) O Clustering é uma técnica supervisionada que utiliza rótulos de classe para agrupar dados semelhantes. b) O Clustering é uma técnica não supervisionada que visa agrupar dados com características similares sem usar rótulos. c) O Clustering é utilizado apenas para modelos de regressão. d) O Clustering gera previsões baseadas em dados contínuos. e) O Clustering é uma técnica de otimização para prever valores numéricos. Questão 4 Qual é a principal vantagem do uso de Deep Learning em comparação com algoritmos tradicionais de aprendizado de máquina? a) O Deep Learning exige menos dados para treinamento. b) O Deep Learning pode automatizar a extração de características a partir de grandes volumes de dados não estruturados, como imagens e texto. c) O Deep Learning é mais simples e mais rápido de treinar do que os algoritmos tradicionais. d) O Deep Learning não requer ajuste de parâmetros. e) O Deep Learning é limitado a problemas de regressão linear. Questão 5 O que caracteriza a técnica de Bagging? a) O Bagging gera um único modelo complexo e ajustado para os dados de treino. b) O Bagging combina múltiplos modelos simples para reduzir o overfitting e melhorar a precisão. c) O Bagging é usado para transformar variáveis contínuas em variáveis categóricas. d) O Bagging é uma técnica de seleção de variáveis. e) O Bagging visa melhorar o desempenho de redes neurais profundas. Questão 6 Em problemas de aprendizado supervisionado, o que é Cross-Validation? a) Uma técnica de redução de dimensionalidade. b) Uma técnica para avaliar o desempenho de um modelo dividindo os dados em várias partes. c) Uma técnica de pré-processamento de dados. d) Uma técnica para melhorar a acurácia do modelo ajustando os hiperparâmetros. e) Uma técnica para calcular o erro absoluto do modelo. Questão 7 Qual é o principal objetivo da técnica de Feature Selection? a) Aumentar o número de variáveis para melhorar a precisão. b) Selecionar automaticamente os melhores parâmetros para o modelo. c) Reduzir a dimensionalidade do modelo, eliminando variáveis irrelevantes ou redundantes. d) Criar novas variáveis a partir das variáveis existentes. e) Melhorar o desempenho do modelo aumentando a complexidade. Questão 8 O que é uma rede neural profunda (Deep Neural Network)? a) Uma rede neural com poucas camadas e unidades, sendo fácil de treinar. b) Uma rede neural com múltiplas camadas ocultas, capaz de aprender representações complexas dos dados. c) Uma rede neural utilizada apenas para classificação binária. d) Uma rede neural sem camadas ocultas. e) Uma rede neural simples que utiliza funções de ativação lineares. Questão 9 Qual é a função do tuning de hiperparâmetros? a) Ajustar os parâmetros internos do modelo para melhorar sua precisão. b) Ajustar os valores das variáveis de entrada para otimizar a aprendizagem. c) Ajustar as variáveis dependentes do modelo. d) Ajustar os algoritmos de treinamento para melhorar o desempenho. e) Ajustar os valores dos parâmetros do modelo durante o processo de treinamento para melhorar a generalização. Questão 10 Qual é o objetivo do Principal Component Analysis (PCA)? a) Criar novas variáveis a partir das variáveis existentes, mantendo a maior variação dos dados. b) Maximizar a dimensionalidade dos dados para capturar mais padrões. c) Selecionar as melhores variáveis para incluir no modelo. d) Reduzir a variabilidade dos dados para melhorar a classificação. e) Aumentar a complexidade do modelo ajustando seus parâmetros. Gabarito e Justificativa 1. b) ○ O Naive Bayes é um modelo probabilístico que assume independência entre as variáveis, utilizado para previsão de classes. 2. b) ○ A Regularização L2 (Ridge) penaliza os coeficientes grandes, ajudando a reduzir o overfitting e melhorar a generalização do modelo. 3. b) ○ O Clustering é uma técnica não supervisionada usada para agrupar dados com características semelhantes sem utilizar rótulos. 4. b) ○ O Deep Learning pode automatizar a extração de características e é eficaz no processamento de grandes volumes de dados não estruturados, como imagens e texto. 5. b) ○ O Bagging combina múltiplos modelos simples para melhorar a precisão e reduzir o overfitting, aumentando a robustez do modelo final. 6. b) ○ Cross-Validation é uma técnica usada para avaliar a precisão de um modelo dividindo os dados em várias partes, garantindo uma avaliação robusta. 7. c) ○ Feature Selection visa reduzir a dimensionalidade do modelo, eliminando variáveis irrelevantes ou redundantes. 8. b) ○ Uma rede neural profunda possui múltiplas camadas ocultas, permitindo que o modelo aprenda representações mais complexas dos dados. 9. e) ○ O tuning de hiperparâmetros ajusta os parâmetros do modelo durante o treinamento para otimizar sua performance e melhorar a generalização. 10. a) ● PCA é utilizado para criar novas variáveis (componentes principais) que mantêm a maior parte da variação dos dados, ajudando a reduzir a dimensionalidade. Essas provas focam no entendimento e aplicação de conceitos-chave em ciência de dados, cobrindo tanto os fundamentos quanto técnicas mais avançadas em aprendizado supervisionado e não supervisionado.