Prévia do material em texto
Prova de Ciência de Dados: Fundamentos e Avanços no Aprendizado de Máquina Introdução: Este conjunto de questões explora os conceitos fundamentais do aprendizado de máquina, cobrindo desde os algoritmos básicos até técnicas avançadas de otimização e avaliação de modelos. As questões são projetadas para testar a compreensão dos processos que envolvem modelagem de dados e a avaliação do desempenho de modelos. Questão 1 Qual é o objetivo principal do algoritmo de Random Forest? a) Reduzir a dimensionalidade dos dados. b) Combinar várias árvores de decisão para melhorar a precisão do modelo. c) Agrupar dados em clusters com base em similaridade. d) Ajustar a taxa de aprendizado em redes neurais. e) Visualizar dados de forma não linear. Questão 2 Qual das seguintes opções é uma desvantagem do modelo k-NN? a) Ele é muito simples e não captura padrões complexos. b) Ele não exige dados de treinamento. c) Ele é ineficiente quando há muitos dados e muitas variáveis. d) Ele é muito sensível a dados desbalanceados. e) Ele não é aplicável a problemas de regressão. Questão 3 Qual é a principal vantagem de usar o algoritmo SVM? a) Ele é eficaz para grandes volumes de dados rotulados. b) Ele é eficaz em problemas de classificação linear e não linear, separando as classes com margens máximas. c) Ele pode ser usado apenas para problemas de regressão. d) Ele não exige otimização de hiperparâmetros. e) Ele funciona bem em problemas com dados altamente desbalanceados. Questão 4 O que caracteriza o algoritmo de K-means? a) Ele busca reduzir a dimensionalidade dos dados. b) Ele utiliza a distância entre os pontos para agrupar dados em clusters. c) Ele é baseado em árvores de decisão. d) Ele é ideal para classificação supervisionada. e) Ele utiliza redes neurais para aprender padrões dos dados. Questão 5 Qual é a função de uma função de perda em um modelo de aprendizado de máquina? a) Ajustar a taxa de aprendizado. b) Medir a qualidade das predições do modelo em relação aos dados reais. c) Reduzir a variância dos dados. d) Normalizar as entradas do modelo. e) Estimar a complexidade computacional do modelo. Questão 6 Em um problema de classificação, a curva ROC (Receiver Operating Characteristic) é usada para: a) Avaliar a precisão do modelo com base nas previsões corretas. b) Avaliar o desempenho do modelo para diferentes limiares de classificação. c) Comparar o tempo de execução de diferentes modelos. d) Visualizar a distribuição dos dados. e) Estimar o número de variáveis necessárias para o modelo. Questão 7 Qual é o objetivo da técnica de regularização em modelos de aprendizado de máquina? a) Aumentar a complexidade do modelo para aumentar o desempenho. b) Impedir que o modelo se ajuste excessivamente aos dados de treinamento (overfitting). c) Melhorar a acurácia nos dados de teste. d) Reduzir o número de dados de treinamento. e) Acelerar o processo de treinamento. Questão 8 O que significa o termo overfitting? a) Quando o modelo é muito simples e não captura padrões suficientes dos dados. b) Quando o modelo é ajustado excessivamente aos dados de treinamento, perdendo a capacidade de generalizar para novos dados. c) Quando o modelo apresenta boa precisão nos dados de teste, mas falha nos dados de treinamento. d) Quando o modelo sofre de baixa variância e alta acurácia. e) Quando o modelo tem alta acurácia, mas não é eficiente computacionalmente. Questão 9 Qual é a principal diferença entre os algoritmos de classificação e regressão em aprendizado de máquina? a) A classificação prevê um valor contínuo, enquanto a regressão prevê uma classe. b) A classificação é usada para problemas de previsão de séries temporais, enquanto a regressão é para problemas de classificação. c) A classificação é para problemas com variáveis categóricas, enquanto a regressão é para variáveis contínuas. d) Não há diferença; ambos resolvem problemas de previsão. e) A regressão é mais eficiente computacionalmente que a classificação. Questão 10 O que é a técnica de validação cruzada? a) Um método para reduzir a dimensionalidade de um conjunto de dados. b) Um método para ajustar hiperparâmetros do modelo de aprendizado. c) Uma técnica para avaliar o desempenho de um modelo, dividindo os dados em vários subconjuntos de treinamento e teste. d) Uma técnica para selecionar as variáveis mais relevantes. e) Um método para monitorar o tempo de execução do modelo. Gabarito e Justificativa 1. b) ○ O Random Forest é uma técnica de ensemble que combina várias árvores de decisão para melhorar a precisão e reduzir o risco de overfitting. 2. c) ○ O k-NN pode ser ineficiente com grandes volumes de dados e alta dimensionalidade, devido à necessidade de calcular as distâncias entre todos os pontos de dados. 3. b) ○ O SVM é eficaz para problemas de classificação linear e não linear, separando as classes com a maior margem possível, o que o torna robusto a dados ruidosos. 4. b) ○ O K-means é um algoritmo de agrupamento que utiliza a distância entre os pontos para dividir os dados em clusters, sem a necessidade de rótulos. 5. b) ○ A função de perda mede a diferença entre as predições do modelo e os valores reais, servindo como guia para otimização do modelo. 6. b) ○ A curva ROC avalia a capacidade de um modelo em diferenciar entre as classes, testando diferentes limiares de classificação. 7. b) ○ A regularização ajuda a prevenir o overfitting ao adicionar uma penalização aos parâmetros do modelo, tornando-o menos complexo e mais generalizável. 8. b) ○ Overfitting ocorre quando o modelo aprende excessivamente os dados de treinamento, incluindo o ruído, o que prejudica sua capacidade de generalizar para novos dados. 9. c) ○ A classificação é usada para prever classes (categóricas), enquanto a regressão é usada para prever valores contínuos. 10. c) ● A validação cruzada envolve dividir o conjunto de dados em múltiplos subconjuntos para treinar e testar o modelo, ajudando a garantir que ele generalize bem para dados não vistos.