Prévia do material em texto
Prova de Ciência de Dados: Fundamentos de Algoritmos e Modelos de Machine Learning Introdução: Esta prova foca nos fundamentos dos algoritmos de aprendizado de máquina, incluindo algoritmos supervisionados e não supervisionados. As questões cobrem desde a construção de modelos preditivos até a escolha das melhores métricas de avaliação e o uso de técnicas para otimização e regularização. Questão 1 O que caracteriza um modelo de aprendizado supervisionado? a) O modelo é treinado com dados rotulados, ou seja, com exemplos de entrada e saída conhecidas. b) O modelo é treinado sem dados rotulados, descobrindo padrões e estruturas no conjunto de dados. c) O modelo não utiliza dados de entrada, apenas a resposta esperada. d) O modelo pode ser usado para prever variáveis não contínuas, como em clustering. e) O modelo apenas classifica os dados em duas categorias. Questão 2 Qual é a principal vantagem de usar o Support Vector Machine (SVM) para problemas de classificação? a) O SVM sempre gera resultados mais rápidos do que outros algoritmos de classificação. b) O SVM é altamente eficaz em problemas com uma grande quantidade de atributos ou variáveis. c) O SVM só pode ser usado para classificação binária, não podendo lidar com múltiplas classes. d) O SVM não é adequado para problemas com dados não lineares. e) O SVM não necessita de dados rotulados para treinamento. Questão 3 Em um modelo de aprendizado de máquina, o que é underfitting? a) Quando o modelo é excessivamente complexo e se ajusta bem aos dados de treinamento, mas tem um desempenho fraco nos dados de teste. b) Quando o modelo é incapaz de aprender a partir dos dados de treinamento e apresenta baixo desempenho tanto nos dados de treinamento quanto de teste. c) Quando o modelo apresenta um bom desempenho tanto nos dados de treinamento quanto nos dados de teste. d) Quando o modelo tem desempenho ruim nos dados de treinamento, mas bom desempenho nos dados de teste. e) Quando o modelo é simples demais e não captura padrões suficientes nos dados. Questão 4 Qual é o papel da regularização L1 (Lasso)? a) Aumentar o número de coeficientes no modelo. b) Penalizar os coeficientes de forma quadrática. c) Eliminar variáveis menos importantes, tornando o modelo mais esparso. d) Melhorar o ajuste do modelo a dados muito grandes. e) Ajustar os parâmetros do modelo para evitar overfitting sem modificar os coeficientes. Questão 5 O que significa Bagging no contexto de aprendizado de máquina? a) O processo de ajustar um modelo com mais dados do que o necessário. b) A técnica que combina múltiplos modelos para reduzir a variabilidade e melhorar a precisão. c) O uso de uma única árvore de decisão para todas as previsões. d) A técnica de reduzir a complexidade do modelo para evitar overfitting. e) A escolha de um único modelo e a aplicação de parâmetros de regularização. Questão 6 Qual é a diferença entre uma regressão logística e uma regressão linear? a) A regressão logística é usada para prever valores contínuos, enquanto a regressão linear é usada para classificação. b) A regressão logística usa uma função sigmoide para prever probabilidades, enquanto a regressão linear prediz um valor contínuo. c) A regressão linear é mais precisa do que a regressão logística em todos os tipos de dados. d) A regressão logística é adequada apenas para séries temporais, enquanto a regressão linear é mais geral. e) Não existe diferença entre os dois métodos. Questão 7 Quando o modelo é treinado utilizando boosting, o que ele busca fazer? a) Combinar múltiplos modelos fracos de forma que cada novo modelo compense os erros do anterior. b) Usar uma única árvore de decisão para aumentar a acurácia do modelo. c) Ajustar os hiperparâmetros do modelo para melhorar sua performance. d) Utilizar dados adicionais para melhorar a acurácia do modelo. e) Prever uma única variável de saída. Questão 8 O que é clustering em aprendizado não supervisionado? a) O processo de classificar dados em grupos ou categorias com base em semelhanças. b) A técnica de prever o valor de uma variável com base em outras variáveis. c) O processo de dividir os dados em dois grupos: treinamento e teste. d) A utilização de uma rede neural para identificar padrões nos dados. e) A técnica de reduzir a dimensionalidade dos dados. Questão 9 Qual das métricas a seguir é comumente utilizada para problemas de classificação binária? a) Acurácia. b) R² (Coeficiente de Determinação). c) Mean Squared Error (MSE). d) F1-Score. e) Média ponderada. Questão 10 O que é uma matriz de confusão? a) Uma tabela que descreve a performance de um algoritmo de classificação comparando as previsões do modelo com as classes reais. b) Um gráfico de barras que mostra a distribuição de classes no modelo. c) Um gráfico que mostra a relação entre variáveis contínuas no modelo. d) Uma técnica usada para ajustar hiperparâmetros. e) Uma ferramenta para calcular a perda do modelo. Gabarito e Justificativa 1. a) ○ O aprendizado supervisionado utiliza dados rotulados para treinar o modelo, ou seja, os exemplos de entrada têm saídas conhecidas. 2. b) ○ O SVM é eficaz em problemas com muitos atributos, pois consegue encontrar a melhor margem para separar as classes, seja em problemas lineares ou não lineares. 3. b) ○ Underfitting ocorre quando o modelo é muito simples para capturar a complexidade dos dados, resultando em baixo desempenho tanto nos dados de treinamento quanto nos de teste. 4. c) ○ A regularização L1 (Lasso) penaliza os coeficientes e pode eliminar variáveis irrelevantes, tornando o modelo mais esparso e interpretável. 5. b) ○ O Bagging (Bootstrap Aggregating) combina múltiplos modelos (geralmente árvores de decisão) para reduzir a variabilidade do modelo e melhorar a precisão. 6. b) ○ A regressão logística usa uma função sigmoide para modelar probabilidades e é usada em problemas de classificação, enquanto a regressão linear prediz valores contínuos. 7. a) ○ O Boosting combina múltiplos modelos fracos, de forma que cada novo modelo se concentre em corrigir os erros cometidos pelos modelos anteriores. 8. a) ○ Clustering é a técnica de agrupar dados não rotulados com base em semelhanças entre os dados, utilizado em aprendizado não supervisionado. 9. d) ○ O F1-Score é uma métrica comumente usada em problemas de classificação binária, especialmente quando há um desbalanceamento entre as classes. 10. a) ● A matriz de confusão é uma tabela que descreve a performance do modelo de classificação, comparando as previsões do modelo com as classes reais.