Prévia do material em texto
Prova de Ciência de Dados: Algoritmos de Machine Learning e Suas Aplicações Introdução: A ciência de dados envolve a aplicação de vários algoritmos para extrair informações significativas a partir de grandes volumes de dados. Esta prova aborda diversos aspectos dos algoritmos de machine learning, incluindo suas aplicações práticas, características e desafios. O foco é avaliar a compreensão do uso e a implementação de modelos em diferentes tipos de dados e contextos. Questão 1 Em que tipo de problema de aprendizado de máquina a técnica de k-means clustering é mais comumente utilizada? a) Classificação supervisionada de dados. b) Regressão de séries temporais. c) Agrupamento de dados não rotulados. d) Predição de valores contínuos. e) Análise de componentes principais (PCA). Questão 2 O que é uma função de custo (ou função de erro) em um modelo de aprendizado de máquina? a) A medida da complexidade do modelo. b) A métrica usada para medir a capacidade do modelo de generalizar. c) A função usada para otimizar os parâmetros do modelo durante o treinamento. d) A função que ajuda a reduzir o overfitting. e) A fórmula usada para validar o desempenho do modelo em dados de teste. Questão 3 Qual algoritmo é conhecido por ser um modelo de aprendizado supervisionado baseado em árvores de decisão? a) Regressão Linear b) K-Nearest Neighbors (K-NN) c) Random Forest d) Support Vector Machine (SVM) e) Gradient Boosting Questão 4 Em um problema de classificação binária, qual métrica é mais importante quando há um desbalanceamento nas classes? a) Acurácia b) Precisão c) Recall d) F1-Score e) Erro quadrático médio (MSE) Questão 5 O que é a técnica de bagging no contexto de aprendizado de máquina? a) A criação de múltiplos modelos independentes e a combinação de suas previsões. b) A técnica de ajuste de parâmetros de uma rede neural. c) A redução da dimensionalidade dos dados. d) A geração de novos dados sintéticos a partir de dados existentes. e) O treinamento de uma única árvore de decisão em dados aleatórios. Questão 6 Em qual dos seguintes cenários seria mais adequado usar deep learning (aprendizado profundo)? a) Problemas simples de classificação com dados tabulares. b) Predição de séries temporais com poucos dados. c) Análise de grandes volumes de dados não estruturados, como imagens ou áudio. d) Problemas de classificação de texto com um número reduzido de características. e) Modelagem de variáveis contínuas em uma única dimensão. Questão 7 Qual das seguintes afirmativas é verdadeira sobre o Gradient Descent? a) Ele é usado para aumentar a complexidade de modelos. b) Ele é um algoritmo de otimização que ajusta os parâmetros do modelo para minimizar a função de custo. c) Ele é uma técnica de regularização para evitar overfitting. d) Ele é utilizado apenas em redes neurais profundas. e) Ele busca maximizar a precisão do modelo durante o treinamento. Questão 8 Qual das alternativas a seguir melhor descreve o processo de feature engineering em ciência de dados? a) A criação de novos dados a partir de técnicas de amostragem. b) A escolha e transformação de variáveis relevantes para melhorar o desempenho do modelo. c) A utilização de algoritmos de aprendizado supervisionado. d) A análise de outliers e a remoção de dados irrelevantes. e) O ajuste de hiperparâmetros do modelo. Questão 9 No aprendizado supervisionado, o que define um modelo de regressão? a) O modelo prediz uma variável discreta com base em dados contínuos. b) O modelo lida com problemas de agrupamento de dados. c) O modelo prevê uma variável contínua, como o preço de um produto. d) O modelo é usado para classificar dados em diferentes grupos. e) O modelo combina várias árvores de decisão para melhorar o desempenho. Questão 10 Em qual situação o Support Vector Machine (SVM) é mais eficaz? a) Problemas de regressão com dados contínuos e simples. b) Classificação de dados lineares, onde as classes podem ser separadas por uma linha reta (ou plano). c) Agrupamento de dados não rotulados. d) Análise de componentes principais (PCA) para redução de dimensionalidade. e) Previsão de séries temporais com base em dados históricos. Gabarito e Justificativa 1. c) ○ O k-means clustering é um algoritmo de aprendizado não supervisionado, utilizado principalmente para agrupamento de dados não rotulados. 2. c) ○ A função de custo (ou erro) é usada para medir a diferença entre as previsões do modelo e os valores reais, ajudando a ajustar os parâmetros durante o treinamento. 3. c) ○ O Random Forest é um algoritmo baseado em múltiplas árvores de decisão, que aumenta a robustez do modelo e reduz o risco de overfitting. 4. d) ○ O F1-Score é uma métrica que combina precisão e recall, sendo especialmente útil em problemas com classes desbalanceadas. 5. a) ○ O bagging é uma técnica de aprendizado em que vários modelos independentes são treinados em subconjuntos diferentes dos dados, e suas previsões são combinadas para melhorar a acurácia. 6. c) ○ O deep learning é especialmente adequado para problemas que envolvem grandes volumes de dados não estruturados, como imagens, vídeos e áudio. 7. b) ○ O Gradient Descent é um algoritmo de otimização utilizado para minimizar a função de custo ajustando iterativamente os parâmetros do modelo. 8. b) ○ Feature engineering é o processo de transformar ou criar novas variáveis a partir dos dados brutos, visando melhorar o desempenho dos modelos de aprendizado de máquina. 9. c) ○ A regressão é um modelo de aprendizado supervisionado utilizado para prever variáveis contínuas, como preços ou temperaturas. 10. b) ● O Support Vector Machine (SVM) é um algoritmo de classificação que se destaca em problemas onde as classes podem ser separadas linearmente, buscando a margem de separação mais ampla entre as classes.