Prévia do material em texto
Prova de Ciência de Dados: Abordagens e Técnicas Avançadas Introdução: Nesta prova, vamos explorar as abordagens avançadas em Ciência de Dados, com foco em técnicas de aprendizado de máquina, redes neurais, avaliação de modelos e desafios de aplicação em grandes volumes de dados. O objetivo é avaliar o conhecimento do aluno sobre o uso de ferramentas e algoritmos sofisticados para análise de dados complexos. Questão 1 O que caracteriza o algoritmo Random Forest? a) Ele é uma única árvore de decisão, mas com várias camadas. b) Ele utiliza várias árvores de decisão e combina suas previsões para melhorar a precisão. c) Ele é baseado em redes neurais profundas. d) Ele é um modelo linear usado para predições. e) Ele é eficaz apenas em problemas de regressão. Questão 2 O que é o conceito de overfitting em aprendizado de máquina? a) Quando o modelo não consegue aprender de maneira eficiente. b) Quando o modelo é simples demais e não consegue capturar a complexidade dos dados. c) Quando o modelo é ajustado demais aos dados de treinamento, tornando-se incapaz de generalizar para dados novos. d) Quando o modelo tem um desempenho igual em dados de treinamento e teste. e) Quando o modelo perde precisão devido à complexidade excessiva. Questão 3 Qual a principal diferença entre regressão logística e regressão linear? a) A regressão logística é usada para prever valores contínuos, enquanto a regressão linear é para valores binários. b) A regressão logística usa uma função sigmoide para prever probabilidades, enquanto a regressão linear é usada para prever valores contínuos. c) A regressão logística é usada apenas em problemas de classificação, enquanto a regressão linear é apenas para regressão. d) A regressão linear não pode ser usada em aprendizado supervisionado. e) A regressão logística sempre requer normalização dos dados, enquanto a regressão linear não. Questão 4 Qual é o objetivo da técnica Principal Component Analysis (PCA)? a) Agrupar dados em categorias com base em características similares. b) Reduzir a dimensionalidade dos dados, mantendo as informações mais importantes. c) Ajustar os parâmetros do modelo para melhorar sua acurácia. d) Melhorar a capacidade preditiva de modelos de regressão. e) Ajustar os pesos de uma rede neural. Questão 5 Em um modelo de aprendizado supervisionado, qual é a principal vantagem do uso do algoritmo XGBoost? a) Ele é mais simples que outros algoritmos e exige menos recursos computacionais. b) Ele é um modelo de regressão que pode lidar apenas com dados numéricos. c) Ele é uma implementação de árvores de decisão que utiliza gradient boosting para melhorar a acurácia do modelo. d) Ele é usado apenas para problemas de classificação com dados binários. e) Ele trabalha apenas com dados não rotulados. Questão 6 O que é uma rede neural convolucional (CNN)? a) Um modelo simples de regressão utilizado em aprendizado supervisionado. b) Um modelo de aprendizado profundo utilizado principalmente para análise de dados tabulares. c) Uma rede neural especializada no processamento de dados sequenciais e séries temporais. d) Uma rede neural usada para tarefas de classificação e reconhecimento de imagens e vídeos. e) Um modelo que usa apenas uma camada de neurônios para aprender padrões. Questão 7 O que caracteriza o algoritmo K-means em relação aos outros algoritmos de clustering? a) Ele faz predições sobre as variáveis de entrada. b) Ele é baseado em regras de decisão, ao invés de distância. c) Ele agrupa dados em um número fixo de clusters, com base na distância média. d) Ele trabalha apenas com dados numéricos. e) Ele utiliza redes neurais profundas para otimizar os clusters. Questão 8 Qual a vantagem da validação cruzada em modelos de aprendizado de máquina? a) Ela permite que o modelo aprenda de forma mais rápida. b) Ela ajusta os parâmetros automaticamente para obter o melhor modelo. c) Ela ajuda a verificar a robustez do modelo, dividindo os dados em múltiplos subconjuntos para testes. d) Ela melhora a precisão, aumentando o número de dados. e) Ela elimina a necessidade de dividir dados em treinamento e teste. Questão 9 O que são redes neurais profundas e por que elas são eficazes em tarefas de aprendizado de máquina? a) São redes com apenas uma camada de neurônios que podem aprender qualquer tipo de relação linear. b) São redes compostas por múltiplas camadas de neurônios que aprendem representações hierárquicas e complexas dos dados. c) Elas requerem um número limitado de parâmetros e são muito rápidas. d) Elas são usadas para clustering e não para predição. e) Elas são compostas apenas por camadas de regularização. Questão 10 Qual é o principal objetivo do tuning de hiperparâmetros em um modelo de aprendizado de máquina? a) Aumentar o número de variáveis utilizadas no modelo. b) Ajustar os parâmetros do modelo para melhorar sua performance. c) Reduzir o número de camadas em uma rede neural. d) Ajustar os dados de entrada para melhorar a precisão. e) Remover variáveis irrelevantes. Gabarito e Justificativa 1. b) ○ O Random Forest é um algoritmo baseado em múltiplas árvores de decisão que são combinadas para melhorar a acurácia do modelo e reduzir o risco de overfitting. 2. c) ○ Overfitting ocorre quando o modelo se ajusta excessivamente aos dados de treinamento e perde sua capacidade de generalizar para novos dados. 3. b) ○ A regressão logística é usada para prever probabilidades (valores entre 0 e 1), enquanto a regressão linear é usada para prever valores contínuos. 4. b) ○ O Principal Component Analysis (PCA) é uma técnica de redução de dimensionalidade que transforma as variáveis em um novo conjunto de variáveis (componentes principais), mantendo a maior parte da variância. 5. c) ○ O XGBoost é uma implementação de árvores de decisão que utiliza o conceito de gradient boosting, o que aumenta a acurácia do modelo ao combinar várias árvores fracas. 6. d) ○ As redes neurais convolucionais (CNNs) são usadas principalmente para tarefas de visão computacional, como reconhecimento de imagens e vídeos, aplicando operações de convolução para aprender padrões espaciais. 7. c) ○ O K-means agrupa dados em um número fixo de clusters baseados na distância média entre os pontos e os centros dos clusters. 8. c) ○ A validação cruzada divide os dados em múltiplos subconjuntos, treinando o modelo em alguns e testando em outros, o que ajuda a garantir que o modelo não seja sobreajustado a um único conjunto de dados. 9. b) ○ As redes neurais profundas (deep learning) são compostas por várias camadas de neurônios, o que permite aprender representações hierárquicas complexas, tornando-as eficazes para tarefas como classificação de imagens e processamento de linguagem natural. 10. b) ● O tuning de hiperparâmetros envolve ajustar os parâmetros do modelo (como taxa de aprendizado, número de camadas, etc.) para melhorar sua performance e generalização.