Prévia do material em texto
Prova de Ciência de Dados: Técnicas e Aplicações Avançadas Introdução: Esta prova avalia seus conhecimentos sobre técnicas avançadas e aplicações práticas na área de Ciência de Dados, abordando desde algoritmos até métodos de avaliação. Responda com atenção e escolha a melhor alternativa. Questão 1 O que caracteriza o modelo de Regressão Linear? a) É um modelo que prevê classes com base em dados rotulados. b) Calcula a relação linear entre uma variável dependente e uma ou mais variáveis independentes. c) É usado exclusivamente para processamento de imagens. d) Agrupa dados em clusters com características similares. e) Reduz a dimensionalidade de conjuntos de dados. Questão 2 Qual técnica é usada para reduzir a dimensionalidade de dados? a) Regressão Logística. b) Árvore de Decisão. c) Análise de Componentes Principais (PCA). d) Gradient Boosting. e) Validação Cruzada. Questão 3 Qual das opções abaixo é uma métrica usada para avaliar modelos de regressão? a) Recall. b) Acurácia. c) RMSE (Raiz do Erro Quadrático Médio). d) Precisão. e) Sensibilidade. Questão 4 O que é Bagging em aprendizado de máquina? a) Um método para balancear dados desbalanceados. b) Uma técnica de validação de modelos. c) Um método para combinar vários modelos de aprendizado, reduzindo a variância. d) Uma abordagem para otimizar o ajuste de hiperparâmetros. e) Um algoritmo para aprendizado supervisionado. Questão 5 Qual é o principal objetivo do algoritmo Random Forest? a) Classificação ou regressão usando múltiplas árvores de decisão. b) Reduzir o número de variáveis categóricas. c) Identificar outliers em grandes conjuntos de dados. d) Dividir dados em clusters com base em similaridades. e) Normalizar variáveis para escalas específicas. Questão 6 Qual métrica é mais útil para avaliar modelos de classificação desbalanceados? a) Acurácia. b) RMSE. c) F1-Score. d) Erro Absoluto Médio. e) Variância Explicada. Questão 7 O que é tokenização no processamento de linguagem natural (PLN)? a) A substituição de palavras por números aleatórios. b) A análise de sentimentos em textos. c) A divisão de texto em palavras ou pedaços menores para análise. d) O agrupamento de documentos semelhantes. e) A criação de modelos de tópicos. Questão 8 Qual é o principal objetivo de boosting em aprendizado de máquina? a) Reduzir o overfitting. b) Melhorar a acurácia combinando modelos fracos em modelos fortes. c) Normalizar dados antes do treinamento. d) Identificar variáveis mais relevantes para análise. e) Treinar modelos de redes neurais convolucionais. Questão 9 O que significa Recall em métricas de classificação? a) A proporção de verdadeiros positivos em relação ao total de casos positivos reais. b) A taxa de falsos negativos no modelo. c) A proporção de verdadeiros positivos em relação ao total de previsões positivas. d) A taxa de acurácia entre todas as previsões. e) O erro médio entre valores reais e previstos. Questão 10 Em qual cenário o uso de Redes Neurais Artificiais (ANNs) é mais apropriado? a) Quando é necessário processar grandes volumes de texto sem estrutura. b) Para analisar a relação linear entre duas variáveis. c) Em problemas de regressão linear simples. d) Em classificações simples com dados pequenos e bem definidos. e) Quando há uma grande quantidade de dados complexos e não lineares. Gabarito e Justificativa 1. b) ○ A Regressão Linear modela a relação linear entre variáveis dependentes e independentes. 2. c) ○ PCA é uma técnica amplamente utilizada para reduzir a dimensionalidade mantendo a maior parte da variabilidade dos dados. 3. c) ○ RMSE mede a magnitude média do erro em modelos de regressão, sendo sensível a erros grandes. 4. c) ○ Bagging combina vários modelos para reduzir a variância e aumentar a robustez. 5. a) ○ Random Forest utiliza várias árvores de decisão para melhorar o desempenho em tarefas de classificação e regressão. 6. c) ○ O F1-Score é ideal para cenários desbalanceados, pois combina precision e recall. 7. c) ○ A tokenização divide o texto em partes menores, como palavras, para facilitar o processamento. 8. b) ○ Boosting melhora a performance combinando modelos fracos em modelos mais fortes. 9. a) ○ Recall mede a proporção de verdadeiros positivos em relação ao total de casos positivos reais. 10. e) ○ ANNs são ideais para dados complexos e com relações não lineares, como imagens e séries temporais.