Logo Passei Direto
Buscar

Prova de Ciência de Dados_ Abordagens e Técnicas Avançadas

User badge image
Carme Timoteo

em

Ferramentas de estudo

Questões resolvidas

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Prévia do material em texto

Prova de Ciência de Dados: Abordagens e Técnicas Avançadas
Introdução:
Nesta prova, vamos explorar as abordagens avançadas em Ciência de Dados, com foco em
técnicas de aprendizado de máquina, redes neurais, avaliação de modelos e desafios de 
aplicação em grandes volumes de dados. O objetivo é avaliar o conhecimento do aluno 
sobre o uso de ferramentas e algoritmos sofisticados para análise de dados complexos.
Questão 1
O que caracteriza o algoritmo Random Forest?
a) Ele é uma única árvore de decisão, mas com várias camadas.
b) Ele utiliza várias árvores de decisão e combina suas previsões para melhorar a precisão.
c) Ele é baseado em redes neurais profundas.
d) Ele é um modelo linear usado para predições.
e) Ele é eficaz apenas em problemas de regressão.
Questão 2
O que é o conceito de overfitting em aprendizado de máquina?
a) Quando o modelo não consegue aprender de maneira eficiente.
b) Quando o modelo é simples demais e não consegue capturar a complexidade dos dados.
c) Quando o modelo é ajustado demais aos dados de treinamento, tornando-se incapaz de 
generalizar para dados novos.
d) Quando o modelo tem um desempenho igual em dados de treinamento e teste.
e) Quando o modelo perde precisão devido à complexidade excessiva.
Questão 3
Qual a principal diferença entre regressão logística e regressão linear?
a) A regressão logística é usada para prever valores contínuos, enquanto a regressão linear
é para valores binários.
b) A regressão logística usa uma função sigmoide para prever probabilidades, enquanto a 
regressão linear é usada para prever valores contínuos.
c) A regressão logística é usada apenas em problemas de classificação, enquanto a 
regressão linear é apenas para regressão.
d) A regressão linear não pode ser usada em aprendizado supervisionado.
e) A regressão logística sempre requer normalização dos dados, enquanto a regressão 
linear não.
Questão 4
Qual é o objetivo da técnica Principal Component Analysis (PCA)?
a) Agrupar dados em categorias com base em características similares.
b) Reduzir a dimensionalidade dos dados, mantendo as informações mais importantes.
c) Ajustar os parâmetros do modelo para melhorar sua acurácia.
d) Melhorar a capacidade preditiva de modelos de regressão.
e) Ajustar os pesos de uma rede neural.
Questão 5
Em um modelo de aprendizado supervisionado, qual é a principal vantagem do uso do 
algoritmo XGBoost?
a) Ele é mais simples que outros algoritmos e exige menos recursos computacionais.
b) Ele é um modelo de regressão que pode lidar apenas com dados numéricos.
c) Ele é uma implementação de árvores de decisão que utiliza gradient boosting para 
melhorar a acurácia do modelo.
d) Ele é usado apenas para problemas de classificação com dados binários.
e) Ele trabalha apenas com dados não rotulados.
Questão 6
O que é uma rede neural convolucional (CNN)?
a) Um modelo simples de regressão utilizado em aprendizado supervisionado.
b) Um modelo de aprendizado profundo utilizado principalmente para análise de dados 
tabulares.
c) Uma rede neural especializada no processamento de dados sequenciais e séries 
temporais.
d) Uma rede neural usada para tarefas de classificação e reconhecimento de imagens e 
vídeos.
e) Um modelo que usa apenas uma camada de neurônios para aprender padrões.
Questão 7
O que caracteriza o algoritmo K-means em relação aos outros algoritmos de clustering?
a) Ele faz predições sobre as variáveis de entrada.
b) Ele é baseado em regras de decisão, ao invés de distância.
c) Ele agrupa dados em um número fixo de clusters, com base na distância média.
d) Ele trabalha apenas com dados numéricos.
e) Ele utiliza redes neurais profundas para otimizar os clusters.
Questão 8
Qual a vantagem da validação cruzada em modelos de aprendizado de máquina?
a) Ela permite que o modelo aprenda de forma mais rápida.
b) Ela ajusta os parâmetros automaticamente para obter o melhor modelo.
c) Ela ajuda a verificar a robustez do modelo, dividindo os dados em múltiplos subconjuntos 
para testes.
d) Ela melhora a precisão, aumentando o número de dados.
e) Ela elimina a necessidade de dividir dados em treinamento e teste.
Questão 9
O que são redes neurais profundas e por que elas são eficazes em tarefas de aprendizado 
de máquina?
a) São redes com apenas uma camada de neurônios que podem aprender qualquer tipo de 
relação linear.
b) São redes compostas por múltiplas camadas de neurônios que aprendem 
representações hierárquicas e complexas dos dados.
c) Elas requerem um número limitado de parâmetros e são muito rápidas.
d) Elas são usadas para clustering e não para predição.
e) Elas são compostas apenas por camadas de regularização.
Questão 10
Qual é o principal objetivo do tuning de hiperparâmetros em um modelo de aprendizado de 
máquina?
a) Aumentar o número de variáveis utilizadas no modelo.
b) Ajustar os parâmetros do modelo para melhorar sua performance.
c) Reduzir o número de camadas em uma rede neural.
d) Ajustar os dados de entrada para melhorar a precisão.
e) Remover variáveis irrelevantes.
Gabarito e Justificativa
1. b)
○ O Random Forest é um algoritmo baseado em múltiplas árvores de decisão 
que são combinadas para melhorar a acurácia do modelo e reduzir o risco de
overfitting.
2. c)
○ Overfitting ocorre quando o modelo se ajusta excessivamente aos dados de 
treinamento e perde sua capacidade de generalizar para novos dados.
3. b)
○ A regressão logística é usada para prever probabilidades (valores entre 0 e 
1), enquanto a regressão linear é usada para prever valores contínuos.
4. b)
○ O Principal Component Analysis (PCA) é uma técnica de redução de 
dimensionalidade que transforma as variáveis em um novo conjunto de 
variáveis (componentes principais), mantendo a maior parte da variância.
5. c)
○ O XGBoost é uma implementação de árvores de decisão que utiliza o 
conceito de gradient boosting, o que aumenta a acurácia do modelo ao 
combinar várias árvores fracas.
6. d)
○ As redes neurais convolucionais (CNNs) são usadas principalmente para 
tarefas de visão computacional, como reconhecimento de imagens e vídeos, 
aplicando operações de convolução para aprender padrões espaciais.
7. c)
○ O K-means agrupa dados em um número fixo de clusters baseados na 
distância média entre os pontos e os centros dos clusters.
8. c)
○ A validação cruzada divide os dados em múltiplos subconjuntos, treinando o 
modelo em alguns e testando em outros, o que ajuda a garantir que o modelo
não seja sobreajustado a um único conjunto de dados.
9. b)
○ As redes neurais profundas (deep learning) são compostas por várias 
camadas de neurônios, o que permite aprender representações hierárquicas 
complexas, tornando-as eficazes para tarefas como classificação de imagens
e processamento de linguagem natural.
10. b)
● O tuning de hiperparâmetros envolve ajustar os parâmetros do modelo (como taxa 
de aprendizado, número de camadas, etc.) para melhorar sua performance e 
generalização.

Mais conteúdos dessa disciplina