Logo Passei Direto
Buscar

Prova de Ciência de Dados_ Fundamentos de Algoritmos e Modelos de Machine Learning

User badge image
Carme Timoteo

em

Ferramentas de estudo

Questões resolvidas

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Prévia do material em texto

Prova de Ciência de Dados: Fundamentos de Algoritmos e Modelos de 
Machine Learning
Introdução:
Esta prova foca nos fundamentos dos algoritmos de aprendizado de máquina, incluindo 
algoritmos supervisionados e não supervisionados. As questões cobrem desde a 
construção de modelos preditivos até a escolha das melhores métricas de avaliação e o uso
de técnicas para otimização e regularização.
Questão 1
O que caracteriza um modelo de aprendizado supervisionado?
a) O modelo é treinado com dados rotulados, ou seja, com exemplos de entrada e saída 
conhecidas.
b) O modelo é treinado sem dados rotulados, descobrindo padrões e estruturas no conjunto 
de dados.
c) O modelo não utiliza dados de entrada, apenas a resposta esperada.
d) O modelo pode ser usado para prever variáveis não contínuas, como em clustering.
e) O modelo apenas classifica os dados em duas categorias.
Questão 2
Qual é a principal vantagem de usar o Support Vector Machine (SVM) para problemas de 
classificação?
a) O SVM sempre gera resultados mais rápidos do que outros algoritmos de classificação.
b) O SVM é altamente eficaz em problemas com uma grande quantidade de atributos ou 
variáveis.
c) O SVM só pode ser usado para classificação binária, não podendo lidar com múltiplas 
classes.
d) O SVM não é adequado para problemas com dados não lineares.
e) O SVM não necessita de dados rotulados para treinamento.
Questão 3
Em um modelo de aprendizado de máquina, o que é underfitting?
a) Quando o modelo é excessivamente complexo e se ajusta bem aos dados de 
treinamento, mas tem um desempenho fraco nos dados de teste.
b) Quando o modelo é incapaz de aprender a partir dos dados de treinamento e apresenta 
baixo desempenho tanto nos dados de treinamento quanto de teste.
c) Quando o modelo apresenta um bom desempenho tanto nos dados de treinamento 
quanto nos dados de teste.
d) Quando o modelo tem desempenho ruim nos dados de treinamento, mas bom 
desempenho nos dados de teste.
e) Quando o modelo é simples demais e não captura padrões suficientes nos dados.
Questão 4
Qual é o papel da regularização L1 (Lasso)?
a) Aumentar o número de coeficientes no modelo.
b) Penalizar os coeficientes de forma quadrática.
c) Eliminar variáveis menos importantes, tornando o modelo mais esparso.
d) Melhorar o ajuste do modelo a dados muito grandes.
e) Ajustar os parâmetros do modelo para evitar overfitting sem modificar os coeficientes.
Questão 5
O que significa Bagging no contexto de aprendizado de máquina?
a) O processo de ajustar um modelo com mais dados do que o necessário.
b) A técnica que combina múltiplos modelos para reduzir a variabilidade e melhorar a 
precisão.
c) O uso de uma única árvore de decisão para todas as previsões.
d) A técnica de reduzir a complexidade do modelo para evitar overfitting.
e) A escolha de um único modelo e a aplicação de parâmetros de regularização.
Questão 6
Qual é a diferença entre uma regressão logística e uma regressão linear?
a) A regressão logística é usada para prever valores contínuos, enquanto a regressão linear
é usada para classificação.
b) A regressão logística usa uma função sigmoide para prever probabilidades, enquanto a 
regressão linear prediz um valor contínuo.
c) A regressão linear é mais precisa do que a regressão logística em todos os tipos de 
dados.
d) A regressão logística é adequada apenas para séries temporais, enquanto a regressão 
linear é mais geral.
e) Não existe diferença entre os dois métodos.
Questão 7
Quando o modelo é treinado utilizando boosting, o que ele busca fazer?
a) Combinar múltiplos modelos fracos de forma que cada novo modelo compense os erros 
do anterior.
b) Usar uma única árvore de decisão para aumentar a acurácia do modelo.
c) Ajustar os hiperparâmetros do modelo para melhorar sua performance.
d) Utilizar dados adicionais para melhorar a acurácia do modelo.
e) Prever uma única variável de saída.
Questão 8
O que é clustering em aprendizado não supervisionado?
a) O processo de classificar dados em grupos ou categorias com base em semelhanças.
b) A técnica de prever o valor de uma variável com base em outras variáveis.
c) O processo de dividir os dados em dois grupos: treinamento e teste.
d) A utilização de uma rede neural para identificar padrões nos dados.
e) A técnica de reduzir a dimensionalidade dos dados.
Questão 9
Qual das métricas a seguir é comumente utilizada para problemas de classificação binária?
a) Acurácia.
b) R² (Coeficiente de Determinação).
c) Mean Squared Error (MSE).
d) F1-Score.
e) Média ponderada.
Questão 10
O que é uma matriz de confusão?
a) Uma tabela que descreve a performance de um algoritmo de classificação comparando 
as previsões do modelo com as classes reais.
b) Um gráfico de barras que mostra a distribuição de classes no modelo.
c) Um gráfico que mostra a relação entre variáveis contínuas no modelo.
d) Uma técnica usada para ajustar hiperparâmetros.
e) Uma ferramenta para calcular a perda do modelo.
Gabarito e Justificativa
1. a)
○ O aprendizado supervisionado utiliza dados rotulados para treinar o modelo, 
ou seja, os exemplos de entrada têm saídas conhecidas.
2. b)
○ O SVM é eficaz em problemas com muitos atributos, pois consegue 
encontrar a melhor margem para separar as classes, seja em problemas 
lineares ou não lineares.
3. b)
○ Underfitting ocorre quando o modelo é muito simples para capturar a 
complexidade dos dados, resultando em baixo desempenho tanto nos dados 
de treinamento quanto nos de teste.
4. c)
○ A regularização L1 (Lasso) penaliza os coeficientes e pode eliminar variáveis 
irrelevantes, tornando o modelo mais esparso e interpretável.
5. b)
○ O Bagging (Bootstrap Aggregating) combina múltiplos modelos (geralmente 
árvores de decisão) para reduzir a variabilidade do modelo e melhorar a 
precisão.
6. b)
○ A regressão logística usa uma função sigmoide para modelar probabilidades 
e é usada em problemas de classificação, enquanto a regressão linear prediz
valores contínuos.
7. a)
○ O Boosting combina múltiplos modelos fracos, de forma que cada novo 
modelo se concentre em corrigir os erros cometidos pelos modelos 
anteriores.
8. a)
○ Clustering é a técnica de agrupar dados não rotulados com base em 
semelhanças entre os dados, utilizado em aprendizado não supervisionado.
9. d)
○ O F1-Score é uma métrica comumente usada em problemas de classificação
binária, especialmente quando há um desbalanceamento entre as classes.
10. a)
● A matriz de confusão é uma tabela que descreve a performance do modelo de 
classificação, comparando as previsões do modelo com as classes reais.

Mais conteúdos dessa disciplina