Logo Passei Direto
Buscar

Técnicas Avançadas de Estatística e Machine Learning

Ferramentas de estudo

Questões resolvidas

Esta prova explora técnicas avançadas em estatística e aprendizado de máquina. O objetivo é testar seu conhecimento sobre os principais algoritmos utilizados em análise de dados, incluindo modelos de regressão, redes neurais, e clustering, além de conceitos como validação de modelos e análise de séries temporais.
O que significa o p-valor em uma análise estatística?
a) A probabilidade de um modelo estar incorreto.
b) A probabilidade de observarmos os dados ou algo mais extremo, dado que a hipótese nula é verdadeira.
c) A média dos valores do conjunto de dados.
d) A relação entre variáveis independentes.
e) A medida da dispersão de um conjunto de dados.

Qual é o objetivo principal de um modelo de k-vizinhos mais próximos (K-NN)?
a) Classificar dados em categorias baseadas em distância entre os pontos de dados.
b) Prever valores contínuos utilizando a média dos dados vizinhos.
c) Agrupar dados sem a necessidade de rótulos.
d) Estimar a probabilidade de eventos futuros.
e) Atribuir probabilidades a diferentes classes de dados.

O que caracteriza o algoritmo de regressão Ridge?
a) Ele é uma forma de regularização que penaliza os coeficientes do modelo usando a soma dos quadrados.
b) Ele tenta ajustar uma linha reta sem considerar a regularização.
c) Ele é utilizado para classificação e não para regressão.
d) Ele elimina variáveis que não são relevantes.
e) Ele é usado para prever séries temporais.

Qual é o principal objetivo da técnica de redução de dimensionalidade t-SNE (t-distributed Stochastic Neighbor Embedding)?
a) Aumentar o número de variáveis para melhorar a complexidade do modelo.
b) Agrupar dados em clusters com base na similaridade.
c) Reduzir a dimensionalidade dos dados, mantendo a proximidade entre pontos semelhantes em um novo espaço de menor dimensão.
d) Aumentar o número de amostras para treinamento.
e) Estabilizar a variabilidade dos dados.

O que é o conceito de overfitting no contexto de aprendizado de máquina?
a) Quando o modelo falha em aprender qualquer padrão dos dados.
b) Quando o modelo é treinado em um número insuficiente de dados.
c) Quando o modelo se ajusta excessivamente aos dados de treinamento, comprometendo sua capacidade de generalização.
d) Quando o modelo tem uma complexidade baixa demais para capturar a estrutura dos dados.
e) Quando o modelo é muito simples e não consegue fazer previsões.

Em redes neurais, o que é o gradiente descendente?
a) Uma técnica usada para otimizar o número de camadas na rede neural.
b) O algoritmo que ajusta os pesos dos neurônios durante o treinamento, minimizando a função de erro.
c) Uma função que decide a quantidade de dados a ser usada para treinamento.
d) Uma técnica usada para reduzir a dimensionalidade dos dados.
e) Um tipo de função de ativação.

O que é o algoritmo K-means utilizado para?
a) Para prever valores contínuos baseados em variáveis independentes.
b) Para agrupar dados em clusters, minimizando a variação interna a cada grupo.
c) Para prever eventos futuros com base em dados temporais.
d) Para ajustar uma linha reta aos dados.
e) Para analisar a correlação entre duas variáveis.

Em árvores de decisão, qual é o critério utilizado para decidir a melhor divisão dos dados em cada nó?
a) A maximização da soma das variâncias.
b) A minimização da soma dos quadrados dos erros.
c) A maximização da pureza dos grupos formados, utilizando medidas como Gini ou entropia.
d) A maximização da distância Euclidiana entre os pontos de dados.
e) A minimização da correlação entre as variáveis.

O que caracteriza um modelo ARIMA em análise de séries temporais?
a) Ele combina variáveis independentes para prever variáveis dependentes.
b) Ele utiliza métodos de regressão linear para modelar dados temporais.
c) Ele é utilizado para prever valores futuros em séries temporais com base em padrões passados.
d) Ele faz previsões em tempo real sem a necessidade de dados históricos.
e) Ele se aplica apenas a dados contínuos e não a dados categóricos.

O que é o conceito de regularização em aprendizado de máquina?
a) A técnica de aumentar a complexidade do modelo para melhor previsibilidade.
b) A técnica de reduzir o erro de previsão de um modelo ajustando seus parâmetros para evitar overfitting.
c) A técnica de dividir os dados em subconjuntos para validação cruzada.
d) A técnica de eliminar variáveis independentes irrelevantes.
e) A técnica de adicionar mais camadas a uma rede neural.

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Esta prova explora técnicas avançadas em estatística e aprendizado de máquina. O objetivo é testar seu conhecimento sobre os principais algoritmos utilizados em análise de dados, incluindo modelos de regressão, redes neurais, e clustering, além de conceitos como validação de modelos e análise de séries temporais.
O que significa o p-valor em uma análise estatística?
a) A probabilidade de um modelo estar incorreto.
b) A probabilidade de observarmos os dados ou algo mais extremo, dado que a hipótese nula é verdadeira.
c) A média dos valores do conjunto de dados.
d) A relação entre variáveis independentes.
e) A medida da dispersão de um conjunto de dados.

Qual é o objetivo principal de um modelo de k-vizinhos mais próximos (K-NN)?
a) Classificar dados em categorias baseadas em distância entre os pontos de dados.
b) Prever valores contínuos utilizando a média dos dados vizinhos.
c) Agrupar dados sem a necessidade de rótulos.
d) Estimar a probabilidade de eventos futuros.
e) Atribuir probabilidades a diferentes classes de dados.

O que caracteriza o algoritmo de regressão Ridge?
a) Ele é uma forma de regularização que penaliza os coeficientes do modelo usando a soma dos quadrados.
b) Ele tenta ajustar uma linha reta sem considerar a regularização.
c) Ele é utilizado para classificação e não para regressão.
d) Ele elimina variáveis que não são relevantes.
e) Ele é usado para prever séries temporais.

Qual é o principal objetivo da técnica de redução de dimensionalidade t-SNE (t-distributed Stochastic Neighbor Embedding)?
a) Aumentar o número de variáveis para melhorar a complexidade do modelo.
b) Agrupar dados em clusters com base na similaridade.
c) Reduzir a dimensionalidade dos dados, mantendo a proximidade entre pontos semelhantes em um novo espaço de menor dimensão.
d) Aumentar o número de amostras para treinamento.
e) Estabilizar a variabilidade dos dados.

O que é o conceito de overfitting no contexto de aprendizado de máquina?
a) Quando o modelo falha em aprender qualquer padrão dos dados.
b) Quando o modelo é treinado em um número insuficiente de dados.
c) Quando o modelo se ajusta excessivamente aos dados de treinamento, comprometendo sua capacidade de generalização.
d) Quando o modelo tem uma complexidade baixa demais para capturar a estrutura dos dados.
e) Quando o modelo é muito simples e não consegue fazer previsões.

Em redes neurais, o que é o gradiente descendente?
a) Uma técnica usada para otimizar o número de camadas na rede neural.
b) O algoritmo que ajusta os pesos dos neurônios durante o treinamento, minimizando a função de erro.
c) Uma função que decide a quantidade de dados a ser usada para treinamento.
d) Uma técnica usada para reduzir a dimensionalidade dos dados.
e) Um tipo de função de ativação.

O que é o algoritmo K-means utilizado para?
a) Para prever valores contínuos baseados em variáveis independentes.
b) Para agrupar dados em clusters, minimizando a variação interna a cada grupo.
c) Para prever eventos futuros com base em dados temporais.
d) Para ajustar uma linha reta aos dados.
e) Para analisar a correlação entre duas variáveis.

Em árvores de decisão, qual é o critério utilizado para decidir a melhor divisão dos dados em cada nó?
a) A maximização da soma das variâncias.
b) A minimização da soma dos quadrados dos erros.
c) A maximização da pureza dos grupos formados, utilizando medidas como Gini ou entropia.
d) A maximização da distância Euclidiana entre os pontos de dados.
e) A minimização da correlação entre as variáveis.

O que caracteriza um modelo ARIMA em análise de séries temporais?
a) Ele combina variáveis independentes para prever variáveis dependentes.
b) Ele utiliza métodos de regressão linear para modelar dados temporais.
c) Ele é utilizado para prever valores futuros em séries temporais com base em padrões passados.
d) Ele faz previsões em tempo real sem a necessidade de dados históricos.
e) Ele se aplica apenas a dados contínuos e não a dados categóricos.

O que é o conceito de regularização em aprendizado de máquina?
a) A técnica de aumentar a complexidade do modelo para melhor previsibilidade.
b) A técnica de reduzir o erro de previsão de um modelo ajustando seus parâmetros para evitar overfitting.
c) A técnica de dividir os dados em subconjuntos para validação cruzada.
d) A técnica de eliminar variáveis independentes irrelevantes.
e) A técnica de adicionar mais camadas a uma rede neural.

Prévia do material em texto

Prova- 61: Técnicas Avançadas de Estatística e Machine Learning
Introdução
Esta prova explora técnicas avançadas em estatística e aprendizado de máquina. O objetivo é testar seu conhecimento sobre os principais algoritmos utilizados em análise de dados, incluindo modelos de regressão, redes neurais, e clustering, além de conceitos como validação de modelos e análise de séries temporais.
Questões
1. O que significa o p-valor em uma análise estatística?
a) A probabilidade de um modelo estar incorreto.
b) A probabilidade de observarmos os dados ou algo mais extremo, dado que a hipótese nula é verdadeira.
c) A média dos valores do conjunto de dados.
d) A relação entre variáveis independentes.
e) A medida da dispersão de um conjunto de dados.
2. Qual é o objetivo principal de um modelo de k-vizinhos mais próximos (K-NN)?
a) Classificar dados em categorias baseadas em distância entre os pontos de dados.
b) Prever valores contínuos utilizando a média dos dados vizinhos.
c) Agrupar dados sem a necessidade de rótulos.
d) Estimar a probabilidade de eventos futuros.
e) Atribuir probabilidades a diferentes classes de dados.
3. O que caracteriza o algoritmo de regressão Ridge?
a) Ele é uma forma de regularização que penaliza os coeficientes do modelo usando a soma dos quadrados.
b) Ele tenta ajustar uma linha reta sem considerar a regularização.
c) Ele é utilizado para classificação e não para regressão.
d) Ele elimina variáveis que não são relevantes.
e) Ele é usado para prever séries temporais.
4. Qual é o principal objetivo da técnica de redução de dimensionalidade t-SNE (t-distributed Stochastic Neighbor Embedding)?
a) Aumentar o número de variáveis para melhorar a complexidade do modelo.
b) Agrupar dados em clusters com base na similaridade.
c) Reduzir a dimensionalidade dos dados, mantendo a proximidade entre pontos semelhantes em um novo espaço de menor dimensão.
d) Aumentar o número de amostras para treinamento.
e) Estabilizar a variabilidade dos dados.
5. O que é o conceito de overfitting no contexto de aprendizado de máquina?
a) Quando o modelo falha em aprender qualquer padrão dos dados.
b) Quando o modelo é treinado em um número insuficiente de dados.
c) Quando o modelo se ajusta excessivamente aos dados de treinamento, comprometendo sua capacidade de generalização.
d) Quando o modelo tem uma complexidade baixa demais para capturar a estrutura dos dados.
e) Quando o modelo é muito simples e não consegue fazer previsões.
6. Em redes neurais, o que é o gradiente descendente?
a) Uma técnica usada para otimizar o número de camadas na rede neural.
b) O algoritmo que ajusta os pesos dos neurônios durante o treinamento, minimizando a função de erro.
c) Uma função que decide a quantidade de dados a ser usada para treinamento.
d) Uma técnica usada para reduzir a dimensionalidade dos dados.
e) Um tipo de função de ativação.
7. O que é o algoritmo K-means utilizado para?
a) Para prever valores contínuos baseados em variáveis independentes.
b) Para agrupar dados em clusters, minimizando a variação interna a cada grupo.
c) Para prever eventos futuros com base em dados temporais.
d) Para ajustar uma linha reta aos dados.
e) Para analisar a correlação entre duas variáveis.
8. Em árvores de decisão, qual é o critério utilizado para decidir a melhor divisão dos dados em cada nó?
a) A maximização da soma das variâncias.
b) A minimização da soma dos quadrados dos erros.
c) A maximização da pureza dos grupos formados, utilizando medidas como Gini ou entropia.
d) A maximização da distância Euclidiana entre os pontos de dados.
e) A minimização da correlação entre as variáveis.
9. O que caracteriza um modelo ARIMA em análise de séries temporais?
a) Ele combina variáveis independentes para prever variáveis dependentes.
b) Ele utiliza métodos de regressão linear para modelar dados temporais.
c) Ele é utilizado para prever valores futuros em séries temporais com base em padrões passados.
d) Ele faz previsões em tempo real sem a necessidade de dados históricos.
e) Ele se aplica apenas a dados contínuos e não a dados categóricos.
10. O que é o conceito de regularização em aprendizado de máquina?
a) A técnica de aumentar a complexidade do modelo para melhor previsibilidade.
b) A técnica de reduzir o erro de previsão de um modelo ajustando seus parâmetros para evitar overfitting.
c) A técnica de dividir os dados em subconjuntos para validação cruzada.
d) A técnica de eliminar variáveis independentes irrelevantes.
e) A técnica de adicionar mais camadas a uma rede neural.
Gabarito e Justificativas
1. b) O p-valor representa a probabilidade de obter os dados observados ou algo mais extremo, dado que a hipótese nula seja verdadeira.
2. a) O K-NN classifica dados com base na proximidade (distância) entre os pontos de dados no espaço das características.
3. a) A regressão Ridge aplica uma penalização aos coeficientes do modelo, utilizando a soma dos quadrados.
4. c) O t-SNE reduz a dimensionalidade dos dados, preservando a proximidade entre pontos semelhantes em um novo espaço de menor dimensão.
5. c) Overfitting ocorre quando o modelo se ajusta excessivamente aos dados de treinamento e perde a capacidade de generalizar para dados não vistos.
6. b) O gradiente descendente é um algoritmo de otimização utilizado para ajustar os pesos dos neurônios em redes neurais, minimizando a função de erro.
7. b) O K-means é um algoritmo de clustering utilizado para agrupar dados em k clusters, minimizando a variação interna a cada grupo.
8. c) Árvores de decisão utilizam critérios como Gini ou entropia para decidir a melhor divisão dos dados, buscando maximizar a pureza dos grupos formados.
9. c) O ARIMA é um modelo de séries temporais utilizado para prever valores futuros com base em dados históricos, levando em consideração autoregressão e médias móveis.
10. b) A regularização é uma técnica usada para reduzir o erro de previsão e evitar overfitting, ajustando os parâmetros do modelo.

Mais conteúdos dessa disciplina