Logo Passei Direto
Buscar

14- Atividade Objetiva 03 - Redes Neurais e Aprendizagem Profunda (2021)

User badge image
Andreia

em

Ferramentas de estudo

Questões resolvidas

Redes neurais profundas realizam aprendizagem de representação em camadas, sendo que as representações aprendidas pelas camadas iniciais e intermediárias geralmente são independentes de tarefas.
Marque a alternativa que representa uma afirmação incorreta:
As representações das camadas internas são geralmente aprendidas a partir do treinamento de tarefas feito apenas a partir das entradas e saídas ou ponta a ponta (“end-to-end training”)
A profundidade e a complexidade parecem ser limitadas apenas pela quantidade de dados necessários para se treinar sem “overfitting”
Apesar das representações de camadas internas iniciais serem independentes de tarefas, existe uma grande dificuldade de se reutilizar modelos em diferentes aplicações
Os blocos de construção podem ser padronizados entre diferentes ferramentas, bibliotecas e domínios de aplicação, permitindo a transferência e reaproveitamento de abordagens e estratégias
Na verdade, ocorre exatamente o oposto, isto é, o fato das representações de camadas internas iniciais serem independentes de tarefas, facilita a reutilização de modelos em diferentes aplicações mesmo sem a disponibilidade de grandes conjuntos de dados para treinamento

Existem diversos esquemas para a atualização de pesos que podem ser adotados em uma rede neural profunda como alternativas à estratégia básica utilizada pelo método SGD.
Marque a alternativa que representa uma afirmação incorreta:
O uso de “momentum” permite que as atualizações “se acumulem” nas direções rasas (de pouca variação) e que elas se reduzam nas direções íngremes (de muita variação), fazendo com que se evite uma trajetória em “zig-zag”
O NAG (“Nesterov Accelerated Gradient”) apresenta uma taxa de convergência mais rápida que o “momentum” tradicional pelo menos em teoria e para problemas de otimização convexa
Os métodos RMSProp e ADAGRAD normalizam os gradientes, funcionando muito bem em conjuntos de dados com grande variação na magnitude dos mesmos como, por exemplo, em dados textuais
O método ADAM (“Adaptive Moment Estimation”) pode ser visto como uma combinação dos métodos RMSProp e ADAGRAD
Na verdade, o método ADAM pode ser visto como uma combinação entre do uso de “momentum” com o método RMSProp

A normalização em lote (“batch normalization”) faz com que cada dimensão das ativações (isto é, dos resultados de uma camada) se comportem segundo uma distribuição gaussiana com média nula e desvio padrão unitário.
Marque a alternativa que representa uma afirmação incorreta:
Reduz a forte dependência da inicialização.
Permite taxas de aprendizagem mais altas.
Não melhora o fluxo gradiente através da rede.
Na verdade, um dos principais efeitos da adoção da normalização em lote é a melhoria do fluxo de gradientes viabilizando tanto o treinamento de redes com um número maior de camadas quanto um aumento da taxa de aprendizado utilizada nesse processo.
Durante a predição (ou teste), os valores de média e variância não são calculados com base no lote atual, sendo utilizado um único par fixo de média e variância obtido durante o treinamento.

A ideia principal da técnica de “dropout” é descartar aleatoriamente unidades da rede neural (junto com suas conexões) durante a etapa de treinamento.
Marque a afirmação incorreta relacionada à técnica de “dropout”:
Para a realização de “dropout”, basta se multiplicar as ativações por variáveis aleatórias de Bernoulli com uma dada probabilidade
Durante a predição, todas as unidades são mantidas ativas não sendo necessário se realizar nenhum outro ajuste das ativações
O uso da técnica de “dropout” força a rede a construir uma representação distribuída e redundante
O uso da técnica de “dropout” pode ser visto como equivalente a treinar uma grande coleção (ou “ensemble”) de modelos que compartilham parâmetros
Durante a predição, apesar de todas as unidades serem mantidas ativas, deve-se tomar o cuidado de ajustar os valores das ativações de forma que a saída de cada neurônio corresponda a expectativa de valor da saída durante o treinamento

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Questões resolvidas

Redes neurais profundas realizam aprendizagem de representação em camadas, sendo que as representações aprendidas pelas camadas iniciais e intermediárias geralmente são independentes de tarefas.
Marque a alternativa que representa uma afirmação incorreta:
As representações das camadas internas são geralmente aprendidas a partir do treinamento de tarefas feito apenas a partir das entradas e saídas ou ponta a ponta (“end-to-end training”)
A profundidade e a complexidade parecem ser limitadas apenas pela quantidade de dados necessários para se treinar sem “overfitting”
Apesar das representações de camadas internas iniciais serem independentes de tarefas, existe uma grande dificuldade de se reutilizar modelos em diferentes aplicações
Os blocos de construção podem ser padronizados entre diferentes ferramentas, bibliotecas e domínios de aplicação, permitindo a transferência e reaproveitamento de abordagens e estratégias
Na verdade, ocorre exatamente o oposto, isto é, o fato das representações de camadas internas iniciais serem independentes de tarefas, facilita a reutilização de modelos em diferentes aplicações mesmo sem a disponibilidade de grandes conjuntos de dados para treinamento

Existem diversos esquemas para a atualização de pesos que podem ser adotados em uma rede neural profunda como alternativas à estratégia básica utilizada pelo método SGD.
Marque a alternativa que representa uma afirmação incorreta:
O uso de “momentum” permite que as atualizações “se acumulem” nas direções rasas (de pouca variação) e que elas se reduzam nas direções íngremes (de muita variação), fazendo com que se evite uma trajetória em “zig-zag”
O NAG (“Nesterov Accelerated Gradient”) apresenta uma taxa de convergência mais rápida que o “momentum” tradicional pelo menos em teoria e para problemas de otimização convexa
Os métodos RMSProp e ADAGRAD normalizam os gradientes, funcionando muito bem em conjuntos de dados com grande variação na magnitude dos mesmos como, por exemplo, em dados textuais
O método ADAM (“Adaptive Moment Estimation”) pode ser visto como uma combinação dos métodos RMSProp e ADAGRAD
Na verdade, o método ADAM pode ser visto como uma combinação entre do uso de “momentum” com o método RMSProp

A normalização em lote (“batch normalization”) faz com que cada dimensão das ativações (isto é, dos resultados de uma camada) se comportem segundo uma distribuição gaussiana com média nula e desvio padrão unitário.
Marque a alternativa que representa uma afirmação incorreta:
Reduz a forte dependência da inicialização.
Permite taxas de aprendizagem mais altas.
Não melhora o fluxo gradiente através da rede.
Na verdade, um dos principais efeitos da adoção da normalização em lote é a melhoria do fluxo de gradientes viabilizando tanto o treinamento de redes com um número maior de camadas quanto um aumento da taxa de aprendizado utilizada nesse processo.
Durante a predição (ou teste), os valores de média e variância não são calculados com base no lote atual, sendo utilizado um único par fixo de média e variância obtido durante o treinamento.

A ideia principal da técnica de “dropout” é descartar aleatoriamente unidades da rede neural (junto com suas conexões) durante a etapa de treinamento.
Marque a afirmação incorreta relacionada à técnica de “dropout”:
Para a realização de “dropout”, basta se multiplicar as ativações por variáveis aleatórias de Bernoulli com uma dada probabilidade
Durante a predição, todas as unidades são mantidas ativas não sendo necessário se realizar nenhum outro ajuste das ativações
O uso da técnica de “dropout” força a rede a construir uma representação distribuída e redundante
O uso da técnica de “dropout” pode ser visto como equivalente a treinar uma grande coleção (ou “ensemble”) de modelos que compartilham parâmetros
Durante a predição, apesar de todas as unidades serem mantidas ativas, deve-se tomar o cuidado de ajustar os valores das ativações de forma que a saída de cada neurônio corresponda a expectativa de valor da saída durante o treinamento

Prévia do material em texto

Pontuação desta tentativa: 10 de 10
Enviado 14 set em 18:32
Esta tentativa levou 2 minutos.
2 / 2 ptsPergunta 1
Redes neurais profundas realizam aprendizagem de representação em
camadas, sendo que as representações aprendidas pelas camadas
iniciais e intermediárias geralmente são independentes de tarefas.
Marque a alternativa que representa uma afirmação incorreta:
 
As representações das camadas internas são geralmente aprendidas a
partir do treinamento de tarefas feito apenas a partir das entradas e
saídas ou ponta a ponta (“end-to-end training”)
 
A profundidade e a complexidade parecem ser limitadas apenas pela
quantidade de dados necessários para se treinar sem “overfitting”
 
Apesar das representações de camadas internas iniciais serem
independentes de tarefas, existe uma grande dificuldade de se reutilizar
modelos em diferentes aplicações
 
 
Os blocos de construção podem ser padronizados entre diferentes
ferramentas, bibliotecas e domínios de aplicação, permitindo a
transferência e reaproveitamento de abordagens e estratégias
 
Na verdade, ocorre exatamente o oposto, isto é, o fato das
representações de camadas internas iniciais serem
independentes de tarefas, facilita a reutilização de modelos em
diferentes aplicações mesmo sem a disponibilidade de grandes
conjuntos de dados para treinamento
2 / 2 ptsPergunta 2
Existem diversos esquemas para a atualização de pesos que podem
ser adotados em uma rede neural profunda como alternativas à
estratégia básica utilizada pelo método SGD.
Marque a alternativa que representa uma afirmação incorreta:
 
O uso de “momentum” permite que as atualizações “se acumulem” nas
direções rasas (de pouca variação) e que elas se reduzam nas
direções íngremes (de muita variação), fazendo com que se evite uma
trajetória em “zig-zag”
 
O NAG (“Nesterov Accelerated Gradient”) apresenta uma taxa de
convergência mais rápida que o “momentum” tradicional pelo menos
em teoria e para problemas de otimização convexa
 
Os métodos RMSProp e ADAGRAD normalizam os gradientes,
funcionando muito bem em conjuntos de dados com grande variação
na magnitude dos mesmos como, por exemplo, em dados textuais
 
 
O método ADAM (“Adaptive Moment Estimation”) pode ser visto como
uma combinação dos métodos RMSProp e ADAGRAD
Na verdade, o método ADAM pode ser visto como uma
combinação entre do uso de “momentum” com o método
RMSProp
2 / 2 ptsPergunta 3
Tanto o SGD como as suas variações utilizando outras regras para
atualização de pesos possuem a taxa de aprendizado como um
hiperparâmetro.
Considerando o gráfico abaixo marque a afirmação que relacionada de
forma correta o valor da taxa de aprendizado a cada curva de perda:
 1=Baixa; 2=Muito Alta; 3=Alta; 4=Boa 
 1=Muito Alta; 2=Baixa; 3=Alta; 4=Boa 
 1=Muito Alta; 2=Boa; 3=Baixa; 4=Alta 
 1=Muito Alta; 2=Boa; 3=Alta; 4=Baixa 
A curva de perda para uma taxa muito alta sempre será
“explosiva”; enquanto que para uma taxa baixa, ela será suave
e, para um valor alto, ela apresenta uma queda “abrupta”
seguida de um “platô” Por fim, um bom valor de taxa de
aprendizado, faz com que a curva de perda se mantenha
reduzindo de forma “assintótica”
2 / 2 ptsPergunta 4
A normalização em lote (“batch normalization”) faz com que cada
dimensão das ativações (isto é, dos resultados de uma camada) se
comportem segundo uma distribuição gaussiana com média nula e
desvio padrão unitário.
Marque a alternativa que representa uma afirmação incorreta:
 Não melhora o fluxo gradiente através da rede 
 Permite taxas de aprendizagem mais altas 
 Reduz a forte dependência da inicialização 
 
Durante a predição (ou teste), os valores de média e variância não são
calculados com base no lote atual, sendo utilizado um único par fixo de
média e variância obtido durante o treinamento
 
Na verdade, um dos principais efeitos da adoção da
normalização em lote é a melhoria do fluxo de gradientes
viabilizando tanto o treinamento de redes com um número maior
de camadas quanto um aumento da taxa de aprendizado
utilizada nesse processo
2 / 2 ptsPergunta 5
A ideia principal da técnica de “dropout” é descartar aleatoriamente
unidades da rede neural (junto com suas conexões) durante a etapa de
treinamento.
Marque a afirmação incorreta relacionada à técnica de “dropout”:
 
Para a realização de “dropout”, basta se multiplicar as ativações por
variáveis aleatórias de Bernoulli com uma dada probabilidade
 
Durante a predição, todas as unidades são mantidas ativas não sendo
necessário se realizar nenhum outro ajuste das ativações
 
 
O uso da técnica de “dropout” força a rede a construir uma
representação distribuída e redundante
 
O uso da técnica de “dropout” pode ser visto como equivalente a treinar
uma grande coleção (ou “ensemble”) de modelos que compartilham
parâmetros
Durante a predição, apesar de todas as unidades serem
mantidas ativas, deve-se tomar o cuidado de ajustar os valores
das ativações de forma que a saída de cada neurônio
corresponda a expectativa de valor da saída durante o
treinamento
Pontuação do teste: 10 de 10

Mais conteúdos dessa disciplina