Aprendizagem profunda (Deep Learning)

IF SUL DE MINAS

Luís Felipe Soares

em 12/08/2017

Conteúdos escolhidos para você

46 pág.

TCC-RECONHECIMENTO FACIAL COM TÉCNICAS DE MACHINE LEARNING

55 pág.

Inteligência Artificial para Devs

ESTÁCIO EAD

30 pág.

Livro-Texto 3 - Inteligência Artificial

UNIP

20 pág.

Perguntas dessa disciplina

A Inteligência Artificial (IA) continua avançando rapidamente, impulsionada por avanços em hardware, algoritmos e acesso a grandes volumes de dados. T

UAM

Questão 1 | INTELIGENCIA ARTIFICIAL APLICADA Código da questão: 308992 Redes neurais artificiais são cruciais na resolução de problemas complexos, com

ESTÁCIO

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

ANHANGUERA

As redes neurais adentraram a área da agronomia em todos os setores, unto para a pesquisa, quanto para o desenvolvimento de soluções finais. Para u...

FMU

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) Um estudo distinto foi conduzido por Costa et al. (2006), onde for

UNICSUL

Material

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Conteúdos escolhidos para você

46 pág.

TCC-RECONHECIMENTO FACIAL COM TÉCNICAS DE MACHINE LEARNING

55 pág.

Inteligência Artificial para Devs

ESTÁCIO EAD

30 pág.

Livro-Texto 3 - Inteligência Artificial

UNIP

20 pág.

Perguntas dessa disciplina

A Inteligência Artificial (IA) continua avançando rapidamente, impulsionada por avanços em hardware, algoritmos e acesso a grandes volumes de dados. T

UAM

Questão 1 | INTELIGENCIA ARTIFICIAL APLICADA Código da questão: 308992 Redes neurais artificiais são cruciais na resolução de problemas complexos, com

ESTÁCIO

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

ANHANGUERA

As redes neurais adentraram a área da agronomia em todos os setores, unto para a pesquisa, quanto para o desenvolvimento de soluções finais. Para u...

FMU

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) Um estudo distinto foi conduzido por Costa et al. (2006), onde for

UNICSUL

Prévia do material em texto

Aprendizagem profunda
Fonte: https://pt.wikipedia.org/wiki/Rede_neural_artificial
(texto copiado do wikipedia e esta sujeito a erros de ortografia e de referências)
Aprendizagem profunda (também conhecido como aprendizado estruturado profundo, aprendizado
hierárquico ou a aprendizagem de máquina de profundidade ) é um ramo da aprendizagem de
máquina com base em um conjunto de algoritmos que tentam modelar abstrações de alto nível nos
dados. Em um caso simples, pode haver dois conjuntos de neurônios : aqueles que recebem um
sinal de entrada e aqueles que enviam um sinal de saída. Quando a camada de entrada recebe uma
entrada, ela passa uma versão modificada da entrada para a próxima camada. Em uma rede
profunda, há muitas camadas entre a entrada ea saída (e as camadas não são feitas de neurônios,
mas pode ajudar a pensar dessa forma), permitindo que o algoritmo use várias camadas de
processamento, Composta de múltiplas transformações lineares e não-lineares.
Aprendizagem profunda é parte de uma família mais ampla de métodos de aprendizagem de
máquina baseada em representaçõesde aprendizagem de dados. Uma observação (por exemplo, uma
imagem) pode ser representada de muitas maneiras, como um vetor de valores de intensidade por
pixel, ou de uma forma mais abstrata como um conjunto de arestas, regiões de forma particular, etc.
Algumas representações são melhores do que outras em Simplificando a tarefa de aprendizagem
(por exemplo, reconhecimento de face ou reconhecimento de expressão facial. Uma das promessas
de aprendizagem profunda está substituindo artesanais características com algoritmos eficientes
para não supervisionado ou semi-supervisionado de aprendizagem recurso e hierárquica extração de
características .
Pesquisas nesta área tentam fazer representações melhores e criar modelos para aprender essas
representações a partir de dados não marcados em larga escala. Algumas das representações são
inspiradas nos avanços da neurociência e são vagamente baseadas na interpretação do
processamento da informação e padrões de comunicação em um sistema nervoso , como a
codificação neural que tenta definir uma relação entre vários estímulos e respostas neuronais
associadas no cérebro .
Várias arquiteturas de aprendizagem profundas, tais como redes profundas neurais , redes neurais
profundas convolucionais , redes de crenças profundas e redes neurais recorrentes têm sido
aplicados para áreas como visão computacional , reconhecimento automático de voz ,
processamento de linguagem natural , reconhecimento de áudio e bioinformática onde eles foram
mostrados para produzir Estado-da-arte resultados em várias tarefas.
Aprendizagem profunda tem sido caracterizada como uma palavra-chave , ou uma rebranding de
redes neurais .
A aprendizagem profunda é caracterizada como uma classe de algoritmos de aprendizagem de
máquina que usam uma cascata de muitas camadas de unidades de processamento não-lineares para
extração e transformação de características. Cada camada sucessiva usa a saída da camada anterior
como entrada. Os algoritmos podem ser supervisionados ou não supervisionados e as aplicações
incluem análise de padrões (não supervisionada) e classificação (supervisionada).
baseiam-se na aprendizagem (não supervisionada) de múltiplos níveis de recursos ou representações
dos dados. Recursos de nível superior são derivados de recursos de nível inferior para formar uma
representação hierárquica.
São parte do campo mais amplo de aprendizado de aprendizagem de dados.
Aprender múltiplos níveis de representações que correspondem a diferentes níveis de abstração;Os
níveis formam uma hierarquia de conceitos.
Essas definições têm em comum múltiplas camadas de unidades de processamento não-lineares e a
aprendizagem supervisionada ou não supervisionada de representações de recursos em cada
camada, com as camadas formando uma hierarquia de baixo nível para características de alto nível.
A composição de uma camada de unidades de processamento não-lineares usadas em um algoritmo
de aprendizado profundo depende do problema a ser resolvido. As camadas que foram usadas na
aprendizagem profunda incluem camadas escondidas de uma rede neural artificial e conjuntos de
fórmulas proposicionais complicadas. Eles também podem incluir variáveis latentes organizadas em
camadas-sábias em modelos generativos profundos, como os nós em Deep Belief Networks e Deep
Boltzmann Machines.
Algoritmos de aprendizado profundo transformam suas entradas através de mais camadas do que
algoritmos de aprendizagem superficial. Em cada camada, o sinal é transformado por uma unidade
de processamento, como um neurônio artificial, cujos parâmetros são "aprendidos" através do
treinamento. Uma cadeia de transformações de entrada para saída é um caminho de atribuição de
crédito (CAP). CAPs descreve conexões potencialmente causais entre entrada e saída e pode variar
em comprimento - para uma rede neural feedforward, a profundidade dos CAPs (assim da rede) é o
número de camadas ocultas mais um (como a camada de saída também é parametrizada) Mas para
redes neuronais recorrentes , nas quais um sinal pode se propagar através de uma camada mais de
uma vez, o CAP é potencialmente ilimitado de comprimento. Não existe um limite universalmente
acordado de profundidade dividindo a aprendizagem superficial da aprendizagem profunda, mas a
maioria dos pesquisadores concorda que a aprendizagem profunda tem múltiplas camadas não-
lineares (CAP> 2) e Juergen Schmidhuber considera que CAP> 10 é uma aprendizagem muito
profunda.
Conceitos fundamentais
Os algoritmos de aprendizagem profunda são baseados em representações distribuídas. A suposição
subjacente por trás das representações distribuídas é que os dados observados são gerados pelas
interações de fatores organizados em camadas. A aprendizagem profunda acrescenta a suposição de
que essas camadas de fatores correspondem a níveis de abstração ou composição. Vários números
de camadas e tamanhos de camadas podem ser usados para fornecer diferentes quantidades de
abstração.
A aprendizagem profunda explora essa idéia de fatores explicativos hierárquicos, onde os conceitos
de nível mais alto, mais abstratos, são aprendidos com os de nível inferior. Essas arquiteturas são
muitas vezes construídos com um ganancioso método camada por camada. Aprendizagem profunda
ajuda a separar essas abstrações e escolher quais recursos são úteis para a aprendizagem.
Para as tarefas de aprendizagem supervisionadas , os métodos de aprendizagem profunda obvêm a
engenharia das características , traduzindo os dados em representações intermediárias compactas
semelhantes aos componentes principais e derivando estruturas em camadas que removem a
redundância na representação.
Muitos algoritmos de aprendizagem profunda são aplicados a tarefas de aprendizagem não
supervisionadas . Este é um benefício importante porque os dados não marcados são geralmente
mais abundantes do que os dados rotulados. Exemplos de estruturas profundas que podem ser
treinadas de forma não supervisionada são os compressores de história neural e as redes de crenças
profundas .
Interpretações
As redes neurais profundas são geralmente interpretadas em termos de: Teorema de aproximação
universal ou inferência probabilística .
Interpretação do teorema da aproximação universal
O teorema da aproximação universal refere-se à capacidade das redes neurais feedforward com uma
única camada oculta de tamanho finito para aproximar funções contínuas .
Em 1989, a primeira prova foi publicado por George Cybenko para sigmóide funções de ativação e
foi generalizada para alimentar-forward arquiteturas multi-camada em 1991 por Kurt Hornik.
Interpretação probabilística
O probabilística interpretação deriva do campo da aprendizagem de máquina . Possui inferência, ,
bem como os de optimizaçãoconceitos de formação e de testes relacionados com o encaixe e
generalização respectivamente. Mais especificamente, a interpretação probabilística considera a não
linearidade de ativação como uma função de distribuição cumulativa . Ver Rede de crenças
profundas . A interpretação probabilística levou à introdução do abandono como regularizador em
redes neurais.
A interpretação probabilística foi introduzida e popularizada por Geoff Hinton , Yoshua Bengio ,
Yann LeCun e Juergen Schmidhuber .
Arquiteturas de redes neurais profundas
Há um grande número de variantes de arquiteturas profundas. A maioria deles é ramificada a partir
de algumas arquiteturas originais pai. Nem sempre é possível comparar o desempenho de várias
arquiteturas em conjunto, porque elas não são todas avaliadas nos mesmos conjuntos de dados. A
aprendizagem profunda é um campo em rápido crescimento, e novas arquiteturas, variantes ou
algoritmos aparecem a cada poucas semanas.
Breve discussão de redes neurais profundas
Uma rede neural profunda (DNN) é uma rede neural artificial (ANN) com múltiplas camadas
ocultas de unidades entre as camadas de entrada e saída. Semelhantes a ANNs rasas, DNNs podem
modelar relações não-lineares complexas. As arquiteturas DNN, por exemplo, para a detecção e
análise de objetos , geram modelos de composição onde o objeto é expresso como uma composição
em camadas de primitivas de imagem. As camadas extras permitir composição dos recursos de
camadas mais baixas, dando o potencial da modelagem de dados complexos com menos unidades
do que uma rede rasa semelhante realizando.
DNNs são normalmente concebidos como feedforward redes, mas a pesquisa aplicada com muito
sucesso as redes neurais recorrentes , especialmente LSTM, para aplicações tais como linguagem
de modelagem . redes neurais profundas convolucionais (RNCs) são usados em visão por
computador, onde o seu êxito é bem documentada. As CNNs também foram aplicadas à
modelagem acústica para reconhecimento automático de fala (ASR), onde mostraram sucesso em
relação aos modelos anteriores. Para a simplicidade, um olhar no treinamento DNNs é dado aqui.
Backpropagation
Um DNN pode ser discriminadamente treinado com o algoritmo padrão backpropagation. De
acordo com várias fontes, fundamentos de backpropagation contínuo foram derivados no contexto
da teoria de controle por Henry J. Kelley em 1960 e por Arthur E. Bryson em 1961, Utilizando os
princípios da programação dinâmica . Em 1962, Stuart Dreyfus publicou uma derivação mais
simples baseada apenas na regra da cadeia . Vapnik cita a referência em seu livro em máquinas do
vetor da sustentação . Arthur E. Bryson e Yu-Chi Ho descreveu-o como um método de otimização
do sistema dinâmico multi-estágio em 1969. Em 1970, Seppo LINNAINMAA finalmente
publicado o método geral para diferenciação automática (AD) de redes conectadas discretos de
aninhados diferenciáveis funções. Isto corresponde à versão moderna de backpropagation que é
eficiente mesmo quando as redes são escassas. Em 1973, Stuart Dreyfus usou backpropagation para
adaptar parâmetros de controladores em proporção aos gradientes de erro. Em 1974, Paul Werbos
mencionou a possibilidade de aplicar este princípio para redes neurais artificiais , e em 1982, ele
aplicou o método AD de LINNAINMAA de redes neurais na maneira que é amplamente utilizado
hoje. Em 1986, David E. Rumelhart , Geoffrey E. Hinton e Ronald J. Williams mostrou através de
experimentos de computador que este método pode gerar representações internas úteis de dados de
entrada em camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um
concurso internacional de reconhecimento de padrões através de backpropagation. Paul Werbos
mencionou a possibilidade de aplicar este princípio a redes neurais artificiais , e em 1982, aplicou o
método AD de Linnainmaa às redes neurais da maneira que é amplamente utilizada hoje em dia.
Em 1986, David E. Rumelhart , Geoffrey E. Hinton e Ronald J. Williams mostrou através de
experimentos de computador que este método pode gerar representações internas úteis de dados de
entrada em camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um
concurso internacional de reconhecimento de padrões através de backpropagation. Paul Werbos
mencionou a possibilidade de aplicar este princípio a redes neurais artificiais , e em 1982, aplicou o
método AD de Linnainmaa às redes neurais da maneira que é amplamente utilizada hoje em dia.
Em 1986, David E. Rumelhart , Geoffrey E. Hinton e Ronald J. Williams mostrou através de
experimentos de computador que este método pode gerar representações internas úteis de dados de
entrada em camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um
concurso internacional de reconhecimento de padrões através de backpropagation. Ele aplicou o
método AD de Linnainmaa às redes neurais da maneira que é amplamente usado hoje. Em 1986,
David E. Rumelhart , Geoffrey E. Hinton e Ronald J. Williams mostrou através de experimentos de
computador que este método pode gerar representações internas úteis de dados de entrada em
camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um concurso
internacional de reconhecimento de padrões através de backpropagation. Ele aplicou o método AD
de Linnainmaa às redes neurais da maneira que é amplamente usado hoje. Em 1986, David E.
Rumelhart , Geoffrey E. Hinton e Ronald J. Williams mostrou através de experimentos de
computador que este método pode gerar representações internas úteis de dados de entrada em
camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um concurso
internacional de reconhecimento de padrões através de backpropagation. Hinton e Ronald J.
Williams mostraram através de experimentos computadorizados que esse método pode gerar
representações internas úteis de dados de entrada em camadas ocultas de redes neurais. Em 1993,
Eric A. Wan foi o primeiro a ganhar um concurso internacional de reconhecimento de padrões
através de backpropagation. Hinton e Ronald J. Williams mostraram através de experimentos
computadorizados que esse método pode gerar representações internas úteis de dados de entrada em
camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um concurso
internacional de reconhecimento de padrões através de backpropagation.
As atualizações de peso de backpropagation podem ser feitas através de descida de gradiente
estocástica usando a seguinte equação:
Aqui, É a taxa de aprendizagem, É a função de custo eUm termo estocástico. A escolha da função
de custo depende de fatores como o tipo de aprendizagem (supervisionado, não supervisionado,
reforço , etc.) ea função de ativação . Por exemplo, ao realizar aprendizado supervisionado em uma
classificação multiclasse problema, escolhas comuns para a função de ativação e função de custo
são o softmax função e entropia cruzada função, respectivamente. A função softmax é definida
como Onde Representa a probabilidade de classe (saída da unidade ) E e Representam a entrada
total para as unidades e Do mesmo nível, respectivamente. A entropia cruzada é definida como
Onde Representa a probabilidade alvo para a unidade de saída e É a saída de probabilidade para
Após a aplicação da função de ativação.
Estes podem ser usados para a saída de caixas de delimitação de objeto na forma de uma máscara
binária. Eles também são usados para a regressão multi-escala para aumentar a precisão de
localização. A regressão baseada em DNN pode aprender características que capturam informações
geométricas além de serem um bom classificador. Eles removem a limitação de projetar um modelo
que irá capturar partes e suas relações explicitamente. Isso ajuda a aprender uma grande variedade
de objetos. O modeloconsiste em múltiplas camadas, cada uma das quais possui uma unidade linear
rectificada para transformação não-linear. Algumas camadas são convolucionais, enquanto outras
são totalmente conectadas. Cada camada convolucional tem um pooling máximo adicional. A rede é
treinada para minimizar o erro L2 para prever a máscara abrangendo todo o conjunto de
treinamento contendo caixas delimitadoras representadas como máscaras.
Problemas com redes neurais profundas
Tal como acontece com RNAs, muitas questões podem surgir com DNNs se eles são nativamente
treinados. Dois problemas comuns são sobrecarregar e tempo de computação.
DNNs são propensos a overfitting por causa das camadas adicionadas de abstração, que lhes
permitem modelar dependências raras nos dados de treinamento. Métodos de regularização , como a
poda de unidades de Ivakhnenko ou o decaimento do peso (-regularization) ou dispersão
(regularização) pode ser aplicada durante o treino para ajudar a combater a superexposição. Um
método de regularização mais recente aplicado aos DNNs é a regularização de abandono . No
abandono, algumas unidades são omitidas aleatoriamente das camadas ocultas durante o treino. Isso
ajuda a quebrar as raras dependências que podem ocorrer nos dados de treinamento.
O método dominante para o treinamento destas estruturas foi o treinamento de correção de erros
(como backpropagation com descida de gradiente ), devido à sua facilidade de implementação e sua
tendência a convergir para melhor optima local do que outros métodos de treinamento . No entanto,
estes métodos podem ser computacionalmente caros, especialmente para DNNs. Há muitos
parâmetros de treinamento a serem considerados com um DNN, como o tamanho (número de
camadas e número de unidades por camada), a taxa de aprendizado e pesos iniciais. Varrer o espaço
de parâmetros para parâmetros ótimos pode não ser viável devido ao custo no tempo e recursos
computacionais. Vários 'truques' Tais como o uso de mini-loteamento (computação do gradiente em
vários exemplos de treinamento ao mesmo tempo em vez de exemplos individuais) foram
mostrados para acelerar a computação. A grande taxa de processamento de GPUs produziu
acelerações significativas no treinamento, devido à matriz e vetoriais computacionais necessários
para serem adequadas para GPUs. alternativas radicais para Retropropagação como extremo
Aprendizagem Machines , "No-prop" redes, treinamento sem retrocesso, "sem peso" redes, e não-
conexionistas redes neurais estão ganhando atenção . A grande taxa de processamento de GPUs
produziu acelerações significativas no treinamento, devido à matriz e vetoriais computacionais
necessários para serem adequadas para GPUs. alternativas radicais para Retropropagação como
extremo Aprendizagem Machines , "No-prop" redes, treinamento sem retrocesso, "sem peso"
redes, e não-conexionistas redes neurais estão ganhando atenção . A grande taxa de processamento
de GPUs tem produzido velocidades significativas no treinamento, devido à matriz e computações
vetoriais necessárias para serem adequadas para GPUs. alternativas radicais para Retropropagação
como extremo Aprendizagem Machines , "No-prop" redes, treinamento sem retrocesso, "sem peso"
redes, e não-conexionistas redes neurais estão ganhando atenção .
Primeiras redes de aprendizagem profunda de 1965: GMDH
De acordo com uma pesquisa histórica, as primeiras redes de aprendizagem profunda funcionais
com muitas camadas, foram publicadas por Alexey Grigorevich Ivakhnenko e VG Lapa em 1965.
O algoritmo de aprendizado foi chamado o método de grupo de Manipulação de dados ou GMDH.
O GMDH possui otimização estrutural e paramétrica totalmente automática de modelos. As funções
de ativação dos nós de rede são polinômios de Kolmogorov-Gabor que permitem adições e
multiplicações. O trabalho de 1971 de Ivakhnenko descreve o aprendizado de um perceptron
multicamada de feedforward profundo com oito camadas, já muito mais profundo do que muitas
redes posteriores. A rede de aprendizagem supervisionada é crescida camada por camada, Onde
cada camada é treinada por análise de regressão . De tempos em tempos neurônios inúteis são
detectados usando um conjunto de validação, e podados através de regularização . O tamanho ea
profundidade da rede resultante depende do problema. Variantes deste método ainda estão sendo
usadas hoje.
Redes neurais convolucionais
CNNs se tornaram o método de escolha para o processamento visual e outros dados bidimensionais.
A CNN é composto por um ou mais convolucionais camadas com camadas totalmente conectados
(correspondentes aqueles em redes neurais artificiais típicos) no topo. Ele também usa pesos
vinculados e camadas de agrupamento. Em particular, max-pooling é freqüentemente usado na
arquitetura convolucional de Fukushima. Esta arquitetura permite CNNs para tirar proveito da
estrutura 2D de dados de entrada. Em comparação com outras arquiteturas profundas, redes
convolucionais neurais têm mostrado resultados superiores em ambas as aplicações de imagem e
fala. Eles também podem ser treinados com backpropagation padrão. CNNs são mais fáceis de
treinar do que outros regular, profundo, Feed-forward neural redes e têm muitos parâmetros menos
para estimar, tornando-se uma arquitetura altamente atraente para usar. Exemplos de aplicações em
Computer Vision incluem DeepDream . Veja o artigo principal sobre redes neurais convolucionais
para inúmeras referências adicionais.
Compressor de história neural
O problema de gradiente de gradiente de diferenciação ou retropropagação automática em redes
neurais foi parcialmente superado em 1992 por um modelo generativo precoce denominado
compressor de história neural, implementado como uma pilha não supervisionada de redes neurais
recorrentes (RNNs). O RNN no nível de entrada aprende a prever sua próxima entrada a partir do
histórico de entrada anterior. Somente entradas imprevisíveis de alguma RNN na hierarquia tornam-
se entradas para o próximo nível superior RNN, que portanto recompõe seu estado interno apenas
raramente. Cada RNN de nível superior aprende assim uma representação comprimida da
informação na RNN abaixo. Isto é feito de tal modo que a sequência de entrada pode ser
reconstruída com precisão a partir da representação de sequência ao nível mais elevado. O sistema
efetivamente minimiza o comprimento da descrição ou o logaritmo negativo da probabilidade dos
dados. Se houver muita previsibilidade aprendível na sequência de dados de entrada, então o RNN
de nível mais alto pode usar o aprendizado supervisionado para classificar facilmente sequências
profundas com intervalos de tempo muito longos entre eventos importantes. Em 1993, tal sistema já
resolveu uma tarefa de "Aprendizagem Muito Profunda" que requer mais de 1000 camadas
subseqüentes em uma RNN desdobrada no tempo. Se houver muita previsibilidade aprendível na
sequência de dados de entrada, então o RNN de nível mais alto pode usar o aprendizado
supervisionado para classificar facilmente sequências profundas com intervalos de tempo muito
longos entre eventos importantes. Em 1993, tal sistema já resolveu uma tarefa de "Aprendizagem
Muito Profunda" que requer mais de 1000 camadas subseqüentes em uma RNN desdobrada no
tempo. [32] [8] Se houver muita previsibilidade aprendível na sequência de dados de entrada, então
o RNN de nível mais alto pode usar o aprendizado supervisionado para classificar facilmente
sequências profundas com intervalos de tempo muito longos entre eventos importantes. Em 1993,
tal sistema já resolveu uma tarefa de "Aprendizagem Muito Profunda" que requer mais de 1000
camadas subseqüentes em uma RNN desdobrada no tempo.
Também é possível destilar toda a hierarquia RNN em apenas dois RNNs chamados de "consciente"
chunker (nível superior) eo "subconsciente" automatizador (nível inferior). [15] Uma vez queo
chunker aprendeu a prever e a comprimir entradas que ainda são imprevisíveis pelo automatizador,
o automatizador é forçado na próxima fase de aprendizagem a prever ou a imitar através de
unidades adicionais especiais as unidades ocultas do chunker que muda mais lentamente. Isto torna
mais fácil para o automatizador aprender as memórias adequadas, raramente mudando em
intervalos de tempo muito longos. Isso, por sua vez, ajuda o automatizador a tornar previsíveis
muitas das suas entradas, uma vez imprevisíveis, de modo que o chunker possa se concentrar nos
demais eventos ainda imprevisíveis, para comprimir ainda mais os dados.
Redes neurais recursivas
Uma rede neuronal recursiva é criada aplicando o mesmo conjunto de pesos recursivamente sobre
uma estrutura diferenciável de tipo gráfico, atravessando a estrutura em ordem topológica . Tais
redes são tipicamente também treinadas pelo modo inverso de diferenciação automática . Eles
foram introduzidos para aprender representação distribuída de estrutura, como termos lógicos . Um
caso especial de redes neurais recursivas é a própria RNN cuja estrutura corresponde a uma cadeia
linear. As redes neurais recursivas têm sido aplicadas ao processamento da linguagem natural . O
recursiva Neural Tensor de rede usa uma função de composição à base tensor para todos nós na
árvore.
Longa memória de curto prazo
Numerosos pesquisadores agora usam variantes de uma RNN de aprendizagem profunda chamada a
rede de memória de curto prazo (LSTM) publicada por Hochreiter & Schmidhuber em 1997. É um
sistema que, ao contrário dos RNNs tradicionais, não tem o problema do gradiente de fuga . O
LSTM é normalmente aumentado por portões recorrentes chamados de portas de esquecimento.
RNNs do LSTM evitam que erros retropropagados desapareçam ou explodam. Em vez disso, os
erros podem fluir para trás através de um número ilimitado de camadas virtuais em RNN LSTM
desdobrado no espaço. Isto é, o LSTM pode aprender tarefas de "Aprendizagem Muito Profunda"
que exigem lembranças de eventos que aconteceram milhares ou mesmo milhões de passos de
tempo discretos. Podem ser desenvolvidas topologias LSTM específicas para cada problema. O
LSTM funciona mesmo quando há longos atrasos, e pode tratar sinais que têm uma mistura de
componentes de baixa e alta freqüência.
Hoje, muitas aplicações usam pilhas de RNN LSTM e treinam-nas por Connectionist Temporal
Classification (CTC) para encontrar uma matriz de pesos RNN que maximize a probabilidade das
seqüências de rótulos em um conjunto de treinamento, dadas as correspondentes sequências de
entrada. O CTC consegue o alinhamento eo reconhecimento. Em 2009, LSTM treinado pelo CTC
foi o primeiro RNN a ganhar concursos de reconhecimento de padrões, quando ganhou várias
competições em reconhecimento de escrita manual . Já em 2003, o LSTM começou a se tornar
competitivo com os tradicionais reconhecedores de fala em certas tarefas. Em 2007, a combinação
com o CTC obteve bons resultados em dados de fala. [54] Desde então, Essa abordagem
revolucionou o reconhecimento de fala . Em 2014, o gigante chinês de pesquisa Baidu usou RNNs
treinados pelo CTC para quebrar o benchmark de reconhecimento de fala do Switchboard Hub5'00,
sem usar qualquer método tradicional de processamento de fala. LSTM também melhorou o
reconhecimento de voz de grande vocabulário, síntese de text-to-speech, também para Google
Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria
experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC,
que agora está disponível através do Google Voice para bilhões de usuários de smartphones. [55]
Em 2014, o gigante chinês de pesquisa Baidu usou RNNs treinados pelo CTC para quebrar o
benchmark de reconhecimento de fala do Switchboard Hub5'00, sem usar qualquer método
tradicional de processamento de fala. LSTM também melhorou o reconhecimento de voz de grande
vocabulário, síntese de text-to-speech, também para Google Android, e cabeças de fala Photo-real.
Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho
dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do
Google Voice para bilhões de usuários de smartphones. Em 2014, o gigante chinês de pesquisa
Baidu usou RNNs treinados pelo CTC para quebrar o benchmark de reconhecimento de fala do
Switchboard Hub5'00, sem usar qualquer método tradicional de processamento de fala. LSTM
também melhorou o reconhecimento de voz de grande vocabulário, síntese de text-to-speech, [138]
também para Google Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do
Google teria experimentado um salto de desempenho dramático de 49% através de LSTM treinado
pelo CTC, que agora está disponível através do Google Voice para bilhões de usuários de
smartphones. O gigante chinês de pesquisa Baidu usou RNNs treinados pelo CTC para quebrar o
benchmark de reconhecimento de fala do Switchboard Hub5'00, sem usar qualquer método
tradicional de processamento de fala. LSTM também melhorou o reconhecimento de voz de grande
vocabulário, síntese de text-to-speech, também para Google Android, e cabeças de fala Photo-real.
Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho
dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do
Google Voice para bilhões de usuários de smartphones. O gigante chinês de pesquisa Baidu usou
RNNs treinados pelo CTC para quebrar o benchmark de reconhecimento de fala do Switchboard
Hub5'00, sem usar qualquer método tradicional de processamento de fala. LSTM também
melhorou o reconhecimento de voz de grande vocabulário, síntese de text-to-speech, também para
Google Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria
experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC,
que agora está disponível através do Google Voice para bilhões de usuários de smartphones. Sem
usar qualquer método tradicional de processamento de fala. LSTM também melhorou o
reconhecimento de voz de grande vocabulário, síntese de text-to-speech, também para Google
Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria
experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC,
que agora está disponível através do Google Voice para bilhões de usuários de smartphones. [55]
Sem usar qualquer método tradicional de processamento de fala. LSTM também melhorou o
reconhecimento de voz de grande vocabulário, síntese de text-to-speech, também para Google
Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria
experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC,
que agora está disponível através do Google Voice para bilhões de usuários de smartphones. e
cabeças falantes foto-real. Em 2015, o reconhecimento de voz do Google teria experimentado um
salto de desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está
disponível através do Google Voice para bilhões de usuários de smartphones. e cabeças falantes
foto-real. Em 2015, o reconhecimento de voz do Google teria experimentado um salto de
desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível
através do Google Voice para bilhões de usuários de smartphones.
LSTM também se tornou muito popular no campo de processamento de linguagem natural . Ao
contrário dos modelos anteriores baseados em HMMs e conceitos similares, o LSTM pode aprender
a reconhecer linguagens sensíveis ao contexto . [106] LSTM melhorou tradução automática,
Modeling Language [108] e Multilingual Processamento de Linguagem. O LSTM combinado com
Redes NeuraisConvolucionais (CNNs) também melhorou o subtítulo automático de imagens e
uma infinidade de outras aplicações.
Redes de crenças profundas
Uma máquina Boltzmann restrita (RBM) com unidades visíveis e ocultas totalmente conectadas.
Observe que não há conexões ocultas-ocultas ou visíveis-visíveis.
Uma rede de crenças profundas (DBN) é um modelo probabilístico e generativo composto por
múltiplas camadas de unidades ocultas. Pode ser considerada uma composição de simples módulos
de aprendizagem que compõem cada camada.
Um DBN pode ser usado para pré-treinar generativamente um DNN usando os pesos DBN
aprendidos como os pesos DNN iniciais. Podem então ser aplicados back-propagation ou outros
algoritmos discriminativos para ajuste fino destes pesos. Isso é particularmente útil quando há
poucos dados de treinamento disponíveis, pois pesos mal inicializados podem dificultar
significativamente o desempenho do modelo aprendido. Esses pesos pré-treinados estão em uma
região do espaço de peso que está mais próxima dos pesos ótimos do que os pesos iniciais
escolhidos aleatoriamente. Isso permite uma modelagem melhorada e uma convergência mais
rápida da fase de ajuste fino.
Um DBN pode ser eficientemente treinado de forma não supervisionada, camada a camada, onde as
camadas são tipicamente feitas de máquinas Boltzmann restritas (RBM). Um RBM é um modelo
baseado na energia generativo não dirigido , com uma camada de entrada "visível" e uma camada
oculta, e conexões entre as camadas, mas não dentro das camadas. O método de treinamento para
RBMs proposto por Geoffrey Hinton para uso com formação de "Produto de Expert" modelos é
chamado de divergência contrastiva (CD). CD fornece uma aproximação ao método de máxima
verossimilhança que idealmente seria aplicado para aprender os pesos do RBM. Na formação de
um único RBM,. Aqui, É a probabilidade de um vetor visível, que é dado por . É a função de
partição (usada para normalizar) e É a função de energia atribuída ao estado da rede. Uma energia
mais baixa indica que a rede está numa configuração mais "desejável". O gradiente Tem a forma
simples Onde Representam médias em relação à distribuição . A questão surge na
amostragemPorque isso exige executar alternando Gibbs amostragem por um longo tempo. CD
substitui esta etapa executando alternando a amostragem de Gibbs para Passos (valores de Ter
empiricamente demonstrado ter um bom desempenho). Depois de Etapas, os dados são amostrados
e essa amostra é usada no lugar . O procedimento do CD funciona da seguinte maneira:
1. Inicializar as unidades visíveis para um vetor de treinamento.
2. Atualize as unidades ocultas em paralelo, dadas as unidades visíveis: . É a função sigmóide e É o
viés de .
3. Atualize as unidades visíveis em paralelo, dadas as unidades ocultas: . É o viés de . Isso é
chamado de "reconstrução".
4. Atualize as unidades ocultas em paralelo dado as unidades visíveis reconstruídas usando a mesma
equação que na etapa 2.
5. Execute a atualização de peso: .
Uma vez que um RBM é treinado, outro RBM é "empilhado" sobre ele, tomando sua entrada da
camada final já treinada. A nova camada visível é inicializada para um vetor de treinamento e os
valores para as unidades nas camadas já treinadas são atribuídos usando os pesos e vieses atuais. O
novo RBM é então treinado com o procedimento acima. Todo este processo é repetido até que seja
atingido algum critério de paragem desejado.
Embora a aproximação do CD à máxima verossimilhança seja muito grosseira (mostrou não seguir
o gradiente de qualquer função), tem sido empiricamente demonstrado ser eficaz no treinamento de
arquiteturas profundas.
Convolutional deep belief networks
Uma recente conquista no aprendizado profundo é o uso de redes convolucionais de crenças
profundas (CDBN). Os CDBNs têm estrutura muito semelhante a uma rede convolucional neural e
são treinados de forma semelhante a redes de crenças profundas . Portanto, eles exploram a
estrutura 2D de imagens, como CNNs fazer, e fazer uso de pré-treinamento como redes de crenças
profundas . Eles fornecem uma estrutura genérica que pode ser usada em muitas tarefas de
processamento de imagem e sinal. Recentemente, muitos resultados de benchmark em conjuntos de
dados de imagem padrão como CIFAR foram obtidos usando CDBNs.
Armazenamento de memória grande e redes neurais de recuperação
As grandes redes neuronais de armazenamento e recuperação de memória (LAMSTAR) são redes
neurais de aprendizagem profunda e rápida de muitas camadas que podem usar muitos filtros
simultaneamente. Estes filtros podem ser não lineares, estocásticos, lógicos, não-estacionários ou
mesmo não-analíticos. Eles são biologicamente motivados e continuamente aprendendo.
Uma rede neural LAMSTAR pode servir como uma rede neuronal dinâmica em domínio espacial
ou temporal ou em ambos. A sua velocidade é proporcionada por pesos de ligação Hebbian
(Capítulo 9 de D. Graupe, 2013 ), que servem para integrar os vários filtros normalmente diferentes
(funções de pré-processamento) em suas várias camadas e para classificar dinamicamente o
significado do Várias camadas e funções relativas a uma dada tarefa de aprendizagem profunda. Isto
imita imensamente a aprendizagem biológica que integra saídas vários pré-processadores ( cóclea ,
retina , etc. ) e córtices ( auditivo , visual , etc. ) e suas várias regiões. A sua capacidade de
aprendizagem profunda é ainda melhorada através da utilização de inibição, Correlação e pela sua
capacidade de lidar com dados incompletos, ou "perdido" neurônios ou camadas, mesmo no meio
de uma tarefa. Além disso, é totalmente transparente devido aos seus pesos de ligação. Os pesos de
ligação também permitem a determinação dinâmica de inovação e redundância, e facilitam a
classificação de camadas, de filtros ou de neurônios individuais em relação a uma tarefa.
LAMSTAR foi aplicada a muitos médicos e as previsões financeiras (ver Graupe de 2013 Seção
9C), filtragem adaptativa de expressão ruidosa do ruído desconhecido, reconhecimento de imagem
estática (Graupe, 2013 Seção 9D), reconhecimento de imagens de vídeo, segurança de software,
controle adaptativo de sistemas não-lineares, e outros. LAMSTAR teve uma velocidade de
computação muito mais rápida e um erro um pouco menor do que uma rede neural convolucional
baseada em filtros de função ReLU e poolamento máximo, em um estudo comparativo de
reconhecimento de caracteres.
Essas aplicações demonstram se aprofundar em aspectos dos dados que estão escondidos de redes
de aprendizagem superficial ou mesmo dos sentidos humanos (olho, orelha), como nos casos de
previsão do início de eventos de apneia do sono , de um eletrocardiograma de um feto Como
registrado a partir de eletrodos de superfície da pele colocados no abdômen da mãe no início da
gestação da predição financeira (Seção 9C em Graupe, 2013), ou na filtragem cega de fala ruidosa.
LAMSTAR foi proposto em 1996 ( A Patente US 5 920 852 A ) e foi ainda desenvolvido por D
Graupe e H Kordylewski 1997-2002. Uma versão modificada, conhecida como LAMSTAR 2, foi
desenvolvida por NC Schneider e D Graupe em 2008.
Máquinas Profundas de Boltzmann
Uma máquina de Boltzmann profunda (DBM) é um tipo de binário pares campo de Markov
aleatória ( não direcionado probabilística modelo gráfico ) com múltiplas camadas de escondidas
variáveis aleatórias . É uma rede de unidades binárias estocásticas acopladas simetricamente .
Compreende um conjunto de unidades visíveis, E uma série de camadas de unidades ocultas . Não
há nenhuma conexão entre unidades da mesma camada (como RBM ). Para o DBM , a
probabilidade atribuída ao vetor ν é onde são o conjunto de unidades ocultas, e são os parâmetros
do modelo, representando interações visível-escondidas e escondidas-escondidas. E se e A rede é a
conhecida máquina Boltzmann restrita. As interações são simétricas porque os links não são
direcionados. Por outro lado, em uma rede profunda crença (DBN), apenas as duas primeiras
camadas formam uma máquina de Boltzmann restrito (que é um não-direcionado modelo gráfico ),
mas camadas mais baixas formam um modelo generativo dirigido.
Como os DBNs, os DBMs podem aprender representações internas complexas e abstratas da
entrada em tarefas como reconhecimento de objetos ou de fala , usando dados limitados e marcados
para ajustar as representações construídas usando uma grande quantidade de dados de entrada
sensoriais não marcados. No entanto, ao contrário dos DBNs e redes neurais convolucionais
profundas, eles adotam o procedimento de inferência e treinamento em ambas as direções, passando
de baixo para cima e de cima para baixo, o que permite que os DBMs revelem melhor as
representações das ambíguas e complexas estruturas de entrada.
No entanto, a velocidade de DBMs limita seu desempenho e funcionalidade. Como a aprendizagem
de máxima verossimilhança exata é intratável para DBMs, podemos realizar a aprendizagem
aproximada de máxima verossimilhança. Outra opção é usar inferência de campo médio para
estimar expectativas dependentes de dados e aproximar as estatísticas suficientes esperadas do
modelo usando Monte Carlo de cadeia de Markov (MCMC) . [165] Esta inferência aproximada, que
deve ser feita para cada entrada de teste, é cerca de 25 a 50 vezes mais lenta do que uma única
passagem bottom-up em DBMs. Isso torna a otimização conjunta impraticável para grandes
conjuntos de dados e restringe seriamente o uso de DBMs para tarefas como representação de
recursos.
Auto-encoders empilhados (de-noise)
A idéia do encoder automático é motivada pelo conceito de uma boa representação. Por exemplo,
para um classificador , uma boa representação pode ser definida como uma que irá produzir um
melhor desempenho classificador.
Um codificador é um mapeamento deterministaQue transforma um vetor de entrada x na
representação oculta y , onde, É a matriz de peso e b é um vetor de desvio (polarização). Um
decodificador mapeia volta a representação escondido y à entrada reconstruído z via. Todo o
processo de codificação automática é comparar esta entrada reconstruída com o original e tentar
minimizar este erro para tornar o valor reconstruído o mais próximo possível do original.
Em empilhados encoders auto decodificador , a saída parcialmente corrompida é limpa (de-ruído).
Essa idéia foi introduzida em 2010 por Vincent et al. com umaabordagem específica para uma boa
representação, uma boa representação é aquela que pode ser obtida de forma robusta a partir de uma
entrada corrompida e que será útil para recuperar a entrada limpa correspondente. Implícito nesta
definição estão as seguintes idéias:
As representações de alto nível são relativamente estáveis e robustas para a corrupção de insumos;
É necessário extrair recursos que são úteis para a representação da distribuição de entrada.
O algoritmo consiste em várias etapas; Começa por um mapeamento estocástico de para através ,
Este é o passo de corrupção. Então a entrada corrompida Passa por um processo de codificador
automático básico e é mapeado para uma representação oculta . Desta representação oculta,
podemos reconstruir. Na última etapa, um algoritmo de minimização é executado de forma a ter z o
mais próximo possível da entrada não corrompida. O erro de reconstruçãoPode ser a perda de
entropia cruzada com um descodificador afim-sigmóide, ou a perda de erro quadrático com um
decodificador afim.
A fim de fazer uma arquitetura profunda, codificadores de auto pilha um em cima do outro. Uma
vez que a função de codificaçãoDo primeiro decodificador automático codificador é aprendido e
usado para uncorrupt a entrada (entrada corrompida), podemos treinar o segundo nível.
Uma vez treinado o codificador automático empilhado , sua saída pode ser usada como entrada para
um algoritmo de aprendizado supervisionado, como um classificador de máquina de vetor de
suporte ou uma regressão logística de múltiplas classes .
Redes de empilhamento profundo
Uma arquitetura profunda baseada em uma hierarquia de blocos de módulos de rede neural
simplificada é uma rede convexa profunda, introduzida em 2011. Aqui, o problema de
aprendizagem de pesos é formulado como um problema de otimização convexo com uma solução
de forma fechada . Essa arquitetura também é chamada de uma rede de empilhamento profundo
(DSN), enfatizando a similaridade do mecanismo com a generalização empilhada . Cada bloco
DSN é um módulo simples que é fácil de treinar por si só de uma forma supervisionada sem back-
propagation para os blocos inteiros.
Como projetado por Deng e Dong, cada bloco consiste em um perceptron simplificado multi-
camada (MLP) com uma única camada escondida . A camada oculta h tem unidades sigmoidais
logísticas , ea camada de saída tem unidades lineares. As ligações entre estas camadas são
representadas pela matriz de peso U; conexões de entrada-a-camada escondida têm matriz de pesos
W . Os vetores de destino t formam as colunas da matriz T e os vetores de dados de entrada x
formam as colunas da matriz X. A matriz de unidades ocultas é. Os módulos são treinados em
ordem, de modo que pesos de camada inferior W são conhecidos em cada estágio. A função executa
a operação sigmóide logística elemento-sábia. Cada bloco estima a mesma classe de etiqueta final
y , e sua estimativa é concatenada com a entrada original X para formar a entrada expandida para o
próximo bloco. Assim, a entrada para o primeiro bloco contém apenas os dados originais, enquanto
a entrada dos blocos a jusante tem também a saída dos blocos precedentes. Em seguida, aprender a
matriz de peso da camada superior U dado outros pesos na rede pode ser formulado como um
problema de otimização convexa:
Que tem uma solução de forma fechada.
Ao contrário de outras arquiteturas profundas, como DBNs , o objetivo não é descobrir a
representação de recurso transformada. A estrutura da hierarquia desse tipo de arquitetura torna a
aprendizagem paralela direta, como um problema de otimização em modo batch. Em tarefas
puramente discriminativas , os DSNs apresentam um desempenho melhor do que o DBN
convencional .
Tensor redes de empilhamento profundo
Essa arquitetura é uma extensão de redes de empilhamento profundo (DSN). Ele melhora o DSN de
duas maneiras importantes: ele usa informações de ordem superior de estatísticas de covariância e
transforma o problema não-convexo de uma camada inferior para um sub-problema convexo de
uma camada superior. Os TDSNs usam estatísticas de covariância dos dados usando um
mapeamento bilinear de cada um de dois conjuntos distintos de unidades ocultas na mesma camada
para as previsões, através de um tensor de terceira ordem .
Enquanto paralelização e escalabilidade não são consideradas seriamente no convencionais DNNs ,
todo o aprendizado para DSN s e TDSN s é feito no modo de lote, para permitir a paralelização em
um conjunto de CPU ou GPU nós. A paralelização permite dimensionar o projeto para arquiteturas e
conjuntos de dados maiores (mais profundos).
A arquitetura básica é adequada para diversas tarefas, como classificação e regressão .
Spike-and-slab RBMs
A necessidade de uma aprendizagem mais profunda com o valor real entradas, como em Gaussian
restrito máquinas de Boltzmann, motiva a ponta-laje RBM ( ss MAE ), que modela entradas
contínua de valor com estritamente binárias variáveis latentes . Semelhante ao básicos MAE e suas
variantes, um ponto-e-laje RBM é um grafo bipartido , enquanto como GRBMs , as unidades
visíveis (de entrada) são reais. A diferença está na camada oculta, onde cada unidade oculta tem
uma variável de pico binário e uma variável de laje valor real. Um pico é uma massa discreta de
probabilidade emzero, enquanto uma laje é uma densidade de mais de domínio contínuo; sua
mistura forma um prior . Os termos vêm da literatura estatística.
Uma extensão de ss RBM chamada μ-ss RBM fornece capacidade de modelagem extra usando
termos adicionais na função de energia . Um destes termos permite que o modelo para formar uma
distribuição condicional das variáveis pico por marginalizar as variáveis laje dada uma observação.
Composto hierárquico-profundos modelos [ editar ]
Os modelos hierárquico-profundos compostos compor redes profundas com modelos bayesianos
não-paramétricos . Recursos podem ser aprendidas usando arquiteturas profundas, tais como
DBNs , DBMS , codificadores de auto profunda, variantes convolucionais, ssRBMs, [180] redes
de codificação de profundidade, [185] DBNs com escassa Recurso de aprendizagem , [186] redes
neurais recursivas, DBNs condicionais, de-noise encoders automáticos. Isso proporciona uma
melhor representação, permitindo uma aprendizagem mais rápida e uma classificação mais precisa
com dados de alta dimensão. No entanto, essas arquiteturas são pobres na aprendizagem de novas
classes com poucos exemplos, pois todas as unidades de rede estão envolvidas na representação da
entrada (uma representação distribuída ) e devem ser ajustadas em conjunto (alto grau de
liberdade ). Limitar o grau de liberdade reduz o número de parâmetros a aprender, facilitando a
aprendizagem de novas classes a partir de poucos exemplos. Hierárquicos Bayesiana (HB) modelos
permitem aprender com alguns exemplos, por exemplo para a visão de computador , estatísticas e
ciência cognitiva . Porque todas as unidades de rede estão envolvidas na representação da entrada
(uma representação distribuída ) e devem ser ajustadas em conjunto (alto grau de liberdade ).
Limitar o grau de liberdade reduz o número de parâmetros a aprender, facilitando a aprendizagem
de novas classes a partir de poucos exemplos. Hierárquicos Bayesiana (HB) modelos permitem
aprender com alguns exemplos, por exemplo para a visão de computador , estatísticas e ciência
cognitiva . Porque todas as unidades de rede estão envolvidas na representação da entrada (uma
representação distribuída ) e devem ser ajustadas em conjunto (alto grau de liberdade ). Limitar o
grau de liberdade reduz o número de parâmetros a aprender, facilitando a aprendizagem de novas
classes a partir de poucos exemplos. Hierárquicos Bayesiana (HB) modelos permitem aprender com
alguns exemplos, por exemplo para a visão de computador , estatísticas e ciência cognitiva .
Limitar o grau de liberdade reduz o número de parâmetros a aprender, facilitando a aprendizagem
de novas classes a partir de poucos exemplos. Hierárquicos Bayesiana (HB) modelos permitem
aprender com alguns exemplos, por exemplo para a visão de computador , estatísticas e ciência
cognitiva . Limitar o grau de liberdade reduz o número de parâmetros a aprender, facilitando a
aprendizagem de novas classes a partir de poucos exemplos. Hierárquicos Bayesiana (HB) modelos
permitem aprender com alguns exemplos, por exemplo para a visão de computador , estatísticas e
ciência cognitiva .
As arquiteturas Compound HD visam integrar características de HB e de redes profundas. A
arquitetura HDP-DBM composta, um processo hierárquico de Dirichlet (HDP) como um modelo
hierárquico, incorporado com arquitetura de DBM. É um modelo generativo completo ,
generalizado a partir de conceitos abstratos fluindo através das camadas do modelo, que é capaz de
sintetizar novos exemplos em novas classes que parecem razoavelmente naturais . Todos os níveis
são aprendidos em conjunto pela maximização de uma joint log-probabilidade de pontuação .
Em um DBM com três camadas ocultas, a probabilidade de uma entrada visível ν é:
Onde É o conjunto de unidades ocultas, e São os parâmetros do modelo, representando termos de
interação simétrica visível-escondida e escondida-escondida.
Depois que um modelo DBM é aprendido, temos um modelo não-direcionado que define a
distribuição conjunta . Uma maneira de expressar o que foi aprendido é o modelo condicional E um
termo anterior .
Aqui Representa um modelo DBM condicional , que pode ser visto como um DBM de duas
camadas, mas com os termos de polarização dados pelos estados de:
Deep codificação redes
Existem vantagens de um modelo que pode activamente actualizar-se a partir do contexto em dados.
A rede de codificação profunda (DPCN) é um esquema de codificação preditiva onde informações
top-down são usadas para empiricamente ajustar os priors necessários para um procedimento de
inferência bottom-up por meio de um modelo generativo profundamente conectado localmente .
Isso funciona, extraindo escassos recursos a partir de observações variantes no tempo usando um
modelo dinâmico linear. Em seguida, uma estratégia de pooling é usada para aprender
representações de recurso invariantes. Estas unidades compor para formar uma arquitetura de
profundidade, e são treinados por gananciosos camada-wise aprendizado não supervisionado .
A rede de codificação preditiva profunda (DPCN) prediz a representação da camada, usando uma
abordagem de cima para baixo usando a informação na camada superior e dependências temporais
dos estados anteriores.
Os DPCNs podem ser estendidos para formar uma rede convolucional .
Deep Q-redes
Uma profunda Q-network (DQN) é um tipo de modelo de aprendizagem profunda desenvolvido no
Google DeepMind que combina uma profunda rede convolucional neural com Q-learning , uma
forma de aprendizado de reforço . Ao contrário dos agentes de aprendizado de reforço anteriores, os
DQNs podem aprender diretamente de entradas sensoriais de alta dimensionalidade. Os resultados
preliminares foram apresentados em 2014, com um artigo publicado em Fevereiro de 2015 na
Nature A aplicação discutida neste artigo é limitada ao jogo Atari 2600 , embora tenha implicações
para outras aplicações. No entanto, muito antes deste trabalho, houve uma série de modelos de
aprendizagem de reforço que aplicam abordagens de aprendizagem profunda.
Redes com estruturas de memória separadas
Integrando memória externa com redes neurais artificiais data de pesquisa no início de
representações distribuídas e Teuvo Kohonen 's mapas de auto-organização . Por exemplo, em
memória distribuída esparsa ou memória temporal, hierárquico , os padrões codificados por redes
neurais são usados como endereços de memória de conteúdo endereçável , com "neurônios"
essencialmente servindo como endereço codificadores e decodificadores . No entanto, os primeiros
controladores dessas memórias não eram diferenciáveis.
Estruturas de memória diferenciáveis relacionadas a LSTM
Além da longa memória de curto prazo (LSTM), outras abordagens dos anos 90 e 2000 também
acrescentaram memória diferenciável a funções recorrentes. Por exemplo:
Ações diferenciáveis push e pop para redes de memória alternativas chamadas de máquinas de pilha
neural
Redes de memória em que o armazenamento diferenciável externo da rede de controle está nos
pesos rápidos de outra rede
LSTM "esquecer os portões"
Redes neuronais recorrentes auto-referenciais (RNNs) com unidades de saída especiais para
endereçar e manipular rapidamente cada um dos pesos próprios da RNN de forma diferenciável
(armazenamento interno)
Aprendendo a transduzir com memória ilimitada
Semântico hashing
Abordagens que representam experiências anteriores diretamente e usam uma experiência
semelhante para formar um modelo local são freqüentemente chamadas de vizinhos mais próximos
ou métodos de k- vizinhos mais próximos . Mais recentemente, a aprendizagem profunda mostrou-
se útil no hash semântico onde um modelo gráfico profundo , os vetores de contagem de palavras ,
obtidos a partir de um grande conjunto de documentos. Os documentos são mapeados para
endereços de memória de tal formaque documentos semanticamente semelhantes estejam
localizados em endereços próximos. Documentos semelhantes a um documento de consulta podem
ser encontrados simplesmente acessando todos os endereços que diferem apenas por alguns bits do
endereço do documento de consulta.
Máquinas Neural de Turing
Máquinas Neural Turing , desenvolvidos pela Google DeepMind , redes casal LSTM para recursos
de memória externos, que podem interagir com por processos de atenção. O sistema combinado é
análogo a uma máquina de Turing, mas é diferenciável de ponta a ponta, permitindo que ele seja
eficientemente treinado por descida de gradiente . Os resultados preliminares demonstram que as
máquinas neurais de Turing podem inferir algoritmos simples como copiar, ordenar e recordar
associativo a partir de exemplos de entrada e saída.
Redes de memória
As redes de memória são outra extensão de redes neurais que incorporam memória de longo prazo ,
desenvolvida pela equipe de pesquisa do Facebook . A memória de longo prazo pode ser lida e
escrita, com o objetivo de usá-lo para previsão. Estes modelos têm sido aplicados no contexto da
resposta a perguntas (QA), onde a memória de longo prazo atua efetivamente como uma base de
conhecimento (dinâmica) ea saída é uma resposta textual.
Redes de ponteiros
Redes neurais profundas podem ser potencialmente melhoradas se eles se aprofundarem e tiverem
menos parâmetros, enquanto mantêm a capacitação. Enquanto a formação extremamente profundo
(por exemplo, 1 milhão de camada profunda) redes neurais pode não ser exequível, da CPU
arquiteturas -como tais como redes ponteiro e máquinas de acesso aleatório neurais desenvolvido
pelo Google cerebrais pesquisadores superar essa limitação usando externo de memória de acesso
aleatório , bem como a adição de outros componentes que normalmente pertencem a uma
arquitetura de computador , tais como registros , ALU e ponteiros . Tais sistemas operam em vetores
de distribuição de probabilidade armazenados em células de memória e registros. Assim, o modelo é
totalmente diferenciável e treina de ponta a ponta. A característica-chave desses modelos é que a
profundidade, o tamanho da memória de curto prazo eo número de parâmetros podem ser alterados
independentemente - ao contrário de modelos como Long memória de curto prazo , cujo número de
parâmetros cresce quadraticamente com o tamanho da memória.
Redes encoder-decodificador
Uma estrutura codificador-decodificador é uma estrutura baseada em redes neurais que visa mapear
entrada altamente estruturada para saída altamente estruturada. Foi proposto recentemente no
contexto da tradução automática , onde a entrada e a saída são sentenças escritas em duas línguas
naturais. Nesse trabalho, uma LSTM rede recorrente neural (RNN) ou rede neural convolutional
(CNN) foi usado como um codificador para resumir uma frase de origem, bem como o resumo foi
decodificado usando uma rede neural recorrente condicional modelo de linguagem para produzir a
tradução. [219] Todos estes sistemas têm os mesmos blocos de construção: RNNs e CNNs
fechados, e mecanismos de atenção treinados.
Outras arquiteturas
Multilayer kernel machine
As máquinas de kernel multicamadas (MKM) como introduzidas em são uma forma de aprender
funções altamente não-lineares por aplicação iterativa de núcleos fracamente não-lineares. Eles
usam a análise do componente principal do kernel (KPCA), em como método para a etapa de pré-
treinamento gananciosa e não supervisionada da camada da arquitetura de aprendizagem profunda.
Camada -th aprende a representação da camada anterior , Extraindo o Componente principal (PC)
da camada de projecçãoSaída no domínio de recurso induzido pelo kernel. Por uma questão de
redução da dimensionalidade da representação atualizada em cada camada, uma estratégia
supervisionada é proposta para selecionar as melhores características informativas entre as
características extraídas pelo KPCA. O processo é:
Classificar o Recursos de acordo com suas informações mútuas com os rótulos de classe;
Para diferentes valores de K e, Calcule a taxa de erro de classificação de um classificador K-NN
mais próximo usando apenas oRecursos mais informativos em um conjunto de validação ;
o valor de Com o qual o classificador atingiu a menor taxa de erro determina o número de
características a reter.
Existem algumas desvantagens na utilização do método KPCA como as células de construção de
um MKM.
Uma maneira mais direta de usar máquinas de kernel para aprendizagem profunda foi desenvolvida
por pesquisadores da Microsoft para a compreensão da linguagem falada. A idéia principal é usar
uma máquina do kernel para aproximar uma rede neural rasa com um número infinito de unidades
escondidas, em seguida, usar o empilhamento para emendar a saída da máquina de kernel e a
entrada em bruto na construção do próximo, maior nível da Máquina do kernel. O número de níveis
na rede convexa profunda é um hiperparâmetro do sistema global, a ser determinado pela validação
cruzada.
Aplicações
Reconhecimento automático de voz
Artigo principal : Reconhecimento de fala
Reconhecimento de fala foi revolucionada pela aprendizagem profunda, especialmente por Long
memória de curto prazo (LSTM), uma rede de neurônios recorrentes publicado por Sepp Hochreiter
& Jürgen Schmidhuber em 1997. RNNs LSTM contornar o problema gradiente desaparecendo e
pode aprender "Very Deep Learning " que envolvem eventos de fala separados por milhares de
passos de tempo discretos, onde um passo de tempo corresponde a cerca de 10 ms. Em 2003, o
LSTM com portas de esquecimento tornou-se competitivo com reconhecedores de fala tradicionais
em determinadas tarefas. Em 2007, O LSTM treinado pela Classificação Temporal Conexional
(CTC) obteve excelentes resultados em certas aplicações, embora os computadores fossem muito
mais lentos do que hoje. Em 2015, o reconhecimento de voz em grande escala do Google de repente
quase dobrou seu desempenho através do LSTM treinado pelo CTC, agora disponível para todos os
usuários de smartphones.
Entretanto, o sucesso inicial da aprendizagem profunda no reconhecimento de fala foi baseado em
tarefas TIMIT em pequena escala. Os resultados mostrados na tabela abaixo são para
reconhecimento automático de fala no popular conjunto de dados TIMIT . Este é um conjunto de
dados comum usado para avaliações iniciais de arquiteturas de aprendizagem profunda. O conjunto
completo contém 630 alto-falantes de oito principais dialetos de Inglês americano, onde cada orador
lê 10 frases. Seu tamanho pequeno permite que muitas configurações sejam tentadas eficazmente.
Mais importante ainda, a tarefa TIMIT diz respeito ao reconhecimento da seqüência telefônica, que,
ao contrário do reconhecimento de seqüência de palavras, permite muito fracos "modelos de
linguagem" e, portanto, as fraquezas nos aspectos de modelagem acústica do reconhecimento de
fala podem ser mais facilmente analisadas. Tal análise sobre TIMIT por Li Deng e colaboradores
em torno de 2009-2010, contrastando os modelos GMM (e outros modelos generativos de fala)
versus DNN, estimulou o investimento industrial inicial em aprendizagem profunda para o
reconhecimento de fala de pequenas a grandes escalas ,levando eventualmente a um uso
predominante e predominante nessa indústria. Essa análise foi feita com desempenho comparável
(menos de 1,5% na taxa de erro) entre DNN discriminantes e modelos generativos. As taxas de erro
listadas abaixo, incluindo estes resultados iniciais e medidas como porcentagem de taxas de erro de
telefone (PER), foram resumidas ao longo de um período de tempo dos últimos 20 anos: Estimulou
o investimento industrial precoce na aprendizagem profunda para o reconhecimento de fala de
pequenas a grandes escalas, eventualmente levando a um uso dominante e dominante nessa
indústria.Essa análise foi feita com desempenho comparável (menos de 1,5% na taxa de erro) entre
DNN discriminantes e modelos generativos. As taxas de erro listadas abaixo, incluindo estes
resultados iniciais e medidas como porcentagem de taxas de erro de telefone (PER), foram
resumidas ao longo de um período de tempo dos últimos 20 anos: Estimulou o investimento
industrial precoce na aprendizagem profunda para o reconhecimento de fala de pequenas a grandes
escalas, eventualmente levando a um uso dominante e dominante nessa indústria. Essa análise foi
feita com desempenho comparável (menos de 1,5% na taxa de erro) entre DNN discriminantes e
modelos generativos. As taxas de erro listadas abaixo, incluindo estes resultados iniciais e medidas
como porcentagem de taxas de erro de telefone (PER), foram resumidas ao longo de um período de
tempo dos últimos 20 anos:
Método PER (%)
Randomly Initialized RNN 26,1
Trifólio Bayesiano GMM-HMM 25,6
Trajetória Oculta (Generative) Modelo 24,8
Monophone Randomly Initialized DNN 23,4
Monophone DBN-DNN 22,4
Triphone GMM-HMM com Treinamento BMMI 21,7
Monophone DBN-DNN no fbank 20,7
Convolucional DNN 20,0
Convolucional DNN w. Associação heterogênea 18,7
Ensemble DNN / CNN / RNN 18,2
LSTM bidirecional 17,9
Em 2010, os pesquisadores industriais aprofundaram o aprendizado profundo de TIMIT para o
reconhecimento de voz de vocabulário grande, adotando grandes camadas de saída do DNN
baseado em estados HMM dependentes do contexto construído por árvores de decisão . Revisões
abrangentes deste desenvolvimento e do estado da arte a partir de outubro de 2014 são fornecidos
no recente livro Springer da Microsoft Research. Um artigo anterior analisou os antecedentes do
reconhecimento automático de fala eo impacto de vários paradigmas de aprendizado de máquina,
incluindo o aprendizado profundo.
Um princípio fundamental do aprendizado profundo é acabar com a engenharia de recursos feitos à
mão e usar recursos brutos. Este princípio foi explorado pela primeira vez com sucesso na
arquitetura da autoencoder profunda sobre o espectrograma "cru" ou recursos de filtro de banco
lineares no SRI no final de 1990, e mais tarde na Microsoft, mostrando a sua superioridade sobre o
Mel-cepstral Características que contêm alguns estágios de transformação fixa a partir de
espectrogramas. As características verdadeiras "crus" da fala, formas de onda , têm sido mais
recentemente mostradas para produzir excelentes resultados de reconhecimento de fala em maior
escala.
Desde a estréia inicial bem sucedida de DNNs para reconhecimento de alto-falante no final dos
anos 1990 e reconhecimento de fala em torno de 2009-2011 e de LSTM em torno de 2003-2007,
houve enormes avanços novos feitos. O progresso (e as orientações futuras) podem ser resumidos
em oito grandes áreas:
Ampliação / desativação e aceleração de treinamento e decodificação DNN;
Treinamento discriminativo de sequências de DNNs;
Processamento de recursos por modelos profundos com sólida compreensão dos mecanismos
subjacentes;
Adaptação de DNNs e de modelos profundos relacionados;
Multi-tarefa e aprendizagem transferência por DNNs e modelos profundas relacionadas;
Redes neurais de convolução e como projetá-las para explorar melhor o conhecimento do domínio
da fala;
Rede neural recorrente e suas variantes LSTM ricas;
Outros tipos de modelos profundos, incluindo modelos baseados em tensores e modelos generativos
/ discriminativos profundos integrados.
O reconhecimento automático de voz em grande escala é o primeiro e mais convincente caso de
sucesso da aprendizagem profunda na história recente, abraçado tanto pela indústria como pela
academia. Entre 2010 e 2014, as duas principais conferências sobre processamento de sinais e
reconhecimento de fala, IEEE-ICASSP e Interspeech, têm visto um grande aumento no número de
artigos aceitos em seus respectivos trabalhos de conferência anual sobre o tema da aprendizagem
profunda para reconhecimento de fala. Mais importante ainda, todos os principais sistemas
comerciais de reconhecimento de voz (por exemplo, Microsoft Cortana, Xbox, Skype Translator,
Amazon Alexa, Google Now, Apple Siri, Baidu e pesquisa de voz iFlyTek e uma variedade de
produtos de voz Nuance, etc.) Métodos de aprendizagem profunda. Veja também a recente
entrevista da mídia com o CTO da Nuance Communications.
Reconhecimento de imagem
Um conjunto de avaliação comum para a classificação de imagem é o conjunto de dados do banco
de dados MNIST . MNIST é composto de dígitos manuscritos e inclui 60.000 exemplos de
treinamento e 10.000 exemplos de teste. Tal como com o TIMIT, o seu pequeno tamanho permite
que várias configurações sejam testadas. Uma ampla lista de resultados sobre este conjunto pode ser
encontrada em . O melhor resultado atual no MNIST é uma taxa de erro de 0,23%, obtida por
Ciresan et al. Em 2012.
De acordo com LeCun , no início dos anos 2000, em uma aplicação industrial, as CNNs já
processavam cerca de 10% a 20% de todas as verificações feitas nos EUA no início dos anos 2000.
O impacto adicional significativo da aprendizagem profunda no reconhecimento da imagem ou do
objeto foi sentido nos anos 2011-2012. Embora CNNs treinados por backpropagation tinha sido em
torno de décadas, e GPU implementações de NNs durante anos, incluindo CNNs, implementações
rápidas de CNNs com max-pooling em GPUs no estilo de Dan Ciresan e colegas foram necessários
para fazer um dente na visão por computador. Em 2011, esta abordagem conseguiu pela primeira
vez um desempenho sobre-humano em um concurso visual de reconhecimento de padrões.
Também em 2011, ele ganhou o concurso de manuscrito chinês ICDAR, e em maio de 2012,
ganhou o concurso de segmentação de imagem ISBI. Até 2011, CNNs não desempenhou um papel
importante em conferências de visão por computador, mas em junho de 2012, um documento de
Dan Ciresan et al. Na principal conferência CVPR mostrou como max-pooling CNNs sobre GPU
pode melhorar drasticamente muitos registros de referência de visão, às vezes com desempenho
humano-competitivo ou mesmo sobre-humano. Em outubro de 2012, um sistema semelhante por
Alex Krizhevsky na equipe de Geoff Hinton [97] ganhou a concorrência ImageNet em larga escala
por uma margem significativa sobre métodos de aprendizagem de máquinas rasas. Em novembro de
2012, Ciresan et al. S sistema também ganhou o concurso ICPR na análise de grandes imagens
médicas para detecção de câncer, e no ano seguinte também o MICCAI Grand Challenge sobre o
mesmo tema. Em 2013 e 2014, a taxa de erro na tarefa ImageNet usando aprendizagem profunda
foi mais reduzida rapidamente, seguindo uma tendência semelhante no reconhecimento de fala em
larga escala.
Como nos ambiciosos movimentos do reconhecimento automático de fala para a tradução e
compreensão automáticas da fala, a classificação de imagens foi recentemente estendida para a
tarefa mais desafiadora do subtítulo automático de imagens, em que a aprendizagem profunda
(muitas vezes como uma combinação de CNNs e LSTMs) Tecnologia
Um exemplo de aplicação é um computador de carro, disse ser treinado com aprendizagem
profunda, o que pode permitir que os carros interpretem visões de câmera de 360 °. Outro exemplo
é a tecnologia conhecida como Facial Dysmorphology Novel Analysis (FDNA) usada para analisar
casos de malformação humana conectada a um grande banco de dados de síndromes genéticas.
Processamento de linguagem natural
As redes neurais têm sido utilizadas para implementar modelos de linguagem desde o início dos
anos 2000. As redes neurais recorrentes , especialmente LSTM, são mais apropriadas para dados
seqüenciais, como a linguagem. LSTM ajudou a melhorar a tradução automática e a Modelagem de
Linguagem . O LSTM combinado com CNNs também melhorou o subtítulo automático da imageme uma pletora de outras aplicações.
Outras técnicas-chave neste campo são a amostragem negativa e a incorporação de palavras . A
incorporação de palavras, como word2vec , pode ser pensada como uma camada representacional
em uma arquitetura de aprendizagem profunda, que transforma uma palavra atômica em uma
representação posicional da palavra em relação a outras palavras no conjunto de dados; A posição é
representada como um ponto em um espaço vetorial . O uso da incorporação de palavras como uma
camada de entrada para uma rede neuronal recursiva (RNN) permite que o treinamento da rede
analise frases e frases usando uma gramática efetiva de vetor composicional . Uma gramática
vetorial composicional pode ser pensada como gramática livre de contexto probabilística (PCFG)
implementada por uma rede neural recursiva. Os auto-encoders recursivos construídos em cima de
embeddings da palavra foram treinados para avaliar a similaridade da sentença e para paraphrasing
de detecção. arquiteturas neurais profundas alcançaram state-of-the-art resultados em muitas tarefas
de processamento de linguagem natural, tais como análise de circunscrição , análise de sentimento ,
a recuperação de informação, falado compreensão da linguagem, tradução automática, entidade
contextual ligando, e outros. citações excessivas arquiteturas neurais profundas alcançaram state-
of-the-art resultados em muitas tarefas de processamento de linguagem natural, tais como análise de
circunscrição , análise de sentimento , a recuperação de informação, falado compreensão da
linguagem, tradução automática, entidade contextual ligando, e outros. citações excessivas
arquiteturas neurais profundas alcançaram state-of-the-art resultados em muitas tarefas de
processamento de linguagem natural, tais como análise de circunscrição , análise de sentimento , a
recuperação de informação, falado compreensão da linguagem, tradução automática, entidade
contextual ligando, e outros. citações excessivas compreensão da linguagem falada, tradução
automática, entidade contextual ligando, e outros. citações excessivas compreensão da linguagem
falada, tradução automática, entidade contextual ligando, e outros. ditações excessivas
Drug descoberta e toxicologia
A indústria farmacêutica enfrenta o problema de que uma grande percentagem de fármacos
candidatos não conseguem atingir o mercado. Estas falhas de compostos químicos são causadas por
uma eficácia insuficiente no alvo biomolecular (efeito no alvo), interacções não detectadas e
indesejadas com outras biomoléculas (efeitos fora do alvo) ou efeitos tóxicos não previstos . Em
2012, uma equipe liderada por George Dahl ganhou o "Atividade Desafio Merck Molecular"
usando multi-tarefa redes neurais profundas para prever o alvo biomolecular de um composto. Em
2014, Sepp Hochreiter ' S grupo utilizado Deep Learning para detectar off-target e efeitos tóxicos de
produtos químicos ambientais em nutrientes, produtos domésticos e drogas e ganhou o "Tox21 Data
Challenge" do NIH , FDA e NCATS . Estes impressionantes sucessos mostram que a aprendizagem
profunda pode ser superior a outros métodos de rastreio virtual . Pesquisadores do Google e
Stanford aprimoraram o aprendizado profundo para a descoberta de drogas combinando dados de
uma variedade de fontes. Em 2015, a AtomNet introduziu a AtomNet, a primeira rede de redes de
aprendizagem profunda para o desenho racional de drogas baseado na estrutura. Posteriormente, o
AtomNet foi utilizado para prever novas biomoléculas candidatas para vários alvos da doença,
principalmente tratamentos para o vírus Ebola e esclerose múltipla.
Gestão de relacionamento com clientes
Recentemente sucesso foi relatado com aplicação de reforço reforço aprendizagem em marketing
direto configurações, ilustrando a adequação do método de automação CRM . Foi utilizada uma
rede neural para aproximar o valor de possíveis ações de marketing direto sobre o espaço de estados
do cliente, definido em termos de variáveis de RFM . A função de valor estimado mostrou ter uma
interpretação natural como valor de vida útil do cliente .
Sistemas de recomendação
Os sistemas de recomendação usaram o aprendizado profundo para extrair recursos profundos
significativos para o modelo de fatores latentes para a recomendação baseada em conteúdo para
música. Recentemente, foi introduzida uma abordagem mais geral para a aprendizagem de
preferências de utilizadores a partir de múltiplos domínios utilizando a aprendizagem profunda
multiview. O modelo utiliza uma abordagem híbrida colaborativa e baseada em conteúdo e melhora
as recomendações em várias tarefas.
Informática biomédica
Recentemente, uma abordagem de aprendizagem profunda baseada em uma rede neural artificial
auto- codificadora tem sido usada em bioinformática , para prever anotações de Ontologia de Gene
e relações de função de gene.
Na informática médica, a aprendizagem profunda também tem sido utilizada no domínio da saúde,
incluindo a previsão da qualidade do sono baseada em dados portáveis e as previsões de
complicações de saúde a partir de dados do Registro de Saúde Eletrônico.
Teorias do cérebro humano
A aprendizagem profunda computacional está intimamente relacionada com uma classe de teorias
do desenvolvimento cerebral (especificamente, o desenvolvimento neocortical) proposto por
neurocientistas cognitivos no início da década de 1990. Um resumo acessível deste trabalho é
Elman, et al., 1996 livro "Rethinking Innateness" (ver também: Shrager e Johnson, Quartz e
Sejnowski ). Como essas teorias de desenvolvimento também foram instanciadas em modelos
computacionais, elas são predecessoras técnicas de modelos de aprendizagem profunda motivados
por computação pura. Esses modelos de desenvolvimento compartilham a propriedade interessante
que várias dinâmicas de aprendizagem propostas no cérebro (por exemplo, Uma onda de fator de
crescimento nervoso) conspiram para apoiar a auto-organização de apenas o tipo de redes neurais
inter-relacionadas utilizadas nos modelos de aprendizagem profunda puramente computacionais; E
essas redes neurais computacionais parecem ser análogas a uma visão do neocórtex do cérebro
como uma hierarquia de filtros em que cada camada captura algumas das informações no ambiente
operacional e, em seguida, passa o restante, bem como o sinal de base modificado, para outras
camadas adicionais A hierarquia. Este processo produz uma pilha auto-organizada de transdutores ,
bem ajustados ao seu ambiente operacional. Como descrito no The New York Times em 1995: "... o
cérebro do bebê parece se organizar sob a influência de ondas dos chamados fatores tróficos ...
A importância da aprendizagem profunda com respeito à evolução e ao desenvolvimento da
cognição humana não escapou à atenção destes investigadores. Um aspecto do desenvolvimento
humano que nos distingue dos vizinhos primatas mais próximos pode ser mudanças no momento do
desenvolvimento. Entre os primatas , o cérebro humano permanece relativamente plástico até o
final do período pós-natal, enquanto os cérebros de nossos parentes mais próximos são mais
completamente formados pelo nascimento. Assim, os seres humanos têm maior acesso às
experiências complexas oferecidas por estar fora do mundo durante o período mais formativo do
desenvolvimento do cérebro. Isso pode nos permitir "sintonizar" com as mudanças rápidas do
ambiente que outros animais, mais constrangidos pela estruturação evolutiva de seus cérebros, São
incapazes de ter em conta. Na medida em que essas mudanças se refletem em mudanças de tempo
semelhantes na onda hipotética de desenvolvimento cortical, elas também podem levar a mudanças
na extração de informações do ambiente de estímulo durante a auto-organização precoce do
cérebro. Naturalmente, junto com esta flexibilidade vem um período prolongado de imaturidade,durante o qual estamos dependentes de nossos cuidadores e nossa comunidade para apoio e
treinamento. A teoria da aprendizagem profunda, portanto, vê a coevolução da cultura e cognição
como uma condição fundamental da evolução humana. Eles também podem levar a mudanças na
extração de informações do ambiente de estímulo durante a auto-organização precoce do cérebro.
Naturalmente, junto com esta flexibilidade vem um período prolongado de imaturidade, durante o
qual estamos dependentes de nossos cuidadores e nossa comunidade para apoio e treinamento. A
teoria da aprendizagem profunda, portanto, vê a coevolução da cultura e cognição como uma
condição fundamental da evolução humana. Eles também podem levar a mudanças na extração de
informações do ambiente de estímulo durante a auto-organização precoce do cérebro. Naturalmente,
junto com esta flexibilidade vem um período prolongado de imaturidade, durante o qual estamos
dependentes de nossos cuidadores e nossa comunidade para apoio e treinamento. A teoria da
aprendizagem profunda, portanto, vê a coevolução da cultura e cognição como uma condição
fundamental da evolução humana.
Atividades comerciais
A aprendizagem profunda é freqüentemente apresentada como um passo rumo à realização de AI
forte e, assim, muitas organizações se interessaram por seu uso para aplicações particulares. Em
dezembro de 2013, o Facebook contratou Yann LeCun para dirigir a sua nova inteligência artificial
laboratório (AI), que era ter operações na Califórnia, Londres e Nova York. O laboratório de IA
desenvolverá técnicas de aprendizagem profunda para ajudar o Facebook a executar tarefas como
marcar automaticamente as imagens carregadas com os nomes das pessoas nelas contidas. [282] No
final de 2014, o Facebook também contratou Vladimir Vapnik , desenvolvedor principal da teoria
Vapnik-Chervonenkis de aprendizagem estatística, E co-inventor do método de máquina de vector
de suporte .
Em 2014, o Google também comprou DeepMind Technologies , uma start-up britânica que
desenvolveu um sistema capaz de aprender a jogar jogos de vídeo Atari usando apenas pixels brutos
como entrada de dados. Em 2015, eles demonstraram AlphaGo sistema que alcançou um dos longos
"grandes desafios" da AI por aprender o jogo de Go bem o suficiente para bater um jogador
profissional de Go profissional.
Em 2015, Blippar demonstrou um novo móvel de realidade aumentada aplicativo que faz uso de
aprendizado profundo de reconhecer objetos em tempo real.
Crítica e comentário
Dadas as implicações de longo alcance da inteligência artificial, juntamente com a percepção de que
a aprendizagem profunda está emergindo como uma de suas técnicas mais poderosas, o sujeito
compreensivelmente atrai críticas e comentários e, em alguns casos, fora do campo da própria
ciência da computação.
Uma crítica principal da aprendizagem profunda refere-se à falta de teoria em torno de muitos dos
métodos. Aprendizagem nas arquiteturas profundas mais comuns é implementado utilizando
gradiente descendente ; Enquanto a descida gradiente foi compreendida há algum tempo, a teoria
em torno de outros algoritmos, como a divergência contrastiva, é menos clara. (Ou seja, não é
convergir? Em caso afirmativo, com que rapidez? O que é aproximar?) Métodos de aprendizagem
profundas são muitas vezes encarado como uma caixa preta, com a maioria das confirmações feito
empiricamente e não teórico.
Outros apontam que o aprendizado profundo deve ser encarado como um passo para a realização de
IA forte, e não como uma solução abrangente. Apesar do poder dos métodos de aprendizagem
profunda, eles ainda carecem de muita da funcionalidade necessária para realizar este objetivo
inteiramente. O psicólogo de pesquisa Gary Marcus observou que:
"Realisticamente, o aprendizado profundo é apenas parte do maior desafio da construção de
máquinas inteligentes, que não possuem maneiras de representar as relações causais (...) não têm
formas óbvias de realizar inferências lógicas e estão ainda muito longe de integrar os conceitos
abstratos conhecimento, tais como informações sobre o que os objetos são, para que servem e como
eles são normalmente utilizados. Os mais poderosos sistemas de IA, como Watson (...) usar técnicas
como a profunda aprendizagem como apenas um elemento de um conjunto muito complicado de
Técnicas, que vão desde a técnica estatística de inferência bayesiana ao raciocínio dedutivo".
Na medida em que esse ponto de vista implica, sem pretender, que a aprendizagem profunda
acabará por constituir nada mais do que os níveis discriminatórios primitivos de uma abrangente
inteligência de máquina futura, um recente par de especulações sobre arte e inteligência artificial
oferece uma alternativa e Perspectivas mais expansivas. A primeira dessas especulações é que
poderia ser possível treinar uma pilha de visão de máquina para executar a sofisticada tarefa de
discriminar entre "mestre antigo" e desenhos de figuras amadoras; E a segunda é que tal
sensibilidade pode de fato representar os rudimentos de uma empatia de máquina não-trivial. Além
disso, é sugerido que tal eventualidade estaria em consonância com a antropologia, Que identifica
uma preocupação com a estética como um elemento-chave da modernidade comportamental.
Ainda em referência à idéia de que um grau significativo de sensibilidade artística poderia estar
dentro de níveis relativamente baixos, sejam biológicos ou digitais, da hierarquia cognitiva, uma
série publicada de representações gráficas dos estados internos de redes neurais profundas (20-30
camadas) Tentando discernir dentro de dados essencialmente aleatórios, as imagens em que foram
treinados parecem demonstrar um apelo visual impressionante à luz do notável nível de atenção
pública que este trabalho capturou: o aviso original da pesquisa recebeu bem mais de 1.000
comentários eu A cobertura por The Guardian era por um tempo o artigo o mais freqüentemente
acessado no Web site desse jornal.
Algumas arquiteturas de aprendizagem profunda atualmente populares e bem sucedidos exibir
determinados comportamentos problemáticos, como classificar confiança imagens irreconhecíveis
como pertencentes a uma categoria familiar de imagens comuns e misclassifying perturbações
minúsculas de imagens corretamente classificados. O criador de OpenCog, Ben Goertzel, a hipótese
que estes comportamentos são devido a limitações nas representações internas aprendidas por essas
arquiteturas, e que essas limitações possam inibir a integração dessas arquiteturas em multi-
componentes heterogêneos AGI arquiteturas. Sugere-se que estas questões podem ser contornado
através do desenvolvimento de arquiteturas de aprendizagem profundas que formam internamente
estados homólogos para a imagem-gramática decomposições de entidades e eventos observados.
Aprender uma gramática (visual ou linguístico) a partir de dados de treinamento seria equivalente a
restringir o sistema de raciocínio de senso comum que opera em conceitos em termos de regras de
produção da gramática, e é um objetivo básico de ambos aquisição da linguagem humana E AI. (Ver
também Indução gramatical).
Aprendizagem profunda

Aprendizagem profunda (Deep Learning)

IF SUL DE MINAS

Ferramentas de estudo

Conteúdos escolhidos para você

TCC-RECONHECIMENTO FACIAL COM TÉCNICAS DE MACHINE LEARNING

Deep Learning

Inteligência Artificial para Devs

Livro-Texto 3 - Inteligência Artificial

INTELIGENCIA ARTIFICIAL

Perguntas dessa disciplina

A Inteligência Artificial (IA) continua avançando rapidamente, impulsionada por avanços em hardware, algoritmos e acesso a grandes volumes de dados. T

Questão 1 | INTELIGENCIA ARTIFICIAL APLICADA Código da questão: 308992 Redes neurais artificiais são cruciais na resolução de problemas complexos, com

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

As redes neurais adentraram a área da agronomia em todos os setores, unto para a pesquisa, quanto para o desenvolvimento de soluções finais. Para u...

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) Um estudo distinto foi conduzido por Costa et al. (2006), onde for

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Conteúdos escolhidos para você

TCC-RECONHECIMENTO FACIAL COM TÉCNICAS DE MACHINE LEARNING

Deep Learning

Inteligência Artificial para Devs

Livro-Texto 3 - Inteligência Artificial

INTELIGENCIA ARTIFICIAL

Perguntas dessa disciplina

A Inteligência Artificial (IA) continua avançando rapidamente, impulsionada por avanços em hardware, algoritmos e acesso a grandes volumes de dados. T

Questão 1 | INTELIGENCIA ARTIFICIAL APLICADA Código da questão: 308992 Redes neurais artificiais são cruciais na resolução de problemas complexos, com

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

As redes neurais adentraram a área da agronomia em todos os setores, unto para a pesquisa, quanto para o desenvolvimento de soluções finais. Para u...

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) Um estudo distinto foi conduzido por Costa et al. (2006), onde for

Mais conteúdos dessa disciplina

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar