Prévia do material em texto
Aprendizagem profunda Fonte: https://pt.wikipedia.org/wiki/Rede_neural_artificial (texto copiado do wikipedia e esta sujeito a erros de ortografia e de referências) Aprendizagem profunda (também conhecido como aprendizado estruturado profundo, aprendizado hierárquico ou a aprendizagem de máquina de profundidade ) é um ramo da aprendizagem de máquina com base em um conjunto de algoritmos que tentam modelar abstrações de alto nível nos dados. Em um caso simples, pode haver dois conjuntos de neurônios : aqueles que recebem um sinal de entrada e aqueles que enviam um sinal de saída. Quando a camada de entrada recebe uma entrada, ela passa uma versão modificada da entrada para a próxima camada. Em uma rede profunda, há muitas camadas entre a entrada ea saída (e as camadas não são feitas de neurônios, mas pode ajudar a pensar dessa forma), permitindo que o algoritmo use várias camadas de processamento, Composta de múltiplas transformações lineares e não-lineares. Aprendizagem profunda é parte de uma família mais ampla de métodos de aprendizagem de máquina baseada em representaçõesde aprendizagem de dados. Uma observação (por exemplo, uma imagem) pode ser representada de muitas maneiras, como um vetor de valores de intensidade por pixel, ou de uma forma mais abstrata como um conjunto de arestas, regiões de forma particular, etc. Algumas representações são melhores do que outras em Simplificando a tarefa de aprendizagem (por exemplo, reconhecimento de face ou reconhecimento de expressão facial. Uma das promessas de aprendizagem profunda está substituindo artesanais características com algoritmos eficientes para não supervisionado ou semi-supervisionado de aprendizagem recurso e hierárquica extração de características . Pesquisas nesta área tentam fazer representações melhores e criar modelos para aprender essas representações a partir de dados não marcados em larga escala. Algumas das representações são inspiradas nos avanços da neurociência e são vagamente baseadas na interpretação do processamento da informação e padrões de comunicação em um sistema nervoso , como a codificação neural que tenta definir uma relação entre vários estímulos e respostas neuronais associadas no cérebro . Várias arquiteturas de aprendizagem profundas, tais como redes profundas neurais , redes neurais profundas convolucionais , redes de crenças profundas e redes neurais recorrentes têm sido aplicados para áreas como visão computacional , reconhecimento automático de voz , processamento de linguagem natural , reconhecimento de áudio e bioinformática onde eles foram mostrados para produzir Estado-da-arte resultados em várias tarefas. Aprendizagem profunda tem sido caracterizada como uma palavra-chave , ou uma rebranding de redes neurais . A aprendizagem profunda é caracterizada como uma classe de algoritmos de aprendizagem de máquina que usam uma cascata de muitas camadas de unidades de processamento não-lineares para extração e transformação de características. Cada camada sucessiva usa a saída da camada anterior como entrada. Os algoritmos podem ser supervisionados ou não supervisionados e as aplicações incluem análise de padrões (não supervisionada) e classificação (supervisionada). baseiam-se na aprendizagem (não supervisionada) de múltiplos níveis de recursos ou representações dos dados. Recursos de nível superior são derivados de recursos de nível inferior para formar uma representação hierárquica. São parte do campo mais amplo de aprendizado de aprendizagem de dados. Aprender múltiplos níveis de representações que correspondem a diferentes níveis de abstração;Os níveis formam uma hierarquia de conceitos. Essas definições têm em comum múltiplas camadas de unidades de processamento não-lineares e a aprendizagem supervisionada ou não supervisionada de representações de recursos em cada camada, com as camadas formando uma hierarquia de baixo nível para características de alto nível. A composição de uma camada de unidades de processamento não-lineares usadas em um algoritmo de aprendizado profundo depende do problema a ser resolvido. As camadas que foram usadas na aprendizagem profunda incluem camadas escondidas de uma rede neural artificial e conjuntos de fórmulas proposicionais complicadas. Eles também podem incluir variáveis latentes organizadas em camadas-sábias em modelos generativos profundos, como os nós em Deep Belief Networks e Deep Boltzmann Machines. Algoritmos de aprendizado profundo transformam suas entradas através de mais camadas do que algoritmos de aprendizagem superficial. Em cada camada, o sinal é transformado por uma unidade de processamento, como um neurônio artificial, cujos parâmetros são "aprendidos" através do treinamento. Uma cadeia de transformações de entrada para saída é um caminho de atribuição de crédito (CAP). CAPs descreve conexões potencialmente causais entre entrada e saída e pode variar em comprimento - para uma rede neural feedforward, a profundidade dos CAPs (assim da rede) é o número de camadas ocultas mais um (como a camada de saída também é parametrizada) Mas para redes neuronais recorrentes , nas quais um sinal pode se propagar através de uma camada mais de uma vez, o CAP é potencialmente ilimitado de comprimento. Não existe um limite universalmente acordado de profundidade dividindo a aprendizagem superficial da aprendizagem profunda, mas a maioria dos pesquisadores concorda que a aprendizagem profunda tem múltiplas camadas não- lineares (CAP> 2) e Juergen Schmidhuber considera que CAP> 10 é uma aprendizagem muito profunda. Conceitos fundamentais Os algoritmos de aprendizagem profunda são baseados em representações distribuídas. A suposição subjacente por trás das representações distribuídas é que os dados observados são gerados pelas interações de fatores organizados em camadas. A aprendizagem profunda acrescenta a suposição de que essas camadas de fatores correspondem a níveis de abstração ou composição. Vários números de camadas e tamanhos de camadas podem ser usados para fornecer diferentes quantidades de abstração. A aprendizagem profunda explora essa idéia de fatores explicativos hierárquicos, onde os conceitos de nível mais alto, mais abstratos, são aprendidos com os de nível inferior. Essas arquiteturas são muitas vezes construídos com um ganancioso método camada por camada. Aprendizagem profunda ajuda a separar essas abstrações e escolher quais recursos são úteis para a aprendizagem. Para as tarefas de aprendizagem supervisionadas , os métodos de aprendizagem profunda obvêm a engenharia das características , traduzindo os dados em representações intermediárias compactas semelhantes aos componentes principais e derivando estruturas em camadas que removem a redundância na representação. Muitos algoritmos de aprendizagem profunda são aplicados a tarefas de aprendizagem não supervisionadas . Este é um benefício importante porque os dados não marcados são geralmente mais abundantes do que os dados rotulados. Exemplos de estruturas profundas que podem ser treinadas de forma não supervisionada são os compressores de história neural e as redes de crenças profundas . Interpretações As redes neurais profundas são geralmente interpretadas em termos de: Teorema de aproximação universal ou inferência probabilística . Interpretação do teorema da aproximação universal O teorema da aproximação universal refere-se à capacidade das redes neurais feedforward com uma única camada oculta de tamanho finito para aproximar funções contínuas . Em 1989, a primeira prova foi publicado por George Cybenko para sigmóide funções de ativação e foi generalizada para alimentar-forward arquiteturas multi-camada em 1991 por Kurt Hornik. Interpretação probabilística O probabilística interpretação deriva do campo da aprendizagem de máquina . Possui inferência, , bem como os de optimizaçãoconceitos de formação e de testes relacionados com o encaixe e generalização respectivamente. Mais especificamente, a interpretação probabilística considera a não linearidade de ativação como uma função de distribuição cumulativa . Ver Rede de crenças profundas . A interpretação probabilística levou à introdução do abandono como regularizador em redes neurais. A interpretação probabilística foi introduzida e popularizada por Geoff Hinton , Yoshua Bengio , Yann LeCun e Juergen Schmidhuber . Arquiteturas de redes neurais profundas Há um grande número de variantes de arquiteturas profundas. A maioria deles é ramificada a partir de algumas arquiteturas originais pai. Nem sempre é possível comparar o desempenho de várias arquiteturas em conjunto, porque elas não são todas avaliadas nos mesmos conjuntos de dados. A aprendizagem profunda é um campo em rápido crescimento, e novas arquiteturas, variantes ou algoritmos aparecem a cada poucas semanas. Breve discussão de redes neurais profundas Uma rede neural profunda (DNN) é uma rede neural artificial (ANN) com múltiplas camadas ocultas de unidades entre as camadas de entrada e saída. Semelhantes a ANNs rasas, DNNs podem modelar relações não-lineares complexas. As arquiteturas DNN, por exemplo, para a detecção e análise de objetos , geram modelos de composição onde o objeto é expresso como uma composição em camadas de primitivas de imagem. As camadas extras permitir composição dos recursos de camadas mais baixas, dando o potencial da modelagem de dados complexos com menos unidades do que uma rede rasa semelhante realizando. DNNs são normalmente concebidos como feedforward redes, mas a pesquisa aplicada com muito sucesso as redes neurais recorrentes , especialmente LSTM, para aplicações tais como linguagem de modelagem . redes neurais profundas convolucionais (RNCs) são usados em visão por computador, onde o seu êxito é bem documentada. As CNNs também foram aplicadas à modelagem acústica para reconhecimento automático de fala (ASR), onde mostraram sucesso em relação aos modelos anteriores. Para a simplicidade, um olhar no treinamento DNNs é dado aqui. Backpropagation Um DNN pode ser discriminadamente treinado com o algoritmo padrão backpropagation. De acordo com várias fontes, fundamentos de backpropagation contínuo foram derivados no contexto da teoria de controle por Henry J. Kelley em 1960 e por Arthur E. Bryson em 1961, Utilizando os princípios da programação dinâmica . Em 1962, Stuart Dreyfus publicou uma derivação mais simples baseada apenas na regra da cadeia . Vapnik cita a referência em seu livro em máquinas do vetor da sustentação . Arthur E. Bryson e Yu-Chi Ho descreveu-o como um método de otimização do sistema dinâmico multi-estágio em 1969. Em 1970, Seppo LINNAINMAA finalmente publicado o método geral para diferenciação automática (AD) de redes conectadas discretos de aninhados diferenciáveis funções. Isto corresponde à versão moderna de backpropagation que é eficiente mesmo quando as redes são escassas. Em 1973, Stuart Dreyfus usou backpropagation para adaptar parâmetros de controladores em proporção aos gradientes de erro. Em 1974, Paul Werbos mencionou a possibilidade de aplicar este princípio para redes neurais artificiais , e em 1982, ele aplicou o método AD de LINNAINMAA de redes neurais na maneira que é amplamente utilizado hoje. Em 1986, David E. Rumelhart , Geoffrey E. Hinton e Ronald J. Williams mostrou através de experimentos de computador que este método pode gerar representações internas úteis de dados de entrada em camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um concurso internacional de reconhecimento de padrões através de backpropagation. Paul Werbos mencionou a possibilidade de aplicar este princípio a redes neurais artificiais , e em 1982, aplicou o método AD de Linnainmaa às redes neurais da maneira que é amplamente utilizada hoje em dia. Em 1986, David E. Rumelhart , Geoffrey E. Hinton e Ronald J. Williams mostrou através de experimentos de computador que este método pode gerar representações internas úteis de dados de entrada em camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um concurso internacional de reconhecimento de padrões através de backpropagation. Paul Werbos mencionou a possibilidade de aplicar este princípio a redes neurais artificiais , e em 1982, aplicou o método AD de Linnainmaa às redes neurais da maneira que é amplamente utilizada hoje em dia. Em 1986, David E. Rumelhart , Geoffrey E. Hinton e Ronald J. Williams mostrou através de experimentos de computador que este método pode gerar representações internas úteis de dados de entrada em camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um concurso internacional de reconhecimento de padrões através de backpropagation. Ele aplicou o método AD de Linnainmaa às redes neurais da maneira que é amplamente usado hoje. Em 1986, David E. Rumelhart , Geoffrey E. Hinton e Ronald J. Williams mostrou através de experimentos de computador que este método pode gerar representações internas úteis de dados de entrada em camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um concurso internacional de reconhecimento de padrões através de backpropagation. Ele aplicou o método AD de Linnainmaa às redes neurais da maneira que é amplamente usado hoje. Em 1986, David E. Rumelhart , Geoffrey E. Hinton e Ronald J. Williams mostrou através de experimentos de computador que este método pode gerar representações internas úteis de dados de entrada em camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um concurso internacional de reconhecimento de padrões através de backpropagation. Hinton e Ronald J. Williams mostraram através de experimentos computadorizados que esse método pode gerar representações internas úteis de dados de entrada em camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um concurso internacional de reconhecimento de padrões através de backpropagation. Hinton e Ronald J. Williams mostraram através de experimentos computadorizados que esse método pode gerar representações internas úteis de dados de entrada em camadas ocultas de redes neurais. Em 1993, Eric A. Wan foi o primeiro a ganhar um concurso internacional de reconhecimento de padrões através de backpropagation. As atualizações de peso de backpropagation podem ser feitas através de descida de gradiente estocástica usando a seguinte equação: Aqui, É a taxa de aprendizagem, É a função de custo eUm termo estocástico. A escolha da função de custo depende de fatores como o tipo de aprendizagem (supervisionado, não supervisionado, reforço , etc.) ea função de ativação . Por exemplo, ao realizar aprendizado supervisionado em uma classificação multiclasse problema, escolhas comuns para a função de ativação e função de custo são o softmax função e entropia cruzada função, respectivamente. A função softmax é definida como Onde Representa a probabilidade de classe (saída da unidade ) E e Representam a entrada total para as unidades e Do mesmo nível, respectivamente. A entropia cruzada é definida como Onde Representa a probabilidade alvo para a unidade de saída e É a saída de probabilidade para Após a aplicação da função de ativação. Estes podem ser usados para a saída de caixas de delimitação de objeto na forma de uma máscara binária. Eles também são usados para a regressão multi-escala para aumentar a precisão de localização. A regressão baseada em DNN pode aprender características que capturam informações geométricas além de serem um bom classificador. Eles removem a limitação de projetar um modelo que irá capturar partes e suas relações explicitamente. Isso ajuda a aprender uma grande variedade de objetos. O modeloconsiste em múltiplas camadas, cada uma das quais possui uma unidade linear rectificada para transformação não-linear. Algumas camadas são convolucionais, enquanto outras são totalmente conectadas. Cada camada convolucional tem um pooling máximo adicional. A rede é treinada para minimizar o erro L2 para prever a máscara abrangendo todo o conjunto de treinamento contendo caixas delimitadoras representadas como máscaras. Problemas com redes neurais profundas Tal como acontece com RNAs, muitas questões podem surgir com DNNs se eles são nativamente treinados. Dois problemas comuns são sobrecarregar e tempo de computação. DNNs são propensos a overfitting por causa das camadas adicionadas de abstração, que lhes permitem modelar dependências raras nos dados de treinamento. Métodos de regularização , como a poda de unidades de Ivakhnenko ou o decaimento do peso (-regularization) ou dispersão (regularização) pode ser aplicada durante o treino para ajudar a combater a superexposição. Um método de regularização mais recente aplicado aos DNNs é a regularização de abandono . No abandono, algumas unidades são omitidas aleatoriamente das camadas ocultas durante o treino. Isso ajuda a quebrar as raras dependências que podem ocorrer nos dados de treinamento. O método dominante para o treinamento destas estruturas foi o treinamento de correção de erros (como backpropagation com descida de gradiente ), devido à sua facilidade de implementação e sua tendência a convergir para melhor optima local do que outros métodos de treinamento . No entanto, estes métodos podem ser computacionalmente caros, especialmente para DNNs. Há muitos parâmetros de treinamento a serem considerados com um DNN, como o tamanho (número de camadas e número de unidades por camada), a taxa de aprendizado e pesos iniciais. Varrer o espaço de parâmetros para parâmetros ótimos pode não ser viável devido ao custo no tempo e recursos computacionais. Vários 'truques' Tais como o uso de mini-loteamento (computação do gradiente em vários exemplos de treinamento ao mesmo tempo em vez de exemplos individuais) foram mostrados para acelerar a computação. A grande taxa de processamento de GPUs produziu acelerações significativas no treinamento, devido à matriz e vetoriais computacionais necessários para serem adequadas para GPUs. alternativas radicais para Retropropagação como extremo Aprendizagem Machines , "No-prop" redes, treinamento sem retrocesso, "sem peso" redes, e não- conexionistas redes neurais estão ganhando atenção . A grande taxa de processamento de GPUs produziu acelerações significativas no treinamento, devido à matriz e vetoriais computacionais necessários para serem adequadas para GPUs. alternativas radicais para Retropropagação como extremo Aprendizagem Machines , "No-prop" redes, treinamento sem retrocesso, "sem peso" redes, e não-conexionistas redes neurais estão ganhando atenção . A grande taxa de processamento de GPUs tem produzido velocidades significativas no treinamento, devido à matriz e computações vetoriais necessárias para serem adequadas para GPUs. alternativas radicais para Retropropagação como extremo Aprendizagem Machines , "No-prop" redes, treinamento sem retrocesso, "sem peso" redes, e não-conexionistas redes neurais estão ganhando atenção . Primeiras redes de aprendizagem profunda de 1965: GMDH De acordo com uma pesquisa histórica, as primeiras redes de aprendizagem profunda funcionais com muitas camadas, foram publicadas por Alexey Grigorevich Ivakhnenko e VG Lapa em 1965. O algoritmo de aprendizado foi chamado o método de grupo de Manipulação de dados ou GMDH. O GMDH possui otimização estrutural e paramétrica totalmente automática de modelos. As funções de ativação dos nós de rede são polinômios de Kolmogorov-Gabor que permitem adições e multiplicações. O trabalho de 1971 de Ivakhnenko descreve o aprendizado de um perceptron multicamada de feedforward profundo com oito camadas, já muito mais profundo do que muitas redes posteriores. A rede de aprendizagem supervisionada é crescida camada por camada, Onde cada camada é treinada por análise de regressão . De tempos em tempos neurônios inúteis são detectados usando um conjunto de validação, e podados através de regularização . O tamanho ea profundidade da rede resultante depende do problema. Variantes deste método ainda estão sendo usadas hoje. Redes neurais convolucionais CNNs se tornaram o método de escolha para o processamento visual e outros dados bidimensionais. A CNN é composto por um ou mais convolucionais camadas com camadas totalmente conectados (correspondentes aqueles em redes neurais artificiais típicos) no topo. Ele também usa pesos vinculados e camadas de agrupamento. Em particular, max-pooling é freqüentemente usado na arquitetura convolucional de Fukushima. Esta arquitetura permite CNNs para tirar proveito da estrutura 2D de dados de entrada. Em comparação com outras arquiteturas profundas, redes convolucionais neurais têm mostrado resultados superiores em ambas as aplicações de imagem e fala. Eles também podem ser treinados com backpropagation padrão. CNNs são mais fáceis de treinar do que outros regular, profundo, Feed-forward neural redes e têm muitos parâmetros menos para estimar, tornando-se uma arquitetura altamente atraente para usar. Exemplos de aplicações em Computer Vision incluem DeepDream . Veja o artigo principal sobre redes neurais convolucionais para inúmeras referências adicionais. Compressor de história neural O problema de gradiente de gradiente de diferenciação ou retropropagação automática em redes neurais foi parcialmente superado em 1992 por um modelo generativo precoce denominado compressor de história neural, implementado como uma pilha não supervisionada de redes neurais recorrentes (RNNs). O RNN no nível de entrada aprende a prever sua próxima entrada a partir do histórico de entrada anterior. Somente entradas imprevisíveis de alguma RNN na hierarquia tornam- se entradas para o próximo nível superior RNN, que portanto recompõe seu estado interno apenas raramente. Cada RNN de nível superior aprende assim uma representação comprimida da informação na RNN abaixo. Isto é feito de tal modo que a sequência de entrada pode ser reconstruída com precisão a partir da representação de sequência ao nível mais elevado. O sistema efetivamente minimiza o comprimento da descrição ou o logaritmo negativo da probabilidade dos dados. Se houver muita previsibilidade aprendível na sequência de dados de entrada, então o RNN de nível mais alto pode usar o aprendizado supervisionado para classificar facilmente sequências profundas com intervalos de tempo muito longos entre eventos importantes. Em 1993, tal sistema já resolveu uma tarefa de "Aprendizagem Muito Profunda" que requer mais de 1000 camadas subseqüentes em uma RNN desdobrada no tempo. Se houver muita previsibilidade aprendível na sequência de dados de entrada, então o RNN de nível mais alto pode usar o aprendizado supervisionado para classificar facilmente sequências profundas com intervalos de tempo muito longos entre eventos importantes. Em 1993, tal sistema já resolveu uma tarefa de "Aprendizagem Muito Profunda" que requer mais de 1000 camadas subseqüentes em uma RNN desdobrada no tempo. [32] [8] Se houver muita previsibilidade aprendível na sequência de dados de entrada, então o RNN de nível mais alto pode usar o aprendizado supervisionado para classificar facilmente sequências profundas com intervalos de tempo muito longos entre eventos importantes. Em 1993, tal sistema já resolveu uma tarefa de "Aprendizagem Muito Profunda" que requer mais de 1000 camadas subseqüentes em uma RNN desdobrada no tempo. Também é possível destilar toda a hierarquia RNN em apenas dois RNNs chamados de "consciente" chunker (nível superior) eo "subconsciente" automatizador (nível inferior). [15] Uma vez queo chunker aprendeu a prever e a comprimir entradas que ainda são imprevisíveis pelo automatizador, o automatizador é forçado na próxima fase de aprendizagem a prever ou a imitar através de unidades adicionais especiais as unidades ocultas do chunker que muda mais lentamente. Isto torna mais fácil para o automatizador aprender as memórias adequadas, raramente mudando em intervalos de tempo muito longos. Isso, por sua vez, ajuda o automatizador a tornar previsíveis muitas das suas entradas, uma vez imprevisíveis, de modo que o chunker possa se concentrar nos demais eventos ainda imprevisíveis, para comprimir ainda mais os dados. Redes neurais recursivas Uma rede neuronal recursiva é criada aplicando o mesmo conjunto de pesos recursivamente sobre uma estrutura diferenciável de tipo gráfico, atravessando a estrutura em ordem topológica . Tais redes são tipicamente também treinadas pelo modo inverso de diferenciação automática . Eles foram introduzidos para aprender representação distribuída de estrutura, como termos lógicos . Um caso especial de redes neurais recursivas é a própria RNN cuja estrutura corresponde a uma cadeia linear. As redes neurais recursivas têm sido aplicadas ao processamento da linguagem natural . O recursiva Neural Tensor de rede usa uma função de composição à base tensor para todos nós na árvore. Longa memória de curto prazo Numerosos pesquisadores agora usam variantes de uma RNN de aprendizagem profunda chamada a rede de memória de curto prazo (LSTM) publicada por Hochreiter & Schmidhuber em 1997. É um sistema que, ao contrário dos RNNs tradicionais, não tem o problema do gradiente de fuga . O LSTM é normalmente aumentado por portões recorrentes chamados de portas de esquecimento. RNNs do LSTM evitam que erros retropropagados desapareçam ou explodam. Em vez disso, os erros podem fluir para trás através de um número ilimitado de camadas virtuais em RNN LSTM desdobrado no espaço. Isto é, o LSTM pode aprender tarefas de "Aprendizagem Muito Profunda" que exigem lembranças de eventos que aconteceram milhares ou mesmo milhões de passos de tempo discretos. Podem ser desenvolvidas topologias LSTM específicas para cada problema. O LSTM funciona mesmo quando há longos atrasos, e pode tratar sinais que têm uma mistura de componentes de baixa e alta freqüência. Hoje, muitas aplicações usam pilhas de RNN LSTM e treinam-nas por Connectionist Temporal Classification (CTC) para encontrar uma matriz de pesos RNN que maximize a probabilidade das seqüências de rótulos em um conjunto de treinamento, dadas as correspondentes sequências de entrada. O CTC consegue o alinhamento eo reconhecimento. Em 2009, LSTM treinado pelo CTC foi o primeiro RNN a ganhar concursos de reconhecimento de padrões, quando ganhou várias competições em reconhecimento de escrita manual . Já em 2003, o LSTM começou a se tornar competitivo com os tradicionais reconhecedores de fala em certas tarefas. Em 2007, a combinação com o CTC obteve bons resultados em dados de fala. [54] Desde então, Essa abordagem revolucionou o reconhecimento de fala . Em 2014, o gigante chinês de pesquisa Baidu usou RNNs treinados pelo CTC para quebrar o benchmark de reconhecimento de fala do Switchboard Hub5'00, sem usar qualquer método tradicional de processamento de fala. LSTM também melhorou o reconhecimento de voz de grande vocabulário, síntese de text-to-speech, também para Google Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do Google Voice para bilhões de usuários de smartphones. [55] Em 2014, o gigante chinês de pesquisa Baidu usou RNNs treinados pelo CTC para quebrar o benchmark de reconhecimento de fala do Switchboard Hub5'00, sem usar qualquer método tradicional de processamento de fala. LSTM também melhorou o reconhecimento de voz de grande vocabulário, síntese de text-to-speech, também para Google Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do Google Voice para bilhões de usuários de smartphones. Em 2014, o gigante chinês de pesquisa Baidu usou RNNs treinados pelo CTC para quebrar o benchmark de reconhecimento de fala do Switchboard Hub5'00, sem usar qualquer método tradicional de processamento de fala. LSTM também melhorou o reconhecimento de voz de grande vocabulário, síntese de text-to-speech, [138] também para Google Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do Google Voice para bilhões de usuários de smartphones. O gigante chinês de pesquisa Baidu usou RNNs treinados pelo CTC para quebrar o benchmark de reconhecimento de fala do Switchboard Hub5'00, sem usar qualquer método tradicional de processamento de fala. LSTM também melhorou o reconhecimento de voz de grande vocabulário, síntese de text-to-speech, também para Google Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do Google Voice para bilhões de usuários de smartphones. O gigante chinês de pesquisa Baidu usou RNNs treinados pelo CTC para quebrar o benchmark de reconhecimento de fala do Switchboard Hub5'00, sem usar qualquer método tradicional de processamento de fala. LSTM também melhorou o reconhecimento de voz de grande vocabulário, síntese de text-to-speech, também para Google Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do Google Voice para bilhões de usuários de smartphones. Sem usar qualquer método tradicional de processamento de fala. LSTM também melhorou o reconhecimento de voz de grande vocabulário, síntese de text-to-speech, também para Google Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do Google Voice para bilhões de usuários de smartphones. [55] Sem usar qualquer método tradicional de processamento de fala. LSTM também melhorou o reconhecimento de voz de grande vocabulário, síntese de text-to-speech, também para Google Android, e cabeças de fala Photo-real. Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do Google Voice para bilhões de usuários de smartphones. e cabeças falantes foto-real. Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do Google Voice para bilhões de usuários de smartphones. e cabeças falantes foto-real. Em 2015, o reconhecimento de voz do Google teria experimentado um salto de desempenho dramático de 49% através de LSTM treinado pelo CTC, que agora está disponível através do Google Voice para bilhões de usuários de smartphones. LSTM também se tornou muito popular no campo de processamento de linguagem natural . Ao contrário dos modelos anteriores baseados em HMMs e conceitos similares, o LSTM pode aprender a reconhecer linguagens sensíveis ao contexto . [106] LSTM melhorou tradução automática, Modeling Language [108] e Multilingual Processamento de Linguagem. O LSTM combinado com Redes NeuraisConvolucionais (CNNs) também melhorou o subtítulo automático de imagens e uma infinidade de outras aplicações. Redes de crenças profundas Uma máquina Boltzmann restrita (RBM) com unidades visíveis e ocultas totalmente conectadas. Observe que não há conexões ocultas-ocultas ou visíveis-visíveis. Uma rede de crenças profundas (DBN) é um modelo probabilístico e generativo composto por múltiplas camadas de unidades ocultas. Pode ser considerada uma composição de simples módulos de aprendizagem que compõem cada camada. Um DBN pode ser usado para pré-treinar generativamente um DNN usando os pesos DBN aprendidos como os pesos DNN iniciais. Podem então ser aplicados back-propagation ou outros algoritmos discriminativos para ajuste fino destes pesos. Isso é particularmente útil quando há poucos dados de treinamento disponíveis, pois pesos mal inicializados podem dificultar significativamente o desempenho do modelo aprendido. Esses pesos pré-treinados estão em uma região do espaço de peso que está mais próxima dos pesos ótimos do que os pesos iniciais escolhidos aleatoriamente. Isso permite uma modelagem melhorada e uma convergência mais rápida da fase de ajuste fino. Um DBN pode ser eficientemente treinado de forma não supervisionada, camada a camada, onde as camadas são tipicamente feitas de máquinas Boltzmann restritas (RBM). Um RBM é um modelo baseado na energia generativo não dirigido , com uma camada de entrada "visível" e uma camada oculta, e conexões entre as camadas, mas não dentro das camadas. O método de treinamento para RBMs proposto por Geoffrey Hinton para uso com formação de "Produto de Expert" modelos é chamado de divergência contrastiva (CD). CD fornece uma aproximação ao método de máxima verossimilhança que idealmente seria aplicado para aprender os pesos do RBM. Na formação de um único RBM,. Aqui, É a probabilidade de um vetor visível, que é dado por . É a função de partição (usada para normalizar) e É a função de energia atribuída ao estado da rede. Uma energia mais baixa indica que a rede está numa configuração mais "desejável". O gradiente Tem a forma simples Onde Representam médias em relação à distribuição . A questão surge na amostragemPorque isso exige executar alternando Gibbs amostragem por um longo tempo. CD substitui esta etapa executando alternando a amostragem de Gibbs para Passos (valores de Ter empiricamente demonstrado ter um bom desempenho). Depois de Etapas, os dados são amostrados e essa amostra é usada no lugar . O procedimento do CD funciona da seguinte maneira: 1. Inicializar as unidades visíveis para um vetor de treinamento. 2. Atualize as unidades ocultas em paralelo, dadas as unidades visíveis: . É a função sigmóide e É o viés de . 3. Atualize as unidades visíveis em paralelo, dadas as unidades ocultas: . É o viés de . Isso é chamado de "reconstrução". 4. Atualize as unidades ocultas em paralelo dado as unidades visíveis reconstruídas usando a mesma equação que na etapa 2. 5. Execute a atualização de peso: . Uma vez que um RBM é treinado, outro RBM é "empilhado" sobre ele, tomando sua entrada da camada final já treinada. A nova camada visível é inicializada para um vetor de treinamento e os valores para as unidades nas camadas já treinadas são atribuídos usando os pesos e vieses atuais. O novo RBM é então treinado com o procedimento acima. Todo este processo é repetido até que seja atingido algum critério de paragem desejado. Embora a aproximação do CD à máxima verossimilhança seja muito grosseira (mostrou não seguir o gradiente de qualquer função), tem sido empiricamente demonstrado ser eficaz no treinamento de arquiteturas profundas. Convolutional deep belief networks Uma recente conquista no aprendizado profundo é o uso de redes convolucionais de crenças profundas (CDBN). Os CDBNs têm estrutura muito semelhante a uma rede convolucional neural e são treinados de forma semelhante a redes de crenças profundas . Portanto, eles exploram a estrutura 2D de imagens, como CNNs fazer, e fazer uso de pré-treinamento como redes de crenças profundas . Eles fornecem uma estrutura genérica que pode ser usada em muitas tarefas de processamento de imagem e sinal. Recentemente, muitos resultados de benchmark em conjuntos de dados de imagem padrão como CIFAR foram obtidos usando CDBNs. Armazenamento de memória grande e redes neurais de recuperação As grandes redes neuronais de armazenamento e recuperação de memória (LAMSTAR) são redes neurais de aprendizagem profunda e rápida de muitas camadas que podem usar muitos filtros simultaneamente. Estes filtros podem ser não lineares, estocásticos, lógicos, não-estacionários ou mesmo não-analíticos. Eles são biologicamente motivados e continuamente aprendendo. Uma rede neural LAMSTAR pode servir como uma rede neuronal dinâmica em domínio espacial ou temporal ou em ambos. A sua velocidade é proporcionada por pesos de ligação Hebbian (Capítulo 9 de D. Graupe, 2013 ), que servem para integrar os vários filtros normalmente diferentes (funções de pré-processamento) em suas várias camadas e para classificar dinamicamente o significado do Várias camadas e funções relativas a uma dada tarefa de aprendizagem profunda. Isto imita imensamente a aprendizagem biológica que integra saídas vários pré-processadores ( cóclea , retina , etc. ) e córtices ( auditivo , visual , etc. ) e suas várias regiões. A sua capacidade de aprendizagem profunda é ainda melhorada através da utilização de inibição, Correlação e pela sua capacidade de lidar com dados incompletos, ou "perdido" neurônios ou camadas, mesmo no meio de uma tarefa. Além disso, é totalmente transparente devido aos seus pesos de ligação. Os pesos de ligação também permitem a determinação dinâmica de inovação e redundância, e facilitam a classificação de camadas, de filtros ou de neurônios individuais em relação a uma tarefa. LAMSTAR foi aplicada a muitos médicos e as previsões financeiras (ver Graupe de 2013 Seção 9C), filtragem adaptativa de expressão ruidosa do ruído desconhecido, reconhecimento de imagem estática (Graupe, 2013 Seção 9D), reconhecimento de imagens de vídeo, segurança de software, controle adaptativo de sistemas não-lineares, e outros. LAMSTAR teve uma velocidade de computação muito mais rápida e um erro um pouco menor do que uma rede neural convolucional baseada em filtros de função ReLU e poolamento máximo, em um estudo comparativo de reconhecimento de caracteres. Essas aplicações demonstram se aprofundar em aspectos dos dados que estão escondidos de redes de aprendizagem superficial ou mesmo dos sentidos humanos (olho, orelha), como nos casos de previsão do início de eventos de apneia do sono , de um eletrocardiograma de um feto Como registrado a partir de eletrodos de superfície da pele colocados no abdômen da mãe no início da gestação da predição financeira (Seção 9C em Graupe, 2013), ou na filtragem cega de fala ruidosa. LAMSTAR foi proposto em 1996 ( A Patente US 5 920 852 A ) e foi ainda desenvolvido por D Graupe e H Kordylewski 1997-2002. Uma versão modificada, conhecida como LAMSTAR 2, foi desenvolvida por NC Schneider e D Graupe em 2008. Máquinas Profundas de Boltzmann Uma máquina de Boltzmann profunda (DBM) é um tipo de binário pares campo de Markov aleatória ( não direcionado probabilística modelo gráfico ) com múltiplas camadas de escondidas variáveis aleatórias . É uma rede de unidades binárias estocásticas acopladas simetricamente . Compreende um conjunto de unidades visíveis, E uma série de camadas de unidades ocultas . Não há nenhuma conexão entre unidades da mesma camada (como RBM ). Para o DBM , a probabilidade atribuída ao vetor ν é onde são o conjunto de unidades ocultas, e são os parâmetros do modelo, representando interações visível-escondidas e escondidas-escondidas. E se e A rede é a conhecida máquina Boltzmann restrita. As interações são simétricas porque os links não são direcionados. Por outro lado, em uma rede profunda crença (DBN), apenas as duas primeiras camadas formam uma máquina de Boltzmann restrito (que é um não-direcionado modelo gráfico ), mas camadas mais baixas formam um modelo generativo dirigido. Como os DBNs, os DBMs podem aprender representações internas complexas e abstratas da entrada em tarefas como reconhecimento de objetos ou de fala , usando dados limitados e marcados para ajustar as representações construídas usando uma grande quantidade de dados de entrada sensoriais não marcados. No entanto, ao contrário dos DBNs e redes neurais convolucionais profundas, eles adotam o procedimento de inferência e treinamento em ambas as direções, passando de baixo para cima e de cima para baixo, o que permite que os DBMs revelem melhor as representações das ambíguas e complexas estruturas de entrada. No entanto, a velocidade de DBMs limita seu desempenho e funcionalidade. Como a aprendizagem de máxima verossimilhança exata é intratável para DBMs, podemos realizar a aprendizagem aproximada de máxima verossimilhança. Outra opção é usar inferência de campo médio para estimar expectativas dependentes de dados e aproximar as estatísticas suficientes esperadas do modelo usando Monte Carlo de cadeia de Markov (MCMC) . [165] Esta inferência aproximada, que deve ser feita para cada entrada de teste, é cerca de 25 a 50 vezes mais lenta do que uma única passagem bottom-up em DBMs. Isso torna a otimização conjunta impraticável para grandes conjuntos de dados e restringe seriamente o uso de DBMs para tarefas como representação de recursos. Auto-encoders empilhados (de-noise) A idéia do encoder automático é motivada pelo conceito de uma boa representação. Por exemplo, para um classificador , uma boa representação pode ser definida como uma que irá produzir um melhor desempenho classificador. Um codificador é um mapeamento deterministaQue transforma um vetor de entrada x na representação oculta y , onde, É a matriz de peso e b é um vetor de desvio (polarização). Um decodificador mapeia volta a representação escondido y à entrada reconstruído z via. Todo o processo de codificação automática é comparar esta entrada reconstruída com o original e tentar minimizar este erro para tornar o valor reconstruído o mais próximo possível do original. Em empilhados encoders auto decodificador , a saída parcialmente corrompida é limpa (de-ruído). Essa idéia foi introduzida em 2010 por Vincent et al. com umaabordagem específica para uma boa representação, uma boa representação é aquela que pode ser obtida de forma robusta a partir de uma entrada corrompida e que será útil para recuperar a entrada limpa correspondente. Implícito nesta definição estão as seguintes idéias: As representações de alto nível são relativamente estáveis e robustas para a corrupção de insumos; É necessário extrair recursos que são úteis para a representação da distribuição de entrada. O algoritmo consiste em várias etapas; Começa por um mapeamento estocástico de para através , Este é o passo de corrupção. Então a entrada corrompida Passa por um processo de codificador automático básico e é mapeado para uma representação oculta . Desta representação oculta, podemos reconstruir. Na última etapa, um algoritmo de minimização é executado de forma a ter z o mais próximo possível da entrada não corrompida. O erro de reconstruçãoPode ser a perda de entropia cruzada com um descodificador afim-sigmóide, ou a perda de erro quadrático com um decodificador afim. A fim de fazer uma arquitetura profunda, codificadores de auto pilha um em cima do outro. Uma vez que a função de codificaçãoDo primeiro decodificador automático codificador é aprendido e usado para uncorrupt a entrada (entrada corrompida), podemos treinar o segundo nível. Uma vez treinado o codificador automático empilhado , sua saída pode ser usada como entrada para um algoritmo de aprendizado supervisionado, como um classificador de máquina de vetor de suporte ou uma regressão logística de múltiplas classes . Redes de empilhamento profundo Uma arquitetura profunda baseada em uma hierarquia de blocos de módulos de rede neural simplificada é uma rede convexa profunda, introduzida em 2011. Aqui, o problema de aprendizagem de pesos é formulado como um problema de otimização convexo com uma solução de forma fechada . Essa arquitetura também é chamada de uma rede de empilhamento profundo (DSN), enfatizando a similaridade do mecanismo com a generalização empilhada . Cada bloco DSN é um módulo simples que é fácil de treinar por si só de uma forma supervisionada sem back- propagation para os blocos inteiros. Como projetado por Deng e Dong, cada bloco consiste em um perceptron simplificado multi- camada (MLP) com uma única camada escondida . A camada oculta h tem unidades sigmoidais logísticas , ea camada de saída tem unidades lineares. As ligações entre estas camadas são representadas pela matriz de peso U; conexões de entrada-a-camada escondida têm matriz de pesos W . Os vetores de destino t formam as colunas da matriz T e os vetores de dados de entrada x formam as colunas da matriz X. A matriz de unidades ocultas é. Os módulos são treinados em ordem, de modo que pesos de camada inferior W são conhecidos em cada estágio. A função executa a operação sigmóide logística elemento-sábia. Cada bloco estima a mesma classe de etiqueta final y , e sua estimativa é concatenada com a entrada original X para formar a entrada expandida para o próximo bloco. Assim, a entrada para o primeiro bloco contém apenas os dados originais, enquanto a entrada dos blocos a jusante tem também a saída dos blocos precedentes. Em seguida, aprender a matriz de peso da camada superior U dado outros pesos na rede pode ser formulado como um problema de otimização convexa: Que tem uma solução de forma fechada. Ao contrário de outras arquiteturas profundas, como DBNs , o objetivo não é descobrir a representação de recurso transformada. A estrutura da hierarquia desse tipo de arquitetura torna a aprendizagem paralela direta, como um problema de otimização em modo batch. Em tarefas puramente discriminativas , os DSNs apresentam um desempenho melhor do que o DBN convencional . Tensor redes de empilhamento profundo Essa arquitetura é uma extensão de redes de empilhamento profundo (DSN). Ele melhora o DSN de duas maneiras importantes: ele usa informações de ordem superior de estatísticas de covariância e transforma o problema não-convexo de uma camada inferior para um sub-problema convexo de uma camada superior. Os TDSNs usam estatísticas de covariância dos dados usando um mapeamento bilinear de cada um de dois conjuntos distintos de unidades ocultas na mesma camada para as previsões, através de um tensor de terceira ordem . Enquanto paralelização e escalabilidade não são consideradas seriamente no convencionais DNNs , todo o aprendizado para DSN s e TDSN s é feito no modo de lote, para permitir a paralelização em um conjunto de CPU ou GPU nós. A paralelização permite dimensionar o projeto para arquiteturas e conjuntos de dados maiores (mais profundos). A arquitetura básica é adequada para diversas tarefas, como classificação e regressão . Spike-and-slab RBMs A necessidade de uma aprendizagem mais profunda com o valor real entradas, como em Gaussian restrito máquinas de Boltzmann, motiva a ponta-laje RBM ( ss MAE ), que modela entradas contínua de valor com estritamente binárias variáveis latentes . Semelhante ao básicos MAE e suas variantes, um ponto-e-laje RBM é um grafo bipartido , enquanto como GRBMs , as unidades visíveis (de entrada) são reais. A diferença está na camada oculta, onde cada unidade oculta tem uma variável de pico binário e uma variável de laje valor real. Um pico é uma massa discreta de probabilidade emzero, enquanto uma laje é uma densidade de mais de domínio contínuo; sua mistura forma um prior . Os termos vêm da literatura estatística. Uma extensão de ss RBM chamada μ-ss RBM fornece capacidade de modelagem extra usando termos adicionais na função de energia . Um destes termos permite que o modelo para formar uma distribuição condicional das variáveis pico por marginalizar as variáveis laje dada uma observação. Composto hierárquico-profundos modelos [ editar ] Os modelos hierárquico-profundos compostos compor redes profundas com modelos bayesianos não-paramétricos . Recursos podem ser aprendidas usando arquiteturas profundas, tais como DBNs , DBMS , codificadores de auto profunda, variantes convolucionais, ssRBMs, [180] redes de codificação de profundidade, [185] DBNs com escassa Recurso de aprendizagem , [186] redes neurais recursivas, DBNs condicionais, de-noise encoders automáticos. Isso proporciona uma melhor representação, permitindo uma aprendizagem mais rápida e uma classificação mais precisa com dados de alta dimensão. No entanto, essas arquiteturas são pobres na aprendizagem de novas classes com poucos exemplos, pois todas as unidades de rede estão envolvidas na representação da entrada (uma representação distribuída ) e devem ser ajustadas em conjunto (alto grau de liberdade ). Limitar o grau de liberdade reduz o número de parâmetros a aprender, facilitando a aprendizagem de novas classes a partir de poucos exemplos. Hierárquicos Bayesiana (HB) modelos permitem aprender com alguns exemplos, por exemplo para a visão de computador , estatísticas e ciência cognitiva . Porque todas as unidades de rede estão envolvidas na representação da entrada (uma representação distribuída ) e devem ser ajustadas em conjunto (alto grau de liberdade ). Limitar o grau de liberdade reduz o número de parâmetros a aprender, facilitando a aprendizagem de novas classes a partir de poucos exemplos. Hierárquicos Bayesiana (HB) modelos permitem aprender com alguns exemplos, por exemplo para a visão de computador , estatísticas e ciência cognitiva . Porque todas as unidades de rede estão envolvidas na representação da entrada (uma representação distribuída ) e devem ser ajustadas em conjunto (alto grau de liberdade ). Limitar o grau de liberdade reduz o número de parâmetros a aprender, facilitando a aprendizagem de novas classes a partir de poucos exemplos. Hierárquicos Bayesiana (HB) modelos permitem aprender com alguns exemplos, por exemplo para a visão de computador , estatísticas e ciência cognitiva . Limitar o grau de liberdade reduz o número de parâmetros a aprender, facilitando a aprendizagem de novas classes a partir de poucos exemplos. Hierárquicos Bayesiana (HB) modelos permitem aprender com alguns exemplos, por exemplo para a visão de computador , estatísticas e ciência cognitiva . Limitar o grau de liberdade reduz o número de parâmetros a aprender, facilitando a aprendizagem de novas classes a partir de poucos exemplos. Hierárquicos Bayesiana (HB) modelos permitem aprender com alguns exemplos, por exemplo para a visão de computador , estatísticas e ciência cognitiva . As arquiteturas Compound HD visam integrar características de HB e de redes profundas. A arquitetura HDP-DBM composta, um processo hierárquico de Dirichlet (HDP) como um modelo hierárquico, incorporado com arquitetura de DBM. É um modelo generativo completo , generalizado a partir de conceitos abstratos fluindo através das camadas do modelo, que é capaz de sintetizar novos exemplos em novas classes que parecem razoavelmente naturais . Todos os níveis são aprendidos em conjunto pela maximização de uma joint log-probabilidade de pontuação . Em um DBM com três camadas ocultas, a probabilidade de uma entrada visível ν é: Onde É o conjunto de unidades ocultas, e São os parâmetros do modelo, representando termos de interação simétrica visível-escondida e escondida-escondida. Depois que um modelo DBM é aprendido, temos um modelo não-direcionado que define a distribuição conjunta . Uma maneira de expressar o que foi aprendido é o modelo condicional E um termo anterior . Aqui Representa um modelo DBM condicional , que pode ser visto como um DBM de duas camadas, mas com os termos de polarização dados pelos estados de: Deep codificação redes Existem vantagens de um modelo que pode activamente actualizar-se a partir do contexto em dados. A rede de codificação profunda (DPCN) é um esquema de codificação preditiva onde informações top-down são usadas para empiricamente ajustar os priors necessários para um procedimento de inferência bottom-up por meio de um modelo generativo profundamente conectado localmente . Isso funciona, extraindo escassos recursos a partir de observações variantes no tempo usando um modelo dinâmico linear. Em seguida, uma estratégia de pooling é usada para aprender representações de recurso invariantes. Estas unidades compor para formar uma arquitetura de profundidade, e são treinados por gananciosos camada-wise aprendizado não supervisionado . A rede de codificação preditiva profunda (DPCN) prediz a representação da camada, usando uma abordagem de cima para baixo usando a informação na camada superior e dependências temporais dos estados anteriores. Os DPCNs podem ser estendidos para formar uma rede convolucional . Deep Q-redes Uma profunda Q-network (DQN) é um tipo de modelo de aprendizagem profunda desenvolvido no Google DeepMind que combina uma profunda rede convolucional neural com Q-learning , uma forma de aprendizado de reforço . Ao contrário dos agentes de aprendizado de reforço anteriores, os DQNs podem aprender diretamente de entradas sensoriais de alta dimensionalidade. Os resultados preliminares foram apresentados em 2014, com um artigo publicado em Fevereiro de 2015 na Nature A aplicação discutida neste artigo é limitada ao jogo Atari 2600 , embora tenha implicações para outras aplicações. No entanto, muito antes deste trabalho, houve uma série de modelos de aprendizagem de reforço que aplicam abordagens de aprendizagem profunda. Redes com estruturas de memória separadas Integrando memória externa com redes neurais artificiais data de pesquisa no início de representações distribuídas e Teuvo Kohonen 's mapas de auto-organização . Por exemplo, em memória distribuída esparsa ou memória temporal, hierárquico , os padrões codificados por redes neurais são usados como endereços de memória de conteúdo endereçável , com "neurônios" essencialmente servindo como endereço codificadores e decodificadores . No entanto, os primeiros controladores dessas memórias não eram diferenciáveis. Estruturas de memória diferenciáveis relacionadas a LSTM Além da longa memória de curto prazo (LSTM), outras abordagens dos anos 90 e 2000 também acrescentaram memória diferenciável a funções recorrentes. Por exemplo: Ações diferenciáveis push e pop para redes de memória alternativas chamadas de máquinas de pilha neural Redes de memória em que o armazenamento diferenciável externo da rede de controle está nos pesos rápidos de outra rede LSTM "esquecer os portões" Redes neuronais recorrentes auto-referenciais (RNNs) com unidades de saída especiais para endereçar e manipular rapidamente cada um dos pesos próprios da RNN de forma diferenciável (armazenamento interno) Aprendendo a transduzir com memória ilimitada Semântico hashing Abordagens que representam experiências anteriores diretamente e usam uma experiência semelhante para formar um modelo local são freqüentemente chamadas de vizinhos mais próximos ou métodos de k- vizinhos mais próximos . Mais recentemente, a aprendizagem profunda mostrou- se útil no hash semântico onde um modelo gráfico profundo , os vetores de contagem de palavras , obtidos a partir de um grande conjunto de documentos. Os documentos são mapeados para endereços de memória de tal formaque documentos semanticamente semelhantes estejam localizados em endereços próximos. Documentos semelhantes a um documento de consulta podem ser encontrados simplesmente acessando todos os endereços que diferem apenas por alguns bits do endereço do documento de consulta. Máquinas Neural de Turing Máquinas Neural Turing , desenvolvidos pela Google DeepMind , redes casal LSTM para recursos de memória externos, que podem interagir com por processos de atenção. O sistema combinado é análogo a uma máquina de Turing, mas é diferenciável de ponta a ponta, permitindo que ele seja eficientemente treinado por descida de gradiente . Os resultados preliminares demonstram que as máquinas neurais de Turing podem inferir algoritmos simples como copiar, ordenar e recordar associativo a partir de exemplos de entrada e saída. Redes de memória As redes de memória são outra extensão de redes neurais que incorporam memória de longo prazo , desenvolvida pela equipe de pesquisa do Facebook . A memória de longo prazo pode ser lida e escrita, com o objetivo de usá-lo para previsão. Estes modelos têm sido aplicados no contexto da resposta a perguntas (QA), onde a memória de longo prazo atua efetivamente como uma base de conhecimento (dinâmica) ea saída é uma resposta textual. Redes de ponteiros Redes neurais profundas podem ser potencialmente melhoradas se eles se aprofundarem e tiverem menos parâmetros, enquanto mantêm a capacitação. Enquanto a formação extremamente profundo (por exemplo, 1 milhão de camada profunda) redes neurais pode não ser exequível, da CPU arquiteturas -como tais como redes ponteiro e máquinas de acesso aleatório neurais desenvolvido pelo Google cerebrais pesquisadores superar essa limitação usando externo de memória de acesso aleatório , bem como a adição de outros componentes que normalmente pertencem a uma arquitetura de computador , tais como registros , ALU e ponteiros . Tais sistemas operam em vetores de distribuição de probabilidade armazenados em células de memória e registros. Assim, o modelo é totalmente diferenciável e treina de ponta a ponta. A característica-chave desses modelos é que a profundidade, o tamanho da memória de curto prazo eo número de parâmetros podem ser alterados independentemente - ao contrário de modelos como Long memória de curto prazo , cujo número de parâmetros cresce quadraticamente com o tamanho da memória. Redes encoder-decodificador Uma estrutura codificador-decodificador é uma estrutura baseada em redes neurais que visa mapear entrada altamente estruturada para saída altamente estruturada. Foi proposto recentemente no contexto da tradução automática , onde a entrada e a saída são sentenças escritas em duas línguas naturais. Nesse trabalho, uma LSTM rede recorrente neural (RNN) ou rede neural convolutional (CNN) foi usado como um codificador para resumir uma frase de origem, bem como o resumo foi decodificado usando uma rede neural recorrente condicional modelo de linguagem para produzir a tradução. [219] Todos estes sistemas têm os mesmos blocos de construção: RNNs e CNNs fechados, e mecanismos de atenção treinados. Outras arquiteturas Multilayer kernel machine As máquinas de kernel multicamadas (MKM) como introduzidas em são uma forma de aprender funções altamente não-lineares por aplicação iterativa de núcleos fracamente não-lineares. Eles usam a análise do componente principal do kernel (KPCA), em como método para a etapa de pré- treinamento gananciosa e não supervisionada da camada da arquitetura de aprendizagem profunda. Camada -th aprende a representação da camada anterior , Extraindo o Componente principal (PC) da camada de projecçãoSaída no domínio de recurso induzido pelo kernel. Por uma questão de redução da dimensionalidade da representação atualizada em cada camada, uma estratégia supervisionada é proposta para selecionar as melhores características informativas entre as características extraídas pelo KPCA. O processo é: Classificar o Recursos de acordo com suas informações mútuas com os rótulos de classe; Para diferentes valores de K e, Calcule a taxa de erro de classificação de um classificador K-NN mais próximo usando apenas oRecursos mais informativos em um conjunto de validação ; o valor de Com o qual o classificador atingiu a menor taxa de erro determina o número de características a reter. Existem algumas desvantagens na utilização do método KPCA como as células de construção de um MKM. Uma maneira mais direta de usar máquinas de kernel para aprendizagem profunda foi desenvolvida por pesquisadores da Microsoft para a compreensão da linguagem falada. A idéia principal é usar uma máquina do kernel para aproximar uma rede neural rasa com um número infinito de unidades escondidas, em seguida, usar o empilhamento para emendar a saída da máquina de kernel e a entrada em bruto na construção do próximo, maior nível da Máquina do kernel. O número de níveis na rede convexa profunda é um hiperparâmetro do sistema global, a ser determinado pela validação cruzada. Aplicações Reconhecimento automático de voz Artigo principal : Reconhecimento de fala Reconhecimento de fala foi revolucionada pela aprendizagem profunda, especialmente por Long memória de curto prazo (LSTM), uma rede de neurônios recorrentes publicado por Sepp Hochreiter & Jürgen Schmidhuber em 1997. RNNs LSTM contornar o problema gradiente desaparecendo e pode aprender "Very Deep Learning " que envolvem eventos de fala separados por milhares de passos de tempo discretos, onde um passo de tempo corresponde a cerca de 10 ms. Em 2003, o LSTM com portas de esquecimento tornou-se competitivo com reconhecedores de fala tradicionais em determinadas tarefas. Em 2007, O LSTM treinado pela Classificação Temporal Conexional (CTC) obteve excelentes resultados em certas aplicações, embora os computadores fossem muito mais lentos do que hoje. Em 2015, o reconhecimento de voz em grande escala do Google de repente quase dobrou seu desempenho através do LSTM treinado pelo CTC, agora disponível para todos os usuários de smartphones. Entretanto, o sucesso inicial da aprendizagem profunda no reconhecimento de fala foi baseado em tarefas TIMIT em pequena escala. Os resultados mostrados na tabela abaixo são para reconhecimento automático de fala no popular conjunto de dados TIMIT . Este é um conjunto de dados comum usado para avaliações iniciais de arquiteturas de aprendizagem profunda. O conjunto completo contém 630 alto-falantes de oito principais dialetos de Inglês americano, onde cada orador lê 10 frases. Seu tamanho pequeno permite que muitas configurações sejam tentadas eficazmente. Mais importante ainda, a tarefa TIMIT diz respeito ao reconhecimento da seqüência telefônica, que, ao contrário do reconhecimento de seqüência de palavras, permite muito fracos "modelos de linguagem" e, portanto, as fraquezas nos aspectos de modelagem acústica do reconhecimento de fala podem ser mais facilmente analisadas. Tal análise sobre TIMIT por Li Deng e colaboradores em torno de 2009-2010, contrastando os modelos GMM (e outros modelos generativos de fala) versus DNN, estimulou o investimento industrial inicial em aprendizagem profunda para o reconhecimento de fala de pequenas a grandes escalas ,levando eventualmente a um uso predominante e predominante nessa indústria. Essa análise foi feita com desempenho comparável (menos de 1,5% na taxa de erro) entre DNN discriminantes e modelos generativos. As taxas de erro listadas abaixo, incluindo estes resultados iniciais e medidas como porcentagem de taxas de erro de telefone (PER), foram resumidas ao longo de um período de tempo dos últimos 20 anos: Estimulou o investimento industrial precoce na aprendizagem profunda para o reconhecimento de fala de pequenas a grandes escalas, eventualmente levando a um uso dominante e dominante nessa indústria.Essa análise foi feita com desempenho comparável (menos de 1,5% na taxa de erro) entre DNN discriminantes e modelos generativos. As taxas de erro listadas abaixo, incluindo estes resultados iniciais e medidas como porcentagem de taxas de erro de telefone (PER), foram resumidas ao longo de um período de tempo dos últimos 20 anos: Estimulou o investimento industrial precoce na aprendizagem profunda para o reconhecimento de fala de pequenas a grandes escalas, eventualmente levando a um uso dominante e dominante nessa indústria. Essa análise foi feita com desempenho comparável (menos de 1,5% na taxa de erro) entre DNN discriminantes e modelos generativos. As taxas de erro listadas abaixo, incluindo estes resultados iniciais e medidas como porcentagem de taxas de erro de telefone (PER), foram resumidas ao longo de um período de tempo dos últimos 20 anos: Método PER (%) Randomly Initialized RNN 26,1 Trifólio Bayesiano GMM-HMM 25,6 Trajetória Oculta (Generative) Modelo 24,8 Monophone Randomly Initialized DNN 23,4 Monophone DBN-DNN 22,4 Triphone GMM-HMM com Treinamento BMMI 21,7 Monophone DBN-DNN no fbank 20,7 Convolucional DNN 20,0 Convolucional DNN w. Associação heterogênea 18,7 Ensemble DNN / CNN / RNN 18,2 LSTM bidirecional 17,9 Em 2010, os pesquisadores industriais aprofundaram o aprendizado profundo de TIMIT para o reconhecimento de voz de vocabulário grande, adotando grandes camadas de saída do DNN baseado em estados HMM dependentes do contexto construído por árvores de decisão . Revisões abrangentes deste desenvolvimento e do estado da arte a partir de outubro de 2014 são fornecidos no recente livro Springer da Microsoft Research. Um artigo anterior analisou os antecedentes do reconhecimento automático de fala eo impacto de vários paradigmas de aprendizado de máquina, incluindo o aprendizado profundo. Um princípio fundamental do aprendizado profundo é acabar com a engenharia de recursos feitos à mão e usar recursos brutos. Este princípio foi explorado pela primeira vez com sucesso na arquitetura da autoencoder profunda sobre o espectrograma "cru" ou recursos de filtro de banco lineares no SRI no final de 1990, e mais tarde na Microsoft, mostrando a sua superioridade sobre o Mel-cepstral Características que contêm alguns estágios de transformação fixa a partir de espectrogramas. As características verdadeiras "crus" da fala, formas de onda , têm sido mais recentemente mostradas para produzir excelentes resultados de reconhecimento de fala em maior escala. Desde a estréia inicial bem sucedida de DNNs para reconhecimento de alto-falante no final dos anos 1990 e reconhecimento de fala em torno de 2009-2011 e de LSTM em torno de 2003-2007, houve enormes avanços novos feitos. O progresso (e as orientações futuras) podem ser resumidos em oito grandes áreas: Ampliação / desativação e aceleração de treinamento e decodificação DNN; Treinamento discriminativo de sequências de DNNs; Processamento de recursos por modelos profundos com sólida compreensão dos mecanismos subjacentes; Adaptação de DNNs e de modelos profundos relacionados; Multi-tarefa e aprendizagem transferência por DNNs e modelos profundas relacionadas; Redes neurais de convolução e como projetá-las para explorar melhor o conhecimento do domínio da fala; Rede neural recorrente e suas variantes LSTM ricas; Outros tipos de modelos profundos, incluindo modelos baseados em tensores e modelos generativos / discriminativos profundos integrados. O reconhecimento automático de voz em grande escala é o primeiro e mais convincente caso de sucesso da aprendizagem profunda na história recente, abraçado tanto pela indústria como pela academia. Entre 2010 e 2014, as duas principais conferências sobre processamento de sinais e reconhecimento de fala, IEEE-ICASSP e Interspeech, têm visto um grande aumento no número de artigos aceitos em seus respectivos trabalhos de conferência anual sobre o tema da aprendizagem profunda para reconhecimento de fala. Mais importante ainda, todos os principais sistemas comerciais de reconhecimento de voz (por exemplo, Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, Baidu e pesquisa de voz iFlyTek e uma variedade de produtos de voz Nuance, etc.) Métodos de aprendizagem profunda. Veja também a recente entrevista da mídia com o CTO da Nuance Communications. Reconhecimento de imagem Um conjunto de avaliação comum para a classificação de imagem é o conjunto de dados do banco de dados MNIST . MNIST é composto de dígitos manuscritos e inclui 60.000 exemplos de treinamento e 10.000 exemplos de teste. Tal como com o TIMIT, o seu pequeno tamanho permite que várias configurações sejam testadas. Uma ampla lista de resultados sobre este conjunto pode ser encontrada em . O melhor resultado atual no MNIST é uma taxa de erro de 0,23%, obtida por Ciresan et al. Em 2012. De acordo com LeCun , no início dos anos 2000, em uma aplicação industrial, as CNNs já processavam cerca de 10% a 20% de todas as verificações feitas nos EUA no início dos anos 2000. O impacto adicional significativo da aprendizagem profunda no reconhecimento da imagem ou do objeto foi sentido nos anos 2011-2012. Embora CNNs treinados por backpropagation tinha sido em torno de décadas, e GPU implementações de NNs durante anos, incluindo CNNs, implementações rápidas de CNNs com max-pooling em GPUs no estilo de Dan Ciresan e colegas foram necessários para fazer um dente na visão por computador. Em 2011, esta abordagem conseguiu pela primeira vez um desempenho sobre-humano em um concurso visual de reconhecimento de padrões. Também em 2011, ele ganhou o concurso de manuscrito chinês ICDAR, e em maio de 2012, ganhou o concurso de segmentação de imagem ISBI. Até 2011, CNNs não desempenhou um papel importante em conferências de visão por computador, mas em junho de 2012, um documento de Dan Ciresan et al. Na principal conferência CVPR mostrou como max-pooling CNNs sobre GPU pode melhorar drasticamente muitos registros de referência de visão, às vezes com desempenho humano-competitivo ou mesmo sobre-humano. Em outubro de 2012, um sistema semelhante por Alex Krizhevsky na equipe de Geoff Hinton [97] ganhou a concorrência ImageNet em larga escala por uma margem significativa sobre métodos de aprendizagem de máquinas rasas. Em novembro de 2012, Ciresan et al. S sistema também ganhou o concurso ICPR na análise de grandes imagens médicas para detecção de câncer, e no ano seguinte também o MICCAI Grand Challenge sobre o mesmo tema. Em 2013 e 2014, a taxa de erro na tarefa ImageNet usando aprendizagem profunda foi mais reduzida rapidamente, seguindo uma tendência semelhante no reconhecimento de fala em larga escala. Como nos ambiciosos movimentos do reconhecimento automático de fala para a tradução e compreensão automáticas da fala, a classificação de imagens foi recentemente estendida para a tarefa mais desafiadora do subtítulo automático de imagens, em que a aprendizagem profunda (muitas vezes como uma combinação de CNNs e LSTMs) Tecnologia Um exemplo de aplicação é um computador de carro, disse ser treinado com aprendizagem profunda, o que pode permitir que os carros interpretem visões de câmera de 360 °. Outro exemplo é a tecnologia conhecida como Facial Dysmorphology Novel Analysis (FDNA) usada para analisar casos de malformação humana conectada a um grande banco de dados de síndromes genéticas. Processamento de linguagem natural As redes neurais têm sido utilizadas para implementar modelos de linguagem desde o início dos anos 2000. As redes neurais recorrentes , especialmente LSTM, são mais apropriadas para dados seqüenciais, como a linguagem. LSTM ajudou a melhorar a tradução automática e a Modelagem de Linguagem . O LSTM combinado com CNNs também melhorou o subtítulo automático da imageme uma pletora de outras aplicações. Outras técnicas-chave neste campo são a amostragem negativa e a incorporação de palavras . A incorporação de palavras, como word2vec , pode ser pensada como uma camada representacional em uma arquitetura de aprendizagem profunda, que transforma uma palavra atômica em uma representação posicional da palavra em relação a outras palavras no conjunto de dados; A posição é representada como um ponto em um espaço vetorial . O uso da incorporação de palavras como uma camada de entrada para uma rede neuronal recursiva (RNN) permite que o treinamento da rede analise frases e frases usando uma gramática efetiva de vetor composicional . Uma gramática vetorial composicional pode ser pensada como gramática livre de contexto probabilística (PCFG) implementada por uma rede neural recursiva. Os auto-encoders recursivos construídos em cima de embeddings da palavra foram treinados para avaliar a similaridade da sentença e para paraphrasing de detecção. arquiteturas neurais profundas alcançaram state-of-the-art resultados em muitas tarefas de processamento de linguagem natural, tais como análise de circunscrição , análise de sentimento , a recuperação de informação, falado compreensão da linguagem, tradução automática, entidade contextual ligando, e outros. citações excessivas arquiteturas neurais profundas alcançaram state- of-the-art resultados em muitas tarefas de processamento de linguagem natural, tais como análise de circunscrição , análise de sentimento , a recuperação de informação, falado compreensão da linguagem, tradução automática, entidade contextual ligando, e outros. citações excessivas arquiteturas neurais profundas alcançaram state-of-the-art resultados em muitas tarefas de processamento de linguagem natural, tais como análise de circunscrição , análise de sentimento , a recuperação de informação, falado compreensão da linguagem, tradução automática, entidade contextual ligando, e outros. citações excessivas compreensão da linguagem falada, tradução automática, entidade contextual ligando, e outros. citações excessivas compreensão da linguagem falada, tradução automática, entidade contextual ligando, e outros. ditações excessivas Drug descoberta e toxicologia A indústria farmacêutica enfrenta o problema de que uma grande percentagem de fármacos candidatos não conseguem atingir o mercado. Estas falhas de compostos químicos são causadas por uma eficácia insuficiente no alvo biomolecular (efeito no alvo), interacções não detectadas e indesejadas com outras biomoléculas (efeitos fora do alvo) ou efeitos tóxicos não previstos . Em 2012, uma equipe liderada por George Dahl ganhou o "Atividade Desafio Merck Molecular" usando multi-tarefa redes neurais profundas para prever o alvo biomolecular de um composto. Em 2014, Sepp Hochreiter ' S grupo utilizado Deep Learning para detectar off-target e efeitos tóxicos de produtos químicos ambientais em nutrientes, produtos domésticos e drogas e ganhou o "Tox21 Data Challenge" do NIH , FDA e NCATS . Estes impressionantes sucessos mostram que a aprendizagem profunda pode ser superior a outros métodos de rastreio virtual . Pesquisadores do Google e Stanford aprimoraram o aprendizado profundo para a descoberta de drogas combinando dados de uma variedade de fontes. Em 2015, a AtomNet introduziu a AtomNet, a primeira rede de redes de aprendizagem profunda para o desenho racional de drogas baseado na estrutura. Posteriormente, o AtomNet foi utilizado para prever novas biomoléculas candidatas para vários alvos da doença, principalmente tratamentos para o vírus Ebola e esclerose múltipla. Gestão de relacionamento com clientes Recentemente sucesso foi relatado com aplicação de reforço reforço aprendizagem em marketing direto configurações, ilustrando a adequação do método de automação CRM . Foi utilizada uma rede neural para aproximar o valor de possíveis ações de marketing direto sobre o espaço de estados do cliente, definido em termos de variáveis de RFM . A função de valor estimado mostrou ter uma interpretação natural como valor de vida útil do cliente . Sistemas de recomendação Os sistemas de recomendação usaram o aprendizado profundo para extrair recursos profundos significativos para o modelo de fatores latentes para a recomendação baseada em conteúdo para música. Recentemente, foi introduzida uma abordagem mais geral para a aprendizagem de preferências de utilizadores a partir de múltiplos domínios utilizando a aprendizagem profunda multiview. O modelo utiliza uma abordagem híbrida colaborativa e baseada em conteúdo e melhora as recomendações em várias tarefas. Informática biomédica Recentemente, uma abordagem de aprendizagem profunda baseada em uma rede neural artificial auto- codificadora tem sido usada em bioinformática , para prever anotações de Ontologia de Gene e relações de função de gene. Na informática médica, a aprendizagem profunda também tem sido utilizada no domínio da saúde, incluindo a previsão da qualidade do sono baseada em dados portáveis e as previsões de complicações de saúde a partir de dados do Registro de Saúde Eletrônico. Teorias do cérebro humano A aprendizagem profunda computacional está intimamente relacionada com uma classe de teorias do desenvolvimento cerebral (especificamente, o desenvolvimento neocortical) proposto por neurocientistas cognitivos no início da década de 1990. Um resumo acessível deste trabalho é Elman, et al., 1996 livro "Rethinking Innateness" (ver também: Shrager e Johnson, Quartz e Sejnowski ). Como essas teorias de desenvolvimento também foram instanciadas em modelos computacionais, elas são predecessoras técnicas de modelos de aprendizagem profunda motivados por computação pura. Esses modelos de desenvolvimento compartilham a propriedade interessante que várias dinâmicas de aprendizagem propostas no cérebro (por exemplo, Uma onda de fator de crescimento nervoso) conspiram para apoiar a auto-organização de apenas o tipo de redes neurais inter-relacionadas utilizadas nos modelos de aprendizagem profunda puramente computacionais; E essas redes neurais computacionais parecem ser análogas a uma visão do neocórtex do cérebro como uma hierarquia de filtros em que cada camada captura algumas das informações no ambiente operacional e, em seguida, passa o restante, bem como o sinal de base modificado, para outras camadas adicionais A hierarquia. Este processo produz uma pilha auto-organizada de transdutores , bem ajustados ao seu ambiente operacional. Como descrito no The New York Times em 1995: "... o cérebro do bebê parece se organizar sob a influência de ondas dos chamados fatores tróficos ... A importância da aprendizagem profunda com respeito à evolução e ao desenvolvimento da cognição humana não escapou à atenção destes investigadores. Um aspecto do desenvolvimento humano que nos distingue dos vizinhos primatas mais próximos pode ser mudanças no momento do desenvolvimento. Entre os primatas , o cérebro humano permanece relativamente plástico até o final do período pós-natal, enquanto os cérebros de nossos parentes mais próximos são mais completamente formados pelo nascimento. Assim, os seres humanos têm maior acesso às experiências complexas oferecidas por estar fora do mundo durante o período mais formativo do desenvolvimento do cérebro. Isso pode nos permitir "sintonizar" com as mudanças rápidas do ambiente que outros animais, mais constrangidos pela estruturação evolutiva de seus cérebros, São incapazes de ter em conta. Na medida em que essas mudanças se refletem em mudanças de tempo semelhantes na onda hipotética de desenvolvimento cortical, elas também podem levar a mudanças na extração de informações do ambiente de estímulo durante a auto-organização precoce do cérebro. Naturalmente, junto com esta flexibilidade vem um período prolongado de imaturidade,durante o qual estamos dependentes de nossos cuidadores e nossa comunidade para apoio e treinamento. A teoria da aprendizagem profunda, portanto, vê a coevolução da cultura e cognição como uma condição fundamental da evolução humana. Eles também podem levar a mudanças na extração de informações do ambiente de estímulo durante a auto-organização precoce do cérebro. Naturalmente, junto com esta flexibilidade vem um período prolongado de imaturidade, durante o qual estamos dependentes de nossos cuidadores e nossa comunidade para apoio e treinamento. A teoria da aprendizagem profunda, portanto, vê a coevolução da cultura e cognição como uma condição fundamental da evolução humana. Eles também podem levar a mudanças na extração de informações do ambiente de estímulo durante a auto-organização precoce do cérebro. Naturalmente, junto com esta flexibilidade vem um período prolongado de imaturidade, durante o qual estamos dependentes de nossos cuidadores e nossa comunidade para apoio e treinamento. A teoria da aprendizagem profunda, portanto, vê a coevolução da cultura e cognição como uma condição fundamental da evolução humana. Atividades comerciais A aprendizagem profunda é freqüentemente apresentada como um passo rumo à realização de AI forte e, assim, muitas organizações se interessaram por seu uso para aplicações particulares. Em dezembro de 2013, o Facebook contratou Yann LeCun para dirigir a sua nova inteligência artificial laboratório (AI), que era ter operações na Califórnia, Londres e Nova York. O laboratório de IA desenvolverá técnicas de aprendizagem profunda para ajudar o Facebook a executar tarefas como marcar automaticamente as imagens carregadas com os nomes das pessoas nelas contidas. [282] No final de 2014, o Facebook também contratou Vladimir Vapnik , desenvolvedor principal da teoria Vapnik-Chervonenkis de aprendizagem estatística, E co-inventor do método de máquina de vector de suporte . Em 2014, o Google também comprou DeepMind Technologies , uma start-up britânica que desenvolveu um sistema capaz de aprender a jogar jogos de vídeo Atari usando apenas pixels brutos como entrada de dados. Em 2015, eles demonstraram AlphaGo sistema que alcançou um dos longos "grandes desafios" da AI por aprender o jogo de Go bem o suficiente para bater um jogador profissional de Go profissional. Em 2015, Blippar demonstrou um novo móvel de realidade aumentada aplicativo que faz uso de aprendizado profundo de reconhecer objetos em tempo real. Crítica e comentário Dadas as implicações de longo alcance da inteligência artificial, juntamente com a percepção de que a aprendizagem profunda está emergindo como uma de suas técnicas mais poderosas, o sujeito compreensivelmente atrai críticas e comentários e, em alguns casos, fora do campo da própria ciência da computação. Uma crítica principal da aprendizagem profunda refere-se à falta de teoria em torno de muitos dos métodos. Aprendizagem nas arquiteturas profundas mais comuns é implementado utilizando gradiente descendente ; Enquanto a descida gradiente foi compreendida há algum tempo, a teoria em torno de outros algoritmos, como a divergência contrastiva, é menos clara. (Ou seja, não é convergir? Em caso afirmativo, com que rapidez? O que é aproximar?) Métodos de aprendizagem profundas são muitas vezes encarado como uma caixa preta, com a maioria das confirmações feito empiricamente e não teórico. Outros apontam que o aprendizado profundo deve ser encarado como um passo para a realização de IA forte, e não como uma solução abrangente. Apesar do poder dos métodos de aprendizagem profunda, eles ainda carecem de muita da funcionalidade necessária para realizar este objetivo inteiramente. O psicólogo de pesquisa Gary Marcus observou que: "Realisticamente, o aprendizado profundo é apenas parte do maior desafio da construção de máquinas inteligentes, que não possuem maneiras de representar as relações causais (...) não têm formas óbvias de realizar inferências lógicas e estão ainda muito longe de integrar os conceitos abstratos conhecimento, tais como informações sobre o que os objetos são, para que servem e como eles são normalmente utilizados. Os mais poderosos sistemas de IA, como Watson (...) usar técnicas como a profunda aprendizagem como apenas um elemento de um conjunto muito complicado de Técnicas, que vão desde a técnica estatística de inferência bayesiana ao raciocínio dedutivo". Na medida em que esse ponto de vista implica, sem pretender, que a aprendizagem profunda acabará por constituir nada mais do que os níveis discriminatórios primitivos de uma abrangente inteligência de máquina futura, um recente par de especulações sobre arte e inteligência artificial oferece uma alternativa e Perspectivas mais expansivas. A primeira dessas especulações é que poderia ser possível treinar uma pilha de visão de máquina para executar a sofisticada tarefa de discriminar entre "mestre antigo" e desenhos de figuras amadoras; E a segunda é que tal sensibilidade pode de fato representar os rudimentos de uma empatia de máquina não-trivial. Além disso, é sugerido que tal eventualidade estaria em consonância com a antropologia, Que identifica uma preocupação com a estética como um elemento-chave da modernidade comportamental. Ainda em referência à idéia de que um grau significativo de sensibilidade artística poderia estar dentro de níveis relativamente baixos, sejam biológicos ou digitais, da hierarquia cognitiva, uma série publicada de representações gráficas dos estados internos de redes neurais profundas (20-30 camadas) Tentando discernir dentro de dados essencialmente aleatórios, as imagens em que foram treinados parecem demonstrar um apelo visual impressionante à luz do notável nível de atenção pública que este trabalho capturou: o aviso original da pesquisa recebeu bem mais de 1.000 comentários eu A cobertura por The Guardian era por um tempo o artigo o mais freqüentemente acessado no Web site desse jornal. Algumas arquiteturas de aprendizagem profunda atualmente populares e bem sucedidos exibir determinados comportamentos problemáticos, como classificar confiança imagens irreconhecíveis como pertencentes a uma categoria familiar de imagens comuns e misclassifying perturbações minúsculas de imagens corretamente classificados. O criador de OpenCog, Ben Goertzel, a hipótese que estes comportamentos são devido a limitações nas representações internas aprendidas por essas arquiteturas, e que essas limitações possam inibir a integração dessas arquiteturas em multi- componentes heterogêneos AGI arquiteturas. Sugere-se que estas questões podem ser contornado através do desenvolvimento de arquiteturas de aprendizagem profundas que formam internamente estados homólogos para a imagem-gramática decomposições de entidades e eventos observados. Aprender uma gramática (visual ou linguístico) a partir de dados de treinamento seria equivalente a restringir o sistema de raciocínio de senso comum que opera em conceitos em termos de regras de produção da gramática, e é um objetivo básico de ambos aquisição da linguagem humana E AI. (Ver também Indução gramatical). Aprendizagem profunda