Logo Passei Direto
Buscar

Ferramentas de estudo

Questões resolvidas

O processamento de linguagem natural (PLN) depende diretamente do conhecimento acerca da própria linguagem e, assim, diversas definições da linguística são necessárias.
Sobre a linguagem natural humana, assinale a alternativa CORRETA:
a) (X) Divide-se especialmente nas línguas faladas e de sinais, existindo complexidades comuns e regras específicas para cada tipo.
b) ( ) Seu surgimento, embora não pareça, é datado relativamente recente, visto que existe um consenso de que a comunicação surgiu a partir do surgimento da estrutura urbana.
c) ( ) O computador que realizará o processamento de linguagem natural deve ser capaz de reconhecer com precisão as regras linguísticas e, dados os avanços tecnológicos atuais, as falhas devido a ambiguidades na linguagem natural são pouco frequentes.
d) ( ) As aplicações do processamento de linguagem natural realizadas efetivamente até o momento se restringem, na maioria dos casos, à tradução de idiomas.

Um dos principais marcos da história do processamento de linguagem natural é o Teste de Turing, que surgiu com a publicação de Alan Turing, em 1950, acerca da relação entre o comportamento humano e o das máquinas.
Sobre a linha do tempo do processamento de linguagem natural, assinale a alternativa CORRETA:
a) ( ) O SHRDLU foi desenvolvido na década de 1970, para a interação humana com termos em francês, baseado no primeiro software de simulação de diálogos, o ELIZA.
b) (X) A experiência de Georgetown consistiu em realizar um dos primeiros grandes experimentos de tradução, do russo para o inglês, sobre a temática de química orgânica.
c) ( ) Os chatterbots surgiram na década de 1950, como os primeiros programas que simulavam humanos na conversação.
d) ( ) Um exemplo de ontologia conceitual na década de 1960, que realizava o entendimento de informações reais para o computador, é o Margie.

Existem sistemas que envolverão o uso de vídeos e imagens no processamento de linguagem natural, possibilitando aplicações e resoluções de problemas das mais diversas áreas.
Assim, com base em sua experiência acerca desse tipo de sistema, pensando num exemplo correto de aplicação prática da análise de vídeo para processamento de linguagem natural, assinale a alternativa CORRETA:
a) ( ) Ferramentas de edição de vídeo, baseadas em informações automáticas de correção.
b) ( ) Monitoramento de alagamentos por meio de informações via GPS e imagens.
c) (X) Ferramentas que proporcionam legendas de vídeo, disponíveis em várias plataformas gratuitas.
d) ( ) Chatterbots, como o Google Assistent.

Existem algumas características que fazem o processamento de linguagem natural adequado para resolver um conjunto de problemas de aplicações.
Com base nessas características, assinale a alternativa CORRETA:
a) (X) Necessidade de entender o ser humano por meio de escrita e fala, responder ao ser humano da forma mais precisa possível e fornecer sugestões e previsões com base no processamento de um grande conjunto de dados.
b) ( ) Necessidade de entender o ser humano por meio de escrita, fala e sinais, responder ao ser humano com ironia e fornecer sugestões e previsões com base no processamento de um grande conjunto de dados.
c) ( ) Necessidade de entender o ser humano por meio de sinais, responder ao ser humano da forma mais precisa possível e fornecer sugestões e previsões de forma aleatória.
d) ( ) Necessidade de entender o ser humano por meio de escrita e fala, responder ao ser humano com ironia e fornecer sugestões e previsões com base no processamento de um grande conjunto de dados.

Existem diversas áreas com aplicações que podem utilizar conceitos de processamento de linguagem natural.
Com base nas aplicações podem utilizar o processamento de linguagem natural, assinale a alternativa CORRETA:
a) ( ) Google Tradutor e algoritmo de ordenação.
b) ( ) Gmail e site com informações estáticas.
c) (X) Google Tradutor e Gmail.
d) ( ) Rádio convencional e reconhecimento de voz.

Existem vários desafios no contexto de processamento de linguagem natural. Um deles é decompor frases.
Com base em que consiste esse processo, assinale a alternativa CORRETA:
a) ( ) Entender o significado semântico de palavras em uma frase.
b) ( ) Ordenar frases com base em seu significado.
c) ( ) Definir o contexto de uma frase.
d) (X) Quebrar frases de forma que as máquinas possam entender.

O robô Ed é uma aplicação criada em 2004, com o objetivo de falar sobre o uso racional de energia, petróleo, gás natural, meio ambiente, entre outros assuntos.
Com base nos desafios do PLN com que o robô Ed conseguiu lidar de forma satisfatória nesse caso, assinale a alternativa CORRETA:
a) (X) Uso de abreviações e de acrônimos.
b) ( ) Ambiguidade.
c) ( ) Algoritmo de ordenação.
d) ( ) Figuras de linguagem.

Empresas utilizam o processamento de linguagem natural (PLN) para aumentar o faturamento e melhorar seus produtos e serviços.
Com base em como a técnica descrita é conhecida, assinale a alternativa CORRETA:
a) ( ) Máquinas de tradução.
b) ( ) Recuperação de informação.
c) ( ) Aplicação de chatbot.
d) (X) Análise de sentimento.

O processamento de textos é uma das atividades essenciais no contexto de PLN.
Com base na atividade de pré-processamento descrita, assinale a alternativa CORRETA:
a) (X) Segmentação de sentenças.
b) ( ) Normalização de palavras.
c) ( ) Análise de sentimento.
d) ( ) Geração de tokenização.

Quase todo o processo de pré-processamento de texto consiste em passos como eliminação de stop-words, stemming, normalização e lematização.
Com base em qual passo se refere à remoção de palavras muito frequentes e que, na maioria das vezes, não são informações relevantes para o texto, assinale a alternativa CORRETA:
a) ( ) Google Colab.
b) ( ) NLTK.
c) ( ) Normalização de palavras.
d) (X) Eliminação de stop-words.

A tokenização de palavras divide um fragmento de texto em palavras, ou seja, tem como finalidade separar as palavras em unidades.
Com base na tokenização dessa frase, assinale a alternativa CORRETA:
a) (X) ['Este', 'é', 'um', 'aventureiro', 'de', 'São', 'Paulo', '.'].
b) ( ) ['Este', 'é', 'um', 'aventureiro', 'de', 'São Paulo', '.'].
c) ( ) ['Este', 'é', 'um', 'aventureiro', 'de', 'São', 'Paulo'].
d) ( ) ['Este', 'é', 'um', 'aventureiro', 'de', 'São Paulo'].

Um dos métodos que faz a redução do vocabulário de um texto e abstração do significado ajuda na diminuição da complexidade de um texto.
Com base nesse conceito, assinale a alternativa CORRETA:
a) ( ) NLTK.
b) ( ) stopwords.words().
c) (X) Stemming.
d) ( ) Remoção de código HTML/CSS.

Remoção de stop-words é um dos métodos de pré-processamento de texto que ajuda a deixar o texto mais limpo e mais fácil de ser entendido pelas máquinas.
Com base na remoção de stop-words dessa frase, assinale a alternativa CORRETA:
a) ( ) ['Esse', 'carro', 'é', 'importante', 'neste', 'novo', 'negócio'].
b) ( ) ['Esse', 'carro', 'não' , 'importante', 'neste', 'novo', 'negócio'].
c) ( ) ['não'].
d) (X) ['Esse', 'carro', 'importante', 'neste', 'novo', 'negócio'].

O metacaractere lista permite buscas por qualquer caractere presente no colchete.
Dada a expressão regular: [abcdefghjklmnopqrstuvwxyz]. Com abse em qual seria a forma mais condensada de escrevê-la, assinale a alternativa CORRETA:
a) (X) [a-hj-z].
b) ( ) [a-z].
c) ( ) [\s].
d) ( ) [^a-z].

Para lidar com buscas usando expressões regulares, o Python fornece o módulo re, que, por sua vez, apresenta uma série de métodos.
Com base nas funções dos métodos match e search, assinale a alternativa CORRETA:
a) ( ) Match retorna uma lista com todas as correspondências, enquanto search retorna apenas o primeiro resultado.
b) (X) Match realiza buscas no início de uma string, enquanto search permite buscas em qualquer parte da string.
c) ( ) Match retorna apenas o primeiro resultado, enquanto search retorna uma lista com todas as correspondências.
d) ( ) Match permite buscas em qualquer parte da string, enquanto search realiza buscas no início de uma string.

O método sub( ) faz parte do módulo re do Python. Ele permite substituir parte de uma string com base no padrão informado.
Qual dos comandos a seguir substituiria parte da string e exibiria apenas a mensagem Olá mundo?
a) (X) re.sub(“([a-z]*)”, “”, string)
b) ( ) re.sub(“\”print(‘”, “”, string)
c) ( ) re.sub(“print(‘[a-z]*’)”, “”, string)
d) ( ) re.sub(“Olá mundo”, “”, string)

Pseudônimos permitem que expressões regulares sejam escritas de maneira condensada.
Qual das expressões regulares a seguir corresponde a um pseudônimo para “[a-zA-Z0-9_]”?
a) ( ) d.
b) ( ) \D.
c) (X) \w.
d) ( ) \W.

O código a seguir retorna a análise de uma tabela da Wikipédia, indicando a versão que apresenta mais artigos: francesa ou espanhola.
Nas linhas 14 e 15 (em destaque), é utilizado na list comprehension o comando replace para remover os espaços.
a) ( ) Match.
b) ( ) Search.
c) ( ) Findall.
d) (X) Sub.

Uma das etapas do algoritmo bag of words consiste em analisar a frequência das palavras em seu vocabulário.
Com base em qual seria o resultado desta etapa para o seguinte texto, assinale a alternativa CORRETA:
a) (X) "Maria":1, "comprou":2,, "pão":1, "leite":2, "padaria":2, "queijo":1, "Marcos":1,"e":3,"na":1, "foi":1, "a":1}
b) ( ) "Maria":1, "comprou":2,, "pão":1, "leite":2, "padaria":2, "queijo":2, "Marcos":1, "foi":1}
c) ( ) {"Maria":1, "comprou":1, "pão":1, "leite":2, "padaria":2, "queijo":2, "Marcos":1,"comprou":1,"e":3,"na":1, "foi":1, "a":1}
d) ( ) {"Maria":1, "comprou":1,"na":1, "pão":1, "e":1,"leite":2, "padaria":1} e {"queijo":1, "Marcos":1,"e":2, "foi":1, "a":1, "comprou":1, "leite":1, "padaria":1}

Uma das primeiras etapas do algoritmo bag of words é a definição do vocabulário a ser analisado a partir do texto. Considere o seguinte texto: Todos foram ao cinema ontem. Lucas não gostou do filme, mas gostou do cinema. O filme era de terror. Com base no vocabulário desse texto, assinale a alternativa CORRETA:
a) ( ) ["Todos", "foram", "ao", "cinema", "ontem"]; e ["Lucas", "não", "gostou", "do", "filme"," mas", "gostou", "do", "cinema"] e ["O", "filme", "era", "de", "terror"]
b) ( ) ["Todos", "foram", "cinema", "ontem", "Lucas", "não", "gostou", "filme", "gostou", "cinema", "filme", "terror"]

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

O processamento de linguagem natural (PLN) depende diretamente do conhecimento acerca da própria linguagem e, assim, diversas definições da linguística são necessárias.
Sobre a linguagem natural humana, assinale a alternativa CORRETA:
a) (X) Divide-se especialmente nas línguas faladas e de sinais, existindo complexidades comuns e regras específicas para cada tipo.
b) ( ) Seu surgimento, embora não pareça, é datado relativamente recente, visto que existe um consenso de que a comunicação surgiu a partir do surgimento da estrutura urbana.
c) ( ) O computador que realizará o processamento de linguagem natural deve ser capaz de reconhecer com precisão as regras linguísticas e, dados os avanços tecnológicos atuais, as falhas devido a ambiguidades na linguagem natural são pouco frequentes.
d) ( ) As aplicações do processamento de linguagem natural realizadas efetivamente até o momento se restringem, na maioria dos casos, à tradução de idiomas.

Um dos principais marcos da história do processamento de linguagem natural é o Teste de Turing, que surgiu com a publicação de Alan Turing, em 1950, acerca da relação entre o comportamento humano e o das máquinas.
Sobre a linha do tempo do processamento de linguagem natural, assinale a alternativa CORRETA:
a) ( ) O SHRDLU foi desenvolvido na década de 1970, para a interação humana com termos em francês, baseado no primeiro software de simulação de diálogos, o ELIZA.
b) (X) A experiência de Georgetown consistiu em realizar um dos primeiros grandes experimentos de tradução, do russo para o inglês, sobre a temática de química orgânica.
c) ( ) Os chatterbots surgiram na década de 1950, como os primeiros programas que simulavam humanos na conversação.
d) ( ) Um exemplo de ontologia conceitual na década de 1960, que realizava o entendimento de informações reais para o computador, é o Margie.

Existem sistemas que envolverão o uso de vídeos e imagens no processamento de linguagem natural, possibilitando aplicações e resoluções de problemas das mais diversas áreas.
Assim, com base em sua experiência acerca desse tipo de sistema, pensando num exemplo correto de aplicação prática da análise de vídeo para processamento de linguagem natural, assinale a alternativa CORRETA:
a) ( ) Ferramentas de edição de vídeo, baseadas em informações automáticas de correção.
b) ( ) Monitoramento de alagamentos por meio de informações via GPS e imagens.
c) (X) Ferramentas que proporcionam legendas de vídeo, disponíveis em várias plataformas gratuitas.
d) ( ) Chatterbots, como o Google Assistent.

Existem algumas características que fazem o processamento de linguagem natural adequado para resolver um conjunto de problemas de aplicações.
Com base nessas características, assinale a alternativa CORRETA:
a) (X) Necessidade de entender o ser humano por meio de escrita e fala, responder ao ser humano da forma mais precisa possível e fornecer sugestões e previsões com base no processamento de um grande conjunto de dados.
b) ( ) Necessidade de entender o ser humano por meio de escrita, fala e sinais, responder ao ser humano com ironia e fornecer sugestões e previsões com base no processamento de um grande conjunto de dados.
c) ( ) Necessidade de entender o ser humano por meio de sinais, responder ao ser humano da forma mais precisa possível e fornecer sugestões e previsões de forma aleatória.
d) ( ) Necessidade de entender o ser humano por meio de escrita e fala, responder ao ser humano com ironia e fornecer sugestões e previsões com base no processamento de um grande conjunto de dados.

Existem diversas áreas com aplicações que podem utilizar conceitos de processamento de linguagem natural.
Com base nas aplicações podem utilizar o processamento de linguagem natural, assinale a alternativa CORRETA:
a) ( ) Google Tradutor e algoritmo de ordenação.
b) ( ) Gmail e site com informações estáticas.
c) (X) Google Tradutor e Gmail.
d) ( ) Rádio convencional e reconhecimento de voz.

Existem vários desafios no contexto de processamento de linguagem natural. Um deles é decompor frases.
Com base em que consiste esse processo, assinale a alternativa CORRETA:
a) ( ) Entender o significado semântico de palavras em uma frase.
b) ( ) Ordenar frases com base em seu significado.
c) ( ) Definir o contexto de uma frase.
d) (X) Quebrar frases de forma que as máquinas possam entender.

O robô Ed é uma aplicação criada em 2004, com o objetivo de falar sobre o uso racional de energia, petróleo, gás natural, meio ambiente, entre outros assuntos.
Com base nos desafios do PLN com que o robô Ed conseguiu lidar de forma satisfatória nesse caso, assinale a alternativa CORRETA:
a) (X) Uso de abreviações e de acrônimos.
b) ( ) Ambiguidade.
c) ( ) Algoritmo de ordenação.
d) ( ) Figuras de linguagem.

Empresas utilizam o processamento de linguagem natural (PLN) para aumentar o faturamento e melhorar seus produtos e serviços.
Com base em como a técnica descrita é conhecida, assinale a alternativa CORRETA:
a) ( ) Máquinas de tradução.
b) ( ) Recuperação de informação.
c) ( ) Aplicação de chatbot.
d) (X) Análise de sentimento.

O processamento de textos é uma das atividades essenciais no contexto de PLN.
Com base na atividade de pré-processamento descrita, assinale a alternativa CORRETA:
a) (X) Segmentação de sentenças.
b) ( ) Normalização de palavras.
c) ( ) Análise de sentimento.
d) ( ) Geração de tokenização.

Quase todo o processo de pré-processamento de texto consiste em passos como eliminação de stop-words, stemming, normalização e lematização.
Com base em qual passo se refere à remoção de palavras muito frequentes e que, na maioria das vezes, não são informações relevantes para o texto, assinale a alternativa CORRETA:
a) ( ) Google Colab.
b) ( ) NLTK.
c) ( ) Normalização de palavras.
d) (X) Eliminação de stop-words.

A tokenização de palavras divide um fragmento de texto em palavras, ou seja, tem como finalidade separar as palavras em unidades.
Com base na tokenização dessa frase, assinale a alternativa CORRETA:
a) (X) ['Este', 'é', 'um', 'aventureiro', 'de', 'São', 'Paulo', '.'].
b) ( ) ['Este', 'é', 'um', 'aventureiro', 'de', 'São Paulo', '.'].
c) ( ) ['Este', 'é', 'um', 'aventureiro', 'de', 'São', 'Paulo'].
d) ( ) ['Este', 'é', 'um', 'aventureiro', 'de', 'São Paulo'].

Um dos métodos que faz a redução do vocabulário de um texto e abstração do significado ajuda na diminuição da complexidade de um texto.
Com base nesse conceito, assinale a alternativa CORRETA:
a) ( ) NLTK.
b) ( ) stopwords.words().
c) (X) Stemming.
d) ( ) Remoção de código HTML/CSS.

Remoção de stop-words é um dos métodos de pré-processamento de texto que ajuda a deixar o texto mais limpo e mais fácil de ser entendido pelas máquinas.
Com base na remoção de stop-words dessa frase, assinale a alternativa CORRETA:
a) ( ) ['Esse', 'carro', 'é', 'importante', 'neste', 'novo', 'negócio'].
b) ( ) ['Esse', 'carro', 'não' , 'importante', 'neste', 'novo', 'negócio'].
c) ( ) ['não'].
d) (X) ['Esse', 'carro', 'importante', 'neste', 'novo', 'negócio'].

O metacaractere lista permite buscas por qualquer caractere presente no colchete.
Dada a expressão regular: [abcdefghjklmnopqrstuvwxyz]. Com abse em qual seria a forma mais condensada de escrevê-la, assinale a alternativa CORRETA:
a) (X) [a-hj-z].
b) ( ) [a-z].
c) ( ) [\s].
d) ( ) [^a-z].

Para lidar com buscas usando expressões regulares, o Python fornece o módulo re, que, por sua vez, apresenta uma série de métodos.
Com base nas funções dos métodos match e search, assinale a alternativa CORRETA:
a) ( ) Match retorna uma lista com todas as correspondências, enquanto search retorna apenas o primeiro resultado.
b) (X) Match realiza buscas no início de uma string, enquanto search permite buscas em qualquer parte da string.
c) ( ) Match retorna apenas o primeiro resultado, enquanto search retorna uma lista com todas as correspondências.
d) ( ) Match permite buscas em qualquer parte da string, enquanto search realiza buscas no início de uma string.

O método sub( ) faz parte do módulo re do Python. Ele permite substituir parte de uma string com base no padrão informado.
Qual dos comandos a seguir substituiria parte da string e exibiria apenas a mensagem Olá mundo?
a) (X) re.sub(“([a-z]*)”, “”, string)
b) ( ) re.sub(“\”print(‘”, “”, string)
c) ( ) re.sub(“print(‘[a-z]*’)”, “”, string)
d) ( ) re.sub(“Olá mundo”, “”, string)

Pseudônimos permitem que expressões regulares sejam escritas de maneira condensada.
Qual das expressões regulares a seguir corresponde a um pseudônimo para “[a-zA-Z0-9_]”?
a) ( ) d.
b) ( ) \D.
c) (X) \w.
d) ( ) \W.

O código a seguir retorna a análise de uma tabela da Wikipédia, indicando a versão que apresenta mais artigos: francesa ou espanhola.
Nas linhas 14 e 15 (em destaque), é utilizado na list comprehension o comando replace para remover os espaços.
a) ( ) Match.
b) ( ) Search.
c) ( ) Findall.
d) (X) Sub.

Uma das etapas do algoritmo bag of words consiste em analisar a frequência das palavras em seu vocabulário.
Com base em qual seria o resultado desta etapa para o seguinte texto, assinale a alternativa CORRETA:
a) (X) "Maria":1, "comprou":2,, "pão":1, "leite":2, "padaria":2, "queijo":1, "Marcos":1,"e":3,"na":1, "foi":1, "a":1}
b) ( ) "Maria":1, "comprou":2,, "pão":1, "leite":2, "padaria":2, "queijo":2, "Marcos":1, "foi":1}
c) ( ) {"Maria":1, "comprou":1, "pão":1, "leite":2, "padaria":2, "queijo":2, "Marcos":1,"comprou":1,"e":3,"na":1, "foi":1, "a":1}
d) ( ) {"Maria":1, "comprou":1,"na":1, "pão":1, "e":1,"leite":2, "padaria":1} e {"queijo":1, "Marcos":1,"e":2, "foi":1, "a":1, "comprou":1, "leite":1, "padaria":1}

Uma das primeiras etapas do algoritmo bag of words é a definição do vocabulário a ser analisado a partir do texto. Considere o seguinte texto: Todos foram ao cinema ontem. Lucas não gostou do filme, mas gostou do cinema. O filme era de terror. Com base no vocabulário desse texto, assinale a alternativa CORRETA:
a) ( ) ["Todos", "foram", "ao", "cinema", "ontem"]; e ["Lucas", "não", "gostou", "do", "filme"," mas", "gostou", "do", "cinema"] e ["O", "filme", "era", "de", "terror"]
b) ( ) ["Todos", "foram", "cinema", "ontem", "Lucas", "não", "gostou", "filme", "gostou", "cinema", "filme", "terror"]

Prévia do material em texto

PROCESSAMENTO DE 
LINGUAGEM NATURAL
2021
GABARITO DAS 
AUTOATIVIDADES
2
PROCESSAMENTO DE LINGUAGEM NATURAL
UNIDADE 1
TÓPICO 1 
1 O processamento de linguagem natural (PLN) depende 
diretamente do conhecimento acerca da própria linguagem e, 
assim, diversas definições da linguística são necessárias. Sobre a 
linguagem natural humana, assinale a alternativa CORRETA:
a) (X) Divide-se especialmente nas línguas faladas e de sinais, 
existindo complexidades comuns e regras específicas para 
cada tipo.
b) ( ) Seu surgimento, embora não pareça, é datado relativamente 
recente, visto que existe um consenso de que a comunicação 
surgiu a partir do surgimento da estrutura urbana.
c) ( ) O computador que realizará o processamento de linguagem 
natural deve ser capaz de reconhecer com precisão as 
regras linguísticas e, dados os avanços tecnológicos atuais, 
as falhas devido a ambiguidades na linguagem natural são 
pouco frequentes.
d) ( ) As aplicações do processamento de linguagem natural 
realizadas efetivamente até o momento se restringem, na 
maioria dos casos, à tradução de idiomas.
2 Um dos principais marcos da história do processamento de 
linguagem natural é o Teste de Turing, que surgiu com a 
publicação de Alan Turing, em 1950, acerca da relação entre 
o comportamento humano e o das máquinas. Sobre a linha 
do tempo do processamento de linguagem natural, assinale a 
alternativa CORRETA: 
a) ( ) O SHRDLU foi desenvolvido na década de 1970, para a 
interação humana com termos em francês, baseado no primeiro 
software de simulação de diálogos, o ELIZA.
b) (X) A experiência de Georgetown consistiu em realizar um dos 
primeiros grandes experimentos de tradução, do russo para 
o inglês, sobre a temática de química orgânica.
3
PROCESSAMENTO DE LINGUAGEM NATURAL
c)	(			)	 Os	chatterbots	surgiram	na	década	de	1950,	como	os	primeiros	
programas que simulavam humanos na conversação.
d) ( ) Um exemplo de ontologia conceitual na década de 1960, 
que realizava o entendimento de informações reais para o 
computador, é o Margie.
3 A teoria linguística é extremamente necessária à construção de 
técnicas e ao desenvolvimento de algoritmos para a execução 
de tarefas dentro do processamento de linguagem natural. Com 
base nos níveis de processamento e da relação em um sistema de 
diálogo, assinale a alternativa CORRETA: 
a) ( ) Um sistema de diálogo de fala é uma das formas mais simples 
do processamento de linguagem natural, do ponto de vista de 
estruturas linguísticas e etapas do processamento.
b) ( ) Durante o nível de processamento de raciocínio, o computador 
ou outra máquina que realiza o processamento deverá ser capaz 
de responder a um questionário, que o guiará na condução da 
resposta para a construção do diálogo.
c) ( ) A análise sintática, no processamento da fala no sistema de 
diálogo,	é	realizada	para	a	extração	dos	significados	das	palavras.
d) (X) Em um sistema de diálogo por fala existe a etapa de análises 
morfológicas, em que são avaliadas a Léxica, a realização 
morfológica e demais regras.
4 Existem sistemas que envolverão o uso de vídeos e imagens no 
processamento de linguagem natural, possibilitando aplicações 
e resoluções de problemas das mais diversas áreas. Assim, com 
base em sua experiência acerca desse tipo de sistema, pensando 
num exemplo correto de aplicação prática da análise de vídeo 
para processamento de linguagem natural, assinale a alternativa 
CORRETA: 
a) ( ) Ferramentas de edição de vídeo, baseadas em informações 
automáticas de correção.
b) ( ) Monitoramento de alagamentos por meio de informações via 
GPS e imagens.
4
PROCESSAMENTO DE LINGUAGEM NATURAL
c) (X) Ferramentas que proporcionam legendas de vídeo, 
disponíveis em várias plataformas gratuitas.
d)	(			)	 Chatterbots,	como	o	Google	Assistent.
TÓPICO 2 
1 Existem algumas características que fazem o processamento 
de linguagem natural adequado para resolver um conjunto 
de problemas de aplicações. Com base nessas características, 
assinale a alternativa CORRETA:
a) (X) Necessidade de entender o ser humano por meio de escrita e 
fala, responder ao ser humano da forma mais precisa possível 
e fornecer sugestões e previsões com base no processamento 
de um grande conjunto de dados.
b) ( ) Necessidade de entender o ser humano por meio de escrita, 
fala e sinais, responder ao ser humano com ironia e fornecer 
sugestões e previsões com base no processamento de um 
grande conjunto de dados.
c) ( ) Necessidade de entender o ser humano por meio de sinais, 
responder ao ser humano da forma mais precisa possível e 
fornecer sugestões e previsões de forma aleatória.
d) ( ) Necessidade de entender o ser humano por meio de escrita 
e fala, responder ao ser humano com ironia e fornecer 
sugestões e previsões com base no processamento de um 
grande conjunto de dados.
2 Existem diversas áreas com aplicações que podem utilizar 
conceitos de processamento de linguagem natural. Com base 
nas aplicações podem utilizar o processamento de linguagem 
natural, assinale a alternativa CORRETA:
a) ( ) Google Tradutor e algoritmo de ordenação.
b) ( ) Gmail e site com informações estáticas.
c) (X) Google Tradutor e Gmail.
d) ( ) Rádio convencional e reconhecimento de voz.
5
PROCESSAMENTO DE LINGUAGEM NATURAL
3 Existem vários desafios no contexto de processamento de 
linguagem natural. Um deles é decompor frases. Com base em 
que consiste esse processo, assinale a alternativa CORRETA:
a)	(			)	 Entender	o	significado	semântico	de	palavras	em	uma	frase.
b)	(			)	 Ordenar	frases	com	base	em	seu	significado.
c)	(			)	 Definir	o	contexto	de	uma	frase.
d) (X) Quebrar frases de forma que as máquinas possam entender.
4 O robô Ed é uma aplicação criada em 2004, com o objetivo de 
falar sobre o uso racional de energia, petróleo, gás natural, meio 
ambiente, entre outros assuntos. Ao enviar a seguinte mensagem 
"ola td bem cm vc?", ele responde da seguinte maneira "Comigo 
tudo em paz. Quais as novidades?". Com base nos desafios do 
PLN com que o robô Ed conseguiu lidar de forma satisfatória 
nesse caso, assinale a alternativa CORRETA:
a) (X) Uso de abreviações e de acrônimos.
b) ( ) Ambiguidade.
c) ( ) Algoritmo de ordenação.
d) ( ) Figuras de linguagem.
5 Empresas utilizam o processamento de linguagem natural 
(PLN) para aumentar o faturamento e melhorar seus produtos e 
serviços. No contexto do PLN, uma técnica consiste em analisar 
comentários de clientes em redes sociais para saber o grau de 
satisfação de determinado produto. Com base em como a técnica 
descrita é conhecida, assinale a alternativa CORRETA: 
a) ( ) Máquinas de tradução.
b) ( ) Recuperação de informação.
c) ( ) Aplicação de chatbot.
d) (X) Análise de sentimento.
6
PROCESSAMENTO DE LINGUAGEM NATURAL
TÓPICO 3
1 O processamento de textos é uma das atividades essenciais no 
contexto de PLN. É por meio dele que a máquina obtém textos 
mais padronizados e mais fáceis de serem entendidos. Uma das 
atividades de pré-processamento de texto consiste em separar 
frases após a ocorrência de sinais de pontuação. Com base na 
atividade de pré-processamento descrita, assinale a alternativa 
CORRETA:
a) (X) Segmentação de sentenças.
b) ( ) Normalização de palavras.
c) ( ) Análise de sentimento.
d) ( ) Geração de tokenização.
2 Quase todo o processo de pré-processamento de texto consiste 
em passos como eliminação de stop-words, stemming, 
normalização e lematização. Com base em qual passo se refere 
à remoção de palavras muito frequentes e que, na maioria das 
vezes, não são informações relevantes para o texto, assinale a 
alternativa CORRETA:
a) ( ) Google Colab.
b) ( ) NLTK.
c) ( ) Normalização de palavras.
d) (X) Eliminação de stop-words.
3 A tokenização de palavras divide um fragmento de texto em 
palavras, ou seja, tem como finalidade separar as palavras 
em unidades. Veja a seguinte frase: “este é um aventureiro de 
São Paulo”. Com base na tokenização dessa frase, assinale aalternativa CORRETA:
a) (X) ['Este', 'é', 'um', 'aventureiro', 'de', 'São', 'Paulo', '.'].
b) ( ) ['Este', 'é', 'um', 'aventureiro', 'de', 'São Paulo', '.'].
c) ( ) ['Este', 'é', 'um', 'aventureiro', 'de', 'São', 'Paulo'].
d) ( ) ['Este', 'é', 'um', 'aventureiro', 'de', 'São Paulo'].
7
PROCESSAMENTO DE LINGUAGEM NATURAL
4 Um dos métodos que faz a redução do vocabulário de um texto 
e abstração do significado ajuda na diminuição da complexidade 
de um texto. Esse conceito reduz a palavra ao seu radical. Por 
exemplo, a palavra carro tem o radical “carr”. Com base nesse 
conceito, assinale a alternativa CORRETA: 
a) ( ) NLTK.
b) ( ) stopwords.words().
c) (X) Stemming.
d) ( ) Remoção de código HTML/CSS.
5 Remoção de stop-words é um dos métodos de pré-processamento 
de texto que ajuda a deixar o texto mais limpo e mais fácil de ser 
entendido pelas máquinas. Cada idioma tem sua lista de stop-
words. Considere a seguinte frase: “esse carro não é importante 
neste novo negócio”. Com base na remoção de stop-words dessa 
frase, assinale a alternativa CORRETA:
a) ( ) ['Esse', 'carro', 'é', 'importante', 'neste', 'novo', 'negócio'].
b) ( ) ['Esse', 'carro', 'não' , 'importante', 'neste', 'novo', 'negócio'].
c) ( ) ['não'].
d) (X) ['Esse', 'carro', 'importante', 'neste', 'novo', 'negócio'].
TÓPICO 4
1 O metacaractere lista permite buscas por qualquer caractere 
presente no colchete. Quando o símbolo de circunflexo é inserido, 
a expressão regular retorna caracteres não presentes na lista. 
Listas permitem, ainda, serem combinadas a outros símbolos. Por 
exemplo, traços permitem representar um intervalo de valores, 
reduzindo, assim, a quantidade de caracteres inseridos em uma 
lista. Dada a expressão regular: [abcdefghjklmnopqrstuvwxyz]. 
Com abse em qual seria a forma mais condensada de escrevê-la, 
assinale a alternativa CORRETA:
8
PROCESSAMENTO DE LINGUAGEM NATURAL
a) (X) [a-hj-z].
b) ( ) [a-z].
c) ( ) [\s].
d) ( ) [^a-z].
 
2 Para lidar com buscas usando expressões regulares, o Python 
fornece o módulo re, que, por sua vez, apresenta uma série de 
métodos, como, por exemplo, match, search, findall, split e sub. 
Os métodos match e search recebem parâmetros, uma expressão 
regular e um conjunto de caracteres em que será realizada a 
busca. Ambos retornam um objeto do tipo match com resultados 
de pontos de correspondência da expressão regular na string 
avaliada. Com base nas funções dos métodos match e search, 
assinale a alternativa CORRETA:
a) ( ) Match retorna uma lista com todas as correspondências, 
enquanto search retorna apenas o primeiro resultado.
b) (X) Match realiza buscas no início de uma string, enquanto 
search permite buscas em qualquer parte da string.
c) ( ) Match retorna apenas o primeiro resultado, enquanto search 
retorna uma lista com todas as correspondências.
d) ( ) Match permite buscas em qualquer parte da string, enquanto 
search realiza buscas no início de uma string.
3 O método sub( ) faz parte do módulo re do Python. Ele permite 
substituir parte de uma string com base no padrão informado. 
Sub recebe três valores como parâmetros. Com base nesses 
parâmetros, analise as opções a seguir:
I- A expressão regular.
II- O valor que irá substituir o padrão encontrado.
III- A string que será feita a busca.
Assim, dada a variável:
string = “print(‘Olá mundo’)”
Qual dos comandos a seguir substituiria parte da string e exibiria 
apenas a mensagem Olá mundo?
9
PROCESSAMENTO DE LINGUAGEM NATURAL
a) (X) re.sub(“([a-z]*)”, “”, string)
b) ( ) re.sub(“\”print(‘”, “”, string)
c) ( ) re.sub(“print(‘[a-z]*’)”, “”, string)
d) ( ) re.sub(“Olá mundo”, “”, string)
4 Pseudônimos permitem que expressões regulares sejam escritas 
de maneira condensada. Qual das expressões regulares a seguir 
corresponde a um pseudônimo para “[a-zA-Z0-9_]”?
a) ( ) d.
b) ( ) \D.
c) (X) \w.
d) ( ) \W.
5 O código a seguir retorna a análise de uma tabela da Wikipédia, 
indicando a versão que apresenta mais artigos: francesa ou 
espanhola. Nas linhas 14 e 15 (em destaque), é utilizado na list 
comprehension o comando replace para remover os espaços. 
Observe:
a) ( ) Match.
b) ( ) Search.
c) ( ) Findall.
d) (X) Sub.
10
PROCESSAMENTO DE LINGUAGEM NATURAL
UNIDADE 2
TÓPICO 1 
1 Uma das etapas do algoritmo bag of words consiste em analisar 
a frequência das palavras em seu vocabulário. Com base em qual 
seria o resultado desta etapa para o seguinte texto, assinale a 
alternativa CORRETA:
Maria comprou pão e leite na padaria.
Marcos foi à padaria e comprou leite e queijo.
a) (X) "Maria":1, "comprou":2,, "pão":1, "leite":2, "padaria":2, 
"queijo":1, "Marcos":1,"e":3,"na":1, "foi":1, "a":1}
b) ( ) "Maria":1, "comprou":2,, "pão":1, "leite":2, "padaria":2, 
"queijo":2, "Marcos":1, "foi":1}
c) ( ) {"Maria":1, "comprou":1, "pão":1, "leite":2, "padaria":2, 
"queijo":2, "Marcos":1,"comprou":1,"e":3,"na":1, "foi":1, "a":1}
d) ( ) {"Maria":1, "comprou":1,"na":1, "pão":1, "e":1,"leite":2, 
"padaria":1} e {"queijo":1, "Marcos":1,"e":2, "foi":1, "a":1, 
"comprou":1, "leite":1, "padaria":1}
2 Uma das primeiras etapas do algoritmo bag of words é a definição 
do vocabulário a ser analisado a partir do texto. Considere o 
seguinte texto:
Todos foram ao cinema ontem.
Lucas	não	gostou	do	filme,	mas	gostou	do	cinema.
O	filme	era	de	terror.
Com base no vocabulário desse texto, assinale a alternativa CORRETA:
a) ( ) ["Todos", "foram", "ao", "cinema", "ontem"]; e ["Lucas", "não", 
"gostou",	"do",	"filme","	mas",	"gostou",	"do",	"cinema"]		e	["O",	
"filme",	"era",	"de",	"terror"]
b) ( ) ["Todos", "foram", "cinema", "ontem", "Lucas", "não", "gostou", 
"filme",	"gostou",	"cinema",	"filme",	"terror"]
11
PROCESSAMENTO DE LINGUAGEM NATURAL
c) ( ) ["Todos", "foram", "ao", "cinema", "ontem", "Lucas", "não", 
"gostou",	 "do",	 "filme","	 mas",	 "gostou",	 "do",	 "cinema",	 "O",	
"filme",	"era",	"de",	"terror"]
d) (X) ["Todos", "foram", "ao", "cinema", "ontem", "Lucas", "não", 
"gostou", "do", "filme"," mas", "O", "era", "de", "terror"]
3 O algoritmo bag of words tem quatro grandes etapas para a 
extração de características do texto de um documento. Com base 
nessas etapas, assinale a alternativa CORRETA:
a)	(			)	 As	etapas	do	bag	of	words	são:	limpar	o	texto,	definir	as	stopwords,	
construir o vocabulário e criar o vetor de características.
b) (X) As etapas do bag of words são: limpar o texto, extrair os tokens, 
construir o vocabulário e gerar os vetores de características.
c) ( ) As etapas do bag of words são: limpar o texto, remover os 
tokens, construir o vocabulário e criar o vetor de características.
d) ( ) As etapas do bag of words são: limpar o texto, construir o 
vocabulário, contar a frequência das palavras e criar o vetor 
de características.
4 No contexto do algoritmo bag of words, é possível se referir aos 
elementos do vocabulário como tokens. Com base no que é um 
token no bag of words, assinale a alternativa CORRETA:
a) (X) Token é a palavra com maior frequência em um vocabulário, 
pode-se definir um token como palavras, frases completas ou 
até mesmo sílabas.
b)	(			)	 Token	é	a	menor	unidade	de	um	vocabulário,	pode-se	definir	
um token como palavras, frases completas ou até mesmo sílabas.
c) ( ) Token é a frequência da unidade de um vocabulário, pode-
se	definir	 um	 token	 como	palavras,	 frases	 completas	 ou	 até	
mesmo sílabas.
d)	(			)	 Token	é	o	 resultado	de	um	vocabulário,	pode-se	definir	um	
token como palavras, frases completas ou até mesmo sílabas.
12
PROCESSAMENTO DE LINGUAGEM NATURAL
5 A linguagem de programação Python fornece diversos pacotes 
que auxiliam o desenvolvedor por meio de métodos que 
implementam algoritmos para diversos fins. Com base no 
pacote em Python que oferece métodos para o processamento de 
linguagem natural, assinale a alternativa CORRETA:
a) ( ) Scipy.
b) ( ) Beautiful Soup.
c) ( ) scikit-learn.
d) (X) NLTK.
TÓPICO 2
1 O algoritmo bag of words usa uma abordagemem que conta 
a frequência com que cada termo aparece no documento para 
identificar termos importantes. Essa abordagem pode ser um 
problema, pois não considera o contexto no qual o termo está 
inserido. Com base na abordagem TF-IDF pode melhorar esse 
aspecto do bag of words, assinale a alternativa CORRETA:
a) ( ) Abordagem TF-IDF considera somente o total de termos 
que aparece no texto e não considera similaridade entre 
documentos.	 Dessa	 forma,	 ele	 identifica	 que	 alguns	 termos	
são mais importantes somente naquele documento.
b) ( ) A abordagem TF-IDF considera somente termos que aparecem 
uma única vez no texto e também a similaridade entre diferentes 
documentos.	Dessa	forma,	ele	identifica	que	alguns	termos	são	
mais importantes que outros em determinados contextos.
c) ( ) A abordagem TF-IDF desconsidera a frequência com que cada 
termo aparece no texto e também a similaridade entre diferentes 
documentos.	Dessa	forma,	ele	identifica	que	alguns	termos	são	
mais importantes que outros em determinados contextos.
d) (X) A abordagem TF-IDF considera a frequência com que 
cada termo aparece no texto e também a similaridade 
entre diferentes documentos. Dessa forma, ele identifica 
que alguns termos são mais importantes que outros em 
determinados contextos.
13
PROCESSAMENTO DE LINGUAGEM NATURAL
2 O algoritmo TF-IDF é uma técnica amplamente utilizada no 
processamento de linguagem natural por oferecer bons resultados 
na extração de características de textos. Essa técnica combina 
diferentes passos. Com base no significado do termo TF, assinale 
a alternativa CORRETA:
a) ( ) Na sigla TF-IDF, o termo TF indica a frequência de termos, ou 
seja, a soma da quantidade de vezes que os termos aparecem em 
um documento com número total de termos em um documento.
b) (X) Na sigla TF-IDF, o termo TF indica a frequência de termos, 
ou seja, a razão da quantidade de vezes que os termos 
aparecem em um documento pelo número total de termos 
em um documento.
c) ( ) Na sigla TF-IDF, o termo TF indica a frequência inversa de 
termos, ou seja, a soma da quantidade de vezes que os termos 
aparecem em um documento com o número total de termos 
em um documento.
d) ( ) Na sigla TF-IDF, o termo TF indica a frequência inversa de 
termos, ou seja, a subtração da quantidade de vezes que os 
termos aparecem em um documento pelo número total de 
termos em um documento.
3 A técnica TF-IDF aplica cálculos para descobrir a importância 
dos termos em um documento. Nesse contexto, considere um 
documento contendo 100 palavras em que a palavra "livro" 
aparece três vezes. Com base no valor do termo frequência (TF) 
da palavra "livro", assinale a alternativa CORRETA:
a) ( ) TF = 3.
b) (X) TF = 0,03.
c) ( ) TF = 3,33.
d) ( ) TF = 100.
4 Em um conjunto com 100 mil documentos, a palavra “contábil” 
aparece em 1.200 documentos. Em um desses documentos com o 
total de 130 palavras, “contábil” aparece 22 vezes. Com base na 
IDF (inverse document frequency) do termo “contábil”, assinale 
a alternativa CORRETA:
14
PROCESSAMENTO DE LINGUAGEM NATURAL
TÓPICO 3 
1 Métodos de word embeddings possibilitaram, entre outras coisas, 
o processamento de textos, considerando relações de similaridade 
semântica. Essa estrutura está baseada na hipótese distributiva. 
Com base nessa hipótese, assinale a alternativa CORRETA:
a) (X) A frequência com que palavras sinônimas aparecem tem 
relação direta com o ambiente em que se fazem presentes.
b) ( ) Não há qualquer relação entre a frequência das palavras e o 
contexto em que se encontram.
c)	(			)	 Significados	 diferentes	 podem	 ser	 encontrados	 nas	mesmas	
palavras conforme o contexto.
d) ( ) Quanto mais disperso um conjunto de palavras, mais difícil de 
se determinar o contexto e, portanto, o sentido dado.
2 Grande parte das aplicações de processamento da linguagem 
natural envolve a comparação de textos e palavras. Com base 
em que pode ser utilizado(a) para medir a proximidade de dois 
vetores semânticos, assinale a alternativa CORRETA:
a) (X) IDF = 1,92.
b) ( ) IDF = 83.
c)	(			)	 IDF	=	0,65.
d) ( ) IDF = 1,92.
5 Em um conjunto com 200 mil documentos, a palavra 
“inadimplente” aparece em 2.200 documentos. Em um desses 
documentos com o total de 500 palavras, “inadimplente” aparece 
50 vezes. Com base no valor TF-IDF do termo “inadimplente”, 
assinale a alternativa CORRETA:
a) ( ) TF-IDF = 0,1.
b) (X) TF-IDF = 0,2.
c) ( ) TF-IDF = 2.
d)	(			)	 TF-IDF	=	50.
15
PROCESSAMENTO DE LINGUAGEM NATURAL
a) (X) O cosseno.
b) ( ) A hipótese distributiva.
c) ( ) O comprimento dos vetores.
d) ( ) O algoritmo de backpropagation.
3 A partir da hipótese distributiva, muitos métodos de 
processamento da linguagem natural foram desenvolvidos 
utilizando o conceito de representação vetorial contínua. Entre 
esses métodos, um dos primeiros e mais utilizados é o word2vec. 
Sobre tal método, assinale a alternativa CORRETA:
a) (X) O word2vec é um método estatístico.
b) ( ) O word2vec utiliza a matriz de co-ocorrência para comparar 
dois vetores de um texto.
c) ( ) O word2vec utiliza o conceito de saco de palavras (bag-of-words).
d) ( ) O word2vec é derivado de outro método, conhecido como GloVe.
4 Dois métodos diferentes podem ser utilizados para se aplicar o 
word2vec: Skip-Gram e CBOW. Com base na principal diferença 
entre ambos, assinale a alternativa CORRETA:
a) (X) O CBOW prevê uma palavra a partir de um contexto, 
enquanto o Skip-Gram faz o inverso.
b) ( ) O Skip-Gram utiliza redes neurais, enquanto o CBOW utiliza 
regressão logística.
c) ( ) O CBOW utiliza redes neurais, enquanto o Skip-Gram utiliza 
regressão logística.
d) ( ) O Skip-Gram converge mais rapidamente do que o CBOW.
5 O método Skip-Gram é usado para, a partir de uma palavra de 
entrada, prever um vetor de outras palavras que fazem parte do 
seu contexto. Dada a frase a seguir: “a representação vetorial de 
textos revolucionou o processamento de linguagem natural”. 
Determine o contexto da palavra textos, considerando uma janela 
de tamanho 2, e assinale a alternativa CORRETA:
a) (X) Vetorial; de; revolucionou; o.
b) ( ) A; representação; vetorial; de; revolucionou; o; 
processamento; de.
16
PROCESSAMENTO DE LINGUAGEM NATURAL
c) ( ) A; representação; vetorial; de; revolucionou; o; processamento; 
linguagem.
d) ( ) Vetorial; de.
TÓPICO 4
1 Modelos pré-treinados permitem que boas representações 
vetoriais sejam aproveitadas por outros usuários que não teriam 
acesso a quantidades tão grandes de informação ou não teriam 
computador rápido o suficiente para executá-las. A partir do 
modelo pré-treinado em anexo (o arquivo deve ser aberto por 
um algoritmo usando a função word2vec da biblioteca Gensim), 
determine qual é a palavra mais próxima da palavra past e 
assinale a alternativa CORRETA:
a) (X) 1958.
b) ( ) Future.
c) ( ) Last.
d) ( ) Dark.
2 Criar um modelo de word embeddings pode demandar muito 
tempo de processamento. No entanto, os algoritmos atualmente 
são capazes de aproveitar modelos pré-treinados para acumular 
progressivamente mais informações. O algoritmo a seguir utiliza 
um corpus simples para treinar um modelo de word2vec e salvá-lo:
from gensim.models import Word2Vec
corpus	=	['Exercícios	ajudarão	a	fixar	o	conteúdo,	'A	partir	de	2013	o	
word2vec conquistou o mundo']
model = gensim.models.Word2Vec(corpus, min_count=3)
model.save('C:\Sagah\modelo.bin')
Escreva o algoritmo que aproveita o treinamento anterior desse mo-
delo e amplia o treinamento, utilizando um brown corpus da biblio-
teca NLTK.
17
PROCESSAMENTO DE LINGUAGEM NATURAL
R.: from nltk.corpus import brown
modelo = Word2Vec.load('C:\\Sagah\\modelo.bin')
corpus = brown.sents()
modelo.train(corpus, min_count=3)
3 A biblioteca Gensim, além de ter ferramentas de manipulação 
geral de textos e documentos, como as ferramentas de pré-
processamento, também tem modelos e diferentes algoritmos de 
processamento de linguagem natural, como o word2vec. Sobrea biblioteca Gensim, escreva o algoritmo cria um modelo de 
word2vec de dimensão 10, ignorando as palavras com frequência 
menor que 5.
R.: from gensim.models import Word2Vec
model	=	Word2Vec(corpus,	min_count=5,	size=10)
4 O pré-processamento em algoritmos de processamento da 
linguagem natural envolve, principalmente, a tokenização, a 
remoção de stopwords e a construção de um vocabulário.
Dado o seguinte corpus:
corpus = [ 'O algoritmo está bom' ], 'No entanto poderia ser melhor' ]
Escreva um algoritmo capaz de tokenizar e criar o vocabulário, 
eliminando acentos e palavras menores que 3 caracteres.
R.: from gensim.utils import simple_preprocess 
from gensim.corpora import Dictionary as corpDict
corpus_p = [] 
for doc in corpus: 
corpus_p.append(simple_preprocess(doc, deacc=True, min_len=3)) 
vocab = corpDict(corpus_p)
18
PROCESSAMENTO DE LINGUAGEM NATURAL
UNIDADE 3
TÓPICO 1 
1 Para que o estudo em um texto possa ser efetuado, é necessário 
realizar um processamento prévio. Com base nas etapas que 
o compõem, em ordem cronológica, assinale a alternativa 
CORRETA:
a) ( ) Deixar todo o texto em letras minúsculas; remover tabulações.
b) ( ) Deixar todo o texto em letras maiúsculas; remover pontuações. 
c) (X) Remover stopword; remover pontuação.
d) ( ) Remover stopword; deixar tudo em minúsculas.
2 Uma das etapas do pipeline de classificação de textos é a avaliação 
de um modelo. Com base em quais são as duas partes dessa etapa, 
assinale a alternativa CORRETA: 
a) ( ) Extração de dados e redução da dimensional.
b) ( ) Previsão do conjunto de teste e avaliação do modelo.
c) (X) Retirada de stopwords e retirada de pontuação.
d) ( ) Extração de dados e elaboração de novos algoritmos para o 
model.
3 O aprendizado de máquina apresenta diferentes classificações, 
sendo a mais frequente a classificação em aprendizado 
supervisionado, aprendizado não supervisionado e aprendizado 
por reforço. Com base no exposto, assinale a alternativa 
CORRETA:
a) ( ) No caso do aprendizado não supervisionado, existe um 
conjunto	de	pares	de	dados	entradas/saídas	pré-definido.
b) ( ) Na aprendizagem supervisionada, o agente de aprendizagem 
adquire conhecimento sobre seu processo a partir do reforço 
ou recompensa.
19
PROCESSAMENTO DE LINGUAGEM NATURAL
c) (X) No aprendizado supervisionado, há um conjunto de pares 
de dados entradas/saídas pré-definido.
d)	(			)	 No	aprendizado	não	 supervisionado,	 é	utilizado	um	gráfico	
de árvore ou modelo de decisões e suas consequências. 
4 Com relação às aplicações de classificação de textos, analise as 
sentenças a seguir:
I-	 A	classificação	de	textos	tem	aplicações	limitadas	à	linguística	e	à	
tecnologia.
II-	 A	filtragem	de	SPAM	é	um	exemplo	de	aplicação	de	classificação	
de documentos.
III-	 Com	 o	 advento	 das	 redes	 sociais,	 cresceu	 a	 importância	 da	
classificação	automática	de	textos.
Assinale a alternativa CORRETA:
a) ( ) As sentenças I e II estão corretas.
b) ( ) As sentenças I e III estão corretas.
c) (X) As sentenças II e III estão corretas.
d) ( ) Somente a sentença II está correta.
5 Com relação ao pipeline de classificação de textos, analise as 
sentenças a seguir: 
I- A entrada dos dados no pipeline é de textos já processados.
II- A etapa de redução dimensional é opcional, mas recomendada.
III-	 O	algoritmo	Naive	Bayes	é	um	classificador	probabilístico	muito	
utilizado em machine learning.
Assinale a alternativa CORRETA:
a) ( ) As sentenças I e II estão corretas.
b) ( ) As sentenças I e III estão corretas.
c) (X) As sentenças II e III estão corretas.
d) ( ) Somente a sentença II está correta.
20
PROCESSAMENTO DE LINGUAGEM NATURAL
TÓPICO 2
1 Em um processo de classificação de texto, os dados precisam 
ser pré-processados, com o objetivo de preparar os recursos 
para a classificação. Uma entre várias técnicas que pode ser 
aplicada sobre os dados é a que converte uma palavra (termo) 
para sua forma base. Com base em qual técnica é essa, assinale 
a alternativa CORRETA:
a)	(			)	 Classificar	texto.
b) ( ) Rotular texto.
c) (X) Stemmizar texto.
d) ( ) Filtrar texto por expressões regulares.
2 Avaliar o algoritmo de aprendizado de máquina é parte essencial 
de qualquer projeto. O modelo de predição pode fornecer 
resultados satisfatórios quando avaliado usando uma das 
métricas, mas pode apresentar resultados ruins quando avaliado 
em relação a outras métricas. Por isso, é de extrema importância 
saber o que cada métrica pretende aferir. Com relação às métricas 
de desempenho utilizadas para aferir a eficiência do modelo de 
predição ao final da realização do teste, qual métrica demonstra o 
quanto o modelo foi assertivo apenas para uma das classes?
a) ( ) Acurácia.
b) (X) Precisão.
c) ( ) Revocação.
d) ( ) F1-score.
3 Antes de aplicar o classificador sobre os recursos, é necessário 
estar atendo ao problema de overfitting, ou seja, quando o modelo 
fica "muito" treinado para os dados e está “memorizando” os 
dados em vez de “aprender” e generalizar. O que fazer com a 
amostra de dados (recursos) para mitigar o problema?
21
PROCESSAMENTO DE LINGUAGEM NATURAL
a) (X) Dividir a amostra em duas partes: treinamento e teste.
b) ( ) Explorar os dados e entender os recursos.
c) ( ) Filtrar os dados para remover termos indesejados.
d) ( ) Treinar o modelo sobre todo recurso, exaustivamente.
4 Um problema que pode ocorrer na classificação de textos é o 
fato de alguns termos comuns acabarem tendo a importância 
aumentada, artificialmente, pela frequência com que aparecem 
no conjunto. Com base em como esses termos são conhecidos, 
assinale a alternativa CORRETA:
a) ( ) Números.
b) ( ) Símbolos.
c) ( ) Acentos.
d) (X) Palavras de parada.
5 Em um classificador, testar várias configurações diferentes de 
parâmetros (tune hyperparameters) de forma manual pode se tornar 
um problema, uma vez que alguns classificadores apresentam 
vários parâmetros que podem ser ajustados. Por exemplo, se um 
classificador tem 10 parâmetros, e cada um deles aceita 10 valores 
diferentes, seriam 100 diferentes configurações. Existem duas 
classes da biblioteca Scikit-Learnque ajudam a mitigar o problema. 
Com base nessas classes, assinale a alternativa CORRETA:
a) ( ) Pipeline e SVC.
b) ( ) MultinomialNB e GaussianNB.
c) (X) RandomSearch e GridSearch.
d) ( ) DictVectorizer e DictTransform.
TÓPICO 3
1 A análise de sentimentos pode ser realizada de forma automática, 
sem depender de um profissional para analisar, classificar e 
tipificar qual o sentimento da mensagem. Com base no exposto, 
analise as sentenças a seguir: 
22
PROCESSAMENTO DE LINGUAGEM NATURAL
I- A análise de sentimentos automática propicia agilidade para 
trabalhar com grandes volumes de dados.
II- A captação de sentimentos pode ser determinada por algoritmos 
simples de forma muito precisa, em todos os casos.
III-	 A	presença	de	 erros	 ortográficos	 e	 gramaticais,	 gírias	 e	 ironias	
não altera a precisão dos modelos.
Assinale a alternativa CORRETA:
a) ( ) As sentenças I e II estão corretas.
b) ( ) As sentenças I e III estão corretas.
c) ( ) As sentenças II e III estão corretas.
d) (X) Somente a sentença I está correta.
2 A análise de sentimentos é utilizada pelas empresas para verificar 
as opiniões de seus consumidores sobre lançamentos de novos 
produtos e serviços em vez da utilização de pesquisas tradicionais. 
Com base no exposto, assinale a alternativa CORRETA:
a) ( ) A análise de sentimentos traz mais informações para a empresa 
do que pesquisas qualitativas e quantitativas com clientes.
b) ( ) A análise de sentimentos é muito precisa e dispensa sempre a 
realização de pesquisas posteriores.
c) (X) A análise de sentimentos atua como um termômetro para 
a empresa e contribui ao antecipar tendências que são 
observados em pesquisas mais detalhadas.
d) ( ) A análise de sentimentos não deve ser realizada com base em 
textos escritos em redes sociais, pois não seguem as regras 
gramaticaise cultas da linguagem.
 
3 A representação adotada pelo SentWordNet para características 
de opinião de sentido de uma palavra considera um eixo de 
subjetividade, na qual o vocábulo pode ser subjetivo ou objetivo, 
e um eixo de polaridade, que o vocábulo pode ser positivo ou 
negativo. Com base no exposto, analise as sentenças a seguir: 
I-	 A	classificação	entre	vocábulo	subjetivo	e	objetivo	é	binária.
II- No eixo da polaridade, para cada vocábulo também há uma 
classificação	binária:	positivo	ou	negativo.
23
PROCESSAMENTO DE LINGUAGEM NATURAL
III- O dicionário WordNetcontém as palavras mais relevantes em 
Língua Portuguesa.
Assinale a alternativa CORRETA:
a) ( ) As sentenças I e II estão corretas.
b) ( ) As sentenças II e III estão corretas.
c) ( ) As sentenças I e III estão corretas.
d) (X) Somente a sentença I está correta.
4 Analisar o sentimento das palavras de um texto e encontrar sua 
polaridade não é elementar, pois a classificação da intensidade 
de sentimento pode ter múltiplos valores, dependendo do 
contexto da classificação para a área de análise, da existência de 
frases irônicas e sarcásticas presentes em diálogos informais, 
da consideração de palavras conjuntos. Com base no exposto, 
assinale a alternativa CORRETA: 
a) ( ) Na análise de sentimento, não é necessária nenhuma análise 
linguística.
b) (X) A Análise de Sentimentos também é chamada de mineração de 
opiniões, análise de subjetividade, mineração de sentimentos
c) ( ) Mesmo com aplicando em áreas de atuação muito diferentes, 
os	dicionários	padronizados	são	suficientes.
d) ( ) Para análise de textos da Internet, pode-se ignorar a existência 
de ironias.
TÓPICO 4
1 A matriz de confusão, muito usada em machine learning, é 
facilmente identificada graças ao seu formato peculiar em tabela. 
Na literatura, é possível encontrá-la sendo chamada também de 
matriz de erro. Sobre o objetivo da matriz de confusão, assinale a 
alternativa CORRETA:
24
PROCESSAMENTO DE LINGUAGEM NATURAL
a) (X) A matriz de confusão analisa o desempenho de um algoritmo 
de aprendizado de máquina.
b) ( ) A matriz de confusão analisa frequências e repetições de 
palavras e de dados.
c) ( ) A matriz de confusão analisa, sobretudo, o tipo gramatical das 
palavras e dados.
d) ( ) A matriz de confusão analisa a qualidade de imagens em 
redes sociais.
2 Stemização é um importante processo que não pode ser ignorado, 
pois, a partir dele, um algoritmo de análise de sentimentos pode 
ser mais assertivo em seus resultados. Sobre a finalidade do 
processo de stemização, assinale a alternativa CORRETA:
a)	(			)	 Stemização	 é	 o	 processo	 de	 identificação	 da	 quantidade	 de	
repetição de cada token.
b)	(			)	 Stemização	 é	 o	 processo	 de	 cálculo	 da	 distância	 euclidiana	
entre duas palavras.
c) ( ) Stemização é o processo que lista palavras que têm acentuação 
na língua inglesa.
d) (X) Stemização é o processo de remoção de sufixos das palavras 
flexionadas, mantendo-se apenas o seu radical.
3 Stopwords podem ser um problema, visto que dificultam o 
treinamento do algoritmo. Assim, removê-las auxilia na redução 
de ruídos dos dados analisados. A fim de evitá-las, quais medidas 
devem ser tomadas?
a) ( ) Avaliar a taxa de frequência e duplicar as palavras.
b) (X) Observar a taxa de frequência e identificar palavras inúteis.
c) ( ) Avaliar a taxa de frequência e excluir palavras com baixa 
frequência no texto.
d) ( ) Observar a taxa de frequência e eliminar do texto as palavras-
chave existentes.
25
PROCESSAMENTO DE LINGUAGEM NATURAL
4 Os sentimentos expressos em textos podem ser analisados 
minuciosamente na busca por insights que possam gerar melhorias 
nos processos de uma empresa. Essa análise envolve sete etapas. 
Com base nessas etapas, assinale a alternativa CORRETA:
 
a)	(			)	 Emoções,	seleção	de	textos,	remoção	de	semântica,	stemização,	
determinar uma base de treinamento, aplicar teste de palavras, 
avaliar a acurácia.
b) ( ) Emoções, seleção de imagens, remoção de stopwords, 
stemização, determinar uma base de treinamento, aplicar teste 
de palavras, avaliar a acurácia.
c) ( ) Emoções, seleção de textos, remoção de stopwords, adicionar 
sufixos,	determinar	uma	base	de	treinamento,	aplicar	teste	de	
palavras, avaliar a acurácia.
d) (X) Emoções, seleção de textos, remoção de stopwords, 
stemização, determinar uma base de treinamento, aplicar 
teste de palavras, avaliar a acurácia.
5 O Naive Bayes é muito assertivo em cálculos de probabilidades e, 
portanto, é uma excelente técnica na análise de sentimentos. Sobre 
a finalidade do Naive Bayes, assinale a alternativa CORRETA:
a)	(			)	 Naive	Bayes	verifica	o	idioma	de	uma	palavra.
b)	(			)	 Naive	 Bayes	 verifica	 as	 bibilotecas	 Python	 utilizadas	 no	
algoritmo.
c) (X) Naive Bayes categoriza textos com base na frequência das 
palavras.
d) ( ) Naive Bayes categoriza as preposições contidas em um texto.

Mais conteúdos dessa disciplina