Logo Passei Direto
Buscar

Bases de Dados

Colégio Objetivo
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo:
I – Clusterização Paralela.
II – Clusterização baseada em MapReduce.

( ) GPMR.
( ) PBIRCH.
( ) MR-DBSCAN.
( ) G-DBSCAN.

A partir das alternativas abaixo, assin


A I – Clusterização Paralela, II – Clusterização baseada em MapReduce, ( ) GPMR, ( ) PBIRCH, ( ) MR-DBSCAN, ( ) G-DBSCAN.
B II – Clusterização Paralela, I – Clusterização baseada em MapReduce, ( ) GPMR, ( ) PBIRCH, ( ) MR-DBSCAN, ( ) G-DBSCAN.
C I – Clusterização baseada em MapReduce, II – Clusterização Paralela, ( ) GPMR, ( ) PBIRCH, ( ) MR-DBSCAN, ( ) G-DBSCAN.
D II – Clusterização baseada em MapReduce, I – Clusterização Paralela, ( ) GPMR, ( ) PBIRCH, ( ) MR-DBSCAN, ( ) G-DBSCAN.
User badge image
Estudando com Questões

há 3 anos

Respostas

User badge image

Ed Verified user icon

há 3 anos

A resposta correta é a alternativa C: I – Clusterização baseada em MapReduce II – Clusterização Paralela ( ) GPMR ( ) PBIRCH ( ) MR-DBSCAN ( ) G-DBSCAN

Essa resposta te ajudou?

0
Dislike0
details

Libere essa resposta sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Essa pergunta também está no material:

Mais perguntas desse material

Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.

( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.

Assinale a alternativa que apresenta a sequência CORRETA:


A I – IV – V – II – III.
B I – V – IV – III – II.
C II – V – III – IV – I.
D III – IV – II – I – V.

Em relação a essas métricas, associe os itens, conforme o código abaixo:
I – Coeficiente de agrupamento.
II – Coesão.
III – Clique.

( ) É uma medida que representa o grau de ligação existente entre dois vértices.
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.

A partir das alternativas abaixo, assinale a CORRETA:


A III – II – I.
B II – I – III.
C I – II – III.
D II – III – I.

No que se refere à clusterização é CORRETO afirmar que:

É útil para classificar um grupo de objetos com classes já definidas, por exemplo, prever a média de vendas de casas em uma determinada região.
É empregada em situações onde não há conhecimento prévio de uma classe. A classificação é feita mediante agrupamento através de alguma medida de distância.
Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou dissimilaridade elevado.
Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua popularidade, pode se aplicar a praticamente todas as classes de problemas.

Com base nisso, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O processo de Stemming visa extrair um conjunto de palavras-chave em uma sentença.
( ) A remoção de stopwords é necessária para eliminar termos que apenas fazem o elo de ligação entre os elementos do texto.
( ) Erros ortográficos precisam ser corrigidos para melhorar a qualidade dos dados e não penalizar a análise desses dados, é possível realizar essa correção manualmente.
( ) A remoção de números e espaços em branco ou caracteres especiais, muitas vezes, não é necessária, pois não comprometem a análise.
( ) A ‘tokenização’ é o processo de quebrar o texto em tokens e assim extrair termos que podem ser utilizados, por exemplo, para análise de frequência.

A partir das alternativas abaixo, assinale a CORRETA:


A V – F – V – V – F.
B F – F – F – V – V.
C F – V – V – V – V.
D F – V – V – F – V.

Selecione a CORRETA:


A II – I – II – I.
B II – I – I – II.
C I – II – I – II.
D I – II – II – I.

Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:

As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para análise de dados de grande volume.
As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados de forma paralela e dessa forma são mais eficientes que técnicas de SMC.
Embora as técnicas de MMC sejam mais eficientes que abordagens tradicionais, a complexidade do seu uso é um fator determinante para apostar em técnicas de SCM.
A F – V – V.
B V – V – V
C V – V – F.
D V – F – F.

Os textos acima expõem conceitos relacionados ao Processamento de Linguagem Natural (PLN), em relação a esse conceito e suas aplicações é correto afirmar que:

Um dos campos de aplicação é a análise de sentimentos, ao considerar a questão subjetiva extraindo emoções de um discurso. É um tipo de aplicação ainda pouco consolidada e não possui muitos cases, porém, apresenta grande potencial.
Pode ser aplicada tanto em análise de dados estruturados como não estruturados e realiza algumas etapas, como a extração semântica no texto que observa padrões de escrita em uma frase.
A
B

Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
A I – V – IV – III – II.
B III – IV – II – I – V.
C II – V – III – IV – I.
D I – IV – V – II – III.

Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva?


A Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com independência. Procura responder perguntas como: “Por que esse evento aconteceu?” e obtém respostas através de algoritmos de classificação.
B Etapa mais avançada da análise

Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de grandes volumes de dados é conhecida como Hadoop. É uma solução open-source da Apache que possui diversas bibliotecas ou módulos.

Que características do Apache Hadoop são consideradas centrais, tanto para termos de armazenamento como processamento? A partir das alternativas abaixo, assinale a CORRETA:


A Armazenamento por meio de um sistema de arquivos distribuído e processamento computacional veloz e paralelo utilizando GPU para tornar o processo mais eficiente.
B Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em Windows e Ext4 para sistemas Linux, o processamento é feito pelo Hadoop MapReduce que processa paralelamente os dados de forma eficiente.
C Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser gerenciado por uma única máquina além de processamento em GPU para ganho de performance.
D Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de dados de forma distribuída e processamento distribuído por intermédio de um modelo simples e eficiente de programação.

O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses componentes podem ser úteis para as mais diversas finalidades, como armazenamento, transferência de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.

A partir das opções abaixo, classifique V para as sentenças verdadeiras e F para as falsas:

( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes estruturadas.

( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que suporta um grande volume de dados mantendo alto desempenho.

( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.

( ) O Apache Mahou


( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes estruturadas.
( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que suporta um grande volume de dados mantendo alto desempenho.
( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.
( ) O Apache Mahou

t é um componente responsável por trabalhar diretamente com os dados da fonte: extraindo e coletando dados tanto para processamento em lote como em tempo real. A partir das alternativas abaixo, assinale a CORRETA:


A V – V – F – F.
B F – F – V – V.
C V – V – V – F.
D F – V – F – V.

Tendo isso em mente, quais são as principais habilidades requeridas para um profissional de dados? A partir das alternativas abaixo, assinale a CORRETA:


A Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados, experiência prévia em aprendizagem de máquina e pouco conhecimento do conceito de Big Data.
B Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina, habilidades com ferramentas e/ou linguagens de programação e capacidade para transmitir resultados.
C Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e frameworks de Big Data como Apache Spark e PowerBI e domínio de bancos de dados não relacionais.
D Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática, experiência com todos os tipos de dados ou banco de dados (extração e manipulação) e amplo conhecimento do negócio.

Qual seria a solução mais viável para auxiliar esse gestor? A partir das alternativas abaixo, assinale a CORRETA:


A Monitoramento das atividades dos clientes nas redes sociais através da coleta de dados via Spark Streaming, armazenar todos os dados (externos e internos) no HDFS para manter uma base histórica e realizar análises preditivas atribuindo scores para mensurar a aderência do cliente à organização.
B Construção de uma arquitetura de BI híbrida (lote e dados em tempo real). A coleta de dados poderia ficar a cargo do Sqoop e o armazenamento de dados a cargo do Spark. Os dados podem ser analisados por algoritmos de mineração de dados para mapear as atividades dos clientes.
C Aplicação de processos tradicionais de ETL e armazenamento de dados no Data Lake ou Data Warehouse. Posteriormente esses dados podem ser processados via Hadoop MapReduce. Além disso, modelos de Machine Learning podem ser aplicados para prever se um cliente sairá ou não da empresa.
D Coleta dos dados estruturados utilizando o HiveQL e armazenamento em batch (lote) utilizando o HDFS do Hadoop e análise tradicional em cluster para agrupar clientes com mais fidelidade em um mesmo grupo, enquanto que outros formam um segundo grupo.

No que é necessário refletir antes de implementar uma aplicação para análise de cluster? A partir das alternativas abaixo, assinale a CORRETA:


A Verificar a quantidade de dados que será processada, bem como a variedade, mensurar os parâmetros que serão necessários para as próximas etapas, assim como avaliar a dimens

Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura tradicional deve ter? A partir das alternativas abaixo, assinale a CORRETA:


A. Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e externas). Implementação de estrutura que suporte armazenamento e processamento em larga escala tanto para dados em lote quanto em fluxo contínuo.
B. Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma transparente e única. É necessário alto investimento em máquinas que possam suportar o armazenamento e processamento paralelo a fim de que seja possível analisar os dados e entregá-los à camada de apresentação.
C. Capacidade para armazenar e processar grandes volumes de dados entregando a informação certa no tempo certo. Para isso é necessário definir uma camada de extração e ingestão de dados eficiente, política de armazenamento, definição do tipo de análise e uma camada para apresentação de resultados.
D. Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de um sólido mecanismo de coleta e armazenamento de dados no Hadoop para processar grandes volumes de dados em tempo real e uma camada de visualização que será útil para gestores de negócio extrair insights.

Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.

( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.

Assinale a alternativa que apresenta a sequência CORRETA:


A I – IV – V – II – III.
B I – V – IV – III – II.
C II – V – III – IV – I.
D III – IV – II – I – V.

Em relação a essas métricas, associe os itens, conforme o código abaixo:
I – Coeficiente de agrupamento.
II – Coesão.
III – Clique.

( ) É uma medida que representa o grau de ligação existente entre dois vértices.
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.

A partir das alternativas abaixo, assinale a CORRETA:


A III – II – I.
B II – I – III.
C I – II – III.
D II – III – I.

Mais conteúdos dessa disciplina