Grátis: 4 A análise de cluster pode ser utilizada em inúmeras aplicações do cotidiano. Além disso, as técnicas e algoritmos que podem ser empregados precis...

Tecnologia da Informação

Outros

4 A análise de cluster pode ser utilizada em inúmeras aplicações do cotidiano. Além disso, as técnicas e algoritmos que podem ser empregados precisam ser bem escolhidos para aumentar as chances de sucesso. Diante disso, no que é necessário refletir antes de implementar uma aplicação para análise de cluster?

A partir das alternativas abaixo, assinale a CORRETA:

A Verificar e validar requisitos da aplicação, assim como selecionar uma ferramenta de Big Data adequada para garantir o rápido armazenamento e processamento dos dados.
B Checar a quantidade de parâmetros que serão úteis para a aplicação, decidir que tipo de banco de dados (relacional ou não relacional) será utilizado e estruturar uma arquitetura capaz de suportar o tráfego de dados.
C Garantir uma arquitetura robusta para suportar o volume e variedade dos dados, bem como optar por uma ferramenta que possa fornecer suporte à análise paralela em cluster.
D Verificar a quantidade de dados que será processada, bem como a variedade, mensurar os parâmetros que serão necessários para as próximas etapas, assim como avaliar a dimensionalidade.

Aprendendo com Desafios

há 3 anos

Aprendendo com Desafios

há 3 anos

15 pág.

Avaliação da Disciplina

IFSC

Respostas

há 3 anos

A alternativa correta é a C) Garantir uma arquitetura robusta para suportar o volume e variedade dos dados, bem como optar por uma ferramenta que possa fornecer suporte à análise paralela em cluster.

Essa resposta te ajudou?

Libere essa resposta sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Essa pergunta também está no material:

15 pág.

Avaliação da Disciplina

IFSC

Mais perguntas desse material

Qual seria a solução mais viável para auxiliar esse gestor? A partir das alternativas abaixo, assinale a CORRETA:

A
Monitoramento das atividades dos clientes nas redes sociais através da coleta de dados via Spark Streaming, armazenar todos os dados (externos e internos) no HDFS para manter uma base histórica e realizar análises preditivas atribuindo scores para mensurar a aderência do cliente à organização.
B
Coleta dos dados estruturados utilizando o HiveQL e armazenamento em batch (lote) utilizando o HDFS do Hadoop e análise tradicional em cluster para agrupar clientes com mais fidelidade em um mesmo grupo, enquanto que outros formam um segundo grupo.
C
Aplicação de processos tradicionais de ETL e armazenamento de dados no Data Lake ou Data Warehouse. Posteriormente esses dados podem ser processados via Hadoop MapReduce. Além disso, modelos de Machine Learning podem ser aplicados para prever se um cliente sairá ou não da empresa.
D
Construção de uma arquitetura de BI híbrida (lote e dados em tempo real). A coleta de dados poderia ficar a cargo do Sqoop e o armazenamento de dados a cargo do Spark. Os dados podem ser analisados por algoritmos de mineração de dados para mapear as atividades dos clientes.

Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva? A partir das alternativas abaixo, assinale a CORRETA:

A
Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma automatizada com mínima intervenção humana. Isso é possível graças às experiências desenvolvidas que são aperfeiçoadas ao longo do tempo.
B
É um processo voltado para responder perguntas do passado para inferir situações que venham a ocorrer. Por isso, a participação humana é importante para fornecer suporte e aprimorar as decisões obtidas pelos algoritmos implementados.
C
É um tipo de análise voltado para responder apenas perguntas de situações que ainda não ocorreram, mas que provavelmente venham a ocorrer. Isso é obtido através da criação de modelos de aprendizagem de máquina avançados.
D
Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com independência. Procura responder perguntas como: “Por que esse evento aconteceu?” e obtém respostas através de algoritmos de classificação.

Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de densidade.
( ) Métodos de particionamento.
( ) Métodos de grade.

( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.

Assinale a alternativa que apresenta a sequência CORRETA:

A I – V – IV – III – II.
B III – IV – II – I – V.
C I – IV – V – II – III.
D II – V – III – IV – I.

No que se refere à clusterização é CORRETO afirmar que:

A Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua popularidade, pode se aplicar a praticamente todas as classes de problemas.
B É útil para classificar um grupo de objetos com classes já definidas, por exemplo, prever a média de vendas de casas em uma determinada região.
C É empregada em situações onde não há conhecimento prévio de uma classe. A classificação é feita mediante agrupamento através de alguma medida de distância.
D Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou dissimilaridade elevado.

As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas de Multi Machine Clustering, o que é possível afirmar?

A partir das alternativas abaixo, assinale a CORRETA:

A São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta complexidade de implementação inviabiliza projetos de análises mais amplos.
B É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o processo de paralelização menos complexo para o desenvolvedor.
C Apresentam como grande característica o alto poder de processamento com implementação de baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH.

6 ache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.

( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da fonte: extraindo e coletando dados tanto para processamento em lote como em tempo real.

A partir das alternativas abaixo, assinale a CORRETA:

A F – V – F – V.
B V – V – F – F.
C F – F – V – V.
D V – V – V – F.

Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo:
I – Dados estruturados.
II – Dados semiestruturados.
III – Dados não estruturados.
São dados que apresentam uma estrutura flexível e autodescritiva.
São dados que apresentam uma estrutura bem definida com tamanho fixo.
São dados que não apresentam uma estrutura e são descritos em linguagem natural.
A I – III – II.
B II – I – III.
C II – III – I.
D I – II – III.

O Apache Spark oferece não somente a capacidade de processamento, como também a possibilidade de realizar análises mais avançadas através de um conjunto de bibliotecas. Considerando isso, associe os itens, conforme o código abaixo:
I – Spark SQL.
II – Spark Streaming.
III – Spark MLlib.
IV – Spark GraphX.
Contém um conjunto de algoritmos otimizados de Machine Learning projetados para trabalharem em paralelo.
Projetadas para processar estruturas em rede de forma otimizada e com elevada eficiência.
É possível realizar consultas e processar dados estruturados em ambiente Big Data de forma ágil.
Útil para manipular e processar dados de tempo real, analisando microbacths de dados de tempos em tempos.
A IV – III – I – II.
B II – III – IV – I.
C III – II – I – IV.
D III – IV – I – II.

Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que pudessem analisar seus dados. Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo. Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:

As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções automáticas de análise a fim de se manterem competitivas.
As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em muitos casos não sabem como gerenciá-los.
A elevada produção de conteúdo implica em um problema de sobrecarga de informação, evidenciando as limitações da ação humana para lidar com isso.
A F – V – V.
B V – F – F.
C V – V – V.
D V – F – V.

A definição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e pode ajudar diretamente gestores de negócio em suas tomadas de decisão.

Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura tradicional deve ter?
Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de um sólido mecanismo de coleta e armazenamento de dados no Hadoop para processar grandes volumes de dados em tempo real e uma camada de visualização que será útil para gestores de negócio extrair insights.
Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma transparente e única. É necessário alto investimento em infraestrutura para suportar as demandas de Big Data.
Implementação de um sólido mecanismo de coleta e armazenamento de dados no Hadoop para processar grandes volumes de dados em tempo real e uma camada de visualização que será útil para gestores de negócio extrair insights. Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma transparente e única.
A
Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de um sólido mecanismo de coleta e armazenamento de dados no Hadoop para processar grandes volumes de dados em tempo real e uma camada de visualização que será útil para gestores de negócio extrair insights.
B
Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma transparente e única. É necessário alto investimento em infraestrutura para suportar as demandas de Big Data.

Em relação a esses tipos de dados é correto afirmar que:

A São pouco percebidos pelas empresas por conta da complexidade em lidar com essas estruturas. São extremamente custosos se comparados ao formato estruturado e carecem de técnicas para melhorar o processo de análise.
B São dados difíceis de serem decifrados ou compreendidos pela máquina, por conta da sua estrutura. A linguagem humana é incompreensível pela máquina, o que torna o processo de descoberta de conhecimento inviável.
C São de vital importância para as empresas, porém, são pouco explorados e apresentam baixo poder de aplicabilidade. Google e IBM são algumas das poucas empresas que investem recursos em análise de dados textuais.
D Apresentam formato livre e são produzidos pela linguagem humana. Para que seja possível realizar a análise existe a necessidade de transformá-los em um formato estruturado.

Em relação a essas métricas, associe os itens, conforme o código abaixo:

I – Coeficiente de agrupamento.

II – Coesão.

III – Clique.

( ) É uma medida que representa o grau de ligação existente entre dois vértices.

( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.

( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.

A partir das alternativas abaixo, assinale a CORRETA:

A II – III – I.
B I – II – III.
C II – I – III.
D III – II – I.

Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:

I – Algoritmos DIANA, ROCK.

II – Algoritmos DBSCAN, OPTICS.

III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)

IV – Algoritmos K-Means, CLARANS.

V – Algoritmos STING, WAVECLUSTER.

( ) Métodos hierárquicos.

( ) Métodos baseados em grid.

( ) Métodos de particionamento.

( ) Métodos baseados em modelos.

( ) Métodos baseados em densidade.

Assinale a alternativa que apresenta a sequência CORRETA:

A III – IV – II – I – V.
B I – IV – V – II – III.
C I – V – IV – III – II.
D II – V – III – IV – I.

Em relação aos métodos hierárquicos é CORRETO afirmar que:

A Divide o cluster através de níveis, onde os objetos alocados nos níveis superiores da árvore são mais próximos entre si.
B Apresenta como vantagem a simplicidade e o fato de ser eficiente, mesmo em situações onde o conjunto de dados é significativo.
C Define aleatoriamente um ponto de partida para o parâmetro K e assim tenta otimizar o resultado ao longo das iterações.
D Agrupa um conjunto de pontos de dados em uma estrutura de árvore (dendograma) e fornece boa capacidade para comunicação dos resultados.

Nesse sentido, dentre as três fases da web, qual destas representou a gênese para explosão dos dados?

A Na Web 1.0 que representou o primeiro contato dos usuários em relação à web.
B Na Web 3.0 a partir da geração de conteúdo por parte do usuário e a compreensão semântica de suas atividades na rede.
C Na Web 2.0 onde os usuários passaram a gerar conteúdo a partir de sistemas dinâmicos.
D Entre a Web 1.0 e Web 2.0 com o surgimento das primeiras redes sociais.

Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo:
I – Clusterização Paralela.
II – Clusterização baseada em MapReduce.
( ) GPMR.
( ) PBIRCH.
( ) MR-DBSCAN.
( ) G-DBSCAN.
A I – II – I – II.
B II – I – I – II.
C I – II – II – I.
D II – I – II – I.

Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas:
É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas.
Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos.
Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação.
Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação.

A F – V – V – V.
B V – V – V – F.
C F – F – V – V.
D F – V – V – F.

Os textos acima expõem conceitos relacionados ao Processamento de Linguagem Natural (PLN), em relação a esse conceito e suas aplicações é correto afirmar que:

A Tem como fundamento compreender o contexto no qual um discurso foi empregado, por meio de análises léxicas, sintáticas, semânticas, etc., como é caso quando deseja-se converter voz em texto.
B Pode ser aplicada tanto em análise de dados estruturados como não estruturados e realiza algumas etapas, como a extração semântica no texto que observa padrões de escrita em uma frase.
C Um dos campos de aplicação é a análise de sentimentos, ao considerar a questão subjetiva extraindo emoções de um discurso. É um tipo de aplicação ainda pouco consolidada e não possui muitos cases, porém, apresenta grande potencial.
D Basicamente, realiza a análise de texto em grandes volumes de dados, por exemplo, análise de posts no Facebook. A PLN é um campo definitivamente consolidado.

Tecnologia da Informação

Avaliação da Disciplina

Respostas

Libere essa resposta sem enrolação!

Ainda com dúvidas?

Essa pergunta também está no material:

Avaliação da Disciplina

( ) Métodos baseados em modelos.( ) Métodos baseados em densidade.Assinale a alternativa que apresenta a sequência CORRETA:A I – V – IV – III – II.B III – IV – II – I – V.C I – IV – V – II – III.D II – V – III – IV – I.

Mais conteúdos dessa disciplina

( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.

Assinale a alternativa que apresenta a sequência CORRETA:

A I – V – IV – III – II.
B III – IV – II – I – V.
C I – IV – V – II – III.
D II – V – III – IV – I.