Grátis: Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências para análise de Big Data. A respeito disso, class...

Desenvolvimento de Software

Outros

Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências para análise de Big Data.
A respeito disso, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A forma de processamento tradicional dos computadores poderá dar espaço para os computadores quânticos, que prometem alto poder de armazenamento e processamento. ( ) A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem. A ideia é tratar e analisar dados tão logo sejam coletados das fontes, por isso o termo “borda”, ou seja, próximo a elas. ( ) A intensificação do uso de análise preditiva é algo que será percebido ao longo dos anos. A aposta é de que esse campo da Inteligência Artificial seja incorporado nas empresas e se tornará onipresente dentro de seus processos. ( ) A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e são apresentados a estes robôs, maiores são as chances de aprendizado e automação de tarefas cotidianas. A partir das alternativas abaixo, assinale a CORRETA:
A F – V – F – V.
B V – F – V – V.
C F – V – F – F.
D V – V – V – V.

Tópicos de Análise e Desenvolvimento de Sistemas

há 6 horas

Tópicos de Análise e Desenvolvimento de Sistemas

há 6 horas

9 pág.

Avaliação da Disciplina Big Data Analytic e a Tomada de Decisões

ENAP

Respostas

há 6 horas

Vamos analisar cada sentença: 1) "A forma de processamento tradicional dos computadores poderá dar espaço para os computadores quânticos, que prometem alto poder de armazenamento e processamento." Verdadeiro (V). Computação quântica é uma tendência futura que promete revolucionar o processamento e armazenamento de dados. 2) "A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem. A ideia é tratar e analisar dados tão logo sejam coletados das fontes, por isso o termo “borda”, ou seja, próximo a elas." Verdadeiro (V). Edge Computing processa dados próximos à fonte, podendo complementar ou substituir a nuvem em certos casos. 3) "A intensificação do uso de análise preditiva é algo que será percebido ao longo dos anos. A aposta é de que esse campo da Inteligência Artificial seja incorporado nas empresas e se tornará onipresente dentro de seus processos." Verdadeiro (V). Análise preditiva é uma tendência crescente em Big Data e IA. 4) "A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e são apresentados a estes robôs, maiores são as chances de aprendizado e automação de tarefas cotidianas." Verdadeiro (V). Chatbots evoluem com dados e aprendizado, automatizando tarefas. Sequência correta: V – V – V – V. Alternativa correta: D) V – V – V – V.

Essa resposta te ajudou?

Ainda não achou a resposta?

Integrado com os principais modelos de IA do mercado
Respostas em segundos
IA treinada para estudantes brasileiros.

Evolua sua forma de estudar

Cadastre-se ou realize login

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Essa pergunta também está no material:

9 pág.

Avaliação da Disciplina Big Data Analytic e a Tomada de Decisões

ENAP

Mais perguntas desse material

A demanda por profissionais de análise de dados ampliou o escopo de exigências destes profissionais. As empresas estão interessadas em profissionais capacitados e que tenham habilidades em trabalhar com dados.
Tendo isso em mente, quais são as principais habilidades requeridas para um profissional de dados? A partir das alternativas abaixo, assinale a CORRETA:
A) Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados, experiência prévia em aprendizagem de máquina e pouco conhecimento do conceito de Big Data.
B) Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática, experiência com todos os tipos de dados ou banco de dados (extração e manipulação) e amplo conhecimento do negócio.
C) Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e frameworks de Big Data como Apache Spark e PowerBI e domínio de bancos de dados não relacionais.
D) Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina, habilidades com ferramentas e/ou linguagens de programação e capacidade para transmitir resultados.

O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses componentes podem ser úteis para as mais diversas finalidades, como armazenamento, transferência de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.
A partir das opções abaixo, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes estruturadas.
( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que suporta um grande volume de dados mantendo alto desempenho.
( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.
( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da fonte: extraindo e coletando dados tanto para processamento em lote como em tempo real.
A) F – V – F – V.
B) F – F – V – V.
C) V – V – F – F.
D) V – V – V – F.

A definição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e pode ajudar diretamente gestores de negócio em suas tomadas de decisão.
Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura tradicional deve ter? A partir das alternativas abaixo, assinale a CORRETA:
A) Capacidade para armazenar e processar grandes volumes de dados entregando a informação certa no tempo certo. Para isso é necessário definir uma camada de extração e ingestão de dados eficiente, política de armazenamento, definição do tipo de análise e uma camada para apresentação de resultados.
B) Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e externas). Implementação de estrutura que suporte armazenamento e processamento em larga escala tanto para dados em lote quanto em fluxo contínuo.
C) Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de um sólido mecanismo de coleta e armazenamento de dados no Hadoop para processar grandes volumes de dados em tempo real e uma camada de visualização que será útil para gestores de negócio extrair insights.
D) Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma transparente e única. É necessário alto investimento em máquinas que possam suportar o armazenamento e processamento paralelo a fim de que seja possível analisar os dados e entregá-los à camada de apresentação.

O HDFS é um sistema de arquivos do Hadoop que permite armazenar grandes volumes de dados e possui uma arquitetura que apresenta alguns componentes importantes.
Dentre os componentes principais da arquitetura do HDFS, assinale a alternativa CORRETA.
A) O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e gerenciar as tarefas de armazenamento, enquanto que o segundo realiza as atividades diretamente nas máquinas destino.
B) O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao armazenamento e processamento dos dados diretamente no cluster “pai”, enquanto que o segundo apenas obedece às instruções do pai e o notifica quando for o caso.
C) O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia todos os dados que chegam ao sistema e notifica aos escravos (Data Node) em caso de falha. Estes apenas executam as tarefas solicitadas.
D) O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque controla todas as atividades relacionadas ao armazenamento físico dos dados em cada nó, enquanto o segundo processa os dados e comunica ao mestre.

A clusterização é uma técnica de aprendizagem não supervisionada que visa classificar um conjunto de dados semelhantes em um mesmo grupo.
No que se refere à clusterização é CORRETO afirmar que:
A) Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou dissimilaridade elevado.
B) Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua popularidade, pode se aplicar a praticamente todas as classes de problemas.
C) É útil para classificar um grupo de objetos com classes já definidas, por exemplo, prever a média de vendas de casas em uma determinada região.
D) É empregada em situações onde não há conhecimento prévio de uma classe. A classificação é feita mediante agrupamento através de alguma medida de distância.

As métricas de segmentação representam outra classe de medidas para análise de redes sociais. Em relação a essas métricas, associe os itens, conforme o código abaixo:
A partir das alternativas abaixo, assinale a CORRETA:
I – Coeficiente de agrupamento.
II – Coesão.
III – Clique.
( ) É uma medida que representa o grau de ligação existente entre dois vértices.
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.
A I – II – III.
B III – II – I.
C II – I – III.
D II – III – I.

Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência de toda complexidade de implementação envolvida com a distribuição dos dados entre os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer durante o processo.
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo: I – Clusterização Paralela. II – Clusterização baseada em MapReduce. ( ) GPMR. ( ) PBIRCH. ( ) MR-DBSCAN. ( ) G-DBSCAN. A partir das alternativas abaixo, assinale a CORRETA:
A) II – I – I – II.
B) I – II – I – II.
C) II – I – II – I.
D) I – II – II – I.

Dados não estruturados ou desestruturados compreendem cerca de 80% de toda gama de dados disponíveis para extração e análise de dados.
Em relação a esses tipos de dados é correto afirmar que:
A) Apresentam formato livre e são produzidos pela linguagem humana. Para que seja possível realizar a análise existe a necessidade de transformá-los em um formato estruturado.
B) São dados difíceis de serem decifrados ou compreendidos pela máquina, por conta da sua estrutura. A linguagem humana é incompreensível pela máquina, o que torna o processo de descoberta de conhecimento inviável.
C) São pouco percebidos pelas empresas por conta da complexidade em lidar com essas estruturas. São extremamente custosos se comparados ao formato estruturado e carecem de técnicas para melhorar o processo de análise.
D) São de vital importância para as empresas, porém, são pouco explorados e apresentam baixo poder de aplicabilidade. Google e IBM são algumas das poucas empresas que investem recursos em análise de dados textuais.

A análise de cluster pode ser utilizada em inúmeras aplicações do cotidiano. Além disso, as técnicas e algoritmos que podem ser empregados precisam ser bem escolhidos para aumentar as chances de sucesso. Diante disso, no que é necessário refletir antes de implementar uma aplicação para análise de cluster?
A partir das alternativas abaixo, assinale a CORRETA:
A Garantir uma arquitetura robusta para suportar o volume e variedade dos dados, bem como optar por uma ferramenta que possa fornecer suporte à análise paralela em cluster.
B Verificar e validar requisitos da aplicação, assim como selecionar uma ferramenta de Big Data adequada para garantir o rápido armazenamento e processamento dos dados.
C Checar a quantidade de parâmetros que serão úteis para a aplicação, decidir que tipo de banco de dados (relacional ou não relacional) será utilizado e estruturar uma arquitetura capaz de suportar o tráfego de dados.
D Verificar a quantidade de dados que será processada, bem como a variedade, mensurar os parâmetros que serão necessários para as próximas etapas, assim como avaliar a dimensionalidade.

As fontes de dados podem ser externas - quando se referem a fontes em que a organização não tem total controle – ou internas, quando a organização possui total controle. Ambas são úteis para análise em Big Data, visto que podem fornecer uma visão mais ampla de como o negócio está posicionado no mercado. Sobre a estrutura dos dados contidos nas fontes, é possível classificar em: dados estruturados, semiestruturados e não estruturados.
Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo: I – Dados estruturados.II – Dados semiestruturados.III – Dados não estruturados. ( ) São dados que apresentam uma estrutura flexível e autodescritiva. ( ) São dados que apresentam uma estrutura bem definida com tamanho fixo. ( ) São dados que não apresentam uma estrutura e são descritos em linguagem natural. Assinale a alternativa que apresenta a sequência CORRETA dos itens:
A I – III – II.
B I – II – III.
C II – III – I.
D II – I – III.

Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
Assinale a alternativa que apresenta a sequência CORRETA:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
A) II – V – III – IV – I.
B) III – IV – II – I – V.
C) I – IV – V – II – III.
D) I – V – IV – III – II.

No dia a dia as decisões para análise de Big Data precisam ser assertivas, ou seja, é necessário saber qual o objetivo da análise para que as soluções realmente possam atender ao real desejo da organização. Nesse sentido, imagine um pequeno cenário: - Um gestor de uma grande empresa alimentícia possui diversos sistemas com grandes volumes de dados de TI (CRM, ERP, Bases relacionais e diversos formatos de arquivos). Ele gostaria de monitorar os clientes que são mais aderentes (ou mais fiéis) à empresa, com informações mais atualizadas possíveis. O objetivo é, além de manter aqueles clientes com maior aderência, aproximar aqueles que porventura estejam um pouco mais distantes da empresa e com real possibilidade de deixarem de ser clientes fixos.
Qual seria a solução mais viável para auxiliar esse gestor? A partir das alternativas abaixo, assinale a CORRETA:
A Coleta dos dados estruturados utilizando o HiveQL e armazenamento em batch (lote) utilizando o HDFS do Hadoop e análise tradicional em cluster para agrupar clientes com mais fidelidade em um mesmo grupo, enquanto que outros formam um segundo grupo.
B Monitoramento das atividades dos clientes nas redes sociais através da coleta de dados via Spark Streaming, armazenar todos os dados (externos e internos) no HDFS para manter uma base histórica e realizar análises preditivas atribuindo scores para mensurar a aderência do cliente à organização.
C Construção de uma arquitetura de BI híbrida (lote e dados em tempo real). A coleta de dados poderia ficar a cargo do Sqoop e o armazenamento de dados a cargo do Spark. Os dados podem ser analisados por algoritmos de mineração de dados para mapear as atividades dos clientes.
D Aplicação de processos tradicionais de ETL e armazenamento de dados no Data Lake ou Data Warehouse. Posteriormente esses dados podem ser processados via Hadoop MapReduce. Além disso, modelos de Machine Learning podem ser aplicados para prever se um cliente sairá ou não da empresa.

As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas de Multi Machine Clustering, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:
A São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta complexidade de implementação inviabiliza projetos de análises mais amplos.
B É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda, inclusive, torna o processo de paralelização mais transparente para o desenvolvedor.
C É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o processo de paralelização menos complexo para o desenvolvedor.
D Apresentam como grande característica o alto poder de processamento com implementação de baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH.

Um processo de análise de dados pode ser representado em quatro etapas. Cada uma dessas etapas possui particularidades que vão desde a base para implementação de análise de dados nas empresas até profundos e sofisticados mecanismos de análise dentro das organizações. Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva? A partir das alternativas abaixo, assinale a CORRETA: A) Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com independência. Procura responder perguntas como: “Por que esse evento aconteceu?” e obtém respostas através de algoritmos de classificação. B) É um tipo de análise voltado para responder apenas perguntas de situações que ainda não ocorreram, mas que provavelmente venham a ocorrer. Isso é obtido através da criação de modelos de aprendizagem de máquina avançados. C) Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma automatizada com mínima intervenção humana. Isso é possível graças às experiências desenvolvidas que são aperfeiçoadas ao longo do tempo. D) É um processo voltado para responder perguntas do passado para inferir situações que venham a ocorrer. Por isso, a participação humana é importante para fornecer suporte e aprimorar as decisões obtidas pelos algoritmos implementados.

O Apache Spark oferece não somente a capacidade de processamento, como também a possibilidade de realizar análises mais avançadas através de um conjunto de bibliotecas. Considerando isso, associe os itens, conforme o código abaixo:
A partir das alternativas abaixo, assinale a CORRETA:
I – Spark SQL.
II – Spark Streaming.
III – Spark MLlib.
IV – Spark GraphX.
( ) Contém um conjunto de algoritmos otimizados de Machine Learning projetados para trabalharem em paralelo.
( ) Projetadas para processar estruturas em rede de forma otimizada e com elevada eficiência.
( ) É possível realizar consultas e processar dados estruturados em ambiente Big Data de forma ágil.
( ) Útil para manipular e processar dados de tempo real, analisando microbacths de dados de tempos em tempos.
A) IV – III – I – II.
B) III – IV – I – II.
C) III – II – I – IV.
D) II – III – IV – I.

Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD.
Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas: ( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas. ( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos. ( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação. ( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação. A partir das alternativas abaixo, assinale a CORRETA:
A) F – V – V – F.
B) V – V – V – F.
C) F – F – V – V.
D) F – V – V – V.

Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que limita o poder de ação dos algoritmos. E, em muitos casos, algumas circunstâncias tornam o processo de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns fatores, quais destes é possível destacar?
A partir das alternativas abaixo, assinale a CORRETA:
A) O volume intenso e variado de dados que estão sendo gerados e requeridos para análise.
B) O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de performance.
C) O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise tradicionais.
D) A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos anômalos.

Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus recursos em análise de dados?
A partir das alternativas abaixo, assinale a CORRETA:
A) Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido.
B) Automatização de processos, incentivos fiscais e mão de obra barata.
C) Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
D) Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico.

Desenvolvimento de Software

Avaliação da Disciplina Big Data Analytic e a Tomada de Decisões

Respostas

Ainda não achou a resposta?

Ainda com dúvidas?

Essa pergunta também está no material:

Avaliação da Disciplina Big Data Analytic e a Tomada de Decisões

Mais conteúdos dessa disciplina