Prévia do material em texto
27/12/25, 11:42 Avaliação da Disciplina A+ Alterar modo de visualização Peso da Avaliação 10,00 Prova 110631520 Qtd. de Questões 20 Nota 10,00 1 JSON (JavaScript object Notation) é uma forma de armazenamento e transmissão de dados em formato de texto. Sua forma simples e compacta de estruturar informações tem ganhado espaço em aplicações em que o formato XML reinava até então como em aplicações Web, por exemplo. A Google é uma das empresas que se destaca na utilização de JSON, tendo inclusive desenvolvido a biblioteca Gson inicialmente para fins internos, que tem como finalidade a conversão de objetos Java em JSON. No que se refere aos tipos de dados, um documento JSON contém: A Dados estruturados. B Dados semiestruturados. Dados do tipo NoSQL. D Dados não estruturados. 2 As soluções do Cloudera para clusters oferecem escalabilidade, flexibilidade, integração da plataforma que torna fácil o gerenciamento de grandes volumes e variedades de dados na maioria dos empreendimentos. Essa ferramenta permite a implantação e gerenciamento do Apache Hadoop e de projetos relacionados para manipular e analisar os dados, bem como mantê-los. Selecione a alternativa correta que traz os itens do ambiente cloudera. A HDFS, Cloudera DB, Cloudera Manager, Cloudera System. B CDH, Cloudera Impala, Cloudera Manager,Cloudera Navigator. HDFS, Cloudera Impala, Cloudera Manager,NoSQL. D CDH, Cloudera Databases, Cloudera Manager,Cloudera Chrome. 3 Spark começou com as discussões do nosso grupo de pesquisa com usuários do Hadoop dentro e fora da universidade, à medida que as organizações começaram a carregar mais dados no Hadoop, eles rapidamente queriam executar aplicativos avançados que o modelo de processamento em lote de passagem única do MapReduce não oferece suporte eficiente. about:blank 1/827/12/25, 11:42 Avaliação da Disciplina Acesso em: 1° out. 2019. Assinale a alternativa que melhor representa o problema pelo qual o Apache Spark tem como objetivo resolver. A Criar um novo sistema de arquivos distribuídos ou melhorar o HDFS. B Criar um novo sistema gerenciador de banco de dados NoSQL. Criar uma nova linguagem de programação para substituir o Python e Scala. D Criar algoritmos mais complexos e de múltiplas passagens, como os algoritmos iterativos comuns no aprendizado de máquina e processamento de gráficos. 4 A explosão exponencial de dados digitais forçou pesquisadores a encontrarem novas formas de ver e analisar o mundo. Trata-se de descobrir novas ordens de grandeza para capturar, pesquisar, compartilhar, armazenar, analisar e apresentar dados. É assim que o "big data" nasceu, um conceito para armazenar uma quantidade enorme de informações em uma base digital. Selecione a alternativa CORRETA com a linguagem de programação considerada a linguagem tendência para Big Data. A Python. Delphi. C++. D Visual Basic. 5 Big Data é uma das grandes revoluções dos últimos anos e veio para ficar no mercado mundial. Pode ser que os termos se modifiquem com o passar do tempo, mas o grande conceito que precisa ser compreendido é a possibilidade existente no mundo atual de se ter uma quantidade imensa de dados armazenados, com uma variedade infinitamente superior à do passado, podendo ser trabalhados, analisados, cruzados e interpretados com muito mais velocidade e eficácia. A busca por informação sempre foi primordial em qualquer mercado e é extremamente importante coletar e organizar os dados disponíveis, seja nos processos que movimentam o negócio ou mesmo no meio externo a organização. FONTE: https://www.proof.com.br/blog/o-que-e-big-data/Acesso em: 30 set. 2019. Sobre as alternativas que melhor define VARIEDADE, em cenário de Big Data, assinale a alternativa CORRETA: A A Variedade pode ser compreendida como um banco de dados com ênfase em transação, alimentado por diversas fontes. Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido B aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados produzidos. A Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados produzidos. about:blank 2/827/12/25, 11:42 Avaliação da Disciplina D A Variedade se remete aos diversos dispositivos de coleta, bem como aos tipos de dados que podem ser estruturados, semiestruturados e não estruturados. 6 De acordo com o especialista, estima-se que o número de aparelhos ligados à Internet, em 2017, atinja os 8,4 milhões, o que representa um crescimento de 31% em relação a 2016, número que poderá chegar aos 20 mil milhões em 2020. caminho-a-percorrer. Acesso em: 9 maio 2019. Qual sistema gerenciador de banco de dados lida com dados não estruturados, semiestruturados e estruturados? A Sistema de gerenciamento de dados hierárquico B Sistema de armazenamento de arquivos Sistema de banco de dados NoSQL D Sistema de banco de dados relacional (SQL) 7 projeto Apache Hadoop foi criado no ano de 2005 por Doug Cutting, que colocou o nome de Hadoop em homenagem ao seu filho, pois este era o nome do elefante de pelúcia de seu filho. Doug Cutting desenvolveu uma estrutura de arquivos distribuídos baseados em dois artigos disponibilizados sobre tecnologias desenvolvidas pelo Google. Selecione a alternativa CORRETA que traz o nome de tecnologias desenvolvidas pelo Google que serviram de base para a criação do Hadoop. A Google Earth e Google File System. B Google Drive e Google Reduce. Google Map Reduce e Google File System (GFS). D Google Earth e Google Mail. 8 Apache Hadoop é uma estrutura em código aberto para armazenamento e processamento distribuídos de grandes conjuntos de dados em hardware simples. Hadoop permite que as empresas obtenham insights de quantidades de dados enormes, estruturados e desestruturados de forma rápida. FONTE: Acesso em: 21 jul em: 21 jul 2019. Sobre os fatos a serem considerados antes de descarregar os dados no Hadoop, assinale a alternativa CORRETA: A Se os dados são relevantes para consulta. B Formatos de armazenamento de dados. about:blank 3/827/12/25, 11:42 Avaliação da Disciplina Se os dados são imagens. D A data dos arquivos. 9 No que se refere à análise de informações, o dado é um fator primordial. Sem ele nada seria possível em um cenário de conceitos, é a matéria-prima para todo um processo de geração de informação e conhecimento. Os dados podem ser compreendidos como: estruturados, não estruturados e semiestruturado. Sobre os dados estruturados, assinale a alternativa CORRETA: A São aqueles que necessitam de algum processamento para se descobrir uma estrutura. São dados que tem estrutura. São dados que estão armazenados em uma estrutura previamente definida, tradicionalmente os softwares tradicionais os utilizam na forma de SGBDR (Sistemas Gerenciadores de Bancos de Dados Relacionais) ou BDR (Bancos de Dados Relacionais). D Tal estrutura é incremental e vai se alterando no passar do tempo. São exemplos de dados semiestruturados: planilhas Excel, arquivos CSV, documentos XML, documentos JSON. 10 Diferentemente de um banco de dados relacional comum, o banco orientado a grafos é muito mais simples de desenhar. Não precisa de tabelas. Não precisa de chaves primárias (embora seja útil criar unique indexes para nós). Não precisa de um design complexo de tabelas para começar a incluir os dados. em: 27 jun. 2019. Sobre os bancos de dados orientados a grafos, assinale a alternativa CORRETA: A Devido a sua dinamicidade não é possível realizar a modelagem de dados de bancos de dados orientados a grafos. Os bancos de dados orientados a grafos são acessados somente de modo visual, sem comandos específicos. É possível realizar a modelagem, na qual o modelo de dados gráficos é frequentemente referido como sendo "quadro branco D Graças a esse tipo de banco de dados, os gerentes têm a possibilidade de controlar como o mercado está reagindo às ações da empresa. 11 Apache Spark é implementado em conjunto com um cluster do Hadoop, e o Spark pode se beneficiar de vários recursos como resultado. Por si só, o Spark é uma ferramenta poderosa para processar grandes volumes de dados, porém o Spark ainda não é adequado para cargas de trabalho de produção na empresa. Sobre a relação entre Spark e Hadoop, classifique V para sentenças verdadeiras e F para as falsas. ( ) Fazem as mesmas coisas.( ) Você pode usar um sem o outro.( ) Spark é mais rápido. ( ) Recuperações diferentes face a falhas. Assinale a alternativa que apresenta a sequência CORRETA: about:blank 4/827/12/25, 11:42 Avaliação da Disciplina A V-V-V-V. B V-V-F-V. D V-V-V-F. 12 Nos dias de hoje geramos muito mais dados com dispositivos como celular e TVs. Além disso, temos as mídias sociais que geram a todo tempo informações majoritariamente públicas. Hoje já é realidade a existência de carros, geladeiras e dispositivos vestíveis (wearable devices) conectados entre si e gerando ainda mais dados para serem processados e transformados em informações úteis. Um mecanismo utilizado em problemas de grandes volumes de dados é a computação paralela. Selecione a alternativa CORRETA sobre computação paralela. A Na arquitetura paralela o objetivo é "unificar" os processos, ou seja, unificar entre os núcleos. Na arquitetura paralela o objetivo é "paralelizar" os processos, ou seja, dividir entre os núcleos. Na arquitetura paralela o objetivo é "paralelizar" os processos, ou seja, distribuir entre vários computadores. D Na arquitetura paralela o objetivo é "paralelizar" os processos, ou seja, pegar os processos de vários núcleos e executar em apenas um. 13 No que se refere à curva de aprendizado e rápida utilização de um ambiente Hadoop o emprego de máquinas virtuais é a melhor opção de uso do framework. São diversos os fornecedores de Máquinas virtuais, bem como diversos tipos de máquinas que podem ser utilizadas. Selecione a alternativa correta sobre Máquina Virtual e sua aplicação no Apache Hadoop. A Ao utilizar uma máquina virtual, o apache Hadoop não poderá ser executado. B Ao utilizar uma máquina virtual, o apache Hadoop será executado de forma mais segura. Ao utilizar uma máquina virtual você deixa de lado detalhes de implementação e vai direto ao que interessa: utilizar e aprender mais sobre o Hadoop. D Ao utilizar uma máquina virtual, o apache Hadoop será executado mais rápido. 14 Em um cenário de grandes volumes de dados a primeira etapa é a coleta, a segunda a preparação e por último o armazenamento, que permite futuras análises. Para isso, comumente utilizamos os ditos frameworks de Big Data. Selecione a alternativa CORRETA com a definição de framework. A Um framework é um conjunto de problemas. about:blank 5/827/12/25, 11:42 Avaliação da Disciplina B Um framework é um conjunto de códigos python. Um framework é um conjunto de soluções para um conjunto de problemas. D Um framework é um conjunto de códigos SQL. 15 Quando se fala em atendimento ao cliente, seja no físico ou on-line, as marcas buscam ferramentas para tornar a experiência de compra do consumidor cada vez mais agradável. uso de Big Data, por exemplo, está em alta no Brasil. De acordo com dados da consultoria Frost & Sullivan, dos Estados Unidos, o Brasil é líder na América Latina no uso de Big Data, com 46,8% do mercado e uma receita de US$ 1,16 bilhão, com forte atuação no varejo. Para a diretora executiva do Instituto Brasileiro de Executivos de Varejo e Mercado de Consumo (IBEVAR), Patricia Cotti, a coleta de análise de dados por meio de inteligência artificial pode aprimorar o atendimento e permitir que o colaborador entenda melhor o que o consumidor procura. "A tecnologia facilita a comunicação, disponibiliza informações 'real time' e torna o gerenciamento de tarefas mais eficiente. A base pode disponibilizar diversos dados, desde preferências do cliente que já comprou naquela loja, até a consulta do estoque para verificar determinado produto", comenta a executiva. Fonte: Acesso em: 21 jul 2019. Neste contexto se torna uma grande necessidade o emprego de aplicações de streaming. Sobre a definição de streaming no contexto de Big Data, assinale a alternativa CORRETA: A Streaming são aplicações de extração, transformação e carga. B Streaming são aplicações de processamento de dados em tempo real. Streaming são aplicações de transmissão ao vivo sobre Big Data. D Streaming são aplicações de banco de dados relacionais. 16 Big Data é, simplesmente, uma das grandes revoluções dos últimos anos e veio para ficar no mercado mundial. Pode ser que os termos se modifiquem com o passar do tempo, mas o grande conceito que precisa ser compreendido é a possibilidade existente no mundo atual de se ter uma quantidade imensa de dados armazenados, com uma variedade infinitamente superior à do passado e podendo ser trabalhados, analisados, cruzados e interpretados com muito mais velocidade e eficácia. A busca por informação sempre foi primordial em qualquer mercado e é extremamente importante coletar e organizar os dados disponíveis, seja nos processos que movimentam o negócio ou mesmo no meio externo à organização. Selecione a alternativa CORRETA sobre variedade em cenário de Big Data. A Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido A aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados produzidos. Variedade tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido B aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados produzidos. about:blank 6/827/12/25, 11:42 Avaliação da Disciplina A variedade pode ser compreendida como um banco de dados com ênfase em transação, alimentado por diversas fontes. D A Variedade se remete aos diversos dispositivos de coleta, bem como aos tipos de dados que podem ser estruturados, semiestruturados e não estruturados. 17 ETL é um tipo de data integration em três etapas (extração, transformação, carregamento) usado para combinar dados de diversas fontes. Ele é comumente utilizado para construir um data warehouse. Nesse processo, os dados são retirados (extraídos) de um sistema-fonte, convertidos (transformados) em um formato que possam ser analisados e armazenados (carregados) em um armazém ou outro sistema. Extração, carregamento, transformação (ELT) é uma abordagem alternativa, embora relacionada, projetada para jogar o processamento para o banco de dados, de modo a aprimorar a performance. Acesso em: 27 jun. 2019. Selecione a alternativa que contenha um componente do Apache Hadoop que permita a realização da ETL. A Apache Hbase. B Apache Hive. Apache HDFS. D Apache Map Reduce. 18 No meio da análise de dados um conceito que ganha força, e no qual grande parte do MapReduce está baseado, é o Big Data. Trata-se de um termo empregado para descrever o crescimento, o uso e a disponibilidade das informações, sejam elas estruturadas ou não. Para o Big Data, o importante não é a coleta de grandes quantidades de dados, mas sim como eles são processados. potencial que ele traz para as empresas é imenso e para utilizá-lo elas precisam ser capazes de aproveitar as informações contidas em suas gigantescas bases de dados para tomar as melhores decisões. Sobre o MapReduce, selecione a alternativa CORRETA sobre sua relação com o Apache Hadoop. A MapReduce é a linguagem de programação nativa do Hadoop, que permite com que sejam armazenados dados distribuídos. MapReduce é um componente do Hadoop, não sendo necessário para sua execução. MapReduce é o banco de dados nativo do Hadoop, que permite com que sejam armazenados dados distribuídos. MapReduce é um modelo de programação, no qual o modelo MapReduce usa chaves e valores D para vincular dados de entrada à função Map, responsável por reconhecer as entradas e a função Reduce para agrupar e diminuir a saída. about:blank 7/827/12/25, 11:42 Avaliação da Disciplina 19 A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 Vs do Big Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valor. Selecione a alternativa CORRETA sobre volume em cenário de Big Data. volume trata de toda a massa de dados existente na organização, são milhões de Gigabytes gerados todos os dias, distribuídos em datacenters por todo o mundo. B Volume trata de diversas formas de armazenamento, rotuladas como armazenamento estruturado, semiestruturado e não estruturado. Volume tem a ver com a velocidade sob a qual os dados são persistidos e analisados, devido aos problemas de desempenho dos bancos de dados relacionais em gerenciar a imensa quantidade de dados produzidos. Volume pode ser definido pelas fontes de coleta de dados, desde sistemas de informações D gerenciais, sensores, GPS, celular, câmeras de vídeos, entre todo e qualquer dispositivo que armazene dados. 20 Spark é um framework para processamento de Big Data construído com foco em velocidade, facilidade de uso e análises sofisticadas. Oferece APIs de alto nível em Java, Scala e Python, bem como um conjunto de bibliotecas que o tornam capaz de trabalhar de forma integrada, em uma mesma aplicação, com SQL, streaming e análises complexas, para lidar com uma grande variedade de situações de processamento de dados. Selecione a alternativa CORRETA que traz os principais componentes do SPARK. A Spark SQL, Spark File System , Spark Scala,GraphX. Spark SQL, Spark Streamming, Spark MLib,GraphX. Spark Base, Spark Streamming, Spark MLib,GraphX. D Sparql, Spark File System, Spark Base,GraphX. Imprimir about:blank 8/8