Prévia do material em texto
Curso POS1149 COLETA E INTEGRAÇÃO DE DADOS PG0218-212-5 - 202122.ead- 19010.01 Teste Teste Final (N2) • Pergunta 1 1 em 1 pontos Dentro do conceito de Business Intelligence (inteligência nos negócios), cada camada de um Data Warehouse ou Data Mart representa um tipo de informação de uma base multidimensional que pode ser ingerida para um Big Data ou ingerir dados de outras fontes de dados. O cubo de dados é a representação da multidimensionalidade dessas informações. Portanto, os Data Marts são: Resposta Selecionada: criados, de forma personalizada, para facilitar as extensivas pesquisas por assuntos específicos. Resposta Correta: criados, de forma personalizada, para facilitar as extensivas pesquisas por assuntos específicos. Comentário da resposta: Resposta correta. A alternativa está correta, pois os bancos multidimensionais, como o Data Warehouse e o Data Mart, foram criados para facilitar as extensivas pesquisas por assuntos específicos. A estrutura multidimensional facilita a pesquisa para a geração de relatórios e gráficos sumarizados e de forma analítica, dependendo dos recursos da ferramenta de leitura do cubo. Após a criação do cubo Data Mart, os usuários, por meio de aplicativos específicos de leitura, podem destrinchar e detalhar as informações por meio da adição de dimensões, cruzando-as para visualização. • Pergunta 2 1 em 1 pontos Leia o excerto a seguir: “Várias metodologias estão sendo utilizadas pelas empresas para a coleta de dados. Porém, quando falamos em Big Data, estamos assumindo que, além de termos um grande volume de dados, devido às grandes proporções, eles não podem ser tratados como métodos tradicionais, para isso devem ser executados alguns passos, tais como a obtenção, armazenamento, sistematização e análise de dados”. MORAIS, I. S. et al . Introdução a Big Data e Internet das Coisas (IoT). Porto Alegre: SAGAH, 2018, p. 45-46. Nesse sentido, em função da diversidade de fontes, quantidade e tipos de dados, assinale a alternativa que apresenta as cinco vertentes que definem a performance de um conceito Big Data. Resposta Selecionada: Volume, velocidade, variedade, veracidade e valor. Resposta Correta: Volume, velocidade, variedade, veracidade e valor. Comentário da resposta: Resposta correta. A alternativa está correta, pois as propriedades de um Big Data estão relacionadas ao grande volume de dados, graças à internet, à computação móvel e à facilidade de criação e armazenamento de dados; são advindas de diversas fontes (variedade) internas ou externas da organização; são executadas em tempo real (velocidade), com a veracidade (dados verdadeiros) de fontes confiáveis; e possuem valor (utilidade ao usuário), pois nada adianta uma grande quantidade de informações se estas não forem úteis para a tomada de decisão organizacional. • Pergunta 3 1 em 1 pontos Leia o excerto a seguir: “O termo Big Data, na atualidade, ganhou visibilidade a partir de 2001, quando empresas e instituições passaram a compreender e a desenvolver tecnologias para trabalhar com o novo fenômeno da era da informação. Dessa revolução surgiram soluções como o Apache Hadoop, criado pela Apache Foundation, uma fundação responsável por várias tecnologias que lidam com formas de uso e tratamento de dados”. PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 14. A respeito do ecossistema Hadoop, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) É um tipo de ferramenta analítica que pode ser utilizada para revelar informações de dados históricos e de fluxo de informações em tempo real. Essas ferramentas ajudam a analisar eventos passados, a entender as atividades atuais e a prever resultados futuros. II. ( ) É uma plataforma de software em linguagem de programação Python, que centraliza todos os dados de uma ingestão de dados de diversas fontes IoT e bases de dados relacionais em uma única base de dados de grande volume e poder de processamento. III. ( ) É um framework de código aberto para o processamento e armazenamento de dados em larga escala, com cluster de máquinas organizadas em uma máquina mestre e várias escravas, promovendo soluções em uma única plataforma. IV. ( ) É composto por um conjunto de módulos integrados de computação distribuída, formando um ecossistema de pipeline de dados, como o Hadoop Distributed File System (HDFS), Hadoop Yarn, Hadoop Map Reduce, Ambari, Cassandra e Spark e HBase. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: V, F, V, V. Resposta Correta: V, F, V, V. Comentário da resposta: Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois o mecanismo Hadoop é uma ferramenta de análise de dados constituída de diversas outras ferramentas, formando um ecossistema de etapas de ingestão, armazenamento, processamento e visualização de dados. A afirmativa II é falsa, pois o Hadoop é escrito em linguagem Java e não realiza uma centralização dos dados ingeridos, mas, sim, uma descentralização de dados. A afirmativa III é verdadeira, pois o Hadoop é considerado um framework Open Source, que tem como objetivo o processamento e o armazenamento de dados ingeridos de diversas fontes de dados e os clusterizando em diversos servidores. A afirmativa IV é verdadeira, pois o Hadoop é um ecossistema, ou seja, uma integração de diversos módulos de sistema de arquivos. • Pergunta 4 1 em 1 pontos O Data Warehouse, ou Armazém de Dados, consolida as informações orientadas a assuntos das atividades organizacionais a partir de um grande volume de dados, favorecendo relatórios e análises de informações estratégicas de forma catalogada. Os dados do Data Warehouse são coletados de diversas fontes de dados, por meio de ETLs. As fontes das bases de dados dos Data Warehouse são originadas de: Resposta Selecionada: bases transacionais internas e externas. Resposta Correta: bases transacionais internas e externas. Comentário da resposta: Resposta correta. A alternativa está correta, pois o Data Warehouse coleta informações de bases transacionais internas e externas das organizações, podendo ser também de fontes não estruturadas, gerando dados para as bases multidimensionais, como os Data Marts. • Pergunta 5 1 em 1 pontos Leia o trecho a seguir: “A quantidade de dispositivos somada aos diversos formatos de arquivos e a necessidade de extrair valor dos mesmos mostraram a limitação dos modelos relacionais, que serviam bem para o tratamento de dados estruturados, mas não possibilitam o tratamento de dados semiestruturados ou não estruturados. Esse motivo foi um dos principais motivadores da busca de ferramentas NoSQL, que trabalham com bancos de dados não relacionais”. GALDINO, N. Big Data: ferramentas e aplicabilidade. In: Simpósio de Excelência em Gestão e Tecnologia, 13., 2016, Rio de Janeiro. Anais eletrônicos [...]. Rio de janeiro: AEDB, 2016. Disponível em: https://www.aedb.br/seget/arquivos/artigos16/472427.pdf . Acesso em: 22 set. 2020. Considerando as limitações das bases relacionais com relação à diversidade de fontes de dados na atualidade – como páginas web , documentos, log e aplicações – e, consequentemente, dos tipos de dados gerados, assinale a alternativa que apresenta propriedades que devem ser atendidas por uma arquitetura Big Data, de acordo com o modelo de negócio. Resposta Selecionada: Duas propriedades CAP (consistência, disponibilidade e tolerância a falhas) devem ser utilizadas, dependendo do cenário de negócio a ser aplicado. Resposta Correta: Duas propriedades CAP (consistência, disponibilidade e tolerância a falhas) devem ser utilizadas, dependendo do cenário de negócio a ser aplicado. Comentárioda resposta: Resposta correta. A alternativa está correta, pois, em uma arquitetura Big Data, devem ser cumpridas propriedades CAP de consistência, disponibilidade e tolerância a falhas. No caso de dados consistentes, as organizações devem escolher entre um sistema full https://www.aedb.br/seget/arquivos/artigos16/472427.pdf time, tolerante a falhas ou de forma consistente, em que todos os usuários terão a mesma informação ao mesmo tempo. • Pergunta 6 1 em 1 pontos Leia o excerto a seguir: “Segundo Kabakus e Kara (2017), bancos de dados relacionais (RDBMS) se baseiam no modelo ACID (Atomicity, Consistency, Isolation, Durability) para garantir a consistência e manter a integridade dos dados, enquanto os bancos NoSQL partem do princípio BASE (Basically Available, Soft-state, Eventually consistent) para atingir melhor desempenho, disponibilidade e escalabilidade”. ROCKENBACH, D. et al . Estudo comparativo de bancos de dados NoSQL. Revista Eletrônica Argentina-Brasil de Tecnologias da Informação e da Comunicação , [S.l.], v. 1, n. 8, abr. 2018. Disponível em: https://revistas.setrem.com.br/index.php/reabtic/article/view/286/131. Acesso em: 22 set. 2020. Diante do contexto apresentado sobre os modelos estruturados e não estruturados, analise as afirmativas a seguir: I. A propriedade isolamento do modelo ACID implica que as mudanças parciais realizadas por uma transação devem ser desfeitas se a transação abortar. II. O termo NoSQL é, geralmente, interpretado como Not only SQL e tem como finalidade transmitir a ideia de que muitas aplicações precisam de sistemas diferentes dos sistemas SQL relacionais tradicionais para ampliar suas necessidades de gerenciamento de dados. III. A maioria dos sistemas NoSQL é de bancos de dados distribuídos ou sistemas de armazenamento distribuído com foco no armazenamento de dados semiestruturados, alto desempenho, disponibilidade e replicação de dados e escalabilidade, ao contrário da ênfase em consistência imediata de dados, linguagens de consultas poderosas, como é o caso da SQL, e armazenamento de dados estruturados. IV. Os Sistemas Gerenciadores de Banco de Dados (SGBDs) asseguram que as transações obedeçam a determinadas propriedades. As propriedades mais importantes e mais difundidas são as propriedades BASE (Basically Available, Soft-state, Eventually consistent). Está correto o que se afirma em: Resposta Selecionada: II e III, apenas. Resposta Correta: II e III, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, pois o NoSQL atende às demandas as quais a SQL tradicional não suportava em arquiteturas semiestruturadas com alto desempenho, disponibilidade, replicação de dados e escalabilidade. Tais demandas são aplicações cujos formatos de informações são variados e que não estão normalizados em uma base de dados relacional. • Pergunta 7 1 em 1 pontos O Data Lake, ou Lago de Dados, é um repositório de dados em uma arquitetura Big Data, concentrando, por meio de uma ingestão de dados, todos os tipos de dados em formatos brutos, sem a realização de tarefas de processamento e análise, ou seja, é realizado apenas o armazenamento dos dados. Considerando o contexto apresentado sobre o conceito de Data Lake, analise as afirmativas a seguir: I. O objetivo do Data Lake é receber qualquer tipo de dado, seja sem ou com transformação. II. O Data Lake recebe dados de fontes diretas do BI ( Business Intelligence ) ou de bases relacionais, como o ERP e o CRM, por meio do ETL. III. Umas das impossibilidades do Data Lake é retornar dados para uso, tanto em um Data Warehouse quanto em sistemas de análise como o BI. IV. O Data Lake recebe somente dados não estruturados de bancos de dados NoSQL, por meio de tecnologias como HDFS e Map Reduce. Está correto o que se afirma em: Resposta Selecionada: I e II, apenas. Resposta Correta: I e II, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, pois o Data Lake tem como função ingerir todos os tipos de dados, sejam eles transformados, como os relacionais, ou não transformados, como os dados NoSQL. Esses dados podem se originar de diversas fontes, como o Business Intelligence, ou de bases relacionais, como os ERPs e CRMs. • Pergunta 8 1 em 1 pontos A SQL e similares, muito utilizadas no processamento stream de dados, por natureza, não são linguagens de programação procedural, como as linguagens de programação Java, C, C++ e outras, pois foram construídas para, basicamente, permitir a manutenção da estrutura de dados (metadados) e dar acesso aos dados de fato, permitindo operações de consulta, inserção, atualização e exclusão. Assinale a alternativa que justifica a diferença entre a linguagem SQL e a maioria das linguagens de programação. Resposta Selecionada: A SQL pode ser usada em conjunto com as linguagens externas e dar acesso aos dados de fato, permitindo operações de manutenção. Resposta Correta: A SQL pode ser usada em conjunto com as linguagens externas e dar acesso aos dados de fato, permitindo operações de manutenção. Comentário da resposta: Resposta correta. A alternativa está correta, pois a diferença entre a SQL e as linguagens de programação externa é que a SQL pode ser utilizada de maneira combinada, por meio de acessos em diferentes camadas, como interface, regras de negócio e banco de dados. Enquanto as linguagens externas tratam da programação de interfaceamento e regras de negócios, a SQL trata do acesso e da manipulação de dados na base de dados. • Pergunta 9 1 em 1 pontos Leia o excerto a seguir: “A principal abstração de um SPS [Sistemas de Processamento Stream ] é o data stream. Um stream é um fluxo contínuo e ilimitado de dados que chega em determinada ordem; a taxa de chegada dos dados pode ser fixa ou imprevisível; e os dados podem ser estruturados, semiestruturados ou não estruturados. Cada item de um stream é chamado de tupla, evento ou mensagem, geralmente composto por um conjunto de pares de chave/valor. Tuplas de um mesmo data stream possuem o mesmo data schema, que descreve as colunas e seus respectivos tipos de dados”. (CHAKRAVARTHY, 2009 apud BORDIN et al. , 2016, p. 4) BORDIN, M. V. et al. Trabalhando com Big Data em tempo real. Escola Regional de Alto Desempenho do Rio Grande do Sul (ERAD/RS), 16., 2016, São Leopoldo. Anais eletrônicos [...]. São Leopoldo: Unisinos, 2016. p. 1-20. Disponível em: ftp://ftp.inf.ufrgs.br/pub/geyer/POD/slides/Slides-alunos/BigData/ERAD2016- BigDataStreaming/ERAD-2016-texto-24-02-2016.pdf . Acesso em: 22 set. 2020. Considerando o contexto apresentado sobre o SPS (Stream Processing Systems ou Sistema de Processamento Stream), analise as afirmativas a seguir: I. Os Data Streams são produzidos por entidades externas denominadas fontes de dados, por exemplo a IoT (Internet das Coisas). II. Os dados produzidos são consumidos (ingeridos) pelo SPS para processamento, por meio de um componente chamado de fonte ( source ). III. As aplicações de Data Stream não se limitam a um processamento em memória, pois podem ser processadas em discos, já que precisam produzir resultados rápidos. IV. Aos operadores que recebem os Data Streams se aplica um processamento ou função de filtragem, junção, agregação, mineração, álgebra relacional etc. Está correto o que se afirma em: Resposta Selecionada: I, II e IV, apenas. Resposta Correta: I, II e IV, apenas. Comentário da resposta: Resposta correta. A alternativa está correta com relação à afirmativa I, pois os Data Streams são advindos de fontes externas diversas e com tipos de dados estruturados, semiestruturados e não estruturados, principalmente de fontes de dispositivos como televisores, geladeiras e equipamentos conectados à internet. Com relação à afirmativa II, os dados são ingeridos por umSPS, de forma que todos os dados são recebidos de fontes denominadas “fonte source”, que podem ser a internet, documentos, dispositivos etc. Com relação à afirmativa IV, os operadores estão relacionados à máquina de processamento da camada Data Processing Layer, que realiza as funções diversas de filtragem, álgebra relacional à junção (sumarização de tuplas), agregação (coleção e sumarização), mineração de dados (aprendizado máquina) e outras funções de processamento. • Pergunta 10 1 em 1 pontos Leia o excerto a seguir: “O principal construtor para representar dados no modelo relacional é a relação . Uma relação consiste em um esquema de relação e em uma instância de relação. A instância da relação se refere a uma tabela (no paradigma relacional) ou classe (no paradigma orientado a objeto) que contém todos os registros de dados ou uma coleção de objetos. Já o esquema de relação descreve o cabeçalho da tabela, ou seja, os campos da tabela, ou atributos de uma classe ou também denominados de ‘colunas de uma tabela’”. RAMAKRISHNAN, R.; GEHRKE, J. Sistema de gerenciamento de banco de dados. 3. ed. Porto Alegre: AMGH, 2011. p. 1-2. A respeito das fontes que originaram os dados, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma tabela é um conjunto ordenado de linhas, também chamadas de tuplas. Cada tupla é o mesmo que um registro de dados. II. ( ) A estrutura de banco de dados pode ser comparada, por exemplo, a um fichário de funcionários contendo pastas em ordem alfabética, em que cada pasta contém fichas de todos os funcionários. Então, cada ficha pode ser considerada um campo ou atributo. III. ( ) A instância da relação é o mesmo que um conjunto de tuplas de uma tabela. IV. ( ) Em dados não estruturados, em um modelo do tipo “colunas familiares”, a estrutura é equivalente à tradicional, contudo, as informações são armazenadas em colunas em vez de linhas. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: V, F, F, V. Resposta Correta: V, F, F, V. Comentário da resposta: Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois as tuplas correspondem aos registros. A afirmativa II é falsa, pois, considerando a comparação com um fichário, cada ficha em cada pasta é considerada um registro, e não um campo. A afirmativa III é falsa, pois a instância da relação é o mesmo que uma tabela de dados, e não tuplas de uma tabela. Já a IV afirmativa é verdadeira, pois, no modelo de colunas familiares, a estrutura é idêntica à tradicional, contudo, invertida, em que as colunas são os registros e as linhas os campos ou atributos. Terça-feira, 23 de Novembro de 2021 20h50min06s BRT