Prévia do material em texto
Questão 01 Associe cada fase do processo ETL (Extração, Transformação e Carga) com a descrição correta de suas atividades: Fases do Processo ETL: 1. Extração. 2. Transformação. 3. Carga. Descrições: a) Captura dados de várias fontes, sejam elas bancos de dados relacionais, arquivos, APIs ou fluxos de dados em tempo real. b) Converte os dados em um formato adequado para análise, garantindo que sejam limpos, padronizados e organizados. c) Transfere os dados transformados para um sistema de destino, como um Data Warehouse ou Data Lake. d) Elimina registros duplicados, corrige erros de digitação e trata valores nulos ou inválidos. e) Apenas os dados novos ou alterados são carregados no destino, complementando os dados existentes. Assinale a alternativa que contém as associações corretas: A 1-b; 2-d; 3-e. B 1-a; 2-b; 3-c. C 1-c; 2-a; 3-b. D 1-a; 2-d; 3-e. E 1-d; 2-c; 3-a. Resolução comentada Vamos analisar cada fase do processo ETL e associá-la às descrições corretas: 1. Extração: • Descrição correta: Captura dados de várias fontes, sejam elas bancos de dados relacionais, arquivos, APIs ou fluxos de dados em tempo real. • Associação: 1-a. 2. Transformação: • Descrição correta: Converte os dados em um formato adequado para análise, garantindo que sejam limpos, padronizados e organizados. • Associação: 2-b. 3. Carga: • Descrição correta: Transfere os dados transformados para um sistema de destino, como um Data Warehouse ou Data Lake. • Associação: 3-c. Código da questão: 87328 Questão 02 Associe cada conceito de qualidade de dados com sua definição correta: Conceitos: 1. Precisão. 2. Consistência. 3. Completude. 4. Atualidade. 5. Conformidade. Definições: A) Os dados estão livres de erros e representam a realidade de forma fiel. B) Os dados não apresentam conflitos entre diferentes conjuntos de dados. C) Os dados não apresentam valores ausentes e estão completos para a análise. D) Os dados estão atualizados e refletem o estado mais recente das informações. E) Os dados estão em conformidade com regulamentações e padrões estabelecidos. Assinale a alternativa que contém as associações corretas: A 1-D; 2-C; 3-A; 4-B; 5-E. B 1-C; 2-D; 3-B; 4-A; 5-E. C 1-B; 2-A; 3-D; 4-C; 5-E. D 1-A; 2-B; 3-C; 4-D; 5-E. E 1-E; 2-A; 3-D; 4-C; 5-B. Resolução comentada Vamos analisar cada conceito de qualidade de dados e associá-lo à definição correta: 1. Precisão - A) Os dados estão livres de erros e representam a realidade de forma fiel. o A precisão garante que os dados sejam exatos e corretos, refletindo a realidade de maneira precisa. 2. Consistência - B) Os dados não apresentam conflitos entre diferentes conjuntos de dados. o A consistência assegura que os dados sejam uniformes e não apresentem discrepâncias entre diferentes fontes ou sistemas. 3. Completude - C) Os dados não apresentam valores ausentes e estão completos para a análise. o A completude refere-se à ausência de dados faltantes, garantindo que todas as informações necessárias estejam presentes. 4. Atualidade - D) Os dados estão atualizados e refletem o estado mais recente das informações. o A atualidade indica que os dados são recentes e refletem a situação mais atual possível. 5. Conformidade - E) Os dados estão em conformidade com regulamentações e padrões estabelecidos. Código da questão: 87357 Questão 03 Considere as seguintes asserções sobre os benefícios da integração de dados em ambientes corporativos: 1. A integração de dados melhora a tomada de decisões estratégicas ao fornecer uma visão unificada e confiável das informações. 2. A integração de dados elimina completamente a necessidade de processos manuais em todas as operações empresariais. 3. A integração de dados pode reduzir custos operacionais ao consolidar sistemas redundantes e automatizar processos. 4. A integração de dados facilita a aplicação de análises preditivas, permitindo prever tendências de mercado e comportamento do consumidor. 5. A integração de dados garante que todos os dados sejam sempre precisos e livres de erros. Escolha a alternativa a seguir que indica quais das asserções acima estão corretas: A Apenas as asserções 1, 3 e 4 são corretas. B Apenas as asserções 2, 3 e 5 são corretas. C Apenas as asserções 1, 4 e 5 são corretas. D Apenas as asserções 1, 2 e 4 são corretas. E Apenas as asserções 2, 3 e 4 são corretas. Resolução comentada Vamos analisar cada asserção: 1. A integração de dados melhora a tomada de decisões estratégicas ao fornecer uma visão unificada e confiável das informações. • Correta: Conforme o texto, a integração de dados permite gerar relatórios mais precisos e consistentes, melhorando a tomada de decisões estratégicas. 2. A integração de dados elimina completamente a necessidade de processos manuais em todas as operações empresariais. • Incorreta: Embora a integração de dados automatize muitos processos, ela não elimina completamente a necessidade de processos manuais em todas as operações empresariais. 3. A integração de dados pode reduzir custos operacionais ao consolidar sistemas redundantes e automatizar processos. • Correta: O texto menciona que a integração de dados pode reduzir custos operacionais ao consolidar sistemas redundantes e automatizar processos. 4. A integração de dados facilita a aplicação de análises preditivas, permitindo prever tendências de mercado e comportamento do consumidor. • Correta: A integração de dados permite a aplicação de análises preditivas, conforme mencionado no texto. 5. A integração de dados garante que todos os dados sejam sempre precisos e livres de erros. • Incorreta: Embora a integração de dados melhore a qualidade e a consistência dos dados, ela não pode garantir que todos os dados sejam sempre precisos e livres de erros. Código da questão: 87332 Questão 04 Considere as seguintes asserções sobre a integração de dados em tempo real: 1. A integração de dados em tempo real permite que informações sejam processadas e disponibilizadas imediatamente após sua geração. 2. Ferramentas de captura de alterações (CDC) são utilizadas para detectar mudanças em bancos de dados e transmitir essas alterações em tempo real. 3. A integração de dados em tempo real é sempre mais eficiente e econômica do que o ETL tradicional em batch. 4. Plataformas de streaming de dados, como Apache Kafka, são amplamente utilizadas para suportar integrações em tempo real. 5. A integração de dados em tempo real elimina completamente a necessidade de processos de ETL em batch. Escolha a alternativa a seguir que indica quais das asserções acima estão corretas: A Apenas as asserções 1, 2, 3 e 4 são corretas B Apenas as asserções 1, 3 e 5 são corretas. C Apenas as asserções 1, 2, 4 e 5 são corretas. D Apenas as asserções 1, 2 e 4 são corretas. E Apenas as asserções 2, 3 e 4 são corretas. Resolução comentada Vamos analisar cada uma das asserções para determinar quais são corretas: 1. Verdadeiro. A integração de dados em tempo real permite que informações sejam processadas e disponibilizadas imediatamente após sua geração, possibilitando análises instantâneas e ações rápidas. 2. Verdadeiro. Ferramentas de captura de alterações (CDC) são utilizadas para detectar mudanças em bancos de dados e transmitir essas alterações em tempo real, garantindo que as informações estejam sempre atualizadas. 3. Falso. A integração de dados em tempo real não é sempre mais eficiente e econômica do que o ETL tradicional em batch. A escolha entre um e outro depende das necessidades específicas da organização e do contexto em que são aplicados. 4. Verdadeiro. Plataformas de streaming de dados, como Apache Kafka, são amplamente utilizadas para suportar integraçõesem tempo real, permitindo a movimentação contínua de dados. 5. Falso. A integração de dados em tempo real não elimina completamente a necessidade de processos de ETL em batch. Em muitos casos, ambos os métodos são utilizados de forma complementar, dependendo dos requisitos de processamento de dados. Código da questão: 87358 Questão 05 Complete as lacunas com as alternativas corretas: A integração de dados em ambientes corporativos oferece diversos benefícios, incluindo a melhoria na ___________, a redução de ___________ e a capacidade de aplicar ___________ para prever tendências de mercado. A Velocidade de processamento; erros humanos; técnicas de mineração de dados. B Qualidade de dados; tempo de resposta; algoritmos de aprendizado de máquina. C Eficiência operacional; custos operacionais; análises preditivas. D Segurança dos dados; redundância de dados; relatórios manuais. E Acessibilidade dos dados; duplicidade de informações; análises descritivas. Resolução comentada Para resolver esta questão, vamos analisar cada lacuna e as alternativas fornecidas. 1. Melhoria na ___________: • A integração de dados permite que as operações sejam executadas de forma mais eficiente, eliminando processos manuais e redundantes. Portanto, a lacuna deve ser preenchida com "eficiência operacional". 2. Redução de ___________: • A integração de dados automatiza o fluxo de informações, reduzindo a necessidade de processos manuais e, consequentemente, os custos operacionais. Portanto, a lacuna deve ser preenchida com "custos operacionais". 3. Capacidade de aplicar ___________ para prever tendências de mercado: • Com dados integrados e unificados, as empresas podem aplicar análises preditivas para prever tendências de mercado, comportamento do consumidor, entre outros. Portanto, a lacuna deve ser preenchida com "análises preditivas". Código da questão: 87320 Questão 06 No contexto de um pipeline ETL, qual das seguintes práticas é essencial para garantir a integridade e a consistência dos dados durante o processo de normalização? A Realizar uma carga completa periodicamente para substituir todos os dados no sistema de destino. B Utilizar carimbos de tempo (timestamps) para identificar registros duplicados. C Aplicar métodos de imputação para preencher valores ausentes com a média dos dados. D Converter todas as datas para um formato padrão e unificar unidades de medida antes do carregamento. E Implementar triggers no banco de dados de origem para capturar alterações em tempo real. Resolução comentada A normalização de dados envolve converter todas as datas para um formato padrão e unificar unidades de medida, garantindo que todos os registros estejam em um formato uniforme e compatível com o sistema de destino. Isso é essencial para manter a integridade e a consistência dos dados. Código da questão: 87346 Questão 07 Complete as lacunas na frase a seguir com a alternativa correta: A integração de dados em tempo real apresenta vários benefícios, incluindo a capacidade de ________, a melhoria na ________ e a redução de ________. A Processar dados em batch; precisão dos relatórios; tempo de processamento. B Capturar, processar e entregar dados imediatamente; agilidade na obtenção de insights; custos operacionais. C Armazenar grandes volumes de dados; conformidade regulatória; tempo de resposta. D Transformar dados em tempo real; integridade dos dados; complexidade dos sistemas. E Capturar dados históricos; segurança dos dados; custos de armazenamento. Resolução comentada A integração de dados em tempo real permite capturar, processar e entregar dados imediatamente, o que resulta em uma maior agilidade na obtenção de insights e na redução de custos operacionais. Código da questão: 87355 Questão 08 Qual das seguintes afirmações melhor descreve a principal diferença entre a modelagem de dados relacional e a modelagem de dados dimensional? A A modelagem relacional utiliza tabelas de fatos e dimensões, enquanto a modelagem dimensional utiliza tabelas altamente normalizadas. B A modelagem relacional foca a desnormalização dos dados, enquanto a modelagem dimensional foca a normalização dos dados. C A modelagem relacional minimiza a redundância de dados por meio da normalização, enquanto a modelagem dimensional tolera redundância para facilitar consultas rápidas. D A modelagem relacional é ideal para sistemas de Business Intelligence (BI) e OLAP, enquanto a modelagem dimensional é ideal para sistemas transacionais. E A modelagem relacional é otimizada para análise de grandes volumes de dados, enquanto a modelagem dimensional é otimizada para operações transacionais. Resolução comentada Vamos analisar cada alternativa para entender qual delas melhor descreve a principal diferença entre a modelagem de dados relacional e a modelagem de dados dimensional: A modelagem relacional é otimizada para análise de grandes volumes de dados, enquanto a modelagem dimensional é otimizada para operações transacionais. • Esta alternativa está incorreta. Na verdade, a modelagem relacional é otimizada para operações transacionais, enquanto a modelagem dimensional é otimizada para análise de grandes volumes de dados. A modelagem relacional utiliza tabelas de fatos e dimensões, enquanto a modelagem dimensional utiliza tabelas altamente normalizadas. • Esta alternativa também está incorreta. A modelagem relacional utiliza tabelas altamente normalizadas, enquanto a modelagem dimensional utiliza tabelas de fatos e dimensões. A modelagem relacional minimiza a redundância de dados por meio da normalização, enquanto a modelagem dimensional tolera redundância para facilitar consultas rápidas. • Esta alternativa está correta. A modelagem relacional foca a normalização dos dados para minimizar redundâncias e garantir a integridade dos dados. Por outro lado, a modelagem dimensional muitas vezes desnormaliza os dados, tolerando redundâncias para facilitar consultas rápidas e agregações. A modelagem relacional é ideal para sistemas de Business Intelligence (BI) e OLAP, enquanto a modelagem dimensional é ideal para sistemas transacionais. • Esta alternativa está incorreta. A modelagem dimensional é ideal para sistemas de Business Intelligence (BI) e OLAP, enquanto a modelagem relacional é ideal para sistemas transacionais. A modelagem relacional foca a desnormalização dos dados, enquanto a modelagem dimensional foca a normalização dos dados. • Esta alternativa está incorreta. A modelagem relacional foca a normalização dos dados, enquanto a modelagem dimensional frequentemente desnormaliza os dados para facilitar a análise. Código da questão: 87335 Questão 09 Qual foi um dos principais avanços que permitiu a transição dos métodos manuais de integração de dados para processos automatizados na década de 1990? A A introdução de sistemas de gerenciamento de bancos de dados relacionais, como Oracle e IBM DB2. B O desenvolvimento de tecnologias de Big Data, que permitiram o processamento de grandes volumes de dados em tempo real. C A criação do conceito de ETL (Extração, Transformação e Carga), que automatizou os processos manuais de integração de dados. D O surgimento de linguagens de programação como SQL para consulta e manipulação de dados. E A popularização de sistemas de ERP (Enterprise Resource Planning), que integraram todas as funções empresariais em um único sistema. Resolução comentada O conceito de ETL representou um avanço crucial na década de 1990, pois automatizou os processos manuais de integração de dados. ETL permitiu que dados fossem extraídos de várias fontes, transformados em um formato padrão e carregados em um sistema de destino, como um Data Warehouse. Isso reduziu significativamente o tempo e oserros associados à integração manual. Código da questão: 87318 Questão 10 Analise as seguintes asserções sobre ferramentas de ETL e determine se são verdadeiras (V) ou falsas (F): 1. O Talend é uma ferramenta de ETL open source que permite criar pipelines personalizados por meio de uma interface gráfica intuitiva. 2. O Informatica PowerCenter é conhecido por sua arquitetura baseada em metadados, que facilita a governança e a auditoria das operações de ETL. 3. O Pentaho Data Integration (PDI) é uma ferramenta de ETL que não oferece suporte para processamento paralelo. 4. O Microsoft SQL Server Integration Services (SSIS) é altamente eficiente para a integração de dados relacionais e oferece suporte nativo para o SQL Server. 5. O Apache NiFi é uma ferramenta de ETL tradicional que não suporta processamento de dados em tempo real. Escolha a alternativa que corresponde à sequência correta de verdadeiro (V) e falso (F): A V - V - F - V – F. B F - F - V - V – F. C F - V - F - V – F. D V - V - F - F – V. E V - F - V - F – V. Resolução comentada • Asserção 1: Verdadeira. O Talend é uma ferramenta de ETL open source que permite criar pipelines personalizados por meio de uma interface gráfica intuitiva. • Asserção 2: Verdadeira. O Informatica PowerCenter é conhecido por sua arquitetura baseada em metadados, que facilita a governança e a auditoria das operações de ETL. • Asserção 3: Falsa. O Pentaho Data Integration (PDI) oferece suporte para processamento paralelo, permitindo que grandes volumes de dados sejam processados de forma eficiente. • Asserção 4: Verdadeira. O Microsoft SQL Server Integration Services (SSIS) é altamente eficiente para a integração de dados relacionais e oferece suporte nativo para o SQL Server. • Asserção 5: Falsa. O Apache NiFi é uma ferramenta de integração de dados que suporta processamento de dados em tempo real, ao contrário das ferramentas de ETL tradicionais. Código da questão: 87351