Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

ENGENHARIA 
DE DADOS
Unidade 2
Processamento e 
armazenamento de dados
CEO 
DAVID LIRA STEPHEN BARROS
Diretora Editorial 
ALESSANDRA FERREIRA
Gerente Editorial 
LAURA KRISTINA FRANCO DOS SANTOS
Projeto Gráfico 
TIAGO DA ROCHA
Autoria 
FABIANA MATOS DA SILVA
4 ENGENHARIA DE DADOS
U
ni
da
de
 2
A
U
TO
RI
A
Fabiana Matos da Silva
Olá! Sou graduada em Engenharia de Produção Mecânica 
e atuei na indústria automobilística na Região do Vale do Paraíba. 
Meu interesse pela área técnica nasceu com minha passagem 
pelo SENAI, no curso de Aprendizagem Industrial em Eletricista 
de Manutenção e, depois disso, fiz o curso técnico em Mecânica. 
Entender como as coisas funcionam sempre foi minha motivação 
maior nesse período de aprendizagem. Passei por algumas 
empresas da região, mas sempre me senti motivada pela vontade 
de aprender cada vez mais. Participei do Programa Agente Local 
de Inovação- CNPq – SEBRAE, em que auxiliávamos pequenas 
empresas fomentando ações inovadoras dentro de seus limites. 
Foi assim que me apaixonei pela inovação e iniciei meu mestrado 
em Gestão e Desenvolvimento Regional, estudando a temática 
Desenvolvimento da Inovação em Pequenas e Médias Empresas 
da Região Metropolitana do Vale do Paraíba e Litoral Norte. Sou 
apaixonada pelo que faço e principalmente pela transmissão de 
conhecimento. Acredito que compartilhar meus conhecimentos e 
minha experiência de vida com aqueles que estão iniciando em suas 
profissões tem grande valia. Por isso, fui convidada pela Editora 
Telesapiens a integrar seu elenco de autores independentes. 
Estou muito feliz em poder ajudar você nesta fase de muito estudo 
e trabalho. Conte comigo!
5ENGENHARIA DE DADOS
U
ni
da
de
 2
ÍC
O
N
ES
Esses ícones aparecerão em sua trilha de aprendizagem nos seguintes casos:
OBJETIVO
Uma nova unidade 
letiva estiver sendo 
iniciada, indicando 
que competências 
serão desenvolvidas 
ao seu término;
INTRODUÇÃO
For iniciado o 
desenvolvimento de 
uma nova unidade 
letiva, logo após a 
descrição do objetivo;
DEFINIÇÃO
Houver necessidade 
de se apresentar 
um novo conceito; IMPORTANTE
As observações 
escritas tiverem que 
ser priorizadas;
FÓRMULA
Uma fórmula 
ou equação for 
apresentada, mas 
você poderá utilizar 
o recurso “Equação” 
do processador de 
textos;
VOCÊ SABIA?
Curiosidades e 
indagações lúdicas 
sobre o tema em 
estudo forem 
necessárias;
SAIBA MAIS
Um texto, 
referências 
bibliográficas e 
links para fontes de 
aprofundamento se 
fizerem necessários;
ACESSE
For preciso acessar 
um ou mais sites 
para fazer download, 
assistir a um vídeo, 
ler um texto, ouvir um 
podcast etc;
REFLITA
Houver necessidade 
de se chamar a 
atenção sobre algo 
a ser refletido ou 
discutido sobre;
RESUMINDO
For preciso se 
fazer um resumo 
acumulativo das 
últimas abordagens.
EXEMPLO
Um exemplo for 
descrito. EXERCÍCIO 
DE FIXAÇÃO
Um exercício de 
fixação do conteúdo.
6 ENGENHARIA DE DADOS
U
ni
da
de
 2
SU
M
Á
RI
O
Big data: conceitos e ferramentas ........................................... 9
Big data .................................................................................................................. 9
Introdução ao big data ................................................................. 9
Os cinco “v”s .........................................................................................10
Desafios do big data ................................................................... 12
Principais ferramentas do ecossistema de big data ............................... 13
Aspectos teóricos sobre o ecossistema de big data .................. 13
Ferramentas fundamentais de armazenamento de dados no 
ecossistema de big data ............................................................. 14
Hadoop Distributed File System (HDFS): .......................... 15
Amazon S3 e Google Cloud Storage: ................................ 15
Principais ferramentas de processamento de dados em ambientes 
de big data .................................................................................. 16
Apache Spark: .......................................................................16
Apache Flink: .........................................................................16
Apache Hive e Apache Pig: .................................................. 17
Apache HBase: ......................................................................18
Ferramentas para machine learning e análise de grafos em big data .... 18
Apache Mahout e Apache MLlib: ...................................................... 18
Neo4j e Apache Giraph: .....................................................................19
Aplicação prática de conceitos e ferramentas de big data em 
cenários do mundo real .....................................................................19
Desafios específicos: ............................................................ 21
Impacto tangível: ..................................................................21
Escala e complexidade: ....................................................... 21
Data warehousing e data lakes ................................................... 23
Design e arquitetura de data warehouses e data lakes ............................ 23
Modelagem orientada a objetos ...................................................... 24
7ENGENHARIA DE DADOS
U
ni
da
de
 2
Flexibilidade e escalabilidade ........................................................... 24
Normalização e desnormalização .................................................... 24
Tipos de arquiteturas disponíveis ..................................................................24
Centralizada vs. distribuída vs. híbrida: .......................................... 25
Arquitetura centralizada: .................................................... 25
Arquitetura distribuída: ....................................................... 25
Arquitetura híbrida: ..............................................................25
Escolha da arquitetura adequada .................................................... 26
Volume e complexidade dos dados .................................. 26
Requisitos de desempenho ................................................ 26
Segurança e conformidade ................................................ 26
Facilidade de manutenção e evolução ............................. 27
Melhores práticas de design ....................................................... 27
Eficiência no armazenamento e recuperação de dados ............................ 28
Técnicas para otimização: ................................................................. 29
Processos de ingestão e atualização de dados ............................. 29
Estratégias de ingestão de dados .................................................... 30
Técnicas de atualização de dados ..................................... 31
Garantia de consistência e integridade:........................... 32
Importância da consistência: ............................................. 32
Integridade dos dados:........................................................ 32
Técnicas de ETL: Extract, Transform e Load ......................... 37
Princípios fundamentais do ETL......................................................................37
Extract: obtendo dados de forma eficiente .................................... 38
Transform: preparação e modificação dos dados ......................... 39
Load: carga eficiente nos destinos finais ........................................ 40
Ferramentas e tecnologias para ETL ..............................................................40
SU
M
Á
RI
O
8 ENGENHARIA DE DADOS
U
ni
da
de
 2
 Grupos de Ferramentas ..................................................................41
Automação dos processos de ETL ................................................... 43
Seleção e Implementação .................................................................44dados no contexto do 
projeto, garantindo que a divisão seja eficiente e contribua para o 
51ENGENHARIA DE DADOS
U
ni
da
de
 2
objetivo global de otimização do desempenho. Essa personalização 
é importante para evitar particionamentos ineficazes que podem 
comprometer o desempenho em vez de aprimorá-lo.
RESUMINDO
E então? Gostou do que lhe mostramos? Aprendeu 
mesmo tudinho? Agora, só para termos certeza 
de que você realmente entendeu o tema de 
estudo desse capítulo, vamos resumir tudo o que 
vimos. Você deve ter aprendido que os princípios 
fundamentais do ETL são a base para a execução 
eficaz dos processos de extração, transformação 
e carga. Compreendemos a importância da análise 
detalhada dos requisitos e dos perfis de desempenho 
desejados, destacando como essa análise orienta as 
escolhas estratégicas em projetos de ETL. Avançamos 
para explorar as ferramentas e tecnologias para 
ETL, reconhecendo que a seleção adequada dessas 
ferramentas é crucial para a eficiência operacional. 
Discutimos sobre ferramentas tradicionais versus 
modernas, evidenciando as características distintas 
e as vantagens de cada abordagem. Além disso, 
mergulhamos nas melhores práticas para otimização 
do desempenho, compreendendo a importância 
de estratégias como indexação, particionamento 
e análise contínua para garantir um desempenho 
eficiente em todos os estágios do processo de ETL. 
Ao longo desse capítulo, buscamos apresentar 
conceitos e proporcionar uma compreensão prática 
e aprofundada das técnicas de ETL. Ao aplicar esses 
conhecimentos, você estará preparado para executar 
processos de ETL de maneira eficaz, enfrentando 
desafios com confiança e incorporando as melhores 
práticas para otimização de desempenho em seus 
projetos. Agora, com esse conhecimento consolidado, 
estamos prontos para avançar para a próxima 
etapa de nossa jornada na disciplina de engenharia 
de dados. Continue explorando e aplicando essas 
técnicas, pois elas serão fundamentais para o 
sucesso em sua trajetória profissional na área de 
dados. Avante!
52 ENGENHARIA DE DADOS
U
ni
da
de
 2
Armazenamento de dados na 
nuvem
OBJETIVO
Ao término deste capítulo, você será capaz de 
entender como funciona o armazenamento de 
dados na nuvem. Isso será fundamental para o 
exercício de sua profissão, pois, na era digital, a 
gestão eficiente de dados é essencial para o sucesso 
de organizações e profissionais em diversas áreas. 
As pessoas que tentaram adotar estratégias de 
armazenamento sem a devida instrução tiveram 
problemas ao lidar com a expansão de dados, 
garantir a segurança da informação e adaptar-se 
às demandas dinâmicas do mercado. E então? 
Motivado para desenvolver essa competência? 
Vamos lá. Avante! 
Introdução
Aspectos teóricos sobre 
armazenamento de dados
Num cenário cada vez mais digital e interconectado, o 
armazenamento de dados tornou-se uma peça fundamental 
para indivíduos e organizações. No entanto, diante do crescente 
volume e da complexidade desses dados, surge a necessidade de 
explorar soluções inovadoras. Você já considerou como a nuvem 
é crucial nesse contexto?
53ENGENHARIA DE DADOS
U
ni
da
de
 2
Imagem 2.3 ¬¬¬– Armazenamento na nuvem
Fonte: Freepik.
Sem dúvida, a computação em nuvem tem transformado 
radicalmente a maneira como lidamos com dados. Ao invés de 
depender exclusivamente de dispositivos físicos, a nuvem oferece 
uma abordagem flexível e escalável para o armazenamento, 
proporcionando benefícios que vão desde a acessibilidade remota 
até a economia de custos.
IMPORTANTE
No panorama tecnológico contemporâneo, o 
armazenamento em nuvem representa uma 
revolução significativa na maneira como lidamos 
com dados e informações. Sua história remonta à 
necessidade crescente de superar as limitações dos 
dispositivos de armazenamento físico e proporcionar 
maior flexibilidade, acessibilidade e segurança para 
dados digitais.
54 ENGENHARIA DE DADOS
U
ni
da
de
 2
A evolução do armazenamento de 
dados
O conceito de armazenamento em nuvem teve suas 
raízes na década de 1960, quando os pioneiros da computação 
começaram a explorar maneiras de compartilhar recursos 
de computação remotamente. Contudo, a verdadeira virada 
aconteceu nos anos 2000, com o desenvolvimento de tecnologias 
de virtualização e redes de alta velocidade. Empresas como 
Amazon, Google e Microsoft foram pioneiras na oferta de serviços 
de armazenamento em nuvem, apresentando soluções inovadoras 
que transformaram a maneira como empresas e indivíduos 
gerenciam seus dados.
A evolução do armazenamento em nuvem está 
intrinsecamente ligada aos avanços em tecnologias como 
virtualização, computação em cluster e redes de alta velocidade. 
A capacidade de oferecer armazenamento remoto e acessível 
de maneira escalável permitiu a criação de serviços cada vez 
mais sofisticados. Surgiram modelos de serviço como Software 
as a Service (SaaS), Platform as a Service (PaaS) e Infrastructure 
as a Service (IaaS), ampliando as opções para usuários finais e 
empresas.
O armazenamento em nuvem é primordial na era digital, 
oferecendo uma gama de benefícios. A acessibilidade remota 
aos dados, a colaboração em tempo real e a capacidade de 
escalabilidade são características essenciais para empresas e 
usuários individuais. A segurança também é uma prioridade, 
com provedores de serviços de armazenamento em nuvem 
implementando medidas avançadas para proteger dados contra 
ameaças cibernéticas.
55ENGENHARIA DE DADOS
U
ni
da
de
 2
Para as empresas, o armazenamento em nuvem elimina 
a necessidade de investir em infraestrutura física, reduzindo 
custos e permitindo maior agilidade nos negócios. Além disso, a 
capacidade de realizar backup automatizado e a recuperação de 
desastres garante a integridade e a disponibilidade dos dados.
IMPORTANTE
Apesar dos benefícios, o armazenamento em nuvem 
também enfrenta desafios, como preocupações 
com a privacidade e a segurança dos dados. No 
entanto, com a evolução contínua da criptografia e 
regulamentações mais rigorosas, essas preocupações 
estão sendo abordadas.
O futuro do armazenamento de dados
O futuro do armazenamento em nuvem é promissor, com a 
integração de tecnologias emergentes como a inteligência artificial 
e a computação quântica. Essas inovações prometem melhorar 
ainda mais a eficiência, a segurança e a escalabilidade dos serviços 
em nuvem, moldando, assim, a próxima fase da revolução digital.
O armazenamento de dados na nuvem é indicado em uma 
ampla gama de contextos, sendo fundamental na transformação 
digital de indivíduos e organizações. Sua adoção é altamente 
recomendada em situações em que a flexibilidade, a acessibilidade 
e a segurança dos dados são cruciais.
Como utilizações estratégicas dessa tecnologia podemos citar:
Empresas e negócios
Empresas de todos os portes podem se beneficiar do 
armazenamento em nuvem para gerenciar grandes volumes de 
dados de maneira eficiente, eliminar a necessidade de investimentos 
em infraestrutura física e proporcionar flexibilidade às operações.
56 ENGENHARIA DE DADOS
U
ni
da
de
 2
Colaboração remota
Equipes distribuídas globalmente encontram 
no armazenamento em nuvem uma solução eficaz para 
compartilharem documentos, colaborarem em tempo real e 
garantirem que todos tenham acesso às versões mais recentes 
dos arquivos, independentemente da localização.
Backup e recuperação de dados
O armazenamento em nuvem oferece uma solução 
automática e escalável para backup de dados, garantindo a 
recuperação rápida em casos de falhas de hardware, desastres 
naturais ou ataques cibernéticos.
Aplicações móveis
Para aplicativos móveis, especialmente aqueles que 
dependem de sincronização entre dispositivos, o armazenamento 
em nuvem é essencial. Ele permite que os usuários acessem 
seus dados de qualquer lugar, proporcionando uma experiência 
consistente em diferentes plataformas.
O armazenamento na nuvem parece ser uma resposta 
eficaz para superar as limitações tradicionais. Mas, afinal,o que 
torna a nuvem tão atraente?
Uma das grandes vantagens é a acessibilidade remota. 
Com dados armazenados na nuvem, é possível acessá-los de 
praticamente qualquer lugar, a qualquer momento, desde que 
haja uma conexão à internet. Além disso, a escalabilidade oferecida 
permite que as organizações ampliem ou reduzam facilmente a 
capacidade de armazenamento conforme as necessidades.
57ENGENHARIA DE DADOS
U
ni
da
de
 2
Agora que compreendemos a importância do 
armazenamento de dados na nuvem, vamos nos aprofundar 
nas vantagens que tornam essa abordagem tão atrativa. Uma 
das características notáveis é a acessibilidade remota. Como isso 
impacta positivamente a dinâmica de gestão de dados?
A acessibilidade remota é uma peça-chave no quebra-cabeça 
do armazenamento na nuvem. Ao permitir o acesso aos dados de 
qualquer lugar, a qualquer momento, ela amplia a flexibilidade 
e potencializa a colaboração entre equipes distribuídas. Em um 
estudo recente, destacaram que essa acessibilidade é um fator 
determinante na agilidade operacional das organizações.
A escalabilidade é uma resposta dinâmica às necessidades 
em constante evolução. À medida que os dados crescem, a nuvem 
oferece a capacidade de expandir facilmente o armazenamento, 
garantindo que as organizações possam lidar com o aumento 
de demanda de maneira eficiente. A escalabilidade na nuvem é 
um componente essencial para garantir a adaptação rápida às 
mudanças no ambiente de negócios.
IMPORTANTE
A redução de custos é, sem dúvida, uma vantagem 
significativa. Ao eliminar a necessidade de 
investimentos pesados em infraestrutura física, as 
organizações podem adotar uma abordagem mais 
eficiente em termos de despesas. 
Modelos de serviços na nuvem
Saas e Paas
Agora que compreendemos as vantagens do 
armazenamento na nuvem, vamos nos aprofundar nos modelos 
de serviços que sustentam essa abordagem. Como SaaS, PaaS e 
IaaS contribuem para a eficácia do armazenamento de dados?
58 ENGENHARIA DE DADOS
U
ni
da
de
 2
Esses modelos desempenham papéis distintos, permitindo 
que as organizações escolham a abordagem que melhor atenda às 
suas necessidades específicas. O Software as a Service (SaaS), por 
exemplo, oferece aplicativos prontos para uso, permitindo que as 
empresas foquem em suas operações principais. O SaaS simplifica a 
gestão de software, reduzindo a carga operacional das organizações.
O PaaS oferece uma plataforma para o desenvolvimento e a 
implantação de aplicativos, fornecendo ferramentas e serviços que 
facilitam o processo. Isso é particularmente relevante quando se trata 
de personalização de soluções. O PaaS é uma escolha estratégica 
para empresas que buscam agilidade no desenvolvimento de 
aplicativos específicos de acordo com suas necessidades.
Iaas e AWS
O IaaS fornece a infraestrutura necessária, como 
servidores e armazenamento, dando às organizações controle 
total sobre sua configuração. O que o IaaS oferece flexibilidade 
e escalabilidade, permitindo que as empresas ajustem recursos 
conforme necessário, sem a necessidade de investimentos 
significativos em hardware.
IMPORTANTE
A escolha do provedor de serviços de nuvem é uma 
decisão estratégica para organizações que buscam 
adotar efetivamente o armazenamento na nuvem. 
Entre os principais provedores, destacam-se a 
Amazon Web Services (AWS), a Microsoft Azure e a 
Google Cloud Platform (GCP).
Provedores de serviço de nuvem
A Amazon Web Services (AWS), líder de mercado, oferece 
uma ampla gama de serviços, do armazenamento até a computação 
em nuvem, proporcionando escalabilidade e flexibilidade. A AWS 
59ENGENHARIA DE DADOS
U
ni
da
de
 2
tem sido reconhecida pela confiabilidade e inovação contínua de 
seus serviços.
A Microsoft Azure, por sua vez, é conhecida pela integração 
eficiente com as tecnologias Microsoft. Sua abordagem híbrida 
e suporte a várias linguagens de programação a tornam uma 
escolha popular. A Microsoft Azure tem se destacado na oferta 
de soluções completas para desenvolvimento e gerenciamento de 
aplicativos.
A Google Cloud Platform (GCP), embora menos dominante, 
ganha espaço com suas soluções com base em tecnologias 
inovadoras. A GCP se destaca em áreas como análise de dados 
e aprendizado de máquina, tornando-se uma escolha preferida 
para organizações que buscam inovação tecnológica.
Cabe destacar que a escolha entre esses provedores 
depende das necessidades específicas de cada organização, 
levando em consideração fatores como requisitos técnicos, 
orçamentários e estratégicos. Ao compreender as ofertas 
desses provedores, as organizações podem tomar decisões mais 
informadas sobre a migração para a nuvem, alinhando-se às suas 
metas e aos desafios operacionais.
Segurança de armazenamento
A segurança no armazenamento de dados na nuvem é 
uma preocupação central para organizações que buscam migrar 
seus dados para esse ambiente dinâmico. Nesse contexto, a 
implementação de práticas eficazes de segurança torna-se 
imperativa para proteger informações sensíveis e garantir a 
integridade dos dados.
60 ENGENHARIA DE DADOS
U
ni
da
de
 2
Imagem 2.4 – Armazenamento de dado na nuvem
Fonte: Freepik. 
A criptografia é fundamental na segurança dos dados na 
nuvem. Ao utilizar algoritmos avançados, a criptografia protege 
os dados durante a transmissão e armazenamento. A criptografia 
é uma camada essencial para garantir a confidencialidade das 
informações, especialmente em ambientes nos quais os dados 
trafegam por redes públicas.
Além disso, o controle de acesso é outra medida 
importante. Ao definir políticas de acesso estritas e autenticação 
robusta, as organizações podem garantir que apenas usuários 
autorizados tenham permissão para acessar e manipular os 
61ENGENHARIA DE DADOS
U
ni
da
de
 2
dados armazenados na nuvem. A gestão adequada de identidades 
e acessos é essencial para mitigar potenciais riscos de segurança.
No entanto, a conformidade regulatória não deve ser 
negligenciada. Diversos setores têm regulamentações específicas 
sobre o tratamento de dados, e as organizações que adotam o 
armazenamento na nuvem devem assegurar que suas práticas 
estejam alinhadas com essas normativas. O entendimento e o 
cumprimento das regulamentações são fundamentais para evitar 
consequências legais e garantir a confiança dos clientes.
Ao adotar uma abordagem holística para a segurança no 
armazenamento de dados na nuvem, as organizações podem 
mitigar riscos e construir uma base sólida para a gestão eficaz de 
dados sensíveis.
Estratégias de migração para a nuvem
A migração para a nuvem é uma jornada complexa que 
exige planejamento cuidadoso e estratégias bem definidas. 
Diversas abordagens têm sido propostas para facilitar essa 
transição, permitindo que organizações alcancem os benefícios 
do armazenamento na nuvem de maneira eficiente.
Migração gradual: uma abordagem comum é a migração 
gradual, na qual as organizações transferem progressivamente 
partes de seus sistemas e dados para a nuvem. Essa estratégia 
permite uma transição menos disruptiva, possibilitando a 
identificação e a resolução de desafios à medida que surgem.
Reestruturação de aplicações: a reestruturação de 
aplicações é outra estratégia importante. Ao adaptar ou recriar 
aplicativos para ambientes nativos da nuvem, as organizações 
podem aproveitar ao máximo os recursos oferecidos pela 
plataforma. Nesse contexto afirmam que essa abordagem 
62 ENGENHARIA DE DADOS
U
ni
da
de
 2
não apenas otimiza o desempenho, mas também facilita a 
escalabilidade.
Híbrida e multicloud: a adoção de uma estratégia híbrida, 
combinando ambientes locais e em nuvem, ou multicloud, 
distribuindo cargas de trabalho entre diferentes provedores, 
oferece flexibilidade e redundância. Essa abordagem reduz o 
risco de dependência de um único provedor e proporciona maior 
adaptabilidade às mudanças nas demandas operacionais.
IMPORTANTE
Ao planejar a migração para a nuvem, é fundamental 
considerar não apenas os aspectos técnicos,mas 
também os impactos organizacionais e culturais. A 
colaboração entre equipes de TI e partes interessadas 
é necessária para o sucesso da migração.
Desafios e considerações
Ao explorarmos o armazenamento de dados na nuvem, 
é preciso reconhecer os desafios e as considerações que as 
organizações enfrentam durante sua implementação. Esses 
aspectos vão desde questões técnicas até preocupações 
operacionais e estratégicas.
Dependência da conectividade: um desafio comum 
é a dependência da conectividade à internet. A disponibilidade 
constante de uma conexão confiável é vital para o acesso e a 
operação eficiente dos serviços na nuvem. As interrupções na 
conectividade podem impactar negativamente a produtividade 
e o acesso aos dados, destacando a importância de soluções de 
contingência.
Questões de conformidade regulatória: a conformidade 
regulatória é outra consideração crítica. Diversos setores possuem 
regulamentações específicas para o tratamento de dados, e 
63ENGENHARIA DE DADOS
U
ni
da
de
 2
as organizações devem garantir que suas práticas estejam em 
conformidade. O não-cumprimento dessas normativas pode 
resultar em penalidades legais significativas.
Segurança da informação: a segurança da informação 
permanece como um desafio constante. A gestão de identidades, 
a criptografia e o controle de acesso são práticas essenciais, 
mas a rápida evolução de ameaças cibernéticas exige vigilância 
constante. Investir em tecnologias de segurança e promover a 
conscientização dos usuários são elementos-chave para mitigar 
riscos.
Custos e orçamento: os custos associados ao 
armazenamento na nuvem também são uma consideração crítica. 
Embora a nuvem ofereça a promessa de redução de custos, uma 
implementação inadequada ou a falta de monitoramento pode 
levar a despesas imprevistas. Uma gestão eficiente dos recursos 
na nuvem é fundamental para otimizar os custos ao longo do 
tempo.
Ao enfrentar tais desafios e considerações de maneira 
proativa, as organizações podem maximizar os benefícios do 
armazenamento na nuvem, garantindo uma transição suave e 
eficiente.
Tendências futuras no 
armazenamento em nuvem
Ao considerarmos o cenário dinâmico da tecnologia, 
diversas tendências emergem no horizonte do armazenamento 
em nuvem, moldando o futuro dessa abordagem essencial para 
gestão de dados.
Computação quântica e segurança: a computação 
quântica, apesar de ainda estar em seus estágios iniciais, promete 
64 ENGENHARIA DE DADOS
U
ni
da
de
 2
revolucionar a forma como processamos informações. No 
contexto do armazenamento em nuvem, a segurança quântica 
torna-se uma área de destaque. À medida que a computação 
quântica avança, as técnicas criptográficas tradicionais podem se 
tornar vulneráveis, exigindo novas abordagens para proteger os 
dados na nuvem.
Edge computing e armazenamento descentralizado: a 
ascensão do Edge computing, que descentraliza o processamento 
e armazenamento de dados, impacta diretamente a dinâmica da 
nuvem. A integração entre edge computing e armazenamento em 
nuvem permite uma distribuição eficiente de recursos, reduzindo 
latência e melhorando o desempenho, especialmente em 
ambientes IoT (Internet of Things).
Inteligência Artificial e automatização: a integração de 
Inteligência Artificial (IA) e machine learning no armazenamento 
em nuvem impulsiona a automatização de processos. Sistemas 
baseados em IA podem otimizar a gestão de dados, da classificação 
até a recuperação de informações, proporcionando eficiência 
operacional e insights valiosos.
Sustentabilidade e green cloud: a preocupação com 
a sustentabilidade também molda o futuro do armazenamento 
em nuvem. A busca por práticas eco-friendly e data centers 
energeticamente eficientes é uma tendência crescente. A adoção 
de estratégias green cloud visa reduzir a pegada de carbono 
associada aos serviços de nuvem.
Ao antecipar e adotar essas tendências, as organizações 
podem posicionar-se estrategicamente para enfrentar os desafios 
futuros e aproveitar ao máximo as inovações no armazenamento 
em nuvem.
65ENGENHARIA DE DADOS
U
ni
da
de
 2
RESUMINDO
E então? Gostou do que lhe mostramos? Aprendeu 
mesmo tudinho? Agora, só para termos certeza de 
que você realmente entendeu o tema de estudo 
desse capítulo, vamos resumir tudo o que vimos. 
Você deve ter aprendido que o armazenamento 
de dados na nuvem não é apenas uma tecnologia 
inovadora, mas uma abordagem essencial para 
organizações e profissionais na era digital. 
Nossa jornada começou com uma introdução 
abordando a contextualização do armazenamento 
na nuvem, destacando sua importância no 
cenário atual de gestão de dados. Em seguida, 
exploramos as vantagens que essa tecnologia 
oferece, desde a acessibilidade remota até a 
escalabilidade e a redução de custos. As vantagens 
do armazenamento na nuvem não se limitam 
apenas ao aspecto técnico, mas se estendem para 
impactar positivamente a eficiência operacional 
e a colaboração entre equipes. Nesse universo, 
mergulhamos nos modelos de serviços na 
nuvem, compreendendo como SaaS, PaaS e IaaS 
contribuem para a eficácia do armazenamento 
de dados. Cada modelo oferece uma abordagem 
única, permitindo que as organizações escolham a 
melhor estratégia alinhada às suas necessidades 
específicas.
Ao final desse capítulo, esperamos que tenha 
percebido que o armazenamento de dados na 
nuvem não é apenas uma opção tecnológica, 
mas uma vantagem estratégica para a gestão 
eficiente de dados. Acessibilidade, escalabilidade 
e flexibilidade são os pilares que sustentam 
essa abordagem, capacitando organizações a 
enfrentarem os desafios do mundo digital de 
maneira mais ágil e eficaz. Estamos ansiosos para 
continuar essa jornada de conhecimento junto 
com você!
66 ENGENHARIA DE DADOS
U
ni
da
de
 2
CUZZOCREA, A.; SONG, Il-Yeol; DAVIS, K. C. Analytics over large-scale 
multidimensional data: the big data revolution! In: Proceedings 
of the ACM 14th International Workshop on Data warehousing 
and OLAP. New York: Association for Computing Machinery, p. 
101-104, 2011.
GANDOMI, A.; HAIDER, M. Beyond the hype: big data concepts, 
methods, and analytics. International Journal of Information 
Management, Netherlands, v. 35, n. 2, p. 137-144, 2015.
INMON, WH. Building the data warehouse. 4. ed. New Jersey: 
John Wiley & Sons, 2005.
MACHADO, G. V.; et al. DOD-ETL: distributed on-demand ETL for 
near real-time business intelligence. Journal of Internet Services 
and Applications, London, v. 10, p. 1-15, 2019.
TAURION, C. Big data. Rio de Janeiro: Brasport, 2013.
WARREN, J.; MARZ, N. Big data: principles and best practices of 
scalable realtime data systems. New York: Simon and Schuster, 
2015.
RE
FE
RÊ
N
CI
A
SAnálise de requisitos e perfis de desempenho ............................................ 46
Requisitos de ETL ................................................................................46
Estratégias de indexação e particionamento em projetos de ETL: ...47
O particionamento ..............................................................................48
Armazenamento de dados na nuvem ................................... 50
Introdução ...........................................................................................................50
Aspectos teóricos sobre armazenamento de dados.................... 50
A evolução do armazenamento de dados ...................................... 52
O futuro do armazenamento de dados .......................................... 53
Empresas e negócios ........................................................... 53
Colaboração remota ............................................................ 54
Backup e recuperação de dados ....................................... 54
Aplicações móveis ................................................................54
Modelos de serviços na nuvem .......................................................................55
Saas e Paas ...........................................................................................55
Iaas e AWS ............................................................................................56
Provedores de serviço de nuvem..................................................... 56
Segurança de armazenamento .......................................................................57
Estratégias de migração para a nuvem ........................................... 59
Desafios e considerações ..................................................................60
Tendências futuras no armazenamento em nuvem..................... 61
SU
M
Á
RI
O
9ENGENHARIA DE DADOS
U
ni
da
de
 2
A
PR
ES
EN
TA
ÇÃ
O
Você sabia que a área de processamento e armazenamento 
de dados é uma das mais demandadas na indústria e será 
responsável pela geração de milhares de empregos nos próximos 
anos? Isso mesmo. Essa área crucial faz parte da cadeia de valor 
de uma empresa. Sua principal responsabilidade é gerenciar 
e otimizar todo o ciclo de vida dos dados, desde a sua captura 
até o armazenamento eficiente e a análise estratégica. Essas 
funções são essenciais para a tomada de decisões informadas e o 
desenvolvimento de insights valiosos.
Ao longo desta unidade letiva, você terá a oportunidade 
de mergulhar profundamente nesse universo dinâmico, em que 
o processamento ágil e inteligente dos dados e o armazenamento 
eficaz são fundamentais para o sucesso organizacional. Afinal, em 
uma era na qual a informação é um ativo estratégico, profissionais 
capacitados nessa área são primordiais na condução das operações 
e na formulação de estratégias inovadoras.
Durante nossos capítulos, exploraremos desde os 
conceitos fundamentais do big data, entendendo os desafios 
enfrentados e as principais ferramentas disponíveis, até a 
aplicação prática desses conhecimentos em cenários do mundo 
real. Além disso, abordaremos aspectos vitais, tais como: data 
warehousing, data lakes, técnicas avançadas de ETL e o crescente 
papel do armazenamento de dados na nuvem.
Prepare-se para uma jornada enriquecedora, em que cada 
tópico explorado contribuirá para o seu entendimento abrangente 
e o aprimoramento nas habilidades essenciais para o universo da 
engenharia de dados. Vamos juntos desbravar os desafios e as 
oportunidades dessa área vital e promissora!
10 ENGENHARIA DE DADOS
U
ni
da
de
 2
O
BJ
ET
IV
O
S
Olá. Seja muito bem-vindo à Unidade 2. Nosso objetivo 
é auxiliar você no desenvolvimento das seguintes competências 
profissionais até o término dessa etapa de estudos:
1. Aplicar conceitos e ferramentas de big data;
2. Gerenciar data warehouses e data lakes;
3. Executar processos de ETL de forma eficaz;
4. Identificar e utilizar soluções de armazenamento de 
dados na nuvem.
11ENGENHARIA DE DADOS
U
ni
da
de
 2
Big data: conceitos e 
ferramentas
OBJETIVO
Ao término deste capítulo, você será capaz de 
entender como funciona o fascinante universo do 
big data. Isso será fundamental para o exercício 
de sua profissão na área de engenharia de 
dados, pois a capacidade de lidar eficientemente 
com grandes volumes de dados tornou-se 
uma habilidade indispensável nos ambientes 
corporativos modernos. Avante para desbravar o 
universo do big data e aprimorar suas habilidades 
na engenharia de dados!
Big data
Introdução ao big data
Em meio à revolução digital, a crescente quantidade de 
dados gerada diariamente tornou-se uma característica marcante 
da era contemporânea. Lidar eficientemente com essa avalanche 
de informações é crucial, especialmente para profissionais de 
engenharia de dados, que são fundamentais no surgimento 
de insights valiosos para impulsionar a tomada de decisões 
informadas nas organizações.
12 ENGENHARIA DE DADOS
U
ni
da
de
 2
Imagem 2.1 – Big data
Fonte: Wikimedia Commons. 
Os cinco “v”s
Big data é definido pela combinação de grandes 
volumes, variedade, velocidade e complexidade de dados. Essas 
características, conhecidas como os cinco “v”s, destacam a magnitude 
do desafio que enfrentamos ao tentar compreender e extrair valor 
de conjuntos de dados massivos (Taurion, 2013). O volume, por 
exemplo, refere-se à escala dos dados, ultrapassando a capacidade 
de processamento dos métodos tradicionais, enquanto a variedade 
aborda a diversidade de tipos de dados, desde estruturados até 
não-estruturados (Cuzzocrea; Song; Davis, 2011).
Nesse contexto, os desafios associados ao big data, como 
escalabilidade, complexidade, segurança e integração, tornam-se 
obstáculos que demandam conhecimento especializado. Segundo 
13ENGENHARIA DE DADOS
U
ni
da
de
 2
Gandomi e Haider (2015), a complexidade dos dados, juntamente 
com os desafios tecnológicos e organizacionais, impõe a 
necessidade de métodos e ferramentas avançados para explorar, 
analisar e interpretar esses dados. A engenharia de dados surge 
como a disciplina capaz de fornecer tais métodos e ferramentas.
Ao adentrarmos na compreensão do big data, deparamo-
nos com um conjunto de características fundamentais, 
encapsuladas pelos cinco “v”s: volume, variedade, velocidade, 
veracidade e valor. Esses elementos, conforme discutido por 
Cuzzocrea, Song e Davis (2011), delineiam a complexidade inerente 
ao universo dos dados em larga escala, destacando a necessidade 
de abordagens distintas para sua manipulação.
Ainda de acordo com os autores (Cuzzocrea; Song; Davis, 
2011), o primeiro “v”, volume, refere-se ao vasto volume de dados 
gerados incessantemente em nosso mundo digital. Para ilustrar, 
estima-se que a quantidade de dados global alcance 44 zettabytes, 
exigindo métodos de processamento e armazenamento que 
ultrapassem as capacidades dos sistemas tradicionais.
A variedade, segundo eles, diz respeito à diversidade de 
tipos de dados presentes no ambiente do big data. Ao contrário 
dos dados estruturados tradicionais, que se encaixam facilmente 
em tabelas, o big data abrange desde texto não estruturado até 
dados multimídia e streams de sensores (Cuzzocrea; Song; Davis, 
2011). A complexidade dessa variedade exige ferramentas flexíveis 
capazes de lidar com múltiplos formatos de dados.
A velocidade, terceiro “v”, destaca a rapidez com que os 
dados são gerados, processados e analisados. No contexto atual, 
em que informações precisas e em tempo real são fundamentais, 
a capacidade de lidar com altas taxas de geração de dados torna-
se uma competência essencial. A veracidade, quarto V, refere-se à 
confiabilidade dos dados. Em um ambiente de big data, a qualidade 
14 ENGENHARIA DE DADOS
U
ni
da
de
 2
e precisão das informações são imperativas para a tomada de 
decisões informadas. Como afirmado por Gandomi e Haider 
(2015), a veracidade dos dados é essencial, pois decisões erradas 
podemser tomadas com base em informações imprecisas.
Por fim, o valor, quinto “v”, representa o objetivo final 
do processamento de big data. O valor do big data reside na 
capacidade de transformar dados brutos em insights significativos 
que impulsionam a inovação, a eficiência operacional e a tomada 
de decisões estratégicas.
Desafios do big data
Ao mergulharmos nos “v”s do big data, percebemos que 
sua compreensão não é apenas teórica, mas sim uma bússola 
indispensável para navegarmos nos mares tumultuados de dados 
na era digital.
Ao explorarmos os desafios associados ao processamento 
de grandes conjuntos de dados, percebemos que a capacidade 
de extrair informações valiosas está intrinsecamente ligada à 
superação de obstáculos significativos. Em consonância com 
Gandomi e Haider (2015), destacamos alguns desses desafios que 
exigem atenção especial no contexto do big data.
Escalabilidade: a escalabilidade, entendida como a 
capacidade de um sistema lidar com um aumento substancial 
na carga de trabalho, é um desafio central. Conforme Gandomi 
e Haider (2015) observam, o crescimento exponencial dos dados 
exige sistemas que possam escalar horizontalmente para lidar 
com o aumento do volume de informações. Esse desafio impõe 
a necessidade de arquiteturas e infraestruturas robustas que 
possam crescer de maneira eficiente com a demanda crescente.
15ENGENHARIA DE DADOS
U
ni
da
de
 2
Complexidade: a complexidade dos dados, muitas vezes 
derivada da variedade de fontes e formatos, é um obstáculo que 
demanda abordagens avançadas. Conforme Cuzzocrea, Song e Davis 
(2011) apontam, a heterogeneidade dos dados e sua distribuição 
espacial e temporal complexa requerem técnicas sofisticadas de 
análise e processamento. A complexidade também se estende à 
necessidade de integrar dados de diferentes fontes de maneira coesa.
Segurança: a segurança dos dados assume um papel 
crítico, especialmente em um ambiente em que grandes volumes de 
informações são manipulados. Gandomi e Haider (2015) ressaltam que 
a proteção contra ameaças, a privacidade dos dados e a conformidade 
com regulamentações têm sido um tema cada vez mais importante 
quando se trata de big data. A integridade e a confidencialidade dos 
dados tornam-se, assim, prioridades inegociáveis.
Integração: a integração de dados provenientes de diversas 
fontes, por vezes com estruturas distintas, é um desafio que não 
pode ser subestimado. Como enfatizado por Cuzzocrea, Song e 
Davis (2011), a necessidade de integrar dados de várias fontes, 
incluindo bancos de dados tradicionais, torna-se um obstáculo 
significativo para garantir uma visão unificada e consistente dos 
dados. Soluções eficazes demandam métodos e tecnologias que 
facilitem essa integração de maneira eficiente.
Principais ferramentas do 
ecossistema de big data
Aspectos teóricos sobre o ecossistema 
de big data
Ao mergulharmos nas vastas águas do big data, percebemos 
que a eficácia no processamento e na análise de grandes volumes 
16 ENGENHARIA DE DADOS
U
ni
da
de
 2
de dados não seria possível sem as ferramentas especializadas que 
compõem o ecossistema de big data. Como ressaltam Gandomi 
e Haider (2015), o valor do big data está intrinsecamente ligado 
às ferramentas e às tecnologias que permitem sua coleta, seu 
armazenamento e sua análise de modo eficiente.
A ampla variedade de ferramentas disponíveis no 
ecossistema de big data atende a diferentes necessidades, desde 
o armazenamento eficiente até a análise complexa de dados. A 
escolha das ferramentas certas depende dos requisitos específicos 
de cada projeto e das metas desejadas para o processamento 
de dados. Portanto, o conhecimento e a compreensão dessas 
ferramentas além de enriquecerem a habilidade técnica, 
capacitam profissionais a tomarem decisões estratégicas sobre as 
tecnologias a serem implementadas.
Estamos prestes a desvendar a complexidade dessas 
ferramentas, compreendendo suas funcionalidades individuais e 
a integração delas, formando um arsenal poderoso na engenharia 
de dados. Avante, rumo ao coração do ecossistema de big data, 
em que as ferramentas são a chave para desbloquear o potencial 
dos dados na era digital.
Ferramentas fundamentais de 
armazenamento de dados no 
ecossistema de big data
Iniciando nossa jornada pelo ecossistema de big data, 
encontramos nas ferramentas de armazenamento de dados a 
base essencial para lidar com volumes massivos de informações. 
17ENGENHARIA DE DADOS
U
ni
da
de
 2
IMPORTANTE
Conforme destacado por Cuzzocrea, Song e Davis 
(2011), o armazenamento eficiente é o alicerce 
para a análise posterior e a geração de insights 
significativos em ambientes de big data. 
Vamos explorar algumas das ferramentas fundamentais 
nesse aspecto.
Hadoop Distributed File System (HDFS):
No coração do armazenamento de dados em ambientes 
de big data encontra-se o HDFS, parte integrante do framework 
Apache Hadoop. Como apontam Gandomi e Haider (2015), o HDFS é 
projetado para armazenar grandes volumes de dados distribuídos 
em clusters, proporcionando escalabilidade e confiabilidade para 
enfrentar os desafios do big data. Sua arquitetura distribuída 
permite o processamento eficiente de dados em larga escala.
Amazon S3 e Google Cloud Storage:
À medida que a computação em nuvem se torna uma 
opção central para organizações, serviços como Amazon S3 e 
Google Cloud Storage emergem como ferramentas essenciais 
de armazenamento. A capacidade de escalonamento conforme 
a demanda e a flexibilidade dessas plataformas oferecem uma 
resposta robusta aos desafios de armazenamento.
Ao considerarmos essas ferramentas, percebemos que 
o armazenamento eficiente não é somente uma questão de 
quantidade, mas também de acessibilidade e capacidade de 
adaptação às necessidades dinâmicas do big data. 
18 ENGENHARIA DE DADOS
U
ni
da
de
 2
Principais ferramentas de 
processamento de dados em 
ambientes de big data
Avançando em nossa exploração pelo ecossistema 
de big data, voltamos nossa atenção para as ferramentas de 
processamento de dados, elementos essenciais que capacitam 
a realização de operações complexas em grandes conjuntos de 
dados. 
IMPORTANTE
Conforme salientado por Gandomi e Haider (2015), 
o processamento eficiente é um dos pilares na 
extração do valor em conjuntos de grandes dados. 
Vamos agora explorar algumas das principais ferramentas 
crucias nesse aspecto.
Apache Spark:
No cenário de processamento de dados em larga escala, 
o Apache Spark destaca-se como uma ferramenta versátil e 
poderosa. O Spark oferece uma abordagem unificada para 
processamento de dados em lote e em tempo real, proporcionando 
velocidade e flexibilidade (Warren; Marz, 2015). Sua capacidade 
de processar dados de maneira distribuída, em memória, acelera 
significativamente as operações, tornando-o uma escolha popular 
em ambientes de big data.
Apache Flink:
Em um cenário no qual a análise em tempo real é 
essencial, o Apache Flink destaca-se por suas capacidades de 
19ENGENHARIA DE DADOS
U
ni
da
de
 2
processamento de streams. Gandomi e Haider (2015) ressaltam 
que o Flink oferece suporte à análise de dados em tempo real com 
baixa latência, tornando-se uma escolha valiosa para cenários que 
exigem respostas rápidas. Sua arquitetura eficiente e a capacidade 
de lidar com dados em movimento fazem dele uma ferramenta 
essencial em ambientes dinâmicos de big data.
Essas ferramentas processam dados em larga escala e 
proporcionam uma abordagem eficaz para a realização de análises 
complexas, a extração de padrões e a geração de insights valiosos. 
Continuando a nossa exploração pelo ecossistema 
de big data, adentramos agora no universo das ferramentas 
que possibilitam consultas e análises eficientes nos dados 
armazenados e processados. Como enfatizado por Cuzzocrea, 
Song e Davis (2011), a capacidade de realizar consultas precisas 
e análises significativas de grandes volumes de fontes diversas é 
fundamental para extrair valor de conjuntos de dadosem larga 
escala. Vamos aprofundar nosso entendimento em algumas das 
ferramentas necessárias nesse contexto.
Apache Hive e Apache Pig:
Para aqueles familiarizados com linguagens de consulta 
e script, o Apache Hive e o Apache Pig destacam-se como 
ferramentas poderosas. Conforme Gandomi e Haider (2015) 
observam, o Hive fornece uma interface de consulta semelhante 
ao SQL para dados armazenados em Hadoop, enquanto o Pig 
permite a criação de scripts para processamento de dados em lote. 
Essas ferramentas simplificam o processo de realizar consultas 
complexas e operações de transformação, tornando-as acessíveis 
a uma variedade de profissionais.
20 ENGENHARIA DE DADOS
U
ni
da
de
 2
Apache HBase:
Em cenários que demandam um armazenamento NoSQL 
eficiente para consultas rápidas em dados não-estruturados, o 
Apache HBase é uma boa escolha. Cuzzocrea, Song e Davis (2011) 
destacam que o HBase oferece uma camada sobre o Hadoop, 
permitindo acesso rápido e aleatório aos dados, tornando-o ideal 
para consultas interativas. Sua arquitetura orientada a colunas e 
escalabilidade horizontal são características que o tornam apto 
para ambientes de big data.
IMPORTANTE
Essas ferramentas simplificam o processo de 
consultas e proporcionam flexibilidade para 
análises avançadas em grandes conjuntos de dados. 
À medida que exploramos essas ferramentas, 
é preciso compreender como elas se integram 
ao ecossistema geral de big data, formando uma 
sinergia que potencializa a capacidade de análise e 
interpretação dos dados.
Ferramentas para machine 
learning e análise de grafos em 
big data
Conforme destacado por Warren e Marz (2015, p. 12), a 
aplicação de técnicas de machine learning em conjuntos de dados 
massivos é um componente essencial para desvendar o verdadeiro 
potencial do Big data. Vamos adentrar nesse campo fascinante e 
explorar algumas dessas ferramentas.
Apache Mahout e Apache MLlib:
Para a implementação de algoritmos de machine learning 
em larga escala, o Apache Mahout e o Apache MLlib são recursos 
21ENGENHARIA DE DADOS
U
ni
da
de
 2
valiosos. Gandomi e Haider (2015) destacam que o Mahout 
apresenta uma variedade de algoritmos para a execução de tarefas 
como classificação, clustering e filtragem colaborativa, enquanto 
o MLlib, integrado ao Apache Spark, oferece implementações 
distribuídas eficientes. Essas ferramentas capacitam a aplicação 
de técnicas de machine learning em grandes volumes de dados, 
promovendo a geração de insights preditivos.
Neo4j e Apache Giraph:
Quando observamos a análise de grafos, ferramentas 
como o Neo4j e o Apache Giraph têm um papel crucial. Cuzzocrea, 
Song e Davis (2011) ressaltam que o Neo4j oferece uma 
plataforma robusta para modelagem e consulta de dados em 
formato de grafo, enquanto o Giraph, com base no modelo Pregel, 
é utilizado para processamento distribuído de grafos em larga 
escala. Essas ferramentas permitem a representação e a análise 
eficiente de relacionamentos complexos entre os dados, sendo 
particularmente úteis em cenários em que as interconexões são 
primordiais.
IMPORTANTE
Ao explorarmos essas ferramentas, percebemos 
que elas complementam, além de potencializarem 
as capacidades analíticas do ecossistema de big 
data.
Aplicação prática de conceitos e 
ferramentas de big data em cenários 
do mundo real
No universo complexo do big data, mergulhamos em 
um mar de conceitos e ferramentas que, quando aplicados 
22 ENGENHARIA DE DADOS
U
ni
da
de
 2
corretamente, podem transformar desafios em oportunidades 
e dados em insights estratégicos. Como ressaltado por Gandomi 
e Haider (2015), a verdadeira essência do big data está na sua 
aplicação prática, na capacidade de extrair valor tangível a partir 
dos dados em cenários do mundo real. É nesse contexto que 
nos debruçaremos sobre estudos de caso, buscando ilustrar 
como os conhecimentos adquiridos podem ser efetivamente 
implementados.
A importância de aplicar os conceitos e as ferramentas 
discutidos nos capítulos anteriores reside na necessidade de 
transpor a teoria para a prática, de traduzir a vastidão dos dados 
em ações concretas e resultados mensuráveis. Em uma era em 
que a informação é um ativo estratégico, a capacidade de aplicar 
os princípios do big data torna-se uma competência-chave para 
profissionais de engenharia de dados.
A aplicação prática desses conceitos não se limita ao 
simples processamento de dados, antes, engloba a capacidade 
de identificar padrões, antecipar tendências e tomar decisões 
informadas. Nas palavras de Warren e Marz (2015), o valor do big 
data é percebido nas ferramentas utilizadas, e além: na habilidade 
de transformar dados brutos em insights acionáveis.
Ao desbravarmos esses estudos de caso, entenderemos o 
“como” do big data, o “porquê” e o “para quê”. 
Buscamos abordar estudos de caso provenientes de 
setores distintos, abrangendo desde indústrias tradicionais até 
segmentos mais inovadores. Essa diversidade reflete a natureza 
ubiquitária do Big data, cujas aplicações transcendem fronteiras e 
permeiam diversas esferas da atividade humana. Como destacam 
Warren e Marz (2015), a versatilidade do big data se manifesta na 
sua capacidade de agregar valor em diversos contextos: saúde, 
finanças, manufatura e serviços.
23ENGENHARIA DE DADOS
U
ni
da
de
 2
Desafios específicos:
A escolha dos estudos de caso também considera a 
presença de desafios específicos enfrentados pelas organizações, 
de questões relacionadas à escalabilidade até a necessidade de 
lidar com dados heterogêneos. Cada caso selecionado oferece 
uma oportunidade única de explorar como tais desafios foram 
abordados e superados. 
Impacto tangível:
A relevância dos estudos de caso escolhidos é respaldada 
pelo impacto tangível gerado a partir da implementação de 
soluções com base em big data. Cada caso apresentado ilustra a 
aplicação de conceitos teóricos e destaca como essas aplicações 
se traduzem em resultados mensuráveis. Conforme salientam 
Warren e Marz (2015), o verdadeiro valor do big data reside na sua 
capacidade de gerar impacto real, seja na otimização de processos, 
no aumento da eficiência ou na inovação estratégica.
Escala e complexidade:
A escolha dos estudos de caso leva em consideração a 
escala e a complexidade das operações envolvidas. Buscamos 
casos que representem desde implementações em pequena 
escala, adequadas para organizações de menor porte, até casos 
que abordem desafios complexos em ambientes empresariais de 
grande envergadura. Essa variedade permite uma compreensão 
abrangente das adaptações necessárias em diferentes contextos.
Ao adotarmos esses critérios, estamos assegurando que 
os estudos de caso apresentados ofereçam uma visão holística 
e representativa das aplicações práticas de big data. Adiante, 
mergulharemos em cada caso selecionado, explorando as nuances 
24 ENGENHARIA DE DADOS
U
ni
da
de
 2
e as estratégias que compõem a integração bem-sucedida de 
conceitos e ferramentas em cenários do mundo real.
RESUMINDO
E então? Gostou do que lhe mostramos? Aprendeu 
mesmo tudinho? Agora, só para termos certeza de 
que você realmente entendeu o tema de estudo 
desse capítulo, vamos resumir tudo o que vimos. 
Nós começamos explorando as definições e os 
desafios fundamentais relacionados ao big data. 
Identificamos a importância de compreender 
as características essenciais, como volume, 
variedade, velocidade, veracidade e valor, que 
diferenciam conjuntos de dados massivos. Em 
seguida, mergulhamos no ecossistema de big data, 
destacando as principais ferramentas utilizadas no 
processamento, no armazenamento e na análise 
de dados em larga escala. Do Hadoop Distributed 
File System (HDFS) até as soluções em nuvem, como 
Amazon S3 e Google Cloud Storage, exploramos 
a diversidade de ferramentas disponíveis para 
enfrentar os desafios impostos pelo big data. 
Finalizamos esse capítulo com a aplicação prática 
de todo esse conhecimento por meio de estudos 
de caso. Cada estudo de caso representauma 
oportunidade única de aprender com experiências 
concretas, compreendendo como o big data 
impacta positivamente organizações e impulsiona 
a inovação. Agora, com uma base sólida sobre 
definições, ferramentas e aplicações práticas de 
big data, estamos preparados para nos aprofundar 
ainda mais nos próximos capítulos. Ao prosseguir 
com nossa jornada na disciplina, continuaremos 
a explorar técnicas avançadas, estratégias de 
armazenamento em nuvem e aprofundar nosso 
entendimento sobre a importância crescente 
desses conhecimentos na era digital. Pronto para 
o próximo passo? Avante!
25ENGENHARIA DE DADOS
U
ni
da
de
 2
Data warehousing e data lakes
OBJETIVO
Ao término deste capítulo, você será capaz 
de entender como funciona o gerenciamento 
eficaz de data warehouses e data lakes. Isso será 
fundamental para o exercício de sua profissão na 
área de engenharia de dados, em que o manejo 
eficiente dessas estruturas é crucial no ciclo de 
vida dos dados. As pessoas que tentaram gerenciar 
data warehouses e data lakes sem a devida instrução 
tiveram problemas ao lidar com a complexidade 
do design, a ingestão inadequada de dados e a falta 
de segurança e governança robustas. E então? 
Motivado para desenvolver essa competência? 
Vamos lá. Avante!
Design e arquitetura de data 
warehouses e data lakes
O design de um sistema de gerenciamento de dados é um 
fator determinante para a eficácia na manipulação e a extração de 
informações relevantes.
Nesse contexto, a concepção de um design eficiente não 
se resume à estética, diz respeito à criação de uma estrutura que 
atenda às demandas específicas do negócio e às expectativas dos 
usuários finais (Inmon, 2005). O alinhamento com os objetivos 
estratégicos é essencial para garantir que o data warehouse ou 
data lake sejam facilitadores na tomada de decisões.
IMPORTANTE
O design de data warehouses e data lakes é 
uma disciplina complexa que abrange desde a 
modelagem de dados até a escolha criteriosa de 
arquiteturas. 
26 ENGENHARIA DE DADOS
U
ni
da
de
 2
Modelagem orientada a objetos
A modelagem orientada a objetos surge como um 
princípio essencial no design de data warehouses e data lakes. 
Essa abordagem proporciona uma visão mais holística dos dados, 
permitindo uma representação mais fiel das relações e interações 
entre as entidades no ambiente analítico.
Flexibilidade e escalabilidade
A flexibilidade e a escalabilidade são princípios que se 
entrelaçam na criação de designs robustos. Segundo Inmon (2005), 
a flexibilidade é primordial para a adaptação às mudanças nos 
requisitos de negócios, enquanto a escalabilidade assegura que a 
estrutura possa crescer para acomodar o aumento no volume de 
dados ao longo do tempo.
Normalização e desnormalização
A escolha entre normalização e desnormalização é um 
dilema frequente no design de bases de dados. A normalização 
visa reduzir a redundância, enquanto a desnormalização busca 
otimizar a performance das consultas. O equilíbrio entre esses 
princípios depende das características específicas do contexto e 
dos requisitos analíticos.
Tipos de arquiteturas disponíveis
Ao adentrarmos na compreensão dos tipos de arquiteturas 
disponíveis para data warehouses e data lakes, é preciso reconhecer 
a influência dessas escolhas na eficiência operacional e no 
desempenho analítico. 
27ENGENHARIA DE DADOS
U
ni
da
de
 2
IMPORTANTE
Como afirma Inmon (2005), a arquitetura é a 
espinha dorsal que sustenta a estrutura e a 
funcionalidade dessas importantes ferramentas 
de gerenciamento de dados.
Centralizada vs. distribuída vs. híbrida:
Arquitetura centralizada:
A arquitetura centralizada concentra os dados em um 
único repositório, facilitando a manutenção e garantindo a 
consistência. Inmon (2005) destaca que essa abordagem é eficaz 
para ambientes em que a integridade e a padronização dos dados 
são prioridades.
Arquitetura distribuída:
Por outro lado, a arquitetura distribuída dispersa os 
dados em diferentes locais, proporcionando maior escalabilidade 
e redundância. Essa abordagem é particularmente útil para 
organizações com operações descentralizadas ou que demandam 
alta disponibilidade.
Arquitetura híbrida:
A arquitetura híbrida combina elementos de ambas as 
abordagens, buscando maximizar os benefícios da centralização 
e distribuição. Essa flexibilidade permite adaptar a estrutura 
conforme as demandas específicas do negócio, proporcionando 
um equilíbrio entre controle e agilidade.
28 ENGENHARIA DE DADOS
U
ni
da
de
 2
Escolha da arquitetura adequada
A seleção da arquitetura adequada para um data warehouse 
ou data lake é uma etapa crítica no processo de design, impactando 
diretamente na eficiência operacional e na capacidade analítica 
da estrutura. A compreensão das características e das demandas 
específicas do projeto é essencial para uma escolha informada.
Fatores a considerar:
Volume e complexidade dos dados
Ao avaliar a arquitetura mais adequada, é imperativo 
considerar o volume e a complexidade dos dados a serem 
gerenciados. As estruturas distribuídas podem lidar melhor com 
grandes volumes de dados, enquanto as centralizadas podem ser 
mais eficazes para conjuntos menos complexos.
Requisitos de desempenho
Os requisitos de desempenho, incluindo velocidade de 
consulta e resposta, são determinantes na escolha da arquitetura. 
Inmon (2005) destaca que arquiteturas centralizadas, ao 
consolidarem dados, podem oferecer respostas mais rápidas, 
enquanto arquiteturas distribuídas proporcionam escalabilidade 
para lidar com cargas de trabalho intensivas.
Segurança e conformidade
A segurança e a conformidade são elementos cruciais 
em muitos ambientes. A escolha da arquitetura deve levar em 
consideração requisitos de segurança, controle de acesso e 
conformidade com regulamentações, especialmente em setores 
regulamentados.
29ENGENHARIA DE DADOS
U
ni
da
de
 2
Facilidade de manutenção e evolução
A facilidade de manutenção e evolução da estrutura 
também deve ser ponderada. Arquiteturas híbridas podem 
oferecer um equilíbrio entre controle centralizado e flexibilidade 
descentralizada, facilitando a manutenção contínua e adaptação 
às mudanças.
Melhores práticas de design
Compreendendo os princípios fundamentais e a escolha 
criteriosa da arquitetura, avançamos para as melhores práticas de 
design, elemento-chave na construção de data warehouses e data 
lakes. 
IMPORTANTE
A implementação de práticas sólidas é crucial para 
garantir a eficiência e a eficácia dessas estruturas.
Práticas recomendadas:
Modelagem dimensional: a modelagem dimensional 
é uma prática consagrada que oferece uma visão eficiente e 
intuitiva dos dados. A estruturação em dimensões e fatos facilita a 
compreensão e o acesso aos dados, contribuindo para a eficiência 
analítica.
Indexação estratégica: a indexação estratégica é uma 
prática essencial para otimizar a recuperação de dados. Inmon 
(2005) destaca que a escolha cuidadosa dos índices, considerando 
os padrões de consulta, pode melhorar significativamente o 
desempenho das operações de busca.
30 ENGENHARIA DE DADOS
U
ni
da
de
 2
Particionamento eficiente: o particionamento eficiente 
dos dados é uma técnica valiosa para lidar com grandes volumes. 
O particionamento adequado, com base em critérios como data ou 
região, facilita a gestão e acelera a consulta de dados específicos.
Uso consciente de agregações: o uso consciente de 
agregações é uma prática que pretende melhorar a performance 
analítica. A pré-agregação de dados pode acelerar consultas, 
especialmente em ambientes que demandam respostas rápidas.
Considerações sobre a implementação: a implementação 
dessas práticas não deve ser vista de forma isolada, mas sim como 
um conjunto integrado. O alinhamento e o equilíbrio entre essas 
práticas são essenciais para assegurar a coesão e eficácia do 
design.
Continuaremos explorando como essas práticas são 
aplicadas na prática, contribuindo para a eficiência operacional e 
a qualidade analíticados data warehouses e data lakes.
Eficiência no armazenamento e 
recuperação de dados
Ao mergulharmos na última etapa do design, focaremos na 
eficiência do armazenamento e na recuperação de dados, aspecto 
crítico para o desempenho operacional de data warehouses e data 
lakes. 
IMPORTANTE
A otimização desses processos é essencial para 
garantir acesso rápido e eficaz às informações 
armazenadas.
31ENGENHARIA DE DADOS
U
ni
da
de
 2
Técnicas para otimização:
Compressão de dados: a compressão de dados é uma 
técnica eficaz para otimizar o armazenamento. Inmon (2005) 
ressalta que a redução do espaço ocupado pelos dados economiza 
recursos e acelera a transferência e a recuperação de informações.
Particionamento estratégico: o particionamento 
estratégico dos dados é uma prática que contribui para a eficiência 
operacional. A organização lógica dos dados em partições facilita a 
gestão de grandes conjuntos, melhorando a recuperação seletiva 
de informações.
Utilização de índices adequados: a escolha consciente de 
índices é fundamental para acelerar a recuperação de dados. Os 
índices adequados podem transformar consultas complexas em 
operações mais eficientes, proporcionando ganhos significativos 
de desempenho.
Segurança e integridade dos dados: além da eficiência 
operacional, é necessário garantir a segurança e a integridade 
dos dados. Práticas de armazenamento devem incorporar 
mecanismos robustos para proteger informações sensíveis e 
manter a qualidade dos dados ao longo do tempo.
Processos de ingestão e atualização 
de dados
Ao nos aprofundarmos no universo complexo da 
engenharia de dados, é impossível subestimar a importância dos 
processos de ingestão e atualização de dados, fundamentais para 
o bom funcionamento de data warehouses e data lakes. 
32 ENGENHARIA DE DADOS
U
ni
da
de
 2
IMPORTANTE
Nas palavras de Inmon (2005), a qualidade e a 
atualidade dos dados são consideradas a espinha 
dorsal de qualquer sistema de gerenciamento 
eficaz.
Estratégias de ingestão de dados
Abordaremos agora as estratégias fundamentais de 
ingestão de dados, delineando como a escolha entre ingestão em 
lote e ingestão em tempo real molda a dinâmica dos processos 
de coleta de dados. A eficiência na ingestão é fundamental para 
manter a sincronia entre o volume crescente de dados e as 
necessidades analíticas.
Ingestão em lote (Batch): a estratégia de ingestão em lote, 
conforme discutido por Inmon (2005), envolve o processamento de 
dados em volumes pré-determinados, usualmente em intervalos 
programados. Essa abordagem é eficaz para grandes volumes de 
dados, permitindo o processamento eficiente em lotes.
A ingestão em lote oferece a vantagem de processar 
grandes volumes de dados de uma só vez, facilitando a análise em 
larga escala. No entanto, destaca-se que o intervalo entre os lotes 
pode introduzir uma latência na disponibilidade das informações.
Ingestão em tempo real (streaming): contrapondo-se à 
abordagem em lote, a ingestão em tempo real permite a captura 
e o processamento contínuo de dados à medida que são gerados. 
Esse método é especialmente valioso em cenários que demandam 
análises em tempo quase real.
A ingestão em tempo real minimiza a latência, 
possibilitando análises quase instantâneas à medida que os dados 
são gerados, destaca Inmon (2005). No entanto, é necessário lidar 
33ENGENHARIA DE DADOS
U
ni
da
de
 2
com desafios adicionais, como o processamento de eventos em 
tempo real e a garantia de integridade na sequência de eventos. 
A combinação dessas estratégias em arquiteturas híbridas pode 
oferecer flexibilidade, permitindo que as organizações ajustem 
seus processos conforme a evolução das demandas analíticas e 
dos ambientes operacionais.
Técnicas de atualização de dados
Avançamos agora para o âmbito das técnicas de atualização 
de dados, ponto focal para garantir a consistência e a relevância 
das informações armazenadas nos data warehouses e data lakes. 
A atualização de dados é uma parte integral do ciclo de vida dos 
dados, essencial para manter a qualidade e a precisão.
Atualização em lote: a técnica de atualização em lote 
consiste na atualização programada de conjuntos de dados em 
intervalos predefinidos. Essa abordagem é eficaz para garantir a 
consistência em larga escala.
A atualização em lote é vantajosa quando mudanças 
massivas nos dados precisam ser aplicadas simultaneamente, 
reduzindo a complexidade operacional. No entanto, é importante 
considerar que há uma latência associada ao período entre as 
atualizações em lote.
Atualização incremental: contrapondo-se à abordagem 
em lote, a atualização incremental, conforme discutida por 
Inmon (2005), concentra-se na atualização apenas dos dados 
que foram modificados desde a última atualização. Essa técnica é 
especialmente valiosa para lidar com conjuntos de dados extensos. 
34 ENGENHARIA DE DADOS
U
ni
da
de
 2
IMPORTANTE
A atualização incremental reduz significativamente 
a latência ao aplicar alterações somente nos dados 
que foram modificados, otimizando os recursos e 
acelerando o processo de atualização. 
Garantia de consistência e integridade:
Ao adentrarmos o universo da engenharia de dados, 
compreendemos que a garantia de consistência e integridade 
dos dados é um alicerce para o bom funcionamento de data 
warehouses e data lakes. Dados consistentes e íntegros são a base 
para decisões confiáveis e análises precisas.
Importância da consistência:
A consistência dos dados é essencial para assegurar que 
as informações representem fielmente o estado real do negócio. 
A consistência é especialmente desafiadora em ambientes em 
que múltiplas fontes de dados contribuem para a formação do 
panorama analítico.
Integridade dos dados:
A integridade dos dados, segundo Inmon (2005), está 
intrinsecamente ligada à preservação da precisão e à confiabilidade 
das informações. 
A integridade dos dados é uma salvaguarda contra 
erros e corrupções que podem surgir durante os processos 
de atualização. Mecanismos como restrições de integridade e 
validações automatizadas são fundamentais nesse contexto.
Desafios surgem na garantia de consistência e integridade, 
especialmente em ambientes complexos. O gerenciamento eficaz 
35ENGENHARIA DE DADOS
U
ni
da
de
 2
de transações e a implementação de controles rigorosos são 
essenciais para superar esses desafios.
Soluções práticas incluem a implementação de 
mecanismos de validação, auditoria e a adoção de práticas como 
o versionamento de dados. A transparência nos processos e o 
monitoramento contínuo são pilares para assegurar a qualidade 
dos dados.
Ao mergulharmos no universo dinâmico da engenharia 
de dados, deparamo-nos com desafios inerentes à manipulação 
e à gestão de grandes volumes de informações. Nesse cenário, a 
segurança e a governança de dados são fundamentais, moldando 
tanto a confiabilidade das informações, quanto a eficácia das 
estratégias organizacionais.
IMPORTANTE
A segurança de dados não se trata apenas de 
proteger informações sensíveis contra acessos 
não-autorizados, mas também de assegurar a 
confidencialidade, a integridade e a disponibilidade 
dos dados. A confidencialidade resguarda contra 
acessos indevidos, a integridade garante a 
fidedignidade das informações, e a disponibilidade 
viabiliza o acesso quando necessário.
Além disso, a governança de dados é um componente 
essencial para garantir que os dados estejam alinhados com 
os objetivos organizacionais, e envolve a definição de políticas, 
a padronização, a garantia da qualidade e a atribuição de 
responsabilidades, contribuindo para a consistência e a 
confiabilidade das informações manipuladas.
Ao explorarmos a governança de dados na engenharia de 
dados, deparamo-nos com a complexidade inerente à gestão eficaz 
das informações organizacionais. Os pilares da governança são 
36 ENGENHARIA DE DADOS
U
ni
da
de
 2
fundamentais para estabelecer alicerces sólidos que assegurem a 
coerência, a qualidade e a relevânciados dados.
A qualidade dos dados, como salienta Inmon (2005), é 
o segundo pilar crítico da governança. A garantia de qualidade 
permeia desde a coleta até o armazenamento, visando à 
mitigação de erros e inconsistências que poderiam comprometer 
a confiabilidade das análises. Nesse sentido, a qualidade é 
inseparável da responsabilidade, o terceiro pilar, que atribui 
papéis e deveres claros na gestão dos dados.
Estratégias para alinhar os dados com os objetivos 
organizacionais e regulamentações são essenciais. A governança de 
dados não é um fim em si mesma, mas sim um meio para garantir que 
os dados sirvam como ativos estratégicos que possam impulsionar a 
tomada de decisões e a consecução dos objetivos da organização.
Na busca por implementar efetivamente a governança 
de dados na engenharia de dados, nos deparamos com desafios 
que permeiam esse processo complexo. A implementação da 
governança de dados é uma jornada que demanda esforço 
contínuo, enfrentando obstáculos que refletem a natureza 
dinâmica do ambiente de dados.
Um desafio recorrente é a resistência organizacional à 
mudança. A adoção de práticas de governança pode ser vista como 
uma interferência nas práticas tradicionais, que geram resistência 
por parte das equipes. Assim, é preciso que haja um esforço de 
conscientização e de engajamento para superar essa barreira.
A falta de recursos adequados é outro desafio destacado 
por Inmon (2005). Implementar governança de dados demanda 
investimentos em tecnologia, treinamento e, principalmente, na 
cultura organizacional, uma vez que a alocação insuficiente de 
recursos pode comprometer a eficácia da implementação.
37ENGENHARIA DE DADOS
U
ni
da
de
 2
A conformidade com regulamentações, como a Lei Geral de 
Proteção de Dados (LGPD), apresenta desafios específicos. Garantir 
que os processos de governança estejam em conformidade com as 
regulamentações requer um entendimento detalhado e constante 
acompanhamento das leis e normas vigentes.
Outro desafio notório é a falta de uma cultura orientada 
para dados. A governança só pode ser eficaz quando os 
colaboradores entendem e valorizam a importância dos dados 
para o alcance dos objetivos organizacionais. Desenvolver essa 
cultura exige esforços contínuos de educação e sensibilização.
Diante dos desafios inerentes à implementação da 
governança de dados, a seleção e a adoção de tecnologias e 
ferramentas específicas tornam-se imperativas para garantir eficácia 
e eficiência. A utilização de tecnologias apropriadas é fundamental 
para automatizar e facilitar os processos relacionados à governança.
Uma ferramenta crucial é o Master Data Management 
(MDM), que possibilita a gestão centralizada e consistente dos 
dados mestres da organização para a padronização e a integridade 
dos dados. A implementação do MDM promove uma visão única e 
confiável dos dados essenciais.
IMPORTANTE
Ferramentas de data quality são fundamentais 
para enfrentar o desafio da qualidade dos dados. 
Inmon (2005) destaca que tais ferramentas 
permitem avaliar, corrigir e monitorar a qualidade 
dos dados, contribuindo para a conformidade e a 
confiabilidade das informações.
Em relação à conformidade com regulamentações, 
soluções de data governance são essenciais. Ao auxiliarem 
na definição de políticas, no rastreamento de alterações e na 
auditoria, essas ferramentas garantem que os processos estejam 
alinhados com as normativas vigentes.
38 ENGENHARIA DE DADOS
U
ni
da
de
 2
A automação de processos de governança é favorecida 
por ferramentas de workflow management. Esses sistemas ajudam 
na definição, na execução e no monitoramento de processos de 
governança, assegurando consistência e conformidade.
RESUMINDO
E então? Gostou do que lhe mostramos? Aprendeu 
mesmo tudinho? Agora, só para termos certeza de 
que você realmente entendeu o tema de estudo 
desse capítulo, vamos resumir tudo o que vimos. 
Você deve ter aprendido sobre os fundamentos 
essenciais do processamento e armazenamento de 
dados. Ao desbravar o design e a arquitetura de data 
warehouses e data lakes, percebemos a importância 
de estruturas bem delineadas para assegurar a 
eficiência na manipulação de grandes volumes 
de informações. Aprofundamo-nos nos intricados 
processos de ingestão e atualização de dados, 
compreendendo a relevância de estratégias como 
a atualização em lote e incremental para garantir 
a consistência e a relevância das informações ao 
longo do tempo. Abordamos o cenário crítico da 
segurança e governança de dados, reconhecendo a 
necessidade de políticas, padronização, qualidade 
e responsabilidades para moldar uma gestão 
eficaz dos ativos de informação. A implementação 
desses pilares é essencial para assegurar a 
confidencialidade, integridade e disponibilidade 
dos dados. Assim, nesse capítulo, exploramos, 
além de conceitos teóricos, práticas e desafios 
reais da engenharia de dados. Estamos confiantes 
de que as bases aqui estabelecidas servirão como 
alicerce sólido para sua jornada nesse vasto e 
dinâmico campo. Agora, preparado para aplicar 
esses conhecimentos na prática? Avante para os 
próximos desafios da engenharia de dados!
39ENGENHARIA DE DADOS
U
ni
da
de
 2
Técnicas de ETL: Extract, 
Transform e Load
OBJETIVO
Ao término deste capítulo, você será capaz de 
entender como funciona o processo de ETL 
(Extract, Transform e Load) de maneira eficaz. Isso 
será fundamental para o exercício de sua profissão 
na área de engenharia de dados. As pessoas 
que tentaram realizar operações de extração, 
transformação e carga sem a devida instrução 
tiveram problemas ao lidar com a complexidade 
dos dados, enfrentando desafios, desde a obtenção 
até a entrega dos dados em seus destinos finais. 
A importância de executar processos de ETL de 
forma eficiente torna-se evidente, uma vez que isso 
impacta diretamente na qualidade e na utilidade 
dos dados manipulados. E então? Motivado para 
desenvolver essa competência? Vamos lá. Avante! 
Princípios fundamentais do ETL
Em nossa jornada pelo vasto universo da engenharia de 
dados, somos agora guiados para adentrar o fascinante reino dos 
processos de ETL - Extract, Transform e Load. Para compreendermos 
de forma profunda o papel desempenhado por esses processos, 
é essencial, como aponta Machado (2019), compreendermos a 
interrelação harmoniosa entre a extração, a transformação e a 
carga de dados.
A extração é o ponto de partida, o momento em que os 
dados são retirados de suas fontes originais. Pode envolver a busca 
em bancos de dados, a captura de dados em tempo real por meio 
de APIs ou a leitura de arquivos. Como ressalta o referido autor, 
a escolha eficiente das fontes de dados é crucial para garantir a 
relevância e a integridade das informações extraídas.
40 ENGENHARIA DE DADOS
U
ni
da
de
 2
Já na etapa de transformação, entramos no domínio da 
preparação e da modificação dos dados. É neste estágio que 
enfrentamos desafios como a limpeza de dados inconsistentes, a 
aplicação de regras de negócio e a conversão de formatos. Uma 
transformação eficaz é a chave para garantir a qualidade e a 
consistência dos dados ao longo do processo de ETL.
E por fim, a carga completa o ciclo, inserindo os dados 
preparados nos sistemas de destino. A eficiência na carga dos 
dados é essencial para garantir a integridade e a disponibilidade 
das informações nos ambientes de armazenamento finais.
Extract: obtendo dados de forma 
eficiente
Ao adentrarmos no universo da extração de dados, 
deparamo-nos com um cenário multifacetado, em que a eficiência 
é crucial. A extração eficiente é o alicerce que sustenta toda a 
jornada de manipulação de dados no processo de ETL.
IMPORTANTE
A extração eficiente vai além da simples coleta de 
dados, e envolve a minimização de impactos no 
ambiente-fonte e a maximização da velocidade na 
obtenção das informações. A eficiência na extração 
é diretamente proporcional à capacidade de obter 
dados de maneira rápida e sem comprometer a 
performance dos sistemasde origem.
O processo de extração não se resume à coleta de dados, 
ele envolve estratégias refinadas que consideram a natureza dos 
dados, a arquitetura do ambiente-fonte e a sincronização temporal. 
Conforme avançamos nesse capítulo sobre os princípios do ETL, 
explore conosco as nuances e as estratégias para extrair dados 
de forma eficiente, dando os primeiros passos rumo à execução 
eficaz de processos de ETL.
41ENGENHARIA DE DADOS
U
ni
da
de
 2
Transform: preparação e modificação 
dos dados
Ao avançarmos para a fase de transformação no processo 
de ETL, mergulhamos nas profundezas da preparação e da 
modificação dos dados. 
IMPORTANTE
Essa etapa é o coração do processo, em que 
os dados brutos são lapidados para atender às 
necessidades específicas do ambiente de destino.
A transformação de dados envolve uma série de operações 
que buscam garantir a qualidade e a integridade das informações. 
A limpeza de dados inconsistentes, por exemplo, é uma prática 
essencial. A transformação eficaz é a chave para garantir a 
confiabilidade dos dados ao longo do processo de ETL.
Outro ponto crucial na etapa de transformação é a aplicação 
de regras de negócio, pois elas moldam os dados de acordo com a 
lógica específica do contexto empresarial. A transformação não se 
configura enquanto uma mera etapa técnica, é, antes, a tradução 
das regras de negócio que direcionam a manipulação dos dados.
Em adição, a conversão de formatos é uma prática comum 
na transformação de dados. A adaptação dos dados para formatos 
padronizados é primordial para garantir a interoperabilidade e a 
consistência nas fases subsequentes do processo de ETL. Dessa 
forma, a transformação prepara os dados e os adapta para facilitar 
sua utilização em diferentes contextos.
42 ENGENHARIA DE DADOS
U
ni
da
de
 2
Load: carga eficiente nos destinos finais
Ao alcançarmos a fase de carga no ciclo de ETL, deparamo-
nos com um estágio crucial: a inserção eficiente dos dados nos 
sistemas de destino. Esse processo representa o momento em 
que os dados transformados são incorporados ao ambiente de 
armazenamento final, pronto para serem explorados e analisados.
IMPORTANTE
A eficiência na carga está diretamente relacionada 
à capacidade de inserir os dados de forma rápida 
e consistente. A carga eficiente é essencial para 
garantir que os dados estejam prontos para análise 
e tomada de decisão no menor tempo possível. É 
nesse ponto que a qualidade e a integridade dos 
dados se tornam tangíveis para os usuários finais.
A gestão de índices tem papel significativo na carga 
eficiente. A utilização adequada de índices agiliza as consultas nos 
sistemas de destino, otimizando a performance das operações de 
busca e recuperação de dados. Portanto, além da velocidade, a 
otimização na estruturação dos dados nos destinos finais é uma 
consideração importante.
Em ambientes de armazenamento na nuvem, a carga 
eficiente também envolve estratégias específicas. A transferência 
eficaz de dados para ambientes de nuvem requer considerações 
sobre largura de banda, segurança e escalabilidade. Essas 
considerações tornam-se essenciais, especialmente diante da 
crescente adoção de soluções em nuvem na área de engenharia 
de dados.
Ferramentas e tecnologias para ETL
É necessário entender que esse universo vasto pode ser 
categorizado de acordo com suas funcionalidades específicas. A 
43ENGENHARIA DE DADOS
U
ni
da
de
 2
escolha da ferramenta de ETL correta é um dos fatores críticos para 
o sucesso de um projeto de engenharia de dados. Compreender 
as diferentes categorias é o primeiro passo para tomar decisões 
informadas.
 Grupos de Ferramentas 
Em nossa jornada, podemos dividir as ferramentas de 
ETL em grupos distintos, cada qual tendo um papel específico no 
processo de manipulação de dados. A primeira categoria engloba 
as ferramentas de extração, que têm como foco a obtenção 
eficiente de dados de diversas fontes. Essas ferramentas são 
projetadas para lidar com a complexidade de fontes heterogêneas, 
facilitando a coleta de dados de forma estruturada.
Já as ferramentas de transformação constituem outra 
categoria essencial. Nesse estágio, os dados extraídos passam por 
processos de limpeza, enriquecimento e adaptação às regras de 
negócio. As ferramentas de transformação são os artífices que 
esculpem os dados brutos em informações refinadas e prontas 
para análise.
IMPORTANTE
Além disso, não podemos negligenciar as 
ferramentas dedicadas à carga eficiente nos 
destinos finais. Elas são cruciais na inserção ágil e 
consistente dos dados transformados nos sistemas 
de armazenamento final. Uma carga eficiente é 
o ponto de convergência em que a utilidade dos 
dados se manifesta plenamente.
Na encruzilhada entre as ferramentas tradicionais e as 
modernas de ETL, nos deparamos com um debate fundamental 
na engenharia de dados. A escolha entre ferramentas tradicionais 
e modernas é uma decisão estratégica que impactará diretamente 
na eficácia dos processos de ETL. Vamos, então, explorar as 
44 ENGENHARIA DE DADOS
U
ni
da
de
 2
características distintas, as vantagens e as desvantagens de ambas 
as abordagens.
As ferramentas tradicionais de ETL geralmente são 
implementadas em infraestruturas locais e operam em lotes. Essa 
abordagem, embora estabelecida, pode apresentar desafios em 
termos de escalabilidade e agilidade. A operação em lotes pode 
resultar em atrasos significativos na disponibilidade dos dados 
para análise.
Por outro lado, as ferramentas modernas, frequentemente 
com base em tecnologias de nuvem, oferecem uma abordagem 
mais ágil e escalável. A flexibilidade da computação em nuvem 
permite a expansão ou a redução rápida dos recursos conforme 
necessário, proporcionando maior eficiência e adaptabilidade aos 
requisitos dinâmicos. Essa agilidade é especialmente fundamental 
em um cenário de dados em constante evolução.
Contudo, é importante destacar que a transição para 
ferramentas modernas não é isenta de desafios. A migração para 
a nuvem pode envolver custos adicionais e a necessidade de uma 
curva de aprendizado para equipes acostumadas com abordagens 
tradicionais. Além disso, questões relacionadas à segurança e à 
conformidade também devem ser cuidadosamente consideradas.
A escolha entre ferramentas tradicionais e modernas 
deve ser guiada pelos objetivos específicos do projeto e pelas 
características do ambiente em que serão aplicadas. Compreender 
as vantagens e as desvantagens de cada abordagem permite uma 
decisão informada, alinhada aos requisitos e aos desafios únicos 
de cada contexto.
45ENGENHARIA DE DADOS
U
ni
da
de
 2
IMPORTANTE
Em projetos de grande escala, as ferramentas 
de ETL são vitais na integração de dados de 
diversas fontes. A capacidade de integrar dados 
heterogêneos de maneira eficiente é preciosa 
para empresas que buscam uma visão holística 
de suas operações. Nesse contexto, ferramentas 
consolidadas de ETL são empregadas para unificar 
informações dispersas em sistemas diversos.
Automação dos processos de ETL
Além disso, a automação dos processos de ETL se destaca 
como uma aplicação prática essencial. A automação acelera a 
execução dos processos e reduz a possibilidade de erros humanos, 
contribuindo para a confiabilidade dos dados. Ferramentas 
modernas, especialmente aquelas com base em nuvem, oferecem 
recursos avançados de automação que revolucionam a eficiência 
operacional.
Em setores orientados por análise de dados, como 
o marketing, as ferramentas de ETL encontram aplicação na 
preparação e no enriquecimento de conjuntos de dados. A 
transformação de dados possibilita a criação de perfis mais 
detalhados dos clientes, aprimorando estratégias de segmentação 
e personalização. Assim, as ferramentas de ETL tornam-se aliadas 
estratégicas na geração de insights valiosos para a tomada de 
decisões informadas.
No entanto, é importante notar que a aplicação prática 
das ferramentas de ETL não é homogênea. Cada setor e projeto 
apresenta desafiosespecíficos que demandam adaptações e 
configurações personalizadas. A versatilidade das ferramentas de 
ETL é uma vantagem significativa, permitindo a sua adequação a 
uma gama diversificada de contextos.
46 ENGENHARIA DE DADOS
U
ni
da
de
 2
Imagem 2.2 – Códigos de dados digitais
Fonte: Freepik. 
Ao avançarmos na exploração das aplicações práticas, 
compreendemos que o verdadeiro potencial das ferramentas 
de ETL se manifesta na capacidade de moldar dados de maneira 
eficiente e eficaz, contribuindo para o sucesso de projetos 
complexos de engenharia de dados.
Seleção e Implementação
No cenário complexo da engenharia de dados, a seleção 
e a implementação de ferramentas de ETL representam uma 
fase crítica, em que decisões estratégicas moldam o sucesso ou 
o insucesso dos projetos. A escolha de ferramentas adequadas é 
um dos fatores determinantes para a eficiência e a eficácia dos 
processos de ETL. Vamos explorar, então, os aspectos envolvidos 
nesse processo decisório.
IMPORTANTE
A seleção de ferramentas de ETL deve ser guiada 
por uma avaliação criteriosa das necessidades 
específicas do projeto. Portanto, antes de tomar 
decisões, é necessário compreender claramente 
os objetivos e os desafios do projeto.
47ENGENHARIA DE DADOS
U
ni
da
de
 2
Além disso, considerações relacionadas aos custos 
também são significativas na seleção de ferramentas de ETL. Os 
custos relacionados à aquisição, à implementação e à manutenção 
das ferramentas devem ser avaliados e considerados em relação 
ao orçamento disponível e ao retorno esperado do investimento. 
Essa análise financeira é fundamental para evitar surpresas 
desagradáveis ao longo do ciclo de vida do projeto.
A falta de uma implementação robusta pode resultar em 
problemas operacionais no decorrer do projeto.
Ao mergulharmos nos intricados processos de engenharia 
de dados, torna-se evidente que a otimização do desempenho em 
projetos de ETL é um pilar essencial para o sucesso operacional. 
A eficiência operacional não é apenas uma aspiração, é a espinha 
dorsal que sustenta a qualidade e a velocidade da manipulação 
de dados em ambientes de engenharia de dados. O dinamismo 
inerente aos ambientes de ETL, frequentemente caracterizados 
por grandes volumes de dados e fontes heterogêneas, demanda 
uma abordagem meticulosa para garantir a eficácia dos processos. 
A otimização do desempenho não é somente uma questão 
técnica, mas uma resposta estratégica à complexidade crescente 
dos cenários de engenharia de dados. Ela se traduz na capacidade 
de extrair, transformar e carregar dados de maneira ágil, sem 
comprometer a integridade ou a confiabilidade.
A importância da otimização do desempenho é 
intrinsecamente ligada à qualidade dos resultados obtidos nos 
projetos de ETL. A eficiência operacional reflete diretamente na 
capacidade de entregar dados prontos para análise de forma 
rápida e consistente, proporcionando insights valiosos para o 
negócio. Num mundo em que a tomada de decisões ágeis é 
imperativa, a agilidade na manipulação de dados é um diferencial 
competitivo significativo.
48 ENGENHARIA DE DADOS
U
ni
da
de
 2
Além disso, a otimização do desempenho impacta 
positivamente a economia de recursos, tanto em termos de 
hardware quanto de mão de obra. Um sistema otimizado consome 
menos recursos computacionais, reduzindo custos operacionais e 
permitindo um uso mais eficiente da infraestrutura disponível. Essa 
eficiência fortalece a sustentabilidade dos projetos e libera recursos 
para investimentos em inovação e aprimoramento contínuo.
IMPORTANTE
Em síntese, compreender a importância da 
otimização do desempenho em projetos de ETL é 
reconhecer que a eficiência operacional é o alicerce 
sobre o qual repousa o sucesso na manipulação de 
dados. 
Análise de requisitos e perfis de 
desempenho
A análise aprofundada dos requisitos específicos do projeto 
e dos perfis de desempenho desejados é o compasso que guia os 
passos iniciais e contínuos na jornada da otimização do desempenho 
em projetos de ETL. Entender a natureza única de cada projeto é 
importante, pois os requisitos moldam as estratégias e os perfis de 
desempenho indicam os alvos a serem alcançados. 
Requisitos de ETL
A diversidade nos requisitos de projetos de ETL reflete-se 
na variedade de fontes de dados, nas demandas de tempo e nas 
complexidades das transformações necessárias. 
A análise criteriosa dos requisitos permite identificar os pontos 
críticos que demandam maior atenção, evitando esforços dispersos e 
direcionando recursos para as áreas que mais impactam nos objetivos 
49ENGENHARIA DE DADOS
U
ni
da
de
 2
do projeto. Assim, essa análise não é apenas um ponto de partida, mas 
um processo dinâmico que se ajusta às nuances do ambiente.
A definição clara dos perfis de desempenho desejados 
proporciona uma visão nítida das expectativas e metas a serem 
alcançadas. Os perfis de desempenho não são apenas indicadores 
abstratos, são critérios tangíveis que direcionam as escolhas de 
arquitetura, a seleção de ferramentas e a alocação de recursos. 
Dessa forma, a análise dos perfis de desempenho não se limita 
a uma fase inicial, mas permeia todas as etapas do projeto, 
adaptando-se conforme as necessidades evoluem.
É na interseção entre requisitos e perfis de desempenho 
que as estratégias de otimização ganham forma. A sinergia entre 
esses elementos orienta a escolha de técnicas como indexação, 
particionamento e paralelismo, alinhando as operações de ETL com 
as expectativas do negócio. Nesse contexto, a análise profunda 
além de informar, capacita a tomada de decisões fundamentadas.
Em suma, a análise aprofundada dos requisitos e perfis de 
desempenho é um exercício contínuo de alinhamento estratégico. 
Nos próximos segmentos, exploraremos estratégias práticas 
que surgem desse entendimento aprofundado, delineando 
como traduzir esses insights em ações concretas para otimizar 
efetivamente o desempenho em projetos de ETL.
Estratégias de indexação e 
particionamento em projetos de ETL:
Avançando na trilha da otimização do desempenho em 
projetos de ETL, adentramos um terreno vital: as estratégias de 
indexação e particionamento. A escolha sábia de técnicas de 
indexação e particionamento é um divisor de águas na eficiência 
das operações de ETL, afetando diretamente a velocidade de 
50 ENGENHARIA DE DADOS
U
ni
da
de
 2
acesso e a manipulação dos dados. Nesse contexto, vamos 
explorar como essas estratégias moldam a eficácia operacional e 
contribuem para a consecução dos objetivos dos projetos.
A indexação é crucial na busca por eficiência em operações 
de ETL. Um índice bem projetado acelera a recuperação de dados, 
reduzindo a necessidade de leituras sequenciais e agilizando 
as consultas. Ao entender os padrões de acesso aos dados no 
contexto do projeto, é possível projetar índices que maximizem 
a eficiência, acelerando o processo de extração e transformação.
IMPORTANTE
A escolha estratégica de índices, no entanto, demanda 
uma análise criteriosa. Não se trata somente de criar 
índices indiscriminadamente, mas de identificar 
os atributos mais relevantes para consultas 
frequentes e aplicar técnicas de indexação que se 
alinhem às características específicas do projeto. 
Essa abordagem se alinha com a necessidade de 
equilibrar a eficácia dos índices com a sobrecarga de 
armazenamento e processamento associada.
O particionamento
O particionamento surge como uma estratégia eficaz 
para lidar com grandes volumes de dados. Particionar os dados 
de maneira inteligente distribui a carga de trabalho, permitindo 
operações paralelas que aceleram o processo de transformação 
e carga. Ao segmentar os dados com base em critérios relevantes 
para o projeto, é possível otimizar o desempenho, reduzir gargalos 
e garantir uma distribuição equitativa das operações.
Contudo, a definição adequada dos critérios de 
particionamento é essencial. O particionamento deve refletir as 
características de acesso e a distribuição dos

Mais conteúdos dessa disciplina