Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Prévia do material em texto

Big Data → base de dados com uma quantidade enorme de 
dados, que pode estar alocada em múltiplos servidores.
Tipos de dados dentro do sistema de gerenciamento de banco 
de dados (SGBD):
1.Estruturados;
2.Não Estruturados;
3.Semiestruturados.
1.Dados Estruturados:
Tamanhos definidos em seu desenvolvimento - números, 
datas e palavras.

Geralmente utilizados em bancos de dados do tipo 
relacional.

2.Dados Não Estruturados:
Não possuem formato e o tamanho pode variar.
Geralmente utilizados em imagens, fotografias, vídeos, 
mídias sociais…

3.Dados Semiestruturados:
É o meio termo entre os dados estruturados e os não 
estruturados.

Geralmente utilizados em aplicações web, em que os 
dados são convertidos em tags.

Extração e tratamento de dados
Consiste em identificar quais dados são essenciais para a 
empresa. O processo de coleta deve possuir filtros que 
permitam separar ao máximo quais dados realmente devem ser 
incluídos no tratamento de dados.
Os dados coletados podem ter os diferentes formatos, como: 
estruturados, não estruturados e semiestruturados. 
Quando se tem uma coleta em que existam dados não 
estruturados ou semiestruturados, é necessário que ocorra 
um pré-processamento desses dados; somente depois disso é 
possível iniciar uma análise. Esse ponto pode variar 
conforme o SGBD, pois, se o SGBD for do tipo NoSQL (Not 
Only Structured Query Language), será possível utilizar os 
dados de forma não estruturada ou, ainda, semiestruturada.
A essência das técnicas de mineração de dados é 
exatamente permitir que os dados de diferentes fontes, 
formatos e nichos possam ser capturados segundo um 
filtro que atenda às necessidades de uma empresa e, 
conforme os objetivos, possam gerar informações 
relevantes aos gestores.

Infraestrutura de sistema de gerenciamento de banco de 
dados
Segurança: normalmente, os provedores disponibilizam 
métodos de segurança por padrão nos pacotes de 
serviços.

Disponibilidade: esse ponto pode variar conforme o 
pacote contratado. 

Interoperabilidade: os serviços em nuvem, em grande 
parte, permitem que diferentes equipamentos e 
tecnologias possam utilizar sistemas de forma 
transparente. 

Armazenamento: existe a possibilidade de se contratar 
um espaço desejado ou pagar por espaço consumido em 
determinado tempo. 

Características de Cenários de Big Data
segunda-feira, 8 de maio de 2023 14:18
 Página 1 de Semana 1 
Gerenciamento do crescimento dos dados
Ao se planejar a captação dos dados das mais diferentes fontes, tem-se a necessidade de utilizar técnicas 
como as descritas a seguir:
Compactação: abrange técnicas e ferramentas tecnológicas que possibilitam diminuir o espaço de 
armazenamento de um grande grupo de dados.
Uma analogia dessa técnica é a utilização de software de compactação do tipo RAR.○

Desduplicação: trata-se de uma técnica que visa a “limpar” os dados que foram captados. A ideia é 
utilizar técnicas que permitam excluir os dados duplicados na tabela — dessa forma, a base a ser 
analisada terá uma taxa menor de processamento.

Hierarquização: é uma forma de organizar os dados minerados de forma que as ferramentas possam fazer a 
análise dos dados estruturadamente. Essas técnicas ajustam os dados, a fim de diminuir o seu tempo de 
processamento, para minimizar o tempo de retorno das devolutivas aos gestores.

Resistência organizacional
Além dos desafios tecnológicos, existem aqueles ligados aos problemas administrativos. Esse desafio pode 
apresentar 3 pontos principais:
Falta de alinhamento organizacional: Ocorre quando existe um distanciamento entre as necessidades 
gerenciais e o que, de fato, a equipe de TI está desenvolvendo. Essa falta de alinhamento organizacional 
é um dos fatores que mais podem causar fracasso na operacionalização do big data.
1.
Falta de entendimento: Os gerentes têm que estar alinhados com a equipe de TI.2.
Resistência gerencial: Cabe ao setor de TI demostrar o quanto novas soluções ou tecnologias podem ser 
atribuídas e úteis para os gestores.
3.
Ramo empresarial
Comportamentos e tendências: O big data permite compreender o comportamento dos consumidores e a 
tendência de consumo, apontando quais produtos ou serviços podem ser direcionados a determinado nicho ou 
grupo.

Estratégia de marketing: Permite realizar análises de dados e direcionar as ofertas de produtos e 
serviços de forma assertiva.

Melhoria de produtos e serviços: Os feedbacks fornecidos por consumidores de produtos em redes sociais, 
sites de reclamação… são informações úteis para equipes de desenvolvimento.

Isso tudo pode se tornar um diferencial não só em nível comercial, mas também estratégico.
Área da saúde
Medicina de precisão: Visa corrigir as deficiências na prescrição de medicamentos que funcionam bem para 
determinados pacientes e para outros não.

Prontuários eletrônicos: Essa ferramenta computacional, auxilia os profissionais da saúde na prescrição 
de medicamentos em diagnósticos baseados em históricos similares e no acesso a documentos em diferentes 
centros de saúde.

Questões:
Os dados são gerados a todo momento por diversos meios, plataformas, sistemas, redes 
sociais, buscadores de Internet, entre outros. Com isso, surge o Big Data, que propõe a 
utilização desses dados, de forma a gerar informações importantes aos gestores.
1.
As redes sociais têm dados não estruturados como os vídeos e as fotos postados pelos 
usuários.
Os dados gerados por redes sociais e e-commerce são semiestruturados, pois cada usuário 
que estiver utilizando um dos sistemas gerará tipos diferentes de dados. Os semiestruturados 
não são usados em bancos de dados do tipo relacional, sendo o mais correto utilizar os 
bancos de dados não relacionais (NoSQL). Os dados gerados por vídeos e fotos, quando 
postados em redes sociais, não são estruturados, sendo a sua análise mais complexa.
2. O Big Data foi desenvolvido dentro de especificações técnicas que visam a fazer a 
captação de dados, bem como proceder ao tratamento, à análise e gerar informações. Para 
tal, foi criada uma estrutura conhecida como 5 Vs, isto é, uma forma de garantir a qualidade 
do serviço (QoS - Quality of Service).
 Página 2 de Semana 1 
do serviço (QoS - Quality of Service).
Para representar os 5 Vs, considere (I) Volume, (II) Velocidade, (III) Veracidade, (IV) Variedade 
e (V) Valor. Com base nisso, relacione os 5 Vs com as características a seguir:
(VALOR) Identifica o grau de importância dos dados à organização.
(VARIEDADE) Identifica o tipo de estrutura dos dados.
(VERACIDADE) Identifica se os dados são de fontes confiáveis.
(VELOCIDADE) Identifica em quanto tempo os dados são coletados e processados.
(VOLUME) Identifica a quantidade de dados coletados por diversas fontes.
Ao pensarmos em um sistema para utilização das ferramentas de Big Data, é necessária a 
compreensão dos desafios relacionados a sua operacionalização no dia a dia nas 
empresas. Com base nisso, observe as afirmativas a seguir.
3.
São desafios do Big Data:
Infraestrutura de redes de computadores devido às limitações de infraestrutura e ao 
surgimento das redes convergentes.
Os custos de implementação do Big Data são relativamente baixos em relação a serviços 
similares. Ainda têm algumas opções de código aberto como o Hadoop. As redes de 
computadores têm cada vez mais características convergentes, fazendo com que seja 
necessário adequar a vazão dos dados para garantir eficiência na utilização do Big Data. 
Isso é um desafio ao Big Data. Fontes de dados como buscadores de Internet, redes 
sociais, e-commerce, entre outras, não necessitam de autorizações judiciais, não sendo, 
portanto, desafios.
O Big Data vem sendo cada vez mais procurado por empresas, independente do seu 
porte. Isso se dá pela potencialidade econômica que a tecnologia pode proporcionar aos 
negócios de qualquer segmento. Porém, antes de tudo, o profissional deve saber 
distinguir os tipos de dados. Nesse contexto, observe as afirmativasa seguir e julgue (V) 
verdadeiro ou (F) falso:
4.
(V) A idade e a altura são dados do tipo estruturado.
(F) Dados cartográficos são considerados semiestruturados.
(V) As figuras geométricas são dados não estruturados.
(V) Longos textos gerados por TAGs são semiestruturados.
(F) Somente os vídeos em MP4 são considerados do tipo estruturado.
Os dados estruturados são aqueles de valores numéricos e bem definidos, como idade e 
altura. Os não estruturados são os que não têm uma estrutura de tamanho e tipo definido. 
Nesse caso, podem-se destacar os arquivos de áudio e vídeo. Já os dados semiestruturados 
estão relacionados com aplicações web, como as tags.
As arquiteturas encontradas nas redes de computadores, nos sistemas de gerenciamento 
de banco de dados e nos demais sistemas computacionais influenciam diretamente sua 
utilização. Nesse contexto, observe a afirmativa a seguir:
5.
Os bancos de dados que geram as informações capturadas pelo DATA MINING podem estar 
disponibilizados em uma arquitetura não centralizada, ou seja, em SGBD DISTRIBUÍDO, de 
forma a garantir que, dentro do Big Data, seja utilizado o DATA ANALYTICS para 
gerar insights aos gestores.
Para que, de fato, o Big Data seja operacionalizado, existem tarefas e etapas necessárias para 
gerar insights relevantes aos gestores e, consequentemente, às empresas. Com isso, a 
mineração de dados, conhecida por Data Mining, é o processo de captação dos dados. Para a 
captação de dados, é indiferente se os SGBDs têm arquitetura centralizada ou distribuída. O 
Data Analytics se preocupa em efetuar as análises dos dados para gerar insights.
 Página 3 de Semana 1 
Ecossistema refere-se a um ambiente composto por um sistema 
operacional (Linux) o Hadoop (hdfs - que é o sistema de arquivos 
do hadoop) e um container. 
Hadoop é um framework de código aberto utilizado para 
armazenamento e processamento distribuído de grandes volumes de 
dados. Ele foi projetado para lidar com aplicações intensivas em 
dados, incluindo análise de big data e machine learning. Um 
cluster Hadoop normalmente consiste em vários nós que trabalham 
juntos para armazenar e processar dados. Cada nó do cluster 
geralmente executa um sistema de arquivos distribuído do Hadoop 
(HDFS) e o framework MapReduce para processar dados distribuídos 
em paralelo. Containers do Hadoop, como o YARN(Yet Another 
Resource Negotiator), são usados para gerenciar recursos, 
escalabilidade e resiliência do cluster.
Hadoop é um sistema de armazenamento compartilhado, 
distribuído e altamente confiável para processamento de 
grandes volumes de dados através de clusters de computadores.

O projeto Apache Hadoop é composto de 3 módulos principais:
Hadoop Distributed File System (HDFS) → Sistema de arquivos 
que permite leitura de dados em alta velocidade.
1.
Hadoop Yarn → Gerenciador de recursos e gerenciador de jobs.2.
Hadoop MapReduce → Sistema para processamento paralelo para 
grandes volumes de dados. 
3.
Em um sistema de gerenciamento de banco de dados:
Arquitetura Paralela
É possível que muitas operações sejam executadas 
simultaneamente. Isso porque um servidor em arquitetura 
paralela possibilita que os dados sejam processados em 
diferentes dispositivos e paralelamente. O disco de 
armazenamento e memória podem ser compartilhados.
Ex.: Utilizados por redes bancárias, em que as operações 
podem ser feitas paralelamente por mais de um servidor.
Arquitetura Distribuída
Possui uma dependência da infraestrutura de redes 
de computadores para que se alcance uma performance 
dentro do padrão de qualidade de serviço desejado.
Os dados estão armazenados em diversos servidores, 
e cada sistema de gerenciamento de banco de dados 
tem gerenciamento independente dos demais.
Essa arquitetura é considerada por alguns 
profissionais como uma junção de banco de dados e 
rede de computadores.
Ex.: Sites de busca de passagens aéreas, reserva de 
hotéis… em que existe uma busca em diversas bases 
de dados distribuídas.
Hadoop: Ecossistema de processamento em Big Data
terça-feira, 9 de maio de 2023 10:11
 Página 4 de Semana 1 
Características do Hadoop
NameNode→ tem a função de mapear a localização, dividir os arquivos em blocos, encaminhar os 
dados aos nós escravos e gerenciar a localização das réplicas dos dados. 

Ainda, a sua função é integrar o HDFS (nó mestre) ao JobTracker, para garantir o desempenho. 
DataNode→ é o responsável por gerenciar os blocos de arquivos.
Além disso, a sua função é transmitir informações constantemente ao NameNode, informando o 
status dos blocos.
JobTracker→ é o gerenciador de processamento do MapReduce. 
A sua função básica é designar o nó que deve gerenciar determinado dado e, ainda, verificar 
falhas, reenviar os dados em caso de falha, reiniciar um nó e trocar o nó que deve processar 
os dados.
TaskTracker→ é responsável por executar as tarefas do MapReduce dentro dos nós escravos. 
Essa funcionalidade é executada em máquina virtual; dessa forma, é possível criar mais de uma 
máquina virtual em um mesmo servidor, para que alguns recursos possam ser mais bem 
aproveitados.
SecondaryNameNode→ auxilia o NameNode em seu funcionamento, fazendo as checagens e garantindo 
a sua recuperação em caso de falhas. Para isso, o SecondaryNameNode cria pontos de 
recuperação; assim, caso ocorra falha, o Hadoop volta ao último ponto sem falhas. 

Os processos entre mestres e escravos são executados em camadas diferentes. 
Um cliente se conecta ao nó mestre, que solicita que os processos sejam executados. Nesse 
momento, o NameNode faz o gerenciamento das informações dos arquivos que estão sendo 
processados. Já no nó escravo, o TaskReducer executa as tarefas, como o MapReduce e o 
DataNode, ao mesmo tempo que o nó escravo atualiza o seu status junto ao nó mestre. Enquanto 
ocorrem esses processos, o SecondaryNameNode efetua pontos de checagem, para o caso de ocorrer 
falha e ser necessário fazer uma recuperação do Hadoop.

MapReduce
A sua ideia consiste em aplicar funções nas entradas de valores, de forma a reduzir a saída em um 
único valor.
MAP → Consiste em um valor numérico aplicado em TODOS os elementos do conjunto.
REDUCE→ Ocorre a redução para um ÚNICO valor de saída.
MapReduce:
O Map aplicou a função triplo na lista de entrada, resultando em {3,6,9,12,15};▪
Em seguida, o Reduce recebeu a lista gerada pelo Map;▪
O Reduce aplicou a função média, que resultou em um valor único → 9.▪

O Map utiliza os blocos de arquivos como entrada de dados;1.
Com as saídas produzidas pelo Map, o Reduce aplica sua função;2.
É gerado o resultado da busca, representado por um único valor.3.
 Página 5 de Semana 1 
3 formas de se utilizar o Hadoop:
Modo Local (localhost ou standalone mode) → Modo mais comum de instalação para iniciar os estudos 
do Hadoop. O desenvolvedor tem um ambiente mais adequado para o desenvolvimento de testes. 
A instalação e a configuração padrão do Hadoop é o modo local. Dessa forma, os arquivos não 
precisam ser alterados, bem como não é necessário instalar o HDFS, pois o Hadoop não será 
utilizado em processamento de dados distribuídos.
Modo Pseudodistribuído(pseudo-distributed mode)→ Modo para quando sentir-se apto a avançar nos 
estudos. 
O processo de instalação vai seguir os mesmos processos para o cluster, assim como a sua 
configuração, mas o servidor vai agir como um cluster de uma máquina só; ou seja, as execuções 
serão emuladas dentro do servidor — daí o nome pseudodistribuído. 
Dessa forma, os componentes como NameNode, DataNode, SecondaryNameNode etc. vão funcionar e fazer 
o processamento dos dados de forma distribuída.
Modo Distribuído(Distributed mode)→ Modo com boa familiarização com o Hadoop.
É necessário ter habilidades relacionadas a redes de computadores, visto que as máquinas estarão 
dispostas em uma topologia que pode possuir os mais diferentes dispositivos, tecnologias, 
equipamentos intermediários e protocolos de comunicação em rede.
O processo de instalação deve ocorrerem todas as máquinas que vão compor o cluster, sendo 
atribuídas as devidas configurações para o servidor Master e as demais para as máquinas Slave. As 
configurações dos componentes são completamente diferentes do modo pseudodistribuído, uma vez que 
os nós escravos serão máquinas físicas, e não simuladas.
Questões:
Na Web, existe uma infinidade de fontes de dados, tipos, nichos, etc., que apresentam 
características técnicas diferentes umas das outras. Quando um profissional de dados necessita 
aplicar as técnicas do Big Data em determinado cenário, ele identifica as suas características 
para, assim, captar e processar os dados de forma mais assertiva.
1.
Posto isso, qual é a arquitetura mais indicada para o processamento de dados em grande escala?
Processamento distribuído, em diversos nós.
Quando se tem uma massa de dados para se efetuar o processamento, o processamento distribuído é a 
arquitetura mais adequada, de modo que existe um nó mestre e diversos nós escravos, trabalhando em 
prol do processamento dos dados. O processamento centralizado é caracterizado por ter um único nó 
para o processamento dos dados. A sua capacidade não é adequada para o processamento em grande 
escala, assim como a do processamento paralelo.
A identificação da arquitetura define a ferramenta de processamento de dados mais adequada para 
atender à demanda. A imagem a seguir demonstra uma estrutura de redes, em que os servidores 
estão distribuídos geograficamente.
2.
Arquitetura paralela, uma vez que as bases têm os mesmos dados e são processadas paralelamente em 
máquinas diferentes.
Na imagem, existem dois servidores para a empresa AAA que estão processando dados paralelamente e 
os enviando ao sistema. Por esse motivo, se trata de uma arquitetura paralela. 
Na arquitetura centralizada, existe um nó central que recebe dados de diversas fontes, não sendo esse o 
caso. 
Na arquitetura de dados distribuídos, seria apresentada uma topologia com diversos servidores em 
processamento de forma distribuída. 
Por fim, não se trata de uma arquitetura hibrida, pois não existe mais de uma arquitetura na topologia.
No aprendizado de novas tecnologias, é interessante conhecer as origens delas, pois isso 
possibilita compreender o seu propósito. Com base nisso, leia o seguinte trecho:
3.
O Hadoop é um poderoso ecossistema de processamento de dados que surgiu no ano de 2006. 
Inicialmente, os estudos foram promovidos por dificuldades encontradas no sistema de busca do 
GOOGLE. Em 2011, o Hadoop chegou na versão 1.0.0, e uma grande mudança foi no suporte a TABELAS
grandes.
 Página 6 de Semana 1 
grandes.
Em 2003, o Google começou a desenvolver uma ferramenta para melhorar o seu sistema de busca. 
Em 2006, o Hadoop foi lançado, quando o Yahoo passou a ser um colaborador direto do projeto. Após 
diversas versões com melhorias, implementações e correções, em 2011, o Hadoop chegava à versão 
1.0.0, em que o destaque foi o suporte a tabelas grandes.
O conceito do MapReduce é um dos principais quando se pensa em Hadoop. Trata-se de um 
mecanismo que visa à obtenção de respostas precisas e seu processamento não requer muitas 
operações.
4.
Considere o conjunto de dados C = {3, 22, 41, 17, 88} e a aplicação de Reduce (Map(C, 
dobro), maior). Qual(is) será(ão) o(s) valor(es) gerado(s)?
176.
A função Map faz o mapeamento do conjunto C. Nos valores C = {3, 22, 41, 17, 88}, a função Map 
solicita a aplicação do dobro no conjunto C, gerando os valores C = {6, 44, 82, 34, 176}. 
Com isso, o Reduce solicita a redução de um único valor, em que o critério é o maior 
valor, sendo o 176.
O Hadoop é um poderoso processador de dados que permite a sua instalação e configuração tanto 
no sistema operacional Linux quanto no Windows. Ele tem o código aberto; por isso, a sua evolução 
se deu a passos largos. Nesse contexto, analise as afirmações a seguir e a relação proposta entre 
elas:
5.
I. Na versão modo local do Hadoop, não é necessária a instalação do componente HDFS.
POIS
II. Os servidores estarão processando dados em paralelo.
Assinale a alternativa correta:
A afirmação I é uma proposição verdadeira e a II, falsa.
O modo local permite testar algumas funcionalidades e compreender o funcionamento do ecossistema 
de Big Data. A afirmação I é verdadeira, pois o Hadoop, quando instalado em modo local, não 
necessita do HDFS. Isso porque se trata de um componente de comunicação entre dispositivos mestre e 
escravos. 
A afirmação II é falsa, pois, na instalação em modo local, haverá apenas um nó no cluster.
 Página 7 de Semana 1

Mais conteúdos dessa disciplina