Slide - Apache Spark I

ESTÁCIO EAD

Renata Pereira da Silva

em 13/11/2024

Conteúdos escolhidos para você

8 pág.

Python com Spark (prova)

UNOPAR

2 pág.

Visão sobre Apache Spark

3 pág.

Apache Spark

45 pág.

RESUMO - Tópicos de Big Data em Python

ESTÁCIO

1 pág.

TECN-73

Perguntas dessa disciplina

Questão 4/10 - Big Data Ler em voz alta Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados. Diferentemente da API básica de

A integração de bancos de dados NoSQL com plataformas de Big Data como Hadoop e Apache Spark tem revolucionado a maneira como os dados são processa...

Faculdade Descomplica

O Hadoop Distributed File System (HDFS) é o principal sistema de armazenamento de dados do Apache Hadoop, projetado para armazenar grandes volumes ...

Uniasselvi

No processamento de grandes volumes de dados, o Hadoop serve como uma estrutura de código aberto para armazenamento e processamento distribuído. De...

UNIASSELVI

Ao analisar as principais plataformas para processamento de Big Data, como o Hadoop e o Spark, é essencial compreender os conceitos fundamentais dessa

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

8 pág.

Python com Spark (prova)

UNOPAR

2 pág.

Visão sobre Apache Spark

3 pág.

Apache Spark

45 pág.

RESUMO - Tópicos de Big Data em Python

ESTÁCIO

1 pág.

TECN-73

Perguntas dessa disciplina

Questão 4/10 - Big Data Ler em voz alta Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados. Diferentemente da API básica de

A integração de bancos de dados NoSQL com plataformas de Big Data como Hadoop e Apache Spark tem revolucionado a maneira como os dados são processa...

Faculdade Descomplica

O Hadoop Distributed File System (HDFS) é o principal sistema de armazenamento de dados do Apache Hadoop, projetado para armazenar grandes volumes ...

Uniasselvi

No processamento de grandes volumes de dados, o Hadoop serve como uma estrutura de código aberto para armazenamento e processamento distribuído. De...

UNIASSELVI

Ao analisar as principais plataformas para processamento de Big Data, como o Hadoop e o Spark, é essencial compreender os conceitos fundamentais dessa

Prévia do material em texto

Apache Spark
Fundamentação do 
Apache Spark
Fundamentação do Apache Spark
Framework para computação distribuída e para 
processamento de dados.
Código aberto.
Escrito em Scala.
Tolerância a falhas.
API de alto nível em Java, Scala, Python e R.
Introdução
Fundamentação do Apache Spark
Recurso Hadoop Spark
Processamento MapReduce baseado em disco
Processamento em memória 
(in-memory)
Velocidade
Mais lento devido ao uso de 
disco
Mais rápido devido ao 
processamento em memória
Programação
Principalmente MapReduce em 
Java
Suporta várias linguagens, 
incluindo Scala, Python e Java
Processamento 
Iterativo
Ineficiente para processamento 
iterativo
Eficiente para processamento 
iterativo
Bibliotecas
Possui diversas bibliotecas e 
ecossistema maduro
Bibliotecas em expansão, mas 
ainda menos maduras que o 
Hadoop
Suporte a SQL
Suporte limitado a SQL (Hive, 
HBase)
Suporte nativo a SQL (Spark 
SQL)
Streaming
Suporta processamento de 
streaming (Apache Kafka, 
Storm)
Suporte nativo a processamento 
de streaming (Spark Streaming)
Hadoop x Spark
Fundamentação do Apache Spark
Característica HDFS RDD (Spark)
Paradigma Sistema de arquivos distribuído
Estrutura de dados distribuída 
e tolerante a falhas
Uso principal
Armazenamento de grandes 
quantidades de dados
Processamento e análise de 
dados em memória
Abstração Sistema de arquivos
Coleção distribuída e imutável 
de objetos
Escrita de dados Escrita em batch
Escrita interativa e em tempo 
real
Tolerância a 
falhas
Alta, replicação de blocos de 
dados
Alta, reconstrução de 
partições perdidas em caso de 
falhas
Processamento 
de dados
MapReduce é frequentemente 
usado
Transformações e ações são 
aplicadas aos RDDs
Velocidade de 
processamento
Mais lento devido à escrita em 
disco
Mais rápido devido ao 
processamento em memória
Requisitos de 
hardware
Necessita de armazenamento em 
disco
Pode tirar vantagem de 
memória RAM
Hadoop x Spark
Fundamentação do Apache Spark
Fonte: PEREIRA, M. et al. (2023)
Arquitetura
	Slide 2
	Slide 3
	Slide 4
	Slide 5
	Slide 6

Slide - Apache Spark I

ESTÁCIO EAD

Ferramentas de estudo

Conteúdos escolhidos para você

Python com Spark (prova)

Visão sobre Apache Spark

Apache Spark

RESUMO - Tópicos de Big Data em Python

TECN-73

Perguntas dessa disciplina

Questão 4/10 - Big Data Ler em voz alta Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados. Diferentemente da API básica de

A integração de bancos de dados NoSQL com plataformas de Big Data como Hadoop e Apache Spark tem revolucionado a maneira como os dados são processa...

O Hadoop Distributed File System (HDFS) é o principal sistema de armazenamento de dados do Apache Hadoop, projetado para armazenar grandes volumes ...

No processamento de grandes volumes de dados, o Hadoop serve como uma estrutura de código aberto para armazenamento e processamento distribuído. De...

Ao analisar as principais plataformas para processamento de Big Data, como o Hadoop e o Spark, é essencial compreender os conceitos fundamentais dessa

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

Python com Spark (prova)

Visão sobre Apache Spark

Apache Spark

RESUMO - Tópicos de Big Data em Python

TECN-73

Perguntas dessa disciplina

Questão 4/10 - Big Data Ler em voz alta Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados. Diferentemente da API básica de

A integração de bancos de dados NoSQL com plataformas de Big Data como Hadoop e Apache Spark tem revolucionado a maneira como os dados são processa...

O Hadoop Distributed File System (HDFS) é o principal sistema de armazenamento de dados do Apache Hadoop, projetado para armazenar grandes volumes ...

No processamento de grandes volumes de dados, o Hadoop serve como uma estrutura de código aberto para armazenamento e processamento distribuído. De...

Ao analisar as principais plataformas para processamento de Big Data, como o Hadoop e o Spark, é essencial compreender os conceitos fundamentais dessa

Mais conteúdos dessa disciplina