Logo Passei Direto
Buscar
JAQUELINE REIS LIRA RU: 4522234 Disciplina(s): Data de início: Big Data Prazo máximo entrega: 0:15:11 Questão 8/10 - Big Data O Spark e projetado ao redor de um conceito central: o Resilient Distributed Dataset (RDD) RDDs são conjuntos de dados distribuídos e resilientes, ou seja, consistem em uma paralelos. Sobre os RDDs e 0 SparkContext avalie as seguintes afirmações: I - <<< Todo RDD é criado a partir da paralelização de uma coleção de dados existente no DriverProgram. Il - - RDDs de nós falhos podem ser recuperados automaticamente III - RDDs podem ser criados por um SparkContext no Driver Program através da aplicação do método paralelize sobre um conjunto de dados. IV - RDDs podem ser executados em paralelo. A quantidade de partições de um RDD que serão criadas pode ser configurada automaticamente pelo Spark ou através da configuraç V I A variável de broadcast é utilizada para armazenar um valor em memória por todos os nós do cluster el é 0 único tipo de variável compartilhada do Spark Dentre essas afirmações estão CORRETAS: A 4 Todas B 1 II, III e IV C 4 Todas, exceto III D e V E Pesquisar ar
User badge image
leidinalva Silva

há 11 meses

Respostas

User badge image

Ed Verified user icon

há 11 meses

Vamos analisar cada uma das afirmações sobre RDDs e SparkContext: I - Todo RDD é criado a partir da paralelização de uma coleção de dados existente no Driver Program. Verdadeiro, RDDs podem ser criados a partir de dados existentes no Driver Program. II - RDDs de nós falhos podem ser recuperados automaticamente. Verdadeiro, uma das características dos RDDs é que eles são resilientes e podem ser recuperados em caso de falhas. III - RDDs podem ser criados por um SparkContext no Driver Program através da aplicação do método paralelize sobre um conjunto de dados. Verdadeiro, o método `parallelize` é utilizado para criar RDDs a partir de coleções existentes. IV - RDDs podem ser executados em paralelo. A quantidade de partições de um RDD que serão criadas pode ser configurada automaticamente pelo Spark ou através da configuração. Verdadeiro, RDDs são projetados para serem executados em paralelo e a quantidade de partições pode ser configurada. V - A variável de broadcast é utilizada para armazenar um valor em memória por todos os nós do cluster e é o único tipo de variável compartilhada do Spark. Falso, embora a variável de broadcast armazene valores em memória para todos os nós, não é o único tipo de variável compartilhada no Spark (existe também a variável Accumulator). Agora, vamos ver quais afirmações estão corretas: - I, II, III e IV estão corretas. - V está incorreta. Portanto, a alternativa correta que contém todas as afirmações verdadeiras é: B) I, II, III e IV.

Essa resposta te ajudou?

0
Dislike0
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar essa resposta. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Mais conteúdos dessa disciplina