Prévia do material em texto
Questão 9/10 Big Data Ler em alta Spark é projetado ao redor de um conceito central: 0 Resilient Distributed Dataset (RDD). RDDs são conjuntos de dados distribuídos e resilientes, ou seja, consistem em uma coleção de elementos particionados pelo cluster que podem ser operados em paralelos. Sobre RDDs e 0 SparkContext avalie as seguintes afirmações: I Todo RDD é criado a partir da paralelização de uma coleção de dados existente no DriverProgram. II RDDs de nós falhos podem ser recuperados automaticamente. III RDDs podem ser criados por um SparkContext no Driver Program através da aplicação do método paralelize sobre um conjunto de dados. IV RDDs podem ser executados em paralelo. A quantidade de partições de um RDD que serão criadas pode ser configurada automaticamente pelo Spark ou através da configuração do usuário. V A variável de broadcast é utilizada para armazenar um valor em memória por todos OS nós do cluster e é 0 único tipo de variável compartilhada do Spark. Dentre essas afirmações estão CORRETAS: Nota: 10.0 A Todas B II, III e IV Você assinalou essa alternativa (B) Você acertou! Justificativa: Existem duas formas de criar um RDD: paralelizando uma coleção de dados existente no DriverProgram, ou referenciando um conjunto de dados em um sistema de armazenamento externo. Portanto a afirmação I encontra-se INCORRETA O Spark suporta dois tipos de variáveis compartilhadas: variáveis de broadcast, que podem ser utilizadas como cache para armazenar um valor em memória em todos e os acumuladores que são variáveis que apenas acrescentam valores, como contadores ou somadores. Dessa forma verificamos que a afirmação V está As afirmações II, III e IV estão C Todas, exceto III D I, IV e V E I, III