Ed
há 11 meses
Vamos analisar cada uma das afirmações sobre RDDs e SparkContext: I - Todo RDD é criado a partir da paralelização de uma coleção de dados existente no Driver Program. Verdadeiro, RDDs podem ser criados a partir de dados existentes no Driver Program. II - RDDs de nós falhos podem ser recuperados automaticamente. Verdadeiro, uma das características dos RDDs é que eles são resilientes e podem ser recuperados em caso de falhas. III - RDDs podem ser criados por um SparkContext no Driver Program através da aplicação do método paralelize sobre um conjunto de dados. Verdadeiro, o método `parallelize` é utilizado para criar RDDs a partir de coleções existentes. IV - RDDs podem ser executados em paralelo. A quantidade de partições de um RDD que serão criadas pode ser configurada automaticamente pelo Spark ou através da configuração. Verdadeiro, RDDs são projetados para serem executados em paralelo e a quantidade de partições pode ser configurada. V - A variável de broadcast é utilizada para armazenar um valor em memória por todos os nós do cluster e é o único tipo de variável compartilhada do Spark. Falso, embora a variável de broadcast armazene valores em memória para todos os nós, não é o único tipo de variável compartilhada no Spark (existe também a variável Accumulator). Agora, vamos ver quais afirmações estão corretas: - I, II, III e IV estão corretas. - V está incorreta. Portanto, a alternativa correta que contém todas as afirmações verdadeiras é: B) I, II, III e IV.
Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade