Prévia do material em texto
<p>4 Marcar para revisão Observe trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A A utilização do SparkContext é opcional B A linha aplica a técnica MapReduce para processar vetor A variável "teste" corresponde a um RDD D A execução do trecho de código vai gerar um E objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor Questão não respondida A alternativa correta é a letra C. Confira gabarito comentado! Gabarito Comentado O trecho de código apresentado está sintaticamente correto e seu objetivo é criar um RDD (Resilient Distributed que é uma estrutura de dados fundamental do Spark. RDD é representado pela variável "teste". Para a criação do RDD, é obrigatório uso do "SparkContext", que é a conexão para executar operações no pacote "numpy" foi utilizado para a criação do vetor "a", que posteriormente é paralelizado para formar RDD. Portanto, a alternativa correta é a C: "A variável "teste" corresponde a um</p>