Prévia do material em texto
1. Qual das alternativas abaixo descreve melhor o Apache Spark? A) Um sistema de gerenciamento de banco de dados relacional. B) Uma biblioteca de aprendizado de máquina. C) Um framework de processamento de dados em grande escala. D) Um sistema de arquivos distribuído. Resposta correta: C) Um framework de processamento de dados em grande escala. Explicação: O Apache Spark é um framework de processamento de dados distribuído em grande escala, projetado para ser rápido, fácil de usar e escalável. Ele permite o processamento de grandes volumes de dados em clusters distribuídos. 2. Qual é a principal vantagem do Apache Spark em relação ao Hadoop MapReduce? A) Menor consumo de memória. B) Processamento em tempo real. C) Compatibilidade com apenas dados estruturados. D) Menor custo de armazenamento. Resposta correta: B) Processamento em tempo real. Explicação: O Apache Spark permite processamento em tempo real, ao contrário do Hadoop MapReduce, que é mais voltado para processamento em lotes. O Spark oferece uma arquitetura mais flexível para análise de dados em tempo real. 3. Qual é o nome do componente do Apache Spark responsável pela execução de tarefas de processamento? A) SparkContext B) SparkSQL C) SparkStreaming D) DAG Scheduler Resposta correta: A) SparkContext Explicação: O SparkContext é a principal entrada para o Spark. Ele é responsável pela criação de RDDs (Resilient Distributed Datasets) e pela execução das tarefas de processamento de dados no cluster. 4. O que é um RDD no Apache Spark? A) Uma estrutura de dados imutável que pode ser distribuída e processada em paralelo. B) Um banco de dados distribuído. C) Uma fila de dados em tempo real. D) Um tipo de índice usado para otimizar consultas SQL. Resposta correta: A) Uma estrutura de dados imutável que pode ser distribuída e processada em paralelo. Explicação: RDD (Resilient Distributed Dataset) é a abstração fundamental do Spark para armazenar e processar dados. Ele é imutável, distribuído e pode ser processado em paralelo, garantindo alta performance. 5. O que é o Spark SQL? A) Um framework de processamento de dados em tempo real. B) Um módulo do Apache Spark para executar consultas SQL. C) Uma linguagem de programação utilizada para construir pipelines no Spark. D) Um sistema de gerenciamento de banco de dados. Resposta correta: B) Um módulo do Apache Spark para executar consultas SQL. Explicação: O Spark SQL permite que você execute consultas SQL em dados armazenados no Spark. Ele pode interagir com dados em RDDs, DataFrames e até mesmo com fontes de dados externas como Hive e HDFS. 6. Qual dos seguintes componentes do Apache Spark é usado para processamento de dados em tempo real? A) Spark Streaming B) Spark Core C) MLlib D) GraphX Resposta correta: A) Spark Streaming Explicação: O Spark Streaming permite processar dados em tempo real, recebendo dados de diversas fontes (como Kafka, Flume, etc.) e realizando transformações em tempo real. 7. Qual é o formato de dados otimizado que o Spark utiliza para armazenar e processar dados? A) JSON B) Parquet C) CSV D) XML Resposta correta: B) Parquet Explicação: O Parquet é um formato de arquivo colunar altamente eficiente, projetado para ser utilizado com grandes volumes de dados. Ele é o formato recomendado pelo Spark para armazenar dados, pois oferece melhor compressão e performance em consultas. 8. O que é o Spark MLlib? A) Um módulo do Apache Spark para manipulação de grandes volumes de dados em tempo real. B) Um módulo do Apache Spark dedicado ao processamento de gráficos. C) Uma biblioteca de aprendizado de máquina para construir modelos preditivos. D) Um serviço de banco de dados em memória. Resposta correta: C) Uma biblioteca de aprendizado de máquina para construir modelos preditivos. Explicação: O Spark MLlib é uma biblioteca de aprendizado de máquina do Apache Spark que fornece ferramentas e algoritmos para realizar tarefas como classificação, regressão, clustering, e recomendação em grandes volumes de dados. 9. Qual é o principal benefício do Spark em comparação com o Hadoop MapReduce em termos de performance? A) O Spark usa memória RAM, enquanto o MapReduce depende apenas do disco. B) O Spark é compatível com todos os formatos de dados, enquanto o MapReduce não. C) O Spark pode processar dados em tempo real, enquanto o MapReduce é apenas para processamento em lotes. D) O Spark é mais fácil de configurar que o MapReduce. Resposta correta: A) O Spark usa memória RAM, enquanto o MapReduce depende apenas do disco. Explicação: O Spark é mais rápido que o MapReduce porque usa memória RAM par a armazenar dados temporários, enquanto o MapReduce realiza operações de leitura e gravação no disco, o que é muito mais lento. 10. O que é o DAG (Directed Acyclic Graph) no Apache Spark? A) Um gráfico usado para mapear dados de entrada para resultados. B) Um método de compressão de dados. C) Um algoritmo para realizar consultas SQL. D) Uma estrutura de dados usada para realizar operações de agrupamento. Resposta correta: A) Um gráfico usado para mapear dados de entrada para resultados. Explicação: O DAG no Apache Spark representa a sequência de operações que devem ser realizadas no processamento de dados. Ele é uma representação visual e executável das transformações de dados, onde cada nó do gráfico representa uma operação.