Grátis: Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que...

Bases de Dados

Outros

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster.
Spark.Catalog
SparkSession
DataFrame
RDD
SparkContext

Exercícios Para o Conhecimento

há 8 meses

Exercícios Para o Conhecimento

há 8 meses

9 pág.

EEX0174 - TÓPICOS DE BIG DATA EM PYTHON - Simulado AV

ESTÁCIO

Respostas

há 8 meses

Para responder à sua pergunta sobre os componentes do Apache Spark, vamos analisar cada uma das opções apresentadas: 1. Spark.Catalog - Este componente é usado para gerenciar metadados de tabelas e bancos de dados, mas não é responsável por estabelecer a conexão com o cluster. 2. SparkSession - Este é o ponto de entrada para programar com o Spark e é responsável por criar uma conexão com o cluster. Ele unifica a funcionalidade de diferentes componentes do Spark. 3. DataFrame - Este é um tipo de estrutura de dados que permite trabalhar com dados de forma distribuída, mas não é responsável por estabelecer a conexão com o cluster. 4. RDD (Resilient Distributed Dataset) - Este é um conceito fundamental do Spark para trabalhar com dados distribuídos, mas também não estabelece a conexão com o cluster. 5. SparkContext - Este é o componente que, em versões anteriores do Spark, era usado para estabelecer a conexão com o cluster. No entanto, com a introdução do SparkSession, o uso do SparkContext foi reduzido. Diante dessa análise, a opção correta que contém o componente responsável por estabelecer uma conexão com o cluster é: SparkSession.

Essa resposta te ajudou?

Crie sua conta grátis para liberar essa resposta. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Essa pergunta também está no material:

9 pág.

EEX0174 - TÓPICOS DE BIG DATA EM PYTHON - Simulado AV

ESTÁCIO

Mais perguntas desse material

Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.
Computação centralizada
Computação Paralela
Computação de banco de dados
Computação de Big Data
Computação em Nuvem

Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.
Camada de sessão
Camada de transporte
Camada de aplicação
Camada lógica
Camada de enlace de dados

O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake.
Camada de Metadados
Camada de governança
Camada de segurança
Camada de gerenciamento do ciclo de vida da informação
Camada de gerenciamento de dados

Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios.
Nível de gerenciamento
Nível de consumo
Nível de Metadados
Nível de governança
Nível de admissão

O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta.
Só pode ser aplicada para grandes volumes de dados
É uma técnica lenta para processamento de grandes volumes de dados
Foi substituída no Spark por acesso direto à memória
Consiste em uma técnica de programação sequencial
É uma técnica de computação distribuída

Sobre o Pandas DataFrame o que podemos afirmar? I - É o coletivo de séries temporais pandas.Series II - É a estrutura de dados que representa os dados em painel III - É uma matriz conjunto de vetores IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina. Analise as frases listadas e assinale a alternativa correta.
Apenas a opção III.
Todas as opções I, II, III, IV.
Apenas as opções II, III.
Apenas as opções I, II, IV.
Apenas as opções I, II, III.

A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas.
O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação?
As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.
O DataFrame é embaralhado.
Nada, o DataFrame fica imutável.
Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.
O DataFrame é indexado pelas suas colunas.

Qual destes modelos é adequado para um problema de classificação? I - SVM II - Árvore de Decisão III - K-Médias Todas as opções I, II e III Apenas as opções II e III Apenas a opção III Apenas as opções I e II Apenas as opções I e III

Bases de Dados

EEX0174 - TÓPICOS DE BIG DATA EM PYTHON - Simulado AV

Respostas

Crie sua conta grátis para liberar essa resposta. 🤩

Ainda com dúvidas?

Essa pergunta também está no material:

EEX0174 - TÓPICOS DE BIG DATA EM PYTHON - Simulado AV

Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.Computação centralizadaComputação ParalelaComputação de banco de dadosComputação de Big DataComputação em Nuvem

Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.Camada de sessãoCamada de transporteCamada de aplicaçãoCamada lógicaCamada de enlace de dados

Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios.Nível de gerenciamentoNível de consumoNível de MetadadosNível de governançaNível de admissão

Qual destes modelos é adequado para um problema de classificação? I - SVM II - Árvore de Decisão III - K-Médias Todas as opções I, II e III Apenas as opções II e III Apenas a opção III Apenas as opções I e II Apenas as opções I e III

Mais conteúdos dessa disciplina

Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.
Computação centralizada
Computação Paralela
Computação de banco de dados
Computação de Big Data
Computação em Nuvem

Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.
Camada de sessão
Camada de transporte
Camada de aplicação
Camada lógica
Camada de enlace de dados

Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios.
Nível de gerenciamento
Nível de consumo
Nível de Metadados
Nível de governança
Nível de admissão