Questão 4/10 - Big Data Ler em voz alta Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados. Diferentemente da API básica de

Question

Questão 4/10 - Big Data Ler em voz alta Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados. Diferentemente da API básica de RDDs do Spark, a interface fornecida pelo Spark SQL oferece mais informações sobre a estrutura tanto dos dados quanto da computação a ser realizada. Internamente essa informação extra é utilizada para otimizações adicionais. Sobre os diferentes formatos de dados suportados pelo Spark SQL avalie as seguintes afirmações: I – O formato de dados padrão suportado pelo Spark SQL é o CSV, um formato de arquivos que armazena texto em formato tabular que utiliza vírgulas para separar valores. II – O ORC é um formato de arquivos que busca otimizar o tempo de processamento e reduzir o tamanho dos arquivos. É um formato de dados utilizado também pelo Hive e é considerado uma forma altamente eficiente de armazenamento. III – O Parquet é um formato de armazenamento baseado em chave-valor amplamente utilizado por diversos sistemas. É um formato otimizado para suportar sistemas de compressão muito eficientes. IV – LibSVM é um formato de dados que implementa Support-Vector Machines e é muito utilizado em modelos de aprendizagem. V – O Spark SQL permite o uso de conectores JDBC e ODBC para atuar como um motor de consultas distribuídas a tabelas de dados externas. Dentre essas afirmações estão CORRETAS: A II, IV e V B I, II e IV C Todas, exceto I D II, III e IV E Todas C D E (?) (?)

Ed · Answer

Vamos analisar cada uma das afirmações:

I – O formato de dados padrão suportado pelo Spark SQL é o CSV, um formato de arquivos que armazena texto em formato tabular que utiliza vírgulas para separar valores. **Falso.** Embora o Spark SQL suporte CSV, o formato padrão geralmente utilizado é o Parquet, que é mais eficiente para processamento.

II – O ORC é um formato de arquivos que busca otimizar o tempo de processamento e reduzir o tamanho dos arquivos. É um formato de dados utilizado também pelo Hive e é considerado uma forma altamente eficiente de armazenamento. **Verdadeiro.** Esta afirmação está correta.

III – O Parquet é um formato de armazenamento baseado em chave-valor amplamente utilizado por diversos sistemas. É um formato otimizado para suportar sistemas de compressão muito eficientes. **Falso.** O Parquet é um formato de armazenamento colunar, não baseado em chave-valor.

IV – LibSVM é um formato de dados que implementa Support-Vector Machines e é muito utilizado em modelos de aprendizagem. **Verdadeiro.** Esta afirmação está correta.

V – O Spark SQL permite o uso de conectores JDBC e ODBC para atuar como um motor de consultas distribuídas a tabelas de dados externas. **Verdadeiro.** Esta afirmação está correta.

Agora, vamos compilar as informações:

- I: Falso
- II: Verdadeiro
- III: Falso
- IV: Verdadeiro
- V: Verdadeiro

As afirmações corretas são II, IV e V. Portanto, a alternativa correta é: **A) II, IV e V.**

Bases de Dados

Respostas

Ainda com dúvidas?

Perguntas dessa disciplina

No processamento de grandes volumes de dados, o Hadoop serve como uma estrutura de código aberto para armazenamento e processamento distribuído. De...

O PostgreSQL, um SGBDR de código aberto amplamente utilizado, disponibiliza um conjunto robusto de ferramentas para a realização de backups, sendo ...

[Aula 5] O SQLite é um sistema de gerenciamento de banco de dados relacional que é conhecido por sua leveza, facilidade de uso e eficiência.Relacione

Uma base de dados é o elemento mais importante num ambiente corporativo, tendo em vista que o seu conteúdo (dados e informações) será utilizado ...

Conteúdos escolhidos para você

Linguagem de Programação Exercício U3

Python com Spark (prova)

estacio.saladeavaliacoes.com.br_prova_684077f2a8581f9947e79599_

4

Mais conteúdos dessa disciplina