Logo Passei Direto
Buscar
Questão 4/10 - Big Data Ler em voz alta Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados. Diferentemente da API básica de RDDs do Spark, a interface fornecida pelo Spark SQL oferece mais informações sobre a estrutura tanto dos dados quanto da computação a ser realizada. Internamente essa informação extra é utilizada para otimizações adicionais. Sobre os diferentes formatos de dados suportados pelo Spark SQL avalie as seguintes afirmações: I – O formato de dados padrão suportado pelo Spark SQL é o CSV, um formato de arquivos que armazena texto em formato tabular que utiliza vírgulas para separar valores. II – O ORC é um formato de arquivos que busca otimizar o tempo de processamento e reduzir o tamanho dos arquivos. É um formato de dados utilizado também pelo Hive e é considerado uma forma altamente eficiente de armazenamento. III – O Parquet é um formato de armazenamento baseado em chave-valor amplamente utilizado por diversos sistemas. É um formato otimizado para suportar sistemas de compressão muito eficientes. IV – LibSVM é um formato de dados que implementa Support-Vector Machines e é muito utilizado em modelos de aprendizagem. V – O Spark SQL permite o uso de conectores JDBC e ODBC para atuar como um motor de consultas distribuídas a tabelas de dados externas. Dentre essas afirmações estão CORRETAS: A II, IV e V B I, II e IV C Todas, exceto I D II, III e IV E Todas C D E (?) (?)
User badge image
Matheus Romão

há 4 semanas

Respostas

User badge image

Ed Verified user icon

há 4 semanas

Vamos analisar cada uma das afirmações: I – O formato de dados padrão suportado pelo Spark SQL é o CSV, um formato de arquivos que armazena texto em formato tabular que utiliza vírgulas para separar valores. Falso. Embora o Spark SQL suporte CSV, o formato padrão geralmente utilizado é o Parquet, que é mais eficiente para processamento. II – O ORC é um formato de arquivos que busca otimizar o tempo de processamento e reduzir o tamanho dos arquivos. É um formato de dados utilizado também pelo Hive e é considerado uma forma altamente eficiente de armazenamento. Verdadeiro. Esta afirmação está correta. III – O Parquet é um formato de armazenamento baseado em chave-valor amplamente utilizado por diversos sistemas. É um formato otimizado para suportar sistemas de compressão muito eficientes. Falso. O Parquet é um formato de armazenamento colunar, não baseado em chave-valor. IV – LibSVM é um formato de dados que implementa Support-Vector Machines e é muito utilizado em modelos de aprendizagem. Verdadeiro. Esta afirmação está correta. V – O Spark SQL permite o uso de conectores JDBC e ODBC para atuar como um motor de consultas distribuídas a tabelas de dados externas. Verdadeiro. Esta afirmação está correta. Agora, vamos compilar as informações: - I: Falso - II: Verdadeiro - III: Falso - IV: Verdadeiro - V: Verdadeiro As afirmações corretas são II, IV e V. Portanto, a alternativa correta é: A) II, IV e V.

Essa resposta te ajudou?

0
Dislike0

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Mais conteúdos dessa disciplina