Prévia do material em texto
AAvvaalliiaannddoo AApprreennddiizzaaddoo TTeessttee sseeuu ccoonnhheecciimmeennttoo aaccuummuullaaddoo Disc.: TTÓÓPPIICCOOSS DDEE BBIIGG DDAATTAA EEMM PPYYTTHHOONN Aluno(a): GGUUNNAARR VVIINNGGRREE DDAA SSIILLVVAA MMOOTTAA 220022220044227700449988 Acertos: 22,,00 ddee 22,,00 1188//0022//22002244 Acerto: 00,,22 / 00,,22 Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A execução do trecho de código vai gerar um erro. A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". A variável "teste" corresponde a um RDD. A utilização do SparkContext é opcional. Respondido em 18/02/2024 17:08:37 Explicação: GGaabbaarriittoo:: A variável "teste" corresponde a um RDD. JJuussttii��ccaattiivvaa:: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a". Acerto: 00,,22 / 00,,22 No mundo de Big Data, temos dados os mais variados possíveis, e sua classi�cação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classi�cadas como que tipo de dados? Atemporais Categóricos Semi-Estruturados Temporais Questão / 11a Questão / 22a Estácio: Alunos https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.... 1 of 5 27/02/2024, 16:42 https://simulado.estacio.br/alunos/inicio.asp https://simulado.estacio.br/alunos/inicio.asp javascript:voltar(); javascript:voltar(); https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.asp?cod_hist_prova=326763774&cod_prova=6953180987&f_cod_disc=DGT0134# https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.asp?cod_hist_prova=326763774&cod_prova=6953180987&f_cod_disc=DGT0134# https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.asp?cod_hist_prova=326763774&cod_prova=6953180987&f_cod_disc=DGT0134# https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.asp?cod_hist_prova=326763774&cod_prova=6953180987&f_cod_disc=DGT0134# Numéricos Respondido em 18/02/2024 17:10:18 Explicação: O correto é classi�car como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes signi�ca que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. Acerto: 00,,22 / 00,,22 As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são) Função de Ativação Camadas Escondidas Pesos Camada de Saída Vieses Respondido em 18/02/2024 17:09:20 Explicação: O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden), pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o conhecimento necessário para discriminar novas observações com base em registros passados. Acerto: 00,,22 / 00,,22 Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. �lter distinct random sample mapRandom Respondido em 18/02/2024 17:11:19 Explicação: GGaabbaarriittoo:: sample JJuussttii��ccaattiivvaa:: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. Questão / 33a Questão / 44a Estácio: Alunos https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.... 2 of 5 27/02/2024, 16:42 Acerto: 00,,22 / 00,,22 Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos: Primária; Secundária. Secundária; Terciária. Secundária; Secundária. Secundária; Primária. Primária; Primária. Respondido em 18/02/2024 17:11:56 Explicação: Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária direto na fonte dos dados do SAP que, para os �ns desta questão está funcionando como um repositório de dados para eles. Acerto: 00,,22 / 00,,22 O enquadramento de aprendizado não supervisionado contempla qual(is) técnicas? I - Agrupamento II - Classi�cação III - Regressão Apenas as opções II e III estão corretas Apenas a opção II está correta Apenas as opções I e III estão corretas Apenas a opção I está correta Apenas a opção III está correta Respondido em 18/02/2024 17:09:33 Explicação: O aprendizado supervisionado se caracteriza pelo aprendizado autodidata que é caracterizado pelo agrupamento. Já a classi�cação e a regressão são técnicas oriundas do aprendizado supervisionado. Acerto: 00,,22 / 00,,22 Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com �nalidades especí�cas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster. Questão / 55a Questão / 66a Questão / 77a Estácio: Alunos https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.... 3 of 5 27/02/2024, 16:42 DataFrame RDD Spark.Catalog SparkContext SparkSession Respondido em 18/02/2024 17:12:37 Explicação: GGaabbaarriittoo:: SparkContext JJuussttii��ccaattiivvaa:: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo de metadados de entidades relacionais. Acerto: 00,,22 / 00,,22 A função de agrupamento do Pandas é o groupby, responsável por in�uenciar a indexação das colunas. O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação? As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha. Nada, o DataFrame �ca imutável. O DataFrame é indexado pelas suas colunas. Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação. O DataFrame é embaralhado. Respondido em 18/02/2024 17:13:26 Explicação: Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas escolhidas. A partir de então, o index das agregações passa a ser o agrupamento. Com o reset_index() após a agregação, os índices originais das colunas são preservados. Acerto: 00,,22 / 00,,22 O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refereao processo de: LSTM CNN KDD RNN DNN Respondido em 18/02/2024 17:15:31 Explicação: A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Questão / 88a Questão / 99a Estácio: Alunos https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.... 4 of 5 27/02/2024, 16:42 Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais. Acerto: 00,,22 / 00,,22 Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com �nalidades especí�cas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. Spark Learning MLSpark MLlib RDDs GraphX Learning Respondido em 18/02/2024 17:14:58 Explicação: GGaabbaarriittoo:: MLlib JJuussttii��ccaattiivvaa:: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simpli�car pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes. Questão / 1100a Estácio: Alunos https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.... 5 of 5 27/02/2024, 16:42