Prévia do material em texto
Histórico de tentativas Tentativa Tempo Pontuação MAIS RECENTE Tentativa 1 7 minutos 5,4 de 6 Pontuação deste teste: 5,4 de 6 Enviado 31 mai em 14:20 Esta tentativa levou 7 minutos. Resposta incorreta Pergunta 1 0 / 0,6 pts SQL (relacionais ACID) – NoSQL (não relacionais BASE) – NewSQL (não relacional BASE). SQL (não relacionais ACID) – NoSQL (relacionais BASE) – NewSQL (não relacional ACID/Base). SQL (relacionais ACID) – NoSQL (Não-relacionais BASE) – NewSQL (não relacional ACID/Base). SQL (relacionais BASE) – NoSQL (não relacionais ACID) – NewSQL (não relacional ACID/Base). SQL (relacionais ACID) – NoSQL (não relacionais BASE) – NewSQL (relacional ACID/Base). A alternativa está incorreta. Bancos de dados SQL são seguros, porém não flexíveis e mais lentos, pois usam os atributos ACID. Bancos de dados não relacionais são mais flexíveis e rápidos, porém não tão seguros quanto bancos relacionais. Bancos de dados NewSQL foram criados para gerar a segurança de ACID e flexibilidade de não relacionais. Resposta correta Pergunta 2 0,6 / 0,6 pts Leia o texto a seguir: Os bancos de dados evoluíram de acordo com a necessidade das empresas e o volume de dados processados. Cada vez mais é necessário que grandes volumes de dados sejam processados cada vez mais rapidamente e ainda com certa segurança. Por isso, as tecnologias não param de evoluir. Qual alternativa indica a ordem correta da evolução dos bancos de dados? Considere a seguinte distribuição conjunta de probabilidade: Fonte: LORENA, A. C., FARIA, F. A. Representação do Conhecimento – Lidando com incerteza. Notas de aula. UNIFESP (São Paulo), 2015. 24/08/2025, 13:58 AO2: Big Data e Data Science https://famonline.instructure.com/courses/44814/quizzes/216754 1/8 https://famonline.instructure.com/courses/44814/quizzes/216754/history?version=1 II e III, apenas. Alternativa está correta, pois apenas as afirmações II e III são verdadeiras. A afirmativa I está incorreta, pois P(cárie) = 0.107 + 0.013 + 0.062 + 0.018 = 0.20. A afirmativa II está correta pois P(cárie ˅ dor de dente) = 0.107 + 0.013 + 0.062 + 0.018 + 0.014 + 0.066 = 0.28. A afirmativa II está correta pois P(cárie | dor de dente) = (0.107 + 0.013)/(0.107 + 0.013 + 0.014 + 0.066) = 0.60. A afirmação IV está incorreta pois P(extração) = 0.107 + 0.014 + 0.062 + 0.145 = 0.328. III e IV, apenas. I e II, apenas. II e IV, apenas. I e III, apenas. Resposta correta Pergunta 3 0,6 / 0,6 pts Avalie as seguintes afirmações a respeito da distribuição de probabilidade anterior. I. P(cárie) = 0,25; II. P(cárie ˅ dor de dente) = 0,28; III. P(cárie | dor de dente) = 0,60; IV. P(extração) = 0,4. É correto o que se afirma apenas em: Leia o texto abaixo: Muitos problemas práticos possuem registros históricos relacionando situações específicas com determinados resultados. Por exemplo, administradoras de cartões de crédito possuem registros de transações passadas e a informação de se foram fraudulentas ou não; financeiras possuem cadastros de clientes que pediram empréstimo associados às formas e condições de pagamento (e até inadimplências); empresas possuem registros de funcionários com seu perfil e desempenho no trabalho; entre muitos outros exemplos. Quando cada registro possui um rótulo de classe ou um valor de saída associado que representa o resultado histórico de registros passados, o objetivo da análise é, quase invariavelmente, construir um modelo que possa ser usado para predizer qual seria essa saída para novos registros, ou seja, registros cuja classe ou valor de saída são desconhecidos. Para os mesmos exemplos citados anteriormente, a operadora de cartões de crédito precisa de um modelo que seja capaz de identificar se uma transação corrente é fraudulenta ou não; as financeiras querem saber se devem ou não conceder um empréstimo solicitado e qual o valor do empréstimo a ser concedido; e as empresas desejam saber de antemão o desempenho de um funcionário que será contratado, de acordo com seu perfil. Fonte: DE CASTRO, L. N. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. 24/08/2025, 13:58 AO2: Big Data e Data Science https://famonline.instructure.com/courses/44814/quizzes/216754 2/8 Agrupamento. Associação. Estimativa. Detecção de desvio. Classificação. A alternativa está correta. A técnica de classificação deve ser utilizada se uma operadora de cartões de crédito precisa identificar se uma transação corrente é fraudulenta ou não. A classificação trata da identificação de uma classe de item, estabelecendo conexões entre elementos e seus conjuntos de dados. Resposta correta Pergunta 4 0,6 / 0,6 pts As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I. A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I. As asserções I e II são ambas proposições falsas. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. A alternativa está incorreta, pois a asserção I é uma proposição falsa, e a II é uma proposição verdadeira. Qual das técnicas a seguir deve ser utilizada se uma operadora de cartões de crédito precisa identificar se uma transação corrente é fraudulenta ou não? Leia o texto a seguir: “O valor de um atributo de um dado objeto é uma medida da quantidade daquele atributo, a qual pode ser numérica ou categórica. Os atributos numéricos podem assumir quaisquer valores numéricos [...] ao passo que as quantidades categóricas assumem valores correspondentes a símbolos distintos.” Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. p. 30. Avalie as seguintes asserções e a relação proposta entre elas. I. Os atributos numéricos discretos têm seus valores obtidos a partir de processos de medição e os atributos contínuos têm seus valores obtidos a partir de processos de contagem. PORQUE II. Os valores numéricos discretos pertencem ao conjunto dos números naturais e os valores numéricos contínuos pertencem ao conjunto dos números reais. A respeito dessas asserções, assinale a opção correta: 24/08/2025, 13:58 AO2: Big Data e Data Science https://famonline.instructure.com/courses/44814/quizzes/216754 3/8 A asserção I é falsa, pois os atributos numéricos discretos têm seus valores obtidos a partir de processos de contagem e os atributos contínuos têm seus valores obtidos a partir de processos de medição. A asserção II é verdadeira, pois os valores numéricos discretos são aqueles derivados de contagens, portanto pertencem ao conjunto dos números naturais e os valores numéricos contínuos são aqueles derivados de medições, portanto pertencem ao conjunto dos números reais. Resposta correta Pergunta 5 0,6 / 0,6 pts a transformação, a mineração e a avaliação dos dados. a análise descritiva, a associação e a detecção de anomalias nos dados. a limpeza, a integração, a seleção ou redução e a transformação dos dados. A alternativa está correta. A preparação ou pré-processamento de dados inclui a limpeza, a integração, a seleção ou redução e a transformação dos dados. A limpeza é a remoção de ruídos e dados inconsistentes; a integração é a combinação de dados obtidos a partir de múltiplas fontes; a seleção é a escolha dos dados relevantes à analise; e a transformação é a consolidação dos dados em formatos apropriados para a mineração. a análise descritiva, o agrupamento e a predição dos dados. o agrupamento e a associação dos dados. Resposta correta Pergunta 6 0,6 / 0,6 pts Leia o texto abaixo: A mineração de dados é parte integrante de um processo mais amplo, conhecido como descoberta de conhecimento em bases de dados (knowledge discovery in databases, ou KDD) [...] A preparação ou pré-processamento de dados é uma das partes principais do KKD, e correspondem as etapas anterioresà mineração que visam preparar os dados para uma análise eficiente e eficaz. (Fonte: DE CASTRO, L. N. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016.) A preparação ou pré-processamento de dados inclui Leia o texto a seguir: Big Data é um conjunto de estratégias e ferramentas para processamento rápido de grandes volumes de dados para geração de inteligência para tomada de decisão. Grande parte do sucesso vem da essência de Big Data derivada de seus 5 Vs. Considerando o texto, avalie as afirmações sobre os 5 Vs abaixo: I. Volume é um dos Vs que representa a quantidade de dados que precisam ser processados. II. Valor não é um dos Vs, pois dados sem processamento ainda não agregam valor à empresa. III. Velocidade é um dos Vs e representa a importância de os dados representarem a realidade. IV. Variedade é um dos Vs e representa a quantidade de formatos de dados que são processados. 24/08/2025, 13:58 AO2: Big Data e Data Science https://famonline.instructure.com/courses/44814/quizzes/216754 4/8 IV, apenas. I e II, apenas. I, apenas. I e IV, apenas. III, apenas. A alternativa está correta. Volume é uma das características de Big Data que começam com V e representa a quantidade de dados processados. Variedade representa os diferentes formatos que Big Data precisa processar para gerar inteligência para tomada de decisão. Valor é um dos Vs e representa o valor agregado nas decisões influenciadas pelos dados processados. Velocidade é o V que representa a velocidade com a qual os dados devem ser processados. Veracidade é o V que representa a importância de os dados representarem a realidade. Resposta correta Pergunta 7 0,6 / 0,6 pts A escolha do atributo que dividirá o conjunto de dados é feita a partir de medidas de pureza. A alternativa está correta. O atributo escolhido para a divisão de um conjunto de dados é aquele que produz partições mais puras e essa verificação é feita a partir de medidas de impureza. O objetivo principal das divisões é obter partições mais homogêneas possíveis. A divisão das partições segue até que haja homogeneidade nela. Os algoritmos para árvores de decisão não são determinísticos, ou seja, podem produzir árvores diferentes a partir do mesmo conjunto de dados. O número de partições em cada divisão pode variar, não sendo obrigatória a divisão binária. Uma árvore de decisão particionará um conjunto em duas partições por nível, produzindo uma árvore binária. O algoritmo que induz uma árvore de decisão produzirá o mesmo resultado a partir do mesmo conjunto de dados. A divisão das partições na árvore de decisão deve ser realizada até que haja nós folha unitários. É correto o que se afirma em: Leia o texto a seguir: “Uma árvore de decisão é uma estrutura em forma de árvore na qual cada nó interno corresponde a um teste de um atributo, cada ramo representa um resultado do teste e os nós folhas representam classes ou distribuições de classes. O nó mais elevado da árvore é conhecido como nó raiz, e cada caminho da raiz até um nó folha corresponde a uma regra de classificação.” Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. p. 170. Qual alternativa descreve, corretamente, uma característica da árvore de decisão. 24/08/2025, 13:58 AO2: Big Data e Data Science https://famonline.instructure.com/courses/44814/quizzes/216754 5/8 O objetivo principal para cada divisão feita na árvore de decisão é a obtenção partições heterogêneas. Resposta correta Pergunta 8 0,6 / 0,6 pts Processamento em memória RAM é extremamente mais rápido que processamento em disco rígido, porém o poder de armazenamento permanente é muito menor por conta de seu custo. Processamento em memória RAM é apenas uma tendência do mercado sem vantagens técnicas. Processamento em memória RAM é tão rápido quanto processamento em disco rígido, porém o poder de armazenamento em discos rígidos é muito menor por conta de seu custo. Processamento em memória RAM é extremamente mais seguro que processamento em disco rígido, porém o poder de armazenamento é muito menor por conta de seu custo. Processamento em memória RAM é mais lento que processamento em disco rígido, porém muito mais seguro. A alternativa está correta. Processamento em memória RAM é extremamente mais rápido do que armazenamento em disco, uma vez que o segundo foi feito para grandes volumes de dados e precisa navegar pelo espaço livre para armazenar e consultar dados. Memórias RAM foram feitas para pouco processamento em tempo real dos dados gerados por aplicações em execução e por isso seus chips têm desenho especial para desempenho ao invés de grande espaço de armazenamento. Com o tempo, memórias RAM começaram a ser ampliadas para uso no processamento de grandes volumes de dados, o que aumenta o custo de produção. Resposta correta Pergunta 9 0,6 / 0,6 pts Leia o texto a seguir: Processamento em memória RAM era até pouco tempo um luxo que quase nenhuma empresa conseguia ter. Com o tempo, cada vez mais foi notado que Big Data e análise de grandes volumes só aconteceria de fato quando este tipo de processamento fosse mais acessível. Hoje, grande parte das tecnologias relacionadas a processamento analítico usam memória RAM como principal ou uma das principais formas de processamento de dados. Considerando as reflexões acima, assinale a alternativa correta: Leia o texto a seguir: A governança de dados é a gestão do ciclo de vida dos dados, desde o planejamento do que será usado e as políticas individuais de cada projeto até o fim da vida, que é quando os dados são excluídos. Em um mundo cada vez mais globalizado e com cada vez mais demanda para profissionais de T.I., que podem trabalhar em qualquer lugar do Mundo mesmo estando em outras áreas geográficas, existem diversos desafios para a governança de dados. Os problemas podem ser institucionais, governamentais, legais e até globais. Considerando o texto, avalie as afirmações abaixo: I.A falta de profissionais é um desafio válido, uma vez que as habilidades necessárias para gerir dados corretamente exigem tempo de estudo e prática. II. O nível de maturidade da gestão dos dados é um dos maiores problemas, uma vez que a maioria das empresas precisam se preocupar com diversos outros problemas e acabam sem 24/08/2025, 13:58 AO2: Big Data e Data Science https://famonline.instructure.com/courses/44814/quizzes/216754 6/8 I, apenas. II, apenas. I e III, apenas. III, apenas. I e II, apenas. A alternativa está correta. A falta de profissionais é uma grande dificuldade para a área de T.I. em geral. O nível de maturidade da gestão de dados também é um desafio, uma vez que as empresas geralmente precisam se preocupar com diversos aspectos legais e operacionais para se manterem no mercado. A mudança de tecnologia não é um problema válido, uma vez que as atualizações acontecem de forma gradual e não anulam estratégias e planejamentos feitos corretamente com base nas necessidades do projeto dentro de um determinado período de tempo. Resposta correta Pergunta 10 0,6 / 0,6 pts tempo para a gestão de dados. III. O maior problema é a constante mudança das tecnologias, que acabam desmotivando as empresas e profissionais, que deixam de atualizar suas políticas, processos e conhecimento técnico. É correto o que se afirma em: Leia o texto a seguir: “Essas funções são baseadas em critérios que avaliam o quão bom cada atributo é no papel de dividir o conjunto de dados, considerando a distribuição de classes presentes no conjunto. [...] O índice Gini usa um critério baseado em impureza para analisar as diferenças entre as distribuições de probabilidade dos valores dos atributos de classe.” Fonte: DA SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à Mineração de Dados Com aplicações em R. Rio de Janeiro: Elsevier, 2016. p. 104. Avalie as seguintes asserções e a relaçãoproposta entre elas. I. A escolha de um atributo para dividir um conjunto de dados pode ser feita com a utilização do índice Gini, quanto menor for o valor calculado mais puras serão as partições; PORQUE II. O índice Gini calcula a proporção de classes diferentes em uma partição e quanto maior for a heterogeneidade da partição, tanto maior será o valor do índice. 24/08/2025, 13:58 AO2: Big Data e Data Science https://famonline.instructure.com/courses/44814/quizzes/216754 7/8 As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I. Alternativa está correta, pois as asserções I e II são proposições verdadeiras, e a II é uma justificativa da I. A asserção I é verdadeira, pois descreve corretamente a aplicação e a interpretação do índice Gini. A asserção II é verdadeira, pois descreve corretamente o processo de cálculo do índice. A asserção II é uma justificativa da asserção I, pois a escolha é feita como descrito na asserção I e o motivo da escolha é justificado na asserção II. A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. As asserções I e II são ambas proposições falsas. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I. Pontuação do teste: 5,4 de 6 A respeito dessas asserções, assinale a opção correta: 24/08/2025, 13:58 AO2: Big Data e Data Science https://famonline.instructure.com/courses/44814/quizzes/216754 8/8