Logo Passei Direto
Buscar

BIG DATA EM APOIO À TOMADA DE DECISÃO - Módulo 3_ Revisão da tentativa

User badge image
gefer silva

em

Ferramentas de estudo

Questões resolvidas

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Prévia do material em texto

22/12/2023, 15:25 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=927630&cmid=19633 1/6
Iniciado em sexta-feira, 22 dez. 2023, 15:10
Estado Finalizada
Concluída em sexta-feira, 22 dez. 2023, 15:24
Tempo
empregado
14 minutos 43 segundos
Notas 6,00/7,00
Avaliar 25,71 de um máximo de 30,00(85,71%)
Questão 1
Correto
Atingiu 1,00 de 1,00
O agrupamento de dados, ou clusterização, é uma técnica que identi�ca grupos de objetos semelhantes em um conjunto de dados.
Nesse contexto, existem muitos modelos que podem ser utilizados para realizar a clusterização, entretanto, os mais utilizados são:
modelo de conectividade, de centroide, de distribuição e de densidade.  
Qual desses modelos é utilizado para analisar e entender a distribuição de probabilidade de uma variável aleatória?
a. Modelos de conectividade.
b. Modelos centroide.
c. Modelos de distribuição.
d. Modelos de densidade. 
Sua resposta está correta.
A alternativa “d” é a correta. Os modelos de densidade são ferramentas utilizadas para analisar e entender a distribuição de
probabilidade de uma variável aleatória. Esses modelos são úteis para comparação de diferentes distribuições de probabilidade.
A resposta correta é:
Modelos de densidade.
22/12/2023, 15:25 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=927630&cmid=19633 2/6
Questão 2
Correto
Atingiu 1,00 de 1,00
Questão 3
Correto
Atingiu 1,00 de 1,00
A ordem correta para as etapas do processo ETL são:
a. Extração, Transformação e Carregamento. 
b. Carregamento, Extração e Transformação.
c. Transformação, Extração e Carregamento.
d. Carregamento, Transformação e Extração.
Sua resposta está correta.
A opção correta é a “a”. A ordem correta para o processo de ETL é Extract (Extração), Transformation (Transformação) e Load
(Carregamento). É uma metodologia que automatiza as tarefas relacionadas com a transformação de dados para um formato adequado
para análise e, na sequência, possibilita carregá-los em um sistema de armazenamento de dados (tais como Data Lake, Data Warehouse
ou banco de dados NoSQL) (ROSS; KIMBALL, 2013).
A resposta correta é:
Extração, Transformação e Carregamento.
Sobre os modelos de centroide marque as a�rmações verdadeiras
I. Os modelos de centroide são um tipo de algoritmo de clustering em que a similaridade entre os pontos de dados é de�nida pela
proximidade desses pontos aos centroides dos clusters.
II. Os modelos de centroide visam identi�car centroides que sejam representativos dos clusters e buscam encontrar o número ideal
de clusters para o conjunto de dados.
III. Ao utilizar um modelo de centroide, é necessário fornecer o número de clusters desejado antes da execução do algoritmo. Isso
signi�ca que, ao contrário de outros modelos de clustering, como os modelos de conectividade baseados em vizinhança,
estabelecer o número de clusters é um parâmetro desa�ador que precisa ser determinado antes da execução do modelo.
a. I e II são verdadeiras.
b. I e III são verdadeiras.
c. II e III são verdadeiras.
d. Todas são verdadeiras. 
Sua resposta está correta.
A resposta é a “d”. Os modelos de centroide são um tipo de algoritmo de clustering em que a similaridade entre os pontos de dados é
de�nida pela proximidade desses pontos aos centroides (centro geométricos) dos clusters. Esses modelos visam identi�car centroides
que sejam representativos dos clusters e buscam encontrar o número ideal de clusters para o conjunto de dados. Todas as três
a�rmações descrevem corretamente aspectos dos modelos de centroide.
A resposta correta é:
Todas são verdadeiras.
22/12/2023, 15:25 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=927630&cmid=19633 3/6
Questão 4
Correto
Atingiu 1,00 de 1,00
O estudo de algoritmos no contexto do Big Data tem se tornado cada vez mais relevante. Eles desempenham um papel fundamental
na sociedade, ao lidar com o processamento de enormes volumes de dados gerados no ambiente cibernético. 
Sobre o conceito de algoritmos, julgue a frase a seguir como verdadeira ou falsa.
Um algoritmo é um conjunto preciso de instruções lógicas que são executadas por um computador para realizar uma tarefa especí�ca
ou resolver um problema.
Verdadeiro 
Falso
A a�rmação é verdadeira. Na computação, um algoritmo é um conjunto preciso de instruções lógicas que são executadas por um
computador para realizar uma tarefa especí�ca ou resolver um problema. Os algoritmos são usados em várias áreas da computação,
desde a programação de so�ware e desenvolvimento de jogos até a criptogra�a e análise de dados (SZWARCFITER; MARKENZON,
2010).
A resposta correta é 'Verdadeiro'.
22/12/2023, 15:25 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=927630&cmid=19633 4/6
Questão 5
Incorreto
Atingiu 0,00 de 1,00
Uma empresa de análise de mídias sociais precisa tomar uma decisão. Ela coleta grandes volumes de dados estruturados e não
estruturados de diversas fontes, como plataformas de mídia social, blogs, fóruns, vídeos e imagens. Esses dados são essenciais para
fornecer insights e análises relevantes para seus clientes, ajudando-os a entender as tendências, o sentimento do público, identi�car
oportunidades de negócios e gerenciar a reputação online. 
Para lidar com essa variedade de dados não estruturados, a empresa precisa de uma abordagem que permita a exploração dos dados
em seu formato original, sem a necessidade de transformação imediata.
Diante do cenário, qual dos processos a empresa pode se bene�ciar?
ETL (Extract, Transformation, Load)  .
ELT (Extract, Load, Transformation)
Sua resposta está incorreta.
Nesse exemplo, a escolha adequada é “ELT (Extract, Load, Transformation"). No caso descrito, a empresa se bene�cia do processo ELT
(Extract, Load, Transform). Essa abordagem permite que a organização capture os dados brutos em seu formato original, sem a
necessidade de transformação imediata, o que possibilita explorar e analisar os dados não estruturados em seus formatos originais,
como texto, imagens e vídeos. Além disso, o ELT oferece a vantagem de manipular os dados em tempo real, permitindo que a
organização forneça insights atualizados e relevantes aos seus clientes.
A resposta correta é:
Uma empresa de análise de mídias sociais precisa tomar uma decisão. Ela coleta grandes volumes de dados estruturados e não
estruturados de diversas fontes, como plataformas de mídia social, blogs, fóruns, vídeos e imagens. Esses dados são essenciais para
fornecer insights e análises relevantes para seus clientes, ajudando-os a entender as tendências, o sentimento do público, identi�car
oportunidades de negócios e gerenciar a reputação online. 
Para lidar com essa variedade de dados não estruturados, a empresa precisa de uma abordagem que permita a exploração dos dados
em seu formato original, sem a necessidade de transformação imediata.
Diante do cenário, qual dos processos a empresa pode se bene�ciar?
[ELT (Extract, Load, Transformation)].
22/12/2023, 15:25 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=927630&cmid=19633 5/6
Questão 6
Correto
Atingiu 1,00 de 1,00
A distribuição de dados tem o objetivo de identi�car a frequência com que determinados valores aparecem em um conjunto de dados, a
�m de compreender melhor seu comportamento, além de identi�car possíveis padrões ou tendências.
Para cada descrição, selecione o termo que representa o tipo de distribuição de dados correlato.
a. Tipo de distribuição estatística em que a cauda da distribuição se estende mais para a direita
que para a esquerda. O valor numérico da média é maior que o da mediana, e a mediana é
maior que a moda. 
b. Tipo de distribuição que é caracterizada por uma curvasimétrica em torno da média dos
dados, com uma forma de sino.

c. É uma distribuição em que todos os valores possíveis têm a mesma probabilidade de
ocorrência, sendo caracterizada por uma função de densidade de probabilidade retangular.

Distribuição right skewed
Distribuição normal/Gaussiana
Distribuição uniforme
Sua resposta está correta.
A distribuição normal (Gaussiana) é uma das distribuições mais comuns na análise estatística de dados, sendo caracterizada por uma
curva simétrica em torno da média dos dados, com uma forma de sino. A curva é determinada por dois parâmetros: a média e o desvio
padrão, que descrevem a localização e a dispersão dos dados, respectivamente. Já a distribuição right skewed é caracterizada pelo valor
numérico da média maior que o da mediana, e a mediana maior que a moda. Difere, por exemplo, da distribuição le� skewed, em que o
valor numérico da moda é maior que da mediana, e a mediana é maior que a média. Por último, também se destaca o tipo de
distribuição uniforme, na qual todos os valores possíveis têm a mesma probabilidade de ocorrência. Essa distribuição é comum em
jogos de azar, como o lançamento de um dado, onde cada valor tem a mesma chance de ser sorteado.
A resposta correta é:
a. Tipo de distribuição estatística em que a cauda da distribuição se estende mais para a direita que para a esquerda. O valor numérico
da média é maior que o da mediana, e a mediana é maior que a moda. → Distribuição right skewed,
b. Tipo de distribuição que é caracterizada por uma curva simétrica em torno da média dos dados, com uma forma de sino. →
Distribuição normal/Gaussiana,
c. É uma distribuição em que todos os valores possíveis têm a mesma probabilidade de ocorrência, sendo caracterizada por uma função
de densidade de probabilidade retangular. → Distribuição uniforme.
22/12/2023, 15:25 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=927630&cmid=19633 6/6
Questão 7
Correto
Atingiu 1,00 de 1,00
No contexto de Big Data, dois modelos de programação se destacam: o MapReduce e o ElasticSearch. 
Com base nesses modelos, julgue a descrição abaixo como Verdadeira ou Falsa.
O MapReduce é composto por duas etapas principais: a primeira, chamada map, responsável por realizar o processamento paralelo dos
dados; e a segunda, chamada reduce, responsável por agregar os resultados parciais obtidos na etapa de map. É útil para processar
grandes volumes de dados não estruturados. Já o modelo de programação ElasticSearch utiliza o conceito de índices para organizar os
dados, permitindo buscar informações textuais em grandes volumes de dados em tempo real. 
Verdadeiro 
Falso
 frase é verdadeira e descreve corretamente os dois modelos de programação. O MapReduce é um modelo de programação distribuída
que permite processar grandes volumes de dados de forma e�ciente e escalável. Ele foi desenvolvido pela Google para processar
grandes conjuntos de dados em clusters de computadores, dividindo-os em tarefas menores e paralelizando o processamento em vários
nós do cluster.
O ElasticSearch é um mecanismo de busca e análise de código aberto. Ele é uma ferramenta poderosa para a análise de grandes
volumes de dados em tempo real, tornando-se muito popular em ambientes corporativos. O ElasticSearch foi desenvolvido para ser
escalável, distribuído e tolerante a falhas, permitindo que os usuários trabalhem com grandes conjuntos de dados de forma e�ciente e
rápida.
A resposta correta é 'Verdadeiro'.

Mais conteúdos dessa disciplina