Logo Passei Direto
Buscar

Programação

Anhanguera
Uma empresa de análise de mercado recebeu um dataset de pesquisa sobre preferências de consumo de uma multinacional de alimentos. O conjunto contém 500.000 registros coletados através de múltiplas fontes: pesquisas online, aplicativos móveis, dados de vendas de varejistas parceiros e redes sociais. O objetivo é identificar tendências de consumo para lançamento de novos produtos. Durante a análise preliminar, a equipe de ciência de dados descobriu várias inconsistências preocupantes. Primeiro, 35% dos respondentes da pesquisa online têm idades entre 18-25 anos, enquanto dados demográficos oficiais indicam que essa faixa representa apenas 12% da população-alvo. Segundo, dados de vendas de uma região específica mostram picos anômalos de 300% em determinados produtos durante períodos onde não houve campanhas promocionais ou eventos especiais. Adicionalmente, a equipe identificou que 20% dos registros de redes sociais são provenientes de contas com atividade suspeita (criadas recentemente, poucos seguidores, padrões de postagem automatizados). Os dados coletados via aplicativo móvel apresentam viés geográfico significativo, com 70% das respostas concentradas em grandes centros urbanos, não representando adequadamente mercados rurais e cidades menores. A consultoria precisa entregar um relatório confiável sobre tendências de consumo, mas está enfrentando dilemas sobre como proceder com dados de qualidade questionável. A decisão sobre usar, filtrar ou descartar determinados conjuntos de dados impactará diretamente a validade das conclusões e recomendações estratégicas para o cliente.


Considerando o contexto apresentado sobre qualidade e confiabilidade dos dados, assinale a alternativa correta.



a)
A representatividade da amostra pode ser ignorada quando o volume de dados é suficientemente grande, pois algoritmos de machine learning compensam automaticamente vieses amostrais.



b)
Dados com viés geográfico devem ser ponderados estatisticamente para corrigir a distribuição populacional, garantindo que diferentes regiões sejam adequadamente representadas na análise final.


c)
Registros de contas suspeitas em redes sociais devem ser mantidos na análise pois representam comportamentos reais de consumo, independentemente da autenticidade das contas.


d)
Picos anômalos em dados de vendas são sempre indicativos de erro de coleta e devem ser removidos automaticamente para não distorcer as análises estatísticas.


e)
A idade dos respondentes não é um fator crítico para validação de dados sobre preferências alimentares, sendo suficiente ter volume adequado de respostas para garantir confiabilidade.
User badge image
Bruno Masetto

há 4 dias

Respostas

User badge image

Ed Verified user icon

há 4 dias

Vamos analisar cada uma das alternativas com base no contexto apresentado sobre a qualidade e confiabilidade dos dados: a) A representatividade da amostra pode ser ignorada quando o volume de dados é suficientemente grande, pois algoritmos de machine learning compensam automaticamente vieses amostrais. Análise: Isso não é verdade. A representatividade da amostra é crucial, independentemente do volume de dados. Algoritmos de machine learning não corrigem automaticamente vieses amostrais. b) Dados com viés geográfico devem ser ponderados estatisticamente para corrigir a distribuição populacional, garantindo que diferentes regiões sejam adequadamente representadas na análise final. Análise: Esta alternativa é correta. Ponderar dados com viés geográfico é uma prática recomendada para garantir que a análise reflita a população-alvo de forma mais precisa. c) Registros de contas suspeitas em redes sociais devem ser mantidos na análise pois representam comportamentos reais de consumo, independentemente da autenticidade das contas. Análise: Isso não é correto. Contas suspeitas podem distorcer os resultados e não devem ser mantidas sem uma verificação adequada. d) Picos anômalos em dados de vendas são sempre indicativos de erro de coleta e devem ser removidos automaticamente para não distorcer as análises estatísticas. Análise: Embora picos anômalos possam indicar erros, nem sempre são erros de coleta. Eles podem representar eventos reais que precisam ser investigados antes de serem descartados. e) A idade dos respondentes não é um fator crítico para validação de dados sobre preferências alimentares, sendo suficiente ter volume adequado de respostas para garantir confiabilidade. Análise: Isso não é verdade. A idade é um fator importante que pode influenciar preferências alimentares, e a representatividade da amostra deve ser considerada. Diante dessa análise, a alternativa correta é: b) Dados com viés geográfico devem ser ponderados estatisticamente para corrigir a distribuição populacional, garantindo que diferentes regiões sejam adequadamente representadas na análise final.

Essa resposta te ajudou?

0
Dislike0

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Mais conteúdos dessa disciplina