Ed
há 4 dias
Vamos analisar cada uma das alternativas com base no contexto apresentado sobre a qualidade e confiabilidade dos dados: a) A representatividade da amostra pode ser ignorada quando o volume de dados é suficientemente grande, pois algoritmos de machine learning compensam automaticamente vieses amostrais. Análise: Isso não é verdade. A representatividade da amostra é crucial, independentemente do volume de dados. Algoritmos de machine learning não corrigem automaticamente vieses amostrais. b) Dados com viés geográfico devem ser ponderados estatisticamente para corrigir a distribuição populacional, garantindo que diferentes regiões sejam adequadamente representadas na análise final. Análise: Esta alternativa é correta. Ponderar dados com viés geográfico é uma prática recomendada para garantir que a análise reflita a população-alvo de forma mais precisa. c) Registros de contas suspeitas em redes sociais devem ser mantidos na análise pois representam comportamentos reais de consumo, independentemente da autenticidade das contas. Análise: Isso não é correto. Contas suspeitas podem distorcer os resultados e não devem ser mantidas sem uma verificação adequada. d) Picos anômalos em dados de vendas são sempre indicativos de erro de coleta e devem ser removidos automaticamente para não distorcer as análises estatísticas. Análise: Embora picos anômalos possam indicar erros, nem sempre são erros de coleta. Eles podem representar eventos reais que precisam ser investigados antes de serem descartados. e) A idade dos respondentes não é um fator crítico para validação de dados sobre preferências alimentares, sendo suficiente ter volume adequado de respostas para garantir confiabilidade. Análise: Isso não é verdade. A idade é um fator importante que pode influenciar preferências alimentares, e a representatividade da amostra deve ser considerada. Diante dessa análise, a alternativa correta é: b) Dados com viés geográfico devem ser ponderados estatisticamente para corrigir a distribuição populacional, garantindo que diferentes regiões sejam adequadamente representadas na análise final.