Prévia do material em texto
Preparação de Dados • Processo onde os dados são coletados, limpos e organizados de acordo com as necessidades de negócio. • Sucede a etapa de entendimento dos dados. • É a etapa de construção do dataset. • Conhecido também como pré-processamento. Dados provenientes de diversas fontes Dados inadequados, incorretos e inconsistentes Preparação de Dados • Etapas: • Identificação e coleta de dados. • Identificação de metadados. • Integração de dados. • Análise exploratória. • Avaliar a qualidade dos dados. • Descobrir relações entre variáveis. • Conhecer os dados. Preparação de Dados • Etapas: • Limpeza dos dados. • Corrigir erros identificados. • Remoção de ruído • Remoção de duplicações. • Tratamento de outliers. • Preencher dados ausentes. • Transformação de formatos (datas e moedas). • Mascaramento de informações sensíveis. Preparação de Dados • Etapas: • Rotulagem de dados. • Especialmente em visão computacional, PLN e reconhecimento de fala. • Transformação de dados. • Mudança de tipos de dado. • Mudança de escala. • Geração de hierarquias de conceitos. • Agrupamento de dados. Preparação de Dados • Etapas: • Redução de dimensionalidade. • Redução de casos. • Enriquecimento de dados. • Validação e visualização. • Histogramas, gráficos de dispersão, gráficos de caixa. Questões de Concurso • Prova: CESPE / CEBRASPE - 2021 - Prefeitura de Aracaju - SE - Auditor de Tributos Municipais - Geral • O enriquecimento de dados da etapa de pré-processamento e preparação do data mining tem como objetivo • A a deduplicidade de registros. • B a integração de bases diferentes • C o tratamento de valores nulos. • D a seleção de amostras. • E o acréscimo de dados à base já existente. Questões de Concurso • Prova: CESPE / CEBRASPE - 2021 - Prefeitura de Aracaju - SE - Auditor de Tributos Municipais - Geral • O enriquecimento de dados da etapa de pré-processamento e preparação do data mining tem como objetivo • A a deduplicidade de registros. • B a integração de bases diferentes • C o tratamento de valores nulos. • D a seleção de amostras. • E o acréscimo de dados à base já existente. Questões de Concurso • Prova: CESGRANRIO - 2021 - Banco do Brasil - Agente de Tecnologia • Na etapa de preparação de dados em um ambiente de Big Data, pode ocorrer o aparecimento de dados ruidosos, que são dados fora de sentido no ambiente do Big Data e que não podem ser interpretados pelo sistema. Uma forma de reduzir esse efeito, e até eliminá-lo, é utilizar um método de suavização de dados, que minimiza os efeitos causados pelos dados ruidosos. • Esse método consiste em • A agrupar dados semelhantes em clusters, verificar os dados que se apresentam como ruidosos e não os inserir no ambiente de Big Data, substituindo cada um desses dados ruidosos pelo valor NULL. • B criar um cubo de dados multidimensional para acelerar a identificação e a eliminação dos dados ruidosos encontrados, e, neste caso, os dados assumem valores predefinidos no momento do pré-processamento. • C dividir os valores dos dados originais em pequenos intervalos, denominados compartimentos, e, em seguida, substituí-los por um valor geral, ou genérico, calculado para cada compartimento específico. • D executar uma fusão de dados, tendo como base dados vizinhos, e obter novas variáveis que irão preencher os espaços incoerentes dentro do Big Data, eliminando o ruído. • E realizar uma ação de Data Mining com atributos que se pareçam com dados ruidosos, gerando novos atributos, classificados como atributos “fantasmas”, sem valor para o tratamento do Big Data. Questões de Concurso • Prova: CESGRANRIO - 2021 - Banco do Brasil - Agente de Tecnologia • Na etapa de preparação de dados em um ambiente de Big Data, pode ocorrer o aparecimento de dados ruidosos, que são dados fora de sentido no ambiente do Big Data e que não podem ser interpretados pelo sistema. Uma forma de reduzir esse efeito, e até eliminá-lo, é utilizar um método de suavização de dados, que minimiza os efeitos causados pelos dados ruidosos. • Esse método consiste em • A agrupar dados semelhantes em clusters, verificar os dados que se apresentam como ruidosos e não os inserir no ambiente de Big Data, substituindo cada um desses dados ruidosos pelo valor NULL. • B criar um cubo de dados multidimensional para acelerar a identificação e a eliminação dos dados ruidosos encontrados, e, neste caso, os dados assumem valores predefinidos no momento do pré-processamento. • C dividir os valores dos dados originais em pequenos intervalos, denominados compartimentos, e, em seguida, substituí-los por um valor geral, ou genérico, calculado para cada compartimento específico. • D executar uma fusão de dados, tendo como base dados vizinhos, e obter novas variáveis que irão preencher os espaços incoerentes dentro do Big Data, eliminando o ruído. • E realizar uma ação de Data Mining com atributos que se pareçam com dados ruidosos, gerando novos atributos, classificados como atributos “fantasmas”, sem valor para o tratamento do Big Data. Questões de Concurso • Prova: CESGRANRIO - 2018 - Transpetro - Analista de Sistemas Júnior - SAP • Na construção de data warehouses é possível – e por vezes recomendado – que a equipe projetista considere a utilização de diversas fontes de dados. Com isso, espera-se melhorar a qualidade das análises a serem realizadas, a partir desse data warehouse. • Qual tarefa a seguir listada NÃO corresponde a uma ação de preparação de dados nessa etapa? • A Avaliação estocástica dos metadados • B Discretização de atributos numéricos • C Imputação de valores ausentes • D Seleção de atributos relevantes • E Verificação de cálculos inválidos Questões de Concurso • Prova: CESGRANRIO - 2018 - Transpetro - Analista de Sistemas Júnior - SAP • Na construção de data warehouses é possível – e por vezes recomendado – que a equipe projetista considere a utilização de diversas fontes de dados. Com isso, espera-se melhorar a qualidade das análises a serem realizadas, a partir desse data warehouse. • Qual tarefa a seguir listada NÃO corresponde a uma ação de preparação de dados nessa etapa? • A Avaliação estocástica dos metadados • B Discretização de atributos numéricos • C Imputação de valores ausentes • D Seleção de atributos relevantes • E Verificação de cálculos inválidos Questões de Concurso • Prova: FGV - 2022 - TCE-TO - Auditor de Controle Externo - Tecnologia da Informação • Ao analisar um grande volume de dados, João encontrou algumas anomalias, por exemplo: pessoas com mais de 200 anos de idade e salário de engenheiro menor que salário de pedreiro. • A operação de limpeza da fase de preparação de dados para tratar os pontos extremos existentes em uma série temporal a ser executada por João é: • A Normalização; • B Discretização; • C Classificação; • D Tratamento de outlier; • E Redução de dimensionalidade. Questões de Concurso • Prova: FGV - 2022 - TCE-TO - Auditor de Controle Externo - Tecnologia da Informação • Ao analisar um grande volume de dados, João encontrou algumas anomalias, por exemplo: pessoas com mais de 200 anos de idade e salário de engenheiro menor que salário de pedreiro. • A operação de limpeza da fase de preparação de dados para tratar os pontos extremos existentes em uma série temporal a ser executada por João é: • A Normalização; • B Discretização; • C Classificação; • D Tratamento de outlier; • E Redução de dimensionalidade. Slide 27 Slide 28: Preparação de Dados Slide 29: Preparação de Dados Slide 30: Preparação de Dados Slide 31: Preparação de Dados Slide 32: Preparação de Dados Slide 33: Questões de Concurso Slide 34: Questões de Concurso Slide 35: Questões de Concurso Slide 36: Questões de Concurso Slide 37: Questões de Concurso Slide 38: Questões de Concurso Slide 39: Questões de Concurso Slide 40: Questões de Concurso