Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Preparação de Dados
• Processo onde os dados são coletados, limpos e organizados de acordo com 
as necessidades de negócio.
• Sucede a etapa de entendimento dos dados.
• É a etapa de construção do dataset.
• Conhecido também como pré-processamento.
Dados 
provenientes de 
diversas fontes
Dados 
inadequados, 
incorretos e 
inconsistentes
Preparação de Dados
• Etapas:
• Identificação e coleta de dados.
• Identificação de metadados.
• Integração de dados.
• Análise exploratória.
• Avaliar a qualidade dos dados.
• Descobrir relações entre variáveis.
• Conhecer os dados.
Preparação de Dados
• Etapas:
• Limpeza dos dados.
• Corrigir erros identificados.
• Remoção de ruído
• Remoção de duplicações.
• Tratamento de outliers.
• Preencher dados ausentes.
• Transformação de formatos (datas e moedas).
• Mascaramento de informações sensíveis.
Preparação de Dados
• Etapas:
• Rotulagem de dados.
• Especialmente em visão computacional, PLN e reconhecimento de fala.
• Transformação de dados.
• Mudança de tipos de dado.
• Mudança de escala.
• Geração de hierarquias de conceitos.
• Agrupamento de dados.
Preparação de Dados
• Etapas:
• Redução de dimensionalidade.
• Redução de casos.
• Enriquecimento de dados.
• Validação e visualização.
• Histogramas, gráficos de dispersão, gráficos de caixa.
Questões de Concurso
• Prova: CESPE / CEBRASPE - 2021 - Prefeitura de Aracaju - SE - Auditor de Tributos 
Municipais - Geral
• O enriquecimento de dados da etapa de pré-processamento e preparação do data 
mining tem como objetivo 
• A a deduplicidade de registros.
• B a integração de bases diferentes
• C o tratamento de valores nulos.
• D a seleção de amostras.
• E o acréscimo de dados à base já existente.
Questões de Concurso
• Prova: CESPE / CEBRASPE - 2021 - Prefeitura de Aracaju - SE - Auditor de Tributos 
Municipais - Geral
• O enriquecimento de dados da etapa de pré-processamento e preparação do data 
mining tem como objetivo 
• A a deduplicidade de registros.
• B a integração de bases diferentes
• C o tratamento de valores nulos.
• D a seleção de amostras.
• E o acréscimo de dados à base já existente.
Questões de Concurso
• Prova: CESGRANRIO - 2021 - Banco do Brasil - Agente de Tecnologia
• Na etapa de preparação de dados em um ambiente de Big Data, pode ocorrer o aparecimento de dados ruidosos, que são dados fora de sentido 
no ambiente do Big Data e que não podem ser interpretados pelo sistema. Uma forma de reduzir esse efeito, e até eliminá-lo, é utilizar um 
método de suavização de dados, que minimiza os efeitos causados pelos dados ruidosos.
• Esse método consiste em
• A agrupar dados semelhantes em clusters, verificar os dados que se apresentam como ruidosos e não os inserir no ambiente de Big Data, 
substituindo cada um desses dados ruidosos pelo valor NULL.
• B criar um cubo de dados multidimensional para acelerar a identificação e a eliminação dos dados ruidosos encontrados, e, neste caso, os dados 
assumem valores predefinidos no momento do pré-processamento.
• C dividir os valores dos dados originais em pequenos intervalos, denominados compartimentos, e, em seguida, substituí-los por um valor geral, ou 
genérico, calculado para cada compartimento específico.
• D executar uma fusão de dados, tendo como base dados vizinhos, e obter novas variáveis que irão preencher os espaços incoerentes dentro do Big 
Data, eliminando o ruído. 
• E realizar uma ação de Data Mining com atributos que se pareçam com dados ruidosos, gerando novos atributos, classificados como atributos 
“fantasmas”, sem valor para o tratamento do Big Data.
Questões de Concurso
• Prova: CESGRANRIO - 2021 - Banco do Brasil - Agente de Tecnologia
• Na etapa de preparação de dados em um ambiente de Big Data, pode ocorrer o aparecimento de dados ruidosos, que são dados fora de sentido 
no ambiente do Big Data e que não podem ser interpretados pelo sistema. Uma forma de reduzir esse efeito, e até eliminá-lo, é utilizar um 
método de suavização de dados, que minimiza os efeitos causados pelos dados ruidosos.
• Esse método consiste em
• A agrupar dados semelhantes em clusters, verificar os dados que se apresentam como ruidosos e não os inserir no ambiente de Big Data, 
substituindo cada um desses dados ruidosos pelo valor NULL.
• B criar um cubo de dados multidimensional para acelerar a identificação e a eliminação dos dados ruidosos encontrados, e, neste caso, os dados 
assumem valores predefinidos no momento do pré-processamento.
• C dividir os valores dos dados originais em pequenos intervalos, denominados compartimentos, e, em seguida, substituí-los por um valor geral, ou 
genérico, calculado para cada compartimento específico.
• D executar uma fusão de dados, tendo como base dados vizinhos, e obter novas variáveis que irão preencher os espaços incoerentes dentro do Big 
Data, eliminando o ruído. 
• E realizar uma ação de Data Mining com atributos que se pareçam com dados ruidosos, gerando novos atributos, classificados como atributos 
“fantasmas”, sem valor para o tratamento do Big Data.
Questões de Concurso
• Prova: CESGRANRIO - 2018 - Transpetro - Analista de Sistemas Júnior - SAP
• Na construção de data warehouses é possível – e por vezes recomendado – que a equipe 
projetista considere a utilização de diversas fontes de dados. Com isso, espera-se melhorar 
a qualidade das análises a serem realizadas, a partir desse data warehouse.
• Qual tarefa a seguir listada NÃO corresponde a uma ação de preparação de dados nessa 
etapa?
• A Avaliação estocástica dos metadados
• B Discretização de atributos numéricos
• C Imputação de valores ausentes
• D Seleção de atributos relevantes
• E Verificação de cálculos inválidos
Questões de Concurso
• Prova: CESGRANRIO - 2018 - Transpetro - Analista de Sistemas Júnior - SAP
• Na construção de data warehouses é possível – e por vezes recomendado – que a equipe 
projetista considere a utilização de diversas fontes de dados. Com isso, espera-se melhorar 
a qualidade das análises a serem realizadas, a partir desse data warehouse.
• Qual tarefa a seguir listada NÃO corresponde a uma ação de preparação de dados nessa 
etapa?
• A Avaliação estocástica dos metadados
• B Discretização de atributos numéricos
• C Imputação de valores ausentes
• D Seleção de atributos relevantes
• E Verificação de cálculos inválidos
Questões de Concurso
• Prova: FGV - 2022 - TCE-TO - Auditor de Controle Externo - Tecnologia da Informação
• Ao analisar um grande volume de dados, João encontrou algumas anomalias, por exemplo: 
pessoas com mais de 200 anos de idade e salário de engenheiro menor que salário de 
pedreiro.
• A operação de limpeza da fase de preparação de dados para tratar os pontos extremos 
existentes em uma série temporal a ser executada por João é:
• A Normalização;
• B Discretização;
• C Classificação;
• D Tratamento de outlier;
• E Redução de dimensionalidade.
Questões de Concurso
• Prova: FGV - 2022 - TCE-TO - Auditor de Controle Externo - Tecnologia da Informação
• Ao analisar um grande volume de dados, João encontrou algumas anomalias, por exemplo: 
pessoas com mais de 200 anos de idade e salário de engenheiro menor que salário de 
pedreiro.
• A operação de limpeza da fase de preparação de dados para tratar os pontos extremos 
existentes em uma série temporal a ser executada por João é:
• A Normalização;
• B Discretização;
• C Classificação;
• D Tratamento de outlier;
• E Redução de dimensionalidade.
	Slide 27
	Slide 28: Preparação de Dados
	Slide 29: Preparação de Dados
	Slide 30: Preparação de Dados
	Slide 31: Preparação de Dados
	Slide 32: Preparação de Dados
	Slide 33: Questões de Concurso
	Slide 34: Questões de Concurso
	Slide 35: Questões de Concurso
	Slide 36: Questões de Concurso
	Slide 37: Questões de Concurso
	Slide 38: Questões de Concurso
	Slide 39: Questões de Concurso
	Slide 40: Questões de Concurso

Mais conteúdos dessa disciplina