Logo Passei Direto
Buscar

Analista de Dados - GoogleCoursera - CURSO 4

Ferramentas de estudo

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
SEMANA 1 - A IMPORTÂNCIA DA INTEGRIDADE
Enquanto você começa a pensar em como preparar seus dados para serem explorados, esta parte do explicará por que a
integridade deles é tão essencial para tomar as decisões certas. Você aprenderá sobre como os dados são gerados e as
técnicas que os analistas usam para decidir quais dados devem ser coletados para análise. Além disso, você aprenderá
sobre dados estruturados e não estruturados, tipos de dados e formatos de dados.
Objetivos de aprendizagem
● Descrever as medidas estatísticas associadas à integridade dos dados, como potência estatística, testagem de
hipótese e margem de erro
● Descrever estratégias que podem ser usadas para enfrentar a insufiCiência de Dados
● Falar sobre a importância do tamanho das amostras fazendo referência ao viés de amostra e a amostras
aleatórias
● Descrever a relação entre os dados e objetivos de negócios relacionados
● Definir a integridade dos dados, fazendo referência aos tipos de dados e aos riscos associados
● Falar sobre a importância das atividades de preparo para a limpeza
1.1 - FOCO NA INTEGRIDADE
VÍDEO - INTRODUÇÃO AO FOCO NA INTEGRIDADE - Olá! Bom te ver! Meu nome é Sally e estou aqui para ensinar tudo sobre
processamento de dados. Sou líder de medição e análise no Google. Meu trabalho é ajudar agências de publicidade e empresas a
medir o sucesso e analisar seus dados, então encontro muitas pessoas diferentes para mostrar a elas como a análise de dados ajuda
na publicidade. Falando em análise, você se saiu muito bem aprendendo a coletar e organizar dados para análise. É definitivamente
um passo importante no processo de análise de dados, portanto, bom trabalho! Agora vamos falar sobre como garantir que seus dados
organizados sejam completos e precisos. Os dados limpos são o segredo para garantir que seus dados tenham integridade antes de
analisá-los. Mostraremos como garantir que seus dados estejam limpos e organizados. A limpeza e o processamento de dados são
uma parte do processo geral de análise de dados. Como um lembrete rápido, esse processo é perguntar, preparar, processar,
analisar, compartilhar e agir. Isso significa que é hora de explorarmos a fase do Processo, e estou aqui para guiá-lo durante todo o
caminho. Estou muito familiarizado com onde você está agora. Eu nunca tinha ouvido falar de análise de dados até passar por um
programa semelhante a este. Assim que comecei a progredir, percebi o quanto gostava de análise de dados e as portas que ela
poderia abrir. E agora estou animada para ajudá-lo a abrir essas mesmas portas! Uma coisa que percebi enquanto trabalhava para
diferentes empresas é que dados limpos são importantes em todos os setores. Por exemplo, aprendi no início da minha carreira a
ficar atento a dados duplicados, um problema comum que os analistas encontram durante a limpeza. Eu costumava trabalhar para uma
empresa que tinha diferentes tipos de assinaturas. Em nosso conjunto de dados, cada usuário teria uma nova linha para cada tipo de
assinatura comprada, o que significava que os usuários apareceriam mais de uma vez em meus dados. Portanto, se eu tivesse
contado o número de usuários em uma tabela sem contabilizar duplicatas como essa, teria contado alguns usuários duas vezes em
vez de uma. Como resultado, minha análise estaria errada, o que levaria a problemas em meus relatórios e para as partes
interessadas que confiavam em minha análise. Imagine se eu dissesse ao CEO que tínhamos o dobro de clientes do que realmente
tínhamos? É por isso que dados limpos são tão importantes. Portanto, o primeiro passo no processamento de dados é aprender
sobre a integridade dos dados. Você descobrirá o que é integridade de dados e por que é importante mantê-la durante todo o
processo de análise de dados. Às vezes, você pode nem ter os dados de que precisa, então terá que criá-los você mesmo. Isso lhe
ajudará a aprender como o tamanho da amostra e a amostragem aleatória podem economizar tempo e esforço. Testar dados é outra
etapa importante a ser tomada ao processar dados. Compartilharemos algumas orientações sobre como testar dados antes que sua
análise comece oficialmente. Assim como você limpa suas roupas e seus pratos no dia a dia, os analistas também limpam seus dados
o tempo todo. A importância de dados limpos definitivamente será o foco aqui. Você aprenderá técnicas de limpeza de dados para
todos os cenários, além de algumas armadilhas a serem observadas durante a limpeza. Você explorará a limpeza de dados em
planilhas e bancos de dados, baseando-se no que já aprendeu sobre planilhas. Falaremos mais sobre SQL e como você pode usá-lo
para limpar dados e fazer outras coisas úteis também. Quando os analistas limpam seus dados, eles fazem muito mais do que uma
verificação pontual para garantir que tudo foi feito corretamente. Você aprenderá maneiras de verificar e relatar seus resultados de
limpeza. Isso inclui documentar seu processo de limpeza, que tem muitos benefícios que exploraremos. É importante lembrar que o
processamento de dados é apenas uma das tarefas que você realizará como analista de dados. Na verdade, suas habilidades com
dados de limpeza podem acabar sendo algo que você destaca em seu currículo quando começa a procurar emprego. Falando em
currículos, você poderá começar a pensar em como criar o seu próprio da perspectiva de um analista de dados. Quando terminar aqui,
você terá uma forte apreciação por dados limpos e quão importante eles são no processo de análise de dados. Então, vamos começar.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Plano de estudos do curso
1. Fundamentos: Dados, dados, em todos os lugares
2. Fazer perguntas para tomar decisões com base em dados
3. Preparar os dados para exploração
4. Processar os Dados para limpá-los (este curso)
5. Analisar os dados para responder às perguntas
6. Compartilhar os dados com a arte da visualização
7. Análise de dados com programação em R
8. Conclusão do Análise de Dados do Google: Conclua um Estudo de Caso.
Bem-vindo ao quarto curso do programa! Conforme você avança no certificado, este curso e outros que se seguem
começarão a concentrar mais atenção em tarefas e projetos práticos e colocar a mão na massa. Isso aumenta
progressivamente a quantidade de tempo que você tem para desenvolver habilidades profissionais importantes.No último
curso, você aprendeu algumas habilidades básicas necessárias como analista de dados de nível básico. Você aprendeu
sobre estruturas de dados e descobriu como obter, aplicar, organizar e proteger dados.
Neste curso, você aprenderá a garantir que seus dados estejam limpos, verificando a integridade e exatidão. Você
analisará uma variedade de abordagens para limpar dados em planilhas e bancos de dados. Também aprenderá como
verificar se seus dados estão limpos e como criar relatórios para comunicar essas informações a outras pessoas. Garantir
a precisão e a confiabilidade dos dados é uma parte crítica do trabalho de um analista de dados.
Conteúdo do curso
Curso 4 – Processar os dados para limpá-los
1. Garantir a integridade dos dados. A integridade dos dados é necessária para garantir uma análise
bem-sucedida. Nesta parte do curso, você explorará métodos e etapas que os analistas seguem para verificar a
integridade dos dados. Isso inclui saber o que fazer quando você tem uma quantidade insuficiente de dados.
Também aprenderá sobre o tamanho da amostra, evitando viés de amostra e usando amostras aleatórias. Todas
essas medidas também ajudam a garantir uma análise de dados bem-sucedida.
2. Compreender dados limpos. Todos os analistas de dados querem trabalhar com dados limpos ao fazer uma
análise. Nesta parte do curso, você aprenderá a diferença entre dados limpos e sujos. Você praticará técnicas de
limpeza de dados em planilhas e outras ferramentas.
3. Limpeza de dados usando SQL. Conhecer diversas formas de limpar dados pode tornar o trabalho de um
analista muito mais fácil. Nesta parte do curso, você usará SQL para limpar dados de bancosde dados. Você
explorará como as consultas e funções SQL podem ser usadas para limpar e transformar seus dados antes de
uma análise.
4. Verificar e relatar os resultados da limpeza. Os dados de limpeza são uma etapa importante do processo de
análise de dados. Nesta parte do curso, você verificará se os dados estão limpos e relatará os resultados da
limpeza de dados. Com dados limpos verificados, você estará pronto para a próxima etapa do processo de
análise de dados.
5. Como adicionar dados ao seu currículo. Criar um currículo eficaz ajudará você na carreira de Data Analytics.
Nesta parte do curso, você aprenderá tudo sobre o processo de solicitação de emprego. Seu foco estará na
construção de um currículo que destaque seus pontos fortes e experiência relevante.
6. Conclusão do Desafio do Curso. Ao final deste curso, você poderá aplicar o que aprendeu no Desafio do Curso.
O Desafio do Curso fará perguntas sobre os conceitos-chave e, em seguida, dará a você a oportunidade de
colocá-los em prática conforme você passa por dois cenários.
O que esperar
Você pode planejar terminar este programa em cerca de quatro a cinco semanas. Você ganhará crédito do curso após
concluir todas as atividades prescritas, que incluem:
● Vídeos de instrutores ensinando novos conceitos e demonstrando o uso de ferramentas
● Perguntas em vídeo que surgem durante ou no final de um vídeo para verificar o seu aprendizado
● Textos para apresentar novas ideias e desenvolver os conceitos dos vídeos.
● Fóruns de discussões para discutir, explorar e reforçar novas ideias para uma melhor aprendizagem
● Sugestões de discussão para promover o pensamento e o envolvimento nos fóruns de discussão.
https://www.coursera.org/learn/fundamentos-dados-dados-em-todos-os-lugares/home/week/1
https://www.coursera.org/learn/fazer-perguntas-para-tomar-decisoes-com-base-em-dados/home/welcome
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/home/welcome
https://www.coursera.org/learn/analisar-os-dados-para-responder-as-perguntas/home/welcome
https://www.coursera.org/learn/compartilhar-os-dados-com-a-arte-da-visualizacao/home/welcome
https://www.coursera.org/learn/analise-de-dados-com-programacao-em-r/home/welcome
https://www.coursera.org/learn/projeto-final-conclua-um-estudo-de-caso/home/welcome
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/discussions
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
● Qwiklabs para apresentar situações do mundo real no trabalho e as ferramentas e tarefas para concluir seus
trabalhos
● Simulados para servir como preparação para os testes que valem nota.
● Atividades práticas para reforçar as habilidades aprendidas para os questionários classificados
● Testes que valem nota para medir seu progresso e oferecer um feedback valioso.
Atividades práticas que promovem mais oportunidades para desenvolver suas habilidades. Tente fazer o máximo possível
delas. As avaliações se baseiam na abordagem do curso para oferecer uma ampla variedade de materiais de aprendizado
e atividades que reforçam habilidades importantes. Os testes (com e sem nota) ajudarão a absorver o conteúdo. Os
simulados sem nota são uma oportunidade para você se preparar para os testes que valem nota. Ambos os tipos de testes
podem ser respondidos várias vezes.
Voltando a lembrar, este curso é projetado para todos os tipos de alunos, sem necessidade de graduação ou experiência
anterior. Todo mundo aprende de maneira diferente, então o Certificado de Análise de Dados do Google foi desenvolvido
com isso em mente. Os prazos personalizados são apenas um guia, portanto, fique à vontade para trabalhar no seu
próprio ritmo. Se preferir, você pode estender seus prazos voltando para Visão geral no painel de navegação e clicando
em Alternar sessões. Se você já perdeu os prazos anteriores, clique em Redefinir meus prazos.
Se quiser revisar o conteúdo anterior ou dar uma olhada no conteúdo que está por vir, você pode usar os links de
navegação no topo desta página para ir para outro curso do programa. Quando você passar em todos os trabalhos
obrigatórios, estará no caminho certo para ganhar seu certificado. Este curso também contém informações práticas para
prepará-lo para o mercado de trabalho como analista de dados. Use as recomendações para adicionar ao seu currículo o
que você aprendeu sobre limpeza de dados.
Dicas
● Faça o seu melhor para completar todos os itens em ordem. Todas as novas informações baseiam-se no
aprendizado anterior.
● Trate cada tarefa como se fosse uma experiência do mundo real. Tenha a mente de que você está trabalhando em
uma empresa ou em uma organização como analista de dados. Isso o ajudará a aplicar o que aprendeu neste
programa ao mundo real.
● Repita as tarefas demonstradas por conta própria para prática extra e velocidade.
● Mesmo que elas não sejam avaliadas, participe e complete todos os itens de prática. Eles o ajudarão a construir
uma base sólida como analista de dados e a prepará-lo melhor para as avaliações graduadas.
● Aproveite todos os recursos adicionais fornecidos, incluindo fóruns de discussão e links para conteúdo de
aprendizagem.
● Quando você encontrar links úteis no curso, marque-os como favoritos para consultar as informações para estudo
ou revisão.
● Os recursos adicionais são gratuitos, mas alguns sites estabelecem limites para o número de artigos que podem
ser acessados gratuitamente por mês. Às vezes, é possível se registrar no site para receber acesso total, mas
você pode sempre marcar um recurso como favorito e voltar para visualizá-lo mais tarde.
Agora que você sabe como proceder, pode dar os primeiros passos para trabalhar com todos os tipos de dados e aprender
a manter a integridade dos dados como prioridade em todos os seus projetos. Mantenha-se no curso (trocadilho
intencional)!
Conhecer os colegas
Recentemente, você aprendeu sobre tipos de dados, estruturas de dados e bancos de dados. Como analista de dados,
você terá a chance de explorar muitos conjuntos de dados diferentes. Mas antes de começar, há algumas questões
importantes a serem consideradas:
● Quais etapas você pode executar ao abrir um conjunto de dados pela primeira vez?
● O que você aprendeu neste curso que pode aplicar ao explorar o conjunto de dados?
Escreva dois ou mais parágrafos (100-150 palavras) descrevendo o que você pode fazer com um novo conjunto de dados.
Você pode incluir todas as etapas ou processos sobre os quais já aprendeu em sua descrição. Por fim, acesse o fórum de
discussão para ler o que outros alunos escreveram e participe da discussão com, pelo menos, duas de suas publicações.
A participação é opcional
Com um novo conjunto de dados, sou capaz de realizar várias etapas e processos para obter insights e conhecimentos
valiosos. Primeiramente, posso realizar uma análise exploratória dos dados, que envolve examinar e visualizar os padrões e
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
tendências presentes nos dados. Usando técnicas estatísticas e gráficas, posso identificar relações entre variáveis, detectar
outliers e compreender a distribuição dos dados.
Além disso, posso realizar a limpeza e pré-processamento dos dados, que envolvem tratar valores ausentes, remover
duplicatas e padronizar formatos. Também posso aplicar técnicas de transformação, como normalização e codificação, para
melhorar a qualidade e a evolução dos dados aos algoritmos de análise. Posteriormente, posso aplicar uma ampla variedade
de técnicas de modelagem, como processamento de máquina, para prever tendências, classificar dados e identificar padrões
ocultos. Isso pode ser útil em várias áreas, como previsão de demanda, detecção de fraudes, recomendação de produtos,
entre outros. Além disso, posso utilizar técnicas de mineração de dados para descobrir padrões, associações e insights que
podem ser relevantes para a tomada de decisões. Essas informações podem ser simplificadas em relatório, gráficos ou
painéis interativos, facilitando a compreensão e a interpretação dos resultados.
Em suma, com um novo conjuntode dados, posso explorar, limpar, analisar e extrair conhecimentos valiosos, confiantes para
a tomada de decisões controladas e orientadas por dados.
1.2 - INTEGRIDADE DOS DADOS E OBJETIVOS ANALÍTICOS
VÍDEO - POR QUE A INTEGRIDADE DOS DADOS É IMPORTANTE - Olá mais uma vez! Neste vídeo, abordaremos a integridade dos
dados e alguns riscos que talvez enfrente como analista de dados. Uma análise forte depende da integridade dos dados. Se os
dados que você está usando forem comprometidos de alguma forma, sua análise não será tão forte quanto deveria. A integridade dos
dados é a precisão, integridade, consistência e confiabilidade dos dados durante o ciclo de vida deles. Isso pode soar como
muitas qualidades para que os dados estejam à altura. Mas confie em mim, vale a pena verificar todos eles antes de prosseguir com
sua análise. Caso contrário, sua análise poderá estar errada. Não porque você fez algo errado, mas porque os dados com os quais
você estava trabalhando estavam errados no início. Quando a integridade dos dados é baixa, pode causar desde a perda de um único
pixel em uma imagem até uma decisão médica incorreta. Em alguns casos, uma peça que falta pode tornar todos os seus dados
inúteis. A integridade dos dados pode ser comprometida de várias maneiras diferentes. Há uma chance de os dados serem
comprometidos toda vez que são replicados, transferidos ou manipulados de alguma forma. A replicação de dados é o processo
de armazenamento de dados em vários locais. Se você estiver replicando dados em momentos diferentes e em lugares diferentes,
há uma chance de seus dados ficarem fora de sincronia. Esses dados carecem de integridade porque pessoas diferentes podem
não estar usando os mesmos dados para suas descobertas, o que pode causar inconsistências. Há também a questão da
transferência de dados, que é o processo de copiar dados de um dispositivo de armazenamento para a memória, ou de um
computador para o outro. Se a sua transferência de dados for interrompida, você pode acabar com um conjunto de dados incompleto,
o que pode não ser útil para suas necessidades. O processo de manipulação de dados envolve a alteração dos dados para
torná-los mais organizados e fáceis de ler. A manipulação de dados visa tornar o processo de análise de dados mais eficiente,
mas um erro durante o processo pode comprometer a eficiência. Por fim, os dados também podem ser comprometidos por erro
humano, vírus, malware, hackers e falhas do sistema, o que pode causar ainda mais dores de cabeça. Vou parar por aqui. São
notícias potencialmente ruins o suficiente para digerir. Vamos passar para algumas notícias potencialmente boas. Em muitas
empresas, o armazenamento de dados ou a equipe de engenharia de dados se encarrega de garantir a integridade dos dados. A
seguir, aprenderemos a verificar a integridade dos dados como analista de dados. Mas fique tranquilo, outra pessoa também irá lhe
ajudar bastante. Depois de descobrir com quais dados você está trabalhando, é importante verificar novamente se seus dados estão
completos e válidos antes da análise. Isso ajudará a garantir que sua análise e eventuais conclusões sejam precisas. A verificação da
integridade dos dados é uma etapa vital no processamento de seus dados para prepará-los para análise, seja você ou outra
pessoa de sua empresa que esteja fazendo isso. A seguir, você aprenderá ainda mais sobre integridade de dados. Vejo você em
breve.
Mais sobre integridade dos dados e conformidade
Esta leitura ilustra a importância da integridade dos dados usando um exemplo de dados de uma empresa global. As
definições dos termos relevantes para a integridade dos dados serão fornecidas no final.
Cenário: datas do calendário para uma empresa global
As datas do calendário são representadas em muitas formas curtas diferentes. Dependendo de onde você mora, um
formato diferente pode ser usado.
● Em alguns países, 12/10/20 (DD/MM/AA) significa 12 de outubro de 2020.
● Em outros países, o padrão nacional é YYYY-MM-DD, então 12 de outubro de 2020 se torna 2020-10-12.
● Nos Estados Unidos, (MM/DD/AA) é o formato aceito, então 12 de outubro de 2020 será 12/10/20.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Agora, pense no que aconteceria se você estivesse trabalhando como analista de dados para uma empresa global e não
verificasse os formatos de data. Bem, sua integridade de dados provavelmente seria questionável. Qualquer análise dos
dados seria imprecisa. Imagine encomendar estoque extra para dezembro, quando na verdade era necessário em outubro!
Uma boa análise depende da integridade dos dados, e a integridade dos dados geralmente depende do uso de um formato
comum. Portanto, é importante verificar novamente como as datas são formatadas para garantir que o que você acha que
é 10 de dezembro de 2020 não seja realmente 12 de outubro de 2020 e vice-versa.
Aqui estão algumas outras coisas a serem observadas:
● Replicação de dados comprometendo a integridade dos dados: Continuando com o exemplo, imagine que
você peça aos seus colegas internacionais para verificar as datas e manter um formato. Um analista copia um
grande conjunto de dados para verificar as datas. Mas por causa de problemas de memória, apenas parte do
conjunto de dados é realmente copiado. O analista estaria verificando e padronizando dados incompletos. Esse
conjunto de dados parcial seria certificado como compatível, mas o conjunto de dados completo ainda conteria
datas que não foram verificadas. Duas versões de um conjunto de dados podem apresentar resultados
inconsistentes. Uma auditoria final dos resultados seria essencial para revelar o que aconteceu e corrigir todas as
datas.
● Transferência de dados comprometendo a integridade dos dados: Outro analista verifica as datas em uma
planilha e opta por importar os dados validados e padronizados de volta para o banco de dados. Mas suponha
que o campo de data da planilha foi classificado incorretamente como um campo de texto durante o processo de
importação (transferência) de dados. Agora, algumas das datas no banco de dados são armazenadas como
sequências de texto. Neste ponto, os dados precisam ser limpos para restaurar sua integridade.
● Manipulação de dados comprometendo a integridade dos dados: Ao verificar as datas, outro analista percebe
o que parece ser um registro duplicado no banco de dados e o remove. Mas acontece que o analista removeu um
registro exclusivo da subsidiária de uma empresa e não um registro duplicado da empresa. Seu conjunto de
dados agora está com dados ausentes e os dados devem ser restaurados para que estejam completos.
Conclusão
Felizmente, com um formato de data padrão e conformidade de todas as pessoas e sistemas que trabalham com os dados,
a integridade dos dados pode ser mantida. Mas não importa de onde vêm seus dados, certifique-se sempre de verificar se
eles são válidos, completos e limpos antes de iniciar qualquer análise.
Referência: Restrições de dados e exemplos
Conforme você progride em sua jornada de dados, você encontrará muitos tipos de restrições de dados (ou critérios que
determinam a validade). A tabela abaixo oferece definições e exemplos de termos de restrição de dados que você pode
encontrar.
Restrição de dados Definição Exemplos
Tipo de dado
Os valores devem ser de um
determinado tipo: data, número,
porcentagem, booleano, etc.
Se o tipo de dados for uma data, um único número como 30
falharia na restrição e seria inválido.
Intervalo de dados Os valores devem estar entre osvalores máximo e mínimo predefinidos
Se o intervalo de dados for de 10 a 20, um valor de 30 falharia na
restrição e seria inválido.
Obrigatório Os valores não podem ser deixadosem branco ou vazios Se a idade for obrigatória, esse valor deve ser preenchido.
Único Os valores não podem ter umduplicado
Duas pessoas não podem ter o mesmo número de celular na
mesma área de serviço.
Padrões de expressão regular
(regex)
Os valores devem corresponder a um
padrão prescrito
Um número de telefone deve corresponder a ###-###-####
(nenhum outro caractereé permitido).
Validação de campo cruzado Certas condições para vários camposdevem ser atendidas
Os valores são porcentagens e os valores de vários campos devem
somar 100%.
Chave primária (Somente bancos de dados) o valordeve ser exclusivo por coluna
Uma tabela de banco de dados não pode ter duas linhas com o
mesmo valor de chave primária. Uma chave primária é um
identificador em um banco de dados que faz referência a uma
coluna na qual cada valor é exclusivo. Mais informações sobre
chaves primárias e estrangeiras são fornecidas posteriormente no
programa.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Conjunto de membros
(Somente bancos de dados) os valores
de uma coluna devem vir de um
conjunto de valores discretos
O valor de uma coluna deve ser definido como Sim, Não ou Não
aplicável.
Chave estrangeira
(Somente bancos de dados) os valores
de uma coluna devem ser valores
exclusivos provenientes de uma coluna
em outra tabela
Em um banco de dados de contribuintes dos EUA, a coluna Estado
deve ser um estado ou território válido com o conjunto de valores
aceitáveis definidos em uma tabela de estados separada.
Precisão
O grau em que os dados estão de
acordo com a entidade real que está
sendo medida ou descrita
Se os valores dos códigos postais forem validados pela localização
da rua, a precisão dos dados aumenta.
Integridade
O grau em que os dados contêm todos
os componentes ou medidas
desejados
Se os dados de perfis pessoais exigirem a cor do cabelo e dos
olhos, e ambos forem coletados, os dados estarão completos.
Consistência
O grau em que os dados são repetíveis
de diferentes pontos de entrada ou
coleta
Se um cliente tiver o mesmo endereço nos bancos de dados de
vendas e reparos, os dados serão consistentes.
VÍDEO - COMO EQUILIBRAR OS OBJETIVOS E A INTEGRIDADE DOS DADOS- Olá, é bom lembrar de verificar a integridade dos
dados. Também é importante verificar se os dados que você usa estão alinhados com o objetivo de negócios. Isso adiciona
outra camada à manutenção da integridade dos dados porque os dados que você está usando podem ter limitações com as quais você
precisará lidar. O processo de correspondência de dados com objetivos de negócios pode ser bastante simples. Aqui está um
exemplo rápido. Digamos que você seja um analista de uma empresa que produz e vende autopeças. Se você precisar responder a
uma pergunta sobre a receita gerada pela venda de uma determinada peça, você poderá obter a tabela de receita do conjunto de
dados. Se a pergunta for sobre avaliações de clientes, você abrirá a tabela de avaliações para analisar as classificações médias. Mas
antes de se aprofundar em qualquer análise, você precisa considerar algumas limitações que podem afetá-la. Se os dados não forem
limpos corretamente, você ainda não poderá usá-los. Você precisaria esperar até que uma limpeza completa seja feita. Agora,
digamos que você esteja tentando descobrir quanto um cliente médio gasta. Você percebe que os dados do mesmo cliente aparecem
em mais de uma linha. Isso é chamado de dados duplicados. Para corrigir isso, talvez seja necessário alterar o formato dos dados ou
talvez alterar a maneira de calcular a média. Caso contrário, parecerá que os dados são para duas pessoas diferentes e você ficará
preso a cálculos enganosos. Você também pode perceber que não há dados suficientes para concluir uma análise precisa. Talvez você
tenha apenas alguns meses de dados de vendas. Há uma pequena chance de você esperar por mais dados, mas é mais provável que
você precise alterar seu processo ou encontrar fontes alternativas de dados enquanto ainda cumpre seu objetivo. Eu gosto de pensar
em um conjunto de dados como uma imagem. Tire esta foto. O que estamos olhando? A menos que você seja um viajante experiente
ou conheça a área, pode ser difícil escolher apenas entre estas duas imagens. Visualmente, é muito claro quando não estamos vendo
a imagem inteira. Quando você tem uma visão completa, percebe... que está em Londres! Com dados incompletos, é difícil ver o
quadro completo para ter uma noção real do que está acontecendo. Às vezes, confiamos nos dados porque, se eles chegam até
nós em linhas e colunas, parece que tudo o que precisamos está lá se apenas consultarmos. Mas isso não é verdade. Me lembro de
uma vez em que descobri que não tinha dados suficientes e tive que encontrar uma solução. Eu estava trabalhando para uma empresa
de varejo online e me pediram para descobrir como reduzir o tempo de entrega da compra do cliente. Prazos de entrega mais rápidos
geralmente levam a clientes mais felizes. Quando verifiquei o conjunto de dados, encontrei informações de rastreamento muito
limitadas. Estávamos perdendo alguns detalhes importantes. Então, os engenheiros de dados e eu criamos novos processos para
rastrear informações adicionais, como o número de paradas em uma viagem. Usando esses dados, reduzimos o tempo entre a compra
e a entrega, e observamos uma melhora na satisfação do cliente. Isso foi ótimo! Aprender a lidar com problemas de dados
mantendo o foco em seu objetivo o ajudará a ter sucesso em sua carreira como analista de dados. E seu caminho para o
sucesso continua. Na próxima etapa, você aprenderá mais sobre como alinhar dados a objetivos. Continue assim!
Dados e objetivos bem alinhados
Você pode obter insights poderosos e tirar conclusões precisas quando os dados estão bem alinhados aos objetivos de
negócios. Como analista de dados, o alinhamento é algo que você precisará julgar. Um bom alinhamento significa que os
dados são relevantes e podem ajudá-lo a resolver um problema de negócios ou determinar um curso de ação para atingir
um determinado objetivo de negócios. Nesta leitura, você revisará os objetivos de negócios associados a três cenários.
Você explorará como dados limpos e objetivos de negócios bem alinhados podem ajudá-lo a chegar a conclusões
precisas. Além disso, você aprenderá como novas variáveis descobertas durante a análise de dados podem fazer com que
você configure restrições de dados para manter os dados alinhados a um objetivo de negócios.
Dados limpos + alinhamento ao objetivo de negócios = conclusões precisas
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Objetivo de negócios
Os gerentes de contas do Impress Me, um serviço de assinatura de conteúdo online, querem saber quando os usuários
visualizam o conteúdo depois que suas assinaturas são ativadas. Para começar, o analista de dados verifica se os dados
exportados para planilhas estão limpos e confirma se os dados necessários (quando os usuários acessam o conteúdo)
estão disponíveis. Sabendo disso, o analista decide que há um bom alinhamento dos dados com o objetivo do negócio.
Tudo o que falta é descobrir exatamente quanto tempo cada usuário leva para visualizar o conteúdo após a ativação da
assinatura. Aqui estão as etapas de processamento de dados que o analista executa para um usuário de uma conta
chamada V&L Consulting. (Essas etapas seriam repetidas para cada conta assinante e para cada usuário associado a
essa conta.)
Etapa 1
Etapa de processamento de dados Fonte de dados
Procure a data de ativação da V&L
Consulting
Planilha da conta
Dados relevantes na planilha:
Resultado: 21 de outubro de 2019
Etapa 2
Etapa de processamento de dados Fonte de dados
Procure o nome de um usuário
pertencente à conta da V&L Consulting
Planilha da conta (guia de
usuários)
Dados relevantes na planilha:
Resultado: Maria Ballantyne
Etapa 3
Etapa de processamento de dados Fonte de dados
Encontre a primeira data de acesso ao
conteúdo de Maria B.
Planilha de uso de
conteúdo
Dados relevantes na planilha:
Resultado: 31 de outubro de 2019
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Etapa 4
Etapa de processamento de dados Fonte de dados
Calcule o tempo entre a ativação e o
primeiro uso de conteúdo para Maria B. Cálculo da nova planilha
Dados relevantes na planilha:
Resultado: 10 dias
Dica profissional 1
No processo acima, o analista pode usar VLOOKUP para pesquisar os dados nas Etapas 1, 2 e 3 para preencher osvalores na planilha na Etapa 4. VLOOKUP é uma função de planilha que procura um determinado valor em uma coluna
para retornar uma informação relacionada. Usar VLOOKUP pode economizar muito tempo; sem ele, você precisa procurar
datas e nomes manualmente. Consulte a página VLOOKUP na Central de Ajuda do Google para saber como usar a função
no Planilhas Google.
Dica profissional 2
Na Etapa 4 do processo acima, o analista pode usar a função DATEDIF para calcular automaticamente a diferença entre
as datas na coluna C e na coluna D. A função pode calcular o número de dias entre duas datas. Consulte a página do
Microsoft Support DATEDIF para saber como usar a função no Excel. A função DAYS360 faz a mesma coisa em planilhas
contábeis que usam um ano de 360 dias (doze meses de 30 dias). Consulte a página DATEDIF na Central de Ajuda do
Google para saber como usar a função no Planilhas Google.
Alinhamento ao objetivo de negócios + limpeza de dados adicional = conclusões precisas
Objetivo de negócios
A Cloud Gate, uma empresa de software, organizou recentemente uma série de webinars públicos como apresentações
gratuitas de produtos. O analista de dados e o gerente de programa de webinar desejam identificar empresas que tiveram
cinco ou mais pessoas participando dessas sessões. Eles querem dar essa lista de empresas aos gerentes de vendas que
podem acompanhar as vendas em potencial.
Os dados de participação no webinar incluem os campos e dados mostrados abaixo.
Nome <Nome> <Sobrenome> Esta era a informação necessária que os participantestinham que enviar
Endereços de e-mail xxxxx@company.com Esta era a informação necessária que os participantestinham que enviar
Empresa <Nome da empresa> Esta era uma informação opcional que os participantespoderiam fornecer
Limpeza de dados
Os dados de participação no webinar parecem estar alinhados com o objetivo de negócios. Mas o analista de dados e o
gerente de programa decidem que alguma limpeza de dados é necessária antes da análise. Eles acham que a limpeza de
dados é necessária porque:
● O nome da empresa não era um campo obrigatório. Se o nome da empresa estiver em branco, pode ser
encontrado no endereço de e-mail. Por exemplo, se o endereço de e-mail for username@google.com, o campo da
empresa pode ser preenchido com o Google para a análise dos dados. Essa etapa de limpeza de dados
pressupõe que as pessoas com endereços de e-mail atribuídos à empresa participaram de um webinar para fins
comerciais.
● Os participantes podiam digitar qualquer nome. Como a participação em uma série de webinars está sendo
analisada, eles precisam validar nomes em relação a endereços de e-mail exclusivos. Por exemplo, se Joe Cox
participasse de dois webinars, mas assinasse como Joe Cox para um e Joseph Cox para o outro, ele seria
contado como duas pessoas diferentes. Para evitar isso, eles precisam verificar o endereço de e-mail exclusivo
https://support.microsoft.com/en-us/office/vlookup-function-0bbc8083-26fe-4963-8ab8-93a18ad188a1
https://support.google.com/docs/answer/3093318?hl=en
https://support.microsoft.com/en-us/office/datedif-function-25dba1a4-2812-480b-84dd-8b32a451b35c
https://support.microsoft.com/en-us/office/days360-function-b9a509fd-49ef-407e-94df-0cbda5718c2a
https://support.google.com/docs/answer/6055612?hl=en
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
dele para determinar que ele era a mesma pessoa. Após a validação, Joseph Cox pode ser alterado para Joe Cox
para corresponder à outra instância.
Alinhamento ao objetivo de negócios + variáveis recém-descobertas + restrições = conclusões precisas
Objetivo de negócios
Uma empresa de tutoria extra curricular, A+ Education, quer saber se há um número mínimo de horas de tutoria
necessárias antes que os alunos tenham pelo menos 10% de melhoria em suas notas de avaliação. O analista de dados
acredita que há um bom alinhamento entre os dados disponíveis e o objetivo dos negócios porque:
● Os alunos entram e saem de um sistema para cada sessão de tutoria e o número de horas é rastreado
● As pontuações da avaliação são registradas regularmente
Restrições de dados para novas variáveis
Depois de analisar os dados, o analista de dados descobre que existem outras variáveis a serem consideradas. Alguns
alunos tiveram sessões semanais consistentes, enquanto outros alunos agendaram sessões de forma mais aleatória,
embora o número total de horas de tutoria fosse o mesmo. Os dados não se alinham tão bem com o objetivo de negócios
original como se pensava inicialmente, então o analista adiciona uma restrição de dados para se concentrar apenas nos
alunos com sessões semanais consistentes. Essa modificação ajuda a obter uma imagem mais precisa sobre o tempo de
inscrição necessário para obter uma melhoria de 10% nas pontuações da avaliação.
Principais conclusões
Esperamos que esses exemplos lhe deem uma noção do que procurar para saber se seus dados estão alinhados com seu
objetivo de negócios.
● Quando há dados limpos e um bom alinhamento, você pode obter insights precisos e tirar conclusões que os
dados suportam.
● Se houver um bom alinhamento, mas os dados precisarem ser limpos, limpe os dados antes de realizar sua
análise.
● Se os dados estiverem apenas parcialmente alinhados com um objetivo, pense em como você pode modificar o
objetivo ou use restrições de dados para garantir que o subconjunto de dados se alinhe melhor ao objetivo de
negócios.
Teste seu conhecimento sobre a integridade dos dados e objetivos analíticos
Pergunta 1 - Quais dos seguintes princípios são os principais elementos da integridade dos dados? Selecione
todas as opções válidas.
Precisão
Confiabilidade
Seletividade
Consistência
Correto - A integridade dos dados é a precisão, integridade, consistência e confiabilidade dos dados ao longo de seu ciclo de vida.
Pergunta 2 - Qual processo os analistas de dados usam para tornar os dados mais organizados e fáceis de ler?
Replicação de dados
Uniformidade de dados
Manipulação de dados
Transferência de dados
Correto - Para tornar os dados mais organizados e fáceis de ler, os analistas de dados usam a manipulação de dados.
Pergunta 3 - Antes da análise, uma empresa coleta dados de países que usam diferentes formatos de data. Qual
das seguintes atualizações melhoraria a integridade dos dados?
Remover dados em um formato de data desconhecido
Alterar todas as datas para o mesmo formato
Deixe as datas em seus formatos atuais
Organizar os dados por país
Correto - Alterar todas as datas para o mesmo formato melhoraria a integridade dos dados.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
1.3 - COMO SUPERAR O DESAFIO DA INSUFICIÊNCIA DE DADOS
VÍDEO - COMO LIDAR COM A INSUFICIÊNCIA DE DADOS - Todo analista já esteve em uma situação em que não há dados
suficientes para ajudar em seu objetivo de negócios. Considerando a quantidade de dados gerados todos os dias, pode ser difícil de
acreditar, mas é verdade. Então, vamos abordar o que você pode fazer quando tiver dados insuficientes. Abordaremos como definir
limites para o escopo de sua análise e quais dados você deve incluir. A certo momento, eu era analista de dados em um centro de
suporte. Todos os dias, recebíamos perguntas de clientes, que eram registradas como tickets de suporte. Pediram-me para prever o
número de tickets de suporte recebidos por mês para descobrir quantas pessoas adicionais precisávamos contratar. Era muito
importante que tivéssemos dados suficientes de pelo menos alguns anos atrás, porque eu teria que levar em conta as mudanças
anuais e periódicas. Se eu tivesse apenas os dados do ano atual disponíveis, não saberia que um pico em janeiro é comum e tem a
ver com pessoas pedindo reembolsos após os feriados. Como eu tinha dados suficientes, pude sugerir que contratássemos mais
pessoas em janeiro para nos prepararmos. Os desafios certamente surgirão, mas a boa notícia é que, assim que conhecer seu objetivo
de negócios, conseguirá reconhecer se possui dados suficientes. E se não o fizer, poderá passar por isso antes de iniciar sua análise.Agora, vamos verificar algumas dessas limitações que você possa encontrar e como lidar com diferentes tipos de dados
insuficientes. Digamos que você esteja trabalhando no setor de turismo e precise descobrir quais planos de viagem são pesquisados
 com mais frequência. Se você usar apenas dados de um site de reservas, estará se limitando a dados de apenas uma fonte. Outros
sites de reservas podem mostrar tendências diferentes que você gostaria de considerar para sua análise. Se uma limitação como essa
afetar sua análise, você pode parar e voltar as suas partes interessadas para elaborar um plano. Se seu conjunto de dados continuar
atualizando, isso significa que os dados ainda estão sendo recebidos e podem não estar completos. Portanto, se houver uma
atração turística totalmente nova para a qual esteja analisando o interesse e a participação, provavelmente não há dados suficientes
para determinar as tendências. Por exemplo, você pode esperar um mês para coletar dados. Ou você pode entrar em contato com as
partes interessadas e perguntar sobre como ajustar o objetivo. Por exemplo, você pode analisar tendências semanalmente em vez de
mensalmente. Você também pode basear sua análise nas tendências dos últimos três meses e dizer “Eis como pode ser a participação
à atração no quarto mês”. Você pode não ter dados suficientes para saber se esse número é muito baixo ou alto. Mas você diria às
partes interessadas que é sua melhor estimativa com base nos dados que você possui atualmente. Por outro lado, seus dados podem
ser mais antigos e não serem mais relevantes. Dados desatualizados sobre a satisfação do cliente não incluirão as respostas mais
recentes. Portanto, você dependerá das classificações de hotéis ou aluguéis de temporada que podem não ser mais precisas. Nesse
caso, sua melhor aposta pode ser encontrar um novo conjunto de dados para trabalhar. Dados que são geograficamente limitados
também podem não ser confiáveis. Se sua empresa for global, você não gostaria de usar dados limitados a viagens em apenas um
país. Você preferiria um conjunto de dados que incluísse todos os países. Então, essas são apenas algumas das limitações mais
comuns que você encontrará e algumas maneiras de resolvê-las. Você pode identificar tendências com os dados disponíveis ou
aguardar mais dados se o tempo permitir, você pode conversar com as partes interessadas e ajustar seu objetivo ou procurar
um novo conjunto de dados. A necessidade de tomar essas medidas dependerá de sua função em sua empresa e, possivelmente,
das necessidades do setor em geral. Mas aprender a lidar com dados insuficientes é sempre uma ótima maneira de se preparar para o
sucesso. Seus poderes de analista de dados estão se fortalecendo. E bem na hora. Depois de aprender mais sobre limitações e
soluções, você aprenderá sobre poder estatístico, outra ferramenta fantástica para você usar. Vejo você em breve.
O que fazer ao encontrar um problema com os dados
Quando você está se preparando para a análise de dados, pode perceber que não tem os dados de que precisa ou não
tem o suficiente. Em alguns casos, você pode usar o que é conhecido como dados de proxy no lugar dos dados reais.
Pense nisso como substituir óleo por manteiga em uma receita quando você não tem manteiga. Em outros casos, não há
substituto razoável e sua única opção é coletar mais dados.
Considere os seguintes problemas de dados e sugestões sobre como contorná-los.
Problema de dados 1: falta de dados
Soluções possíveis Exemplos de soluções na vida real
Colete os dados em pequena escala para realizar uma
análise preliminar e, em seguida, solicite mais tempo
para concluir a análise depois de coletar mais dados.
Se você estiver pesquisando funcionários sobre o que eles pensam sobre um
novo plano de desempenho e bônus, use uma amostra para uma análise
preliminar. Em seguida, peça mais 3 semanas para coletar os dados de todos os
funcionários.
Se não houver tempo para coletar dados, realize a
análise usando dados de proxy de outros conjuntos de
dados. Esta é a solução mais comum.
Se você estiver analisando os horários de pico de viagens para usuários de
transporte público, mas não tiver os dados de uma cidade específica, use os
dados de outra cidade com tamanho e demografia semelhantes.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Problema de dados 2: muito poucos dados
Soluções possíveis Exemplos de soluções na vida real
Faça a análise usando dados de proxy
junto com dados reais.
Se você estiver analisando tendências para donos de golden retrievers, aumente seu conjunto
de dados incluindo os dados de donos de labradores.
Ajuste sua análise para alinhar com os
dados que você já possui.
Se faltarem dados para jovens de 18 a 24 anos, faça a análise, mas observe a seguinte
limitação em seu relatório: esta conclusão se aplica apenas a adultos com 25 anos ou mais.
Problema de dados 3: dados errados, incluindo dados com erros*
Soluções possíveis Exemplos de soluções na vida real
Se você tiver os dados errados porque os requisitos foram mal
compreendidos, comunique os requisitos novamente.
Se você precisa dos dados de eleitores do sexo feminino e recebeu
os dados de eleitores do sexo masculino, reafirme suas
necessidades.
Identifique erros nos dados e, se possível, corrija-os na origem,
procurando um padrão nos erros.
Se seus dados estiverem em uma planilha e houver uma
declaração condicional ou booleana fazendo com que os cálculos
estejam errados, altere a declaração condicional em vez de apenas
corrigir os valores calculados.
Se você não puder corrigir os erros de dados sozinho, poderá ignorar
os dados errados e prosseguir com a análise se o tamanho da
amostra ainda for grande o suficiente e ignorar os dados não causará
viés sistemático.
Se seu conjunto de dados foi traduzido de um idioma diferente e
algumas das traduções não fazem sentido, ignore os dados com
tradução ruim e prossiga com a análise dos outros dados.
** Observação importante: às vezes, dados com erros podem ser um sinal de alerta de que os dados não são confiáveis.
Use seu melhor julgamento.
Use a seguinte árvore de decisão como um lembrete sobre como lidar com erros de dados ou dados insuficientes:
VÍDEO - A IMPORTÂNCIA DO TAMANHO DA AMOSTRA - Certo, anteriormente falamos sobre ter o tipo certo de dados para atender
seu objetivo de negócios e a importância de ter a quantidade certa de dados para garantir que sua análise seja a mais precisa
possível. Você deve se lembrar que, para analistas de dados, uma população são todos os valores de dados possíveis em um
determinado conjunto de dados. Se você puder usar 100% de uma população em sua análise, será ótimo. Mas às vezes coletar
informações sobre uma população inteira simplesmente não é possível. Demanda muito tempo ou é caro. Por exemplo, digamos que
uma organização global queira saber mais sobre donos de animais de estimação que têm gatos. Você tem a tarefa de descobrir quais
tipos de brinquedos os donos de gatos no Canadá preferem. Mas há milhões de donos de gatos no Canadá, então obter dados de
todos eles seria um grande desafio. Sem problemas! Permita-me apresentar-lhe o tamanho da amostra! Ao usar o tamanho da
amostra ou uma amostra, você usa uma parte de uma população que é representativa da população. O objetivo é obter
informações suficientes de um pequeno grupo dentro de uma população para fazer previsões ou conclusões sobre toda a população. O
tamanho da amostra ajuda a garantir o grau em que você pode ter certeza de que suas conclusões representam com precisão
a população. Para os dados sobre donos de gatos, um tamanho da amostra pode conter dados sobre centenas ou milhares de
pessoas em vez de milhões. Usar uma amostra para análise é mais econômico e leva menos tempo. Se feito com cuidado e
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
ponderação, você pode conseguir os mesmos resultados usando um tamanho da amostra em vez de tentar procurar todos os donos de
gatos para descobrir os brinquedos favoritos para gatos. No entanto, há uma desvantagempotencial. Quando você usa apenas uma
pequena amostra de uma população, isso pode levar à incerteza. Você não pode ter 100% de certeza de que suas estatísticas são
uma representação completa e precisa da população. Isso leva a um viés de amostragem, que abordamos anteriormente no
programa. O viés de amostragem ocorre quando uma amostra não é representativa da população como um todo. Isso significa
que alguns membros da população estão sendo super-representados ou sub-representados. Por exemplo, se a pesquisa usada
para coletar dados de donos de gatos incluísse apenas pessoas com smartphones, os donos de gatos que não possuem um
smartphone não seriam representados nos dados. O uso de amostragem aleatória pode ajudar a resolver alguns desses problemas
com viés de amostragem. A amostragem aleatória é uma maneira de selecionar uma amostra de uma população de modo que
todos os tipos possíveis de amostra tenham a mesma chance de serem escolhidos. Voltando novamente aos nossos donos de
gatos, usar uma amostra aleatória dos donos de gatos significa que donos de gatos de todos os tipos têm a mesma chance de serem
escolhidos. Os donos de gatos que moram em apartamentos em Ontário teriam a mesma chance de serem representados como
aqueles que moram em casas em Alberta. Como analista de dados, você descobrirá que a criação de tamanhos da amostra geralmente
ocorre antes mesmo de você acessar os dados. Mas ainda é bom você saber que os dados que você vai analisar são representativos
da população e funcionam com o seu objetivo. Também é bom saber o que está por vir em sua jornada de dados. No próximo vídeo,
você terá a opção de ficar ainda mais confortável com os tamanhos das amostras. Vejo você lá.
Como calcular o tamanho da amostra
Antes de se aprofundar no tamanho da amostra, familiarize-se com estes termos e definições:
Terminologia Definições
População Todo o grupo em que você está interessado para o seu estudo. Por exemplo, se você estiverpesquisando pessoas em sua empresa, a população seria todos os funcionários de sua empresa.
Amostra
Um subconjunto de sua população. Assim como uma amostra de comida, é chamada de amostra
porque é apenas um gosto. Portanto, se sua empresa for grande demais para pesquisar todos os
indivíduos, você poderá pesquisar uma amostra representativa de sua população.
Margem de erro
Como uma amostra é usada para representar uma população, é esperado que os resultados da
amostra sejam diferentes do que teria sido se você tivesse pesquisado toda a população. Essa
diferença é chamada de margem de erro. Quanto menor a margem de erro, mais próximos os
resultados da amostra estarão do resultado se você tivesse pesquisado toda a população.
Nível de confiança
Quão confiante você se sente nos resultados da pesquisa. Por exemplo, um nível de confiança de
95% significa que se você executar a mesma pesquisa 100 vezes, obterá resultados semelhantes
95 dessas 100 vezes. O nível de confiança é direcionado antes de você iniciar seu estudo porque
afetará o tamanho da sua margem de erro no final do seu estudo.
Intervalo de confiança O intervalo de valores possíveis que o resultado da população estaria no nível de confiança doestudo. Este intervalo é o resultado da amostra +/- a margem de erro.
Significância estatística A determinação de se o seu resultado pode ser devido ao acaso ou não. Quanto maior osignificado, menos devido ao acaso.
Coisas para lembrar ao determinar o tamanho da sua amostra
Ao descobrir um tamanho da amostra, aqui estão algumas coisas a serem lembradas:
● Não use um tamanho da amostra menor que 30. Está estatisticamente comprovado que 30 é o menor tamanho
da amostra onde um resultado médio de uma amostra passa a representar o resultado médio de uma população.
● O nível de confiança mais usado é 95%, mas 90% pode funcionar em alguns casos.
Aumente o tamanho da amostra para atender às necessidades específicas do seu projeto:
● Para um nível de confiança mais alto, use um tamanho da amostra maior
● Para diminuir a margem de erro, use um tamanho da amostra maior
● Para maior significância estatística, use um tamanho da amostra maior
Observação: As calculadoras de tamanho da amostra usam fórmulas estatísticas para determinar um tamanho da
amostra. Mais informações sobre isso surgirão no decorrer do curso! Então, prepare-se.
Por que uma amostra mínima de 30?
Esta recomendação é baseada no Teorema do Limite Central (CLT) no campo da probabilidade e estatística. Conforme o
tamanho da amostra aumenta, os resultados se assemelham mais à distribuição normal (em forma de sino) de um grande
número de amostras. Uma amostra de 30 é o menor tamanho da amostra para o qual o CLT ainda é válido. Pesquisadores
que confiam na análise de regressão – métodos estatísticos para determinar as relações entre variáveis controladas e
dependentes – também preferem uma amostra mínima de 30.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Ainda curioso? Sem entrar muito em matemática, confira estes artigos:
● Teorema do Limite Central (CLT) Este artigo da Investopedia explica o Teorema do Limite Central e descreve
brevemente como ele pode ser aplicado a uma análise de um índice de ações.
● Fórmula do tamanho da amostra: Este artigo da Statistics Solutions fornece um pouco mais de detalhes sobre por
que alguns pesquisadores usam 30 como tamanho da amostra mínimo.
Os tamanhos das amostras variam de acordo com o problema de negócios
O tamanho da amostra varia de acordo com o tipo de problema de negócios que você está tentando resolver. Por exemplo,
se você mora em uma cidade com uma população de 200 mil habitantes e recebe 180 mil pessoas para responder a uma
pesquisa, essa é uma amostra grande. Mas sem realmente fazer isso, como seria um tamanho da amostra aceitável e
menor?
Os 200 habitantes seria bom se as pessoas pesquisadas representassem todos os distritos da cidade?
Resposta: Depende do que está em jogo.
● Um tamanho da amostra de 200 pode ser grande o suficiente se o seu problema de negócios for descobrir como
os moradores se sentiram em relação à nova biblioteca
● Um tamanho da amostra de 200 pode não ser grande o suficiente se o seu problema comercial for determinar
como os moradores votariam para financiar a biblioteca
Você provavelmente poderia aceitar uma margem de erro maior pesquisando como os moradores se sentem sobre a nova
biblioteca versus pesquisando os moradores sobre como eles votariam para financiá-la. Por esse motivo, você
provavelmente usaria um tamanho de amostra maior para a pesquisa de eleitores.
Tamanhos de amostra maiores têm um custo mais alto
Você também deve pesar o custo em relação aos benefícios de resultados mais precisos com um tamanho da amostra
maior. Alguém que está tentando entender as preferências do consumidor por uma nova linha de produtos não precisaria
de um tamanho de amostra tão grande quanto alguém que está tentando entender os efeitos de um novo medicamento.
Para a segurança dos medicamentos, os benefícios superam o custo de usar um tamanho de amostra maior. Mas para as
preferências do consumidor, um tamanho de amostra menor a um custo menor pode fornecer resultados bons o suficiente.
Conhecer o básico é útil
Conhecer o básico ajudará você a fazer as escolhas certas quando se trata do tamanho da amostra. Você sempre pode
apresentar preocupações se encontrar um tamanho de amostra muito pequeno. Uma calculadora de tamanho da amostra
também é uma ótima ferramenta para isso. As calculadoras de tamanho da amostra permitem que você insira um nível de
confiança e margem de erro desejados para um determinado tamanho de população. Eles então calculam o tamanho da
amostra necessário para alcançar estatisticamente esses resultados. Consulte o vídeo Determine o melhor tamanho da
amostra para obter uma demonstração de uma calculadora de tamanho da amostra ou consulte a leitura da Calculadora de
Tamanho da Amostra para obter informações adicionais.
Autorreflexão: Por que as atividades de preparo para a limpeza são importantes
Visão geral
Agora que vocêaprendeu sobre como se preparar para a limpeza de dados, poderá fazer uma pausa, por enquanto, para
refletir sobre essas etapas. Nesta autorreflexão, você considerará seus pensamentos sobre a importância das atividades
de pré-limpeza e responderá a perguntas breves. Essa autorreflexão o ajudará a desenvolver percepções sobre seu
próprio aprendizado e irá prepará-lo para aplicar seu conhecimento de atividades de pré-limpeza e dados insuficientes ao
seu próprio trabalho de limpeza de dados. Ao responder a perguntas (e fazer suas próprias perguntas), você considerará
conceitos, práticas e princípios úteis para refinar sua compreensão e reforçar seu aprendizado. Você trabalhou duro, então
não deixe de aproveitar isso ao máximo: essa reflexão ajudará a fixar o seu conhecimento!
Revise a integridade dos dados
https://www.statisticssolutions.com/dissertation-resources/sample-size-calculation-and-sample-size-justification/sample-size-formula/
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/lecture/mSj5A/como-determinar-o-melhor-tamanho-da-amostra
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/lecture/mSj5A/como-determinar-o-melhor-tamanho-da-amostra
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/supplement/ZqcDw/calculadora-de-tamanho-da-amostra
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/supplement/ZqcDw/calculadora-de-tamanho-da-amostra
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Antes que os analistas de dados possam analisar dados, primeiro precisam pensar e entender os dados com os quais
estão trabalhando. A avaliação da integridade dos dados é uma etapa fundamental nesse processo. Como você
aprendeu nas lições anteriores, você deve concluir as seguintes tarefas antes de analisar os dados:
1. Determine a integridade dos dados avaliando a precisão geral, consistência e integridade dos dados.
2. Conecte objetivos a dados entendendo como seus objetivos de negócios podem ser atendidos por uma investigação
dos dados.
3. Saiba quando parar de coletar dados.
Os analistas de dados realizam atividades de pré-limpeza para concluir essas etapas. As atividades de pré-limpeza
ajudam a determinar e manter a integridade dos dados, o que é essencial para a função de um analista de dados júnior.
O que torna os dados insuficientes
Um dos objetivos das atividades de pré-limpeza é lidar com dados insuficientes. Lembre-se de lições anteriores em que os
dados podem ser insuficientes por várias razões. Dados insuficientes têm um ou mais dos seguintes problemas:
● Vêm apenas de uma fonte
● Atualizam continuamente e estão incompletos
● Estão desatualizados
● Estão geograficamente limitados
Para lidar com dados insuficientes, você pode:
● Identificar tendências nos dados disponíveis
● Esperar por mais dados se o tempo permitir
● Discutir com as partes interessadas e ajustar seu objetivo
● Pesquisar um novo conjunto de dados
Reflexão
Considere o que você aprendeu sobre insufiCiência de Dados e as etapas para evitá-la:
Por que é importante concluir as etapas de pré-limpeza antes da limpeza de dados?
Concluir as etapas de pré-limpeza antes da limpeza de dados é importante porque ajuda a identificar e corrigir erros, valores
ausentes e inconsistências nos dados. Isso garante que os dados estejam corretos, coerentes e prontos para análise. A
pré-limpeza também ajuda a evitar resultados imprecisos e decisões erradas registradas em dados incorretos ou incompletos.
Que problemas podem ocorrer se você não seguir essas etapas?
Sem etapas de pré-limpeza, os erros incluem análises imprecisas, viés nos resultados, decisões tomadas, perda de confiança
nos dados e ineficiência na análise. É fundamental realizar a pré-limpeza para garantir dados aguardados e resultados
precisos.
Agora, responda cada uma dessas perguntas com duas ou três frases (40 a 60 palavras).
Teste seu conhecimento sobre insufiCiência de Dados
Pergunta 1 - O que um analista deve fazer se não tiver os dados necessários para atender a um objetivo de
negócios? Selecione todas as opções válidas.
Criar e usar dados hipotéticos alinhados às previsões de análise.
Realizar a análise localizando e usando dados de proxy de outros conjuntos de dados.
Coletar dados relacionados em pequena escala e solicitar mais tempo para encontrar dados mais
completos.
Continuar com a análise usando dados de fontes menos confiáveis.
Correto - Se um analista não tiver os dados necessários para atender a um objetivo de negócios, ele deverá coletar dados relacionados em
pequena escala e solicitar mais tempo. Em seguida, ele pode encontrar dados mais completos ou realizar a análise localizando e usando
dados de proxy de outros conjuntos de dados.
Pergunta 2 - Quais das seguintes alternativas são limitações que podem levar a dados insuficientes? Selecione
todas as opções válidas.
Dados que são atualizados continuamente
Dados desatualizados
Dados de uma única fonte
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Dados duplicados
Correto - As limitações que podem levar a dados insuficientes incluem dados que são atualizados continuamente, dados desatualizados e
dados de uma única fonte.
Pergunta 3 - Um analista de dados quer descobrir quantas pessoas em Utah têm piscinas. É improvável que ele
possa pesquisar todos os residentes de Utah. Em vez disso, ele pesquisa pessoas suficientes para serem
representativas da população. Isso descreve qual conceito de análise de dados?
Significado estatístico
Margem de erro
Amostra
Nível de confiança
Correto - Isso descreve uma amostra, que é uma parte de uma população que é representativa do todo.
1.4 - TESTAGEM DE DADOS
VÍDEO - COMO USAR A POTÊNCIA ESTATÍSTICA - Olá. Todos nós provavelmente já sonhamos em ter um superpoder pelo menos
uma vez na vida. Eu sei que sim. Eu adoraria poder voar. Mas há outro superpoder do qual você pode não ter ouvido falar: o poder
estatístico. O poder estatístico é a probabilidade de obter resultados significativos de um teste. Suponho que este é um
superpoder com o qual nenhum de vocês tenha sonhado. Ainda assim, é um superpoder de dados muito bom. Para analistas de dados,
seus projetos podem começar com o teste ou estudo. O teste de hipóteses é uma maneira de ver se uma pesquisa ou experimento
tem resultados significativos. Aqui está um exemplo. Digamos que você trabalhe para uma rede de restaurantes que está planejando
uma campanha de marketing para os novos milkshakes. Você precisa testar o anúncio em um grupo de clientes antes de transformá-lo
em uma campanha publicitária nacional. No teste, você deseja verificar se os clientes gostam ou não da campanha. Você também quer
descartar quaisquer fatores fora do anúncio que possam levá-los a dizer que não gostam. Usar todos os seus clientes levaria muito
tempo e seria caro. Portanto, você precisará descobrir quantos clientes precisará para mostrar que o anúncio é eficaz. Provavelmente
cinquenta clientes não seriam o suficiente. Mesmo se você escolher aleatoriamente 50 clientes, pode acabar com clientes que não
gostam de milk shakes. E se isso acontecer, você não poderá medir a eficácia do seu anúncio em obter mais pedidos de milkshake,
pois ninguém no tamanho da amostra os pediria. É por isso que você precisa de um tamanho de amostra maior: para ter certeza de
obter um bom número de todos os tipos de pessoas para o seu teste. Normalmente, quanto maior o tamanho da amostra, maior a
chance de você obter resultados estatisticamente significativos com seu teste. E isso é o poder estatístico. Nesse caso, usar o
maior número possível de clientes mostrará as diferenças reais entre os grupos que gostam ou não do anúncio contra as pessoas cuja
decisão não foi baseada no anúncio. Existem maneiras de calcular com precisão o poder estatístico, mas não vamos abordá-las aqui.
Talvez seja necessário calculá-lo por conta própria como analista de dados. Por enquanto, você deve saber que o poder estatístico
geralmente é mostrado como um valor de um. Então, se seu poder estatístico for 0,6, é a mesma coisa quedizer 60%. No teste de
anúncio de milk shake, se você encontrou um poder estatístico de 60%, isso significa que há 60% de chance de você obter um
resultado estatisticamente significativo na eficácia do anúncio. O termo “estatisticamente significativo” é usado em estatísticas. Se
você quiser saber mais sobre o significado técnico, você pode pesquisar online. Mas, em termos básicos, se um teste é
estatisticamente significativo, significa que os resultados do teste são reais e não um erro causado por acaso. Portanto, há
60% de chance de que os resultados do teste de anúncio de milkshake sejam confiáveis e reais e 40% de chance de que o resultado
do teste esteja errado. Normalmente, você precisa de um poder estatístico de pelo menos 0,8 ou 80% para considerar seus
resultados estatisticamente significativos. Vejamos mais um cenário. Vamos manter o exemplo com milk shakes, pois bem, eu
gosto de milk shakes. Imagine que você trabalha para uma rede de restaurantes que quer lançar um milk shake com sabor de bolo de
aniversário completamente novo. Este milkshake será mais caro para produzir do que seus outros milkshakes. Sua empresa espera
que a agitação em torno do novo sabor traga mais clientes e dinheiro para compensar esse custo. Eles querem testar isso em alguns
restaurantes primeiro. Então, vamos descobrir quantos locais você precisaria usar para ter confiança em seus resultados. Primeiro,
você teria que pensar sobre o que poderia impedi-lo de obter resultados estatisticamente significativos. Existem restaurantes com
outras promoções que possam atrair novos clientes? Alguns restaurantes têm clientes que sempre compram o produto recém lançado,
não importa qual seja? Algum local tem obras que começaram recentemente, que impediriam os clientes de irem até o restaurante?
Para obter um poder estatístico mais alto, você deve considerar todos esses fatores antes de decidir quantos locais incluir no tamanho
da amostra para o seu estudo. Você quer ter certeza de que qualquer efeito é provavelmente devido ao novo sabor do milk shake, não
a outro fator. Os efeitos mensuráveis seriam um aumento nas vendas ou no número de clientes nos locais do tamanho da amostra. Por
enquanto é isso. A seguir, exploraremos os tamanhos das amostras com mais detalhes, para que você possa ter uma ideia melhor de
como eles afetam seus testes e estudos. Enquanto isso, você conheceu um pouco mais sobre milkshakes e superpoderes. E, claro, o
poder estatístico. Infelizmente, apenas o poder estatístico pode ser realmente útil para analistas de dados, embora colocar minha capa
e voar para pegar um milkshake agora mesmo seja uma ótima ideia.
Uma introdução tranquila ao poder estatístico e a análise de poder em Python resume bem:
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
"O poder estatístico pode ser calculado e relatado para um experimento completo para comentar sobre a confiança que se pode ter nas
conclusões extraídas dos resultados do estudo. Também pode ser usado como uma ferramenta para estimar o número de observações
ou o tamanho da amostra necessários para detectar um efeito em um experimento."
O que fazer quando não há dados
Anteriormente, você aprendeu como ainda pode fazer uma análise usando dados de proxy se não tiver dados. Você pode
ter algumas dúvidas sobre dados de proxy, portanto, esta leitura fornecerá mais alguns exemplos dos tipos de conjuntos de
dados que podem servir como fontes de dados alternativas.
Exemplos de dados de proxy
Às vezes, os dados para apoiar um objetivo de negócios não estão prontamente disponíveis. É quando os dados de proxy
são úteis. Dê uma olhada nos seguintes cenários e onde os dados de proxy entram para cada exemplo:
Cenário de negócios Como os dados de proxy podem ser usados
Um novo modelo de carro foi lançado há alguns dias e a concessionária
mal pode esperar até o final do mês para que os dados de vendas
cheguem. Eles querem projeções de vendas agora.
O analista aproxima o número de cliques nas especificações do
carro no site da concessionária como uma estimativa de vendas
potenciais na concessionária.
Um novo produto de carne à base de plantas foi recentemente estocado
em mercearias e o fornecedor precisa estimar a demanda nos próximos
quatro anos.
O analista procura os dados de vendas de um substituto de peru
feito de tofu que está no mercado há vários anos.
A Câmara de Comércio quer saber como uma campanha de turismo
afetará as viagens para sua cidade, mas os resultados da campanha
ainda não estão disponíveis publicamente.
O analista procura os dados históricos de reservas aéreas para a
cidade de um a três meses depois que uma campanha
semelhante foi realizada seis meses antes.
Conjuntos de dados públicos examinados
Se você faz parte de uma grande organização, pode ter acesso a muitas fontes de dados. Mas se você estiver procurando
por algo específico ou um pouco fora de sua linha de negócios, também poderá usar conjuntos de dados abertos ou
públicos. (Você pode consultar este artigo da Towards Data Science para uma breve explicação da diferença entre dados
abertos e públicos.). Aqui está um exemplo. Uma versão nasal de uma vacina foi recentemente disponibilizada. Uma
clínica quer saber o que esperar das contraindicações, mas acabou de começar a coletar dados primários de seus
pacientes. Uma contraindicação é uma condição que pode fazer com que um paciente não tome uma vacina devido aos
danos que ela causaria se fosse tomada. Para estimar o número de possíveis contraindicações, um analista de dados
aproxima um conjunto de dados aberto de um teste da versão de injeção da vacina. O analista seleciona um subconjunto
de dados com perfis de pacientes que mais se aproximam da composição dos pacientes na clínica. Há muitas maneiras
de compartilhar e colaborar em dados dentro de uma comunidade. A Kaggle (kaggle.com), que apresentamos
anteriormente, possui conjuntos de dados em vários formatos, incluindo o tipo mais básico, arquivos com valores
separados por vírgula (CSV).
CSV, JConjuntos de dados SON, SQLite e BigQuery
● CSV: Confira este conjunto de dados de clientes de cartão de crédito, que tem informações de 10.000 clientes,
incluindo idade, salário, estado civil, limite do cartão de crédito, categoria do cartão de crédito etc. (CC0: Domínio
Público, Sakshi Goyal).
● JSON: Confira este conjunto de dados do JSON para vídeos de tendências do YouTube (CC0: Domínio Público,
Mitchell J).
● SQLite: Confira este conjunto de dados da SQLite para 24 anos de dados de incêndios florestais nos EUA (CC0:
Domínio Público, Rachael Tatman).
● BigQuery: Confira este conjunto de dados de amostra do Google Analytics 360 da Google Merchandise Store
(CC0 Public Domain, Google BigQuery).
Consulte a documentação para conjuntos do Kaggle de dados para obter mais informações e pesquise e explore conjuntos
de dados por conta própria em kaggle.com/datasets. Tal como acontece com todos os outros tipos de conjuntos de dados,
fique atento a dados duplicados e 'Nulo' em conjuntos de dados abertos. Nulo na maioria das vezes significa que um
campo de dados não foi atribuído (deixado em branco), mas às vezes Nulo pode ser interpretado como o valor 0. É
importante entender como o Nulo foi usado antes de começar a analisar um conjunto de dados com dados Nulo.
https://towardsdatascience.com/is-there-a-difference-between-open-data-and-public-data-6261cd7b5389
https://www.kaggle.com/
https://www.kaggle.com/sakshigoyal7/credit-card-customers
https://www.kaggle.com/datasnaek/youtube-new
https://www.kaggle.com/rtatman/188-million-us-wildfires
https://www.kaggle.com/bigquery/google-analytics-sample
https://www.kaggle.com/docs/datasets
https://www.kaggle.com/datasets
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
VÍDEO - COMO USAR A POTÊNCIA ESTATÍSTICA - Que bom ver você de novo. Neste vídeo, entraremos em mais detalhes sobre
tamanhos da amostra e integridade de dados. Se você já foi a uma loja que distribui amostras, sabe que é um dos pequenos prazeres
da vida. Para mim, de qualquer maneira, essas pequenasamostras também são uma maneira muito inteligente de as empresas
aprenderem mais sobre seus produtos com os clientes sem precisar dar a todos uma amostra grátis. Muitas organizações usam
o tamanho da amostra de maneira semelhante. Elas fazem parte de algo maior. Neste caso, uma amostra de uma população. Às vezes,
eles realizam testes complexos em seus dados para ver se atendem aos objetivos de negócios. Não vamos entrar em todos os cálculos
necessários para fazer isso de forma eficaz. Em vez disso, vamos nos concentrar em um “quadro geral” do processo e do que ele
envolve. Como um lembrete rápido, o tamanho da amostra é uma parte de uma população que é representativa da população.
Para as empresas, é uma ferramenta muito importante. Pode tanto ser caro como levar muito tempo para analisar uma população
inteira de dados. Usar o tamanho da amostra geralmente faz mais sentido e ainda pode levar a descobertas válidas e úteis. Existem
calculadoras úteis online que podem ajudá-lo a encontrar o tamanho da amostra. Você precisa inserir o nível de confiança, o tamanho
da população e a margem de erro. Já falamos sobre o tamanho da população antes. Para desenvolver isso, aprenderemos sobre o
nível de confiança e a margem de erro. Conhecer esses conceitos o ajudará a entender por que você precisa deles para calcular o
tamanho da amostra. O nível de confiança é a probabilidade de que sua amostra reflita com precisão a população maior. Você
pode pensar nisso da mesma forma que a confiança em qualquer outra coisa. É o quão forte você sente que pode confiar em algo ou
alguém. Ter um nível de confiança de 99% é o ideal. Mas a maioria das indústrias espera um nível de confiança de pelo menos 90 ou
95%. Setores como os farmacêuticos geralmente querem um nível de confiança o mais alto possível quando estão usando um
tamanho da amostra. Isso faz sentido porque eles estão testando medicamentos e precisam ter certeza de que funcionam e são
seguros para todos. Em outros estudos, as organizações podem precisar apenas saber que os resultados do teste ou da pesquisa os
levam na direção certa. Por exemplo, se uma empresa de tintas estiver testando novas cores, um nível de confiança mais baixo é
suficiente. Você também deseja considerar a margem de erro para seu estudo. Você aprenderá mais sobre isso adiante, mas
basicamente informa o quão próximos os resultados do tamanho da amostra estão do que seus resultados seriam se você
usasse toda a população que o tamanho da amostra representa. Pense assim. Digamos que o diretor de uma escola de ensino
médio se aproxime de você com um estudo sobre as preferências de doces dos alunos. Eles precisam saber um tamanho da amostra
adequado e precisam disso agora. A escola tem uma população de 500 alunos, e eles estão pedindo um nível de confiança de 95% e
uma margem de erro de 5%. Configuramos uma calculadora em uma planilha, mas você também pode encontrar facilmente esse tipo
de calculadora pesquisando “calculadora de tamanho da amostra” na internet. Assim como essas calculadoras, nossa calculadora de
planilha não mostra nenhum dos cálculos mais complexos para descobrir o tamanho da amostra. Tudo o que precisamos fazer é inserir
os números para nossa população, nível de confiança e margem de erro. E quando digitamos 500 para o tamanho da nossa população,
95 para nossa porcentagem de nível de confiança, 5 para nossa porcentagem de margem de erro, o resultado é cerca de 218. Isso
significa que para este estudo, um tamanho da amostra apropriado seria 218. Se fizermos uma pesquisa com 218 alunos e
descobrirmos que 55% deles preferem chocolate, poderíamos estar bastante confiantes de que isso seria verdade para todos os 500
alunos. 218 é o número mínimo de pessoas que precisamos pesquisar com base em nossos critérios de nível de confiança de 95% e
margem de erro de 5%. Caso você esteja se perguntando, o nível de confiança e a margem de erro não precisam corresponder a
100%. Eles são independentes um do outro. Então, digamos que mudamos nossa margem de erro de 5% para 3%. Então
descobrimos que nosso tamanho da amostra precisaria ser maior, cerca de 341 em vez de 218, para tornar os resultados do estudo
mais representativos da população. Fique à vontade para praticar com uma calculadora online. Saber o tamanho da amostra e como
encontrá-la o ajudará quando você trabalhar com dados. Temos mais conhecimentos úteis a caminho, incluindo aprender sobre a
margem de erro. Vejo você em breve.
Calculadora de tamanho da amostra
Nesta leitura, você aprenderá o básico sobre calculadoras de tamanho da amostra, como usá-las e como entender os
resultados. Uma calculadora de tamanho da amostra informa quantas pessoas você precisa entrevistar (ou coisas que
você precisa testar) para obter resultados que representem a população-alvo. Vamos revisar alguns termos que você
encontrará ao usar uma calculadora de tamanho da amostra:
● Nível de confiança: a probabilidade de que o tamanho da amostra reflita com precisão a população maior.
● Margem de erro: a quantidade máxima que se espera que os resultados da amostra sejam diferentes dos da
população real.
● População: este é o número total do qual você espera extrair sua amostra.
● Amostra: uma parte de uma população que é representativa da população.
● Taxa de resposta estimada: se você estiver realizando uma pesquisa com indivíduos, essa é a porcentagem de
pessoas que você espera que preencham sua pesquisa entre aquelas que receberam a pesquisa.
Como usar uma calculadora de tamanho da amostra
Para usar uma calculadora de tamanho da amostra, você precisa ter o tamanho da população, o nível de confiança e a
margem de erro aceitável já decididos para que você possa inseri-los na ferramenta. Se essas informações estiverem
prontas, confira estas calculadoras de tamanho da amostra abaixo:
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
● Calculadora de tamanho da amostra em surveymonkey.com
● Calculadora de tamanho da amostra em raosoft.com
O que fazer com os resultados
Depois de inserir suas informações em uma dessas calculadoras, ela fornecerá um tamanho da amostra recomendado.
Lembre-se que o tamanho da amostra calculado é o número mínimo para atingir o que você inseriu para nível de
confiança e margem de erro. Se você estiver trabalhando com uma pesquisa, também precisará pensar na taxa de
resposta estimada para descobrir quantas pesquisas precisará enviar. Por exemplo, se você precisar de um tamanho da
amostra de 100 indivíduos e sua taxa de resposta estimada for de 10%, será necessário enviar sua pesquisa para 1.000
indivíduos para obter as 100 respostas necessárias para sua análise. Agora que você tem o básico, tente alguns cálculos
usando as calculadoras de tamanho da amostra e consulte esta leitura se precisar de uma atualização sobre as definições.
Teste seu conhecimento sobre como testar seus dados
Pergunta 1 - Uma equipe de pesquisa realiza um experimento para determinar se um novo sistema de segurança é
mais eficaz do que a versão anterior. Que tipo de resultados são necessários para que o experimento seja
estatisticamente significativo?
Resultados que são imprecisos e devem ser ignorados
Resultados que são hipotéticos e precisam de mais testes
Resultados que são reais e não causados por acaso
Resultados que dificilmente ocorrerão novamente
Correto - Para que um experimento seja estatisticamente significativo, os resultados devem ser reais e não causados por acaso.
Pergunta 2 - Para ter um alto nível de confiança em uma pesquisa com clientes, o que o tamanho da amostra deve
refletir com precisão?
Os membros mais valiosos da população
As previsões das partes interessadas
As tendências de outras pesquisas com clientes
Toda a população
Correto - Para ter um alto nível de confiança em uma pesquisa com clientes, o tamanho da amostra deve refletir com precisão toda a
população.
Pergunta 3 - Um analista de dados determina um tamanho de amostra apropriado para uma pesquisa. Eles podem
verificar seu trabalho certificando-se de que a porcentagem do nívelde confiança mais a porcentagem da margem
de erro somam 100%.
Verdadeiro
Falso
Correto - A porcentagem do nível de confiança e a porcentagem da margem de erro não precisam somar 100%. Eles são independentes um
do outro.
1.5 - CONSIDERAR A MARGEM DE ERRO
VÍDEO - COMO AVALIAR A CONFIABILIDADE DOS DADOS - Olá! Anteriormente, abordamos a margem de erro sem explicá-la por
completo. Bem, vamos abordar essa questão neste vídeo, explicando mais a margem de erro. Incluiremos até um exemplo de como
calculá-la. Como analista de dados, é importante descobrir o tamanho da amostra e variáveis como nível de confiança e margem de
erro antes de executar qualquer tipo de teste ou pesquisa. É a melhor maneira de garantir que seus resultados sejam objetivos e
oferece uma chance melhor de obter resultados estatisticamente significativos. Mas se você já conhece o tamanho da amostra, como
quando recebe os resultados da pesquisa para analisar, pode calcular a margem de erro por conta própria. Assim, você terá uma ideia
melhor de quanta diferença existe entre sua amostra e sua população. Começaremos do início com uma definição mais completa. A
margem de erro é o máximo que se espera que os resultados da amostra sejam diferentes daqueles da população real.
Vejamos um exemplo de margem de erro. Seria ótimo pesquisar ou testar uma população inteira, mas geralmente é impossível ou
impraticável fazer isso. Em vez disso, pegamos uma amostra da população maior. Com base no tamanho da amostra, a margem de
erro resultante nos dirá quão diferentes os resultados podem ser comparados aos resultados se tivéssemos pesquisado toda
https://www.surveymonkey.com/mp/sample-size-calculator/
http://www.raosoft.com/samplesize.html
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
a população. A margem de erro ajuda você a entender o quão confiáveis são os dados do seu teste de hipóteses. Quanto mais
próximo de zero a margem de erro for, mais próximos os resultados de sua amostra correspondem aos resultados da
população geral. Por exemplo, digamos que você tenha completado uma pesquisa nacional usando uma amostra da população. Você
perguntou às pessoas que trabalham cinco dias por semana se elas gostam da ideia de uma semana de trabalho de quatro dias.
Portanto, sua pesquisa informa que 60% preferem uma semana de trabalho de quatro dias. A margem de erro foi de 10%, o que nos
diz que entre 50 e 70% gostaram da ideia. Então, se fizéssemos uma pesquisa com todos os trabalhadores de cinco dias em todo o
país, entre 50 e 70% concordaria com nossos resultados. Lembre-se que nosso alcance está entre 50 e 70%. Isso porque a margem de
erro é contada nos dois sentidos a partir dos resultados da pesquisa de 60%. Se você configurar um nível de confiança de 95% para
sua pesquisa, haverá uma chance de 95% de que as respostas de toda a população caiam entre 50 e 70% dizendo sim, eles querem
uma semana de trabalho de quatro dias. Como sua margem de erro se sobrepõe a essa marca de 50%, você não pode dizer com
certeza que o público gosta da ideia de uma semana de trabalho de quatro dias. Nesse caso, você teria que dizer que sua pesquisa
foi inconclusiva. Agora, se você quisesse uma margem de erro menor, digamos 5%, com um intervalo entre 55 e 65%, você poderia
aumentar o tamanho da amostra. Mas se você já recebeu o tamanho da amostra, você mesmo pode calcular a margem de erro. Assim,
você pode decidir por si mesmo qual a chance de seus resultados serem estatisticamente significativos com base em sua margem de
erro. Em geral, quanto mais pessoas você incluir em sua pesquisa, maior a probabilidade de sua amostra ser representativa de
toda a população. Diminuir o nível de confiança também teria o mesmo efeito, mas também tornaria menos provável que sua
pesquisa seja precisa. Portanto, para calcular a margem de erro, você precisa de três coisas: tamanho da população, tamanho da
amostra e nível de confiança. E assim como no tamanho da amostra, você pode encontrar muitas calculadoras online pesquisando
“calculadora de margem de erro”. Mas mostraremos em uma planilha, assim como fizemos quando calculamos o tamanho da amostra.
Digamos que você esteja realizando um estudo sobre a eficácia de um novo medicamento. Você tem um tamanho da amostra de 500
participantes cuja condição afeta 1% da população mundial. Isso é cerca de 80 milhões de pessoas, que é a população para o seu
estudo. Como é um estudo de medicamentos, você precisa ter um nível de confiança de 99%. Você também precisa de uma baixa
margem de erro. Vamos calcular. Colocaremos os números da população, nível de confiança e tamanho da amostra nas células
apropriadas da planilha. E nosso resultado é uma margem de erro próxima de 6%, mais ou menos. Quando o estudo do medicamento
estiver completo, você aplicará a margem de erro aos seus resultados para determinar o quão confiáveis seus resultados podem ser.
Calculadoras como esta na planilha são apenas uma das muitas ferramentas que você pode usar para garantir a integridade dos
dados. E também é bom lembrar que verificar a integridade dos dados e alinhar os dados com seus objetivos o deixará em boa
forma para concluir sua análise. Saber sobre o tamanho da amostra, poder estatístico, margem de erro e outros tópicos que
abordamos ajudará sua análise a fluir sem problemas. São muitos conceitos novos para assimilar. Se você quiser revisá-los a qualquer
momento, você pode encontrá-los todos no glossário, ou fique à vontade para assistir novamente ao vídeo! Em breve, você explorará
os prós e contras dos dados limpos. A aventura de dados com tudo! Estou mega feliz que você está com tudo, junto. Você consegue.
Tudo sobre a margem de erro
Margem de erro é a quantidade máxima que se espera que os resultados da amostra sejam diferentes dos da população
real. Mais tecnicamente, a margem de erro define um intervalo de valores abaixo e acima do resultado médio da
amostra. Espera-se que o resultado médio para toda a população esteja dentro desse intervalo. Podemos entender melhor
a margem de erro usando alguns exemplos abaixo.
Margem de erro no beisebol
Imagine que você está jogando beisebol e que está segurando o bastão. A multidão está gritando e você está se
preparando para tentar acertar a bola. O jogador arremessa uma bola rápida viajando cerca de 144 a 152 km/h, o que leva
cerca de 400 milissegundos (ms) para alcançar a luva do apanhador. Você rebate e perde o primeiro arremesso porque
seu tempo de rebate foi um tanto fora do esperado. Você se pergunta se deveria ter batido um pouco mais cedo ou um
pouco mais tarde para acertar a bola em cheio. Essa diferença de tempo pode ser considerada a margem de erro e nos diz
o quão perto ou longe, seu tempo estava ao rebater para acertar a bola em cheio.
Margem de erro no marketing
A margem de erro também é importante no marketing. Vamos usar o teste A/B como exemplo. O teste A/B (ou teste de
divisão) testa duas variações da mesma página da web para determinar qual página é mais bem-sucedida em atrair
tráfego de usuários e gerar receita. O tráfego de usuários que é monetizado é conhecido como taxa de conversão. O
teste A/B permite que os profissionais de marketing testem e-mails, anúncios e páginas de destino para encontrar os
dados por trás do que está funcionando e do que não está. Os profissionais de marketing usam o intervalo de confiança
(determinado pela taxa de conversão e a margem de erro) para entender os resultados. Por exemplo, suponha que você
esteja realizando um teste A/B para comparar a eficácia de duas linhas de assunto de e-mail diferentes para atrair as
pessoas a abrir o e-mail. Você encontra essa linha de assunto A: “Oferta especial só para você” resultou em uma taxa de
abertura de 5% em comparação com a linha de assunto B: “Não perca esta oportunidade” a 3%. Significa que a linha de
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
assunto A é melhor que a linha de assunto B? Depende da sua margem de erro. Se a margem de erro foi de 2%, a taxa de
abertura real ou intervalo de confiança da linha de assuntoA está em algum lugar entre 3% e 7%. Já que a extremidade
inferior do intervalo se sobrepõe aos resultados da linha de assunto B em 3%, você não pode concluir que há uma
diferença estatisticamente significativa entre a linha de assunto A e B. Examinar a margem de erro é importante ao tirar
conclusões com base em seu teste de resultados.
Quer calcular sua margem de erro?
Tudo o que você precisa é o tamanho da população, o nível de confiança e o tamanho da amostra. Para entender melhor
esta calculadora, revise estes termos:
● Nível de confiança: uma porcentagem que indica a probabilidade de sua amostra refletir com precisão a
população maior.
● População: o número total de onde você extraiu sua amostra.
● Amostra: uma amostra é uma parte de uma população representativa da população.
● Margem de erro: a quantidade máxima que se espera que os resultados da amostra sejam diferentes dos da
população real.
Na maioria dos casos, é usado um nível de confiança de 90% ou 95%. Mas, dependendo do seu setor, convém definir um
nível de confiança mais rigoroso. Um nível de confiança de 99% é razoável em algumas indústrias, como a indústria
farmacêutica. Depois de definir o tamanho da população, o tamanho da amostra e o nível de confiança, insira as
informações em uma calculadora de margem de erro como as abaixo:
● Calculadora de margem de erro por Good Calculators (calculadoras online gratuitas)
● Calculadora de margem de erro da CheckMarket
Principal conclusão
A margem de erro é usada para determinar o quão próximo o resultado da sua amostra está do que o resultado
provavelmente teria sido se você pudesse ter pesquisado ou testado toda a população. A margem de erro ajuda você a
entender e interpretar resultados de pesquisas ou testes na vida real. Calcular a margem de erro é particularmente útil
quando você recebe os dados para analisar. Após usar uma calculadora para calcular a margem de erro, você saberá o
quanto os resultados da amostra podem diferir dos resultados de toda a população.
Teste seu conhecimento sobre a margem de erro
Pergunta 1 - Preencha a lacuna: A margem de erro é a quantidade _____ que se espera que os resultados da
amostra sejam diferentes daqueles da população real.
máxima
mediana
média
mínima
Correto - A margem de erro é a quantidade máxima que se espera que os resultados da amostra sejam diferentes daqueles da população
real.
Pergunta 2 - Em uma pesquisa sobre um novo produto de limpeza, 75% dos entrevistados relataram que
comprariam o produto novamente. A margem de erro da pesquisa é de 5%. Com base na margem de erro, qual
intervalo percentual reflete a verdadeira resposta da população?
Entre 75% e 80%
Entre 73% e 78%
Entre 70% e 75%
Entre 70% e 80%
Correto - Com base na margem de erro, entre 70% e 80% reflete com precisão a verdadeira resposta da população.
Desafio da semana 1
Pergunta 1 - Quais das seguintes condições são necessárias para garantir a integridade dos dados? Selecione
todas as opções válidas.
Precisão
Integridade
Poder estatístico
https://goodcalculators.com/margin-of-error-calculator/
https://www.checkmarket.com/sample-size-calculator/#sample-size-margin-of-error-calculator
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Privacidade
Correto - Precisão e integridade são necessárias para garantir a integridade dos dados.
Pergunta 2 - Um analista financeiro importa um conjunto de dados para seu computador de um dispositivo de
armazenamento. Conforme vai sendo importado, a conexão é interrompida, o que compromete os dados. Qual dos
seguintes processos causou o comprometimento?
Coleta de dados
manipulação de dados
Análise dos dados
Transferência de dados
Correto - A transferência de dados causou o comprometimento. Quando uma transferência de dados é interrompida, pode resultar em um
conjunto de dados incompletos.
Pergunta 3 - Um analista de dados recebe um conjunto de dados para análise. Inclui dados sobre a população total
de cada país nos últimos 20 anos. Qual das seguintes perguntas o analista precisaria de mais dados para
responder?
Qual era a população de um determinado país em 2020?
Qual país tinha a menor população em 2017?
Qual país tinha a maior população em 2015?
Qual foi a razão para o aumento da população em um determinado país?
Correto - O analista precisaria de mais dados para identificar o motivo do aumento populacional.
Pergunta 4 - Um analista de dados recebe um conjunto de dados para análise. Para usar o modelo para este
conjunto de dados, clique no link abaixo e selecione “Usar modelo”.
Link do modelo: Faturas de junho de 2014
O analista percebe uma limitação com os dados nas linhas 8 e 9. Qual é a limitação?
A linha 8 não está no formato correto.
A linha 9 é uma duplicata da linha 8.
A linha 8 e a linha 9 mostram a moeda errada.
A linha 9 precisa de mais dados.
Correto - A linha 9 é uma duplicata da linha 8. Dados duplicados são uma limitação porque levarão a uma análise defeituosa.
Pergunta 5 - Um analista de dados de uma organização sem fins lucrativos está trabalhando com um conjunto de
dados sobre uma campanha de arrecadação de fundos de verão. Embora tenham muitos dados úteis até o final do
mês, eles reconhecem que os dados são insuficientes. Então, eles decidem esperar até o final da temporada para
começar a trabalhar com o conjunto de dados. Que tipo de dados insuficientes este exemplo descreve?
Dados desatualizados
Dados que continuam sendo atualizados
Dados somente de uma fonte
Dados geograficamente limitados
Correto - Este exemplo descreve dados insuficientes que continuam sendo atualizados. Se um conjunto de dados continuar atualizando,
isso significa que os dados ainda estão chegando e podem estar incompletos.
Pergunta 6 - Ao coletar dados por meio de uma pesquisa, as empresas podem economizar dinheiro pesquisando
100% da população.
Verdadeiro
Falso
Correto - Usar 100% de uma população é o ideal, mas pode ser muito caro coletar dados de uma população inteira.
Pergunta 7 - Um restaurante coleta dados sobre um novo prato fornecendo amostras grátis para grupos de seis ou
mais clientes. O que este cenário descreve?
Viés de amostragem:
Amostragem geograficamente limitada
https://docs.google.com/spreadsheets/d/12AdNEIHqOga8Gp1ND9zR6f9HmaM5OapS7s9c-hO3wOQ/template/preview
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Amostragem não enviesada
Amostragem aleatória
Correto - Este cenário descreve o viés de amostragem porque as partes de seis ou mais não são representativos da população como um
todo.
Pergunta 8 - Às vezes, durante a análise, um analista descobre que é necessário ajustar o objetivo do negócio.
Quando isso acontece, o analista deve tomar a iniciativa de fazê-lo sem envolver os outros para respeitar seu
tempo.
Verdadeiro
Falso
Correto - Se um analista de dados acredita que o objetivo de negócios deve ser ajustado, é importante primeiro discutir com as partes
interessadas.
SEMANA 2 - A IMPORTÂNCIA DA INTEGRIDADE
Todos os analistas de dados querem trabalhar com dados limpos ao fazer uma análise. Nesta parte do curso, você
aprenderá a diferença entre dados limpos e sujos. Além disso, você explorará técnicas de limpeza de dados usando
planilhas e outras ferramentas.
Objetivos de aprendizagem
● Diferenciar entre dados limpos e sujos
● Explicar as características dos dados sujos
● Descrever as técnicas de limpeza de dados, mencionando como identificar erros, redundância, compatibilidade e
monitoramento contínuo.
● Identificar ciladas comuns ao limpar dados
● Demonstrar conhecimento sobre o uso de planilhas para limpar dados
2.1 - DADOS TOTALMENTE LIMPOS
VÍDEO - LIMPEZA GERAL - Você tem ideia de quanto dados imprecisos ou ruins custam às empresas todos os anos? Milhares de
dólares? Milhares, Bilhares. De acordo com a IBM o custo anual de dados de má qualidade é de 3,1 trilhões de dólares somente nos
EUA. São muitos zeros! Agora, você tem ideia de qual é a principal causa dos dados de má qualidade? Não é uma implementação de
um novo sistema ou uma falha técnica. O fator mais comum é na verdade um erro humano.Veja aqui uma planilha de um escritório
de advocacia. Mostra aos clientes, os serviços jurídicos que eles compraram, o número da ordem de serviço, quanto eles pagaram, e a
forma de pagamento. Dados sujos podem ser o resultado de alguém digitando um pedaço de dado incorretamente; formatação
inconsistente; campos em branco; ou o mesmo pedaço de dado sendo inserido mais de uma vez, o que cria duplicatas. Dados
sujos são dados incompletos, incorretos, ou irrelevantes para o problema que você está tentando resolver. Quando você
trabalha com dados sujos, você não pode certificar-se de que seus resultados estejam corretos. De fato, você pode apostar que eles
não serão. Você aprendeu que integridade dos dados é fundamental para resultados analíticos de dados confiáveis, e dados limpos
ajudam você a alcançar a integridade dos dados. Dados limpos são dados que estão completos, corretos e são relevantes para o
problema que você está tentando resolver. Quando você trabalha com dados limpos, você vai perceber que seus projetos
acontecem muito mais tranquilamente. Lembro-me da primeira vez que testemunhei em primeira mão o quão importantes são os
dados limpos Eu tinha acabado de começar a usar SQL e pensei que funcionava de forma mágica. Eu poderia fazer o computador
somar milhões de números, poupando-me um tempo precioso e muito esforço. Mas rapidamente descobri que apenas funciona quando
os dados estão limpos. Se houvesse sequer uma letra acidental em uma coluna que deve ter apenas números, o computador não
saberia o que fazer. Então, isso iria lançar um erro, e de repente, fiquei preso. E não há como somar milhões de números sozinha. Eu
tenho que limpar esses dados para fazê-los funcionar. A boa notícia é que há muitos processos eficazes e ferramentas para ajudar
você a fazer isso. Ao chegar lá, você ganhará as habilidades e conhecimentos necessários para garantir que os dados com os quais
você trabalha estejam sempre limpos. Ao longo do caminho, vamos nos aprofundar na diferença entre dados limpos e sujos, e por que
dados limpos são tão importantes. Também falaremos sobre diferentes formas de limpar seus dados e problemas comuns a serem
observados durante o processo. Pronto para começar? Vamos lá.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
VÍDEO - POR QUE A LIMPEZA DE DADOS É TÃO IMPORTANTE - Os dados limpos são muito importantes para uma análise eficaz.
Se um pedaço de dado é inserido em uma planilha ou banco de dados de forma incorreta, ou se for repetido, ou se um campo for
deixado em branco, ou se os formatos de dados são inconsistentes, o resultado são dados sujos. Pequenos erros podem levar a
grandes consequências no longo prazo. Serei muito honesto com você, A limpeza de dados é como escovar os dentes. É algo que
você deve fazer e fazer corretamente porque, caso contrário, pode causar sérios problemas. Para os dentes, podem ser cáries ou
doenças gengivais. Para dados, isso pode estar custando o dinheiro de sua empresa, ou um chefe irritado. Mas, temos boas notícias,
Se você continuar escovando duas vezes ao dia, todos os dias, torna-se um hábito. Logo, você nem sequer tem que pensar sobre isso.
É o mesmo com os dados. Confie em mim, isso vai deixar você parecer ótimo quando você leva tempo para limpar esses dados sujos.
Só um lembrete rápido, os dados sujos são incompletos, incorretos, ou irrelevantes para o problema que você está tentando
resolver. Não podem ser usados de uma forma significativa, que torna a análise muito difícil, se não impossível. Por outro lado, os
dados limpos estão completos, corretos e relevantes para o problema que você está tentando resolver. Isto permite que você
entenda e analise as informações e identifique padrões importantes, conectar informações relacionadas, e tirar conclusões úteis.
Então você pode aplicar o que você aprende para tomar decisões eficazes. Em alguns casos, você não terá que fazer muito trabalho
para limpar os dados. Por exemplo, quando você usa dados internos que foram verificados e tratados por engenheiros de dados de sua
empresa e equipe de armazenamento de dados, é mais provável que estejam limpos. Vamos falar sobre algumas pessoas com quem
você trabalhará como analista de dados. Engenheiros de dados transformam dados em um formato útil para análise e dão uma
infraestrutura confiável. Isto significa que eles desenvolvem, mantêm e testam os bancos de dados, processadores de dados e
sistemas relacionados. Especialistas em armazenamento de dados desenvolvem processos e procedimentos para efetivamente
armazenar e organizar os dados. Eles garantem que os dados estejam disponíveis, seguros e redundantes para evitar perdas.
Quando você se torna um analista de dados, você pode aprender muito trabalhando com pessoas que mantêm seus bancos de dados
para aprender sobre seus sistemas. Se os dados passarem através das mãos de um engenheiro de dados ou um especialista em
armazenagem inicialmente, você sabe que está começando bem o seu projeto. Há muitas oportunidades de carreira como um
engenheiro de dados ou um especialista em armazenagem. Se este tipo de trabalho parece interessante para você, talvez sua carreira
envolverá ajudar a organizações a economizarem muito tempo, esforço e dinheiro, garantindo que os dados estão limpos e brilhantes
Mas mesmo se você seguir uma direção diferente em sua carreira de analista de dados e ter a vantagem de trabalhar com engenheiros
de dados e especialistas em armazenagem, ainda é provável que você tenha que limpar seus próprios dados. É importante ter em
mente: nenhum conjunto de dados é perfeito. É sempre uma boa ideia examinar e limpar os dados antes de iniciar a análise. Aqui
está um exemplo. Digamos que você está trabalhando em um projeto onde você precisa descobrir quantas pessoas usam os softwares
de sua empresa. Você tem uma planilha que foi criada internamente e verificada por um engenheiro de dados e um especialista em
armazenagem de dados. Confira a coluna nomeada "Nome de usuário". Pode parecer lógico que você pode simplesmente rolar para
baixo e contar as linhas para descobrir quantos usuários você tem. Mas isso não vai funcionar porque uma pessoa às vezes tem mais
do que um nome de usuário. Talvez eles tenham se registrado de diferentes endereços de e-mail, ou talvez eles tenham um trabalho e
conta pessoal. Em situações como esta, você precisaria limpar os dados eliminando qualquer linha que estivesse duplicada. Uma vez
que você tenha feito isso, não haverá mais uma entrada duplicada. Então sua planilha está pronta para o trabalho. Até agora,
discutimos sobre trabalhar com dados internos. Mas a limpeza de dados se torna ainda mais importante quando se trabalha com
dados externos, especialmente se tiver várias fontes. Digamos que a empresa de software de nosso exemplo fez uma pesquisa
com seus clientes para saber se eles estão satisfeitos com o produto de software. Mas quando você revisa os dados da pesquisa,
descobre que tem vários nulos. Um nulo é uma indicação de que um valor não existe em um conjunto de dados. Note que não é o
mesmo que um zero. No caso de uma pesquisa, um nulo significaria que os clientes pularam essa pergunta. Um zero significaria que
eles forneceram zero como resposta. Para fazer sua análise, você precisaria primeiro limpar estes dados. O primeiro passo seria
decidir o que fazer com esses nulos. Você poderia filtrá-los e informar que você agora têm um tamanho de amostra menor, ou você
pode mantê-los e aprender com o fato de que os clientes não forneceram respostas. Há muitas razões pelas quais isso poderia ter
acontecido. Talvez suas perguntas da pesquisa não foram escritas tão bem quanto poderiam ter sido. Talvez eles estivessem confusos
ou tendenciosos, algo que aprendemos anteriormente. Abordamos os conceitos básicos de limpeza interna e dados externos, mas há
muito mais por vir. Em breve, vamos aprender sobre os erros comuns aos quais devemos estar atentos para garantir que seus dados
estejam completos, corretos e relevantes. Vejo você em breve.
VÍDEO - ANGIE: POR QUE EU ADOROLIMPAR DADOS - Me chamo Angie. Sou gerente de programa de engenharia no Google.
Realmente acredito que a limpeza de dados é o coração e a alma dos dados. É como você conhece seus dados: as peculiaridades,
as falhas e os mistérios deles. Adoro um bom mistério. Lembro-me de uma vez que descobri que alguém havia comprado, acho que foi
um milhão de dólares em sanduíches de frango em uma transação. Esse mistério me deixou louca. Eu tinha todas essas perguntas.
Isso poderia realmente ter acontecido? Ou talvez fosse uma grande festa de aniversário? Como eles fizeram um milhão de dólares em
sanduíches de frango? Eu estava limpando meus dados e tentando descobrir onde deu errado. Acabamos descobrindo que estávamos
elevando ao quadrado e multiplicando todas as nossas transações para um caso muito específico. Levamos cerca de três dias para
descobrir isso. Nunca vou esquecer o momento em que foi tipo, aha! Chegamos ao fundo do problema. O resultado é que nossos
dados foram limpos e tivemos esse ótimo conjunto de dados que poderíamos usar para análise. Mas o que eu amava era apenas o
mistério disso e conhecer todas essas complexidades estranhas sobre meu conjunto de dados. Parecia quase um superpoder, como se
eu fosse uma detetive, e tivesse ido lá e eu realmente tivesse resolvido algo. Amo limpar dados!
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
O que são dados sujos?
Anteriormente, discutimos que dados sujos são dados incompletos, incorretos ou irrelevantes para o problema que você
está tentando resolver. Esta leitura resume:
● Tipos de dados sujos que você pode encontrar
● O que pode ter causado a sujeira dos dados
● Como os dados sujos são prejudiciais às empresas
Tipos de dados sujos
- Dados duplicados
Descrição Causas possíveis Potenciais danos às empresas
Qualquer registro de dados que
apareça mais de uma vez
Entrada manual de dados, importação de
dados em lote ou migração de dados
Métricas ou análises distorcidas, contagens ou previsões
inflacionadas ou imprecisas, ou confusão durante a
recuperação de dados
- Dados desatualizados
Descrição Causas possíveis Potenciais danos às empresas
Qualquer dado antigo que deva ser substituído por
informações mais recentes e mais precisas
Pessoas mudando de papéis ou empresas, ou
software e sistemas se tornando obsoletos
Percepções imprecisas, tomada de
decisões e análises
- Dados incompletos
Descrição Causas possíveis Potenciais danos às empresas
Qualquer dado que esteja faltando
campos importantes
Coleta de dados incorreta ou entrada
de dados incorreta
Diminuição da produtividade, percepções imprecisas ou
incapacidade de completar serviços essenciais
- Dados incorretos/incisos
Descrição Causas possíveis Potenciais danos às empresas
Qualquer dado completo, mas
impreciso
Erro humano inserido durante a entrada de
dados, informação falsa ou dados falsificados
Percepções imprecisas ou tomada de decisões baseadas
em informações erradas resultando em perda de receita
- Dados inconsistentes
Descrição Causas possíveis Potenciais danos às empresas
Qualquer dado que utilize formatos
diferentes para representar a mesma
coisa
Dados armazenados incorretamente ou erros
inseridos durante a transferência de dados
Pontos de dados contraditórios que levam a
confusão ou incapacidade de classificar ou
segmentar os clientes
Impacto comercial de dados sujos
Para uma leitura mais detalhada sobre o impacto comercial de dados sujos, insira o termo "dados sujos" na barra de busca
de seu navegador preferido para trazer à tona numerosos artigos sobre o tópico. Aqui estão alguns impactos citados para
certas indústrias a partir de uma pesquisa anterior:
● Banking: As imprecisões custam às empresas entre 15% e 25% da receita (fonte).
● Comércio digital: Até 25% dos contatos do banco de dados B2B contêm imprecisões (fonte).
● Marketing e vendas: 8 em cada 10 empresas disseram que dados sujos dificultam as campanhas de vendas (fonte).
● Assistência médica: Os registros duplicados podem ser de 10% e até 20% dos registros eletrônicos de saúde de um
hospital (fonte).
VÍDEO - COMO RECONHECER E LIMPAR DADOS SUJOS - Olá, neste vídeo vamos nos concentrar em questões comuns associadas
a dados sujos. Isso inclui a ortografia e outros erros de texto, etiquetas inconsistentes, formatos e comprimento do campo, dados
ausentes, e duplicatas. Isto o ajudará a reconhecer problemas mais rapidamente e dará as informações que você precisa para
resolvê-los quando você encontrar algo semelhante durante sua própria análise. Isso é muito importante na análise de dados. Ok,
vamos voltar à nossa planilha do escritório de advocacia. Como uma atualização rápida, vamos começar verificando os diferentes
tipos de dados sujos que aparecem aqui. Algumas vezes, alguém pode digitar um pedaço de dado de forma incorreta. Outras vezes
eles podem não manter os formatos de dados consistentes. Também é comum deixar o campo em branco. Isso também é chamado de
um nulo que aprendemos mais cedo. E se alguém acrescentar o mesmo dado mais de uma vez, isso cria uma duplicata. Vamos
entender isso. Depois aprenderemos sobre alguns outros tipos de dados sujos e estratégias para limpá-los. Ortografia incorreta,
https://sloanreview.mit.edu/article/seizing-opportunity-in-data-quality/
https://www.demandgen.com/dirty-data-what-is-it-costing-you/
https://www.dqglobal.com/2011/05/04/obsolete-or-dirty-data/
https://searchhealthit.techtarget.com/feature/Hospitals-battle-duplicate-medical-records-with-technology
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
variações ortográficas, letras misturadas, pontuação inconsistente e erros de digitação em geral, acontecem quando alguém
digita um pedaço de dado incorretamente. Como analista de dados, você também lida com diferentes moedas. Por exemplo, um
conjunto de dados poderia estar em dólares americanos e outro em euros e você não quer confundi-los. Queremos encontrar este tipo
de erro e consertá-los desta forma. Você aprenderá mais sobre isto em breve. Os dados limpos dependem em grande parte das regras
de integridade dos dados que segue uma organização, como diretrizes ortográficas e de pontuação. Por exemplo, uma empresa de
bebidas pode pedir a todos os que trabalham no banco de dados para inserir dados sobre volume em onças líquidas em vez de copos.
É ótimo quando uma organização tem regras como esta em vigor, ajuda realmente a minimizar a quantidade de limpeza de dados
necessários. Mas ele não pode eliminá-los completamente, como discutimos anteriormente, há sempre a possibilidade de erro
humano. O próximo tipo de dados sujos que nossa planilha mostra é formatação inconsistente; algo que deve ser formatado como
moeda é mostrado como uma porcentagem. Até que este erro seja corrigido desta forma, o escritório de advocacia não terá ideia do
quanto dinheiro que este cliente pagou por seus serviços. Aprenderemos sobre diferentes maneiras de resolver este e muitos outros
problemas em breve. Discutimos anteriormente os nulos, mas como lembrete, os nulos são campos vazios. Este tipo de dados sujos
requer um pouco mais de trabalho do que apenas consertar um erro de ortografia ou alteração de um formato. Neste exemplo, o
analista de dados precisará pesquisar qual cliente teve uma consulta em 4 de julho de 2020. Depois, quando encontrarem as
informações corretas, eles teriam que adicioná-la à planilha. Outro tipo comum de dados sujos é uma duplicata. Talvez duas pessoas
diferentes adicionaram esta nomeação em 13 de agosto, não percebendo que alguém já o tinha feito. Ou talvez a pessoa que está
inserindo os dados copia e cola por acidente. Seja qual for o motivo, é o trabalho do analista de dados identificar este erro e
corrigi-lo, apagando uma das duplicatas. Certo, agora vamos falar mais sobre alguns outros tipos de dados sujos. A primeira tem a
ver com etiquetagem, para entender a etiquetagem imagine-se tentando conseguir um computador para identificar corretamente os
ursos panda entre imagens de todos os diferentes tipos de animais. Você precisa mostrar ao computador milharesde imagens de
ursos panda, todos eles são rotulados como ursos panda. Qualquer imagem rotulada incorretamente, como aquele ali que é apenas
"urso", causará um problema. A próxima causa de dados sujos é tendo um comprimento de campo inconsistente, você aprendeu
mais cedo que um campo é um único pedaço de informação de uma linha ou coluna de uma planilha. O comprimento do campo
é uma ferramenta para determinar muitos como caracteres podem ser inseridos em um campo, atribuindo um certo comprimento
a estes campos em sua planilha é uma ótima maneira de evitar erros. Por exemplo, se você tiver uma coluna para o ano de
nascimento de alguém, você sabe que o comprimento do campo é quatro, porque todos os anos têm quatro dígitos. Algumas
aplicações de planilhas têm uma maneira simples de especificar os comprimentos de campo e garantir que os usuários só possam
inserir um determinado número de caracteres em um campo. Isso é parte da validação dos dados. A validação de dados é uma
ferramenta para verificação da exatidão e qualidade dos dados antes de adicioná-los ou importá-los. A validação dos dados é
uma forma de limpeza de dados, sobre a qual você aprenderá mais em breve. Mas primeiro você vai se familiarizar com mais
técnicas para dados de limpeza. Esta é uma parte muito importante dos dados neste este trabalho e estou ansiosa para compartilhar
essas estratégias de limpeza de dados com você.
Teste seu conhecimento sobre a diferença entre dados limpos e sujos
Pergunta 1 - Descrever a diferença entre um valor nulo e um zero em um conjunto de dados.
Um valor nulo indica que não existe um valor. Um zero é uma resposta numérica.
Um valor nulo representa um valor de zero. Um zero representa uma célula vazia.
Um nulo significa dados inválidos. Um zero é um dado ausente
Um valor nulo representa um número sem significado. Um zero representa o número zero.
Correto - Um valor nulo indica que não existe um valor. Um zero é uma resposta numérica.
Pergunta 2 - Quais são os processos e procedimentos mais comuns tratados pelos engenheiros de dados?
Selecione todas as opções válidas.
Dando aos dados uma infra-estrutura confiável
Transformar os dados em um formato útil para análise
Desenvolvimento, manutenção e teste de bancos de dados e sistemas relacionados
Verificação dos resultados da análise de dados
Correto - Os engenheiros de dados transformam os dados em um formato útil para análise; dão uma infraestrutura confiável; e
desenvolvem, mantêm e testam bancos de dados e sistemas relacionados.
Pergunta 3 - Quais são os processos e procedimentos mais comuns tratados por especialistas em armazenamento
de dados? Selecione todas as opções válidas.
Garantir que os dados estejam seguros
Garantia de backup dos dados para evitar perdas
Garantir que os dados estejam disponíveis
Garantir que os dados sejam devidamente limpos
Correto - Os especialistas em armazenamento de dados são responsáveis por garantir que os dados estejam disponíveis, seguros e com
backup para evitar perdas.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Pergunta 4 - Um analista de dados está limpando um conjunto de dados. Eles querem confirmar se os usuários
inseriram os códigos postais de cinco dígitos corretamente, verificando os dados em uma determinada coluna da
planilha. O que seria mais útil como próximo passo?
Usar a função MAX para determinar o valor máximo nas células da coluna
Usar a ferramenta de comprimento de campo para especificar o número de caracteres em cada célula da
coluna
Mudar a largura da coluna para caber apenas cinco dígitos
Formatar as células na coluna como número
Correto - O uso da ferramenta de comprimento de campo para especificar o número de caracteres em cada célula da coluna seria o mais útil.
2.2 - COMEÇAR A LIMPAR OS DADOS
VÍDEO - FERRAMENTAS E TÉCNICAS PARA LIMPAR DADOS - Olá. Agora que você está familiarizado com alguns dos tipos mais
comuns de dados sujos, é hora de limpá-los. Como você aprendeu, dados limpos são essenciais para a integridade dos dados e
soluções confiáveis e decisões. A boa notícia é que as planilhas têm todos os tipos de ferramentas que você pode usar para deixar os
seus dados prontos para análise. As técnicas de limpeza de dados serão diferentes, dependendo dos dados específicos com os quais
você está trabalhando. Assim, não falaremos tudo o que você pode encontrar, mas isso será um grande ponto de partida para a fixação
dos tipos de dados sujos que os analistas encontram com mais frequência. Pense em tudo o que está por vir como um teaser trailer de
ferramentas de limpeza de dados. Vou lhe dar uma visão geral básica de algumas ferramentas e técnicas comuns e depois vamos
praticar novamente mais tarde. Aqui, vamos discutir como remover dados indesejados, limpar o texto para remover espaços
extras e espaços em branco, consertar erros de digitação e deixar a formatação consistente. No entanto, antes de remover dados
indesejados, é sempre uma boa prática fazer uma cópia do conjunto de dados. Dessa forma, se você remover algo que acaba
precisando no futuro, você pode acessá-lo facilmente e colocá-lo de volta no conjunto de dados. Uma vez que isso esteja feito, então
você pode seguir em frente para se livrar das duplicatas ou dados que não são relevantes para o problema que você está tentando
resolver. Tipicamente, as duplicatas aparecem quando você está combinando conjuntos de dados de mais de uma fonte ou usando
dados de múltiplos setores dentro da mesma empresa. Você já aprendeu um pouco sobre duplicatas, mas vamos removê-las uma vez
mais agora usando esta planilha, que lista os membros de uma associação profissional de logística. As duplicatas podem ser um
grande problema para analistas de dados. Portanto, é realmente importante que você possa encontrá-los removê-los antes do início de
qualquer análise. Veja um exemplo do que estou falando. Digamos que esta associação tem duplicatas de 500 dólares de um membro
em seu banco de dados. Quando os dados são resumidos, o analista pensaria que havia 1.000 dólares sendo pagos por este membro
e tomaria decisões com base nesses dados incorretos. Mas na realidade, este membro pagou apenas 500 dólares. Estes problemas
podem ser resolvidos manualmente, mas a maioria das aplicações de planilhas também oferecem muitas ferramentas para ajudar você
a encontrar e remover as duplicatas. Agora, dados irrelevantes, que são dados que não se encaixam no problema específico que
você está tentando resolver, também precisam ser removidos. Voltando ao nosso exemplo do membro de lista, digamos que um
analista de dados estava trabalhando em um projeto concentrado apenas nos membros atuais. Eles não gostariam de incluir
informações de pessoas que não são mais membros, ou que nunca fizeram parte. A remoção de dados irrelevantes requer um pouco
mais de tempo e esforço porque você precisa descobrir a diferença entre os dados que você precisa e os dados que você não precisa.
Acredite, tomar essas decisões vai poupar uma tonelada de esforço durante o processo. O próximo passo é remover os espaços
extras e espaços em branco. Espaços extras podem causar inesperados resultados quando você organiza, filtra, ou pesquisa através
de seus dados. E porque esses caracteres são fáceis de errar, eles podem levar a resultados inesperados e confusos. Por exemplo, se
houver um espaço extra e um número de identificação de membro, quando você ordena a coluna do mais baixo para o mais alto, esta
linha estará fora do lugar. Para remover esses espaços indesejados ou células em branco, você mesmo pode apagá-las ou novamente,
você pode confiar em suas planilhas, que oferecem muitas funções para remover espaços ou espaços em branco automaticamente. A
próxima etapa de limpeza de dados envolve a correção de erros ortográficos, uso inconsistente de maiúsculas e minúsculas,
pontuação incorreta, e outros erros de digitação. Estes tipos de erros podem levar a alguns grandes problemas. Digamos que você
tenha um banco de dados de e-mails que você usa para manter contato com seus clientes. Se alguns e-mailstiverem erros
ortográficos, um ponto no lugar errado, ou qualquer outro tipo de erro tipográfico, não só você corre o risco de enviar um e-mail para as
pessoas erradas, como também corre o risco de enviar spam a pessoas aleatórias. Pense no nosso exemplo da associação
novamente. Uma ortografia incorreta pode fazer com que o analista de dados conte incorretamente o número de membros
profissionais, se eles classificaram este tipo de associação e depois contou o número de linhas. Como os outros problemas que você
encontrou, você também pode resolver esses problemas manualmente. Ou você pode usar ferramentas de planilhas, como a
verificação ortográfica, autocorreção e formatação condicional para facilitar a sua vida. Há também maneiras fáceis de converter
texto em minúsculas, maiúsculas ou em caixa alta, que é uma das coisas que veremos depois. Muito bem, estamos chegando lá. O
próximo passo é remover a formatação. Isto é importante quando você obtém dados de muitas fontes diferentes. Cada banco de
dados tem sua própria formatação, o que pode fazer com que os dados pareçam inconsistentes. Criar um visual limpo e uma
aparência consistente para suas planilhas facilitará uma ferramenta valiosa para que você e sua equipe tomem decisões
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
importantes. A maioria das aplicações de planilhas também têm uma ferramenta de "formatos claros", o que é uma grande
economia de tempo. A limpeza de dados é um passo essencial no aumento da qualidade de seus dados. Agora você sabe muitas
maneiras diferentes de fazer isso. No próximo vídeo, você aumentará esse conhecimento ainda mais e aprenderá como limpar dados
que vêm de mais de uma fonte.
VÍDEO - LIMPE DADOS DE DIFERENTES FONTES - Olá mais uma vez! Até agora você aprendeu muito sobre dados sujos e como
limpar os erros mais comuns em um conjunto de dados. Agora vamos dar um passo à frente e falar sobre limpeza para vários
conjuntos de dados. Limpar dados que vêm de duas ou mais fontes é algo muito comum para analistas de dados, mas vem com alguns
desafios interessantes. Um bom exemplo é uma fusão, que é um acordo que une duas organizações em uma. No campo da
logística, tem havido muitas grandes mudanças recentemente, principalmente por causa de um boom do comércio eletrônico. Com
tanta gente fazendo compras on-line, faz sentido que as empresas responsáveis pela entrega desses produtos para suas casas estão
no meio de um grande chacoalhar. Quando grandes coisas acontecem em uma indústria, é comum para duas organizações unirem-se
e se tornarem mais fortes através de uma fusão. Vamos falar sobre como isso irá afetar nossa associação logística. Apenas um rápido
lembrete, esta planilha lista números de identificação dos membros da associação, primeiro e último nomes, endereços, quanto cada
membro paga em cotas, quando a filiação expira, e os tipos de associação. Agora, vamos pensar no que aconteceria se a Associação
Internacional de Logística decidisse se associar à Associação Global de Logística a fim de ajudar seus membros a lidar com as
incríveis exigências do comércio eletrônico. Primeiro, todos os dados de cada organização teriam de ser combinados usando a fusão
de dados. A fusão de dados é o processo de combinação de dois ou mais conjuntos de dados em um único conjunto de
dados. Isso apresenta um desafio porque quando dois conjuntos totalmente diferentes de dados são combinados, é quase garantia de
que as informações serão inconsistentes e desalinhadas. Por exemplo, a planilha da Associação Global de Logística tem uma coluna
separada para suíte de uma pessoa, apartamento, ou número de unidade, mas a planilha da Associação Internacional de Logística
combina essas informações com seu endereço. Isso precisa ser corrigido para tornar o número de colunas de endereço consistentes.
A seguir, confira como a Associação Global de Logística utiliza o endereço e-mail das pessoas como sua identificação de membro,
enquanto a Associação Internacional de Logística usa números. Este é um grande problema porque as pessoas em uma certa
indústria, tais como logística, tipicamente unem-se a múltiplas associações de profissionais. Há uma chance muito boa que estes
conjuntos de dados incluam informações sobre os membros exatamente da mesma pessoa, apenas de maneiras diferentes. É
extremamente importante remover essas duplicatas. Além disso, a Associação Global de Logística tem muito mais tipos de membros
do que a outra organização. Além disso, ele usa um termo, "Jovem Profissional" em vez de "Estudante Associado". Mas ambos
descrevem membros que estão ainda na escola ou apenas iniciando suas carreiras. Se você estivesse fundindo esses dois conjuntos
de dados, você precisaria trabalhar com sua equipe para consertar o fato de que as duas associações descrevem os membros de
maneiras muito diferentes. Agora você entende por que a fusão de organizações também exige a fusão de dados, e isso pode ser
complicado. Mas há muitas outras razões pelas quais os analistas de dados fundem conjuntos de dados. Por exemplo, em um dos
meus empregos passados, fiz a fusão de muitos dados de várias fontes para obter insights sobre as compras dos nossos clientes. Os
tipos de insights que eu tive me ajudaram a identificar o padrão de compra do cliente. Ao fundir conjuntos de dados, eu sempre
começo fazendo algumas perguntas-chave para me ajudar a evitar redundância e para confirmar que os conjuntos de dados são
compatíveis. Em análise de dados, a compatibilidade descreve quão bem dois ou mais conjuntos de dados são capazes de
trabalhar em conjunto. A primeira pergunta que eu faria é, tenho todos os dados que preciso? Para reunir insights de compra dos
clientes, Eu queria garantir que eu tinha dados sobre os clientes, suas compras, e onde eles faziam essas compras. Em seguida, eu
perguntaria, existem os dados que eu preciso dentro destes conjuntos de dados? Como você aprendeu no início deste curso, isto
envolve considerar todo o conjunto de dados de forma analítica. Avaliando os dados antes de começar a usá-los me permite ter uma
ideia do que temos em mãos, como é o esquema, se é relevante para os insights de compra do cliente, e se são dados limpos. Isso
me leva à próxima pergunta. Os conjuntos de dados precisam ser limpos, ou eles estão prontos para uso? Porque eu estou
trabalhando com mais de uma fonte, também perguntaria, "Os conjuntos de dados limpos são do mesmo padrão?" Por exemplo,
quais campos são repetidos regularmente? Como são tratados os valores ausentes? Há quanto tempo os dados foram atualizados?
Encontrar as respostas para estas perguntas e compreender se eu preciso consertar algum problema no início de um projeto é um
passo muito importante na fusão de dados. Em ambos os exemplos que exploramos aqui, os analistas de dados poderiam usar as
ferramentas da planilha ou consultas SQL para limpeza, fusão, e preparação para a análise dos conjuntos de dados. Dependendo da
ferramenta que você decide usar, o processo de limpeza pode ser simples ou muito complexo. Em breve, você aprenderá como fazer a
melhor escolha para sua necessidade. Por fim, a programação em linguagens como R é muito útil para a limpeza de dados. Você vai
aprender mais sobre como usar R e outros conceitos que falaremos em breve.
Ciladas comuns da limpeza de dados
Nesta leitura, você aprenderá a importância da limpeza de dados e como identificar erros comuns.
Erros comuns a evitar
● Não verificação de erros ortográficos: Os erros ortográficos podem ser tão simples como erros de digitação ou
de entrada. Na maioria das vezes a ortografia errada ou erros gramaticais comuns podem ser detectados, mas
fica mais difícil com coisas como nomes ou endereços. Por exemplo, se você estiver trabalhando com uma tabela
de planilhas de dados do cliente, você pode encontrar um cliente chamado "John" cujo nome foi inserido
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
incorretamente como "Jon" em alguns lugares. A verificação ortográfica da planilha provavelmente não marcará
isto, portanto, se você não verificarnovamente os erros ortográficos e apanhar isto, sua análise terá erros nela.
● Esquecer de documentar erros: Documentar seus erros pode ser uma grande economia de tempo, pois ajuda a
evitar esses erros no futuro, mostrando-lhe como resolvê-los. Por exemplo, você pode encontrar um erro em uma
fórmula em sua planilha. Você descobre que algumas das datas em uma de suas colunas não foram formatadas
corretamente. Se você tomar nota desta correção, poderá referenciá-la na próxima vez que sua fórmula for
quebrada, e obter um avanço na solução de problemas. Documentar seus erros também ajuda a acompanhar as
mudanças em seu trabalho, para que você possa recuar se uma correção não funcionou.
● Não verificação de valores de campos errados: Um valor errado acontece quando os valores são inseridos no
campo errado. Estes valores ainda podem ser formatados corretamente, o que os torna mais difíceis de serem
capturados se você não for cuidadoso. Por exemplo, você pode ter um conjunto de dados com colunas para
cidades e países. Estes são o mesmo tipo de dados, por isso são fáceis de misturar. Mas se você estivesse
tentando encontrar todas as instâncias da Espanha na coluna do país, e a Espanha tivesse sido inserida
erroneamente na coluna da cidade, você perderia pontos de dados-chave. Garantir que seus dados tenham sido
inseridos corretamente é a chave para uma análise precisa e completa.
● Ignorando os valores ausentes: Valores em falta em seu conjunto de dados podem criar erros e dar-lhe
conclusões imprecisas. Por exemplo, se você estivesse tentando obter o número total de vendas dos últimos três
meses, mas faltasse uma semana de transações, seus cálculos não seriam imprecisos. Como melhor prática,
tente manter seus dados o mais limpos possível, mantendo a completude e consistência.
● Apenas olhando para um subconjunto dos dados: É importante pensar em todos os dados relevantes quando
você estiver limpando. Isto ajuda a entender toda a história que os dados estão contando, e que você está
prestando atenção a todos os possíveis erros. Por exemplo, se você estiver trabalhando com dados sobre
padrões de migração de aves de diferentes fontes, mas você limpa apenas uma fonte, você pode não perceber
que alguns dos dados estão sendo repetidos. Isto causará problemas em sua análise mais tarde. Se você quiser
evitar erros comuns como duplicatas, cada campo de seus dados requer a mesma atenção.
● Perder a noção dos objetivos comerciais: Quando você estiver limpando dados, você pode fazer novas e
interessantes descobertas sobre seu conjunto de dados - mas você não quer que essas descobertas o distraiam
da tarefa em mãos. Por exemplo, se você estava trabalhando com dados meteorológicos para encontrar o número
médio de dias chuvosos em sua cidade, você também pode notar alguns padrões interessantes sobre a queda de
neve. Isso é realmente interessante, mas não está relacionado à pergunta que você está tentando responder no
momento. Ser curioso é ótimo! Mas tente não deixar que isso o distraia da tarefa em mãos.
● Não consertando a fonte do erro: A correção do erro em si é importante. Mas se esse erro é realmente parte de
um problema maior, você precisa encontrar a origem do problema. Caso contrário, você terá que continuar
corrigindo esse mesmo erro uma e outra vez. Por exemplo, imagine que você tenha uma planilha de equipe que
acompanhe o progresso de todos. A tabela continua quebrando porque pessoas diferentes estão inserindo
valores diferentes. Você pode continuar resolvendo todos esses problemas um a um, ou pode configurar sua
tabela para agilizar a entrada de dados de modo que todos estejam na mesma página. A abordagem da fonte dos
erros em seus dados lhe poupará muito tempo a longo prazo.
● Não analisar o sistema antes da limpeza dos dados: Se quisermos limpar nossos dados e evitar erros futuros,
precisamos entender a causa raiz de seus dados sujos. Imagine que você é um mecânico de automóveis. Você
encontraria a causa do problema antes de começar a consertar o carro, certo? O mesmo vale para os dados.
Primeiro, você descobre de onde vêm os erros. Talvez seja devido a um erro de entrada de dados, não ter sido
feita uma verificação ortográfica, falta de formatos, ou de duplicatas. Então, quando você entender de onde vêm
os dados ruins, você pode controlá-los e manter seus dados limpos.
● Não fazer backup de seus dados antes da limpeza dos dados: É sempre bom ser pró-ativo e criar seu backup
de dados antes de iniciar a limpeza de seus dados. Se seu programa falhar, ou se suas alterações causarem um
problema em seu conjunto de dados, você pode sempre voltar à versão salva e restaurá-la. O simples
procedimento de backup de seus dados pode lhe poupar horas de trabalho - e o mais importante, uma dor de
cabeça.
● Não contabilizando a limpeza de dados em seus prazos/processos: Todas as coisas boas levam tempo, e
isso inclui a limpeza de dados. É importante ter isso em mente ao passar por seu processo e ao olhar para seus
prazos. Quando você reserva tempo para a limpeza dos dados, isso ajuda a obter uma estimativa mais precisa
dos ETAs para as partes interessadas, e pode ajudá-lo a saber quando solicitar um ETA ajustado.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Recursos adicionais
Consulte estas listas "top ten" para limpeza de dados no Microsoft Excel e Google Sheets para ajudá-lo a evitar os erros
mais comuns:
● As dez melhores maneiras de limpar seus dados: reveja um guia ordenado de limpeza de dados no Microsoft
Excel.
● 10 dicas do Google Workspace para limpar dados: aprenda as melhores práticas de limpeza de dados no Google
Sheets.
Atividade prática: Limpeza de dados em planilhas
Visão geral da atividade
Você aprendeu sobre os dados de limpeza e sua importância para atender aos bons padrões da ciência dos dados. Nesta
atividade, você fará uma limpeza de dados com planilhas, depois transporá os dados. Ao concluir esta atividade, você
poderá realizar alguns métodos básicos de limpeza em planilhas. Isto lhe permitirá limpar e transpor dados, o que é
importante para tornar os dados mais específicos e precisos em sua carreira como analista de dados.
O que você vai precisar
Para usar a planilha deste item do curso, clique no link abaixo e selecione “Usar modelo”.
Link para a planilha de dados: Limpeza com planilhas
Selecionar e remover células em branco
A primeira técnica que utilizaremos é selecionar e eliminar linhas contendo células em branco, utilizando filtros. Para
eliminar linhas com células em branco:
1. Destaque todas as colunas na planilha. Você pode destacar as colunas de A-H clicando no cabeçalho da Coluna A,
segurando Shift e clicando no cabeçalho da Coluna H.
2. Clique na guia Dados e escolha a opção Criar um filtro. No Microsoft Excel, isto se chama Filtro.
Excel:
3. Cada coluna agora mostra um triângulo verde
na primeira linha ao lado do título da coluna.
Clique no triângulo verde na Coluna B para
acessar um novo menu.
4. Nesse novo menu, clique em Filtrar por
condição e abra o menu suspenso para selecionar
Está vazio. Clique OK.
No Excel, clique no menu suspenso, depois
Filtro... depois certifique-se de que apenas (Em
branco) esteja verificado. Clique OK.
Excel:
Você pode então rever uma lista de todas as linhas
com células em branco naquela coluna.
5. Selecione todas essas células e apague as linhas,
exceto a linha de cabeçalhos das colunas.
6. Retorne ao Filtro por condição e devolvê-lo a
Nenhum. No Excel, clique em Limpar filtro da 'Coluna'.
https://support.microsoft.com/en-us/office/top-ten-ways-to-clean-your-data-2844b620-677c-47a7-ac3e-c2e157d1db19
https://support.google.com/a/users/answer/9604139?hl=en#zippy=
https://docs.google.com/spreadsheets/d/1PkAbgXC7C1g2dKzCCpaHBcAyPw-s1z7iUxIEJ0cCYWQ/template/preview
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Observação: Agora você notará que qualquer linha que tivesse uma célula vazia na coluna A será removida (incluindo as
linhas vazias extras após os dados).
7. Repita isto para as colunas B-H.
Todas as linhas que tinham célulasem branco são agora removidas da planilha.
Transpor os dados
A segunda técnica que você praticará ajudará a converter os dados do formato longo atual (mais linhas do que colunas)
para o formato largo (mais colunas do que linhas). Esta ação é chamada de transposição. Para transpor seus dados:
1. Destaque e copie os dados que você deseja transpor, incluindo as etiquetas das colunas. Você pode fazer isso
destacando as colunas A-H. No Excel, destaque apenas as células relevantes (A1-H45) em vez dos cabeçalhos.
2. Clique com o botão direito do mouse na célula I1. É por aqui que você quer que os dados transpostos comecem.
3. Passe o mouse sobre o Colar Especial a partir do menu do clique direito. Selecione a opção Transposto. No Excel,
selecione o ícone Transpor sob as opções de colar.
Excel:
Agora você deve encontrar os
dados transformados no novo
formato amplo. Neste ponto, você
deve remover os dados longos
originais da planilha de cálculo.
4. Elimine os dados longos anteriores. A maneira mais fácil de fazer isso é clicar na Coluna A, de modo que a coluna
inteira seja destacada. Em seguida, segure a tecla Shift e clique na coluna H. Estas colunas devem ser destacadas. Clique
com o botão direito do mouse na área destacada e selecione Excluir
colunas A - H.
Sua tela deve agora aparecer assim:
Livre-se de espaços extras em células com dados
de string
Agora que você já transpôs os dados, elimine os espaços extras nos valores
das células.
1. Destaque os dados na planilha.
2. Clique na guia Data, depois passe o mouse sobre Data cleanup e
selecione Trim whitespace.
No Excel, você pode usar o comando TRIM para se livrar dos espaços
brancos. Em qualquer espaço abaixo de seus dados (como a célula A10),
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
digite = TRIM(A1). Em seguida, arraste o canto inferior direito da célula para o canto inferior direito para chamar os dados
sem os espaços em branco.
Agora todos os espaços extras nas células foram removidos.
Alterar o texto em maiúsculas/minúsculas/tamanho correspondente
A seguir, você processará os dados de string. A maneira mais fácil de limpar os dados de string dependerá do programa
de planilhas que você estiver usando. Se você estiver usando o Excel, você usará uma fórmula simples. Se você estiver
usando o Google Sheets, poderá usar um Add-On para fazer isso com alguns cliques. Siga os passos na seção relevante
abaixo.
Microsoft Excel - Se você estiver usando o Microsoft Excel, esta documentação explica como usar uma fórmula para alterar
o caso de uma cadeia de texto. Siga estas instruções para limpar o texto de string e depois passe para a seção de
confirmação e reflexão desta atividade.
Google Planilhas - Se você estiver completando este exercício usando o Google Sheets, precisará instalar um suplemento
que lhe dará a funcionalidade necessária para limpar facilmente os dados de
string e mudar os casos.
Instruções complementares para Google Planilhas Add-on:
1. Clique na opção Add-Ons na parte superior das folhas do Google.
2. Clique em Obter add-ons.
3. Busca por ChangeCase. Deveria parecer assim:
4. Clique em Instalar para instalar o add-on. Ele pode pedir que você
faça o login ou verifique as permissões de instalação.
Uma vez instalado com sucesso o add-on, você pode acessá-lo clicando
novamente no menu Add-ons. Agora, você pode mudar o tamanho do texto dos
dados que aparecem. Para alterar o texto na coluna C para todas as letras
maiúsculas:
1. Clique na coluna C. Certifique-se de desmarcar o cabeçalho da coluna, a menos que você queira mudar o tamanho da
letra também (o que você não quer).
2. Clique na guia Add-Ons e selecione ChangeCase. Selecione a opção Todas as letras maiúsculas. Observe as outras
opções que você poderia ter escolhido, se necessário.
Excluir toda formatação
Se você quiser limpar a formatação de qualquer célula ou de todas, você pode encontrar o comando na guia Formatar.
Para uma formatação limpa:
1. Selecione os dados para os quais você deseja excluir a formatação. Neste caso, destaque todos os dados da planilha
clicando e arrastando sobre as Linhas 1-8.
2. Clique na guia Formatar e selecione a opção Limpar formatação.
No Excel, vá para a guia Home, depois passe o mouse sobre Clear e selecione Clear Formats.
Você notará que todas as células tiveram sua formatação removida.
https://support.microsoft.com/en-us/office/change-the-case-of-text-in-excel-adc65f5b-958f-46a2-4d23-ab4d5faf48a8
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Confirmação e reflexão
Pergunta 1 - Revise o produto final da planilha que você limpou durante esta atividade. Qual das colunas a seguir é
a mais à direita?
Coluna AZ
Coluna AA
Coluna Z
Coluna AS
Correto - No produto final desta atividade, a coluna mais à direita é a Coluna AS. Você poderá encontrar estas informações depois de ter
transposto os dados corretamente. Seguindo adiante, você pode aplicar o que aprendeu sobre limpeza e transposição de dados para
trabalhar com dados no futuro.
Pergunta 2 - Nesta atividade, você praticou a limpeza e a transposição de dados. Na caixa de texto abaixo, escreva
de duas a três frases (40 a 60 palavras) em resposta a cada uma das perguntas a seguir:
Qual foi a parte mais desafiadora da limpeza dos dados?
A parte mais desafiadora da limpeza de dados é lidar com valores ausentes e inconsistentes. Tratar esses dados de forma
eficaz requer técnicas complexas, como imputação de valores faltantes e detecção e correção de inconsistências, para
garantir a integridade e a qualidade dos dados resultantes.
Por que a limpeza e a transposição de dados é importante para a análise de dados?
A limpeza e a transposição de dados são importantes para a análise de dados, pois garantem que os dados estejam corretos,
consistentes e prontos para análise. Isso melhora a precisão dos resultados, ajuda a identificar insights relevantes e evita
decisões errôneas com base em dados inadequados.
Se você tivesse que limpar esses dados novamente, o que você faria de diferente? Por quê?
Correto - Parabéns por concluir esta atividade prática! Nesta atividade, você limpou e transpôs os dados em uma planilha. Uma boa resposta
incluiria que a limpeza é um passo fundamental na ciência dos dados, pois aumenta muito a integridade dos dados. Bons resultados da
ciência dos dados dependem muito da confiabilidade dos dados. Os analistas de dados limpam os dados para torná-los mais precisos e
confiáveis. Isto é importante para garantir que os projetos em que você irá trabalhar como analista de dados sejam concluídos corretamente.
Teste seus conhecimentos sobre técnicas de limpeza de dados
Pergunta 1 - Preencha a lacuna: Cada banco de dados tem sua própria formatação, o que pode fazer com que os
dados pareçam inconsistentes. Os analistas de dados utilizam a ferramenta _____ para criar uma aparência visual
limpa e consistente para as planilhas.
autocorreção
formatação condicional
formatos claros
verificação ortográfica
Correto - Os analistas de dados utilizam a ferramenta de formatos claros para criar uma aparência visual limpa e consistente para as
planilhas.
Pergunta 2 - Qual é o processo de combinar dois ou mais conjuntos de dados em um único conjunto de dados?
Composição dos dados
Validação de dados
Transferência de dados
Fusão de dados
Correto - A fusão de dados é o processo de combinar dois ou mais conjuntos de dados em um único conjunto de dados.
Pergunta 3 - Preencha a lacuna: Em análise de dados, _____ descreve como dois ou mais conjuntos de dados são capazes de
trabalhar em conjunto.
compatibilidade
acordo
alinhamento
adequação
Correto - A compatibilidade descreve quão bem dois ou mais conjuntos de dados são capazes de trabalhar em conjunto.
2.3 - DADOS DE LIMPEZA EM PLANILHAS
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
VÍDEO - FUNÇÕES DE LIMPEZA DE DADOS EM PLANILHAS - Olá outra vez. Como você aprendeu antes, há muitas formas
diferentes de limpar os dados. Mostrei alguns exemplos de como você pode limpar os dados manualmente, bem como buscar e
resolver erros ortográficosou remover espaços vazios e duplicatas. Aprendemos também que muitas das aplicações de planilhas têm
ferramentas que ajudam a simplificar e acelerar o processo de limpeza de dados. Há muitas ferramentas que são eficientes que os
analistas de dados usam a todo momento, tais como a formatação condicional, remoção de duplicatas, formatação de datas,
fixação de strings de texto e substrings, e divisão do texto em colunas. Vamos explorar essas ferramentas mais detalhadamente.
A primeira é algo chamado formatação condicional. Formatação condicional é uma ferramenta de planilha eletrônica que muda a
forma como as células aparecem quando os valores encontram condições específicas. Da mesma forma, ela pode avisar quando
uma célula não atende às condições que você estabeleceu. Sugestões visuais como esta são muito úteis para os analistas de dados,
especialmente quando estamos trabalhando em uma grande planilha com muitos dados. Destacando certos pontos dos dados deixa a
informação mais fácil para entender e analisar. Para a limpeza de dados, saber quando os dados não seguem a condição é muito
útil. Vamos voltar à planilha da associação de logística para visualizar a formatação condicional em ação. Usaremos a formatação
condicional para destacar as células em branco. Dessa forma, sabemos onde há informações ausentes para que possamos
adicioná-las à planilha. Para fazer isso, começaremos selecionando a faixa que queremos pesquisar. Para este exemplo, nós não
estamos focados no endereço 3 e no endereço 5. Os campos incluirão todas as colunas em nossa planilha, exceto para F e H. Depois,
vamos em Formatar e escolher Formatação condicional. Excelente. Nossa faixa é automaticamente indicada no campo. A regra de
formato será formatar células se a célula está vazia. Finalmente, vamos escolher o estilo de formatação. Eu vou escolher um tom de
rosa brilhante, para que meus espaços em branco se destaquem. Em seguida, clique em "Pronto" e as células em branco são
instantaneamente destacadas. A próxima ferramenta de planilha remove as duplicatas. Como você já aprendeu, é sempre inteligente
fazer uma cópia dos dados antes de remover qualquer coisa. Vamos fazer isso agora. Ótimo, agora podemos continuar. Você deve se
lembrar que nossa planilha de exemplo tem um membro da associação listado duas vezes. Para corrigir isso, vá para Dados e
selecione "Remover duplicatas". "Remover duplicatas" é uma ferramenta que busca e elimina automaticamente entradas
duplicadas de uma planilha. Escolha "Os Dados têm linha de cabeçalho", porque nossa planilha tem uma linha no topo que descreve
o conteúdo de cada coluna. Em seguida, selecione "Todos" porque queremos inspecionar nossa planilha inteira. Finalmente, "Remover
duplicatas". Você notará que a linha duplicada foi encontrada e removida imediatamente. Outra ferramenta útil da planilha eletrônica
permite que você faça formatações consistentes. Por exemplo, algumas das datas nesta planilha estão em um formato de data
padrão. Isto poderia ser confuso se você quisesse analisar quando membros da associação se associaram, com que frequência eles
renovaram suas adesões, ou há quanto tempo eles estão associados. Para deixar todas as nossas datas consistentes, primeiro
selecione a coluna J, depois vá para "Formatar". Selecione "Número", depois "Data". Agora todas as nossas datas têm um formato
consistente. Antes de seguirmos para a próxima ferramenta, quero explicar o que é uma string de texto. Na análise de dados, uma
string de texto é um grupo de caracteres dentro de uma célula, mais frequentemente composto por letras. Uma característica
importante da string de texto é seu comprimento, que é o número de caracteres nela contidos. Você vai aprender mais sobre isso
em breve. Por enquanto, também é útil saber que uma substring é um subconjunto de uma string de texto. Agora vamos falar de
Split (Dividir). Split é uma ferramenta que divide uma string de texto em um caracter específico e coloca cada fragmento em
uma célula nova e separada. Split é útil quando você tem mais de um pedaço de dados em uma célula e deseja separá-los.
Pode ser o nome e sobrenome de uma pessoa listados juntos, ou pode ser uma célula que contém a cidade, estado, país, e CEP de
alguém, mas você realmente quer cada um deles em sua própria coluna. Digamos que esta associação quis analisar todas as
diferentes certificações profissionais que seus membros ganharam. Para fazer isso, você quer cada certificação separada em sua
própria coluna. Neste momento, as certificações estão separadas por uma vírgula. Esse é o texto especificado separando cada
item, também chamado de delimitador. Vamos separá-los. Destaque a coluna, e selecione "Dados," e "Dividir texto em colunas".
Esta aplicação da planilha sabia automaticamente que a vírgula era um delimitador e separou cada certificação. Mas às vezes
você pode precisar especificar o delimitador. Você pode fazer isso aqui. Dividir o texto em colunas também é útil para fixar casos
de números armazenados como texto. Algumas vezes valores em sua planilha irão parecer números, mas são formatados como
texto. Isto pode acontecer ao copiar e colar de um lugar para outro ou se a formatação está errada. Para este exemplo, vamos dar uma
olhada na nossa nova planilha eletrônica de um fabricante de cosméticos. Se um analista de dados quisesse determinar os lucros
totais, eles poderiam somar tudo na coluna F. Mas há um problema; tem um erro em uma das células Se você verificar perceberá que o
"707" nesta célula é texto e não pode ser transformado em um número. Quando a planilha tenta multiplicar o custo do produto pelo
número de unidades vendidas, é incapaz de fazer o cálculo. Mas se selecionarmos a coluna de pedidos e escolhermos "Dividir texto
em colunas". O erro é resolvido porque agora pode ser tratado como um número. A seguir, você aprenderá uma ferramenta que faz
exatamente o contrário. CONCATENAR é uma função que une múltiplas strings de texto em uma única string. As planilhas são
uma parte muito importante da análise de dados. Elas economizam tempo e esforço dos analistas de dados e nos ajudam a eliminar
erros todos os dias. Aqui, você conheceu algumas das ferramentas mais comuns que utilizamos. Mas há muito mais por vir. A seguir,
vamos aprender mais sobre limpeza de dados com ferramentas de planilha. Até a próxima!
VÍDEO - OTIMIZAR O PROCESSO DE LIMPEZA DE DADOS - Olá mais uma vez! Você aprendeu sobre algumas ferramentas de
limpeza de dados muito úteis que são incorporadas diretamente em aplicações de planilhas eletrônicas. Agora vamos explorar como
as funções podem otimizar seus esforços para garantir a integridade dos dados. Só para lembrar, uma função é um conjunto de
instruções que realiza um cálculo específico usando os dados de uma planilha. A primeira função que abordaremos é chamada
COUNTIF. COUNTIF é uma função que retorna o número de células que corresponde a um valor especificado. Basicamente,
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
isso conta o número de vezes que um valor aparece em um conjunto de células. Vamos voltar para nossa planilha profissional de
associação. Neste exemplo, queremos ter certeza de que os valores de adesão da associação estão listados com precisão. Vamos
usar COUNTIF para verificar alguns problemas comuns, como números negativos ou um valor que é muito menor ou muito maior do
que o esperado. Para começar, vamos encontrar o filiação mais barata: US$100 para estudantes associados. Esse será o número mais
baixo que existe nesta coluna. Se alguma célula tem um valor que é menor que 100, COUNTIF nos avisará. Acrescentaremos mais
algumas linhas no fundo de nossa planilha, depois abaixo da coluna H, digite "member dues < 100". Depois digite a função na célula
do lado. Toda função tem uma certa sintaxe que precisa ser seguida para que ele funcione. A sintaxe é uma estrutura
pré-determinada que inclui todas as informações necessárias e sua correta colocação. A sintaxe de uma função COUNTIF deve
ser assim: =COUNTIF(I2:I72;”<100”). Isto diz a função para passarpela coluna I, e devolver uma contagem de todas as células que
contêm um número inferior a 100. Acontece que existe um! Percorrendo nossos dados, descobrimos que um pedaço de dados foi
erroneamente digitado como um número negativo. Vamos consertar isso agora. Agora vamos usar COUNTIF para procurar quaisquer
valores que sejam maiores do que o esperado. O tipo mais caro de associação é de US$ 500 para membros corporativos. Digite a
função na célula. Desta vez, ela irá aparecer assim: I2 até I72 ainda é a faixa, mas o valor é superior a 500. Há um aqui também.
Veja a seguir. Esta entrada tem um zero extra. Deve ser de US$100. A próxima função abordada é chamada de LEN. A próxima função
lhe diz o comprimento da string de texto contando o número de caracteres existentes. Isto é útil na limpeza de dados se você
tiver um certo pedaço de informação na sua planilha que você sabe que deve conter um certo comprimento. Por exemplo, esta
associação usa códigos de identificação de membros de seis dígitos Se tivéssemos acabado de importar estes dados e quiséssemos
assegurar que nossos códigos estão todos corretos em números de dígitos, usaríamos LEN. A sintaxe do LEN é: =LEN(faixa/range).
Vamos inserir uma nova coluna após a identificação do membro. Depois digite um sinal de igual e LEN. Acrescente um parêntese
aberto. A faixa é o primeiro Número de identificação de membros em A2. Conclua a função fechando o parêntese. Ela nos diz que há
seis caracteres na célula A2. Vamos continuar a função através da coluna inteira e descobrir se há os resultados que não são seis.
Mas ao invés de manualmente passando por nossa planilha para pesquisar para estes casos, usaremos a formatação condicional.
Falamos de formatação condicional mais cedo. É uma ferramenta de planilha que muda a forma como as células aparecem
quando valores atendem a condições específicas. Vamos praticar isso agora. Selecione toda a coluna B exceto o cabeçalho. Em
seguida, vá para Formatar e escolha Formatação condicional. A regra de formatação é para formatar células se não for igual a seis.
Clique em "Pronto." A célula com os sete é destacada. Agora vamos conversar sobre LEFT e RIGHT. A função LEFT é uma função
que lhe dá um determinado número de caracteres do lado esquerdo de uma string de texto. A função RIGHT é uma função que
lhe dá um determinado número de caracteres do lado direito de uma string de texto. Como um lembrete rápido, uma string de
texto é um grupo de caracteres dentro de uma célula, comumente composto de letras, números, ou ambos. Para ver estas funções
em ação, vamos voltar para a planilha do do fabricante de cosméticos de antes. Esta planilha contém códigos de produtos. Cada um
tem cinco dígitos numéricos e depois quatro caracteres identificadores de texto. Mas digamos que nós queremos trabalhar com apenas
um lado ou com o outro. Você pode usar LEFT ou RIGHT para lhe dar o conjunto específico de caracteres ou números que você
precisa. Vamos praticar limpando nossos dados usando a função LEFT primeiro. A sintaxe de LEFT é: =LEFT(faixa/range; número de
caracteres desejados do lado esquerdo). Aqui, nosso projeto requer apenas códigos numéricos de cinco dígitos. Em uma coluna
separada, digite igual a LEFT abra parênteses, depois a faixa. Nossa linha é A2. Em seguida, adicione uma vírgula e então o número 5
para o código de produto com cinco dígitos. Finalmente, finalize a função com o parêntese fechado. Nossa função deve aparecer
assim. Pressione "Enter." E agora, temos uma substring, que é a parte do número do código do produto. Clique e arraste esta função
através de toda a coluna para separar o resto dos códigos do produto apenas pelo número. Agora, digamos que nosso projeto só
precisa do identificador de texto com quatro caracteres. Para isso, vamos usar a função RIGHT, e a próxima coluna irá iniciar a função.
A sintaxe =RIGHT(faixa/range; número de caracteres desejados do lado direito). Vamos digitar isso agora. Igual a right, abrir
parênteses, e a faixa ainda é A2. Adicione uma vírgula. Desta vez, vamos dizer que queremos os quatro primeiros caracteres da
direita. Fecha o parênteses e pressione "Enter". Então, arraste a função em toda a coluna. Agora, podemos analisar o produto em
nossa planilha baseada em qualquer uma das substrings O código numérico de cinco dígitos ou os quatro caracteres identificadores
de texto. Esperamos que isso deixe claro como você pode usar a função LEFT e RIGHT para extrair substrings do lado esquerdo e
direito de uma string. Agora, vamos aprender como você pode extrair algo no meio. Aqui é onde vamos usar algo chamado MID. A MID
é uma função que lhe dá um segmento do no meio de uma string de texto. Esta empresa de cosméticos lista todos os seus
clientes usando um código de cliente. É composto pelas três primeiras letras da cidade onde o cliente está localizado, sua abreviatura
de estado, e depois um número identificador de três dígitos. Mas digamos que um analista de dados precisa trabalhar apenas com os
estados no meio. A sintaxe para MID é =MID(faixa/range; ponto de referência inicial; número de caracteres desejados do meio da
string). Ao usar a MID, você sempre precisa fornecer um ponto de referência. Em outras palavras, você precisa definir onde a
função deve começar. Depois disso, coloque outra vírgula, e quantos caracteres do meio você deseja. Neste caso, nossa linha é D2.
Vamos começar a função em uma nova coluna. Digite igual a MID, abra parênteses, D2. Depois os três primeiros caracteres
representam um nome de cidade, de modo que isso significa que o ponto inicial é o quarto. Adicione uma vírgula e quatro. Também
precisamos dizer a função quantos caracteres do meio queremos. Adicione mais uma vírgula, e dois, porque a abreviação dos estados
têm dois caracteres. Pressione "Enter" e está feito, acabamos de receber a abreviação de estado. Continuar a função MID através do
resto da coluna. Conhecemos um pouco as funções que ajudam a separar strings de texto específicas. Mas e se quisermos
combiná-los? Para isso, utilizaremos a função CONCATENAR, que é uma função que une duas ou mais strings de texto. A sintaxe
é: =CONCATENAR (item1, item2) - indique cada string de texto (item) que você quer unir, separados por vírgulas. Só para praticar,
vamos dizer que precisávamos voltar a reunir as strings de texto da esquerda e da direita novamente em códigos de produtos
completos. Em uma nova coluna, vamos iniciar nossa função. Digite igual a CONCATENATE, depois abrir parêntese. A primeira string
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
de texto que queremos unir é na H2. Depois acrescente uma vírgula. A segunda parte está na I2. Adicione um parêntese fechado e
pressione "Enter". Arraste para baixo através da coluna inteira, e, simples assim, todos os nossos códigos de produto estão juntos
novamente. A última função que conheceremos aqui é TRIM. TRIM é uma função que remove os espaços extras e repetidos nos
dados. Às vezes, quando você importa dados, suas células têm espaços extras, que podem atrapalhar a sua análise. Por exemplo, se
este fabricante de cosméticos quisesse procurar um nome específico do cliente, não vai aparecer na busca se tiver espaços extras.
Você pode usar TRIM para resolver esse problema. A sintaxe para TRIM é: =TRIM(faixa/range). Em uma coluna separada, digite igual
a TRIM e abra parêntese. A faixa é C2, como você deseja verificar os nomes dos clientes. Feche o parênteses e pressione "Enter".
Finalmente, continue a função abaixo da coluna. A TRIM resolveu os espaços extras. Agora conhecemos algumas funções muito úteis
que podem fazer sua limpeza de dados ainda mais bem sucedida. Foi uma grande quantidade de informações. Como sempre, sinta-se
livre para voltar e rever o vídeo e depois pratique por conta própria. Vamos continuar evoluindo com estas ferramentas em breve, e
você também terá uma chance de praticar. Muito em breve, estas etapas de limpeza de dados se tornarão hábitos, como escovar seus
dentes.
Automação do fluxo de trabalho
Nesta leitura, você aprenderá sobre a automaçãodo fluxo de trabalho e como ela pode ajudá-lo a trabalhar mais
rapidamente e com mais eficiência. Basicamente, a automação do fluxo de trabalho é o processo de automatização
de partes de seu trabalho. Isso pode significar a criação de um gatilho de evento que envia uma notificação quando
um sistema é atualizado. Ou pode significar a automatização de partes do processo de limpeza de dados. Como você
provavelmente pode imaginar, automatizar diferentes partes de seu trabalho pode economizar toneladas de tempo,
aumentar a produtividade e lhe dar mais largura de banda para se concentrar em outros aspectos importantes do trabalho.
O que pode ser automatizado?
A automação parece incrível, não é mesmo? Mas por mais conveniente que seja, ainda há algumas partes do trabalho que
não podem ser automatizadas. Vamos dar uma olhada em algumas coisas que podemos automatizar e algumas coisas
que não podemos.
Tarefa Pode ser automatizado? Por quê?
Comunicando com sua equipe
e partes interessadas Não
A comunicação é a chave para entender as necessidades de sua equipe e das
partes interessadas à medida que você completa as tarefas em que está
trabalhando. Não há substituto para as comunicações de pessoa para
pessoa.
Apresentando suas
descobertas Não
Apresentar seus dados é uma grande parte do seu trabalho como analista de
dados. Tornar os dados acessíveis e compreensíveis às partes interessadas e
criar visualizações de dados não pode ser automatizado pelas mesmas
razões que as comunicações não podem ser automatizadas.
Preparação e limpeza de
dados Parcialmente
Algumas tarefas na preparação e limpeza de dados podem ser automatizadas
através da configuração de processos específicos, como o uso de um script de
programação para detectar automaticamente os valores ausentes.
Exploração de dados Parcialmente
Às vezes, a melhor maneira de entender os dados é vê-los. Por sorte, há muitas
ferramentas disponíveis que podem ajudar a automatizar o processo de
visualização de dados. Estas ferramentas podem acelerar o processo de
visualização e compreensão dos dados, mas a exploração em si ainda precisa
ser feita por um analista de dados.
Modelagem dos dados Sim
A modelagem de dados é um processo difícil que envolve muitos fatores
diferentes; felizmente, existem ferramentas que podem automatizar
completamente as diferentes etapas.
Mais sobre a automatização da limpeza de dados
Uma das formas mais importantes de agilizar a limpeza de seus dados é limpar os dados onde eles vivem. Isto beneficiará
toda a sua equipe, e também significa que você não precisa repetir o processo uma e outra vez. Por exemplo, você
poderia criar um script de programação que contasse o número de palavras em cada arquivo de planilha armazenado em
uma pasta específica. Usar ferramentas que podem ser usadas onde seus dados são armazenados significa que você não
precisa repetir seus passos de limpeza, economizando tempo e energia para você e sua equipe.
Mais recursos
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Existem muitas ferramentas por aí que podem ajudar a automatizar seus processos, e essas ferramentas estão
melhorando o tempo todo. Aqui estão alguns artigos ou blogs que você pode conferir se quiser saber mais sobre
automação de fluxo de trabalho e as diferentes ferramentas que existem por aí para você usar:
● Towards Data Science’s automatização da análise de dados científicos
● MIT News’ automatizando a análise de Big-Data
● TechnologyAdvice’s 10 das Melhores Opções para Software de Automação do Fluxo de Trabalho
Como analista de dados, a automação pode economizar muito tempo e energia e liberá-lo para se concentrar mais em
outras partes do seu projeto. Quanto mais análise você fizer, mais maneiras você encontrará de tornar seus processos
mais simples e mais racionalizados.
VÍDEO - OTIMIZAR O PROCESSO DE LIMPEZA DE DADOS - Ola! Vamos direto ao ponto. O palestrante motivacional Wayne
Dyer disse uma vez, "Se você mudar a maneira como você olha as coisas, as coisas que você vê mudam". Isto é
muito verdadeiro na análise de dados. Não há dois projetos analíticos que são sempre exatamente os mesmos.
Portanto, só faz sentido que diferentes projetos nos obriguem à concentração em diferentes informações de maneira
diferente. Neste vídeo, vamos explorar diferentes métodos que os analistas de dados usam para olhar para os dados de
forma diferente e como isso leva a uma maior eficiência e limpeza eficaz dos dados. Alguns desses métodos incluem a
classificação e tabela dinâmica de filtragem, uma função chamada VLOOKUP e plotting (PLOTAGEM) para encontrar
as outliers (discrepâncias). Vamos começar com a classificação e a filtragem. Como você aprendeu, classificar e
filtrar os dados ajuda os analistas de dados a personalizarem e organizarem as informações da maneira que eles
precisam para um determinado projeto. Mas essas ferramentas também são muito úteis para a limpeza de dados. Você
deve se lembrar que a classificação envolve organizar os dados de forma que facilite sua compreensão, análise e
visualização. Para limpeza de dados, você pode usar a classificação para colocar as coisas em ordem alfabética ou
numérica, para que você possa encontrar facilmente um pedaço de dado. A classificação também pode trazer entradas
duplicadas mais próximas uns dos outros para uma identificação mais rápida. Os filtros, por outro lado, são muito úteis
na limpeza de dados quando você deseja encontrar uma informação específica. Você aprendeu antes que a filtragem
significa mostrar apenas os dados que atendem a um critério específico enquanto esconde o resto. Isto permite que
você veja apenas as informações que você precisa. Ao limpar dados, você pode usar um filtro para encontrar apenas
valores acima de um certo número, ou apenas valores pares ou ímpares. Mais uma vez, isto ajuda você a encontrar o que
você precisa rapidamente e separa as informações que você quer do resto. Desse modo você pode ser mais eficiente ao
limpar seus dados. Outra maneira de mudar a maneira como você visualiza os dados é usando a tabela dinâmica. Você
aprendeu que uma tabela dinâmica é uma ferramenta de compactação de dados que é utilizada em processamento
de dados. Tabela dinâmica ordena, reorganiza, agrupa, conta, dados totais ou médios armazenados no banco de
dados. Na limpeza de dados, a tabela dinâmica é usada para lhe dar uma rápida e limpa visualização de seus dados.
Você pode escolher olhar para as partes específicas do conjunto de dados que você precisa para obter um visual na forma
de uma tabela dinâmica. Vamos criar um agora usando nossa planilha de cosméticos novamente. Para começar, selecione
os dados que desejamos utilizar. Aqui, escolheremos a planilha inteira. Selecione "Dados" e depois "Tabela dinâmica".
Escolha "Nova folha" e "Criar". Digamos que estamos trabalhando em um projeto que requer de nós ver apenas os
produtos mais rentáveis. Itens que geram para o fabricante de cosméticos pelo menos US$10.000 em pedidos. Portanto, a
linha que incluiremos é "Total" para lucros totais. Vamos ordenar em ordem decrescente para colocar os itens mais
rentáveis no topo. E mostraremos os totais. A seguir, acrescentamos outra linha para produtos para que saibamos o que
esses números são. Podemos determinar claramente que os produtos mais rentáveis têm os códigos dos produtos 15143
E-X-F-O e 32729 M-A-S-C. Podemos ignorar o resto para este projeto em particular porque eles ficam abaixo de
US$10.000 em pedidos. Agora, podemos ser capazes de usar indícios do contexto para supor que estamos falando sobre
esfoliantes e máscaras. Mas não sabemos quais, ou se essa suposição estiver mesmo correta. Portanto, precisamos
confirmar o que os códigos dos produtos correspondem. E isto nos leva à próxima ferramenta. Chama-se VLOOKUP.
VLOOKUP significa "busca vertical". É uma função que procura um certo valor em uma coluna para retornar um
pedaço de informação correspondente. Quando os analistas de dados buscam informações para um projeto, é raro para
todos os dados que eles precisam estar no mesmolugar. Normalmente, você terá que procurar em várias planilhas ou
mesmo bancos de dados diferentes. A sintaxe do VLOOKUP é igual a VLOOKUP, abre parênteses, depois os dados que
você deseja consultar. A seguir, uma vírgula e onde você quer procurar por esses dados. Em nosso exemplo, este será o
nome de uma planilha seguida de um ponto de exclamação. O ponto de exclamação indica que estamos nos referindo a
uma célula em uma planilha diferente da que nós estamos atualmente trabalhando. Mais uma vez, isso é muito comum em
https://towardsdatascience.com/automating-scientific-data-analysis-part-1-c9979cd0817e
https://news.mit.edu/2016/automating-big-data-analysis-1021
https://technologyadvice.com/blog/information-technology/top-10-workflow-automation-software/
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
análise de dados. Ok, a seguir é a faixa no lugar onde você está procurando os dados, indicados utilizando a primeira e
última célula separada por dois pontos. Depois de mais uma vírgula é a coluna na faixa que contém o valor que será
retornado. A seguir, outra vírgula e a palavra "false". O que significa que uma correspondência exata é o que estamos
procurando. Finalmente, complete sua função fechando os parênteses (=VLOOKUP(dado a se pesquisar; ‘tabela onde
será pesquisada’!intervalo da pesquisa; coluna a ser retomada; false). Para simplificar, a VLOOKUP procura o valor
no primeiro argumento na coluna mais à esquerda do local especificado. Então o valor do terceiro argumento diz à
VLOOKUP para devolver o valor na mesma linha a partir da coluna especificada. O "falso" diz à VLOOKUP que
queremos uma correspondência exata. Em breve você vai aprender a diferença entre as correspondências exatas e
aproximadas. Mas por enquanto, saiba que o VLOOKUP toma o valor em uma célula e procura por uma correspondência
em outro lugar. Vamos começar. Vamos digitar igual a VLOOKUP. Em seguida, acrescente os dados que estamos
procurando, que são os dados do produto. O sinal do dólar garante que a parte correspondente da referência permanece
inalterada. Você pode trancar apenas a coluna, apenas a linha, ou ambos ao mesmo tempo. A seguir, vamos mandar
procurar na na planilha 2, em ambas as colunas. Acrescentamos 2 para representar a segunda coluna. O último termo,
"falso", diz que queremos uma correspondência exata. Com estas informações, podemos agora analisar os dados para
somente os produtos mais rentáveis. Voltando aos dois produtos mais rentáveis, podemos procurar por 15143 E-X-F-O E
32729 M-A-S-C. Vá para Editar e depois Encontrar. Digite os códigos dos produtos e procure por eles. Agora podemos
saber quais produtos iremos utilizar para este projeto em particular. A ferramenta final sobre a qual falaremos é algo
chamado de PLOTTING (PLOTAGEM). Quando você plota dados, você os coloca em um gráfico, tabela, ou outras formas
gráficas para ajudar você a encontrar rapidamente o que parece. O plotting é muito útil quando se tenta identificar
quaisquer dados enviesados ou discrepâncias. Por exemplo, se quisermos ter certeza se o preço de cada produto está
correto, poderíamos criar um gráfico. Isto nos dá um auxílio visual que nos ajuda a descobrir rapidamente se algo parece
um erro. Então vamos selecionar a coluna com nossos preços. Em seguida, iremos em Inserir e escolher Gráfico. Escolha
uma tabela de colunas como o tipo. Um destes preços parece extremamente baixo. Se avaliarmos, descobriremos que
este item tem um ponto decimal no lugar errado. Deve ser de US$7,30, não 73 centavos. Isso teria um grande impacto
sobre nossos lucros totais. Então é uma coisa boa que pegamos durante a limpeza dos dados. Olhar para os dados de
forma nova e criativa ajuda os analistas de dados a identificar todos os tipos de dados sujos. A partir de agora, você
continuará praticando estes novos conceitos, assim você pode se familiarizar com a ferramenta. Você também aprenderá
estratégias adicionais para garantir que seus dados estejam limpos, e nós lhe ajudaremos com insights eficazes. Até
agora, excelente trabalho.
VÍDEO - AINDA MAIS TÉCNICAS DE LIMPEZA DE DADOS - Olá! Até agora você aprendeu muito sobre diferentes ferramentas
e funções que os analistas usam para limpar os dados para análise. Agora vamos dar um passo atrás e falar sobre alguns
dos aspectos principais dos dados limpos. Sabendo como resolver problemas específicos, seja manualmente com
ferramentas especiais ou com funções, é extremamente valioso. Mas também é importante pensar em como seus
dados se moveram entre sistemas e como se desenvolveu ao longo de sua viagem para seu projeto de análise de
dados. Para isso, os analistas de dados usam algo chamado mapeamento de dados. O mapeamento de dados é o
processo de corresponder os campos de um banco de dados para outro. Isto é muito importante para o sucesso da
migração de dados, integração de dados, e muitas outras atividades de gestão de dados. Como você aprendeu
anteriormente, diferentes sistemas armazenam dados de diferentes maneiras. Por exemplo, o campo estado em uma
planilha pode mostrar Maryland soletrada. Mas outra planilha de cálculo pode armazená-la como MD. O mapeamento de
dados nos ajuda a observar estes tipos de diferenças para sabermos quando os dados que são movidos e combinados,
serão compatíveis. Apenas um rápido lembrete, compatibilidade descreve o quão bem dois ou mais conjuntos de
dados são capazes de trabalhar conjuntamente. O primeiro passo para o mapeamento de dados é a identificação de
quais dados precisam ser movidos. Isto inclui as tabelas e os campos dentro deles. Também precisamos definir o
formato desejado para os dados, uma vez que atinjam seu destino. Para descobrir como isso acontece, vamos voltar
para a fusão entre nossas duas associações de logística. Começando com o primeiro campo de dados, vamos identificar
que precisamos mover os dois conjuntos de IDs de membros. Para definir o formato desejado, escolheremos se vamos
usar números como esta planilha, ou endereços de e-mail como a outra planilha. A seguir vem o mapeamento dos dados.
Dependendo do esquema e número das chaves primárias e estrangeiras em uma fonte de dados, o mapeamento de dados
pode ser simples ou complexo. Lembrete: um esquema é uma maneira de descrever de que forma algo, como os
dados, é organizado. Uma chave primária referencia a coluna na qual cada valor é único e uma chave estrangeira é
um campo dentro de uma tabela que é uma chave primária em outra tabela. Para mais projetos desafiadores existem
todos os tipos de software de mapeamento dados que você pode usar. Essas ferramentas de mapeamento de dados
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
analisarão campo a campo como mover dados de um lugar para outro e depois eles automaticamente limpam,
correspondem, inspecionam, e validam os dados. Eles também criam convenções de nomenclatura, assegurando a
compatibilidade quando os dados são transferidos de uma fonte para outra. Ao selecionar um software para mapear seus
dados, você quer ter certeza de que ele suporta os tipos de arquivo com os quais você está trabalhando, como Excel,
SQL, Tableau, e outros. A seguir, você aprenderá mais sobre selecionar a ferramenta correta para uma tarefa específica.
Por enquanto, vamos praticar mapeamento de dados manualmente. Primeiro, precisamos determinar o conteúdo de cada
seção para ter certeza de que os dados fiquem no lugar certo. Por exemplo, os dados sobre quando a adesão expira seria
consolidado em uma única coluna. Esta etapa garante que cada pedaço de informação fique no lugar mais apropriado na
fonte de dados incorporada. Agora, você deve se lembrar que alguns dados eram inconsistentes entre as duas
organizações, como o fato de que se usa uma coluna separada para apartamento suíte ou número da unidade, mas o outro
não. Isso nos leva ao próximo passo: transformar os dados em um formato consistente. Este é um ótimo momento para
usar concatenação. Como você já aprendeu, concatenar é uma função que une dois ou mais strings de texto, que é o
que fizemos anteriormente com nosso exemplode empresa de cosméticos. Vamos inserir uma nova coluna e depois
digitar é igual a concatenar, e depois as duas strings de texto que queremos unir. Arraste através da coluna inteira. Agora
temos a consistência na nova associação resultante da fusão de listas de endereços de membros. Agora que tudo é
compatível, é hora de transferir os dados para o seu destino. Há muitas maneiras diferentes de mover dados de um
lugar para outro, incluindo a consulta, importação, e até mesmo o simples arrastar e soltar. Aqui está nossa planilha
incorporada. Parece bom, mas nós ainda queremos garantir que tudo foi transferido adequadamente. Iremos para a fase
de testes do mapeamento de dados. Para isso, você inspeciona uma amostra de dados para confirmar que está
limpo e devidamente formatado. É também uma prática inteligente fazer verificações pontuais em coisas como o
número de nulos. Para o teste, você pode usar muito as ferramentas de limpeza de dados que discutimos anteriormente,
tais como validação de dados, formatação condicional, COUNTIF, classificação e filtragem. Finalmente, uma vez que
você tenha determinado que os dados estão limpos e compatíveis, você pode começar a usar para análise. O
mapeamento de dados é muito importante porque até mesmo um erro ao fundir dados pode se propagar em uma
organização, fazendo com que o mesmo erro apareça repetidas vezes. Isso leva a resultados ruins. Por outro lado, o
mapeamento de dados pode salvar o dia, dando um roteiro claro para você poder seguir para garantir que seus dados
cheguem com segurança no destino. É por isso que você aprende como fazê-lo.
Atividade prática: Limpar dados usando funções de planilha
Visão geral da atividade
Até agora, você já foi introduzido a algumas técnicas úteis para a limpeza de dados de planilhas, tais como classificação e
filtragem. Nesta atividade, você continuará a desenvolver suas habilidades de limpeza de dados usando funções de
planilhas. Imagine que você é um analista de dados trabalhando para uma agência de marketing sediada em São
Francisco. A agência de marketing quer entrar em contato com as lojas de chá Boba locais para saber sobre uma possível
colaboração para uma nova campanha de marketing. A agência planeja visitar as lojas mais bem classificadas num raio de
10 milhas do centro de sua área alvo. Para auxiliar no planejamento, a agência pede que sua equipe analise dados
externos relacionados à classificação e localização de lojas de chá Boba em São Francisco. Um de seus colegas de
equipe criou uma planilha de cálculo a partir de uma fonte on-line. No entanto, os dados não estão na melhor forma. Sua
tarefa é identificar os elementos sujos no conjunto de dados e limpá-los. Ao concluir esta atividade, você será capaz de
identificar elementos sujos em um conjunto de dados, remover dados duplicados e usar as funções COUNTIF e SPLIT
para ajudar a limpar os dados.
O que você vai precisar
O conjunto de dados inclui os seguintes cabeçalhos de coluna:
Para começar, acesse a planilha que contém os dados.
Clique no link e faça uma cópia da planilha.
https://docs.google.com/spreadsheets/d/1ETb45bbtIn-q3Z-eps9cw66GgS2Gye8cOfKIoFi65DU/template/preview
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Identificar os elementos sujos em seus dados
Como analista de dados, seu trabalho é apresentar dados que sejam legíveis, precisos e visualmente atraentes. Limpar
seus dados o ajuda a atingir este objetivo. O primeiro passo é identificar os elementos sujos em seus dados. Primeiro,
renomeie sua planilha. Clique em Planilha sem nome e digite um novo nome. Você pode usar o nome
sf_boba_tea_shop_data ou um nome similar que descreva os dados que sua planilha contém. Caso deseje obter uma
melhor visualização de seus dados, é possível ampliar as colunas mais largas arrastando o limite direito do título da
coluna. Isto pode se aplicar ao nome (B), endereço (D), e colunas (F) lat-long. Agora, revise seus dados e considere
quaisquer problemas que você possa ter que resolver. Veja a seguir exemplos de erros que você pode identificar e corrigir
rapidamente. Esta não é uma lista abrangente de todos os problemas potenciais, mas é um ótimo ponto de partida para a
limpeza de dados.
Primeiro, há pelo menos uma linha duplicada (linhas 20 e 21) em seu conjunto de dados.
Em segundo lugar, todas as classificações de Yelp devem cair entre 0 e 5. Entretanto, pelo menos uma classificação (na
célula C8) está fora dessa faixa.
Finalmente, os dados de latitude e longitude estão contidos em uma única coluna (F). Para que alguém possa utilizar
esses dados para análise, os dois valores devem estar em colunas separadas.
Agora você sabe em que questões focar sua atenção durante o processo
de limpeza.
Limpe seus dados
Seu objetivo é corrigir esses erros e ajudar a criar um conjunto de dados limpo para análise. Você pode tratar de cada
assunto por sua vez.
Remover duplicações
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
O primeiro passo é eliminar quaisquer entradas duplicadas de seu conjunto de dados. Como melhor prática, as duplicatas
devem ser removidas, mesmo que não sejam facilmente aparentes.
1. Para começar, selecione as colunas de A a F.
2. Depois,na barra do menu, escolha Data e Remover duplicações.
3. Na janela pop-up, clique em “Os dados têm linha de cabeçalho”. Você quer
remover duplicatas de id's de lojas boba e nomes de lojas Boba.
4. Na seção Colunas para análise, certifique-se de que as colunas relevantes (id,
nome) estejam selecionadas.
5. Uma vez que tudo tenha sido selecionado, clique em Remover duplicatas.
6. Se feito corretamente, 3 filas duplicadas serão encontradas e removidas e 604 filas
permanecerão.
Corrigir os dados de classificação
Em seguida, limpe quaisquer dados que não façam sentido. As taxas de Yelp devem ser inferiores a 5 e superiores a 0.
Agora, você determinará quantas entradas são imprecisas e as corrigirá. Você pode usar a função COUNTIF para realizar
esta tarefa. A função COUNTIF conta rapidamente quantos itens em um intervalo de células atendem a um determinado
critério. Na célula I2, digite =COUNTIF(C:C,">5"). A primeira entrada (C:C) refere-se ao intervalo onde você está contando
os dados. Neste caso, a faixa é toda a coluna de classificação (C), que contém as classificações Yelp. A segunda entrada
se refere ao critério (>5), e diz à função para contar todos os valores superiores a 5. Pressione Enter. Você vai notar que a
função retorna um valor de 9. Isto lhe diz que seu conjunto de dados contém 9 entradas que têm uma classificação
superior a 5.
Como analista de dados, é seu trabalho decidir o que fazer com valores incorretos ou pedir conselhos ao proprietário do
conjunto de dados se você não estiver seguro. Neste caso, uma abordagem eficaz seria procurar no Yelp as
classificações reais. Para esta atividade, você pode simplesmente substituir as classificações incorretas pelo número 5.
Uma maneira eficiente de substituir as classificações é classificar numericamente os dados da maior para a menor
classificação.
1. Selecione as colunas de A a F.
2. Agora, na barra de menu, escolha Dados e Classificar intervalo.
3. Na janela pop-up, marque a caixa ao lado de “Os dados têm linha
de cabeçalho”. Organize por classificação de Z→A. Desta forma,
as mais altas classificações serão listadas em primeiro lugar.
4. Clique em Classificar. Confira sua planilha. No início da coluna de
classificação, você deve encontrar agora as 9 linhas que têm valores
incorretos (classificação > 5).
5. Em seguida, selecione o intervalo de células C2:C10. Pressione
delete para apagar os valores que são maiores que 5.
6. Pressione apagar para apagar os valores que são maiores que 5.
Na célula C2, digite 5. Em seguida, arraste a alça de
preenchimento para a célula C10 para preencher as células
restantes com 5.
7. Após substituir as classificações incorretas pelo número 5, você
pode notar que o novo valor na célula I2 é 0. A saída da função
COUNTIF agora reflete as mudanças em seu conjunto de dados.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOSIsto confirma que a coluna de classificação não contém mais valores superiores a 5.
8. Finalmente, exclua a fórmula da célula I2, já que você não precisa mais desta informação.
Limpar os dados de latitude e longitude
Em seguida, limpe os dados de latitude e longitude colocando cada valor em uma coluna separada. Você pode usar a
função SPLIT para realizar esta tarefa.
1. A função SPLIT divide o texto em torno de um caractere ou uma string especificada, e coloca cada fragmento de texto
em uma célula separada na linha. A função SPLIT dividirá a única coluna de lat-long em duas colunas separadas, uma
para latitude e a outra para longitude. Na célula G2, digite =SPLIT(F2,"-"). A primeira entrada (F2) refere-se à célula
onde se encontra o texto. A segunda entrada ("-") refere-se ao fato de que você está dividindo o texto com base no
sinal de menos.
2. Pressione Enter. O resultado mostra cada fragmento de
texto em uma célula diferente.
3. Selecione novamente a célula G2. Na célula G2, clique duas vezes sobre a alça de preenchimento para dividir todas as
entradas lat-long restantes.
4. Agora acrescente os cabeçalhos de coluna às duas novas colunas (G e H). Na célula G1, digite lat. Na célula H1, digite
long.
5. Em seguida, substitua os dados lat-long originais na coluna F pelas novas entradas divididas nas colunas G e H.
Selecione as colunas G e H, clique com o botão direito do mouse e escolha Copiar.
6. Em seguida, selecione a coluna F, clique com o botão direito do mouse e escolha Colar especial e Colar apenas
valores.
7. Agora a nova coluna lat é a coluna F, e a nova coluna long é a coluna G. Ajuste a largura da coluna lat (F) para se
ajustar aos dados, arrastando o limite direito do cabeçalho da coluna.
8. Em seguida, selecione a coluna H, clique com o botão direito do mouse e selecione
Excluir coluna.
9. Finalmente, os valores de longitude devem ser negativos para que sejam
coordenadas precisas para o mapeamento. Para tornar negativos os valores na coluna
long, multiplicá-los por -1. Na célula H2, digite =G2*-1. O asterisco (*) é o operador de
multiplicação. Pressione Enter.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
10. Ainda na célula H2, clique duas vezes na alça de preenchimento para preencher o resto dos valores.
11. Em seguida, adicione um cabeçalho de coluna. Na célula H1, digite long.
12. Agora, substitua os dados de longitude na coluna G pelos novos dados na coluna H. Selecione a coluna H, clique com
o botão direito do mouse, e escolha Copiar.
13. Selecione a coluna G, clique com o botão direito do mouse, e escolha Colar especial e Colar apenas valores.
14. Em seguida, selecione a coluna H, clique com o botão direito do mouse, e escolha Excluir coluna. As colunas F e G
devem se parecer com estas:
Agora seus dados estão mais limpos, claros e fáceis de usar.
Confirmação e reflexão
Pergunta 1 - Qual das seguintes funções divide o texto em torno de um caracter ou string especificado e coloca
cada fragmento de texto em uma célula separada na linha?
A função SPLIT
A função TRIM
A função COUNTIF
A função CONCATENATE
Correto - A função SPLIT divide o texto em torno de um caracter ou string especificado, e coloca cada fragmento de texto em uma célula
separada na linha.
Pergunta 2 - Na caixa de texto abaixo, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma das
perguntas a seguir:
1. Como analista de dados, por que é importante que os dados que você apresenta sejam legíveis, precisos e
visualmente atraentes?
Porque isso facilita a compreensão e a interpretação dos resultados. Dados bem organizados e visualmente apreciados
também aumentam o impacto das informações, permitindo uma comunicação mais eficaz com as partes interessadas e
ajudando na tomada de decisões atendidas.
2. Como as funções da planilha podem ajudar a limpar os dados de forma mais eficiente e eficaz?
Permitindo a automação de tarefas repetitivas. Funções como filtrar, ordenar, remover duplicatas e aplicar fórmulas para
correções ou padronizações simplificam o processo de limpeza, economizando tempo e minimizando erros humanos ao tratar
os dados de forma sistemática.
Correto - Os dados de limpeza são uma parte importante do processo de análise de dados. Se a análise de dados for baseada
em dados ruins ou sujos, pode ser tendenciosa, equivocada e desinformada. Saber como utilizar eficazmente as funções da
planilha para trabalhar com dados é uma habilidade essencial para todo analista de dados. Nas próximas atividades, você
continuará a aprender mais sobre as funções da planilha e como elas podem ajudá-lo a analisar seus dados.
Registro de aprendizado: Desenvolva sua abordagem à limpeza de dados
Visão geral
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
A esta altura, você já começou a trabalhar com dados reais. E você deve ter notado que os dados são muitas vezes
confusos - você pode esperar que os dados primários, em estado bruto, sejam imperfeitos. Neste registro de
aprendizagem, você desenvolverá uma abordagem aos dados de limpeza criando uma lista de verificação de limpeza,
considerando seus métodos preferidos de limpeza de dados, e decidindo sobre um lema de limpeza de dados. Ao
completar esta entrada, você terá uma compreensão mais forte de como abordar o processo de limpeza de dados
metodicamente. Isto o ajudará a economizar tempo na limpeza de dados no futuro e garantir que seus dados sejam limpos
e utilizáveis.
Preencha a Tabela de Abordagem de Limpeza de Dados
O problema com a limpeza de dados é que ela normalmente requer muito tempo, energia e atenção de um analista de
dados júnior. Uma das melhores maneiras de diminuir os impactos negativos da limpeza de dados é ter um plano de ação
ou uma abordagem específica para limpar os dados. A fim de ajudá-lo a desenvolver sua própria abordagem, você usará
as instruções deste registro de aprendizagem para preencher uma tabela de abordagem de limpeza de dados em seu
modelo de registro de aprendizagem. A tabela aparecerá assim no modelo:
Lista de verificação de limpeza de
dados Métodos preferenciais de limpeza Lema da limpeza de dados
1. formatação dos dados
2. linhas e colunas excedentes
3.número de colunas e dados inseridos nelas
4.dados ausentes ou incorretos
1. Validação de Dados
2. Formatação Condicional
3. Classificar e filtrar
Uma vez que você tenha completado sua Tabela de Limpeza de Dados, você passará algum tempo refletindo sobre o
processo de limpeza de dados e sua própria abordagem.
Acesse seu registro de aprendizado
Para usar o registro de aprendizado deste item do curso, clique no link abaixo e selecione “Usar modelo”.
Link para o modelo de registro de aprendizado: Desenvolva sua abordagem para a limpeza de dados
OU
Caso você não tenha uma conta do Google, faça o download direto do modelo pelo anexo abaixo.
Modelo de log de aprendizagem_ Desenvolva sua abordagem aos dados de limpeza.XLSX File
Etapa 1: crie sua lista de verificação
Você pode começar a desenvolver sua abordagem pessoal de limpeza de dados criando uma lista de verificação padrão a
ser usada antes de seu processo de limpeza de dados. Pense nesta lista de verificação como sua lista padrão "o que
pesquisar". Com uma boa lista de verificação, você pode identificar com eficiência e, espera-se, rapidamente todos os
pontos problemáticos sem se desviar do caminho. Você também pode usar a lista de verificação para identificar a escala e
o escopo do próprio conjunto de dados.
Algumas coisas que você pode incluir em sua lista de verificação:
● Tamanho do conjunto de dados
● Número de categorias ou rótulos
● Dados ausentes
● Dados sem formatação
● Os diferentes tipos de dados
Você pode usar suas próprias experiências até agora para ajudá-lo a decidir o que mais você quer incluir em sua lista de
verificação!
Etapa 2: liste seus métodos de limpeza preferidos
Depois de ter compilado sua lista de verificação pessoal, você pode criar uma lista de atividades que você gosta de
realizar ao limpar os dados. Esta lista é uma coleção de procedimentos que você implementaráquando encontrar
problemas específicos presentes nos dados relacionados à sua lista de verificação ou cada vez que limpar um novo
conjunto de dados. Por exemplo, suponha que você tenha um conjunto de dados com dados ausentes, como você lidaria
https://docs.google.com/document/d/1W_onDb60axr-Zur7KyL_5dwrW5eZmJF49zM7_FwkHyQ/template/preview
https://docs.google.com/document/d/1W_onDb60axr-Zur7KyL_5dwrW5eZmJF49zM7_FwkHyQ/template/preview
https://docs.google.com/document/d/1W_onDb60axr-Zur7KyL_5dwrW5eZmJF49zM7_FwkHyQ/template/preview
https://d3c33hcgiwev3.cloudfront.net/NcxcYgK0TbmMXGICtI25Eg_049d9259f1fe4b648c59b8126f8ddcf1_Modelo-de-log-de-aprendizagem_-Desenvolva-sua-abordagem-aos-dados-de-limpeza.xlsx?Expires=1688688000&Signature=Hr5YeRryyNVnJItaGf7~fVRzI1taxB772XzNepSOngxJDt7ez4YMULK7~vymrz-jyiCEQ7MPR7fU2qjzl9U3oAbmbmtBik9r-kiWM7b4kidYYkA9l~w7COB4uwyPssY0WpA2sfIha-nY21VqsX5rMOSHd3TioNKy14s1jFEKykI_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
com isso? Além disso, se o conjunto de dados for muito grande, o que você faria para verificar se faltam dados? Descrever
alguns de seus métodos preferidos de limpeza de dados pode ajudá-lo a economizar tempo e energia.
Etapa 3: escolha um lema de limpeza de dados
Agora que você tem uma lista de verificação pessoal e seus métodos preferidos de limpeza de dados, você pode criar um
lema de limpeza de dados para ajudar a orientar e explicar seu processo. O lema é um breve resumo de uma ou duas
frases de sua filosofia em relação aos dados de limpeza. Por exemplo, aqui estão alguns lemas de limpeza de dados de
outros analistas de dados:
1. "Nem todos os dados são iguais, portanto não os trate todos da mesma maneira".
2. "Esteja preparado para que as coisas não ocorram como planejado. Tenha um plano de reserva".
3. "Evite aplicar soluções complicadas a problemas simples".
Os dados que você encontra como analista nem sempre estarão de acordo com sua lista de verificação ou lista de
atividades, independentemente de quão abrangentes eles sejam. A limpeza de dados pode ser um processo complicado,
mas surpreendentemente a maioria dos dados tem problemas semelhantes. Um lema e uma explicação pessoal sólida
podem tornar as tarefas mais comuns de limpeza de dados mais fáceis de entender e completas.
Reflexão
Agora que você completou sua Tabela de Limpeza de Dados, reserve um momento para refletir sobre as decisões que
você tomou sobre sua abordagem de limpeza de dados. Escreva 1 a 2 frases (20 a 40 palavras) respondendo a cada uma
das seguintes perguntas:
● Quais itens você acrescentou à sua lista de verificação de limpeza de dados? Por que você decidiu que estes
eram importantes para serem verificados?
Formatação dos dados, linhas e colunas excedentes, número de colunas e dados inseridos nelas e dados ausentes ou
incorretos. São as principais inconsistências encontradas no meus trabalhos usuais de análise de dados.
● Como suas próprias experiências com a limpeza de dados afetaram seus métodos de limpeza preferidos? Você
pode pensar em um exemplo em que você precisava realizar uma dessas tarefas de limpeza?
Como trabalho com certo tipo de formatos de dados, meus métodos preferidos são todos aqueles que uso frequentemente e
com os quais tenho mais facilidades.
● O que você decidiu sobre seu lema de limpeza de dados?
Teste seus conhecimentos sobre dados de limpeza em planilhas
Pergunta 1 - Descrever a relação entre uma string de texto e uma substring.
Uma string de texto é uma coluna de dados dentro de uma tabela. Uma substring é uma célula dentro dessa coluna.
Uma string de texto é uma linha de dados dentro de uma tabela. Uma substring é uma célula dentro daquela linha.
Uma string de texto é um grupo de caracteres dentro de uma célula. Uma substring é um subconjunto menor
dessa cadeia de texto.
Uma string de texto é a lista de atributos no topo das colunas dentro de uma tabela. Uma substring é um atributo único
dentro dessa lista.
Correto - Uma string de texto é um grupo de caracteres dentro de uma célula. Uma substring é um subconjunto menor dessa cadeia de texto.
Pergunta 2 - Um analista de dados usa a função COUNTIF para contar o número de vezes que um valor inferior a 5
ocorre entre as células da planilha A2 até A100. Qual é a sintaxe correta?
=COUNTIF(A2:A100,>5)
=COUNTIF(A2:A100,<5)
=COUNTIF(A2:A100,">5")
=COUNTIF(A2:A100,"<5")
Correto - A sintaxe correta é =COUNTIF(A2:A100,"<5"). COUNTIF irá retornar o número de células que correspondem a um valor. A2:A100 é a
faixa. E "<5" é o valor especificado.
Pergunta 3 - Preencha a lacuna: Para remover os espaços de liderança, de fuga e de repetição nos dados, os
analistas usam a função ____.
LEFT
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
TRIM
RIGHT
MID
Correto - TRIM é uma função que remove espaços de liderança, de fuga e de repetição nos dados.
Desafio da semana 2
Pergunta 1 - A formatação condicional é uma ferramenta de planilha que muda a forma como as células aparecem
quando os valores atendem a uma condição específica. Os analistas de dados podem usar a formatação
condicional para fazer qual das seguintes tarefas? Selecione todas as opções válidas.
Para identificar células em branco ou informações em falta
Para calcular as equações matemáticas
Para classificar os dados em séries de células em uma ordem significativa
Para que as células se destaquem para uma análise mais eficiente
Correto - Os analistas de dados utilizam a formatação condicional para identificar células em branco ou informações ausentes e para fazer
com que as células se destaquem para uma análise mais eficiente.
Pergunta 2 - Um analista de dados usa a função SPLIT para dividir uma string de texto em torno de um caractere
especificado e colocar cada fragmento em uma célula nova e separada. Qual é o caractere especificado que separa
cada item?
Delimitador
Substring
Partição
Unidade
Correto - Ao utilizar a função SPLIT, o caractere especificado que separa cada item é chamado de um delimitador.
Pergunta 3 - Para que uma função funcione corretamente, os analistas de dados devem seguir a estrutura
pré-determinada de cada função. Como se chama esta estrutura?
Sintaxe
Algoritmo
Resumo
Validação
Correto - Esta estrutura é chamada de sintaxe. A sintaxe é uma estrutura pré-determinada que inclui todas as informações necessárias e sua
colocação adequada.
Pergunta 4 - Você está trabalhando com a seguinte seleção de uma planilha de cálculo:
Para extrair o código postal de cinco dígitos do norte do País de Gales, PA, qual é a função correta?
=RIGHT(B2,5)
=LEFT(B2,5)
=RIGHT(5,B2)
=LEFT(5,B2)
Correto - A sintaxe correta é =RIGHT(B2,5). A função RIGHT retorna um número definido de caracteres do lado direito de uma string de texto.
B2 é a célula especificada. E 5 é o número de caracteres a serem devolvidos.
Pergunta 5 - Um analista de dados de um departamento de recursos humanos está trabalhando com a seguinte
seleção de uma planilha de cálculo:
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Eles querem criar números de identificação de funcionários (IDs) na coluna D. Os IDs devem incluir o ano
contratado mais os últimos quatro dígitos do Número de Previdência Social do funcionário (SS#). Qual função
criará a ID 20142683 para o funcionário na linha 3?
=CONCATENATE(A3!B3)
=CONCATENATE(A3,B3)
=CONCATENATE(A3*B3)
=CONCATENATE(A3+B3)
Correto - Para criar o ID 20142683 para o funcionário na linha 3, a função é =CONCATENATE(A3,B3). CONCATENATE une duas ou mais
strings de texto. (A3,B3) são os locais das cordas a serem unidas.
Pergunta 6 - Um analista está trabalhando em um projeto que envolve clientes de Bogotá, Colômbia. Eles recebem
uma planilha com 5.000 linhas de informações de clientes. Que função podem usar para confirmar que a coluna
para Cidade contém a palavra Bogotá exatamente 5.000 vezes?
COUNT
SUM
SUMIF
COUNTIF
Correto - Eles podem usar COUNTIF, que é uma função que retorna o número de células que correspondem a um valor especificado.
Pergunta 7 - A VLOOKUP procura por um valor em uma filapara devolver uma informação correspondente.
Verdadeiro
Falso
Correto - A VLOOKUP procura um valor em uma coluna para devolver uma informação correspondente.
Pergunta 8 - Para avaliar quão bem duas ou mais fontes de dados trabalham juntas, os analistas de dados utilizam
o mapeamento de dados.
Verdadeiro
Falso
Incorreto - Reveja o vídeo sobre métodos adicionais de limpeza de dados para uma atualização.
SEMANA 3 - LIMPEZA DE DADOS COM O SQL
Conhecer diversas formas de limpar dados pode tornar o trabalho de um analista muito mais fácil. Nesta parte do curso,
você aprenderá a limpar seus dados usando SQL. Você explorará as consultas e funções que podem ser usadas em SQL
para limpar e transformar seus dados para prepará-los para a análise.
Objetivos de aprendizagem
● Descrever como o SQL pode ser usado para limpar grandes conjuntos de dados
● Comparar as funções de limpeza de dados com planilhas àquelas associadas a SQL em banco de dados
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
● Desenvolver consultas básicas de SQL para serem usadas com bancos de dados
● Aplicar funções básicas de SQL para serem usadas em variáveis de strings de limpeza em um banco de dados
● Aplicar funções básicas de SQL para transformar variáveis de dados
3.1 - COMO USAR O SQL PARA LIMPAR DADOS
VÍDEO - COMO USAR O SQL PARA LIMPAR DADOS - Bem-vindos de volta, parabéns pelo excelente trabalho no último desafio
semanal. Agora que sabemos a diferença entre limpeza de dados sujos e técnicas gerais de limpeza de dados, vamos focar em
limpeza de dados com SQL. A seguir, aprenderemos sobre as diferentes funções de limpeza de dados em planilhas e SQL e como o
SQL pode ser usado para limpar grandes conjuntos de dados. Também mostrarei como desenvolver consultas de pesquisa básicas
para bancos de dados e como aplicar funções básicas de SQL para transformar dados e limpar strings. A limpeza de seus dados é
a última etapa do processo de análise de dados antes que você possa avançar para a análise real, e a SQL tem muitas ferramentas
excelentes que podem ajudá-lo neste aspecto. Mas antes de começarmos a limpar os bancos de dados, examinaremos o SQL e
quando usá-lo. Vejo você lá.
VÍDEO - POR AMOR AO SQL - As agências de propaganda recebem dinheiro dos clientes para promover as marcas. Essas agências
usam nossos produtos, certas plataformas de publicidade do Google, e eu ensino essas pessoas a aproveitar melhor as plataformas e
as diferentes estratégias que podem usar para ter excelência. Muitos colegas das agências de propaganda precisam enviar relatórios
para os clientes. Eles demoram muito para ser criados e exibidos. O que eu faço é ajudar os profissionais e as equipes de análise a
usar um produto específico que ajuda a criar esses relatórios de maneira muito mais rápida e fácil. Se você quer trabalhar como
analista de dados, isso abre muitas portas porque todos estão monitorando dados, usando dados ou precisando usar dados, em
qualquer setor. Desde a área da saúde até a publicidade, o e-commerce e o entretenimento, tudo e todos usam dados. Portanto, todos
precisam de você como analista de dados. O SQL facilita sua vida quando é preciso analisar vários dados diferentes. Faz
relativamente pouco tempo que os programas SQL que usamos atualmente podem dar resultados instantâneos para analisar milhões
ou bilhões de dados. Anos atrás, talvez há uns cinco anos mais ou menos, embora pudéssemos analisar milhões de linhas, tínhamos
que esperar cerca de 15 minutos ou até meia hora para executar as consultas. Hoje, é instantâneo. Isso é muito empolgante, e
podemos fazer muito mais com essa capacidade. O SQL ajudou muito na minha carreira porque é uma das coisas fundamentais que
você precisa saber como analista de dados. Naquela época, nem todo mundo sabia SQL. Portanto, saber SQL realmente era uma
vantagem competitiva. Hoje, diria que mais pessoas, talvez a maioria saiba. É uma habilidade central e muito procurada por todos.
Então, saber SQL e se tornar analista de dados torna você muito popular entre os recrutadores, e acho isso muito divertido. Aprendi
SQL sozinho, então meu conhecimento sobre SQL é algo que eu valorizo muito, com muito carinho, já que é algo que praticamente fiz
por mim mesma e que me dá muita satisfação. É por isso que eu realmente gosto de SQL. Uma das coisas divertidas sobre o SQL e
outra razão que realmente me faz gostar de usá-lo é que quando você digita algo na consulta e pressiona Control, Shift, Enter ou
executa a consulta, você recebe os resultados quase instantaneamente, em qualquer plataforma que você use. É fascinante de ver, se
você considerar conceitualmente quanta análise o computador está fazendo por você de acordo com aquele pequeno código de
comando ou um pequeno código que você escreveu. Ele é muito poderoso, se pensamos no que está acontecendo por trás disso. Acho
divertido observar isso. Vivemos no mundo do big data, e os dados continuam aumentando. A capacidade de computação também
está aumentando exponencialmente. Com todos os dados que podemos rastrear, quanto mais fazemos isso, mais precisamos de
analista de dados. As possibilidades da nossa carreira estão disparando. Meu nome é Sally, e sou líder de medição e análise no
Google.
VÍDEO - POR AMOR AO SQL - Olá de novo! Antes de examinarmos como os analistas de dados usam o SQL para limpar os dados,
quero apresentá-lo formalmente ao SQL. Já falamos muito sobre SQL. Você já viu alguns bancos de dados e algumas funções básicas
no SQL, e até mesmo conferiu como o SQL pode ser usado para processar dados. Mas agora vamos realmente definir o SQL. O SQL
é uma linguagem de consulta estruturada usada pelos analistas para trabalhar com bancos de dados. Os analistas de dados
costumam usar o SQL para lidar com grandes conjuntos de dados, visto que lida com grandes quantidades de dados. E me
refiro a trilhões de linhas. Inúmeras linhas para confundir sua cabeça. Vou demonstrar melhor qual seria a real quantidade de dados.
Imagine um conjunto de dados que contém os nomes de todas as 8 bilhões de pessoas do mundo. Uma pessoa média levaria 101
anos para ler todos os 8 bilhões de nomes. O SQL pode processar a leitura em segundos. Pessoalmente, acho essa capacidade
interessante. Outras ferramentas, como planilhas, podem levar muito tempo para processar tantos dados, e esta é uma das principais
razões pelas quais os analistas de dados optam pelo SQL ao lidar com grandes conjuntos de dados. Farei um breve resumo
sobre o SQL. O desenvolvimento em SQL começou no início dos anos 70. Em 1970, Edgar F. Codd desenvolveu a teoria sobre
bancos de dados relacionais. Você pode se lembrar das informações recebidas sobre bancos de dados relacionais há algum tempo.
Trata-se de um banco de dados que contém várias tabelas que podem ser conectadas para estabelecer relacionamentos. Na
época, a IBM estava usando um sistema de gerenciamento de banco de dados relacional conhecido como System R. Bem, os
cientistas da computação da IBM tentavam descobrir uma maneira de manipular e recuperar dados do IBM System R. Sua primeira
linguagem de consulta era difícil de ser utilizada. Então eles rapidamente avançaram para a próxima versão, o SQL. Em 1979, após
extensos testes, o SQL, cuja pronúncia é S-Q-L, foi lançado publicamente. Até 1986, tinha se tornado a linguagem padrão para
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
comunicação de bancos de dados relacionais, e hoje ainda é. Essa é outra razão pela qual os analistas de dados escolhem o SQL.
É um padrão bem conhecido dentro da comunidade. A primeira vez que usei o SQL para extrair dados de um banco de dados real
foi no meu primeiro emprego como analista de dados. Eu não tinha conhecimento prévio sobre SQL antes disso. Só soube do recurso
porque era um requisito para aquele trabalho. O recrutador da função me deu uma semana para aprender. Foi assim que acessei a
web, fiz pesquisas e acabei aprendendo por conta própria o que é o SQL. Recebi um teste escrito a ser feito como parte do processo
de candidatura. Tive que escrever consultase funções SQL em um quadro branco. Tenho usado o SQL desde então. Realmente gosto
do recurso. Assim como aprendi a usar o SQL por conta própria, devo lembrá-lo de que você também pode obter mais informações
sozinho. Há toneladas de ótimos recursos online para aprender. Assim, não permita que um requisito de trabalho atrapalhe seu
caminho sem fazer algumas pesquisas primeiro. Agora que sabemos um pouco mais sobre por que os analistas optam por trabalhar
com SQL quando estão lidando com muitos dados e também sobre a história do SQL, vamos prosseguir e aprender aplicações
práticas para isso. A seguir, veremos algumas das ferramentas que aprendemos em planilhas e descobriremos se alguma se aplica ao
trabalho no SQL. Devo revelar que, sim, se aplica. Vejo você em breve.
Usar SQL como analista de dados júnior
Nesta leitura, você aprenderá mais sobre como decidir quando usar SQL, ou Linguagem de Consulta Estruturada. Como
analista de dados, você terá a tarefa de lidar com inúmeros dados, e o SQL é uma das ferramentas que pode ajudar a
tornar seu trabalho muito mais fácil. SQL é a principal maneira pela qual os analistas de dados extraem dados de bancos
de dados. Como analista de dados, você trabalhará com bancos de dados o tempo todo, e é por isso que o SQL
representa uma habilidade tão importante. Vamos acompanhar como um analista de dados júnior usa o SQL para resolver
uma tarefa de negócios.
A tarefa de negócios e o contexto
Neste exemplo, o analista de dados júnior trabalha para uma empresa de mídias sociais. Um novo modelo de negócios foi
implantado em 15 de fevereiro de 2020 e a empresa pretende entender como seu crescimento de usuários se compara ao
ano anterior. Especificamente, o analista de dados foi orientado a descobrir quantos usuários ingressaram desde 15 de
fevereiro de 2020.
Funções e fórmulas de planilhas ou consultas SQL?
Antes que possa resolver essa questão, o analista de dados precisa escolher qual ferramenta usar. Primeiro, precisa
pensar sobre onde os dados se encontram. Se estiverem armazenados em um banco de dados, o SQL é a melhor
ferramenta para o trabalho, mas se estiverem armazenados em uma planilha, a análise deverá ser realizada nessa mesma
planilha. Nesse cenário, seria possível criar uma tabela dinâmica dos dados e aplicar fórmulas e filtros específicos aos
dados até receberem o número de usuários que ingressaram após 15 de fevereiro. Não é um processo muito complicado,
mas envolveria muitas etapas. Nesse caso, os dados são armazenados em um banco de dados e, portanto, será
necessário trabalhar com SQL. O analista de dados sabe que pode obter os mesmos resultados com uma única consulta
SQL:
Planilhas e SQL têm suas vantagens e desvantagens:
Recursos das planilhas Recursos dos bancos de dados SQL
Conjuntos de dados menores Conjuntos de dados maiores
Inserir dados manualmente Acessar tabelas em um banco de dados
Criar gráficos e visualizações no mesmo programa Preparar dados para análise posterior em outro software
Verificação ortográfica integrada e outras funções úteis Funcionalidade rápida e poderosa
Melhor ao trabalhar sozinho em um projeto Excelente para trabalho colaborativo e consultas de rastreamentoexecutadas por todos os usuários
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Neste quesito, o local onde os dados se encontram definirá a ferramenta a ser utilizada. Se você estiver trabalhando com
dados que já estão em uma planilha, é mais provável que realize sua análise nessa própria planilha. Se estiver
trabalhando com dados armazenados em um banco de dados, o SQL será a melhor ferramenta para suas análises. Você
aprenderá mais sobre o SQL, de modo a estar pronto para enfrentar qualquer problema de negócios com a melhor
ferramenta possível.
VÍDEO - PLANILHA VERSUS SQL - Olá! Até agora, aprendemos sobre planilhas e SQL. Embora haja muitas diferenças entre as
planilhas e o SQL, você também encontrará algumas semelhanças. Vamos verificar o que as planilhas e o SQL têm em comum e de
que forma são diferentes. As planilhas e o SQL realmente têm muito em comum. Especificamente, existem ferramentas que você
pode usar em planilhas e SQL para obter resultados semelhantes. Já conhecemos algumas ferramentas para limpeza de dados em
planilhas, o que significa que você já conhece algumas ferramentas que podem ser utilizadas no SQL. Por exemplo, você ainda pode
realizar aritmética, usar fórmulas e juntar dados quando estiver usando o SQL, de modo que vamos desenvolver as habilidades
que aprendemos nas planilhas, utilizando-as para fazer trabalhos ainda mais complexos no SQL. Aqui está um exemplo do que quero
dizer com trabalho mais complexo. Se estivéssemos trabalhando com dados de saúde para um hospital, precisaríamos conseguir
acessar e processar muitos dados. Podemos precisar de dados demográficos, como nomes de pacientes, datas de nascimento e
endereços, informações sobre seguro ou visitas anteriores, dados de saúde pública ou mesmo dados gerados pelo usuário para serem
adicionados aos registros de seus pacientes. Todos esses dados estão sendo armazenados em lugares diferentes, talvez até em
formatos diferentes, e cada local pode ter milhões de linhas e centenas de tabelas relacionadas. São muitos dados a serem inseridos
manualmente, mesmo para apenas um hospital. É aí que o SQL vem a calhar. Em vez de precisar observar todas as fontes de dados
individuais e registrá-las em nossa planilha, podemos usar o SQL para extrair todas essas informações de diferentes locais em
nosso banco de dados. Agora, digamos que queremos encontrar algo específico em todos esses dados, como quantos pacientes com
determinado diagnóstico chegaram hoje. Em uma planilha, podemos usar a função COUNTIF para descobrir a informação, ou
podemos combinar as consultas COUNT e WHERE no SQL para descobrir quantas linhas correspondem aos nossos critérios de
pesquisa. Isso nos dará resultados semelhantes, mas funciona com um conjunto de dados muito maior e mais complexo. Em seguida,
vamos falar sobre como as planilhas e o SQL são diferentes. Primeiro, é importante entender que as planilhas e o SQL são coisas
diferentes. As planilhas são geradas com um programa como Excel ou Planilhas Google. Esses programas são projetados para
executar certas funções internas. O SQL, por outro lado, é uma linguagem que pode ser usada para interagir com programas de
banco de dados, como Oracle MySQL ou Microsoft SQL Server. As diferenças entre ambos estão principalmente em como são
usados. Se um analista de dados recebeu dados na forma de uma planilha, provavelmente fará sua limpeza e análise de dados nessa
planilha, mas se estiver trabalhando com um grande conjunto de dados com mais de um milhão de linhas ou vários arquivos em um
banco de dados, é mais fácil, rápido e repetível usar o SQL. O SQL pode acessar e usar muito mais dados porque pode extrair
informações de diferentes fontes no banco de dados automaticamente, ao contrário das planilhas que só têm acesso aos dados
inseridos. Isso também significa que os dados são armazenados em vários lugares. Um analista de dados pode usar planilhas
armazenadas localmente em seu disco rígido ou em sua nuvem pessoal quando estiver trabalhando sozinho, mas se estiver em uma
equipe maior com vários analistas que precisam acessar e usar dados armazenados em um banco de dados, o SQL pode ser uma
ferramenta mais útil. Devido a essas diferenças, as planilhas e o SQL são usados para coisas diferentes. Como você já sabe, as
planilhas são úteis para conjuntos de dados menores e trabalhos de forma independente. Além disso, as planilhas têm
funcionalidades integradas, como verificação ortográfica, que podem ser muito úteis. O SQL é ótimo para o trabalho com
conjuntos de dados maiores, até trilhões de linhas de dados. Como o SQL tem sido a linguagem padrão para comunicação com
bancos de dados por tanto tempo, pode ser adaptado e usado para vários programas de banco de dados. O SQL também registra
alterações em consultas, o que facilita o rastreamento de alterações em sua equipe se vocêestiver trabalhando de forma colaborativa.
A seguir, aprenderemos mais sobre consultas e funções no SQL que fornecerão novas ferramentas para trabalhar. Você pode até
aprender a usar ferramentas da planilha de novas maneiras. Vejo você em breve.
Dialetos SQL e seus usos
Nesta leitura, você aprenderá mais sobre os dialetos SQL e alguns de seus diferentes usos. Como uma rápida
atualização, Structured Query Language (Linguagem de consulta estruturada), ou SQL, é uma linguagem usada para
conversar com bancos de dados. Aprender SQL pode ser muito semelhante à aquisição de um novo idioma – incluindo
o fato de que os idiomas costumam contemplar dialetos diferentes. Alguns produtos de banco de dados têm sua própria
variante de SQL, e essas diferentes variedades de dialetos SQL o ajudam a se comunicar com cada produto do banco de
dados. Esses dialetos serão diferentes de empresa para empresa e podem mudar com o tempo se a empresa migrar para
outro sistema de banco de dados. Portanto, muitos analistas começam com o SQL padrão e, posteriormente, ajustam o
dialeto que usam com base no banco de dados com o qual estão trabalhando. O SQL padrão funciona com a maioria dos
bancos de dados e requer um pequeno número de alterações de sintaxe para se adaptar a outros dialetos. Como analista
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
de dados júnior, é importante saber que existem pequenas diferenças entre os dialetos. Mas, ao dominar o SQL padrão,
que é o dialeto utilizado no trabalho neste programa, você estará preparado para usar o SQL em qualquer banco de dados.
Mais Informações
Talvez você não precise conhecer todos os dialetos SQL, mas é útil saber que esses dialetos diferentes existem. Se
estiver interessado em saber mais sobre os dialetos SQL e quando são usados, você pode conferir estes recursos para
obter mais informações:
● Blog do LearnSQL. O que é um dialeto SQL e qual você deve aprender
Dialetos SQL: Resumo
● SQL é a linguagem de programação que você usa para conversar com bancos de dados e outras tecnologias de
processamento de dados.
● SQL Server, Oracle, MySQL e PostgreSQL são bancos de dados diferentes que possuem seus próprios dialetos
SQL ligeiramente diferentes.
● O SQL Standard é um documento ANSI/ISO oficial que define a sintaxe do SQL. Nenhum banco de dados é
totalmente compatível com o padrão.
● Transact-SQL, ou T-SQL, é o nome da variante do SQL usado no banco de dados Microsoft SQL Server.
● PL/SQL é a extensão procedural para SQL no banco de dados Oracle. Ele é usado para escrever suas próprias
funções e procedimentos no Oracle.
● PL/pgSQL é a extensão procedural para SQL no banco de dados PostgreSQL. Ele é usado para escrever suas
próprias funções e procedimentos no PostgreSQL.
● Artigo da ajuda de teste de software. Diferenças entre SQL vs. MySQL vs. SQL Server
● Blog do Datacamp. SQL Server, PostgreSQL, MySQL... Qual é diferença? Por onde começo? Observe que há
um erro neste artigo do blog. A tabela de comparação informa incorretamente que o SQLite usa subconsultas em
vez de funções de janela. Consulte a documentação SQLite Window Functions para esclarecimentos
adequados.
● Tutorial do SQL Tutorial. O que é SQL?
Introdução à linguagem SQL
SQL é uma linguagem de programação projetada para gerenciar dados armazenados em um sistema de gerenciamento de
banco de dados relacional (RDBMS). SQL significa a linguagem de consulta estruturada. É pronunciado como /ˈɛs kjuː ˈɛl/ ou
/ˈsiːkwəl/. SQL consiste em uma linguagem de definição de dados, linguagem de manipulação de dados e uma linguagem de
controle de dados. A linguagem de definição de dados lida com a criação e modificação do esquema, por exemplo, a
instrução CREATE TABLE permite criar uma nova tabela no banco de dados e a instrução ALTER TABLE altera a estrutura
de uma tabela existente. A linguagem de manipulação de dados fornece as construções para consultar dados como a
instrução SELECT e atualizar os dados como as instruções INSERT , UPDATE e DELETE .
A linguagem de controle de dados consiste nas declarações que tratam da autorização e segurança do usuário, como as
declarações GRANT e REVOKE.
Padrão SQL
O SQL foi uma das primeiras linguagens de banco de dados comerciais desde 1970. Desde então, diferentes fornecedores
de banco de dados implementaram o SQL em seus produtos com algumas variações. Para trazer maior conformidade entre
os fornecedores, o American Standards Institute (ANSI) publicou o primeiro padrão SQL em 1986. ANSI então atualizou o
padrão SQL em 1992, conhecido como SQL92 e SQL2, e novamente em 1999 como SQL99 e SQL3. Todas as vezes, o ANSI
adicionou novos recursos e comandos à linguagem SQL. O padrão SQL agora é mantido pela ANSI e pela International
Standards Organization como padrão ISO/IEC 9075. O padrão de lançamento mais recente é o SQL:2011. O padrão SQL
formaliza estruturas e comportamentos de sintaxe SQL em produtos de banco de dados. Torna-se ainda mais importante para
os bancos de dados de código aberto, como MySQL e PostgreSQL , onde os RDBMS são desenvolvidos principalmente
pelas comunidades e não pelas grandes corporações.
Dialetos SQL
A comunidade solicita constantemente novos recursos e capacidades que ainda não existem no padrão SQL, portanto,
mesmo com o padrão SQL instalado, existem muitos dialetos SQL em vários produtos de banco de dados. Como ANSI e ISO
ainda não desenvolveram esses recursos importantes, os fornecedores de RDBMS (ou comunidades) são livres para inventar
sua própria nova estrutura de sintaxe. A seguir estão os dialetos mais populares do SQL:
1. PL/SQL significa linguagem procedural/SQL. É desenvolvido pela Oracle para o Oracle Database .
2. Transact-SQL ou T-SQL é desenvolvido pela Microsoft para Microsoft SQL Server .
3. PL/pgSQL significa Linguagem Processual/PostgreSQL que consiste no dialeto SQL e extensões implementadas no
PostgreSQL
4. O MySQL tem sua própria linguagem procedural desde a versão 5. Observe que o MySQL foi adquirido pela Oracle.
https://learnsql.com/blog/what-sql-dialect-to-learn/
https://www.softwaretestinghelp.com/sql-vs-mysql-vs-sql-server/
https://www.datacamp.com/community/blog/sql-differences
https://learnsql.com/blog/what-sql-dialect-to-learn/
https://www.datacamp.com/community/blog/sql-differences
https://sqlite.org/windowfunctions.html
https://www.sqltutorial.org/what-is-sql/
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Atividade prática: Tempo de processamento com o SQL
Visão geral da atividade
Nas atividades anteriores, você aprendeu e praticou SQL. Nesta atividade, você trabalhará com consultas SQL de
diferentes tamanhos. Ao concluir esta atividade, você estará familiarizado com os diferentes tamanhos usados para medir
o armazenamento de dados, o que o ajudará a entender como o tamanho dos dados afeta a quantidade de tempo que uma
consulta leva para ser executada e o quão valiosas ferramentas como o SQL podem ser para os analistas de dados.
Entenda como os dados são medidos
Os dados são medidos pelo número de bits necessários para representá-los. Todas as informações em um
computador podem ser representadas como um número binário, consistindo apenas de 0s e 1s. Cada 0 ou 1 em um
número é um bit. Um bit é a menor unidade de armazenamento em computadores. Considerando que os computadores
funcionam em binário (base 2), isso significa que todos os números importantes que diferenciam os diferentes tamanhos
de dados serão potências de 2. Um byte é uma coleção de 8 bits. Reserve um momento para examinar a tabela abaixo e
ter uma ideia da diferença entre as medidas de dados e seus tamanhos relativos entre si.
Unidade Equivalente Abreviação Exemplo do mundo real
Byte 8 bits B 1 caractere em uma string
Kilobyte 1024 bytes KB Uma página de texto (aprox. 4 kilobytes)
Megabyte 1024 kilobytes MB 1 música em formato MP3 (aprox. 2-3 megabytes)
Gigabyte 1024 megabytes GB Aprox. 300 músicas em formato MP3
Terabyte 1024 gigabytes TB Aprox. 500 horas de vídeo em HD
Petabyte 1024 terabytes PB 10 bilhões de fotos do Facebook
Exabyte 1024 petabytesEB Aprox. 500 milhões de horas de vídeo em HD
Zettabyte 1024 exabytes ZB Todos os dados na internet em 2019 (aprox. 4,5 ZB)
A quantidade de dados no mundo está explodindo e crescendo em um ritmo incrível a cada ano. Este crescimento é em
grande parte o resultado de mais de 4,6 bilhões de pessoas mundialmente conectadas à Internet. Agora que os
smartphones e outros dispositivos conectados à Internet se tornaram comuns, geram uma quantidade impressionante de
novos dados. Muitos especialistas acreditam que o tamanho de todos os dados na Internet aumentará para 175 ZB até o
final de 2025! O tamanho do conjunto de dados com o qual você está trabalhando costuma determinar qual
ferramenta, planilhas ou SQL é mais adequada para a tarefa. Normalmente, as planilhas começam a apresentar
problemas de desempenho à medida que os tamanhos dos conjuntos de dados aumentam para além de alguns
megabytes. Os bancos de dados SQL são muito melhores para trabalhar com conjuntos de dados maiores que possuem
bilhões de linhas com tamanhos medidos em gigabytes. O tamanho do conjunto de dados ainda importa aqui - conjuntos
de dados maiores levarão mais tempo para que as consultas sejam concluídas, dependendo do conteúdo da consulta e do
número de linhas que o SQL precisa processar para concluir a consulta.
Consultar um grande conjunto de dados
Agora você descobrirá por conta própria como esses tempos de execução mudam conforme o tamanho do conjunto de
dados ao executar algumas consultas em um enorme conjunto de dados — Wikipédia!
1. Faça login no BigQuery Sandbox. Se você tiver uma versão experimental gratuita do BigQuery, poderá usar isso em seu
lugar. Na página BigQuery, clique no botão Go to BigQuery.
Observação: BigQuery Sandbox atualiza frequentemente sua interface de usuário. As últimas mudanças podem não se refletir nas
telas apresentadas nesta atividade, mas os princípios permanecem os mesmos. A adaptação a mudanças nas atualizações de
software é uma habilidade essencial para analistas de dados, e é útil para você praticar a solução de problemas. Você também pode
entrar em contato com sua comunidade de alunos no fórum de discussão para obter ajuda.
https://cloud.google.com/bigquery/docs/sandbox
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
2. Se você nunca criou um projeto BigQuery antes, clique em CREATE PROJECT no lado direito da tela. Se você já criou
um projeto antes, você pode usar um projeto existente ou criar um novo clicando na barra de cabeçalho azul e
selecionando NEW PROJECT.
3. Dê ao seu projeto um nome que o ajude a identificá-lo mais tarde. Você pode dar-lhe uma identificação de projeto única
ou usar uma identificação gerada automaticamente. Não se preocupe em selecionar uma organização se você não souber
o que colocar.
4. Agora, você verá a interface do Editor. No meio da tela há uma janela onde você pode digitar o código, e à esquerda
está o menu Explorer onde você pode procurar por conjuntos de dados.
5. Copie e cole a seguinte consulta no editor e execute-a. A formatação é apenas cosmética, então não se preocupe se
sofrer mudanças quando for copiada. A consulta deve levar de 10 a 15 segundos para ser executada:
SELECT
language, title, SUM(views) AS views
FROM
`bigquery-samples.wikipedia_benchmark.Wiki10B
`WHERE
title LIKE '%Google%'
GROUP BY
language, title
ORDER BY
views DESC;
Observação: Essa consulta classifica e filtra um conjunto de dados. Você não precisa entender cada detalhe ainda. A
seguir, você aprenderá o que significa cada parte dessa consulta e como usar suas funções em seu próprio trabalho.
Após o término da consulta, sua tela deverá ficar assim:
Essa consulta retorna uma tabela que exibe o
número total de vezes que cada página da
Wikipédia contendo “Google” no título foi
visualizada em cada idioma. Observe as
informações fornecidas pelo BigQuery na consulta
que acabou de ser executada. Como você pode
deduzir pelo título do conjunto de dados na consulta,
esse conjunto de dados é uma amostra que consiste
em 10 bilhões de linhas do conjunto de dados
públicos da Wikipédia. Você descobrirá que a
consulta processa mais de 415 gigabytes de dados
quando executada — o que é bastante
impressionante para 15 segundos! Observe que, ao
executar a consulta novamente, o tempo de
execução será quase instantâneo (desde que você
não tenha alterado as configurações de cache
padrão). Isso ocorre porque o BigQuery armazena
em cache os resultados da consulta para evitar
trabalho extra se a consulta precisar ser executada
novamente.
Confirmação e reflexão
Pergunta 1 - Em sua última consulta, você processou 415,8 GB de dados. Quantas linhas foram retornadas pela
consulta?
225.038
198.768
214.710
305.710
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Correto - A última consulta executada retorna 214.710 linhas de dados. Na parte inferior da visualização de dados, é possível ver a
quantidade de linhas retornadas. No futuro, você pode aplicar esse conhecimento de medidas de tamanho de dados para entender melhor
com quantos dados trabalhará e qual ferramenta é mais adequada para cada projeto de análise de dados.
Pergunta 2 - Nesta atividade, você comparou o tempo necessário para processar diferentes tamanhos de consultas
no SQL. Na caixa de texto abaixo, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma das
perguntas a seguir:
1) Como o trabalho com SQL o ajudou a consultar um conjunto de dados maior?
Trabalhar com SQL ajudou-me a consultar conjuntos de dados maiores, pois permite a execução de consultas complexas e
otimizadas. A linguagem SQL facilita a seleção, filtragem e manipulação de dados, tornando possível lidar com grandes
volumes de informações de forma eficiente e extrair insights relevantes.
2) Quanto tempo você acha que levaria para uma equipe consultar manualmente um conjunto de dados como esse?
Consultar manualmente um conjunto de dados extenso pode levar uma quantidade significativa de tempo, variando de acordo
com a complexidade e o tamanho dos dados. Dependendo da equipe e dos recursos disponíveis, pode levar desde horas até
dias, resultando em atrasos na análise e na obtenção de informações oportunas.
3) Como a capacidade de consultar grandes conjuntos de dados em períodos razoáveis afeta os analistas de dados?
A capacidade de consultar grandes conjuntos de dados em períodos razoáveis é essencial para os analistas de dados, pois
permite uma análise mais ágil e o acesso rápido a insights relevantes. Isso aumenta a produtividade, facilita a tomada de
decisões informadas e ajuda a identificar padrões e tendências em tempo hábil, otimizando os processos de negócios.
Correto - Parabéns por concluir esta atividade prática! Uma boa resposta incluiria a informação de que consultar um conjunto de dados com
bilhões de itens não é viável sem ferramentas como bancos de dados relacionais e SQL. Realizar grandes consultas manualmente exigiria
anos e anos de trabalho manual. A capacidade de consultar grandes conjuntos de dados é uma ferramenta extremamente útil para os
analistas de dados. Você pode obter insights de grandes quantidades de dados para descobrir tendências e oportunidades que não
poderiam ser encontradas sem ferramentas como SQL.
Teste seu conhecimento sobre SQL
Pergunta 1 - Quais das seguintes opções são benefícios do uso de SQL? Selecione todas as opções válidas.
O SQL pode ser usado para programar microprocessadores em servidores de banco de dados.
O SQL pode lidar com grandes quantidades de dados.
O SQL pode ser adaptado e usado com vários programas de banco de dados.
O SQL oferece ferramentas poderosas para a limpeza de dados.
Correto - O SQL pode lidar com grandes quantidades de dados, pode ser adaptado e usado com vários programas de banco de dados e
oferece ferramentas poderosas para limpeza de dados.
Pergunta 2 - Qual das seguintes tarefas os analistas de dados podem realizar usando planilhas e SQL? Selecione
todas as opções válidas.
Processar grandes quantidades de dados com eficiência
Realizar aritmética
Usar fórmulas
Juntar dadosCorreto - Os analistas podem usar SQL e planilhas para realizar aritmética, adotar fórmulas e juntar dados.
Pergunta 3 - SQL é uma linguagem usada para se comunicar com bancos de dados. Como a maioria das
linguagens, o SQL tem dialetos. Quais são as vantagens de aprender e usar SQL padrão? Selecione todas as
opções válidas.
É muito mais fácil aprender o SQL padrão do que outros dialetos.
O SQL padrão funciona com a maioria dos bancos de dados.
O SQL padrão é traduzido automaticamente pelos bancos de dados para outros dialetos.
O SQL padrão requer um pequeno número de alterações de sintaxe para se adaptar a outros dialetos.
Correto - SQL padrão funciona com a maioria dos bancos de dados e requer um pequeno número de alterações de sintaxe para se adaptar a
outros dialetos.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
3.2 - APRENDA CONSULTAS BÁSICAS DE SQL
Opcional: Faça upload do conjunto de dados do cliente para o BigQuery
No próximo vídeo, o instrutor usa um conjunto de dados específico. As instruções nesta leitura são fornecidas para você
fazer upload do mesmo conjunto de dados no console do BigQuery. Você deve ter uma conta do BigQuery para
acompanhar. Se você já percorreu os cursos, Usando o BigQuery no curso Preparar dados para exploração aborda como
configurar uma conta do BigQuery.
Prepare-se para o próximo vídeo
● Primeiro, faça o download do arquivo CSV do anexo abaixo.
Customer-Table---Sheet1_POR.CSV File
● Em seguida, conclua as etapas a seguir no console do BigQuery para fazer upload do conjunto de dados da
Tabela de clientes.
Etapa 1. Abra o console do BigQuery e clique no projeto para o qual deseja fazer upload dos dados.
Etapa 2: No Explorer à esquerda, clique no ícone Actions (três pontos verticais) ao lado do nome do seu projeto e
selecione Create dataset.
Etapa 3: No próximo vídeo, usaremos o nome "customer_data" para o conjunto de dados. Se você pretende acompanhar o
vídeo, insira customer_data para o ID do conjunto de dados.
Etapa 4: Clique em CREATE DATASET (botão azul) para adicionar
o conjunto de dados ao seu projeto.
Etapa 5: No Explorer à esquerda, clique para expandir seu projeto
e, em seguida, clique no conjunto de dados customer_data que
você acabou de criar.
Etapa 6: Clique no ícone Actions (três pontos verticais) ao lado de
customer_data e selecione Open.
Etapa 7: Clique no ícone azul + no canto superior direito para abrir
a janela "Create table".
Etapa 8: Em Source, para a seleção
Create table, escolha de onde os dados
virão.
● Selecione Upload.
● Clique em Browse para selecionar o arquivo CSV da Tabela de Clientes baixada.
● Escolha CSV no menu suspenso de formato de arquivo.
Etapa 9: Para o Nome da tabela, insira customer_address se você planeja acompanhar o vídeo.
Etapa 10: Para Esquema, clique na caixa de seleção Auto detect.
Etapa 11: Clique em Create table (botão azul). Agora você verá a tabela customer_address em seu conjunto de dados
customer_data em seu projeto.
https://www.coursera.org/teach/preparar-os-dados-para-exploracao/ya2S-yfxEeyavRI3rIvGvQ/content/edit/supplement/DYOQK
https://d3c33hcgiwev3.cloudfront.net/14bbgkDgQd-G24JA4KHfRQ_88227d31b5a4463a987e98f9689c9bf1_Customer-Table---Sheet1_POR.csv?Expires=1688688000&Signature=GXm5fVLYO50q2Dp1mcgy2TFuPm38D9D4d-XM3eh5bzjZWmcIE7ErZqzY2WzIQ4spxZ8Revpaq5hPK~BiA20zBlK2sNkwUvraumJn5hPnIthNTnLPj2OUtxNmLSbeRsXp429EfFj6XGKkciITqI00nPGXUBzZOTI-oISengsrlXY_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Etapa 12: Clique em customer_address e
selecione a guia Preview. Confirme se você
vê os dados mostrados abaixo.
Agora você tem tudo o que precisa para
acompanhar o próximo vídeo. Essa também
é uma ótima tabela para praticar a consulta
de dados por conta própria. Além disso,
você pode usar essas etapas para fazer
upload de outros dados com os quais
deseja trabalhar.
VÍDEO - CONSULTAS SQL MUITO UTILIZADAS - Olá mais uma vez! Até agora, aprendemos que o SQL tem algumas das mesmas
ferramentas das planilhas, mas em uma escala muito maior. Neste vídeo, aprenderemos mais sobre algumas das consultas SQL mais
usadas que você pode começar a usar para sua própria limpeza de dados e eventual análise. Vamos começar. Falamos sobre
consultas como solicitações inseridas no banco de dados para que o recurso faça coisas para você. As consultas são uma grande
parte do uso do SQL. Afinal, é a Linguagem de Consulta Estruturada. As consultas podem ajudá-lo a fazer muitas coisas, mas há
algumas comuns que os analistas de dados usam o tempo todo. Vamos começar por elas. Primeiro, mostrarei como usar a consulta
SELECT. Já a mencionei antes, mas agora vou adicionar detalhes novos para experimentarmos. No momento, o visualizador de
tabelas está em branco porque ainda não fizemos extrações do banco de dados. Para este exemplo, a loja com a qual estamos
trabalhando está realizando um sorteio para clientes em determinadas cidades. Temos um banco de dados que contém informações de
clientes que podemos usar para restringir quais clientes são elegíveis para o sorteio. Vamos fazer isso agora. Podemos usar SELECT
para especificar exatamente com quais dados queremos interagir em uma tabela. Se combinarmos SELECT com FROM, podemos
extrair dados de qualquer tabela desse banco de dados, desde que saibam quais são os nomes das colunas e linhas. Podemos querer
extrair os dados sobre nomes de clientes e cidades de uma das tabelas. Para fazer isso, podemos inserir SELECT nome, vírgula,
cidade FROM cliente underline dados ponto cliente underline endereço. Para obter essas informações da tabela cliente underline
endereço, que reside no conjunto de dados cliente underline dados. SELECT e FROM ajudam a especificar quais dados queremos
extrair do banco de dados para utilizar. Também podemos inserir novos dados em um banco de dados ou atualizar dados existentes.
Por exemplo, talvez haja um novo cliente que desejamos inserir nesta tabela. Podemos usar a consulta INSERT INTO para inserir
essas informações. Vamos começar por onde estamos tentando inserir esses dados, a tabela cliente underline endereço. Também
queremos especificar em quais colunas estamos adicionando esses dados ao digitar seus nomes entre parênteses. Dessa forma, o
SQL pode informar ao banco de dados exatamente onde estamos inserindo novas informações. Assim, indicamos quais valores
estamos inserindo. Execute a consulta e, assim, o recurso faz a inclusão na tabela para nós. Agora, digamos que precisamos apenas
alterar o endereço de um cliente. Bem, podemos pedir para que o banco de dados o atualize para nós. Para isso, precisamos informar
que estamos tentando atualizar a tabela cliente underline endereço. Desta forma, precisamos que ele saiba qual valor estamos
tentando mudar. Mas também precisamos informar onde estamos fazendo essa alteração especificamente, para que não altere todos
os endereços da tabela. Pronto. Agora o endereço deste cliente foi atualizado. Se quisermos criar uma nova tabela para este banco de
dados, podemos usar a instrução CREATE TABLE IF NOT EXISTS. Lembre-se de que apenas executar uma consulta SQL não cria
uma tabela para os dados que extraímos. O recurso apenas faz o armazenamento em nossa memória local. Para salvá-lo, precisamos
fazer o download dele como uma planilha ou salvar o resultado em uma nova tabela. Como analista de dados, há algumas situações
em que você pode precisar fazer exatamente isso. Realmente depende do tipo de dados que você está extraindo e com que
frequência. Se você estiver usando apenas um número total de clientes, provavelmente não precisará de um arquivo CSV ou de uma
nova tabela em seu banco de dados. Se você estiver usando o número total de clientes por dia para fazer algo como acompanhar uma
promoção de fim de semana em uma loja, poderá fazer o download desses dados como um arquivo CSV para visualizá-los em uma
planilha. Mas se você está sendo solicitado a extrair essa tendência regularmente, poderá criar uma tabela que será atualizada
automaticamente com a consulta escrita. Dessa forma, vocêpode fazer o download dos resultados diretamente sempre que precisar
deles para um relatório. Outra coisa boa para ter em mente, se estiver criando muitas tabelas dentro de um banco de dados, é que
você poderá querer usar a instrução DROP TABLE IF EXISTS para fazer a limpeza depois de você mesmo. É uma boa forma de
organização. Você provavelmente não excluirá tabelas existentes com muita frequência. Afinal, esses são os dados da empresa e você
não deseja excluir dados importantes do banco de dados deles. Contudo, você pode ter a certeza de que está limpando as tabelas que
criou pessoalmente para que não aconteça de tabelas antigas ou não utilizadas com informações redundantes desordenem o banco de
dados. Pronto. Agora você viu algumas das consultas SQL mais usadas em ação. Definitivamente, há mais palavras-chave de consulta
para você aprender e combinações exclusivas que o ajudarão a trabalhar em bancos de dados. Mas este é um ótimo ponto de partida.
A seguir, aprenderemos ainda mais sobre consultas em SQL e como usá-las para limpar nossos dados. Vejo você em breve.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
VÍDEO - EVAN: BRINCANDO COM O SQL - Olá, meu nome é Evan. Sou gerente de portfólio de aprendizagem aqui no Google. Não
sou um tipo de pessoa que faria ciência da computação nem seria um super engenheiro, mas realmente gosto de trabalhar com
números. Por isso, comecei a estudar contabilidade. E depois de dois anos de contabilidade eu disse: "Na verdade, não quero fazer
tudo isso à mão". Então, fiz minha primeira matéria de sistemas de informação, onde me ensinaram a linguagem SQL ou S-Q-L, e isso
abriu totalmente minha cabeça. Entre um conhecimento prático de planilhas, em que você muda uma célula e a planilha inteira muda
devido àqueles campos de cálculo geniais e o SQL, que posso usar para consultar bilhões de linhas de dados em questão de
segundos, eu já estava completamente apaixonado pelos dados. Dediquei minha vida e minha carreira simplesmente a comunicar
essa paixão e mostrar aos colegas o que eles podem fazer com os dados. Por que o SQL é uma linguagem tão interessante para
começar? É possível fazer tantas coisas com ela! Primeiro, farei uma ressalva: não sou formado em ciências da computação. Não
conheço Java e Python profundamente, e eu estava um pouco apreensivo de aprender uma linguagem de computação. É uma
pseudo-linguagem de programação, mas na verdade é possível escrever sua primeira instrução em SQL, como você verá aqui dentro
de alguns minutos. Para ser sincero, o SQL é uma daquelas linguagens que é fácil de aprender e ainda mais divertida de dominar.
Venho aprendendo SQL há 15 anos. E dou aula de SQL há 10. Como você verá em alguns dos exercícios práticos que faremos, é
muito fácil obter dados de um banco ou conjunto de dados. É só selecionar quaisquer colunas de qualquer banco de dados que você
estiver usando e receber os dados retornados imediatamente. Agora, a parte realmente divertida é realmente separar e dizer: o que
acontecerá se eu mudar a consulta, adicionar mais colunas, filtrar o conjunto de dados de outra maneira, compartilhar com meus
colegas? É uma linguagem de consulta interativa, e "consulta" significa "fazer uma pergunta". Se posso apostar em algo com vocês
é que a sintaxe do SQL, assim como as regras de um jogo de xadrez, são muito fáceis de aprender. Mas a parte difícil não é escrever a
sintaxe, como em qualquer linguagem de programação, sim que pergunta específica você quer fazer aos dados. O que recomendo
você a fazer é ser super curioso sobre qualquer conjunto de dados que tiver. Passe muito tempo, inclusive antes de tocar no teclado,
pensando sobre que conjunto de dados ou insights que você pode obter com os dados. Depois, é só começar a se divertir. Há muitas
maneiras corretas e diferentes de escrever a mesma instrução SQL. Portanto, experimente, compartilhe com seus amigos e comece a
retornar dados para obter insights. Boa sorte!
VÍDEO - LIMPEZA DE VARIÁVEIS DE STRING COM SQL - É tão bom ter você de volta! Agora que conhecemos algumas consultas
básicas de SQL e passamos certo tempo trabalhando em um banco de dados, vamos aplicar esse conhecimento a outro aspecto que
mencionamos: preparar e limpar dados. Você já sabe que limpar e completar seus dados antes de analisá-los é um passo importante.
Então, neste vídeo, mostrarei como o SQL pode ajudá-lo a fazer exatamente isso, incluindo como remover duplicatas, bem como
quatro funções para ajudá-lo a limpar variáveis de string. Anteriormente, abordamos como remover duplicatas em planilhas usando a
ferramenta “Remover duplicatas”. No SQL, podemos fazer o mesmo ao incluir DISTINCT em nossa instrução SELECT. Por exemplo,
digamos que a empresa para a qual trabalhamos tenha uma promoção especial para clientes em Ohio. Queremos obter os IDs dos
clientes que moram em Ohio. Entretanto, algumas informações dos clientes foram inseridas várias vezes. Podemos obter esses IDs de
cliente ao escrever SELECT customer_id FROM customer_data.customer_address. Essa consulta nos dará duplicatas se existirem na
tabela. Se o ID de cliente 9080 aparecer três vezes em nossa tabela, nossos resultados apresentarão três desse ID de cliente. Mas não
queremos que isso aconteça. Queremos uma lista de todos os IDs de clientes exclusivos. Para isso, adicionamos DISTINCT à nossa
instrução SELECT ao escrever:
SELECT DISTINCT
customer_id
FROM
customer_data.customer_address.
Agora, o ID de cliente 9080 aparecerá apenas uma vez em nossos resultados. Você deve se lembrar de que falamos antes sobre
strings de texto como um grupo de caracteres dentro de uma célula, geralmente composto por letras, números ou ambos. Essas
strings de texto precisam ser limpas algumas vezes. Talvez tenham sido inseridas de maneira distinta em lugares diferentes no banco
de dados e agora não correspondem. Nesses casos, você precisará limpá-las antes de analisá-las. Aqui estão algumas funções que
você pode usar no SQL para lidar com variáveis de string. Você pode reconhecer algumas dessas funções de quando falamos sobre
planilhas. Agora é hora de vê-las trabalhar de uma nova maneira. Extraia o conjunto de dados que compartilhamos antes deste vídeo.
Você pode acompanhar o passo a passo comigo durante o resto deste vídeo. A primeira função que quero mostrar é LENGTH, que já
vimos antes. Se já sabemos o tamanho que nossas variáveis de string devem ter, podemos usar LENGTH para verificar de novo se
nossas variáveis de string são consistentes. Para alguns bancos de dados, essa consulta é escrita como LEN, mas faz a mesma
coisa. Digamos que estamos trabalhando com a tabela customer_address do nosso exemplo anterior. Podemos garantir que todos os
códigos de país tenham o mesmo comprimento usando LENGTH em cada uma dessas strings. Assim, para escrever nossa consulta
SQL, vamos primeiro começar com SELECT e FROM. Sabemos que nossos dados vêm da tabela customer_address no conjunto de
dados customer_data. Então, adicionamos customer_data.customer_address após a cláusula FROM. Em seguida, em SELECT,
escreveremos LENGTH e, em seguida, a coluna que queremos verificar, país. Para nos lembrarmos disso, podemos rotular essa
coluna em nossos resultados como letters_in_country. Adicionamos AS letters_in_country, depois de LENGTH (country). O
resultado que obtemos é uma lista do número de letras em cada país listadas para cada um de nossos clientes. Parece que quase
todos são 2, o que significa que o campo país contém apenas duas letras. Entretanto, notamos um que contém 3. Isso não é bom.
Queremos que nossos dados sejam consistentes. Vamos verificar quais países foram listados incorretamente em nossa tabela.
Podemos fazer isso ao colocar a função LENGTH (country) que criamos na cláusula WHERE, porque estamos dizendo ao SQL para
filtrar os dados e mostrar apenas os clientes cujo país contém mais de duas letras. Agora vamos escrever:
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
SELECT
country
FROM
customer_data.customer_address
WHERE
LENGTH(country) > 2.
Quando executamosesta consulta, agora obtemos os dois países onde o número de letras é maior que o 2 que esperamos encontrar.
Os países listados incorretamente aparecem como USA em vez de US. Se criássemos essa tabela, poderíamos atualizar nossa tabela
para que essa entrada apareça como US em vez de USA. Mas, neste caso, não criamos esta tabela, então não devemos atualizá-la.
Ainda precisamos corrigir esse problema para que possamos obter uma lista de todos os clientes nos EUA, incluindo os dois que têm
USA em vez de US. A boa notícia é que podemos explicar esse erro em nossos resultados ao usar a função substring em nossa
consulta SQL. Para escrever nossa consulta SQL, vamos começar escrevendo a estrutura básica, SELECT, FROM, WHERE. Sabemos
que nossos dados vêm da tabela customer_address do conjunto de dados customer_data. Então, digitamos
customer_data.customer_address, depois de FROM. Em seguida, informamos ao SQL quais dados queremos que nos forneça.
Queremos todos os clientes nos EUA por seus IDs. Assim, digitamos customer_id após SELECT. Por fim, queremos que o SQL filtre
apenas os clientes americanos. Portanto, usamos a função substring após a cláusula WHERE. Vamos usar a função substring para
extrair as duas primeiras letras de cada país para que todas sejam consistentes e contenham apenas duas letras. Para usar a função
substring, primeiro precisamos informar ao SQL a coluna onde encontramos esse erro, país. Em seguida, especificamos com qual
letra começar. Queremos que o SQL extraia as duas primeiras letras, então começamos com a primeira letra e digitamos 1. Assim,
precisamos dizer ao SQL quantas letras, incluindo esta primeira letra, serão extraídas. Como queremos as duas primeiras letras,
precisamos que o SQL extraia duas letras no total, e então digitamos 2. A função nos dará as duas primeiras letras de cada país.
Queremos apenas US, então definimos esta função para igual a US. Quando executamos essa consulta, obtemos uma lista de todos
os IDs de clientes cujo país é os EUA, incluindo os clientes que tinham USA em vez de US. Analisando nossos resultados, parece que
temos algumas duplicatas em que o ID do cliente é mostrado várias vezes. Lembra-se de como nos livramos de duplicatas?
Adicionamos DISTINCT antes de customer_id. Agora, quando executamos essa consulta, temos nossa lista final de IDs de clientes
que moram nos EUA. Por fim, vamos verificar a função TRIM, que você já viu antes. Isso é realmente útil se você encontrar entradas
com espaços extras e precisar eliminá-los para manter uma consistência. Por exemplo, vamos verificar a coluna de estado em nossa
tabela customer_address. Assim como fizemos para a coluna do país, queremos garantir que a coluna do estado tenha o número
consistente de letras. Assim, vamos usar a função LENGTH novamente para saber se temos algum estado com mais de duas letras,
que é o que esperaríamos encontrar em nossa tabela de dados. Começamos a escrever nossa consulta SQL ao digitar a estrutura SQL
básica de SELECT, FROM, WHERE. Estamos trabalhando com a tabela customer_address no conjunto de dados customer_data.
Então, digitamos customer_data.customer_address depois de FROM. Depois, informamos ao SQL o que queremos que extraia.
Queremos que ele nos dê qualquer estado que tenha mais de duas letras, então digitamos state depois de SELECT. Por fim,
queremos que o SQL filtre por estados que tenham mais de duas letras. Esta condição é escrita na cláusulaWHERE. Assim, digitamos
LENGTH (state), e que deve ser superior a 2 porque queremos obter os estados que tenham mais de duas letras. Queremos descobrir
como se parecem os estados listados incorretamente, se houver algum. Quando executamos essa consulta, obtemos um resultado.
Temos um estado que tem mais de duas letras. Mas, espere, como esse estado que parece ter duas letras, O e H para Ohio, pode ter
mais de duas letras? Sabemos que há mais de dois caracteres porque usamos a instrução LENGTHv(state) > 2 na cláusulaWHERE
ao filtrar os resultados. Isso significa que os caracteres extras que o SQL está contando devem ser espaços. Deve haver um espaço
após o H. É aqui que usamos a função TRIM. A função TRIM remove quaisquer espaços. Então, vamos escrever uma consulta SQL
que responda por esse erro. Digamos que queremos uma lista de todos os IDs de clientes que moram em "OH" para Ohio.
Começamos com a estrutura básica do SQL: FROM, SELECT, WHERE. Sabemos que os dados vêm da tabela customer_address no
conjunto de dados customer_data, e então digitamos customer_data.customer_address depois de FROM. Em seguida, informamos
ao SQL quais dados queremos. Queremos que o SQL nos forneça os IDs dos clientes que moram em Ohio, então digitamos
customer_id após SELECT. Como sabemos que temos algumas entradas de clientes duplicadas, digitaremos DISTINCT antes de
customer_id para remover qualquer ID de cliente duplicado que apareça em nossos resultados. Por fim, queremos que o SQL nos
forneça os IDs dos clientes que moram em Ohio. Estamos pedindo ao SQL para filtrar os dados, então isso pertence à cláusula
WHERE. É aqui que usaremos a função TRIM. Para usar a função TRIM, informamos ao SQL a coluna da qual queremos remover os
espaços, que é o estado no nosso caso. E como queremos apenas clientes de Ohio, digitamos = 'OH'. É isso. Temos todos os IDs de
clientes que moram em Ohio, incluindo aquele cliente com espaço extra após o H. Certificar-se de que suas variáveis de string estejam
completas e consistentes economizará muito tempo depois, evitará erros ou cálculos incorretos. É por isso que limpamos os dados em
primeiro lugar. Esperamos que funções como length, substring e trim forneçam as ferramentas necessárias para começar a trabalhar
com variáveis de string em seus próprios conjuntos de dados. A seguir, veremos algumas outras maneiras de trabalhar com strings e
funções de limpeza mais avançadas. Você estará pronto para começar a trabalhar no SQL por conta própria. Vejo você em breve.
Atividade prática: Limpar dados usando SQL
Visão geral da atividade
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Nas lições anteriores, você aprendeu mais sobre a importância de poder limpar seus dados no local onde se encontram.
Quando se trata de dados armazenados em bancos de dados, estamos falando de usar consultas SQL. Nesta atividade,
você criará um conjunto de dados e uma tabela personalizados, importará um arquivo CSV e usará consultas SQL para
limpar dados de automóveis. Nesse cenário, você é um analista de dados que trabalha com um empreendimento de
startup para uma concessionária de carros usados. Os investidores querem que você descubra quais carros são mais
populares entre os clientes, para que possam garantir o estoque devidamente. Ao concluir esta atividade, você poderá
limpar os dados usando SQL, o que permitirá que você processe e analise dados em bancos de dados, uma tarefa comum
para analistas de dados.
O que você vai precisar
Para começar, faça o download do arquivo CSV automobile_data, que se refere a dados de uma fonte externa que
contém dados históricos de vendas sobre os preços dos carros e seus recursos. Clique no link que direciona ao arquivo
automobile_data para fazer o download, ou você pode fazer o download do arquivo CSV diretamente dos anexos abaixo.
Link aos dados: automobile_data
Carregue seus dados
De forma semelhante a uma atividade anterior do BigQuery, você precisará criar um conjunto de dados e uma tabela
personalizada para hospedar seus dados. Em seguida, você poderá usar consultas SQL para explorar e fazer uma
limpeza. Depois de fazer o download do arquivo automobile_data, você pode criar seu conjunto de dados.
Etapa 1: Crie um conjunto de dados
Vá até o painel Explorer em seu espaço de trabalho e clique nos três pontos ao lado do projeto fixado para abrir o menu.
Desde essa posição, selecione Create dataset (Criar Conjunto de Dados).
No menu Create dataset, preencha algumas informações sobre o conjunto de
dados. Insira o ID do conjunto de dados como cars; você pode deixar o local dos
dados como padrão.Em seguida, clique em CREATE DATASET (Criar Conjunto
de Dados).
O conjunto de dados de veículos deve aparecer em seu projeto no painel do Explorer,
conforme mostrado abaixo. Clique nos três pontos ao lado do conjunto de dados de veículos
para abri-lo.
Etapa 2: Crie uma tabela
Depois de abrir seu conjunto de dados recém-criado, você poderá adicionar uma tabela
personalizada para seus dados.
No conjunto de dados de veículos, clique em CREATE TABLE.
https://drive.google.com/u/0/uc?id=1cJtuw-6mxZk7BNkcsLYEvfjW0l_PdKxA&export=download
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Em Source, carregue o CSV automobile_data. Em Destination, certifique-se de fazer upload para o conjunto de dados de
seus carros e nomeie sua tabela como car_info. Você pode definir o esquema para detecção automática. Em seguida,
clique em Create table.
Depois de criar sua tabela, ela aparecerá no painel do Explorer. Você pode clicar
na tabela para explorar o esquema e visualizar seus dados. Depois de se
familiarizar com seus dados, é possível começar a consultá-los.
Limpeza de seus dados
Seu novo conjunto de dados contém dados históricos de vendas, incluindo detalhes como características e preços de
veículos. Você pode usar esses dados para encontrar os 10 carros e acabamentos mais populares. Mas, antes que você
possa realizar sua análise, é necessário ter certeza de que seus dados estão limpos. Se você analisar dados sujos, pode
acabar apresentando a lista errada de carros aos investidores, o que pode fazer com que eles percam dinheiro em seu
investimento em estoque de carros.
Etapa 1: Inspecione a coluna fuel_type
A primeira coisa a ser feita é inspecionar os dados em sua tabela para saber se há alguma limpeza específica que precisa
ser executada. De acordo com a descrição dos dados, a coluna fuel_typedeve conter apenas dois valores de string
exclusivos: diesel e gasolina. Para verificar se isso é verdade, execute a seguinte consulta:
SELECT DISTINCT fuel_type FROM cars.car_info;
A consulta retorna os seguintes resultados:
Isso confirma que a coluna fuel_type não
possui valores inesperados.
Etapa 2: Inspecione a coluna de
comprimento
Em seguida, você inspecionará uma coluna com dados numéricos. A coluna de comprimento deve conter medidas
numéricas dos carros. Portanto, você verificará se os comprimentos mínimo e máximo no conjunto de dados estão
https://archive.ics.uci.edu/ml/datasets/Automobile
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
alinhados com a descrição de dados, que afirma que os comprimentos nesta coluna devem variar de 141,1 a 208,1.
Execute esta consulta para confirmar.
SELECT MIN(length) AS min_length, MAX(length) AS max_length FROM cars.car_info;
Seus resultados devem confirmar que 141,1 e 208,1 são os valores mínimo e máximo, respectivamente, nesta coluna.
Etapa 3: Preencha os dados ausentes
Valores ausentes podem criar erros ou distorcer seus resultados durante a análise. Você deverá verificar seus dados em
busca de valores nulos ou ausentes. Esses valores podem aparecer como uma célula em branco ou a palavra null no
BigQuery. Você pode verificar se a coluna num_of_doors contém valores nulos usando esta consulta:
SELECT * FROM cars.car_info
WHERE
num_of_doors IS NULL;
A consulta selecionará todas as linhas com dados ausentes para a coluna num_of_doors e as retornará em sua tabela de
resultados. Você deve obter dois resultados, um Mazda e um Dodge:
Para preencher esses valores ausentes, verifique com
o gerente de vendas, que afirma que todos os sedãs a
gasolina Dodge e todos os sedãs a diesel Mazda
vendidos tinham quatro portas. Se estiver usando a
avaliação gratuita do BigQuery, poderá usar esta
consulta para atualizar sua tabela para que todos os
sedãs a diesel Dodge tenham quatro portas:
UPDATE cars.car_info SET num_of_doors = "four" WHERE make = "dodge" AND fuel_type = "gas" AND body_style =
"sedan";
Você deve receber uma mensagem informando que três linhas foram modificadas nesta tabela. Para ter certeza, é possível
executar a consulta anterior novamente:
SELECT * FROM cars.car_info
WHERE
num_of_doors IS NULL;
Agora, você tem apenas uma linha com um valor NULL para num_of_doors. Repita este processo para substituir o valor
nulo do Mazda. Se estiver usando o BigQuery Sandbox, poderá ignorar essas consultas UPDATE, visto que não afetarão
sua capacidade de concluir esta atividade.
Etapa 4: Identifique possíveis erros
Depois de concluir a garantia de que não há valores ausentes em seus dados, verifique outros possíveis erros. Você pode
usar SELECT DISTINCT para verificar quais valores existem em uma coluna. Você pode executar esta consulta para
verificar a coluna num_of_cylinders:
SELECT DISTINCT num_of_cylinders FROM cars.car_info;
Depois da execução, você percebe a presença de muitas linhas. Existem duas entradas para dois cilindros: linhas 6 e 7.
Mas o dois na linha 7 tem um erro de digitação.
Para corrigir o erro de digitação de todas as linhas, execute esta consulta se tiver a avaliação gratuita do
BigQuery:
UPDATE cars.car_info SET num_of_cylinders = "two" WHERE num_of_cylinders = "tow";
Você receberá uma mensagem alertando que uma linha foi modificada após executar esta instrução. Para
verificar se funcionou, execute a consulta anterior novamente:
SELECT DISTINCT num_of_cylinders FROM cars.car_info;
Em seguida, você pode verificar a coluna compression_ratio. De acordo com a descrição dos dados, os
valores da coluna compression_ratio devem variar de 7 a 23. Assim como quando você verificou os valores de
comprimento, é possível usar MIN e MAX para verificar se está correto:
https://archive.ics.uci.edu/ml/datasets/Automobile
https://archive.ics.uci.edu/ml/datasets/Automobile
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
SELECT MIN(compression_ratio) AS min_compression_ratio, MAX(compression_ratio) AS
max_compression_ratio FROM cars.car_info;
Observe que o recurso retorna um máximo de 70. Contudo, você sabe que este é um erro, afinal, o valor máximo nesta
coluna deve ser 23 em vez de 70. Portanto, o 70 é provavelmente um 7,0. Execute a consulta acima novamente sem a
linha com 70 para garantir que o restante dos valores esteja dentro do intervalo esperado de 7 a 23.
SELECT MIN(compression_ratio) AS min_compression_ratio, MAX(compression_ratio) AS
max_compression_ratio FROM cars.car_info
WHERE
compression_ratio <> 70;
Agora, o valor mais alto é 23, que se alinha com a descrição dos dados. Você irá querer corrigir o valor 70. Ao verificar
novamente com o gerente de vendas, ele diz que esta linha foi feita por engano e deve ser removida. Antes de excluir
qualquer detalhe, você deve verificar quantas linhas contêm esse valor incorreto como precaução para não acabar
excluindo 50% dos seus dados. Se houver muitas (por exemplo, 20% de suas linhas têm o valor 70 incorreto), você deve
entrar em contato com o gerente de vendas para saber se devem ser excluídos ou se os 70 devem ser atualizados para
outro valor. Use a consulta abaixo para contar quantas linhas você excluiria:
SELECT
COUNT(*) AS num_of_rows_to_delete
FROM
cars.car_info
WHERE
compression_ratio = 70;
Acontece que há apenas uma linha com o valor 70 incorreto. Portanto, você pode excluir essa linha usando esta consulta:
DELETE cars.car_info
WHERE compression_ratio = 70;
Se você estiver usando o BigQuery Sandbox, substitua DELETE por SELECT para ver qual linha seria excluída.
Etapa 5: Garanta a consistência
Por fim, você deseja verificar seus dados em busca de quaisquer inconsistências que possam causar erros. Essas
inconsistências podem ser difíceis de detectar – às vezes até algo tão simples quanto um espaço extra pode causar um
problema.
Verifique a coluna drive_wheels quanto a inconsistências ao executar uma consulta com uma instrução SELECT
DISTINCT:
SELECT DISTINCT drive_wheels FROM cars.car_info;
Parece que 4wd aparece duas vezes nos resultados. No entanto, como você usou uma declaração SELECT DISTINCT
para retornar valores exclusivos, isso provavelmente significa que há um espaço extra em uma das entradas4wd que a
torna diferente das outras 4wd.
Para verificar se esse é o caso, você pode usar uma instrução LENGTH para determinar o comprimento de cada uma
dessas variáveis de string:
SELECT DISTINCT drive_wheels, LENGTH(drive_wheels) AS string_length FROM cars.car_info;
De acordo com esses resultados, algumas instâncias da string 4wd possuem quatro caracteres em vez dos três esperados
(4wd possui 3 caracteres). Nesse caso, você pode usar a função TRIM para remover todos os espaços extras na coluna
drive_wheels se estiver usando a avaliação gratuita do BigQuery:
UPDATE
cars.car_info
SET
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
drive_wheels = TRIM(drive_wheels)
WHERE TRUE;
Em seguida, execute a instrução SELECT DISTINCT novamente para garantir que haja apenas três valores distintos
na coluna drive_wheels:
SELECT DISTINCT drive_wheels FROM cars.car_info;
E agora deve haver apenas três valores exclusivos nesta coluna! Isso indica que seus dados estão limpos, consistentes e
prontos para análise!
Confirmação e reflexão
Pergunta 1 - Qual é o valor máximo na coluna de preço da tabela car_info?
45.400.
12.978
16.430
5.1180
Correto - Para garantir que os valores na coluna de preço estivessem dentro do intervalo esperado, você usou as funções MIN e MAX para
determinar que o preço máximo era 45.400.
Pergunta 2 - Na caixa de texto abaixo, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma das
perguntas a seguir:
1) Por que é importante limpar os dados antes de sua análise?
É importante limpar os dados antes da análise porque dados sujos, inconsistentes ou com valores ausentes podem
levar a resultados imprecisos e decisões errôneas. A limpeza dos dados envolve identificar e corrigir erros, remover
duplicatas, tratar valores ausentes e padronizar formatos, garantindo que os dados estejam aguardando e prontos
para análise.
2) Qual destas técnicas de limpeza você acha que será mais útil no futuro?
Dentre as técnicas de limpeza de dados, acredite que a automação será cada vez mais útil no futuro. Com avanços
em inteligência artificial e processamento de máquinas, ferramentas automatizadas podem identificar e tratar
problemas nos dados de forma mais eficiente e escalável. Isso permitirá economizar tempo, reduzir erros e lidar com
volumes cada vez maiores
Correto - Nesta atividade, você verificou seus dados em busca de erros e corrigiu quaisquer inconsistências. Uma boa resposta incluiria
que a limpeza de dados é uma etapa importante do processo de análise que economizará seu tempo e ajudará a garantir a precisão no
futuro. Limpar os dados no local onde se encontram é extremamente importante para os analistas. Por exemplo, você conseguiu usar o SQL
para concluir várias tarefas de limpeza, o que permite limpar dados armazenados em bancos de dados. Nas próximas atividades, você usará
suas habilidades de limpeza para se preparar para a análise!
Teste seu conhecimento sobre consultas SQL
Pergunta 1 - Qual das seguintes funções SQL os analistas de dados podem usar para limpar variáveis de string?
Selecione todas as opções válidas.
TRIM
COUNTIF
LENGTH
SUBSTR
Correto - Os analistas de dados podem usar as funções SUBSTR e TRIM para limpar variáveis de string.
Pergunta 2 - Você está trabalhando com uma tabela de banco de dados que contém dados sobre listas de
reprodução para diferentes tipos de mídia digital. A tabela inclui colunas para playlist_id e name. Você
deseja remover entradas duplicadas para nomes de listas de reprodução e classificar os resultados por
ID de lista de reprodução. Você escreve a consulta SQL abaixo. Adicione uma cláusula DISTINCT que removerá
entradas duplicadas da coluna name.
OBSERVAÇÃO: Os três pontos (...) indicam onde adicionar a cláusula.
SELECT DISTINCT
name
FROM
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
playlist
ORDER BY
playlist_id
Redefinir
+----------------------------+
| name |
+----------------------------+
| Music |
| Movies |
| TV Shows |
| Audiobooks |
| 90’s Music |
| Music Videos |
| Brazilian Music |
| Classical |
| Classical 101 - Deep Cuts |
| Classical 101 - Next Steps |
| Classical 101 - The Basics |
| Grunge |
| Heavy Metal Classic |
| On-The-Go 1 |
+----------------------------+
Qual nome de playlist aparece na linha 6 do resultado da sua consulta?
Programas de televisão
Audiolivros
Vídeos musicais
Filmes
Correto - A cláusula DISTINCT name removerá entradas duplicadas da coluna name. A consulta completa é SELECT DISTINCT name FROM
playlist ORDER BY playlist_id. A cláusula DISTINCT remove entradas duplicadas do resultado da sua consulta. O nome da playlist Vídeos
musicais aparece na linha 6 do resultado da consulta.
Pergunta 3 - Você está trabalhando com uma tabela de banco de dados que contém dados sobre álbuns de música.
A tabela inclui colunas para album_id, titlee artist_id. Você deseja verificar títulos de álbuns com menos de 4
caracteres. Você escreve a consulta SQL abaixo. Adicione uma função LENGTH que retornará qualquer título de
álbum com menos de 4 caracteres.
SELECT
*
FROM
album
WHERE
LENGTH(title) < 4
Redefinir
+----------+-------+-----------+
| album_id | title | artist_id |
+----------+-------+-----------+
| 131 | IV | 22 |
| 181 | Ten | 118 |
| 182 | Vs. | 118 |
| 236 | Pop | 150 |
| 239 | War | 150 |
+----------+-------+-----------+
Qual número de ID do álbum aparece na linha 3 do resultado da consulta?
236
131
182
239
Correto - A função LENGTH(title) < 4 retornará qualquer nome de álbum com menos de 4 caracteres. A consulta completa é SELECT * FROM
album WHERE LENGTH(title) < 4. A função LENGTH conta o número de caracteres que uma string contém. O número de ID do álbum 182
aparece na linha 3 do resultado da sua consulta.
Pergunta 4 - Você está trabalhando com uma tabela de banco de dados que contém dados de clientes. A tabela
inclui colunas sobre a localização do cliente, como cidade, estado e país. Você deseja recuperar as primeiras 3
letras do nome de cada país. Você decide usar a função SUBSTR para recuperar as primeiras 3 letras de cada nome
de país e usa o comando AS para armazenar o resultado em uma nova coluna denominada new_country. Você
escreve a consulta SQL abaixo. Adicione uma instrução à sua consulta SQL que recuperará as primeiras 3 letras
do nome de cada país e armazenará o resultado em uma nova coluna como new_country.
OBSERVAÇÃO: Os três pontos (...) indicam onde adicionar a instrução.
SELECT
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
customer_id,
SUBSTR(country, 1, 3) AS new_country
FROM
customer
ORDER BY
country
Redefinir
+-------------+-------------+
| customer_id | new_country |
+-------------+-------------+
| 56 | Arg |
| 55 | Aus |
| 7 | Aus |
| 8 | Bel |
| 1 | Bra |
| 10 | Bra |
| 11 | Bra |
| 12 | Bra |
| 13 | Bra |
| 3 | Can |
| 14 | Can |
| 15 | Can |
| 29 | Can |
| 30 | Can |
| 31 | Can |
| 32 | Can |
| 33 | Can |
| 57 | Chi |
| 5 | Cze |
| 6 | Cze |
| 9 | Den |
| 44 | Fin |
| 39 | Fra |
| 40 | Fra |
| 41 | Fra |
+-------------+-------------+
(Output limit exceeded, 25 of 59 total rows shown)
Qual número de ID do cliente aparece na linha 2 do resultado da consulta?
3
55
47
28
Correto - A instrução SUBSTR(country, 1, 3) AS new_country recuperará as primeiras 3 letras do nome de cada estado e armazenará o
resultado em uma nova coluna como new_country. A consulta completa é SELECT customer_id, SUBSTR(country, 1, 3) AS new_country
FROM customer ORDER BY country. A função SUBSTR extrai uma substring de uma string. Esta função instrui o banco de dados a retornar
3 caracteres de cada país, começando pelo primeiro caractere. O número de ID do cliente 55 aparece na linha 2 do resultado da sua consulta.
3.3 - TRANSFORMANDO DADOS
Opcional: upload do conjunto de dados das transações da loja para o BigQuery
No próximo vídeo, o instrutor usa um conjunto de dados específico. As instruções nesta leitura são fornecidas para você
fazer upload do mesmo conjunto de dados no console do BigQuery para que possa acompanhar. Você deve ter uma conta
do BigQuery para acompanhar. Se vocêjá percorreu os cursos, Usando o BigQuery no curso Preparar dados para
exploração aborda como configurar uma conta do BigQuery.
Prepare-se para o próximo vídeo
● Primeiro, faça o download do arquivo CSV do anexo abaixo.
Lauren-s-Furniture-Store-Transaction-Table_POR.CSV File
● Em seguida, conclua as etapas abaixo no console do BigQuery para fazer upload do conjunto de dados de
transações da loja.
OBSERVAÇÃO: Essas etapas serão diferentes do que você executou antes. Em instâncias anteriores, você marcou a caixa de seleção
Auto detect para permitir que o BigQuery detecte automaticamente o esquema. Desta vez, você escolherá criar o esquema editando-o
como texto. Esse método pode ser usado quando o BigQuery não define automaticamente o tipo desejado para um campo específico.
Nesse caso, você especificará STRING em vez de FLOAT como o tipo para o campo purchase_price.
Etapa 1. Abra o console do BigQuery e clique no projeto para o qual deseja fazer upload dos dados. Se você já criou um
conjunto de dados customer_data para seu projeto, vá para a etapa 5; caso contrário, continue com a etapa 2.
Etapa 2. No Explorer à esquerda, clique no ícone Actions (três pontos verticais) ao lado do nome do seu projeto e
selecione Create dataset.
https://www.coursera.org/teach/preparar-os-dados-para-exploracao/ya2S-yfxEeyavRI3rIvGvQ/content/edit/supplement/DYOQK
https://d3c33hcgiwev3.cloudfront.net/BDwAs_HMRkS8ALPxzIZEmw_fa43d7b0adc0417f874a17a56c9f16f1_Lauren-s-Furniture-Store-Transaction-Table_POR.csv?Expires=1688774400&Signature=lgCHnTaCzOrsrgnpLjB0DqtD8fTmMki58F2s8V84FMliPiIlFh0ziEU0~sirtqYEgbIgnjXjU8Em6ylM8ZWLyalM7tdhAQjhMWC4Sa4J9bYeo~~8m3EcxyvIp2d1KoKvAl4A75E3cGzHClNALV2ONnc~HE0AnkKZArYmjP2Hh-M_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Etapa 3. Insira customer_data para o ID do conjunto de dados.
Etapa 4. Clique em CREATE DATASET (botão azul) para adicionar o conjunto de dados ao seu projeto.
Etapa 5. No Explorer, clique para expandir seu projeto e, em seguida, clique no conjunto de dados customer_data.
Etapa 6. Clique no ícone Actions (três pontos verticais) ao lado de customer_data e selecione Open.
Etapa 7. Clique no ícone azul + no canto superior direito para abrir a janela Create table.
Etapa 8. Em Source, para a seleção Create table, escolha de onde os dados virão.
● Selecione Upload.
● Clique em Browse para selecionar o arquivo CSV da Tabela de transações da loja que você baixou.
● Escolha CSV no menu suspenso de formato de arquivo.
Etapa 9: Para Nome da tabela, insira customer_purchase se você pretende acompanhar o vídeo.
Etapa 10: Para Esquema, clique no botão de alternância para “Edit as text”. Esta opção abre uma caixa para o texto.
Etapa 11: Copie e cole o seguinte texto na caixa. Certifique-se de incluir os colchetes de abertura e fechamento. Eles são
necessários.
[
{
"description": "date",
"mode": "NULLABLE",
"name": "date",
"type": "DATETIME"
},
{
"description": "transaction id",
"mode": "NULLABLE",
"name": "transaction_id",
"type": "INTEGER"
},
{
"description": "customer id",
"mode": "NULLABLE",
"name": "customer_id",
"type": "INTEGER"
},
{
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
"description": "product name",
"mode": "NULLABLE",
"name": "product",
"type": "STRING"
},
{
"description": "product_code",
"mode": "NULLABLE",
"name": "product_code",
"type": "STRING"
},
{
"description": "product color",
"mode": "NULLABLE",
"name": "product_color",
"type": "STRING"
},
{
"description": "product price",
"mode": "NULLABLE",
"name": "product_price",
"type": "FLOAT"
},
{
"description": "quantity purchased",
"mode": "NULLABLE",
"name": "purchase_size",
"type": "INTEGER"
},
{
"description": "purchase price",
"mode": "NULLABLE",
"name": "purchase_price",
"type": "STRING"
},
{
"description": "revenue",
"mode": "NULLABLE",
"name": "revenue",
"type": "FLOAT"
}
]
Etapa 12. Role para baixo e expanda a seção Advanced options.
Etapa 13. Para o campo Header rows to skip, insira 1.
Etapa 14. Clique em Create table (botão azul). Agora você verá a tabela customer_purchase em seu conjunto de dados
customer_data em seu projeto.
Etapa 15. Clique na tabela customer_purchase e na guia Schema, confirme se o esquema corresponde ao esquema
mostrado abaixo.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Etapa 16. Clique na guia Preview e confirme se seus dados correspondem aos dados mostrados abaixo.
Parabéns, agora você está pronto para acompanhar o vídeo!
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
VÍDEO - FUNÇÕES AVANÇADAS DE LIMPEZA DE DADOS - PARTE 1 - Olá, bem-vindo de volta. Até agora, analisamos algumas
consultas e funções básicas de SQL que podem ajudá-lo a limpar seus dados. Também verificamos algumas maneiras de lidar com
variáveis de string no SQL para facilitar seu trabalho. Prepare-se para aprender mais funções a fim de lidar com strings no SQL.
Confie em mim, essas funções serão muito úteis em seu trabalho como analista de dados. Neste vídeo, veremos as strings novamente
e aprenderemos a usar a função CAST para formatar dados corretamente. Quando você importa dados que ainda não existem em
suas tabelas SQL, os tipos de dados do novo conjunto de dados podem não ter sido importados corretamente. É aqui que a função
CAST é útil. Basicamente, o CAST pode ser usado para converter qualquer coisa, de um tipo de dados para outro. Vamos ver um
exemplo. Imagine que estamos trabalhando com Lauren's Furniture Store. A proprietária vem coletando dados de transações no ano
passado, mas ela acabou de descobrir que não podem organizar seus dados porque eles não foram formatados corretamente. Nós a
ajudaremos convertendo nossos dados para torná-los úteis novamente. Por exemplo, digamos que queremos classificar todas as
compras pelo preço de compra ou purchase_price em ordem decrescente. Isso significa que queremos que a compra mais cara
apareça primeiro em nossos resultados. Para escrever a consulta SQL, começamos com a estrutura básica do SQL. SELECT, FROM,
WHERE. Sabemos que os dados são armazenados na tabela customer_purchase no conjunto de dados customer_data. Escrevemos
customer_data.customer_purchase depois de FROM. Em seguida, informamos ao SQL quais dados nos fornecer na cláusula
SELECT. Queremos ver os dados de purchase_price, então digitamos purchase_price, depois de SELECT. Em seguida, a cláusula
WHERE. Não estamos filtrando nenhum dado, pois queremos que todos os preços de compra sejam exibidos para que possamos
remover a cláusula WHERE. Por fim, para classificar purchase_price em ordem decrescente, digitamos ORDER BY purchase_price,
DESC no final de nossa consulta. Vamos executar esta consulta. Vemos que 89,85 aparece no topo com 799,99 abaixo. Mas sabemos
que 799,99 é um número maior que 89,85. O banco de dados não reconhece que esses são números, então não os classificou dessa
maneira. Se voltarmos à tabela customer_purchase e observarmos seu esquema, podemos ver que tipo de dados esse banco de
dados acha que purchase_price é. Diz aqui que o banco de dados pensa que purchase_price é uma string, quando na verdade é
uma FLOAT, que é um número que contém um decimal. É por isso que 89,85 aparece antes de 799,99. Quando começamos com
letras, começamos da primeira letra antes de passar para a segunda letra. Se quisermos ordenar as palavras maçã e laranja em ordem
decrescente, começamos com as primeiras letras m e l. Como m vem depois de l, laranja aparecerá primeiro, e depois maçã. O banco
de dados fez o mesmo com 89,85 e 799,99. Começou com a primeira letra, que neste caso era 8 e 7, respectivamente. Como 8 é maior
que 7, o banco de dados classificou 89,85 primeiro e depois 799,99. Como o banco de dados os tratou como strings de texto, o banco
de dados não reconhece essas strings como FLOAT porque ainda não foram tipificadas para corresponder a esse tipo de
dados. Typecasting significa converter dados de um tipo para outro, que é o que faremos com a função CAST. Usamos a função
CAST para substituir purchase_price pelo new purchase_price que o banco de dados reconhececomo FLOAT em vez de STRING.
Começamos substituindo purchase_price por CAST. Em seguida, informamos ao SQL o campo que queremos alterar, que é o campo
purchase_price. O próximo é um tipo de dados para o qual queremos alterar purchase_price, que é o tipo de dados de flutuação.
BigQuery armazena números em um sistema de 64 bits. O tipo de dados de flutuação é referenciado como float64 em nossa
consulta, o que pode ser um pouco diferente de outras plataformas SQL, mas, basicamente, 64 e float64 apenas indicam que estamos
lançando números no sistema de 64 bits como FLOAT. Também precisamos classificar esse novo campo, portanto, alteramos
purchase_price após ORDER BY para CAST purchase_price como float64. É assim que usamos a função CAST para permitir que o
SQL reconheça a coluna purchase_price como FLOAT em vez de strings de texto. Agora podemos iniciar nossas compras por
purchase_price. Simples assim, Lauren's Furniture Store tem dados que podem realmente ser usados para análise. Como analista
de dados, você será solicitado a localizar e organizar muitos dados, e é por isso que você deseja converter entre os tipos de dados
desde o início. Empresas como nossa loja de móveis estão interessadas em dados de vendas oportunos, e você precisa ser capaz de
levar isso em conta em sua análise. A função CAST também pode ser usada para alterar strings em outros tipos de dados, como data
e hora. Como analista de dados, você pode usar dados de várias fontes. Parte do seu trabalho é garantir que os dados dessas
fontes sejam reconhecíveis e utilizáveis em seu banco de dados para que você não tenha problemas com sua análise. Agora
você sabe como fazer isso. A função CAST é uma ótima ferramenta que você pode usar quando estiver limpando dados. A seguir,
abordaremos algumas outras funções avançadas que você pode adicionar à sua caixa de ferramentas. Vejo você em breve.
VÍDEO - FUNÇÕES AVANÇADAS DE LIMPEZA DE DADOS - PARTE 2 - Olá! É ótimo vê-lo de novo. Até agora, vimos algumas
funções SQL em ação. Neste vídeo, veremos mais usos de CAST e, em seguida, aprenderemos sobre CONCAT e COALESCE.
Vamos começar. Anteriormente, falamos sobre a função CAST, que nos permite converter strings de texto em float. Ressaltei que a
função CAST também pode ser usada para mudar para outros tipos de dados. Vamos conferir outro exemplo de como você pode usar
CAST em seu próprio trabalho de dados. Temos os dados de transação com os quais estávamos trabalhando no nosso exemplo de
Lauren's Furniture Store. Mas, agora, vamos verificar o campo data de compra. O dono da loja de móveis nos pediu para analisar as
compras que ocorreram durante o período de promoção de vendas em dezembro. Vamos escrever uma consulta SQL que extrairá data
e o preço de compra ou purchase_price para todas as compras que ocorreram entre 1º de dezembro de 2020 e 31 de dezembro de
2020. Começamos escrevendo a estrutura básica do SQL: SELECT, FROM, WHERE. Sabemos que os dados vêm da tabela
customer_purchase no conjunto de dados customer_data, então escrevemos customer_data.customer_purchase depois de FROM.
Em seguida, informamos ao SQL quais dados extrair. Como queremos data e purchase_price, nós os adicionamos à instrução
SELECT. Por fim, queremos que o SQL filtre apenas as compras que ocorreram em dezembro. Digitamos data BETWEEN
'2020-12-01' AND '2020-12-31' na cláusula WHERE. Vamos executar a consulta. Em dezembro, ocorreram quatro compras, mas o
campo de data parece estranho, isso porque o banco de dados reconhece esse campo de data como datetime, que consiste na data e
hora. Nossa consulta SQL ainda funciona corretamente, mesmo que o campo de data seja datetime em vez de date. Contudo,
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
podemos dizer ao SQL para converter o campo de data no tipo de dados de data para que vejamos apenas o dia e não a hora. Para
fazer isso, usamos a função CAST() novamente. Usaremos a função CAST() para substituir o campo de data em nossa instrução
SELECT pelo novo campo de data que mostrará a data, e não a hora. Podemos fazer isso ao digitar CAST() e adicionar a data como o
campo que queremos alterar. Em seguida, informamos ao SQL o tipo de dados que queremos, que é o tipo de dados de data. Pronto.
Agora podemos ter resultados mais limpos para as compras que ocorreram durante o período de vendas de dezembro. CAST é uma
função super útil para limpar e classificar dados, e é por isso que eu queria que você a visse em ação mais uma vez. Em seguida,
vamos verificar a função CONCAT. CONCAT permite adicionar strings para criar novas strings de texto que podem ser usadas
como chaves exclusivas. Voltando à nossa tabela customer_purchase, vemos que a loja de móveis vende o mesmo produto em
cores diferentes. O proprietário quer saber se os clientes preferem determinadas cores, para que ele possa gerenciar o estoque da loja
devidamente. O problema é que product_code é o mesmo, independentemente da cor do produto. Precisamos encontrar outra
maneira de separar os produtos por cor, para que possamos saber quais cores os clientes priorizam. Usaremos CONCAT para
produzir uma chave exclusiva que nos ajudará a diferenciar os produtos por cor e contá-los mais facilmente. Vamos escrever nossa
consulta SQL começando pela estrutura básica: SELECT, FROM e WHERE. Sabemos que nossos dados vêm da tabela
customer_purchase e do conjunto de dados customer_data. Digitamos "customer data.customer purchase" depois de FROM Em
seguida, informamos ao SQL quais dados extrair. Usamos a função CONCAT() aqui para obter essa chave exclusiva de produto e cor.
Então, digitamos CONCAT(), a primeira coluna que queremos, product_code, e a outra coluna que queremos, product_color. Por
fim, digamos que queremos ver os sofás, então os filtramos ao digitar product = 'couch' na cláusulaWHERE. Agora podemos contar
quantas vezes cada sofá foi comprado e descobrir se os clientes preferiram uma cor ou outra. Com CONCAT, a loja de móveis pode
descobrir quais são as cores dos sofás mais populares e encomendar mais unidades. Tenho uma última função avançada para mostrar
a você, COALESCE. COALESCE pode ser usada para retornar valores não nulos em uma lista. Valores nulos são valores
ausentes. Se você tiver um campo opcional em sua tabela, esta permanecerá nulo para linhas que não possuem valores adequados
para serem inseridos lá. Vamos abrir a tabela customer_purchase para que eu possa mostrar o que quero dizer. Na tabela
customer_purchase, podemos ver algumas linhas em que as informações do produto estão ausentes. É por isso que vemos valores
nulls lá. Mas, para as linhas em que o nome do produto é null, vemos que há dados product_code que podemos usar. Preferimos que
o SQL nos mostre o nome do produto, como cama ou sofá, por ser mais fácil de ler. Mas se o nome do produto não existir, podemos
dizer ao SQL para nos fornecer product_code. É aí que entra a função COALESCE. Digamos que queiramos uma lista de todos os
produtos que foram vendidos. Queremos usar a coluna product_name para entender que tipo de produto foi vendido. Escrevemos
nossa consulta SQL com a estrutura básica do SQL: SELECT, FROM e WHERE. Sabemos que nossos dados vêm da tabela
customer_purchase e do conjunto de dados customer_data. Digitamos "customer_data.customer_purchase" depois de FROM. Em
seguida, informamos ao SQL os dados que queremos. Queremos uma lista de nomes de produtos, mas se os nomes não estiverem
disponíveis, forneça-nos o código do produto. É aqui que digitamos "COALESCE", então informamos ao SQL qual coluna verificar
primeiro, produto, e qual coluna verificar em segundo se a primeira coluna for nula, product_code. Vamos nomear este novo campo
como product_info. Por fim, não estamos deixando de filtrar nenhum dado, então podemos remover a cláusulaWHERE. Isso nos dá
informações sobre o produto para cada compra. Agora temos uma lista de todos os produtos que foram vendidos para o proprietário
revisar. COALESCE também pode economizar seu tempo ao fazer cálculos, ignorando quaisquer valores nulos e mantendosua
matemática correta. Essas foram apenas algumas das funções avançadas que você pode usar para limpar seus dados e prepará-los
para a próxima etapa do processo de análise. Você descobrirá mais à medida que continuar trabalhando no SQL. Mas esse é o fim
deste vídeo e deste módulo. Ótimo trabalho! Abordamos inúmeros assuntos. Você aprendeu as diferentes funções de limpeza de dados
em planilhas e SQL e os benefícios de usar o SQL para lidar com grandes conjuntos de dados. Também adicionamos algumas
fórmulas e funções SQL ao seu kit de ferramentas e, mais importante, experimentamos algumas das maneiras pelas quais o SQL
pode ajudá-lo a preparar os dados para sua análise. Depois disso, você passará certo tempo aprendendo a verificar e relatar seus
resultados de limpeza para que seus dados fiquem totalmente limpos e as partes interessadas saibam disso. Mas, antes disso, você
tem outro desafio semanal para resolver. Você consegue. Alguns desses conceitos podem parecer desafiadores no início, mas se
tornarão um hábito para você à medida que progride em sua carreira. Leva apenas tempo e prática. Falando em prática, sinta-se à
vontade para voltar a qualquer um desses vídeos e assistir novamente ou até mesmo testar alguns desses comandos por conta
própria. Boa sorte! Vejo você novamente quando estiver pronto.
Depuração de um código SQL
Você está aprendendo a usar SQL para consultar bancos de dados e limpar seus dados. Ao usar uma linguagem de
programação, é comum cometer erros de codificação. Por exemplo, ao usar uma sintaxe imprópria, o banco de dados não
saberá o que você está tentando comunicar. Todos cometem erros de codificação, tanto programadores experientes, como
novos alunos. Por isso, é útil conhecer algumas estratégias para resolver erros. Pense em alguns dos erros que você
encontrou ao trabalhar com SQL. Em seguida, explique por que escolheu esses erros. Em seguida, anote suas três
principais dicas para resolvê-los. Sinta-se à vontade para encontrar mais informações online antes de começar a escrever.
Stack Overflow é um ótimo lugar para começar, ou você pode pesquisar online para encontrar outros recursos úteis. Envie
pelo menos dois parágrafos (150 a 200 palavras) em sua resposta por escrito. Em seguida, visite o fórum de discussão
para ler o que outros alunos escreveram e escolha duas ou mais publicações para comentar e debater.
A participação é opcional
https://stackoverflow.com/
https://stackoverflow.com/
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/discussions
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Ao aprender SQL, é comum cometer erros de codificação, como erros de sintaxe e problemas de referência de objetos. Para
resolvê-los, é necessário verificar cuidadosamente a sintaxe da consulta, garantindo que as aspas e os nomes de tabelas
estejam corretos. Além disso, é importante aproveitar as mensagens de erro fornecidas pelo banco de dados para identificar a
causa do problema e buscar recursos online, como fóruns e comunidades de desenvolvedores, onde é possível encontrar
soluções e orientações para resolver os erros encontrados. Com prática e pesquisa, é possível superar esses obstáculos e
aprimorar suas habilidades em SQL.
Limpeza de Dados com SQL (plugin)
Autorreflexão: Desafios com o SQL
Visão geral
Agora que você praticou a escrita de funções SQL, pode fazer uma pausa por um momento e pensar sobre o que está
aprendendo. Nesta autorreflexão, considere o que pensa sobre sua experiência com o aprendizado de SQL e responda a
algumas perguntas breves. Essa autorreflexão o ajudará a desenvolver insights sobre seu próprio aprendizado e prepará-lo
para identificar seus sucessos e dificuldades com o aprendizado de SQL, para que possa entender como desenvolver
ainda mais suas habilidades. Ao responder a perguntas (e fazer suas próprias perguntas), você considerará conceitos,
práticas e princípios úteis para refinar sua compreensão e reforçar seu aprendizado. Você trabalhou duro, então não deixe
de aproveitá-lo ao máximo: Essa reflexão ajudará a fixar o seu conhecimento!
Sua experiência com SQL (até agora)
Até agora, você foi apresentado a muitas ferramentas diferentes disponíveis no SQL. Como uma breve revisão, você
aprendeu a concluir tarefas como:
● Obter dados de uma tabela usando instruções SELECT.
● Deduplicar dados usando comandos como DISTINCT e COUNT + WHERE.
● Manipular dados de string com TRIM(), SUBSTR, e LENGTH.
● Criar/eliminar tabelas com CREATE TABLE e DROP TABLE.
● Alterar os tipos de dados com CAST.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Algumas dessas tarefas são mais desafiadoras do que outras, e aprender todas as várias funções SQL exige dedicação.
Mas, ao praticar funções diferentes, é possível dominar as habilidades necessárias para fazer o SQL funcionar da maneira
que você precisa. Reserve um momento para pensar nas partes do SQL que você considerou mais desafiadoras.
Reflexão
Pergunta 1 - Considere todos os aspectos que você aprendeu e praticou no SQL até agora:
Existem áreas de processamento de dados com SQL que você considera particularmente desafiadoras?
Há alguma habilidade de processamento de dados que você gostaria de melhorar? Nesse caso positivo, quais são?
Agora, responda cada uma dessas perguntas com duas ou três frases (40 a 60 palavras).
As habilidades exigidas no processamento de dados com SQL incluem a otimização de consultas complexas, o
gerenciamento de desempenho em grandes conjuntos de dados e consultas distribuídas. A modelagem de dados e a
capacidade de projetar esquemas eficientes são áreas de melhoria, juntamente com habilidades de otimização de consultas e
uso de índices para melhorar o desempenho geral. Dominar essas habilidades é fundamental para maximizar a eficiência e a
velocidade das consultas e garantir a integridade e a qualidade dos dados.
Correto - Obrigado por responder com uma autorreflexão ponderada! Uma boa reflexão sobre esse tópico descreveria seus desafios com o
SQL e as áreas que você deseja continuar aprendendo ou praticando. Fazer uma pausa para refletir sobre sua experiência de aprendizado
ajuda a identificar áreas para melhorar com a prática e estudos adicionais, o que irá ajudá-lo a alcançar seus objetivos de forma mais eficaz.
Se usado corretamente, o SQL torna tarefas como remover duplicatas ou limpar dados de strings muito mais fáceis, sobretudo com
conjuntos de dados grandes demais para serem trabalhados efetivamente com planilhas. À medida que você desenvolve suas habilidades
no SQL, poderá processar dados mais complexos e começar a analisá-los.
Desafio da semana 3
Pergunta 1 - Preencha a lacuna: Os analistas de dados costumam usar _____ para lidar com grandes conjuntos de
dados.
processadores de texto
SQL
navegadores
planilhas
Correto - Os analistas de dados costumam usar o SQL para lidar com grandes conjuntos de dados.
Pergunta 2 - Quais são alguns dos benefícios de usar SQL para análise? Selecione todas as opções válidas.
O SQL possui funcionalidades integradas.
O SQL pode extrair informações de diferentes fontes de banco de dados.
O SQL rastreia as alterações em uma equipe.
O SQL interage com programas de banco de dados.
Correto - Alguns benefícios do SQL incluem o rastreamento de alterações em uma equipe, a interação com programas de banco de dados e
a extração de informações de diferentes fontes de banco de dados.
Pergunta 3 - Um analista de dados executa uma consulta SQL para extrair alguns dados de um banco de dados
para análise posterior. Como o analista pode salvar os dados? Selecione todas as opções válidas.
Criar uma nova tabela para os dados.
Usar a consulta UPDATE para salvar os dados.
Executar uma consulta SQL para salvar os dados automaticamente.
Fazer download dos dados como uma planilha.
Correto - O analista pode salvar os dados ao baixá-los como uma planilha ou criar uma nova tabela para os dados.
Pergunta 4 - Você está trabalhando com uma tabela de banco de dados que contém dados de faturas. A tabela
inclui colunas para invoice_id e billing_state.Você deseja remover entradas duplicadas para o estado de
faturamento e classificar os resultados por ID da fatura. Você escreve a consulta SQL abaixo. Adicione uma
cláusula DISTINCT que removerá entradas duplicadas da coluna billing_state.
OBSERVAÇÃO: Os três pontos (...) indicam onde adicionar a cláusula.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
SELECT DISTINCT
billing_state
FROM
invoice
ORDER BY
invoice_id
Redefinir
+---------------+
| billing_state |
+---------------+
| None |
| AB |
| MA |
| Dublin |
| CA |
| WA |
| NV |
| WI |
| NS |
| NSW |
| SP |
| NT |
| VV |
| RJ |
| DF |
| BC |
| AZ |
| ON |
| MB |
| RM |
| TX |
| UT |
| FL |
| IL |
| QC |
+---------------+
(Output limit exceeded, 25 of 26 total rows shown)
Qual estado de faturamento aparece na linha 17 do resultado da sua consulta?
AZ
WI
NV
CA
Correto - A cláusula DISTINCT billing_state removerá entradas duplicadas da coluna billing_state. A consulta completa é SELECT DISTINCT
billing_state FROM invoice ORDER BY invoice_id. A cláusula DISTINCT remove entradas duplicadas do resultado da sua consulta. O estado
de faturamento AZ aparece na linha 17 do resultado da sua consulta.
Pergunta 5 - Você está trabalhando com uma tabela de banco de dados que contém dados de clientes. A tabela
inclui colunas sobre a localização do cliente, como cidade, estado, país e código_postal. Você deseja verificar
códigos postais com mais de 7 caracteres. Você escreve a consulta SQL abaixo. Adicione uma função LENGTH que
retornará códigos postais com mais de 7 caracteres.
SELECT
*
FROM
customer
WHERE
LENGTH(postal_code) > 7
Redefinir
+-------------+------------+-----------+--------------------------------------------------+---------------------------------+---------------------+-------+----------------+-------------+--------------------+--------------------+-------------------------------+----------------+
| customer_id | first_name | last_name | company | address | city | state | country | postal_code | phone | fax | email | support_rep_id |
+-------------+------------+-----------+--------------------------------------------------+---------------------------------+---------------------+-------+----------------+-------------+--------------------+--------------------+-------------------------------+----------------+
| 1 | Luís | Gonçalves | Embraer - Empresa Brasileira de Aeronáutica S.A. | Av. Brigadeiro Faria Lima, 2170 | São José dos Campos | SP | Brazil | 12227-000 | +55 (12) 3923-5555 | +55 (12) 3923-5566 | luisg@embraer.com.br | 3 |
| 10 | Eduardo | Martins | Woodstock Discos | Rua Dr. Falcão Filho, 155 | São Paulo | SP | Brazil | 01007-010 | +55 (11) 3033-5446 | +55 (11) 3033-4564 | eduardo@woodstock.com.br | 4 |
| 11 | Alexandre | Rocha | Banco do Brasil S.A. | Av. Paulista, 2022 | São Paulo | SP | Brazil | 01310-200 | +55 (11) 3055-3278 | +55 (11) 3055-8131 | alero@uol.com.br | 5 |
| 12 | Roberto | Almeida | Riotur | Praça Pio X, 119 | Rio de Janeiro | RJ | Brazil | 20040-020 | +55 (21) 2271-7000 | +55 (21) 2271-7070 | roberto.almeida@riotur.gov.br | 3 |
| 13 | Fernanda | Ramos | None | Qe 7 Bloco G | Brasília | DF | Brazil | 71020-677 | +55 (61) 3363-5547 | +55 (61) 3363-7855 | fernadaramos4@uol.com.br | 4 |
| 16 | Frank | Harris | Google Inc. | 1600 Amphitheatre Parkway | Mountain View | CA | USA | 94043-1351 | +1 (650) 253-0000 | +1 (650) 253-0000 | fharris@google.com | 4 |
| 17 | Jack | Smith | Microsoft Corporation | 1 Microsoft Way | Redmond | WA | USA | 98052-8300 | +1 (425) 882-8080 | +1 (425) 882-8081 | jacksmith@microsoft.com | 5 |
| 18 | Michelle | Brooks | None | 627 Broadway | New York | NY | USA | 10012-2612 | +1 (212) 221-3546 | +1 (212) 221-4679 | michelleb@aol.com | 3 |
| 20 | Dan | Miller | None | 541 Del Medio Avenue | Mountain View | CA | USA | 94040-111 | +1 (650) 644-3358 | None | dmiller@comcast.com | 4 |
| 53 | Phil | Hughes | None | 113 Lupus St | London | None | United Kingdom | SW1V 3EN | +44 020 7976 5722 | None | phil.hughes@gmail.com | 3 |
+-------------+------------+-----------+--------------------------------------------------+---------------------------------+---------------------+-------+----------------+-------------+--------------------+--------------------+-------------------------------+----------------+
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Qual é o sobrenome do cliente que aparece na linha 10 do resultado da sua consulta?
Hughes
Rocha
Brooks
Ramos
Correto - A função LENGTH(postal_code) > 7 retornará códigos postais com mais de 7 caracteres. A consulta completa é SELECT * FROM
customer WHERE LENGTH(postal_code) > 7. A função LENGTH conta o número de caracteres que uma string contém. Hughes é o
sobrenome do cliente que aparece na linha 10 do resultado da sua consulta.
Pergunta 6 - Um analista de dados está limpando os dados de transporte de uma empresa de compartilhamento de
viagens. O analista converte os dados sobre a duração da viagem de strings de texto para flutuações. O que este
cenário descreve?
Visualização
Processamento
Typecasting
Cálculo
Correto - O analista está realizando typecasting. Typecasting significa conversão de dados de um tipo para outro.
Pergunta 7 - Um analista de dados está trabalhando com dados de vendas de produtos. Ele importa novos dados
para um banco de dados. O banco de dados reconhece os dados do preço do produto como strings de texto. Que
função SQL o analista pode usar para converter strings de texto em flutuações?
SUBSTR
LENGTH
CAST
TRIM
Correto - O analista pode usar a função CAST para converter strings de texto em flutuações.
Pergunta 8 - Um analista de dados está limpando os dados da pesquisa. Os resultados de uma pergunta opcional
contêm muitos nulos. Que função o analista pode usar para eliminar os valores nulos dos resultados?
LENGTH
COALESCE
CONCAT
CAST
Correto - O analista pode usar a função COALESCE para eliminar os valores nulos dos resultados.
Pergunta 9 - Você está trabalhando com uma tabela de banco de dados que contém dados de clientes. A tabela
inclui colunas sobre a localização do cliente, como cidade, estadoe país. Os nomes dos estados são abreviados.
Você deseja recuperar as primeiras 2 letras do nome de cada estado. Você decide usar a função SUBSTR para
recuperar as primeiras 2 letras de cada nome de estado e usa o comando AS para armazenar o resultado em uma
nova coluna denominada new_state. Você escreve a consulta SQL abaixo. Adicione uma instrução à sua consulta
SQL que recuperará as primeiras 2 letras do nome de cada estado e armazenará o resultado em uma nova coluna
como new_state.
OBSERVAÇÃO: Os três pontos (...) indicam onde adicionar a instrução.
SELECT
customer_id,
SUBSTR(state, 1, 2) AS new_state
FROM
customer
ORDER BY
state DESC
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Redefinir
+-------------+-----------+
| customer_id | new_state |
+-------------+-----------+
| 25 | WI |
| 17 | WA |
| 48 | VV |
| 28 | UT |
| 26 | TX |
| 1 | SP |
| 10 | SP |
| 11 | SP |
| 47 | RM |
| 12 | RJ |
| 3 | QC |
| 29 | ON |
| 30 | ON |
| 18 | NY |
| 21 | NV |
| 33 | NT |
| 55 | NS |
| 31 | NS |
| 32 | MB |
| 23 | MA |
| 24 | IL |
| 22 | FL |
| 46 | Du |
| 13 | DF |
| 16 | CA |
+-------------+-----------+
(Output limit exceeded, 25 of 59 total rows shown)
Qual número de ID do cliente aparece na linha 9 do resultado da consulta?
47
3
55
10
Correto - A instrução SUBSTR(state, 1, 2) AS new_state recuperará as primeiras 2 letras do nome de cada estado e armazenará o resultado
em uma nova coluna como new_state. A consulta completa é SELECT customer_id, SUBSTR(state, 1, 2) AS new_state FROM customer
ORDER BY state DESC. A função SUBSTR extrai uma substring de uma string. Esta função instrui o banco de dados a retornar 2 caracteres
de cada nome de estado, começando pelo primeiro caractere. O número de ID do cliente 47 aparece na linha 9 do resultado da sua consulta.
SEMANA 4 - VERIFICAR E GERAR RELATÓRIO COM OS RESULTADOS DA
LIMPEZA
A limpeza de dados é um passo essencial no processo de análise de dados. Verificar e gerar relatóriossobre sua limpeza
é uma forma de mostrar que os dados estão prontos para o próximo passo. Nesta parte do curso, você descobrirá os
processos de verificação e geração de relatórios de limpeza de dados, assim como seus benefícios.
Objetivos de aprendizagem
● Descrever o processo de verificação dos resultados da limpeza de dados
● Descrever o processo de limpeza manual dos dados
● Explicar os elementos e a importância dos relatórios de limpeza de dados
● Descrever os benefícios de documentar o processo de limpeza de dados
4.1 - LIMPEZA MANUAL DOS DADOS
VÍDEO - VERIFICAR E GERAR RELATÓRIOS DOS RESULTADOS - Olá, é bom ter você de volta. Até agora, você aprendeu bastante
sobre a importância de limpar os dados e conheceu algumas ferramentas e estratégias para ajudar você durante o processo de
limpeza. Nos vídeos, nós falaremos sobre a próxima etapa do processo: verificar e gerar relatórios sobre a integridade dos seus
dados limpos. A verificação é o processo para confirmar que a tentativa de limpeza de dados foi bem realizada e os dados
resultados são precisos e confiáveis. Ela abrange a reverificação do seu conjunto de dados limpo, realizar algumas limpezas
manuais, se necessário, e parar por um momento para refletir sobre o propósito original do projeto. Assim, você tem a certeza de
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
que os dados que você coletou são válidos e apropriados para suas finalidades. Garantir que seus dados sejam adequadamente
verificados é muito importante, pois permite a você verificar novamente se o trabalho de limpeza dos dados foi minucioso e preciso.
Por exemplo, você pode ter citado um número de celular incorreto ou digitado algo errado por acidente. Com a verificação, você
identifica os erros antes de começar a análise. Sem ela, todos os insights que você tem com a análise não podem ser confiáveis na
tomada de decisão. Você pode até mesmo correr o risco de distorcer populações ou prejudicar o resultado de um produto em que você
está tentando incorporar melhorias. Eu me lembro de ter trabalhado em um projeto no qual pensei que os dados que eu tinha eram
totalmente limpos, já que tinha usado todas as ferramentas e processos certos, porém, durante as etapas de verificação da integridade
dos dados, identifiquei um ponto e vírgula que tinha esquecido de excluir. Eu sei que parece um erro insignificante, mas se eu não
tivesse visto o ponto e vírgula durante a verificação e removido ele, teria causado algumas mudanças sérias nos meus resultados.
Obviamente, teria levado a diferentes decisões nos negócios. Há um exemplo do porquê a verificação ser tão importante. Mas não fica
por aí. A outra parte importante do processo de verificação é a geração de relatórios das suas iniciativas. A comunicação aberta é o
que salva qualquer projeto de Data Analytics. Os relatórios são muito eficazes para mostrar à equipe que você está sendo
totalmente claro quanto à limpeza dos dados. Além disso, é uma ótima oportunidade de mostrar às partes interessadas que
você é responsável, criar confiança com sua equipe e garantir que todos estejam alinhados com relação a detalhes importantes
do projeto. A seguir, você aprenderá diferentes estratégias de geração de relatório, como ao criar relatórios de limpeza de dados,
documentar seus processos de limpeza e usar algo que chamamos de log de mudanças. O log de mudanças é um arquivo com
uma lista cronológica das alterações feitas em um projeto. Em geral, é organizado por versão e inclui a data seguida por uma
lista de recursos adicionados, otimizados e excluídos. Os logs de mudanças são muito úteis para acompanhar como um
conjunto de dados progride durante um projeto. Além disso, são uma ótima forma de comunicar e divulgar dados a outras pessoas.
Ao longo do curso, você também verá alguns exemplos de como a verificação e a geração de relatórios pode ajudar a evitar que erros
se repitam e a economizar tempo, tanto seu quanto da sua equipe. Tudo pronto para começar? Vamos lá!
VÍDEO - LIMPEZA E EXPECTATIVAS EM RELAÇÃO AOS DADOS - Neste vídeo, falaremos sobre como iniciar o processo de
verificação das suas tentativas de limpeza dos dados. A verificação é parte fundamental de qualquer projeto de análise. Sem ela, não
há como saber se seus insights são confiáveis para a tomada de decisões com base em dados. Pense na verificação como um selo
de aprovação. Vamos relembrar: a verificação é um processo para confirmar que o esforço de limpeza dos dados foi bem
realizado e os dados resultantes são precisos e confiáveis. Também envolve a limpeza manual dos dados, comparando suas
expectativas com o que realmente existe. A primeira etapa do processo de verificação é retornar ao seu conjunto original de dados
não limpos e compará-lo ao que você vê agora. Analise os dados sujos e tente identificar problemas comuns. Você pode, por
exemplo, ter muitos valores nulos. Nesse caso, verifique os dados limpos para garantir que não haja nenhum valor nulo. Para isso,
procure manualmente ou use ferramentas como filtros ou formatação condicional. Ou pode haver um erro comum de digitação, como
quando uma pessoa digitou o nome de um produto incorretamente repetidas vezes. Nesse caso, execute uma função FIND nos dados
limpos para garantir que não haja outro erro desse. O quadro geral do seu projeto é outra parte importante da verificação. É uma
oportunidade de confirmar que seu foco é realmente o problema dos negócios que precisa resolver e as metas gerais do
projeto, e de garantir que seus dados sejam capazes de resolver esse problema e alcançar as metas. É importante parar para se
restabelecer e focar no quadro geral, pois, às vezes, os projetos evoluem ou se transformam com o tempo, sem que nem ao menos
percebamos. Digamos que uma empresa de e-commerce decide fazer uma pesquisa com 1.000 clientes para coletar informações que
seriam usadas para melhorar um produto. Porém, conforme vão surgindo respostas, os analistas percebem vários comentários sobre a
total insatisfação dos clientes com a plataforma do site de e-commerce. Os analistas começam então a focar nisso. Embora a
experiência de compra do cliente seja, de fato, importante para toda empresa de e-commerce, não era o objetivo original do projeto.
Nesse caso, os analistas precisam parar um momento para refletir, ajustar o foco e voltar a solucionar o problema original. Analisar o
quadro geral do seu projeto envolve três coisas. Primeiro, considere o problema nos negócios que está tentando resolver com
os dados. Perdeu o projeto de vista? Não há como saber quais dados são relativos em sua análise. A abordagem que coloca o
problema em primeiro lugar é essencial em todas as etapas para qualquer projeto. Você tem que ter certeza de que seus dados
tornarão possível solucionar seu problema nos negócios. Em segundo lugar, você precisa considerar as metas do projeto. Não basta
saber que sua empresa quer analisar o feedback do cliente sobre um produto. O que realmente precisa saber é que a meta de obter
esse feedback é para trazer melhorias ao produto. Acima de tudo, você também precisa saber se os dados coletados e limpos
ajudarão de verdade sua empresa a alcançar essa meta. E, por fim, é preciso considerar se seus dados conseguem solucionar
o problema e atender aos objetivos do projeto. Ou seja, é refletir sobre a origem dos dados e testar seus processos de limpeza
e coleta de dados. Por vezes, os analistas de dados podem estar muito familiarizados com seus próprios dados, ficando ainda mais
fácil deixar algo escapar ou fazer suposições. Nessa etapa, é muito importante pedir a um colega para revisar seus dados a partir de
uma perspectiva diferente e ouvir a opinião de outras pessoas. Também é hora de perceber se algo se destaca como suspeito ou
potencialmente problemático nos dados. Mais uma vez, dê um passo para trás, analise o quadro geral e pergunte a si mesmo: os
números são coerentes? Vamos voltar para nosso exemplo da empresa de e-commerce. Imagine que um analista está revisando os
dados limpos da pesquisa de satisfação do cliente.Inicialmente, a pesquisa foi enviada a 1.000 clientes, mas e se o analista descobrir
que há mais de mil respostas nos dados? Pode ser que um cliente tenha descoberto uma forma de fazer a pesquisa outra vez. Ou
então que algo deu errado no processo de limpeza dos dados e um campo foi duplicado. Independentemente, há um sinal de que é
hora de voltar ao processo de limpeza dos dados e corrigir o problema. Verificar seus dados garante que os insights obtidos com a
análise podem ser confiáveis. É uma parte essencial da limpeza dos dados que ajuda as empresas a evitar grandes problemas. É outro
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
momento em que os analistas de dados podem salvar o dia. A seguir, vamos analisar as próximas etapas do processo de limpeza dos
dados. Vejo você lá.
VÍDEO - A ETAPA FINAL DA LIMPEZA DE DADOS - Olá. Neste vídeo, continuaremos a focar no processo de verificação. Como um
lembrete rápido, a meta é garantir que nossa limpeza de dados tenha sido adequada e os resultados sejam imputáveis. Você
quer que seus dados sejam verificados, para ter certeza de que estão totalmente prontos. É como empresas de automóveis que
realizam vários testes para garantir a segurança do carro antes que ele caia na estrada. Você aprendeu que a primeira etapa da
verificação é retornar ao conjunto original de dados sujos e compará-los ao que você tem agora. É uma oportunidade de procurar por
problemas comuns. Depois, você soluciona os problemas manualmente. Por exemplo, ao excluir espaços extras ou remover aspas
indesejadas. Mas também há algumas ferramentas ótimas para corrigir erros comuns automaticamente, como TRIM e remoção de
duplicatas. Anteriormente, você aprendeu que TRIM é a função que remove espaços à esquerda, à direita e repetidos e dados. A
remoção de duplicatas é uma ferramenta que automaticamente procura e remove duplicatas em uma planilha. Às vezes, você
pode ter um erro que aparece repetidamente e não pode ser corrigido com uma rápida edição manual ou uma ferramenta que corrija o
problema automaticamente. Nesses casos, vale criar uma tabela dinâmica. A tabela dinâmica é uma ferramenta de resumo de
dados, usada no processamento dos dados. Ela classifica, reorganiza, agrupa, conta, totaliza ou faz a média dos dados
armazenados em um banco de dados. Vamos colocar isso em prática com a planilha de uma loja de artigos para festas. Digamos que a
empresa estava interessada em aprender qual dos seus quatro fornecedores é o mais vantajoso. Um analista extraiu os dados sobre
os produtos vendidos, quantos eram adquiridos, quem fornecia esses produtos, o custo deles e a receita final. Os dados foram limpos,
mas, durante a verificação, percebemos que um dos nomes de fornecedores foi digitado incorretamente. Poderíamos apenas corrigir a
palavra como um "plus", mas isso pode não solucionar o problema, já que não sabemos se isso ocorreu só uma vez ou se ele se repete
em toda a planilha. Há duas formas de responder à pergunta. A primeira é usar a função de Localizar e substituir. Esta é uma
ferramenta que procura um termo específico na planilha e permite que você substitua tal termo por outra coisa. Nós clicamos
em Editar. Depois, Localizar e substituir. Estamos tentando achar P-L-O-S, o erro de digitação de "plus" no nome do fornecedor. Em
alguns casos, você pode não querer substituir os dados, mas apenas encontrar algo. Sem problemas. Apenas digite o termo de
pesquisa, deixe as outras opções como padrão e clique em "Concluir". Mas agora, nós queremos substituir por P-L-U-S. Nós vamos
digitar isso e, então, clicar em "Substituir tudo" e "Concluir". Aqui está. Nosso erro de digitação foi corrigido. Essa era a meta. Por
hora, vamos desfazer nosso Localizar e substituir para podermos praticar outra forma de determinar se os erros se repetem em um
conjunto de dados, como a tabela dinâmica. Começaremos selecionando os dados que queremos usar. Escolha a coluna C e selecione
"Dados". E, então, "Tabela dinâmica". Selecione "Nova planilha" e "Criar". Sabemos que a empresa tem quatro fornecedores. Se
contarmos os fornecedores e o número não for igual a quatro, há um problema. Primeiro, adicione uma linha para os fornecedores.
Depois, adicione um valor para eles e sintetizamos com a função COUNTA. A função conta o total de valores em um intervalo
específico. Aqui, estamos contando o total de vezes que o nome de um fornecedor aparece na coluna C. Observe que também existe
uma função COUNT, que conta apenas os valores numéricos em um intervalo específico. Se usarmos ela, o resultado será zero.
Não o que procuramos. Em outras situações especiais, essa função nos daria as informações que procuramos para o exemplo atual.
Enquanto continua aprendendo mais sobre fórmulas e funções, você descobrirá mais opções interessantes. Quer continuar
aprendendo? Pesquise por fórmulas e funções de planilha na Internet. Há várias informações ótimas. Nossa tabela dinâmica contou o
número de erros de digitação e mostra claramente que o erro ocorreu apenas uma vez. Salvo o contrário, nossos quatro fornecedores
estão contabilizados de forma precisa em nossos dados. Nós já podemos corrigir o erro e verificar se o restante dos dados do
fornecedor está limpo. Isso também é útil ao consultar um banco de dados. Se estiver trabalhando no SQL, você pode processar erros
desse tipo com uma instrução CASE, que examina uma ou mais condições e retorna um valor assim que uma condição é
atendida. Vamos falar como isso funciona na prática usando nossa tabela customer_name. Veja como nosso cliente, Tony Magnolia,
aparece como Tony e Tnoy. O nome de Tony foi digitado incorretamente. Digamos que nós queremos uma lista das IDs e dos nomes
do nosso cliente, para que possamos escrever mensagens personalizadas de agradecimento pela compra para cada cliente. Não
queremos que a de Tony seja enviada incorretamente para "Tnoy". Sabe o que podemos usar? A instrução CASE. Começaremos
nossa consulta com a estrutura básica do SQL. SELECT, FROM e WHERE. Sabemos que a origem dos dados é a tabela
customer_name, no conjunto de dados customer_data, assim podemos adicionar customer_data.customer_name após FROM.
Depois, informaremos ao SQL quais dados extrair na cláusula SELECT. Nós queremos customer_id e first_name. Podemos
prosseguir e adicionar cliente_ID após SELECT. Para os nomes dos nossos clientes, sabemos que Tony foi digitado incorretamente,
então corrigiremos isso com CASE. Nós vamos adicionar CASE e, então, WHEN e digitar first_name equal "Tnoy". Em seguida,
usaremos o comando THEN e digitaremos "Tony", seguido pelo comando ELSE. Vamos digitar first_name, seguido de End As.
Depois, digitaremos cleaned_name. Por fim, não estamos filtrando nossos dados, então podemos excluir a cláusulaWHERE. Como
eu disse, uma instrução CASE pode abranger vários casos. Se quisermos procurar outros nomes com erros de digitação, nossa
instrução ficaria parecida com a original, com alguns nomes adicionais, como esse. É isso. Agora que você já aprendeu sobre como
usar planilhas e o SQL para corrigir erros automaticamente, vamos ver como acompanhar nossas alterações a seguir.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
SELECT
customer_id
CASE
WHEN first_name = ‘Tnoy’ THEN ‘Tony’
WHEN first_name = ‘Tmo’ THEN ‘Tom’
WHEN first_name = ‘Rachle’ THEN ‘Rachel’
ELSE first_name
END AS cleaned_name
FROM
customer_data.customer_name
Como verificar a limpeza de dados: Uma lista de verificação
Nesse artigo, você encontrará uma lista de verificação dos problemas comuns; consulte-a durante a verificação da limpeza
de dados, independentemente da ferramenta que usar. Quando se trata da verificação da limpeza de dados, não há uma
abordagem ou lista de verificação únicas que possam ser aplicadas universalmente a todos os projetos. Cada projeto
possui seus próprios requisitos de organização e dados que levam a uma lista única de coisas que você deve conferir
durante a verificação. Lembre-se: conforme for obtendo mais dados ou entender melhor as metas do projeto, você poderá
querer voltar aalgumas ou todas essas etapas.
Corrigir os problemas mais comuns
Certifique-se de ter identificado os problemas mais comuns e corrija-os, incluindo:
● Origem dos erros. Você usou as ferramentas e funções certas para encontrar a origem dos erros no seu conjunto
de dados?
● Dados nulos. Você procurou por NULOS com filtros e formatação condicional?
● Palavras digitadas incorretamente. Você localizou todas as palavras com erro de digitação?
● Números digitados incorretamente. Você verificou se os dados numéricos foram digitados corretamente?
● Caracteres e espaços extras. Você excluiu os caracteres ou espaços extras com a função TRIM?
● Duplicatas. Você excluiu as duplicatas nas planilhas ou SQL com as funções Remove duplicates ou DISTINCT,
respectivamente?
● Tipos de dados incompatíveis. Você verificou se os dados numéricos, de datas e strings foram convertidos
corretamente?
● Strings desorganizadas (inconsistentes). Você verificou se todas as strings são consistentes e pertinentes?
● Formatos de dados desorganizados (inconsistentes). Você formatou as datas de forma consistente no conjunto de
dados?
● Identificações (colunas) variáveis incorretas. Você nomeou suas colunas de forma adequada?
● Dados truncados. Você verificou se há dados ausentes ou truncados que exigem correção?
● Lógica nos negócios. Com base em seu conhecimento nos negócios, você verificou se os dados são coerentes?
Revisar a meta do seu projeto
Depois de concluídas as tarefas de limpeza dos dados, revise a meta do seu projeto e verifique se seus dados continuam
alinhados à meta. Esse é um processo contínuo que deverá ser feito durante todo o projeto; há, no entanto, três etapas
para levar em consideração ao refletir a respeito:
● Confirmar o problema dos negócios
● Confirmar a meta do projeto
● Verificar se os dados têm potencial para solucionar o problema e estão alinhados à meta
Teste seu conhecimento sobre a limpeza manual de dados
Pergunta 1 - Durante o processo de limpeza de dados, é fundamental garantir que os dados sejam devidamente
verificados. Quais das tarefas abaixo fazem parte dessa verificação? Selecione todas as opções válidas.
Verificar novamente a iniciativa de limpeza de dados
Corrigir manualmente todos os erros identificados nos dados
Examinar se os dados são verossímeis e adequados para o projeto
Pedir às partes interessadas para verificarem e confirmarem que os dados estão limpos
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Correto - O processo de verificação confirma que a limpeza de dados foi executada com sucesso e que os dados derivados são precisos e
confiáveis. Para realizar a verificação dos dados, os analistas verificam novamente a tentativa de limpeza de dados, corrigem manualmente
os erros nos dados e examinam se os dados são verossímeis e adequados para o projeto.
Pergunta 2 - Preencha a lacuna: O analista de dados usa a função _____ para contar o total de valores da planilha
em um intervalo específico.
COUNTA
TOTAL
SUM
WHOLE
Correto - O analista de dados usa a função COUNTA para contar o total de valores da planilha em um intervalo específico.
Pergunta 3 - Um analista de dados está limpando um conjunto de dados com formatos inconsistentes e casos
repetidos. Ele usa a função TRIM para remover os espaços extras de variáveis da sequência. Quais outras
ferramentas podem ser usadas para limpar os dados? Selecione todas as opções válidas.
Remover duplicatas
Proteger a planilha
Localizar e substituir
Importar dados
Correto - O analista pode usar a função TRIM, remover duplicatas e usar o recurso de localizar e substituir durante a limpeza de dados.
Pergunta 4 - Para corrigir um erro de digitação em uma coluna de um banco de dados, onde você pode inserir uma
instrução CASE em uma consulta?
Como uma cláusula ORDER BY
Como uma cláusula GROUP BY
Como uma cláusula SELECT
Como uma cláusula FROM
Correto - Adicione uma instrução CASE como uma cláusula SELECT. Uma instrução CASE analisa uma ou mais condições e retorna um
valor assim que uma condição é atendida. O erro de digitação seria a condição e a correção seria o valor retornado para a condição.
4.2 - DOCUMENTAÇÃO DOS RESULTADOS E O PROCESSO DE LIMPEZA
VÍDEO - REGISTRO DAS MUDANÇAS DA LIMPEZA - Olá outra vez. Agora que você já aprendeu a deixar seus dados totalmente
limpos, chegou a hora de lidar com toda a sujeira que ficou para trás. Ao limpar seus dados, todas as informações incorretas ou
desatualizadas somem, e você acaba ficando com o conteúdo da mais alta qualidade. Todas essas alterações nos dados, porém,
também são importantes. Neste vídeo, vamos conhecer porque acompanhar as mudanças é importante em cada projeto de dados e
como documentar todas as alterações de limpeza, para garantir que todos se mantenham informados. É aí que entra a
documentação, que é o processo de acompanhar as mudanças, adições, exclusões e erros envolvidos ao limpar os dados. É
como um programa televisivo de criminalidades. A evidência do crime é encontrada na cena e repassada para a equipe forense. Eles
analisam os mais mínimos detalhes da cena e documentam todas as etapas, para poder narrar o que aconteceu com provas. Muitas
vezes, o cientista forense é citado a comparecer ao tribunal para testemunhar sobre a evidência e ele tem em mãos o relatório
detalhado de apoio. O mesmo acontece na limpeza de dados. Os erros nos dados são o crime, a limpeza de dados se trata da
coleta de provas e a documentação detalha exatamente o que aconteceu para a revisão por pares ou tribunal. Manter um
registro de progresso de um conjunto de dados leva a três coisas muito importantes. Primeiro, nos permite recuperar erros de
limpeza dos dados. Ao invés de ficarmos nos matando para tentar lembrar o que podemos ter feito há três meses atrás, nós temos
uma cola de apoio caso passemos pelos mesmos erros novamente. Também é uma boa ideia criar uma tabela limpa ao invés de
substituir a tabela que você já tem. Assim, você ainda terá os dados originais caso precise refazer a limpeza. Em segundo lugar, a
documentação dá a opção de comunicar as mudanças feitas às outras pessoas. Se você acabar entrando de férias ou for
promovido, o analista que for assumir seu lugar poderá consultar uma planilha de referência. Por fim, a documentação ajuda você a
determinar a qualidade dos dados a serem usados na análise. As duas primeiras vantagens pressupõem que os erros não são
corrigíveis. Mas, se forem corrigíveis, o registro dá ao engenheiro de dados mais informações como base. É também um ótimo sinal de
que o conjunto de dados está repleto de erros e deve ser evitado no futuro. Se os erros levam muito tempo para serem corrigidos, o
melhor é verificar conjuntos alternativos de dados que podem ser usados no lugar. Em geral, os analistas de dados usam um log de
mudanças para acessar essa informação. Só para lembrar, o log de mudanças é um arquivo que contém uma lista cronológica das
alterações feitas em um projeto. Você pode usar e acessar um log de mudanças em planilhas e SQL para obter resultados
semelhantes. Vamos começar com a planilha. Podemos usar o histórico de versão da planilha, que inclui um rastreador em tempo
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
real de todas as mudanças e seus autores, desde células individuais a uma planilha completa. Para encontrar esse recurso, clique na
aba "Arquivo" e selecione "Histórico de versão". No painel à direita, selecione uma versão anterior. Nós podemos ver quem editou o
arquivo e as mudanças feitas na coluna próxima ao nome. Para voltar à versão atual, vá até a parte superior esquerda e clique em
"Voltar". Para conferir as alterações feitas em uma célula específica, clique com o botão direito e selecione "Exibir histórico de
edição". Se quiser que outras pessoas possam explorar o histórico de versão de uma planilha, é preciso atribuir uma permissão. Agora
vamos mudar de assunto e falar sobre SQL. A forma como você cria e acessa um log de mudanças com o SQL depende do programa
de software que você usa. Algumas empresas têm seu próprio softwareque monitora os logs de mudanças e consultas
importantes ao SQL. Isso é bem avançado. Basicamente, tudo o que você precisa fazer é especificar o que realmente fez e por que
ao alocar uma consulta no repositório como uma consulta nova e melhorada. Assim, a empresa pode retornar a uma versão anterior
caso algo que você fez corrompa o sistema, o que já aconteceu comigo. Outra opção é apenas adicionar comentários enquanto
limpa os dados no SQL. Isso vai ajudar a criar seu log de mudanças após o fato. Por hora, vamos ver o histórico da consulta, que
registra todas as consultas feitas. Clique em qualquer consulta para retornar para uma versão anterior da consulta ou para extrair uma
versão antiga e descobrir quais mudanças você fez. Veja o que nós temos aqui. Estou na aba "Histórico de consulta". Abaixo, à
direita, estão todas as consultas feitas por data e hora. Clique nesse ícone à direita de cada consulta para abri-la no editor de
consultas. Logs de mudanças como esses são uma ótima forma de se manter atualizado e permitem que a sua equipe obtenha
atualizações em tempo real quando quiserem. Há, porém, outra forma de deixar que a comunicação flua: a geração de relatórios.
Não saia daí. Você aprenderá algumas formas fáceis de compartilhar sua documentação e até impressionar suas partes interessadas
no processo. Vejo você no próximo vídeo!
Incorporação dos log de mudanças
O que engenheiros, autores e analistas de dados têm em comum? A mudança. Os engenheiros usam Ordens de
Alteração de Engenharia (ECO, na sigla em inglês) para acompanhar os detalhes de projeto do novo produto e as
mudanças propostas aos produtos atuais. Os autores usam históricos de revisão do documento para acompanhar as
mudanças nas edições e fluxo do documento. Os analistas de dados, por sua vez, usam log de mudanças para
acompanhar a limpeza e a transformação dos dados.
O controle automatizado de versão orienta você em grande parte do caminho
A maioria dos aplicativos de software contam com um tipo de monitoramento de histórico integrado. No Planilhas Google,
por exemplo, é possível verificar o histórico de versão da planilha toda ou de uma única célula, bem como retornar a uma
versão anterior. No Microsoft Excel, você pode usar um recurso chamado Controlar alterações. Já no BigQuery, você tem
acesso às mudanças feitas pelo histórico.
Veja como é na prática:
Planilhas
Google
1. Clique com o botão direito na célula e selecione "Exibir histórico de edição".
2. Clique nas setas para a esquerda (<) ou direita (>) para ir para frente ou para trás no histórico, conforme
necessário.
Microsoft Excel
1. Se o recurso de Controlar Alterações estiver habilitado na planilha: clique em "Revisão".
2. Em Controlar alterações, clique na opção "Aceitar/Rejeitar alterações" para aceitar ou rejeitar as mudanças
feitas.
BigQuery Abra uma versão anterior (sem voltar para ela) e compare-a à versão atual para ver o que mudou.
Os logs de mudanças vão a fundo com você
O log de mudanças pode aproveitar seu histórico automatizado de versão, dando a você um registro mais detalhado do
seu trabalho. É nele que os analistas de dados registram todas as alterações feitas nos dados. Veja de outro ângulo. Os
históricos de versão registram o que foi feito na alteração de um dado do projeto, mas não indicam o porquê. Os logs de
mudanças são mais do que úteis para nos ajudar a entender os motivos por trás das alterações. Eles não têm um formato
definido; se você quiser, pode até mesmo inserir suas informações em um documento em branco. Se, no entanto, estiver
usando um log de mudanças compartilhado, o melhor é definir com outros analistas de dados o formato de todas as
entradas no registro. Normalmente, o log de mudanças registra o seguinte tipo de informação:
● Dados, arquivo, fórmula, consulta ou outro componente modificado
● Descrição do que foi alterado
● Data da alteração
● Responsável pela mudança
● Responsável pela aprovação da mudança
● Número de versão
● Justificativa para a alteração
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Digamos que você alterou uma fórmula de uma planilha, pois viu em outro relatório e quis que seus dados fossem
coerentes e consistentes. Se, em outro momento, você descobrisse que o relatório usava na verdade a fórmula errada, o
histórico automatizado de versão poderia ajudar você a desfazer a alteração. Mas, se também registrou a justificativa para
a alteração em um log de mudanças, você poderia informar os criadores do relatório quanto à fórmula incorreta. Se a
mudança foi feita há um tempo atrás, pode ser que não se lembre a quem se dirigir. Felizmente, seu log de mudanças
poderia dar essa informação para você! Ao dar sequência, você garantiria a integridade dos dados fora do projeto e
demonstraria sua integridade pessoal como alguém em que pode ser confiado com dados. Esse é o potencial de um log de
mudanças! Por fim, o log de mudanças é importante no caso de várias alterações terem sido feitas em uma planilha ou
consulta. Imagine a situação: um analista fez quatro mudanças e ele quer reverter a mudança nº 2. Ao invés de clicar três
vezes no recurso para desfazer a mudança nº 2 (e acabar perdendo as mudanças nº 3 e 4), o analista para desfazer
apenas a mudança nº 2 e manter todas as demais. Nosso exemplo foi de apenas quatro alterações, mas pense na
importância desse log de mudanças se houvessem centenas de alterações para controlar.
O que também acontece na prática
Provavelmente, o analista júnior só precisa saber o acima com uma exceção. Se o analista está fazendo alterações a uma
consulta SQL que já existe e é compartilhada na empresa, muito provavelmente ela usa o que chamamos de sistema de
controle de versão, como uma consulta que extrai a receita diária para criar um painel para a gerência sênior.
Veja como um sistema de controle de versão afeta uma alteração em uma consulta:
1. A empresa conta com versões oficiais de consultas importantes em seu sistema de controle de versão.
2. O analista verifica se a versão mais recente da consulta é aquela que será modificada, o que chamamos de
sincronização.
3. O analista faz uma alteração na consulta.
4. O analista pode pedir que outra pessoa revise a alteração. A isso damos o nome de revisão de código, que pode ser
realizado informal ou formalmente. Uma revisão informal pode ser tão simples quanto pedir a um analista sênior para
dar uma olhada na alteração.
5. Assim que o revisor dá sua aprovação, o analista envia a versão atualizada da consulta a um repositório no sistema de
controle de versão da empresa, o que chamamos de alocação de código. Uma prática recomendada é documentar
exatamente qual mudança foi feita e por que na área de comentários. Voltando ao nosso exemplo de uma consulta que
extrai a receita diária, vejamos um possível comentário: Receita atualizada de modo a incluir a receita oriunda do novo
produto, Calypso.
6. Após o envio da alteração, todos da empresa poderão acessar e usar a nova consulta ao sincronizar com as consultas
mais recentes armazenadas no sistema de controle de versão.
7. Se a consulta apresenta um problema ou as necessidades da empresa sofrem uma mudança, o analista pode desfazer
a alteração da consulta pelo sistema de controle de versão. O analista pode conferir a lista cronológica de todas as
alterações feitas na consulta e o autor de cada mudança. Após encontrar sua própria alteração, o analista pode
reverter para a versão anterior.
8. A consulta volta ao que era antes do analista fazer a alteração, e todos da empresa conseguem ter acesso a essa
mesma consulta também.
Autorreflexão: Como criar um log de mudanças
Visão geral
Agora que você já aprendeu sobre a importância de acompanhar as mudanças em sua análise de dados, faça uma
pequena pausa e registre o que está aprendendo. Nesta autorreflexão, procure considerar seus pensamentos sobre os
logs de mudanças e responder a algumas perguntas breves. Esta autorreflexão vai ajudar você a desenvolver insights
sobre seu próprio aprendizado e a se preparar para incorporar os logs de mudançasem seus procedimentos de limpeza
de dados. Ao responder a perguntas (e fazer suas próprias perguntas), você considerará conceitos, práticas e princípios
úteis para refinar sua compreensão e reforçar seu aprendizado. Você trabalhou duro, então não deixe de aproveitá-lo ao
máximo: Essa reflexão ajudará a fixar o seu conhecimento!
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
A importância dos logs de mudanças
Nas atividades anteriores, você analisou os diferentes tipos de perguntas a se fazer antes de explorar os dados, a
importância de se fazer uma pré-limpeza de dados, as funções básicas do SQL, como limpar dados em planilhas e muito
mais. Como analista de dados júnior, a maioria dos seus projetos compreenderão essas atividades. Como já viu, cada
uma das tarefas acompanha um processo complexo. Dessa forma, é fundamental manter registros consistentes e precisos
para se manter a par de tudo. Um log de mudanças nada mais é do que um documento usado para registrar as mudanças
consideráveis de um projeto durante sua vigência, em todas as atividades. Em geral, esse documento é organizado, para
que as mudanças registradas sejam listadas em ordem cronológica para todas as versões do projeto. A maior vantagem
de usá-los é que colaboradores e usuários conectados ao projeto têm acesso a uma lista específica com quais alterações
importantes foram feitas, quando foram feitas e, por vezes, em qual versão foram lançadas. O log de mudanças é uma
ferramenta indispensável para comunicar o progresso do projeto aos co-profissionais, à gestão e às partes interessadas.
Práticas recomendadas para os logs de mudanças
A escolha do formato de um log de mudanças de um projeto pessoal é livre. Quando se trata, porém, de uma situação
profissional e quando se está colaborando com outras pessoas, a legibilidade é importante. Esses princípios
orientadores ajudam a tornar um log de mudanças acessível às outras pessoas:
● Eles são desenvolvidos para pessoas, e não máquinas; portanto, elabore-o de forma legível.
● Cada versão deve ter seu próprio lançamento.
● Cada mudança, sua própria linha.
Agrupe os mesmos tipos de alterações. Vejamos o exemplo: Fixo deve ser agrupado de forma isolada de Adicionado. As
versões devem seguir uma ordem cronológica, a começar com a mais recente. A data de lançamento de cada versão deve
ser indicada. Todas as mudanças de cada categoria devem ser agrupadas juntas. Os tipos de alterações se classificam,
normalmente, em uma das categorias abaixo:
● Adicionado: novos recursos incorporados
● Alterado: mudanças na funcionalidade já existente
● Obsoleto: recursos prestes a serem removidos
● Removido: recursos que foram removidos
● Corrigido: correções de erros
● Segurança: mitigação de vulnerabilidades
Análise um exemplo de log de mudanças
Avalie a figura abaixo, que traz um exemplo de um log de mudanças. Observação: o exemplo a seguir é redigido em
Markdown, pois é comum manter os log de mudanças como um arquivo Leiame em um repositório de código.
https://docs.github.com/en/free-pro-team@latest/github/writing-on-github/basic-writing-and-formatting-syntax
https://docs.github.com/en/free-pro-team@latest/github/writing-on-github/basic-writing-and-formatting-syntax
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
O que registrar em um log de mudanças
Agora que você conhece o exemplo, considere quais alterações você deve registrar em um log de mudanças. O primeiro
ponto é: registre as diversas alterações, adições e correções, que foram discutidas acima. Ordene-as com marcadores de
pontos ou numéricos, com uma alteração por linha. Agrupe as mudanças semelhantes com um identificador que descreva
a mudança imediatamente acima dela. Use diferentes números de versão para cada etapa concluída no projeto. Em cada
versão, coloque as alterações registradas que foram feitas desde a versão anterior (etapa). Em geral, as datas não são
importantes para cada mudança, embora sejam recomendadas para cada versão. Em um próximo curso, você terá a
oportunidade de concluir um projeto de conclusão de curso. Será uma chance e tanto de demonstrar sua habilidade de
organizar um projeto como um analista de dados profissional ao manter seu próprio log de mudanças. Para isso, você
pode usar um arquivo de texto simples ou planilha e incluir seu log de mudanças com a descrição do projeto. Ajudarei
você a se manter organizado e colaborar com outras pessoas. Lembre-se disso ao chegar ao projeto de conclusão do
curso que participará em breve. Não tenha receio de consultar novamente a lição se tiver alguma dúvida.
Reflexão
Pergunta 1 - Pense no que viu sobre os logs de mudanças durante essa reflexão:
O que torna um log de mudanças ideal?
Como decidir se uma mudança é importante o suficiente para ser incluída no log de mudanças?
Agora, responda cada uma dessas perguntas com duas ou três frases (40 a 60 palavras). Digite sua resposta na caixa de
texto abaixo.
Um log de mudanças ideal deve ser completo, claro, organizado e facilmente compreensível. Ele deve registrar todas as
alterações relevantes feitas no sistema ou conjunto de dados, incluindo detalhes como data, hora, natureza da mudança e
responsável pela alteração. Além disso, um log de mudanças ideal deve permitir a rastreabilidade das mudanças, facilitando a
auditoria e a resolução de problemas.
Para decidir se uma mudança é importante o suficiente para ser incluída no log de mudanças, é necessário considerar sua
espiritualidade e impacto no sistema ou conjunto de dados. As mudanças que geraram a funcionalidade, a segurança, a
integridade dos dados ou que podem causar impacto nas operações ou decisões subseqüentes devem ser registradas no
registro de mudanças. Uma avaliação cuidadosa da importância e consequências da mudança ajuda a determinar se ela deve
ser documentada no log de mudanças.
Correto - Excelente trabalho ao reforçar seu aprendizado com uma autorreflexão cuidadosa! Ao pensar a respeito, considere como um log
de mudanças eficiente revela as mudanças importantes em um projeto. O log de mudanças deve captar uma das mudanças abaixo no
conjunto de dados durante a limpeza:
Dados processados ausentes
Formatação alterada
Valores ou casos dos dados alterados
Você fez algumas dessas mudanças ao limpar os dados nas atividades anteriores. Se você manteve um log de mudanças durante essas
atividades, então você descreveu e categorizou cada mudança. Ficou na dúvida sobre a relevância de uma alteração? Insira-a no log de
mudanças.
VÍDEO - POR QUE A DOCUMENTAÇÃO É IMPORTANTE - Legal, você voltou. Vamos analisar a cena. O crime são os dados sujos.
Nós coletamos a evidência. Eles foram limpos, verificados e novamente limpos. Agora é hora de colocar as cartas na mesa. Vamos
refazer os passos e apresentar nosso caso aos colegas. Como conversamos antes, a limpeza dos dados, a verificação e a geração de
relatórios é um como um drama criminal. Chegou o dia do julgamento. Assim como um cientista forense testemunha as evidências
perante o júri, os analistas de dados são intimados a apresentar suas observações após uma iniciativa de limpeza de dados. Mais
cedo, aprendemos como documentar e acompanhar cada etapa do processo de limpeza dos dados, ou seja, nós temos uma sólida
base de informações. Como uma atualização rápida, a documentação é o processo de acompanhar alterações, adições,
exclusões e erros de uma tentativa de limpeza de dados; os logs de mudanças são um bom exemplo disso. Como está
organizado por ordem cronológica, nos apresenta uma descrição em tempo real de cada alteração. A documentação economiza
bastante tempo seu, enquanto futuro analista de dados. Basicamente, é uma cola que você pode consultar se estiver trabalhando com
um conjunto de dados similar ou precisar lidar com erros parecidos. Enquanto sua equipe tem acesso direto aos logs de mudanças, as
partes interessadas não, e elas precisam confiar no seu relatório para entender o que você fez. Vamos ver como podemos documentar
nosso processo de limpeza de dados com os exemplos mostrados antes. Nesse exemplo, vimos queessa associação tinha duas
instâncias da mesma assinatura de USD 500 no banco de dados. Nós decidimos corrigir isso manualmente ao excluir a informação
duplicada. Há várias formas de documentar o que fizemos. Uma maneira comum é simplesmente criar um arquivo que liste nossos
passos e o impacto deles. Por exemplo, o primeiro da lista seria que você excluiu a instância duplicada, o que diminuiu o número de
linhas de 33 para 32, e baixou o total da assinatura para USD 500. Se trabalhássemos com SQL, poderíamos incluir um comentário na
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
instrução com o motivo para a mudança sem afetar a execução da instrução. Isso é um pouco mais avançado, sobre o qual falaremos
depois. Não importa a forma como coletamos e compartilhamos nossos logs de mudanças, nós estamos nos preparando para o
sucesso ao sermos totalmente claros quanto à limpeza dos dados. Dessa forma, todos ficam alinhados, e isso mostra às partes
interessadas do projeto que somos responsáveis pelos processos práticos. Em outras palavras, isso ajuda a consolidar nossa
credibilidade como testemunhas, que podem ser confiáveis a apresentar todas as evidências fielmente durante o depoimento. Com
relação aos dados sujos, é um caso que não deixa dúvidas sobre os autores.
VÍDEO - FEEDBACK E LIMPEZA - Olá mais uma vez! Já podemos afirmar que a verificação, a documentação e a geração de relatório
são etapas importantes do processo de limpeza de dados. Você pode comprovar a precisão e credibilidade dos dados às partes
interessadas. E seu esforço de alcançar isso foi bem executado e documentado. A próxima etapa é ouvir as opiniões sobre a
evidência e usá-las corretamente, o que abordaremos neste vídeo. Dados limpos são importantes para a tarefa em questão. O
processo de limpeza por si só, porém, pode evidenciar insights úteis para os negócios. O feedback obtido ao relatar a limpeza pode
transformar os processos de coleta de dados e, acima de tudo, o desenvolvimento dos negócios. Por exemplo, um dos maiores
desafios de se trabalhar com dados é lidar com erros. Alguns dos mais comuns envolvem erros humanos, como erros de digitação ou
ortográficos, processos viciados, como a má elaboração de um formulário de pesquisa, e erros no sistema, em que sistemas mais
antigos integram dados de forma incorreta. Seja lá a razão, a limpeza dos dados pode deixar mais claro a natureza e a gravidade dos
processos que provocam erros. Com a documentação e geração de relatórios consistentes, podemos detectar padrões de erros na
coleta de dados e em procedimentos de entrada, e usar o feedback obtido para garantir que erros comuns não se repitam. Pode ser
necessário, talvez, reprogramar a forma de coleta dos dados ou alterar perguntas específicas no formulário de pesquisa. Em casos
mais extremos, o feedback obtido pode até mesmo nos fazer voltar à estaca zero para repensar as expectativas e, possivelmente,
atualizar os procedimentos de controle de qualidade. Por exemplo, às vezes é útil agendar uma reunião com um engenheiro ou
proprietário de dados para garantir que os dados sejam apresentados adequadamente e que não exija a limpeza constante. Uma vez
que os erros forem identificados e corrigidos, as partes interessadas têm dados confiáveis para a tomada de decisão. E, ao reduzir
erros e ineficiências na coleta de dados, a empresa pode identificar ótimos crescimentos em seu resultado final. Parabéns! Você já tem
a base necessária para verificar um relatório nos resultados da limpeza. Fique ligado para continuar desenvolvendo suas novas
habilidades.
Funções avançadas para uma rápida limpeza de dados
Nesse artigo, você aprenderá algumas funções avançadas que ajudam você a acelerar o processo de limpeza dos dados
em planilhas. Confira abaixo uma tabela com o resumo das três funções e o que cada uma vez:
Função Sintaxe(Planilhas Google)
Opções de menu
(Microsoft Excel) Principal uso
IMPORTRANGE =IMPORTRANGE(spreadsheet_url, range_string) Colar link (copiar os dadosprimeiro)
Importa (cola) dados de uma
planilha para outra e os
mantém atualizados
automaticamente
QUERY Sintaxe: =QUERY(Planilha e Intervalo, "Select *") Dados > De outras fontes >Da consulta Microsoft
Permite que instruções
falsas do SQL (do tipo SQL)
ou um assistente importem
os dados.
FILTER =FILTER(intervalo, condição1 [condição2, ...]) Filtrar(condições porcoluna)
Exibe somente os dados que
atendem às condições
especificadas.
Como manter os dados limpos e sincronizados com uma fonte
Com a função IMPORTRANGE do Planilhas Google e o recurso Paste Link (opção Paste Special no Microsoft Excel),
você pode inserir dados de uma planilha para outra. Usá-los com uma grande quantidade de dados é mais eficiente do
que copiar e colar manualmente. Além disso, diminuem a chance de que surjam erros ao copiar e colar dados incorretos, e
são úteis durante a limpeza dos dados, pois você pode escolher a dedo os dados que quer analisar e deixar de lado
aqueles que sejam irrelevantes para seu projeto. É, basicamente, como tirar tudo aquilo que atrapalhe os seus dados, para
que você se concentre no que é mais importante para resolver o problema. Esta funcionalidade também é útil no
monitoramento diário dos dados; com ela, é possível criar uma planilha de acompanhamento para compartilhar dados
relevantes com outras pessoas. Os dados são sincronizados com a fonte de dados. Dessa forma, quando os dados forem
atualizados no arquivo de origem, o dado monitorado também será atualizado. Ao usar a função IMPORTRANGE no
Planilhas Google, os dados podem ser extraídos de outra planilha; é necessário, no entanto, permitir o acesso à planilha
na primeira vez que os dados são extraídos. A URL mostrada abaixo é apenas para fins de sintaxe. Não insira-o em
https://support.google.com/docs/answer/3093340?hl=en
https://professor-excel.com/how-to-paste-cell-links/
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
sua planilha. Faça a substituição por uma URL para uma planilha que você criou para poder controlar o acesso a ela,
clicando no botão Permitir acesso.
Consulte a página de Suporte do Google sobre a função IMPORTRANGE para obter a sintaxe e o uso de amostra.
Exemplo de como usar a função IMPORTRANGE
Um analista que está monitorando uma campanha de arrecadação de fundos precisa acompanhar e garantir a distribuição
dos fundos correspondentes. Ele usa a função IMPORTRANGE para extrair as transações correspondentes em uma
planilha com todas as doações individuais, o que permite a ele determinar quais doações são elegíveis aos fundos
correspondentes que ainda precisam ser processados. Como o número total de transações correspondentes cresce a cada
dia, ele só precisa alterar o intervalo usado pela função para importar os dados mais atualizados.
Na terça-feira, ele usou a fórmula abaixo para importar os nomes dos doadores e os valores correspondentes:
=IMPORTRANGE(“https://docs.google.com/spreadsheets/d/1cOsHnBDzm9tBb8Hk_aLYfq3-o5FZ6DguPYRJ57992_Y”, “Matched Funds!A1:B4001”)
Na quarta-feira, outras 500 transações foram processadas. Ele aumenta o intervalo usado em 500 para incluir facilmente
as últimas transações ao importar os dados na planilha do doador individual:
=IMPORTRANGE(“https://docs.google.com/spreadsheets/d/1cOsHnBDzm9tBb8Hk_aLYfq3-o5FZ6DguPYRJ57992_Y”, “Matched Funds!A1:B4501”)
Observação: Os exemplos acima são meramente ilustrativos. Não os copie e cole em sua planilha. Para tentar você mesmo, é
necessário substituir seu URL (e o nome da planilha, no caso de haver várias abas) junto com o intervalo de células da planilha que
foram preenchidas com os dados.
Como extrair dados de outras fontes
A função QUERY também é útil quando se quer extrair dados de outra planilha. O recurso do tipo SQL da função QUERY
consegue extrair dados específicos de uma planilha. Em se tratando de quantidades maiores de dados, usar a QUERY
função é muito mais rápido do que filtrar os dados manualmente, o que fica ainda mais evidente quando se precisa repetir
filtros. Você pode gerar, por exemplo, uma lista detodos os clientes que compraram produtos da sua empresa em
determinado mês com um filtro manual. Se quiser descobrir o crescimento mensal de clientes, você precisará copiar os
dados filtrados em uma nova planilha, filtrar os dados de vendas durante o mês seguinte e copiar os resultados para
análise. Com a função QUERY, você obtém todos os dados dos meses sem precisar alterar o conjunto de dados original
ou copiar os resultados. A sintaxe da função QUERY é similar à função IMPORTRANGE. Você insere a planilha por nome
e o intervalo de dados em que deseja fazer a consulta, e usa o comando SELECT do SQL para selecionar colunas
específicas. Você também pode adicionar critérios específicos após a instrução SELECT, basta incluir uma instrução
WHERE. Mas não se esqueça de que todos os códigos SQL usados devem ser colocados entre aspas! O Planilhas Google
roda a Linguagem de consulta da API de visualização do Google nos dados. As planilhas do Excel usam um assistente de
consulta para orientar você pelas etapas para conectar a uma fonte de dados e selecionar as tabelas. Independentemente
do caso, você tem a certeza de que os dados são importados, verificados e limpos com base no critério da consulta.
Exemplos de como usar a função QUERY
Consulte a página de Suporte do Google sobre a função QUERY com a sintaxe e uso de amostra, além de exemplos que
você pode baixar em uma planilha do Google. Link para copiar a planilha: exemplos da função QUERY
Solução prática
Os analistas usam o SQL para extrair um conjunto de dados específico em uma planilha. Eles usam a função QUERY para
criar várias abas (visualizações) do conjunto em questão. Uma aba, por exemplo, pode incluir todos os dados de vendas
de determinado período, enquanto outra aba inclui todos os dados de vendas de uma região específica. A solução mostra
como o SQL e as planilhas funcionam bem juntos.
Como filtrar os dados para obter o que procura
A função FILTER é totalmente interna em uma planilha e não exige o uso de uma linguagem de consulta. Com ela, você
consegue visualizar somente as linhas (ou colunas) nos dados de origem que atendem às condições especificadas. A
função permite pré-filtrar os dados antes de analisá-los. Ela pode rodar de forma mais rápida do que a função QUERY.
https://support.google.com/docs/answer/3093340?hl=en
https://support.google.com/docs/answer/3093343?hl=en
https://support.google.com/docs/answer/3093343?hl=en
https://docs.google.com/spreadsheets/d/1815H5TCe91LLT6tD6FmxMHmeJAAkr4o5Q6rNpV6xiFk/copy
https://support.google.com/docs/answer/3093197?hl=en
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Lembre-se: a função QUERY pode ser combinada a outras funções em casos de cálculos mais complexos. A função
QUERY pode ser usada, por exemplo, com outras funções, como SUM e COUNT, para sintetizar os dados; já com a
função FILTER, isso não é possível.
Exemplo de como usar a função FILTER
Consulte a página de Suporte do Google sobre a função FILTER com a sintaxe e uso de amostra, além de exemplos que
você pode baixar em uma planilha do Google. Link para copiar a planilha: Exemplos da função FILTER
Teste seu conhecimento sobre como documentar o processo de limpeza
Pergunta 1 - Por que é importante que um analista de dados documente o progresso de um conjunto de dados?
Selecione todas as opções válidas.
Comunicar mudanças a outros usuários
Identificar práticas recomendadas na coleta dos dados
Determinar a qualidade dos dados
Para recuperar erros associados à limpeza de dados
Correto - É importante documentar o progresso de um conjunto de dados para recuperar erros associados à limpeza de dados, comunicar
mudanças a outros usuários e determinar a qualidade dos dados.
Pergunta 2 - Preencha a lacuna: Durante a limpeza de dados, a documentação é usada para acompanhar _____.
Selecione todas as opções válidas.
Exclusões
erros
viés
alterações
Correto - Durante a limpeza de dados, a documentação é usada para acompanhar alterações, exclusões e erros.
Pergunta 3 - Com a documentação da limpeza de dados, é possível alcançar quais metas? Selecione todas as
opções válidas.
Visualizar os resultados da sua análise de dados
Ser transparente com relação ao processo
Manter membros da equipe alinhados
Comprovar sua responsabilidade às partes interessadas do projeto
Correto - Com a documentação da limpeza de dados, é possível ser transparente com relação ao processo, manter membros da equipe
alinhados e comprovar sua responsabilidade às partes interessadas do projeto.
Desafio da semana 4
Pergunta 1 - Os dados coletados para um projeto de análise acabam de ser limpos. Quais os próximos passos que
o analista de dados deve dar? Selecione todas as opções válidas.
Geração de relatório
Certificação
Verificação
Validação
Correto - A verificação e a geração de relatório são as próximas etapas que o analista de dados deve seguir após a limpeza dos dados.
Pergunta 2 - Ao verificar a análise do quadro geral, o que a limpeza de dados abrange? Selecione todas as opções
válidas.
Ponderar sobre o problema nos negócios.
Ponderar sobre os dados.
Ponderar sobre a geração de relatório.
Ponderar sobre a meta.
Correto - Para analisar o quadro geral ao verificar a limpeza de dados, considere o problema nos negócios, a meta e os dados.
https://support.google.com/docs/answer/3093197?hl=en
https://docs.google.com/spreadsheets/d/1caULJLQvQuzBnCN7rO9utg0xSKrYms7wM0Ph7A2JXY4/copy
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Pergunta 3 - Qual das funções abaixo remove automaticamente os espaços extras ao limpar os dados?
TRIM
REMOVE
CLEAR
SNIP
Correto - A função TRIM remove automaticamente espaços extras ao limpar os dados.
Pergunta 4 - Ao verificar os dados limpos, o analista de dados se depara com um nome escrito incorretamente.
Qual função pode ser usada para determinar se o erro se repete no conjunto de dados?
COUNTA
COUNT
CASE
CHECK
Correto - Para determinar se o erro se repete no conjunto de dados, pode-se usar a função COUNTA.
Pergunta 5 - Preencha a lacuna: O analista de dados usa a instrução CASE para levar em consideração uma ou
mais _____, e, então, retorna um valor.
condições
adições
identificações
alterações
Correto - O analista de dados usa a instrução CASE para levar em consideração uma ou mais condições, e, então, retorna um valor.
Pergunta 6 - Qual é o processo de acompanhar alterações, adições, exclusões e erros durante a limpeza de dados?
Gravação
Documentação
Observação
Catalogação
Correto - A documentação trata-se do processo de acompanhar alterações, adições, exclusões e erros durante a limpeza de dados.
Pergunta 7 - Preencha a lacuna: O log de mudanças contém uma lista _____ das alterações feitas em um projeto.
aleatória
sincronizada
aproximada
cronológica
Correto - O analista de dados usa um log de mudanças para acessar as informações necessárias. O log de mudanças nada mais é do que
um arquivo com uma lista cronológica das alterações feitas em um projeto.
Pergunta 8 - O analista de dados aloca uma consulta ao repositório como uma consulta nova e otimizada. Ele,
então, especifica as mudanças feitas e a justificativa por trás delas. Esse cenário é parte de qual processo?
Como criar um log de mudanças
Geração de relatório dos dados
Visualização dos dados
Comunicação com as partes interessadas
Incorreto - Reveja o vídeo sobre a documentação da limpeza de dados para relembrar seu conhecimento.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
SEMANA 5 - OPCIONAL: COMO ADICIONAR DADOS AO SEU CURRÍCULO
Criar um currículo eficaz ajudará você na sua trajetória de carreira na área de Data Analytics. Nesta parte do curso, você
aprenderá sobre o processo de seleção para vagas. Vamos nos concentrar em criar um currículo que destaque suas
fortalezas e experiências relevantes. Mesmo se você ainda não estiver se candidatando a vagas, este é um bom momento
para aprimorar seu currículo. Pense nisso como no treinamento antes de um campeonato importante: você não deve
perder essa oportunidade!
Objetivos de aprendizagem
● Identificar os principaiselementos do currículo de um analista de dados
● Demonstrar conhecimento sobre como as experiências prévias podem ser adicionadas em um currículo
● Discutir sobre como a descrição de uma vaga de analista de dados se alinha a certa área de interesse
5.1 - O PROCESSO DE CONTRATAÇÃO DE UM ANALISTA DE DADOS
VÍDEO - SOBRE O PROCESSO DE CONTRATAÇÃO DE UM ANALISTA DE DADOS - Olá, obrigado por estar aqui novamente. Bem,
anteriormente nós vimos alguns possíveis caminhos que podem se abrir em sua carreira depois que você terminar o programa. Você
também deve ter explorado as vantagens do networking e de criar uma presença online. E quero dizer que, só de estar aqui, agora,
você já mostrou seu comprometimento. Você está dando um grande passo em sua futura carreira. A seguir, vamos passar um tempo
elaborando o seu currículo. Você já deve ter um currículo que usou no passado ou que está guardando, e isso é ótimo. Há uma grande
chance de ainda poder usá-lo mesmo se estiver planejando trocar de carreira. Juntos, descobriremos que tipos de mudanças você quer
fazer em seu currículo. Mas, antes disso, descobriremos como é o processo de candidatura como um todo. Depois, exploraremos a
melhor maneira de escrever ou adaptar seu currículo para que ele seja o mais profissional possível e esteja pronto para sua função de
analista de dados. Também iremos conhecer alguns exemplos de currículos. Depois disso, você fará uma breve auto análise enquanto
revisamos os diferentes tipos de cargos de analista de dados que existem nessa área, para que você possa pensar quais seriam os
melhores para você. Embora eu não seja uma consultora de carreira, ainda assim podemos pensar nesse momento como uma espécie
de sessão de aconselhamento profissional. Você terá uma ideia melhor de como criar seu currículo, enquanto pensa em sua carreira,
de forma mais ampla. Vamos começar!
VÍDEO - O PROCESSO DE CANDIDATURA PARA VAGAS DE ANALISTA DE DADOS - Olá outra vez. Agora parece o momento
perfeito para fazer uma pausa no aprendizado sobre Data Analytics, para que você fique empolgado sobre o que vem depois do fim
deste curso. O caminho para encontrar um emprego pode ser desafiador, mas você está construindo suas habilidades e aprendendo o
que é necessário para ser um analista de dados. Neste vídeo, falaremos sobre o que você pode esperar de sua busca por emprego,
além de algumas dicas para usar suas novas habilidades e conhecimentos, para facilitar sua busca. Eu me lembro de quando comecei.
Falei com o máximo de pessoas que pude para saber sobre suas carreiras, suas empresas, seus cargos. Eu queria ter uma boa ideia
do que esperar. E isso é o que estamos fazendo agora: estamos dando a você uma ideia do que esperar durante sua própria busca por
trabalho. É importante lembrar que a busca de cada pessoa será diferente. Pode depender de onde você mora, quais são seus
interesses na área e suas preferências pessoais, como o tipo de ambiente de trabalho no qual você se sente confortável. Tudo isso faz
parte do processo de se apropriar dessa jornada enquanto busca por um trabalho que seja perfeito para você. A forma mais comum de
começar é verificando as vagas disponíveis. Existem muitos sites de vagas de emprego que são feitos especificamente para pessoas
que procuram emprego. Você também pode acessar os sites das empresas onde elas também costumam publicar as vagas de
emprego. Esses sites podem ter até uma opção para enviar um alerta quando um cargo compatível com sua busca estiver disponível.
Assim que você encontrar algumas de que goste, faça uma pesquisa para saber mais sobre as empresas e os detalhes sobre as vagas
específicas para as quais você estará se candidatando. Depois, você pode atualizar seu currículo ou criar um novo. Você deve ser
específico e refletir o que cada empresa está buscando. Mas, é claro, você pode ter um currículo principal e adaptá-lo para cada vaga.
Também pode ser útil criar uma planilha com todas as suas experiências e conquistas, para ajudá-lo a decidir o que incluir em seu
currículo para cada vaga. Se você estiver usando um site de networking profissional, como o LinkedIn, você pode já ter conexões que
podem ajudar com sua busca por emprego. Talvez você conheça alguém que pode escrever uma recomendação para você ou que
saiba de um cargo ideal para você dentro da empresa onde essa pessoa trabalha. E mesmo que você não tenha sorte com suas
conexões, você também pode falar com funcionários das empresas nas quais está interessado. Eles podem ajudá-lo a ter um insight
sobre quais são as melhores maneiras de destacar as suas habilidades e experiências ao se candidatar. E tudo bem se eles não
responderem. Continue tentando! Talvez esse seja um bom momento para te contar sobre a parte mais desafiadora da busca por
emprego: ouvir a palavra “não”. Você provavelmente escutará muito isso, e não tem problema nenhum. Faz parte da experiência de
todos, especialmente quando se muda de carreira. As pessoas com quem você entra em contato podem não ser capazes de ajudar
você. As empresas para as quais você adoraria trabalhar talvez não tenham vagas disponíveis. As vagas para as quais você se
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
candidatou já podem ter sido preenchidas por outra pessoa, e tudo isso faz parte do processo. A chave é se manter focado. Não se
desanime, e, acima de tudo, acredite em si mesmo. Ok, o discurso acabou, mas não se esqueça dele, ou serei obrigado a fazer mais
discursos. Então, voltemos à sua busca. Se a empresa para a qual você está se candidatando estiver interessada, seu primeiro ponto
de contato talvez seja um recrutador. Um recrutador também pode entrar em contato com você com base nas pesquisas dele. Ele pode
encontrar o seu perfil profissional online e achar que você seria uma boa escolha para uma vaga. Falando nisso, esse é outro motivo
para continuar criando e atualizando seu perfil online. Os recrutadores existem para garantir que você é um candidato legítimo para a
vaga publicada com aquela descrição. Então, quando você falar com o recrutador, seja por telefone, online ou pessoalmente, seja
profissional e gentil. É natural sentir-se nervoso nessa situação. Por isso, pode ser útil recorrer ao seu currículo para impressioná-los
com seu conhecimento da indústria de Data Analytics. E lembre-se de que os recrutadores também estão buscando alguém e eles
esperam que esse alguém seja você. Aqui está mais uma dica. Usar termos técnicos como “SQL” e “dados limpos” mostrará aos
recrutadores que você sabe o que faz. Os recrutadores provavelmente não entrarão em muitos detalhes sobre o assunto. Mas eles
querem ver que você sabe do que está falando. Eles também podem fornecer materiais preparatórios ou outras recomendações.
Aproveite tudo isso, porque os recrutadores querem que você se saia bem. Depois disso, geralmente se fala com o gerente de
contratação. Essa é a etapa mais importante. A função do gerente de contratação é avaliar se você tem a capacidade de fazer o
trabalho e se você se encaixaria bem na equipe dele. Seu trabalho é convencê-lo de que sim, você tem essa capacidade, e, sim, você
se encaixaria bem. Uma boa coisa a se fazer é usar o LinkedIn ou outros sites profissionais para pesquisar os gerentes de contratação
ou mesmo outros analistas que têm um cargo semelhante ao qual você está se candidatando. Quanto mais informações você tiver
sobre uma vaga, melhores são suas chances de conseguir o emprego. Você também deve usar essa oportunidade para fazer muitas
perguntas, para ajudá-lo a descobrir se a empresa seria boa para você. Você também pode fazer isso ao falar com os recrutadores.
Agora, se o gerente de contratação achar que você se encaixa na vaga, é muito possível que você seja chamado para, pelo menos,
mais uma entrevista. O intuito dessas entrevistas é dar às suas futuras partes interessadas e seus futuros colegas de equipe uma
chance de decidir se você é o melhor candidato para a vaga. A próxima etapa é a melhor. Se tudo der certo, você receberá uma oferta
oficial. Geralmente, será primeiropor telefone e talvez, depois, por uma comunicação oficial. A essa altura, fique à vontade para
comemorar. Ligue para todo mundo e comemore mais um pouco. Mas, mesmo que este seja o emprego dos seus sonhos, certifique-se
de que a oferta é competitiva antes de assinar o contrato. Lembre-se, se eles te procuraram com uma oferta, significa que eles querem
você tanto quanto você quer a vaga. Se você estiver fazendo entrevistas em outros lugares, pode aproveitar a oportunidade para
descobrir se é possível negociar uma oferta mais competitiva. Você também deve pesquisar salários, benefícios, tempo de férias e
todos os outros fatores que sejam importantes para você em vagas semelhantes. Se você puder mostrar pesquisas específicas, como a
empresa x paga y vezes mais pelo mesmo cargo, geralmente haverá espaço para negociar seu salário, férias ou algo mais. Tenha em
mente que você terá que encontrar um equilíbrio entre o que você quer, o que eles querem te dar, e o que é justo. Portanto, saiba do
seu próprio valor, mas entenda que a empresa que está te contratando já atribuiu um certo valor ao seu cargo. Ok, vamos supor
que tudo deu certo, e você está feliz, com um contrato negociado e empolgado para entrar na nova equipe. Mesmo assim, dê uma
pausa e tire ao menos duas semanas para si mesmo antes de começar oficialmente. Por quê? Bem, se você já estiver empregado em
outro lugar durante sua busca por emprego, é comum e educado dar um aviso prévio de pelo menos duas semanas ao seu antigo
emprego antes de começar o novo. Além disso, é bom dar uma folga para si mesmo antes de começar sua nova e empolgante
aventura. Você merece. A essa altura, você já deve ter uma boa ideia do que esperar quando começar a procura por emprego como
analista de dados. A seguir, vamos falar um pouco mais sobre como elaborar o seu currículo. Vejo você no próximo vídeo.
VÍDEO - CRIANDO UM CURRÍCULO - Que bom que você voltou. Quando você tira uma foto, geralmente tenta capturar muitas coisas
diferentes em uma única imagem. Talvez você esteja tirando uma foto do pôr-do-sol e deseje capturar as nuvens, a linha das árvores e
as montanhas. Basicamente, você quer tirar uma foto de todo aquele momento. Você pode pensar da mesma maneira em relação à
criação de um currículo. Seu currículo deve ser uma fotografia de tudo o que você já fez, tanto na vida acadêmica quanto na vida
profissional. Neste vídeo, vamos conhecer passo a passo o processo de criação de um currículo, no qual você poderá também incluir
seus próprios detalhes. Tenha em mente que essa é uma fotografia. Quando os gerentes e recrutadores olharem o que você incluiu em
seu currículo, eles devem ser capazes de saber, prontamente, o que você pode oferecer à empresa deles. O importante, aqui, é ser
breve. Tente manter tudo em uma página e restringir cada descrição a apenas alguns itens pontuais. Dois a quatro itens por linha
são suficientes, mas lembre-se de ser conciso em cada um dos itens. Um currículo de apenas uma página o ajudará a ficar focado nos
detalhes que melhor refletem quem você é ou quem você deseja ser profissionalmente. Uma página pode também ser tudo o que os
gerentes de contratação e recrutadores terão tempo de analisar. Essas pessoas são ocupadas, então você deve despertar a atenção
delas com o seu currículo o mais depressa possível. Agora, vamos falar sobre a criação, de fato, do seu currículo. É aqui que entram os
modelos. Eles são ótimos para criar um currículo novo ou para reformatar o que você já tem. Programas como Microsoft Word ou
Google Docs e até mesmo alguns sites de busca de emprego têm modelos que você pode usar. Um modelo tem campos definidos
para as informações que você terá que preencher e seus próprios elementos de design para que seu currículo tenha um visual mais
convidativo. Você terá a chance de explorar essa opção mais adiante. Por enquanto, vamos falar sobre os passos que você pode dar
para criar um currículo profissional, fácil de ler e livre de erros. Se você já tem um documento com o seu currículo, pode usar essas
etapas para refiná-lo. É claro que há mais de uma forma de se criar um currículo, mas a maioria traz as informações de contato na
parte superior do documento. Tais informações incluem seu nome, endereço, telefone e endereço de e-mail. Se você tiver diversos
e-mails e números de telefone, use os que são mais confiáveis e que soam profissionais. Também é ótimo se você puder usar seu
nome e sobrenome em seu endereço de e-mail, como janedoe17@email.com. Você também deve garantir que suas informações de
contato sejam equivalentes aos detalhes que você incluiu nos sites profissionais. Embora a maioria dos currículos tenha informações
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
de contato no mesmo lugar, depende de você escolher como organizar esta informação. Um formato que enfatiza mais as habilidades
e qualificações e menos no histórico profissional é excelente para pessoas com intervalos em seu histórico de trabalho. Também é
excelente para quem está começando sua carreira ou fazendo uma transição de carreira, e você pode ser uma dessas pessoas. Se
você não quiser enfatizar seu histórico profissional, fique à vontade para incluir detalhes da sua experiência de trabalho começando
pelo seu cargo mais recente. Se você já teve diversos empregos que estão relacionados a um novo cargo para o qual você está se
candidatando, este formato faz sentido. Se você estiver editando um currículo já existente, pode mantê-lo no mesmo formato e ajustar
os detalhes. Se você estiver criando um currículo novo ou criando um pela primeira vez, escolha o formato que faz mais sentido para
você. Existem muitos recursos para criação de currículos online. Você deve analisar diversos currículos diferentes para ter uma ideia
dos formatos que acha que funcionam melhor para você. Depois de decidir o formato, você pode começar a acrescentar os detalhes.
Alguns currículos começam com o sumário, mas isso é opcional. Um sumário pode ser útil se você tiver uma experiência que não seja
tradicional para um analista de dados ou se estiver fazendo uma transição de carreira. Se você decidir incluir um sumário, mantenha-o
em uma ou duas frases que destacam seus pontos fortes e como você pode ajudar a empresa para a qual está se candidatando.
Convém também garantir que seu sumário inclua palavras positivas sobre você, como dedicado e pró-ativo. Você pode embasar
essas palavras com dados, como o número de anos em que já trabalhou ou as ferramentas nas quais você tem experiência, como SQL
e planilhas. Um sumário pode começar com algo como representante de atendimento ao cliente dedicado com mais de cinco anos de
experiência. Após completar este programa e obter o seu certificado, você também poderá incluí-lo, e pode fazê-lo assim,
“profissional iniciante na área de Data Analytics, recentemente finalizou a certificação para o Certificado Profissional de Data
Analytics do Google”. Soa ótimo, não é mesmo? Outra opção é deixar um espaço definido para o seu sumário enquanto escreve o
restante do currículo e, depois, escrever o sumário após finalizar as demais seções. Dessa forma, você pode revisar as habilidades e
experiências que mencionou e escolher dois ou três destaques para usar em seu sumário. Também é bom notar que o sumário pode
mudar um pouco conforme você se candidata para trabalhos diferentes. Se você estiver incluindo uma seção de experiência
profissional, há muitos tipos diferentes de experiência que você pode acrescentar. Além dos cargos ocupados em outras empresas,
você também pode incluir trabalhos voluntários e trabalhos que tenha realizado como autônomo ou de forma informal. O importante,
aqui, é a maneira como você descreve essas experiências. Tente descrever o trabalho que você fez de modo a se relacionar com o
cargo para o qual você está se candidatando. A maioria das descrições de cargos apresenta uma lista de qualificações ou requisitos
mínimos. São as experiências, habilidades e formações que você precisará ter para ser considerado para a vaga. É importantecitá-las
de forma clara em seu currículo. Se você tiver os requisitos, o próximo passo é verificar as qualificações preferidas que também são
incluídas em muitas descrições de cargo. Essas qualificações não são exigidas, mas cada qualificação adicional que você tiver irá
torná-lo um candidato mais competitivo para a vaga. Incluir qualquer parte de suas habilidades e experiências que sejam equivalentes
à descrição da vaga ajudará o seu currículo a se destacar em meio à concorrência. Se uma vaga descreve uma responsabilidade do
cargo como “gerenciar efetivamente recursos de dados”, o ideal é que você tenha sua própria descrição que reflita esta
responsabilidade. Por exemplo, se você foi voluntário ou trabalhou em uma escola ou centro comunitário local, pode dizer que “geriu
efetivamente recursos para atividades extracurriculares”. Mais adiante, você aprenderá outras maneiras de fazer o seu histórico
profissional trabalhar em seu benefício. É útil descrever suas habilidades e qualificações da mesma maneira. Por exemplo, se uma
vaga fala sobre organização e fazer parcerias com outras pessoas, tente pensar nas experiências relevantes que você já teve. Talvez
você tenha ajudado a organizar uma arrecadação de alimentos ou tenha feito parceria com alguém para criar um negócio online. Nas
suas descrições, você deve enfatizar o impacto que causou naquele cargo, bem como o impacto que o cargo causou em você. Se você
ajudou um negócio a começar ou a atingir novos patamares, fale sobre essa experiência e sobre como foi o seu papel nela. Ou se você
trabalhou em uma loja assim que ela inaugurou, você pode dizer que ajudou a lançar um negócio bem-sucedido garantindo um
atendimento ao cliente com alta qualidade. Se você usou Data Analytics em qualquer um dos trabalhos, certifique-se de também incluir
essa informação. Falaremos sobre como adicionar habilidades específicas de análise de dados mais adiante. Uma das maneiras de
fazer isso é seguindo uma fórmula em suas descrições: Conquistou X conforme medido por Y fazendo Z. Aqui está um exemplo de
como isso pode aparecer em seu currículo: Selecionado como um dos 275 participantes de todo o país para o programa de
desenvolvimento profissional com duração de 12 meses para talentos de alto desempenho com base no potencial de liderança
e sucesso acadêmico. Se você obteve novas habilidades em uma de suas experiências, certifique-se de destacá-las por completo, e
como elas o ajudaram. Esse é provavelmente um espaço tão bom quanto os outros para mencionar o Data Analytics. Mesmo se este
programa seja a primeira vez em que você pensou, de fato, sobre Data Analytics, agora que você possui algum conhecimento, você
deve usá-lo para seu benefício. Se você já trabalhou com gestão de dinheiro, talvez isso signifique que você ajudou a empresa a
analisar ganhos futuros. Ou talvez você tenha criado um orçamento com base em sua análise dos gastos prévios. Mesmo que tenha
sido para a sua própria pequena empresa, ou para a de um amigo, ainda assim são dados que você analisou. Agora, você pode refletir
sobre quando e como usar isso em seu currículo. Após adicionar sua experiência profissional e suas habilidades, você deve incluir
uma seção para todos os cursos que finalizou. Sim, esse curso com certeza vale ser mencionado. Você pode incluir esse curso como
parte de sua formação, e também pode mencioná-lo nas seções de sumário e habilidades. Dependendo do formato do seu currículo,
você pode acrescentar uma seção com habilidades técnicas que adquiriu tanto nesse curso quanto em outros lugares. Além das
habilidades técnicas, como SQL, você também pode incluir nessa seção proficiência em idiomas. Ter alguma habilidade em um idioma
além do português pode ajudá-lo a encontrar um trabalho. Agora você tem uma ideia de como fazer seu currículo ter um aspecto
profissional e atrativo. Conforme segue em frente, você aprenderá ainda mais sobre como fazer seu currículo brilhar. Ao final, você terá
um currículo do qual poderá se orgulhar. Na sequência, falaremos sobre como fazer com que seu currículo seja realmente único. Vejo
você em breve!
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Atividade prática: Criar um currículo
Visão geral da atividade
Anteriormente, você aprendeu sobre o que torna um currículo eficaz. Nesta atividade, você começará a criar o seu
currículo, ou a trabalhar em um já existente. Quando terminar essa atividade, você terá um entendimento mais
aprofundado sobre os formatos comuns de currículo e escolherá um modelo para o seu currículo da área de Data Analytics,
para preencher posteriormente. Essa é uma parte importante do processo de candidatura para vagas de emprego: Um
currículo sólido é essencial para progredir como profissional de Data Analytics.
O que você vai precisar
Para usar os modelos deste item do curso, clique nos links abaixo e selecione “Usar modelo”.
Link para o modelo 1: Exemplo de modelo 1
Link para o modelo 2: Exemplo de modelo 2
Formate seu currículo
Primeiro, você decidirá qual será a estrutura e o layout do seu currículo. Comece examinando dois modelos e decida qual
formato você prefere. Reserve um tempo para navegar pelos modelos, bem como para ver os modelos disponíveis na web.
Anote o que você gosta ou não gosta a respeito dos diversos formatos. Você pode demorar e ser seletivo nesse momento.
Você passará muito tempo nesse documento, portanto escolher um formato que o agrade será útil para começar com força
total.
Formatos e modelos
Antes de criar seu currículo, você precisa tomar algumas decisões quanto ao design. Embora você possa fazer alguns
pequenos ajustes e mudanças para adaptar o conteúdo do seu currículo para cargos específicos aos quais está se
candidatando, a estrutura e o formato do currículo provavelmente não serão alterados. Isso quer dizer que é importante
pensar bem sobre como deseja estruturar o seu currículo.
Mantenha seu currículo em um formato conciso
Não existe um formato “melhor” para um currículo. Em vez de pensar assim, pense no que você deseja destacar sobre si
mesmo para os possíveis empregadores. Por exemplo, se você tem uma experiência profissional relevante, escolha um
formato para destacar isto. Se você estiver fazendo uma transição de uma carreira diferente e ainda não tiver experiência
profissional relevante, então você pode escolher um formato que destaque suas habilidades técnicas e os projetos que
estão no seu portfólio. Alguns formatos de currículo incluem uma seção de Sumário ou Metas no cabeçalho, para ajudar os
candidatos a contextualizarem sua candidatura, ao passo que outros formatos evitam totalmente essas seções e guardam
espaço para seções como Habilidades e Experiência. Qualquer que seja o formato escolhido, certifique-se de seguir a
regra de uma página e manter a versão finalizada em apenas uma página. Se a regra de uma página parecer limitante,
pense no objetivo do currículo no processo de contratação como um todo. Os currículos são documentos curtos projetados
para comunicar, de forma rápida, as informações mais pertinentes sobre você aos recrutadores e gerentes de contratação.
Eles são diferentes dos Curriculum Vitae (CVs) que são documentos mais longos, com diversas páginas, que listam à
exaustão todas as coisas relevantes que o candidato já fez na vida. Se um empregador quiser um histórico detalhado das
suas experiências e conquistas profissionais passadas, ele pode solicitar especificamente um CV (curriculum vitae). Caso
não solicite, sempre suponha que ele irá preferir um currículo resumido. Embora, de modo geral, seja aceitável que os
candidatos com um histórico profissional extenso, concorrendo a cargos técnicos sênior, apresentem currículos de duas
páginas, eles são exceção, e não a regra. Ao se candidatar para uma vaga de analista de dados, deixe tudo em uma
página.
https://docs.google.com/document/d/1qn_zOg-0E7pca6bEk6BGIEBNBuIZdiPnwOTKm76Q-jA/template/preview
https://docs.google.com/document/d/1l-aMPMNRxZ0zSOQcNGg4jMqQO5FW1coZiV2m7jz6CFw/template/preview
Curso 4 - PROCESSAR OS DADOSPARA LIMPÁ-LOS
Escolha um formato
Após decidir o modelo, resista à vontade de começar a preenchê-lo. As próximas aulas serão focadas nas práticas
recomendadas para comunicar suas habilidades e experiências de forma significativa e impactante. Tenha o modelo do
currículo sempre à mão, pois você trabalhará com ele mais para frente.
Confirmação e reflexão
Pergunta 1 - Qual é a coisa mais importante a se considerar ao escolher um formato de currículo?
Apelo estético
O formato que couber mais conteúdo
O que você quer enfatizar aos possíveis empregadores
O formato que o gerente de contratação preferir
Correto - Ao selecionar um formato de currículo, é mais importante considerar o que você deseja enfatizar para os possíveis empregadores.
Também tenha em mente que um analista de dados iniciante deve ter um currículo com apenas uma página. Para começar a escrever seu
currículo, você escolheu um modelo. Mais adiante, você poderá usar esse modelo para criar um currículo eficaz e garantir uma entrevista
para um cargo de analista de dados.
Pergunta 2 - Nesta atividade, você escolheu um modelo para o seu currículo. Na caixa de texto abaixo, escreva de
duas a três frases (40 a 60 palavras) em resposta a cada uma das perguntas a seguir:
O que você mais gostou no modelo de currículo que escolheu?
Houve algum outro modelo que chamou sua atenção?
O que você mudaria no modelo que escolheu para ajudar a destacar suas habilidades e experiências relevantes para
possíveis empregadores?
No modelo de currículo que escolhi, gostei especialmente da sua organização e clareza. Ele apresenta de forma concisa as
seções relevantes, destacando minhas informações pessoais, habilidades, experiências e educação de maneira visualmente
atraente e fácil de ler.
Enquanto explorava outros modelos, um em particular chamou minha atenção devido ao seu design moderno e criativo. Ele
utilizou elementos gráficos e infográficos para destacar as habilidades e experiências de maneira visualmente impactante.
Se eu precisar modificar o modelo escolhido para destacar minhas habilidades e experiências relevantes para os
empregadores, eu consideraria adicionar uma seção de destaque no topo do currículo, destacando as conquistas e
habilidades mais relevantes. Além disso, poderia incorporar gráficos ou estatísticas para visualizar dados quantificáveis
 relacionados às minhas tripulantes profissionais, tornando-as mais impactantes e fáceis de serem assimiladas pelos
recrutadores.
Correto - Parabéns por concluir esta atividade prática! Nesta atividade, você escolheu um modelo de currículo com base em suas
necessidades e preferências estéticas. Uma boa resposta descreveria de que maneira o modelo do currículo que você escolheu é mais
adequado para suas necessidades. O modelo de currículo mais adequado para você dependerá de fatores pessoais. Tendo experiência
profissional específica no assunto ou fazendo uma transição de outra carreira para a área de Data Analytics, você deve escolher o melhor
modelo para enfatizar seu histórico.
5.2 - COMPREENDER OS ELEMENTOS DO CURRÍCULO DE UM ANALISTA DE DADOS
VÍDEO - COMO CRIAR UM CURRÍCULO QUE SE DESTACA - Que bom ver você de novo. Montar um currículo forte é uma excelente
maneira de encontrar sucesso na sua busca por emprego. Você já teve a chance de começar a montar o seu currículo, e agora
daremos o próximo passo mostrando a você como refinar o seu currículo para os empregos na área de Data Analytics. Vamos começar.
Para a área de Data Analytics, uma das coisas mais importantes que seu currículo deve fazer é mostrar que você se comunica de
forma clara. As empresas que estão buscando analistas querem saber se as pessoas que elas contratam conseguem fazer a análise,
mas se também podem explicá-la para qualquer público de forma clara e direta. Seu primeiro público como analista de dados
provavelmente serão os recrutadores e gerentes de contratação. Ser direto e coerente em seu currículo também criará uma boa
vantagem com eles. Vamos começar com a seção do sumário. Embora não seja necessário incluir muitos detalhes nessa seção sobre
qualquer uma de suas experiências de trabalho, esse é um bom lugar para indicar se você está fazendo uma transição para uma nova
carreira. Você pode acrescentar algo como “fazendo uma transição de carreira na indústria automotiva e buscando um cargo de
período integral no setor de Data Analytics”. Uma estratégia que você pode usar em seu sumário e ao longo de seu currículo é o
método P-A-R, ou as descrições PAR. PAR significa Problema, Ação, Resultado. Esta é uma ótima maneira de ajudá-lo a escrever
de forma clara e concisa. Ao invés de escrever algo como “responsável por escrever dois posts de blog por mês”, você diria
“conquistou para um site pouco conhecido mais de 2.000 novos cliques por meio de postagens de blog estratégicas”. O
problema é o fato de o site ser pouco conhecido. A ação estratégica é a postagem estratégica no blog. E o resultado são os 2.000
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
novos cliques. O acréscimo de descrições do tipo PAR às descrições de cargos ou à seção de habilidades pode ajudar na organização
e consistência do seu currículo. Elas definitivamente me ajudaram quando mudei de emprego. Falando na seção de habilidades,
certifique-se de incluir todas as habilidades e qualificações que você adquiriu ao longo deste curso e de forma autônoma. Você não
precisa ser super técnico. Mas falar sobre sua experiência com planilhas, SQL, Tableau, e R, que é uma linguagem de programação
sobre a qual falaremos adiante, irá melhorar seu currículo e suas chances de conseguir um trabalho. Se você estiver listando as
qualificações ou habilidades, você pode incluir um espaço para as linguagens de programação e, depois, listar o SQL e o R, que fazem
parte do Certificado de Data Analytics do Google. Você pode incluir as principais funções, os pacotes ou fórmulas com os quais você
está confortável dentro de cada uma delas. Também faz sentido incluir habilidades que você adquiriu em relação a planilhas, como as
tabelas dinâmicas. Tabelas dinâmicas, SQL, R, e muitos outros termos dos quais falamos aqui podem fazer com que você seja notado
pelos recrutadores e gerentes de contratação. Mas, definitivamente, você deve fazer com que seu currículo represente de forma
precisa suas habilidades e capacidades. Inclua essas habilidades somente após ter completado esta certificação. Quando você
começar a aplicar as ideias sobre as quais falamos aqui ao seu currículo você estará no caminho certo para se diferenciar dos outros
candidatos. Após completar seu curso final, você terá a oportunidade de realizar um estudo de caso e inseri-lo em seu currículo. Essa
será uma ótima oportunidade de mostrar aos recrutadores e gerentes de contratação as habilidades que você aprendeu durante o
treinamento para sua certificação. Antes que perceba, você terá um currículo excelente que poderá atualizar rapidamente, sempre que
estiver buscando um emprego como analista de dados. Não tem nada de errado nisso. A seguir, falaremos mais sobre acrescentar
experiências ao seu currículo. Até a próxima!
VÍDEO - COMO CRIAR UM CURRÍCULO QUE SE DESTACA - Olá, meu nome é Joseph. Analista de pessoas no Google. Como
analista de pessoas, meu trabalho é trabalhar com executivos e parceiros de negócios de RH para usar dados para tomar decisões
informadas sobre as pessoas. A inclusão é essencial para o trabalho que fazemos. Conforme sabemos, às vezes podemos começar
com dados e ter nosso próprio viés em relação a eles. Para os que trabalham neste campo tão sensível, é necessário contar com um
conjunto diversificado de pessoas com históricos muito diversos para ter esse olhar sobre os dados. Como profissional negro, posso
contar melhor uma história sobre pessoas negras, já que é muito mais pessoal para mim. Como analista, preciso pegar os dados e
contar uma história com eles. Pessoalmente, sou muito apaixonado por esse espaço de aumentar a representatividade no setor de
tecnologia. Por exemplo, fora do trabalho, eudirijo uma ONG chamada Sankofa Tech. Nossa meta é basicamente ajudar a desenvolver
a próxima geração de engenheiros negros que possam estar neste campo e representar nossa experiência no uso de dados como
base e oferecer tecnologia como fator de propulsão daqui em diante. É muito importante ter mais pessoas negras no setor de
tecnologia. Como todos sabem, nos próximos 10 a 20 anos IA e machine learning serão como falar inglês neste país e no mundo
todo. Portanto, quanto mais pessoas negras houver neste campo, mais elas serão representadas nos produtos que estão sendo
desenvolvidos e mais nossas experiências influenciarão cada produto desenvolvido pelas empresas. É imprescindível ter mais
engenheiros negros, mais cientistas de dados negros para fazer a análise e simplesmente analistas de dados negros que ajudem a
contar uma história que inclua também nossas experiências. Definitivamente, é essencial que tenhamos pessoas de diferentes
origens, cores e credos para realmente entender os dados, criar uma conexão com eles e contar a história de uma maneira muito
pessoal para nosso público.
Recursos do CareerCon no YouTube
A indústria de Data Analytics está sempre em transformação e constantemente buscando melhorar sua diversidade. O
Google se orgulha de apoiar uma educação abrangente e um ambiente mais inclusivo para todos os nossos aprendizes.
Os recursos de CareerCon da Kaggle são para todos os interessados na carreira de analista de dados.
O que é CareerCon?
Você já teve vontade de entrar na mente de um analista de dados? O CareerCon da Kaggle é um evento digital anual e
gratuito cujo objetivo é ajudar os novos analistas de dados a encontrarem seu primeiro emprego no ramo. As sessões
gravadas da CareerCon oferecem uma grande quantidade de conhecimento em primeira mão e conselhos de especialistas
dos principais analistas de dados e gerentes de contratação, por meio de seminários, workshops de programação e
conselhos voltados para o currículo. Embora os recursos oferecidos sejam voltados para os cientistas de dados, os
princípios e diretrizes são, ainda assim, semelhantes aos que os analistas de dados podem esperar em suas carreiras.
Informações importantes sobre a CareerCon
Provavelmente em virtude da COVID-19, a CareerCon 2019 foi a última edição do evento. No momento em que esse texto
foi escrito, não havia planos divulgados para eventos futuros da CareerCon.
Recursos da CareerCon 2019
Navegue pelas sessões completas da CareerCon 2019.
Lembre-se de conferir Análise de portfólios e currículos com gerentes de contratação de Ciência de Dados: Um painel com
gerentes de contratação discute o que eles estão buscando nos candidatos e como examinam diferentes currículos
https://www.youtube.com/playlist?list=PLqFaTIg4myu-npFrYu6cO7h7AI6bkcOlL
https://www.youtube.com/watch?v=cBbYhhH399c&list=PLqFaTIg4myu-npFrYu6cO7h7AI6bkcOlL&index=8
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
enviados por candidatos como você. Aprenda com os erros dos outros e saia na frente adaptando seu currículo/portfólio
para evitar os erros observados e se beneficiar dos acertos que outros candidatos fizeram em seus currículos.
Destaques da CareerCon 2018
Como desenvolver um portfólio e currículo convincente em Ciência de Dados: Um gerente de contratação da Quora revisa
currículos reais de candidatos a vagas de Ciência de Dados e dá um feedback sincero sobre as áreas de melhoria.
Aprenda o que incluir e omitir do seu currículo e portfólio, bem como dicas de formatação. Com isso, você saberá, em
primeira mão, o que os gerentes de contratação estão buscando ao revisar seu currículo e portfólio.
Visão geral do Processo de entrevistas no setor de Ciência de Dados: Os gerentes de contratação do Google conversam
sobre entrevistas típicas para cargos de Ciência de Dados, incluindo as habilidades técnicas e comportamentais que você
deverá priorizar. Você terá uma ideia melhor do processo de entrevista de ambos os lados e poderá se preparar melhor
para o que esperar durante uma entrevista para um cargo de Ciência de Dados.
Live respondendo às perguntas comuns de entrevistas na área de Ciência de Dados: Assista a uma entrevista fictícia para
ver como um cientista de dados da Kaggle responde a perguntas durante uma entrevista na área de Ciência de Dados. O
vídeo também inclui programação em tempo real! Esse vídeo é uma excelente preparação para algumas das perguntas
mais comuns feitas durante entrevistas da área de Ciência de Dados.
Eu sou bom para o cargo? Identificando as Melhores oportunidades de emprego na área de Ciência de Dados: Já
imaginou onde você se encaixará em sua carreira, no futuro? Esse bate-papo com Jessica Kirkpatrick, gestora de
inteligência, oferece um excelente detalhamento dos diversos tipos de categorias dentro do mercado de trabalho de
Ciência de Dados, os diversos tipos de oportunidades de trabalho que você pode encontrar, e como você pode adaptar seu
histórico profissional e suas habilidades de uma outra carreira para se encaixar no mercado de trabalho na área de
Ciência de Dados.
Histórias reais de um painel de pessoas que tiveram sucesso na transição de carreira: Você está fazendo uma transição
na carreira? Ótimo! Aprenda com as pessoas que passaram pela mesma situação que você e tiveram sucesso em suas
transições de carreira para a área de Ciência de Dados. Esse painel discute as diferentes experiências nas carreiras e nas
vidas dos participantes que os fizeram mudar para a área de Ciência de Dados.
Atividade prática: Adicionar habilidades em um currículo
Visão geral da atividade
Na última atividade, você escolheu um formato para o seu currículo. Agora, você irá trabalhar no seu currículo,
adicionando informações sobre você, bem como as habilidades próprias para o trabalho que você desenvolveu ao longo
deste programa! Ao completar esta atividade, você será capaz de criar um documento que descreve suas habilidades,
experiências e conquistas. Isso é muito importante para se candidatar a vagas de analista de dados.
O que você vai precisar
Para começar, abra o modelo de currículo que escolheu na atividade anterior. Caso não consiga encontrar o modelo
escolhido, você pode acessar os modelos de resumo abaixo.
Para usar os modelos deste item do curso, clique nos links abaixo e selecione “Usar modelo”.
Link para o modelo de currículo 1: Modelo de currículo 1
Link para o modelo de currículo 2: Modelo de currículo 2
Adicionar habilidades ao seu currículo
Espera-se que os analistas de dados tenham sólidas habilidades e capacidades técnicas, por isso destacar de forma
eficaz estas habilidades é uma parte crucial da elaboração do seu currículo. Para essa atividade, concentre-se em suas
habilidades. Não se preocupe em acrescentar sua experiência profissional ainda; você fará isso em uma atividade
posterior.
https://www.youtube.com/watch?v=xrhPjE7wHas&list=PLqFaTIg4myu-dNobDHQZPrD2wH27PthCG
https://www.youtube.com/watch?v=X6orAXDIrds&list=PLqFaTIg4myu-dNobDHQZPrD2wH27PthCG&index=5
https://www.youtube.com/watch?v=aXUsrKPTBvY&list=PLqFaTIg4myu-dNobDHQZPrD2wH27PthCG&index=6
https://www.youtube.com/watch?v=0W0Zrc-m5r8&list=PLqFaTIg4myu-dNobDHQZPrD2wH27PthCG&index=2
https://www.youtube.com/watch?v=iP0Fxg4oqUQ&list=PLqFaTIg4myu-dNobDHQZPrD2wH27PthCG&index=8
https://docs.google.com/document/d/1qn_zOg-0E7pca6bEk6BGIEBNBuIZdiPnwOTKm76Q-jA/template/preview
https://docs.google.com/document/d/1l-aMPMNRxZ0zSOQcNGg4jMqQO5FW1coZiV2m7jz6CFw/template/preview
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Obtenha ajuda no mundo real
Sempre é uma ótima ideia revisar currículos reais. Isso o ajuda a ter uma noção sobre como as outras pessoas do setor
estão representando sua experiência e suas habilidades. Você pode encontrar currículos em sites de emprego e no
LinkedIn, ou mesmo buscando “currículo de analista de dados”. Existem diversas maneiras de representar suas
habilidades técnicas, e você pode ter ótimas ideias tirando um tempo para entender como outros analistas de dados fazem
isso!
Quais habilidades adicionar
Na seção de habilidades

Mais conteúdos dessa disciplina