Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
SEMANA 1 - TIPOS E ESTRUTURAS DE DADOS
EXPLORAÇÃO DE DADOS
VÍDEO - INTRODUÇÃO A EXPLORAÇÃO DE DADOS - Imagine isso: quando você trabalha em um produto, você fez todas as
perguntas certas, aplicou o pensamento estruturado e você está totalmente em sincronia com suas partes interessadas. Você começou
muito bem. Mas há outra etapa no processo: preparar os dados corretamente. É aqui que se compreende os diferentes tipos de dados
e as estruturas de dados entram. Saber disso permite que você descubra que tipo de dados é certo para a pergunta que você está
respondendo. Além disso, você ganhará habilidades práticas sobre como extrair, usar, organizar e proteger seus dados. Ei, meu nome
é Hallie e sou um líder analítico no Google. Eu trabalho com empresas do setor de saúde. Estou muito feliz em recebê-lo neste curso.
Você tem aprimorado suas habilidades de analista de dados de várias maneiras diferentes até agora. Você aprendeu como fazer as
perguntas certas, definir o problema e apresentar sua análise de uma forma que corresponda às necessidades das partes
interessadas. Em outras palavras, você aprendeu como contar uma história usando dados. Agora aprenderemos mais sobre os dados
que você precisará para contar a melhor história possível. Mas antes de fazermos isso, adoraria contar minha história. Eu uso análises
para ajudar empresas de saúde a desenvolver soluções de marketing digital que fortalecem seus negócios e suas marcas. Minha
equipe e eu encontramos negócios e oportunidades de mídia com base nas informações mais recentes do setor e de dados. Trabalho
na área da saúde há cerca de cinco anos e é ótimo. Eu realmente gosto de poder usar dados para ajudar a desencadear mudanças em
uma indústria tão importante. Como você descobrirá neste curso, os dados podem ser o personagem principal em uma história muito
poderosa. Eu absolutamente amo usar a análise para contar essa história de uma maneira que seja atraente e informativa. Aqui está
um exemplo da vida real de como usei dados para contar uma história. Em meu trabalho, analisamos os dados de inscrição do
Medicare ao longo do tempo e fazemos conexões com a forma como as pessoas pesquisam os planos do Medicare no Google. À
medida que pessoas com 65 anos ou mais se tornam tomadores de decisão mais informados sobre sua saúde, Eu uso os dados para
saber se há um aumento nas inscrições do Medicare e que papel as buscas do Google desempenham se houver um aumento na
demanda. Agora é muito importante ter certeza de que os dados são relevantes e válidos. Eu também tenho que prestar atenção às
perguntas sobre acesso e equidade, mantendo a privacidade daqueles que conduzem as pesquisas. O final feliz da minha história é
que os dados das minhas descobertas são úteis para profissionais médicos e seus pacientes. Existem tantos dados úteis por aí, e
você está desenvolvendo as habilidades de que precisa para encontrar e usar os dados certos da melhor maneira. Neste curso, você
continuará aprimorando essas habilidades. Então, você já ouviu muito sobre as etapas do processo de análise de dados: Pergunta,
preparação, processamento, análise, compartilhamento e ação. Agora é hora de aprender como preparar os dados. Você aprenderá a
identificar como os dados são gerados e coletados, e você explorará diferentes formatos, tipos e estruturas de dados. Garantiremos
que você saiba como escolher e usar dados que o ajudarão a compreender e responder a um problema de negócios. E como nem
todos os dados atendem a cada necessidade, você aprenderá como analisar dados para viés e credibilidade. Também exploraremos o
que significa dados limpos. Mas espere, tem mais. Você também ficará mais próximo dos bancos de dados. Abordaremos o que são e
como os analistas os usam. Você ainda poderá extrair seus próprios dados de um banco de dados usando algumas ferramentas com
as quais você já está familiarizado: planilhas e SQL. A chave aqui é paciência. Como qualquer coisa que valha a pena fazer, isso
exigirá tempo e prática. E estarei com você em cada passo do caminho. Ainda comigo? Ótimo. As últimas coisas que abordaremos
são os fundamentos da organização de dados e o processo de proteção de seus dados. Os dados funcionam melhor quando estão
organizados. E se você estiver organizando seus dados, você também vai querer protegê-los. Vou mostrar como fazer os dois e
aplicá-los à sua própria análise. Estou muito animado para ajudá-lo a escrever sua própria história pessoal enquanto você continua
explorando o mundo da análise de dados. Então, vamos começar.
Plano de estudos do curso
1. Fundamentos: Dados, dados, em todos os lugares
2. Fazer perguntas para tomar decisões com base em dados
3. Preparar os Dados para Exploração (este curso)
4. Processar os dados para limpá-los
5. Analisar os dados para responder às perguntas
6. Compartilhar os dados com a arte da visualização
7. Análise de dados com programação em R
8. Google Data Analytics Capstone:Conclua um Estudo de Caso.
Seja bem-vindo ao segundo curso de
Certificado de Análise de Dados do Google! Até agora, você foi apresentado ao campo da análise de dados e descobriu
como os analistas de dados podem usar suas habilidades para responder a perguntas de negócios. Como analista de
dados, você precisa ser um especialista em estruturar, extrair e certificar-se de que os dados com os quais está
https://www.coursera.org/learn/fundamentos-dados-dados-em-todos-os-lugares/home/week/1
https://www.coursera.org/learn/fazer-perguntas-para-tomar-decisoes-com-base-em-dados/home/welcome
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/home/welcome
https://www.coursera.org/learn/analisar-os-dados-para-responder-as-perguntas/home/welcome
https://www.coursera.org/learn/compartilhar-os-dados-com-a-arte-da-visualizacao/home/welcome
https://www.coursera.org/learn/analise-de-dados-com-programacao-em-r/home/welcome
https://www.coursera.org/learn/projeto-final-conclua-um-estudo-de-caso/home/welcome
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
trabalhando são confiáveis. Para fazer isso, é sempre melhor desenvolver uma ideia geral de como todos os dados são
gerados e coletados, uma vez que cada organização estrutura os dados de maneira diferente. Então, não importa a
estrutura de dados com a qual você se depara em sua nova função, você se sentirá confiante para trabalhar com ela.
Você logo descobrirá que, quando os dados são extraídos, eles não são perfeitos. Pode ser tendencioso em vez de
verdadeiro, ou sujo em vez de limpo. Seu objetivo é aprender como analisar os dados quanto para preconceitos e
credibilidade e para entender o que significa dados limpos. Você também ficará mais próximo dos bancos de dados e
poderá até mesmo extrair seus próprios dados de um banco de dados usando planilhas e SQL. Os últimos tópicos
abordados são os fundamentos da organização de dados e o processo de proteção de seus dados.
E você aprenderá como identificar diferentes tipos de dados que podem ser usados para entender e responder a um
problema de negócios. Nesta parte do programa, você explorará diferentes tipos de dados e estruturas de dados. E o
melhor de tudo, você continuará adicionando itens à sua caixa de ferramentas de analista de dados! Da extração e uso de
dados à organização e proteção, essas habilidades-chave serão úteis, não importa o que você esteja fazendo em sua
carreira como analista de dados.
Conteúdo do curso
Curso 3 – Preparar os Dados para Exploração
1. Entendendo tipos de dados e estruturas: Todos nós geramos muitos dados em nossas vidas diárias. Nesta
parte do curso, você verá como geramos dados e como os analistas decidem quais dados coletar para análise.
Você também aprenderá sobre dados estruturados e não estruturados, tipos e formatos de dados conforme
começa a pensar sobre como preparar seus dados para exploração.
2. Entendendo preconceitos, credibilidade, privacidade, ética e acesso: Quando os analistas de dados
trabalham com dados, eles sempre verificam se os dados são imparciais e confiáveis.Nesta parte do curso, você
aprenderá como identificar diferentes tipos de distorção nos dados e como garantir a credibilidade dos seus
dados. Você também explorará os dados abertos e a relação e a importância da ética dos dados e da privacidade
dos dados.
3. Bancos de dados: Onde os dados moram: Ao analisar dados, você acessa muitos dos dados de um banco de
dados. É onde vivem os dados. Nesta parte do curso, você aprenderá tudo sobre bancos de dados, incluindo
como acessá-los e extraí-los, filtrar e classificar os dados que eles contêm. Você também verificará os metadados
para descobrir os diferentes tipos e como os analistas os usam.
4. Organizando e protegendo seus dados: Excelentes habilidades de organização representam grande parte da
maioria dos tipos de trabalho, e com o data analytics isso não é diferente. Nessa parte do curso, falaremos sobre
as melhores práticas de organização de dados e como mantê-los seguros. Você também aprenderá como os
analistas usam convenções de nomenclatura de arquivo para ajudá-los a manter seu trabalho organizado.
5. Envolvimento na comunidade de dados (opcional): Ter uma forte presença online pode ser uma grande ajuda
para todos os tipos de candidatos a emprego. Nesta parte do curso, você explorará como gerenciar sua presença
online. Você também descobrirá os benefícios de trabalhar em rede com outros profissionais de análise de dados.
6. Conclusão do Desafio do Curso: Ao final deste curso, você poderá aplicar o que aprendeu no Desafio do Curso.
O Desafio do Curso fará perguntas sobre os conceitos-chave e, em seguida, dará a você a oportunidade de
colocá-los em prática conforme você passa por dois cenários.
O que esperar
Esta parte do programa foi projetada para familiarizá-lo com diferentes estruturas de dados e mostrar como coletar, aplicar,
organizar e proteger dados. Todas essas habilidades farão parte de suas tarefas diárias como analista de dados de nível
básico. Você trabalhará em uma ampla gama de atividades semelhantes às tarefas da vida real que os analistas de dados
enfrentam diariamente.
Este curso tem cinco módulos ou semanas, e cada um tem várias lições incluídas. Em cada lição, você encontrará
conteúdo como:
● Vídeos de instrutores ensinando novos conceitos e demonstrando o uso de ferramentas
● Perguntas em vídeo que surgem durante ou no final de um vídeo para verificar o seu aprendizado
● Textos para apresentar novas ideias e desenvolver os conceitos dos vídeos.
● Fóruns de discussões para discutir, explorar e reforçar novas ideias para uma melhor aprendizagem.
● Sugestões de discussão para promover o pensamento e o envolvimento nos fóruns de discussão.
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/discussions
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● Atividades práticas para apresentar situações do mundo real no trabalho e as ferramentas e tarefas para concluir
seus trabalhos
● Simulados para servir como preparação para os testes que valem nota.
● Testes que valem nota para medir seu progresso e oferecer um feedback valioso.
Atividades práticas que promovem mais oportunidades para desenvolver suas habilidades. Tente fazer o máximo possível
delas. As avaliações se baseiam na abordagem do curso para oferecer uma ampla variedade de materiais de aprendizado
e atividades que reforçam habilidades importantes. Os testes (com e sem nota) ajudarão a absorver o conteúdo. Os
simulados sem nota são uma oportunidade para você se preparar para os testes que valem nota. Os dois tipos de teste
podem ser feitos mais de uma vez. Como um rápido lembrete, este curso é projetado para todos os tipos de alunos, sem
necessidade de graduação ou experiência anterior. Todo mundo aprende de maneira diferente, então o Certificado de
Análise de Dados do Google foi desenvolvido com isso em mente. Os prazos personalizados são apenas um guia,
portanto, fique à vontade para trabalhar no seu próprio ritmo. Não há penalidade para os trabalhos atrasados. Se preferir,
você pode estender seus prazos voltando para Visão geral no painel de navegação e clicando em Alternar sessões. Se
você já perdeu os prazos anteriores, clique em Redefinir meus prazos. Se quiser revisar o conteúdo anterior ou dar uma
olhada no conteúdo que está por vir, você pode usar os links de navegação no topo desta página para ir para outro curso
do programa. Quando você passar em todos os trabalhos obrigatórios, estará no caminho certo para ganhar seu
certificado.
Atalho opcional para quem tem experiência em análise de dados
O Certificado de Análise de Dados do Google oferece instruções e feedback para alunos que querem conseguir uma
posição como analista de dados de nível básico. Muitos alunos são novos no mundo da análise de dados, mas outros
podem já estar familiarizados com a área e só quererem aperfeiçoar certas habilidades.
Se você acredita que este curso será principalmente uma atualização para você, recomendamos que você faça o teste de
diagnóstico prático (encontre-o no conteúdo desta semana). Isso permitirá que você determine se deve seguir o atalho,
que é uma oportunidade de prosseguir para o Curso 4 depois de ter realizado cada um dos Desafios Semanais do Curso 3
e o Desafio do Curso Geral. Os alunos que conseguirem 100% de pontuação no teste de diagnóstico poderão tratar os
vídeos, os textos e as atividades do Curso 3 como opcionais. Os alunos que seguirem o atalho ainda poderão receber o
certificado.
Dicas
● Faça o seu melhor para completar todos os itens em ordem. Todas as novas informações baseiam-se no
aprendizado anterior.
● Trate cada tarefa como se fosse uma experiência do mundo real. Tenha a mente de que você está trabalhando em
uma empresa ou em uma organização como analista de dados. Isso o ajudará a aplicar o que aprendeu neste
programa ao mundo real.
● Mesmo que eles não sejam avaliados, é importante completar todos os itens de prática. Eles o ajudarão a
construir uma base sólida como analista de dados e a prepará-lo melhor para as avaliações graduadas.
● Aproveite todos os recursos adicionais fornecidos.
● Quando você encontrar links úteis no curso, marque-os como favoritos para consultar as informações para estudo
ou revisão.
VÍDEO - IDÉIAS DE DADOS FASCINANTES - A saúde é um lugar realmente fascinante nos Estados Unidos. É uma indústria
realmente incrível para se trabalhar porque é tão historicamente tradicional, e empresas de saúde, ao contrário de outras empresas de
tecnologia, realmente não usaram dados para informar as decisões. Quando eu estava na faculdade, eu tive um professor que não
queria que tivéssemos livros porque ele disse que o setor de saúde estava mudando tão rapidamente, e não faria sentido ter um livro,
que é apenas um pedaço de texto estático quando as coisas estavam realmente evoluindo. Então, eu diria que saúde e dados e os
dois juntos são um conceito mais novo usando big data, usando aprendizado de máquina e inteligência artificial para ajudar as
indústrias de saúde. Comecei a analisar grandes somas de dados de pacientes. Essa foi a primeira vez que eu realmente trabalhei
com conjuntos de dados tão grandes, e eu achei realmente fascinante que nos podemos levar todos esses conjuntos de dados e
sintetizá-los e nos permitir realmente entregar alguns insights legais e tendências para nossos sistemas hospitalares. Essa foi a
primeira vez que comecei pensando sobre a análise dos dados, análise de dados, como uma carreira possível para mim. Isso é o que
realmente me trouxe a esta função analítica de liderança no Google, onde eu poderia assumir esse conhecimento e esse conjunto de
habilidades de analisar conjuntos de dados e fazer isso diariamente, então, realmente, todas as conversas que tive com o cliente era
uma conversa informada por dados. Eu trabalho na vertical de saúde. Temos empresas que comercializam em nossas plataformas,
como Google Search e YouTube. Nós os ajudamos a entender o setor de saúde para que eles possam melhor comercializar para o
público o que eles estão tentando alcançar. Quer você seja um segurador desaúde ou um provedor de cuidados de saúde, talvez um
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
sistema hospitalar, todos eles têm necessidades diferentes sobre como desejam alcançar seu público usando as plataformas do
Google. Nós os ajudamos a otimizar seus gastos com marketing, mas nós também fazemos muita pesquisa no setor de saúde.
Algumas pesquisas de usuários, alguns entendimentos de como os usuários são realmente apenas pesquisando no Google para lhes
dar uma noção do que realmente está acontecendo na indústria e como eles podem comercializar com eficácia. Eu diria que minhas
habilidades técnicas com análise de dados vieram com o tempo. A habilidade mais importante que encontrei, que também veio com o
tempo e cresceu comigo, é apenas o lado criativo da análise de dados. Quer dizer, você pode realmente aprender muitas das
habilidades de SQL e R, e sei que parte disso está dentro do curso. Mas, realmente, o lado da criatividade é algo que só vem com a
experiência. Quando você está olhando para um conjunto de dados, você pode olhar para isso e analisá-lo de uma maneira e então
pedir a outra pessoa para olhar ou você olhar para isso uma semana depois, e então, de repente, a tendência vista será
completamente diferente. Você tem que pegar muitas dessas peças de informações, essas pepitas, Eu gosto de chamá-los, e apenas
juntar uma narrativa muito boa usando dados. Esse conjunto de habilidades é algo que eu aprendi quando estava trabalhando em
consultoria, e eu levei isso para o Google e realmente fui capaz de polir muitas dessas habilidades e algumas das habilidades mais
técnicas. Lado técnico e criativo são o que aprendi a amar. Meu nome é Hallie. Sou um líder analítico no Google trabalhando
especificamente no setor de saúde.
Conhecer os colegas
Ao resolver um mistério, um detetive às vezes faz uma pergunta grande e crítica no início de sua investigação, depois
prossegue com perguntas menores. Outras vezes, o detetive começa com perguntas menores, que levam a uma pergunta
grande e crítica no final. De qualquer forma, o mistério está resolvido!
Para esta discussão, considere o seguinte:
Que tipo de detetive de dados você é?
Você tende a fazer uma grande pergunta primeiro?
Você prefere fazer pequenas perguntas e deixar que elas o levem à grande pergunta?
Escreva um pequeno parágrafo (50-100 palavras) descrevendo seus pensamentos sobre ser um detetive de dados. Em
sua resposta, inclua seu estilo preferido de questionamento. Por fim, acesse o fórum de discussão para ler o que outros
alunos escreveram e participe da discussão com, pelo menos, duas publicações.
Gosto bastante de pesquisar dados, então acho que sou um bom detetive de dados. Gosto de começar pela pergunta maior
primeiro e depois ir quebrando ela em perguntas menores e mais fáceis de responder.
Decidindo se você precisa pegar o atalho
Este texto fornece uma visão geral de um atalho que oferecemos para quem está familiarizado com análise de dados.
Se você é novo em análise de dados, pode pular o teste de diagnóstico após este texto e seguir diretamente para a
próxima atividade: Coleta de dados em nosso mundo.
O Certificado de Análise de Dados do Google é um programa para qualquer pessoa. Não é necessário ter experiência em
análise de dados. Mas pode ser que você já tenha alguma experiência. Se este é o seu caso, projetamos um atalho para
este curso. Os alunos que optarem pelo atalho poderão se atualizar sobre os tópicos básicos e superar cada um dos
desafios semanais e o Desafio do Curso em um ritmo mais rápido.
Para ajudar você a decidir se é uma boa opção usar o atalho deste curso, siga estas etapas:
1. Faça o teste de diagnóstico opcional.
2. Consulte o guia de pontuação para determinar se o atalho é uma boa opção para você. Uma pontuação de 90%
ou mais é a meta para usar o atalho.
3. Com base em sua pontuação individual, siga as recomendações do guia de pontuação para ver as próximas
etapas.
Lembrete importante: Se você tiver qualificação para usar o atalho, ainda será responsável pela conclusão de todas as
atividades que valerem nota. Para receber um certificado, você precisará de uma pontuação geral de 80% ou mais em
todos os materiais que valem nota no programa.
COLETA DE DADOS
VÍDEO - IDÉIAS DE DADOS FASCINANTES - No momento, os dados estão sendo gerados em todos os lugares do mundo e estamos
falando de toneladas de dados. A cada minuto de cada dia, milhões de textos e centenas de milhões de e-mails são enviados. Além
disso, milhões de pesquisas online são feitas e vídeos assistidos e esses números só estão crescendo. São muitos dados. Vamos
aprender mais sobre como ele é feito e usado. Neste vídeo, falaremos sobre como os dados podem ser gerados e como as próprias
indústrias coletam dados. Cada informação é um dado. Todos esses dados são geralmente gerados como resultado de nossa
atividade no mundo. Atualmente, passamos muito tempo online. Com mídia social e dispositivos móveis, milhões e milhões de
pessoas estão adicionando uma enorme quantidade de dados lá fora, todos os dias. Pense nisso desta maneira. Cada foto digital
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/lecture/QCPVt/coleta-de-dados-em-nosso-mundo
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/quiz/lV0eb/opcional-ja-conhece-analise-de-dados-faca-nosso-teste-de-diagnostico
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/supplement/EfmvJ/opcional-sua-pontuacao-no-teste-de-diagnostico-e-o-que-ela-significa
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
online é um dado. Cada foto contém ainda mais dados, do número de pixels para as cores contidas em cada um desses pixels. Mas
essa não é a única maneira pela qual os dados são produzidos. Também podemos gerar dados por meio da coleta de informações.
Esta geração de dados e a coleção vem com mais algumas coisas para se pensar. É necessário que seja feita levando em
consideração a ética para que possamos manter os direitos e a privacidade das pessoas. Aprenderemos mais sobre isso depois. Por
enquanto, vamos dar uma olhada em um exemplo do mundo real. O United States Census Bureau usa formulários de coleta de dados
sobre a população do país. Esses dados são usados por vários motivos, como financiamento para escolas, hospitais e bombeiros. O
Bureau também coleta informações sobre coisas como negócios nos EUA, criando seus próprios dados no processo. A melhor coisa
sobre isso é que outros podem usar os dados para suas próprias necessidades, incluindo análises. A pesquisa anual de negócios é
usada para descobrir as necessidades de negócios e como fornecer com recursos para ajudá-los a ter sucesso. Na verdade, eu gero
dados nas análises que faço para o setor de saúde. Realizamos muitas pesquisas para saber como os pacientes se sentem sobre
certas coisas relacionadas aos seus cuidados de saúde. Por exemplo, uma pesquisa perguntou como os pacientes se sentem sobre
telemedicina versus visitas ao médico em pessoa. Os dados que coletamos ajudam as empresas com quem trabalhamos a melhorar o
atendimento que seus pacientes recebem. Os dados da pesquisa são apenas um exemplo. Existem todos os tipos de dados sendo
gerados o tempo todo, e há muitas maneiras diferentes de coletá-los. Algo tão simples como uma entrevista pode ajudar alguém a
coletar dados. Imagine que você está em uma entrevista de emprego. Para impressionar o gerente de contratação, você deseja
compartilhar informações sobre você. O gerente de contratação coleta esses dados e analisa para ajudá-los a decidir se deve
contratá-lo ou não. Mas é para os dois lados. Você também pode coletar seus próprios dados sobre a empresa para ajudá-lo a decidir
se a empresa é uma boa opção para você. Ou você pode usar os dados que coletou para chegar com perguntas bem pensadas para
fazer ao entrevistador. Os cientistas também geram dados. Eles usam muitas observações em seu trabalho. Por exemplo, eles podem
coletar dados estudando comportamento animal ou olhar em bactérias sob um microscópio. Anteriormente, falamos sobreos
formulários que os E.U.A O Census Bureau usa para coletar dados. Formulários, questionários e pesquisas são formas
comumente usadas para coletar e gerar dados. Uma coisa a observar: dados que são gerados online nem sempre acontecem
diretamente. Você já se perguntou por que alguns anúncios online parecem fazer sugestões realmente precisas ou como alguns sites
lembram suas preferências? Isso é feito usando cookies, que são pequenos arquivos armazenados em computadores que
contêm informações sobre os usuários. Os cookies podem ajudar a informar os anunciantes sobre seus interesses pessoais e
hábitos baseados em sua navegação online, sem identificá-lo pessoalmente. Como analista do mundo real, você terá todos os tipos de
dados diretamente na ponta dos dedos e muito também. Saber como ele foi gerado pode ajudar a adicionar contexto aos dados, e
saber como coletá-lo pode tornar o processo de análise de dados mais eficiente. A seguir, você aprenderá como decidir quais dados
coletar para sua análise. Então, prepare-se.
VÍDEO - IDÉIAS DE DADOS FASCINANTES - Olá mais uma vez. Conversamos muito sobre todos os dados que existem no mundo.
Mas como analista de dados, você precisará decidir que tipo de dados deve-se coletar e usar para cada projeto. Com uma quantidade
quase infinita de dados lá fora, isso pode ser um pouco próximo de um dilema de dados, mas há boas notícias. Neste vídeo, você
aprenderá quais fatores considerar ao coletar dados. Normalmente, você terá uma vantagem em descobrir os dados certos para o
trabalho, porque os dados de que você precisa serão fornecidos a você, ou sua tarefa ou problema de negócios irá restringir suas
escolhas. Vamos começar com uma pergunta como, o que está causando o aumento do tráfego na hora do rush em sua cidade?
Primeiro, você precisa saber como os dados serão coletados. Você pode usar observações de padrões de tráfego para contar o
número de carros nas ruas da cidade durante momentos específicos. Você percebe que os carros estão recebendo backup em uma rua
específica. Isso nos leva às fontes de dados. Em nosso exemplo de tráfego, suas observações seriam dados primários. Estes são
os dados coletados por um indivíduo ou grupo usando seus próprios recursos. A coleta de dados primários é normalmente o
método preferido porque você sabe exatamente de onde veio. Você também pode ter dados de terceiros, que são dados coletados
por um grupo diretamente de seu público e depois vendidos. Em nosso exemplo, se você não for capaz de coletar seus próprios dados,
você pode comprá-los de uma organização que está conduzindo estudos de padrões de tráfego em sua cidade. Esses dados não
começaram com você, mas ainda é confiável porque veio de uma fonte com experiência em análise de tráfego. O mesmo nem sempre
pode ser dito sobre dados de terceiros ou dados coletados de fontes externas que não coletaram diretamente. Esses dados podem ter
vindo de várias fontes diferentes antes de você investigá-lo. Pode não ser tão confiável, mas isso não significa que não possa ser útil.
Você só vai querer ter certeza de verificar se há precisão, parcialidade e credibilidade. Na verdade, não importa que tipo de dados
você usa, eles precisam ser inspecionados com precisão e confiabilidade. Aprenderemos mais sobre isso depois. Por enquanto,
lembre-se de que os dados que você escolher devem se aplicar às suas necessidades e devem ser aprovados para uso. Como analista
de dados, é sua função decidir quais dados usar, e isso significa escolher os dados que podem ajudá-lo a encontrar respostas e
resolver problemas e não se distrair com outros dados. Em nosso exemplo de tráfego, dados financeiros provavelmente não seriam tão
úteis, mas os dados existentes sobre tempos de tráfego de alto volume seriam. Ok. Agora vamos falar sobre quantos dados coletar. Na
análise de dados, uma população se refere a todos os valores de dados possíveis em um determinado conjunto de dados. Se você
estiver analisando dados sobre o tráfego de carros em uma cidade, sua população seria todos os carros daquela área. Mas a coleta de
dados de toda a população pode ser bastante desafiadora. É por isso que uma amostra pode ser útil. Uma amostra é parte de uma
população que é representativa da população. Você pode coletar uma amostra de dados sobre um ponto na cidade e analisar o trânsito
lá, ou você pode puxar uma amostra aleatória de todos os dados existentes na população. A forma que você escolhe sua amostra
dependerá do seu projeto. Conforme você coleta dados, você também vai querer certificar-se de selecionar o tipo de dados correto.
Para dados de tráfego, um tipo de dados apropriado poderia ser as datas dos registros de tráfego armazenados em um formato date.
As datas podem ajudá-lo a descobrir que dias da semana tem provavelmente será um grande volume de tráfego no futuro.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Exploraremos este tópico com mais detalhes em breve. Finalmente, você precisa determinar o prazo para a coleta de dados. Em nosso
exemplo, se você precisasse de uma resposta imediatamente, você teria que usar dados históricos, que são dados que já existem.
Mas digamos que você precise rastrear padrões de tráfego durante um longo período de tempo. Isso pode afetar as outras decisões
que você faz durante a coleta de dados. Agora que você sabe mais sobre as diferentes considerações de coleta de dados que você
usará como analista de dados. Por causa disso, você será capaz de encontrar os dados corretos quando você começar a coletá-los
sozinho. Ainda há mais para aprender sobre coleta de dados, portanto, fique atento.
Selecionando os dados certos
A seguir estão algumas considerações de coleta de dados a serem lembradas para sua análise:
Como os dados serão coletados
Decida se você coletará os dados usando seus próprios recursos ou se os receberá (e possivelmente os comprará) de
outra parte. Os dados que você mesmo coleta são chamados de dados primários.
Fontes de dados
Se você não coletar os dados usando seus próprios recursos, poderá obter dados de provedores de dados terceirizados.
Os dados de terceiros são coletados diretamente por outro grupo e, em seguida, vendidos. Os dados de terceiros são
vendidos por um provedor que não os coletou. Os dados de terceiros podem vir de várias fontes diferentes.
Resolvendo seu problema de negócios
Os conjuntos de dados podem mostrar muitas informações interessantes. Porém certifique-se de escolher dados que
possam realmente ajudar a resolver sua dúvida do problema. Por exemplo, se você estiver analisando tendências ao longo
do tempo, certifique-se de usar dados de série temporal — em outras palavras, dados que incluem datas.
Quantos dados coletar
Se você estiver coletando seus próprios dados, tome
decisões razoáveis sobre o tamanho da amostra. Uma
amostra aleatória de dados existentes pode ser adequada
para alguns projetos. Outros projetos podem precisar de
coleta de dados mais estratégicos para se concentrar em
determinados critérios. Cada projeto tem suas próprias
necessidades.
Prazo
Se você estiver coletando seus próprios dados, decida
quanto tempo precisará coletá-los, especialmente se estiver
acompanhando tendências por um longo período. Se
precisar de uma resposta imediata, você pode não ter
tempo para coletar novos dados. Nesse caso, você
precisaria usar dados históricos já existentes.
Use o fluxograma abaixo se a coleta de dados depende
muito de quanto tempo você tem:
Teste seus conhecimentos sobre a coleta de dados
Pergunta 1: Qual método de coleta de dados é mais comumente usado pelos cientistas?
Observações
Pesquisas
Questionários
Entrevistas
Correto
A observação é o método de coleta de dados mais usado pelos cientistas.
Pergunta 2 : Organizações como os EUA Os Centros de Controle de Doenças (CDC) costumam usar dados coletados em
hospitais. Que tipo de dados o CDC está usando se forem coletados por hospitais e depois vendidos ao CDC para sua própria
análise?
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Dados de terceiros
Dados primários
Dados de secundáriosDados de várias partes
Correto
Os dados coletados por hospitais e, em seguida, coletados pelo CDC, são um exemplo de dados secundários.
.
Pergunta 3: Preencha a lacuna: Na análise de dados, um(a) _____ se refere a todos os valores de dados possíveis em um
determinado conjunto de dados.
fonte
amostra
população
representação
Correto
Na análise de dados, uma população se refere a todos os valores de dados possíveis em um determinado conjunto de dados.
DIFERENCIE FORMATOS E ESTRUTURAS DE DADOS
VÍDEO - DESCUBRA FORMATOS DE DADOS - Eu não sei sobre você, mas quando estou escolhendo um filme para assistir, às vezes
fico preso entre algumas opções. se eu estiver com vontade de excitação ou suspense, Eu escolheria um thriller, mas se eu precisar de
uma boa risada, Eu escolho uma comédia. Se eu realmente não consigo decidir entre dois filmes, eu posso até usar algumas minhas
habilidades de análise de dados para compará-los e contrastá-los. Pensando nisso, realmente precisa haver mais filmes sobre
analistas de dados. Eu assistiria isso, mas desde que não podemos assistir a um filme sobre dados, pelo menos ainda não, vamos
fazer a próxima melhor coisa: assistir a dados sobre filmes! Vamos dar uma olhada nessa esta planilha com dados do filme. Sabemos
que podemos comparar diferentes filmes e gêneros de filmes. Acontece que você pode fazer o mesmo com formatos de dados e
dados. Vamos usar nosso filme planilha de dados para entender como isso funciona. Começaremos com dados quantitativos e
qualitativos. Se verificarmos a coluna A, encontramos títulos dos filmes. Isso é um dado qualitativo porque não pode ser contado,
medido ou facilmente expresso usando números. Os dados qualitativos são geralmente listados como um nome, categoria ou
descrição. Em nossa planilha, os títulos dos filmes e os membros do elenco são dados qualitativos. O próximo passo são os dados
quantitativos, que podem ser medidos ou contados e depois expressos como um número. Esses são dados com uma certa quantidade,
tanto ou intervalo. Em nossa planilha aqui, as duas últimas colunas mostram os filmes, orçamento e receita de revenda. Os dados
nessas colunas estão listados em dólares, que pode ser contado, para que saibamos que os dados são quantitativos. Podemos ir ainda
mais fundo em dados quantitativos e divida-o em dados discretos ou contínuos. Vamos conferir dados discretos primeiro. Esses
são os dados que são contados e tem um número limitado de valores. Voltando à nossa planilha, encontraremos o orçamento de
cada filme e devoluções de bilheteria nas colunas M e N. Estes são exemplos de dados discretos que podem ser contados e têm um
número limitado de valores. Por exemplo, a quantidade de dinheiro que um filme faz que só pode ser representado com exatamente
dois dígitos depois do decimal para representar centavos. Não pode haver nada entre um e dois centavos. Os dados contínuos
podem ser medidos usando um temporizador e seus valores podem ser exibidos como um decimal com várias casas. Vamos
imaginar um filme sobre analistas de dados que eu definitivamente vou estrelar algum dia. Você poderia expressar esse tempo de
execução do filme como 110.0356 minutos. Você pode até adicionar dados fracionários depois do ponto decimal se você precisasse.
Também há dados nominais e ordinais. Os dados nominais são um tipo de dados qualitativos que são categorizados sem uma
ordem definida. Em outras palavras, esses dados não tem uma sequência. Aqui está um exemplo rápido. Digamos que você
esteja coletando dados sobre filmes. Você pergunta às pessoas se elas assistem a um determinado filme. Suas respostas estariam na
forma dos dados nominais. Eles poderiam responder “Sim” “Não” ou “Não tenho certeza.” Essas opções não têm um pedido específico.
Os dados ordinais, por outro lado, é um tipo de dados qualitativos com uma ordem ou escala definida. Se você perguntasse a
um grupo de pessoas para classificar um filme de 1 a 5, alguns podem classificá-lo como um 2, outros um 4, e assim por diante. Essas
classificações estão em ordem de quanto cada um gostou do filme. Agora vamos falar sobre dados internos, que são os dados que
residem os próprios sistemas de uma empresa. Por exemplo, se um estúdio de cinema tivesse compilado todos os dados na
planilha usando só o seu próprio métodos de coleta, então seria seus dados internos. A grande coisa sobre dados internos é que eles
são geralmente mais confiáveis e mais fáceis de coletar, mas nesta planilha, é mais provável que o estúdio de cinema teve que usar
dados próprios ou compartilhados por outros estúdios e recursos porque inclui filmes que eles não fizeram. Isso significa que eles
estariam coletando dados externos. Os dados externos são, você adivinhou, dados que existem e são gerados fora de uma
organização. Os dados externos se tornam particularmente valiosos quando sua análise depende de tantas fontes quanto possível.
Uma ótima coisa sobre esses dados é que eles estão estruturados. Dados estruturados são dados que estão organizados em um
determinado formato, tais como linhas e colunas. Planilhas e bancos de dados relacionais são dois exemplos de software que
podem armazenar dados de forma estruturada. Você deve se lembrar da nossa exploração anterior de pensamento estruturado, o qual
ajuda você a adicionar uma estrutura para um problema para que você possa resolvê-lo de uma forma organizada e lógica. Você pode
pensar em estruturar dados da mesma forma. Ter uma estrutura para os dados torna-os facilmente pesquisáveis e mais prontos para
análise. Como analista de dados, você trabalhará com diversos dados estruturados, que normalmente estarão na forma de uma tabela,
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
planilha ou banco de dados relacional, mas às vezes você irá se deparar com dados não estruturados. Esses são dados que não
estão organizados em qualquer forma facilmente identificável. Os arquivos de áudio e vídeo são exemplos de dados não
estruturados porque não há uma maneira clara de identificar ou organizar o conteúdo deles. Dados não estruturados podem ter
estrutura interna, mas os dados não se encaixam perfeitamente em linhas e colunas da mesma forma que os dados
estruturados. Então, aí está! Espero que você esteja mais familiarizado com os formatos de dados e a forma que você pode usá-los
em seu trabalho. Em pouco tempo, você continuará explorando dados estruturados e aprender ainda mais sobre os dados que você
usará com mais frequência como analista. Em breve, uma tela perto de você.
Formatos de dados na prática
Quando você pensa sobre a palavra "formato", muitas coisas podem vir à sua mente. Pense em um anúncio de sua loja
favorita. Você pode encontrá-lo na forma de um anúncio impresso, um outdoor ou até mesmo um comercial. As
informações são apresentadas no formato que funciona melhor para você. O formato de um conjunto de dados é muito
parecido com isso, e escolher o formato certo o ajudará a gerenciar e usar seus dados da melhor maneira possível.
Exemplos de formato de dados
Como acontece com a maioria das coisas, é mais fácil clicar nas definições quando podemos combiná-las com exemplos
da vida real. Revise cada definição primeiro e, em seguida, use os exemplos para fixar sua compreensão de cada formato
de dados.
Primário vs. Secundário
A tabela a seguir destaca as diferenças entre os dados primários e secundários e exemplos de cada
Classificação do Formato de Dados Definição Exemplos
Dados primários Coletados por um pesquisador emfontes de primeira mão
- Dados de uma entrevista que você
conduziu
- Dados de uma pesquisa retornada de
20 participantes
- Dados de questionários que você
recebeu de um grupo de trabalhadores
Dados secundários
Recolhido por outras pessoas ou de
outra pesquisa
- Dados que você comprou dos perfis
de clientes de uma empresa de análise
de dados local
- Dados demográficos coletados por
uma universidade
- Dados do censo coletados pelo
governo federal
Interno vs. Externo
A tabela a seguir destaca as diferenças entre os dados internos e externos e exemplos decada
Classificação do Formato de Dados Definição Exemplos
Dados internos Dados que residem nos própriossistemas da empresa
- Salários de funcionários em diferentes
unidades de negócios monitorados pelo
RH
- Dados de vendas por localização da
loja
- Níveis de estoque de produtos nos
centros de distribuição
Dados externos Dados que residem fora de umaempresa ou organização
- Salários médios nacionais para os
vários cargos em sua organização
- Relatórios de crédito para clientes de
uma concessionária de automóveis
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Contínuo vs. Discreto
A tabela a seguir destaca as diferenças entre dados contínuos e discretos e exemplos de cada
Classificação do Formato de Dados Definição Exemplos
Dados contínuos Dados que são medidos e que podemter quase qualquer valor numérico
- Altura das crianças na terceira série
(52,5 polegadas, 65,7 polegadas)
- Marcadores de tempo de execução em
um vídeo
- Temperatura
Dados discretos Dados contados e que têm um númerolimitado de valores
- Número de pessoas que visitam um
hospital diariamente (10, 20, 200)
- Capacidade máxima permitida da sala
- Ingressos vendidos no mês atual
Qualitativo vs. Quantitativo
A tabela a seguir destaca as diferenças entre dados qualitativos e quantitativos e exemplos de cada
Classificação do Formato de
Dados Definição Exemplos
Qualitativos Medidas subjetivas e explicativas dequalidades e características
- Atividade de exercício mais apreciada
- Marcas favoritas dos clientes mais fiéis
- Preferências de moda de jovens adultos
Quantitativos Medidas específicas e objetivas de fatosnuméricos
- Porcentagem de médicos certificados
que são mulheres
- População de elefantes na África -
Distância da Terra a Marte
Nominais vs. Ordinais
A tabela a seguir destaca as diferenças entre os dados nominais e ordinais e exemplos de cada
Classificação do Formato de
Dados Definição Exemplos
Nominals Um tipo de dado qualitativo que não écategorizado com uma ordem definida
- Cliente pela primeira vez, cliente
recorrente, cliente regular
- Novo candidato a emprego, candidato
existente, candidato interno
- Nova lista, lista de preço reduzido,
encerramento
Ordinais Um tipo de dado qualitativo com uma ordemou escala definida
- Avaliações de filmes (número de estrelas: 1
estrela, 2 estrelas, 3 estrelas)
- Seleções de votação de escolha
classificada (1ª, 2ª, 3ª)
- Nível de renda (baixa renda, média renda,
alta renda)
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Estruturados vs. Não estruturados
A tabela a seguir destaca as diferenças entre dados estruturados e não estruturados e exemplos de cada
Classificação do Formato de
Dados Definição Exemplos
Dados estruturados Dados organizados em um determinado formato, comolinhas e colunas
- Relatórios de despesas
- Declarações de impostos
- Estoque da loja
Dados não estruturados Dados que não são organizados de maneira facilmenteidentificável
- Postagens em mídias
sociais
- E-mails
- Vídeos
Autorreflexão: Dados não estruturados
Visão geral
Agora que você aprendeu sobre os dados não estruturados, pode fazer uma pausa por um momento e aplicar o que está
aprendendo. Nesta autorreflexão, você completará tarefas com uma rede neural, considerará seus pensamentos sobre a
estruturação de dados e responderá a breves perguntas.
A autorreflexão ajudará você a desenvolver insights sobre o próprio aprendizado e a se preparar para aplicar o seu
conhecimento de estruturas de dados às suas interações com dados desestruturados. Ao concluir tarefas com um site de
rede neural, você explorará conceitos, práticas e princípios para ajudar a refinar sua compreensão e reforçar seu
aprendizado. Você fez o trabalho duro, então não deixe de aproveitá-lo ao máximo: Essa reflexão ajudará a fixar o seu
conhecimento!
Estruturação de dados com Quick, Draw!
Nesta autorreflexão, você explorará a natureza dos dados não estruturados por meio de um conjunto de dados de origem
coletiva.
Quick, Draw! é um conjunto de dados de rede neural que possui milhões de imagens desenhadas por pessoas separadas
em categorias como plantas, animais ou veículos. No site do Quick, Draw! você pode visualizar um grande conjunto de
dados de centenas de milhares de doodles reais feitos por pessoas na internet. Você também pode desenhar o seu. Por
meio desse processo, você pode treinar uma rede neural para reconhecer objetos e aprender mais sobre a importância
dos dados estruturados.
1. Visite o site do Quick, Draw!.
2. No canto superior esquerdo, você notará um menu suspenso como este:
Selecione um tipo de doodle para começar.
3. Clique em diferentes imagens para ver os detalhes sobre
as imagens em sua tela. Por exemplo, existem mais de cem
mil desenhos diferentes de elefantes. Percorra a lista e veja
se há algum que não pertence. Se você encontrar um que não
corresponda ao objeto pretendido, clique nele e selecione
Sinalizar como impróprio.
4. Explore outras categorias de desenhos. Selecione três
categorias de seu interesse e confira seus doodles.
5. Opcional: Explore mais. Clique em Obter os dados para visitar a página GitHub que contém todo o conjunto de dados.
Conforme você se familiariza com os projetos de dados e começa a criar o seu próprio, pode retornar a este conjunto de
https://quickdraw.withgoogle.com/data/cloud
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
dados e a analisá-lo você mesmo. Clique em Jogar para desenhar seus próprios doodles e contribuir com o conjunto de
dados do Quick, Draw!.
6. Quando terminar, responda às perguntas de reflexão abaixo.
Reflexão
Pergunta 1
Considere os doodles que você encontrou no Quick, Draw! Conjunto de dados:
● O que você nota ao explorar desenhos em diferentes categorias? Existem temas consistentes entre as imagens
em uma categoria?
● Se você não conhecesse os rótulos das categorias, como distinguiria as imagens umas das outras? O que você
procuraria?
Agora, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma dessas perguntas. Digite sua resposta na
caixa de texto abaixo.
A diversidade de formas como as pessoas veêm o mesmo objeto/animal.
Se não existisse a categorização teríamos que imaginar o seria cas desenho. Eu particularmente ia começar a procurar por
padrões entre eles.
Pergunta 2
Considere o que você sabe sobre dados estruturados e não estruturados e como eles se conectam no site do Quick,
Draw!:
● Como você descreveria os doodles do Quick, Draw! que você explorou do ponto de vista dos dados?
● Como esses doodles são diferentes ou semelhantes a outros tipos de dados que você encontrou anteriormente?
● O que sobre esses dados os tornam desestruturados?
Agora, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma dessas perguntas. Digite sua resposta na
caixa de texto abaixo.
Eu os descreveria como mistos, pois podem ser estruturados e ao mesmo tempo não estruturados.
Eles são diferentes na medida que apesar de serem únicos em cada desenho podem ser estruturados e classificados por
representarem o mesmo objeto.
Não existe um desenho igual ou outro, mesmo representado o mesmo objeto
VÍDEO - COMPREENDER DADOS ESTRUTURADOS - Olá, que bom ver você de novo! Anteriormente, comparamos alguns formatos
de dados, incluindo dados estruturados e não estruturados. A maioria dos dados gerados agora são, na verdade, não
estruturados. Arquivos de áudio, arquivos de vídeo, e-mails, fotos e mídias sociais são exemplos de dados não estruturados.
Isso pode ser mais difícil de analisar em seu formato não estruturado. Mas, aqui estão as boas notícias. Você trabalhará com dados
estruturados na maioria das vezes. Por exemplo, se você precisar analisar dados sobre os dados não estruturados em e-mails, fotos e
sites de mídia social, provavelmente eles serão estruturados para análise antes mesmo de você chegar a eles. Por isso, eu quero
explorar um pouco mais dados estruturados. Como uma rápida recapitulação, os dados estruturados são dados organizados em um
formato como linhas e colunas. Mas definitivamente há mais doque isso. Os dados estruturados funcionam bem em um modelo de
dados, que é um modelo usado para organização de elementos de dados e como eles se relacionam uns com os outros. O que
são elementos de dados? São informações, como nomes de pessoas, números de conta e endereços. Os modelos de dados
ajudam a manter os dados consistentes e fornecem um mapa de como os dados estão organizados. Para analistas e outras
partes interessadas, isso torna mais fácil darem sentido aos seus dados e usá-los para fins comerciais. Além de funcionar bem com os
modelos de dados, os dados estruturados também são úteis para bancos de dados. Isso torna mais fácil para os analistas inserir,
consultar e analisar os dados sempre que precisarem. Isso também ajuda a tornar a visualização de dados bem fácil, porque os dados
estruturados podem ser aplicados diretamente em tabelas, gráficos, mapas de calor, painéis e a maioria das outras representações
visuais de dados. Certo, agora sabemos que planilhas e bancos de dados que armazenam conjuntos de dados, são fontes de dados
estruturados amplamente usadas. Depois de explorar algumas outras estruturas de dados, você verificará mais tipos de dados usando
uma planilha. A aventura continua!
A estrutura de dados
Os dados estão em todos os lugares e podem ser armazenados de várias maneiras. Duas categorias gerais de dados são:
● Dados estruturados: organizado em um determinado formato, como linhas e colunas.
● Dados não estruturados: não organizados de forma fácil de identificar.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Por exemplo, ao avaliar seu restaurante favorito online, você está criando dados estruturados. Mas quando você usa o
Google Earth para verificar uma imagem de satélite da localização de um restaurante, está usando dados não
estruturados.
Aqui está uma atualização sobre as características de dados estruturados e não estruturados:
Dados Estruturados Dados Não Estruturados
Tipos de dados definidos Tipos de dados variados
Na maioria das vezes, dados quantitativos Na maioria das vezes, dados qualitativos
Fácil de organizar Difícil de pesquisar
Fácil de pesquisar Oferece mais liberdade para análise
Fácil de analisar Armazenado em data lakes, data warehouses e bancos de dadosNoSQL
Armazenado em bancos de dados relacionais e data
warehouses Não pode ser colocado em linhas e colunas
Contido em linhas e colunas
Exemplos: mensagens de texto, comentários de mídia social,
transcrições de chamadas telefônicas, vários arquivos de registro,
imagens, áudio, vídeo
Exemplos: Excel, Planilhas Google, SQL, dados do
cliente, registros telefônicos, histórico de transações
Dados estruturados
Conforme descrito anteriormente, os dados estruturados são organizados em um determinado formato. Isso torna mais
fácil armazenar e consultar as necessidades de negócios. Se os dados são exportados, a estrutura acompanha os dados.
Dados não estruturados
Os dados não estruturados não podem ser organizados de nenhuma maneira facilmente identificável. E há muito mais
dados não estruturados do que estruturados no mundo. Arquivos de vídeo e áudio, arquivos de texto, conteúdo de mídia
social, imagens de satélite, apresentações, arquivos PDF, respostas de pesquisas abertas e sites da Web são todos
qualificados como tipos de dados não estruturados.
A questão da justiça
A falta de estrutura torna os dados não estruturados difíceis de pesquisar, gerenciar e analisar. Porém os avanços recentes
em inteligência artificial e algoritmos de aprendizado de máquina estão começando a mudar isso. Agora, o novo desafio
que os cientistas de dados enfrentam é garantir que essas ferramentas sejam inclusivas e imparciais. Caso contrário,
certos elementos de um conjunto de dados serão mais ponderados e / ou representados do que outros. E, de acordo com o
que você está aprendendo, um conjunto de dados injusto não representa com precisão a população, causando resultados
distorcidos, baixos níveis de precisão e análises não confiáveis.
Níveis e técnicas de modelagem de dados
Esta leitura apresenta a modelagem de dados e diferentes tipos de modelos de dados. Os modelos de dados ajudam a
manter os dados consistentes e permitem às pessoas mapear como os dados são organizados. Um entendimento básico
torna mais fácil para analistas e outras partes interessadas entender seus dados e usá-los da maneira certa.
Nota importante: como analista de dados júnior, você não precisará projetar um modelo de dados. Mas você pode se
deparar com modelos de dados existentes que sua organização já possui.
O que é modelagem de dados?
A modelagem de dados é o processo de criação de diagramas que representam visualmente como os dados são
organizados e estruturados. Essas representações visuais são chamadas de modelos de dados. Você pode pensar na
modelagem de dados como a planta de uma casa. A qualquer momento, pode haver eletricistas, carpinteiros e
encanadores usando essa planta. Cada um desses construtores têm um relacionamento diferente com o projeto, mas
todos precisam entender a estrutura geral da casa. Os modelos de dados são semelhantes. Usuários diferentes podem ter
necessidades de dados diferentes, mas o modelo de dados fornece a eles uma compreensão da estrutura como um todo.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Níveis de modelagem de dados
Cada nível de modelagem de dados possui um nível diferente de detalhe.
Os três tipos mais comuns de modelagem de dados
1. A modelagem de dados conceituais oferece uma visão
de alto nível da estrutura de dados, por exemplo, como os dados
interagem em uma organização. Por exemplo, um modelo de dados
conceituais pode ser usado para definir os requisitos de negócios
para um novo banco de dados. Um modelo de dados conceituais não
contém detalhes técnicos.
2. A modelagem de dados lógicos concentra-se nos
detalhes técnicos de um banco de dados, como relacionamentos,
atributos e entidades. Por exemplo, um modelo de dados lógico
define como os registros individuais são identificados
exclusivamente em um banco de dados, mas não especifica os
nomes reais das tabelas do banco de dados. Esse é o trabalho de
um modelo de dados físico.
3. A modelagem de dados físicos descreve como um banco
de dados opera. Um modelo de dados físicos define todas as
entidades e atributos usados; por exemplo, inclui nomes de tabelas,
nomes de colunas e tipos de dados para o banco de dados.
Mais informações podem ser encontradas nesta comparação de modelos de dados.
Projeto de Modelo Conceitual Projeto de Modelo Lógico Projeto de Modelo Físico
Podemos ver que a complexidade aumenta de conceitual para lógico para físico. É por isso que sempre começamos primeiro com o
modelo de dados conceitual (para entendermos em alto nível quais são as diferentes entidades em nossos dados e como elas se
relacionam umas com as outras), depois passamos para o modelo de dados lógico (para entendermos os detalhes dos nossos dados
sem nos preocuparmos em como eles serão realmente implementados) e, finalmente, o modelo de dados físico (para sabermos
exatamente como implementar nosso modelo de dados no banco de dados escolhido). Em um projeto de armazenamento de dados, às
vezes, o modelo de dados conceitual e o modelo de dados lógicos são considerados como uma única entrega.
Técnicas de modelagem de dados
Existem muitas abordagens quando se trata de desenvolver modelos de dados, mas dois métodos comuns são o
Diagrama de Relacionamento de Entidade (ERD) e o Diagrama de Linguagem de Modelagem Unificada (UML). ERDs
são uma forma visual de compreender a relação entre entidades no modelo de dados. Os diagramas UML são diagramas
muito mais detalhados que descrevem a estrutura de um sistema, mostrando as entidades, atributos, operações e
relacionamentos do sistema. Como analista de dados júnior, você precisará entender que existem diferentes técnicas de
modelagem de dados, mas, na prática, você provavelmente usará a técnica existente em sua organização.
https://www.1keydata.com/datawarehousing/data-modeling-levels.html
Curso 3 - PREPARAROS DADOS PARA EXPORTAÇÃO
Você pode ler mais sobre ERD, UML e dicionários de dados neste artigo de técnicas de modelagem de dados.
1. Diagramas de Entidade Relacionamento
Também chamados de diagramas ER ou ERDs . A modelagem
Entidade-Relacionamento é uma técnica padrão para modelagem
e design de bancos de dados relacionais (tradicionais). Nesta
notação, o arquiteto identifica:
1. Entidades que representam objetos (ou tabelas em
banco de dados relacional),
2. Atributos de entidades, incluindo tipo de dados ,
3. Relacionamentos entre entidades/objetos (ou chaves
estrangeiras em um banco de dados).
Os ERDs funcionam bem se você deseja criar um banco de dados
relacional (clássico), bancos de dados do Excel ou arquivos CSV.
Basicamente, qualquer tipo de dados tabulares. Eles funcionam
bem para visualização de esquemas de banco de dados e
comunicação de visão de nível superior de dados.
ERD criado com Dataedo .
Se você deseja criar e compartilhar um diagrama ER para o banco
de dados existente, consulte este tutorial .
2. Diagramas de classes UML
UML (Unified Modeling Language) é uma família padronizada de notações para modelagem e projeto de sistemas de informação. Foi
derivado de várias notações existentes para fornecer um padrão para engenharia de software. É composto por vários diagramas
diferentes que representam diferentes aspectos do sistema, sendo um deles um diagrama de classes que pode ser usado para
modelagem de dados. Diagramas de classe são equivalentes a ERDs no mundo relacional e são usados principalmente para projetar
classes em linguagens de programação orientadas a objetos (como Java ou C#).
Nos diagramas de classe, os arquitetos definem:
1. Classes (equivalente a entidade no mundo relacional),
2. Atributos de uma classe (o mesmo que em um ERD),
incluindo tipo de dados ,
3. Métodos associados a uma classe específica,
representando seu comportamento (no mundo
relacional seriam stored procedures),
4. Relacionamentos agrupados em duas categorias:
○ Relacionamentos entre objetos (instâncias de
Classes) diferenciados em Dependência,
Associação, Agregação e Composição
(equivalentes aos relacionamentos em um ERD),
○ Relacionamentos entre classes de dois tipos
Generalização/Herança e Realização
/Implementação (isso não tem equivalente no
mundo relacional).
Você pode usar diagramas de classes para projetar dados
tabulares (como em RDBMS), mas foram projetados e são
usados principalmente para programas orientados a objetos
(como Java ou C#).
Diagrama de classe UML criado com Visual Paradigm .
3. Dicionário de dados
A última técnica que gostaria de compartilhar com você é um dicionário de dados. As técnicas mencionadas acima eram visuais e
baseadas em diagramas, e os dicionários de dados são uma definição/representação tabular de ativos de dados. O dicionário de
dados é um inventário de conjuntos de dados/tabelas com a lista de seus atributos/colunas.
Elementos principais do dicionário de dados:
1. Lista de conjuntos de dados/tabelas,
2. Lista de atributos/colunas de cada tabela com tipo de dados.
Elementos opcionais do dicionário de dados:
1. descrições de itens,
https://dataedo.com/blog/basic-data-modeling-techniques
https://dataedo.com/
https://dataedo.com/tutorials/create-database-diagram
https://www.visual-paradigm.com/
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
2. Relações entre tabelas/colunas,
3. Restrições adicionais, como exclusividade, valores padrão, restrições de valor ou colunas calculadas.
O dicionário de dados é adequado como especificação detalhada de ativos de dados e pode ser complementado com diagramas ER,
pois ambos servem a propósitos ligeiramente diferentes.
Análise de dados e modelagem de dados
A modelagem de dados pode ajudá-lo a explorar os detalhes de alto nível de seus dados e como eles estão relacionados
nos sistemas de informação da organização. A modelagem de dados às vezes requer análise de dados para entender
como os dados são reunidos, permitindo que você saiba como mapeá-los. E, finalmente, os modelos de dados tornam
mais fácil para todos em sua organização entender e colaborar com você em seus dados. Isso é importante para você e
todos em sua equipe!
Teste seus conhecimentos sobre formatos e estruturas de dados
Pergunta 1 - Preencha a lacuna: o tempo de execução de um filme é um exemplo de dado _________________ .
discreto
qualitativo
contínuo
nominal
Correto
Os tempos de execução dos filmes são um exemplo de dados contínuos, que são medidos e podem ter quase qualquer valor numérico.
Pergunta 2 - Quais são as características dos dados não estruturados? Selecione todas as opções aplicáveis.
Tem uma estrutura claramente identificável
Se encaixam perfeitamente em linhas e colunas
Não são organizados
Correto
Os dados não estruturados não são organizados, embora possam ter uma estrutura interna.
Podem ter uma estrutura interna
Correto
Os dados não estruturados não são organizados, embora possam ter uma estrutura interna.
Pergunta 3 - Os dados estruturados permitem que os dados sejam agrupados para formar relações. Isso torna mais fácil para os
analistas fazerem o que com os dados? Selecione todas as opções aplicáveis.
Pesquisar
Correto
Os dados estruturados agrupados para formar relações permitem que os analistas armazenem, pesquisem e analisem os dados com mais facilidade.
Analisar
Correto
Os dados estruturados agrupados para formar relações permitem que os analistas armazenem, pesquisem e analisem os dados com mais facilidade.
Armazenar
Reescrever
Você não selecionou todas as respostas corretas
Pergunta 4 - Qual das alternativas a seguir é um exemplo de dados não estruturados?
Contato salvo em um telefone
Localização de GPS
Mensagem de e-mail
Classificação de um restaurante favorito local
Correto
Um exemplo de dados não estruturados é uma mensagem de e-mail. Outros exemplos de dados não estruturados são arquivos de vídeo e conteúdo de mídia social.
EXPLORE TIPOS DE DADOS, CAMPOS E VALORES
VÍDEO - CONHEÇA OS TIPOS DE DADOS COM OS QUAIS VOCÊ ESTÁ TRABALHANDO - Até agora você aprendeu muito sobre
dados. Desde dados gerados a dados coletados, até formatos de dados, é bom saber tanto quanto você puder sobre os dados que
você usa para análise. Neste vídeo, vamos falar sobre outra forma que você pode descrever os dados: o tipo de dados. Um tipo de
dados é um tipo específico de atributo de dados que diz qual tipo de valor que os dados são. Em outras palavras, um tipo de
dados informa que tipo de dados você está trabalhando. Os tipos de dados podem ser diferentes dependendo da consulta de
idioma que você está usando. Por exemplo, o SQL permite diferentes tipos de dados dependendo em qual banco de dados você está
usando. Por enquanto, vamos nos concentrar nos tipos de dados que você usará nas planilhas. Para nos ajudar, usaremos uma
planilha que já está preenchida com dados. Vamos chamá-la de “Interesses Mundiais no Sweets por meio das pesquisas do Google”.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Agora, um tipo de dados em uma planilha pode ser uma das três coisas: um number (número), um text (texto) ou string, ou um
Boolean (Booleano). Você pode encontrar uma planilha de programas que os classificam um pouco diferente ou incluir outros tipos,
mas esses tipos cobrem praticamente todos os dados que você encontrará nas planilhas. Veremos tudo sobre eles daqui a pouco.
Olhando para as colunas B, D, e F, encontramos tipos de dados numéricos. Cada número representa o interesse de pesquisa para os
termos “cupcakes”, “ice cream (sorvete)” e “candy (doces)” durante uma semana específica. Quanto mais próximo um número estiver
de 100, mais popular o termo dessa pesquisa foi durante aquela semana. Cem representa o pico de popularidade. Tenha em mente
que, nesse caso, 100 é um valor relativo, e não o real número de pesquisas. Ele representa o número máximo de pesquisas durante
um certo tempo. Pense nisso como uma porcentagem em um teste. Todas as outras pesquisas também estão sendo avaliadas em 100.
Você pode notar isso em outros conjuntos de dadostambém. Estrela de ouro para 100! Se você precisasse, você poderia alterar os
números para porcentagens ou outros formatos, como moeda. Todos esses são exemplos de tipos de dados numéricos. Na coluna H,
os dados mostram o tratamento mais popular para cada semana, com base nos dados da pesquisa. Então, como encontraremos na
célula H4 para a semana que começa 28 de julho de 2019, a guloseima mais popular foi sorvete. Esse é um exemplo de um tipo de
dados text (de texto), ou um tipo de dados string, que é uma sequência de caracteres e pontuações que contêm informações
textuais. Neste exemplo, essas informações seriam as guloseimas e os nomes das pessoas. Eles também podem incluir números,
como números de telefone ou números nos endereços das ruas. Mas esses números não são usados para cálculos. Nesse caso, eles
são tratados como texto, não números. Nas colunas C, E, e G, parece que temos algum texto. Mas o texto aqui não é um tipo de dados
text (de texto) ou string. Em vez disso, é um Tipo de dados boolean (Booleanos). Um tipo de dados Booleano é um tipo de dados
com apenas dois valores possíveis: verdadeiro ou falso. As colunas C, E e G mostram dados booleanos para saber se o interesse
de pesquisa para cada semana é pelo menos 50 de 100. Aqui está a forma como ele funciona Para obter esses dados, criamos uma
fórmula que calcula se os dados de interesse da pesquisa nas colunas B, D e F são 50 ou maior. Na célula B4, o interesse da pesquisa
é 14. Na célula C4, encontramos a palavra false porque, para esta semana de dados, o interesse de pesquisa é inferior a 50. Para
cada célula nas colunas C, E, e G, os dois únicos possíveis os valores são true ou false (verdadeiros ou falsos). Poderíamos mudar a
fórmula para outras palavras aparecerem nessas células em vez disso, mas ainda são dados Booleanos. Você terá a chance de ler
mais sobre o tipo de dados Booleanos em breve. Vamos falar sobre um problema comum que as pessoas encontram em planilhas:
confundir os tipos de dados com valores de célula. Por exemplo, na célula B57, podemos criar uma fórmula para calcular dados em
outras células. Isso nos dará a média dos interesses de pesquisa em cupcakes em todos semanas no conjunto de dados, que é cerca
de 15. A fórmula funciona porque nós calculamos usando um tipo de dados numéricos. Mas se tentássemos com um tipo de dados de
texto ou string, como os dados na coluna C, obteríamos um erro. Valores de erro geralmente acontecem se um erro for feito ao
inserir os valores nas células. Quanto mais você conhece seus tipos de dados e quais usar, menos erros você encontrará. Aí está,
um tipo de dados para todos. Ainda não terminamos. A seguir, vamos nos aprofundar na relação entre tipos de dados, campos e
valores. Vejo você em breve.
Compreendendo a lógica Booleana
Nesta leitura, você explorará os fundamentos da lógica booleana e aprenderá como usar várias condições em uma
instrução Booleana. Essas condições são criadas com operadores Booleanos, incluindo AND, OR e NOT. Esses
operadores são semelhantes aos operadores matemáticos e podem ser usados para criar declarações lógicas que filtram
seus resultados. Os analistas de dados usam declarações Booleanas para fazer uma ampla gama de tarefas de análise de
dados, como criar consultas para pesquisas e verificar as condições ao escrever o código de programação.
Exemplo de lógica Booleana
Imagine que você está comprando sapatos e está considerando certas
preferências:
● Você vai comprar os sapatos apenas se eles forem rosa e cinza
● Você vai comprar os sapatos se eles forem totalmente rosa ou
cinza, ou se eles forem rosa e cinza
● Você vai comprar os sapatos se forem cinza, mas não se forem
rosa
Abaixo estão os diagramas de Venn que ilustram essas preferências. AND
(E) é o centro do diagrama de Venn, onde duas condições se sobrepõem.
OR (OU) inclui qualquer uma das condições. NOT (NÃO) inclui apenas a
parte do diagrama de Venn que não contém a exceção.
O operador AND (E)
Sua condição é “Se a cor do sapato tiver qualquer combinação de cinza e rosa, você os comprará”. A declaração Booleana
quebraria a lógica dessa declaração para filtrar seus resultados por ambas as cores. Ele diria “IF (SE) (Cor=“Cinza”) AND
(E) (Cor=“Rosa”) então compre-os”. O operador AND permite empilhar várias condições.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Abaixo está uma tabela verdade simples que descreve a lógica booleana em ação nesta declaração. Na coluna Cor é
Cinza, existem dois pares de sapatos que atendem à condição de cor. E na coluna Cor é Rosa, há dois pares que
atendem a essa condição. Mas na coluna Se Cinza e Rosa, há apenas um par de sapatos que atende às duas condições.
Então, de acordo com a lógica Booleana do enunciado, há apenas um par marcado como verdadeiro. Em outras palavras,
existe um par de sapatos que você pode comprar.
Cor é Cinza Cor é Rosa Se Cinza E Rosa, então Compre Lógica Booleana
Cinza/Verdadeiro Rosa/Verdadeiro Verdadeiro/Compre Verdadeiro E Verdadeiro =Verdadeiro
Cinza/Verdadeiro Preto/Falso Falso/Não compre Verdadeiro E falso = Falso
Vermelho/Falso Rosa/Verdadeiro Falso/Não compre Falso E falso = Falso
Vermelho/Falso Verde/Falso Falso/Não compre Falso E falso = Falso
O operador OR
O operador OR permite que você siga em frente se uma das duas condições for atendida. Sua condição é “Se os sapatos
forem cinza ou rosa, você os comprará”. A declaração Booleana seria “IF (SE) (Cor=“Cinza”) OR (OU) (Cor=“Rosa”) e
compre-os”. Observe que qualquer sapato que atenda à condição Cor é Cinza ou Cor é Rosa é marcado como
verdadeiro pela lógica Booleana. De acordo com a tabela de verdade abaixo, existem três pares de sapatos que você pode
comprar.
Cor é Cinza Cor é Rosa If (Se) Cinza OR (OU) Rosa, entãoCompre Lógica Booleana
Vermelho/Falso Preto/Falso Falso/Não compre Falso OU Falso = Falso
Preto/Falso Rosa/Verdadeiro Verdadeiro/Compre Falso OU Verdadeiro =Verdadeiro
Cinza/Verdadeiro Verde / Falso Verdadeiro/Compre Verdadeiro OU Falso =Verdadeiro
Cinza/Verdadeiro Rosa/Verdadeiro Verdadeiro/Compre Verdadeiro OU Verdadeiro =Verdadeiro
O operador NOT
Finalmente, o operador NOT permite filtrar subtraindo condições específicas dos resultados. Sua condição é "Você
comprará qualquer sapato cinza, exceto aqueles com vestígios de rosa". Sua declaração booleana seria “IF (SE)
(Cor=“Cinza") AND (E) (Cor = NÃO “Rosa”) então compre-os”. Agora, todos os sapatos cinza que não são rosa são
marcados como verdadeiros pela lógica booleana para a condição NÃO Rosa. Os sapatos rosa são marcados como falsos
pela lógica Booleana para a condição NÃO Rosa Apenas um par de sapatos foi excluído da tabela de verdade abaixo.
Cor é Cinza Cor é Rosa Lógica Booleana
para NOT Pink
Se Cinza AND (E) (NÃO Rosa),
então Compre
Lógica Booleana
Cinza/Verdadeiro Vermelho/Falso Não Falso =
Verdadeiro
Verdadeiro/Compre Verdadeiro E
Verdadeiro =
Verdadeiro
Cinza/Verdadeiro Preto/Falso Não Falso =
Verdadeiro
Verdadeiro/Compre Verdadeiro E
Verdadeiro =
Verdadeiro
Cinza/Verdadeiro Verde / Falso Não Falso =
Verdadeiro
Verdadeiro/Compre Verdadeiro E
Verdadeiro =
Verdadeiro
Cinza/Verdadeiro Rosa/Verdadeiro Não Verdadeiro =
Falso
Falso/Não compre Verdadeiro E falso =
Falso
O poder de múltiplas condições
Para analistas de dados, o verdadeiro poder da lógica Booleana vem de ser capaz de combinar várias condições em uma
única instrução. Por exemplo, se você deseja filtrar sapatos cinza ou rosa e à prova d'água, pode construir uma declaração
Booleana como: “SE ((Cor = “Cinza”) OU (Cor = “Rosa”)) E (À prova d'água = “Verdadeiro”).” Observe que você pode
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
usar parênteses para agrupar suas condições juntas. Esteja você fazendo uma pesquisa por novos sapatos ou aplicando
essa lógica às suas consultas de banco de dados, a lógica booleana permite criar várias condições para filtrar seus
resultados. E agora que você sabe um pouco mais sobre como a lógica booleana é usada, você pode começar a usá-la!
Leitura adicional/recursos
● Saiba mais sobre quem foio pioneiro da lógica Booleana neste artigo histórico: Origens da Álgebra Booleana na
Lógica das Classes.
● Encontre mais informações sobre o uso de AND, OR e NOT nestas dicas para pesquisa com operadores
booleanos.
O que procurar
Os operadores booleanos formam a base dos conjuntos matemáticos e da lógica do banco de dados.
● Eles conectam suas palavras de pesquisa para restringir ou ampliar seu conjunto de resultados.
● Os três operadores booleanos básicos são: AND , OR e NOT .
Por que usar operadores booleanos?
● Para focar em uma pesquisa, especialmente quando seu tópico contém vários termos de pesquisa.
● Para conectar várias informações para encontrar exatamente o que você está procurando.
● Exemplo:
segunda criação (título) E wilmut e campbell (autor) E 2000 (ano)
Usando E
Use AND em uma pesquisa para:
● restrinja seus resultados
● diga ao banco de dados que TODOS os termos de pesquisa
devem estar presentes nos registros resultantes
● exemplo: clonagem AND humanos AND ética
O triângulo roxo no meio do diagrama de Venn abaixo representa o
conjunto de resultados para esta pesquisa. É um pequeno conjunto usando
AND, a combinação de todas as três palavras de pesquisa.
Esteja ciente: em muitos, mas não em todos os bancos de dados, o AND
está implícito.
● Por exemplo, o Google coloca automaticamente um AND entre
seus termos de pesquisa.
● Embora todos os seus termos de pesquisa estejam incluídos nos
resultados, eles podem não estar conectados da maneira que
você deseja.
● Por exemplo, esta pesquisa: ansiedade de teste de estudantes
universitários é traduzida para: faculdade AND alunos AND teste
AND ansiedade. As palavras podem aparecer individualmente ao
longo dos registros resultantes.
● Você pode pesquisar usando frases para tornar seus resultados
mais específicos.
● Por exemplo: "estudantes universitários" E "teste de ansiedade".
Dessa forma, as frases aparecem nos resultados como você espera que sejam.
Usando OU
Use OR em uma pesquisa para:
● conectar dois ou mais conceitos semelhantes (sinônimos)
● amplie seus resultados, informando ao banco de dados que QUALQUER um de seus
termos de pesquisa pode estar presente nos registros resultantes
● exemplo: clonagem OU genética OU reprodução
Todos os três círculos representam o conjunto de resultados para esta pesquisa. É um conjunto
grande porque qualquer uma dessas palavras é válida usando o operador OR.
https://www.maa.org/press/periodicals/convergence/origins-of-boolean-algebra-in-the-logic-of-classes-george-boole-john-venn-and-c-s-peirce
https://www.maa.org/press/periodicals/convergence/origins-of-boolean-algebra-in-the-logic-of-classes-george-boole-john-venn-and-c-s-peirce
https://libguides.mit.edu/c.php?g=175963&p=1158594
https://libguides.mit.edu/c.php?g=175963&p=1158594
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Usando NÃO
Use NOT em uma pesquisa para:
● Excluir palavras da sua pesquisa
● restrinja sua pesquisa, informando ao banco de dados para ignorar conceitos que possam estar implícitos em seus termos de
pesquisa
● exemplo: clonar NÃO ovelhas
Ordem de pesquisa
Os bancos de dados seguem os comandos que você digita e retornam resultados com base nesses comandos. Esteja ciente da ordem
lógica em que as palavras são conectadas ao usar operadores booleanos:
● Os bancos de dados geralmente reconhecem AND como o operador principal e conectam os conceitos com AND primeiro.
● Se você usar uma combinação de operadores AND e OR em uma pesquisa, coloque as palavras a serem "ORed" juntas
entre parênteses.
Exemplos:
● ética E (clonagem OU técnicas reprodutivas)
● (ética* OU moral*) E (bioengenharia OU clonagem)
VÍDEO - COMPONENTES DA TABELA DE DADOS - Aqui está um enigma para você. O que uma lista de reprodução de música, uma
agenda, e uma caixa de entrada de e-mail têm em comum? Vou dar uma dica. Não é uma jam session semanal. A resposta é que eles
são arranjados todos em tabelas. Vá em frente e confira sua caixa de entrada de e-mail ou uma lista de reprodução favorita ou veja a
agenda do seu calendário. Há tabelas em cada um! Uma tabela de dados ou dados tabulares tem uma estrutura muito simples.
Está organizado em linhas e colunas. Você pode chamar as linhas de “registros” e as colunas de “campos”. Eles basicamente
significam a mesma coisa, mas registros e campos podem ser usados para qualquer tipo de tabela de dados, enquanto as linhas e as
colunas geralmente são reservadas para as planilhas. Ao falar sobre bancos de dados estruturados, as pessoas na análise de dados
geralmente vão com “registros” e “campos”. Às vezes, um campo também pode referir-se a uma única peça de dados, como o valor em
uma célula. Em qualquer caso, você ouvirá as duas versões desses termos usado em todo este programa e em seu trabalho. Vamos
voltar ao nosso exemplo de lista de reprodução. Usaremos os novos termos que acabamos de apresentar. Então, cada música é uma
gravação. Cada registro tem os mesmos campos que os outros registros na mesma ordem. Em outras palavras, a lista de reprodução
tem as mesmas informações sobre cada música. Cada característica da música, como o título e o artista, é um campo. Cada campo
separado tem o mesmo tipo de dados, mas campos diferentes podem ter tipos diferentes. Vou mostrar o que quero dizer. Para a lista
de músicas, os títulos das músicas são um tipo de texto ou string, enquanto a duração da música pode ser um tipo de número se você
o estiver usando para cálculos. Ou pode ser um tipo de data e hora. A coluna para favoritos é Booleana já que tem dois valores
possíveis: favorito ou não favorito. Podemos ver as planilhas da mesma forma. Os registros em uma planilha podem seja sobre todos
os tipos de coisas: clientes, produtos, faturas, ou qualquer outra coisa. Cada registro tem vários campos, que revelam mais sobre os
produtos ou faturas do cliente. O valor em cada célula contém uma parte específica de dados, como o endereço de um cliente ou o
valor em dólares de uma fatura. Como analista de dados, muitos dados vêm em seu caminho, e registros, campos, e valores nas
tabelas de dados que irão ajudá-lo a navegar pela análise. Entender as estruturas das tabelas com quem você está trabalhando é uma
parte disso. E espero que, enquanto você está trabalhando duro em sua análise e nessas tabelas, você pode ter um pouco de diversão
com uma tabela de dados diferente: aquela com sua lista de reprodução favorita!
Atividade prática: Aplicando uma função
Visão geral da atividade
Nas lições anteriores, você se familiarizou com planilhas e estruturas de dados. Nesta atividade, você escreverá funções
em planilhas. Como lembrete, uma função é um comando pré-definido que executa automaticamente um processo ou
tarefa especificada usando os dados em uma planilha. Ao concluir esta atividade, você poderá aplicar a função SUM em
softwares de planilhas, como o Planilhas Google e o Microsoft Excel. Isso permitirá que você crie planilhas dinâmicas, que
são importantes para organizar e entender os dados em sua carreira como analista de dados.
O que você vai precisar
Para começar, primeiro acesse a planilha de exemplo de alguém acompanhando suas despesas de entretenimento.
Para usar o glossário deste item do curso, clique no link abaixo e selecione “Usar modelo”.
Link para o exemplo de planilha: Despesas de Entretenimento
https://docs.google.com/spreadsheets/d/1IJbiEEA2XIhkPctssmblodZkPWLzUgxzmjh0s1P6pv8/template/preview
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Aplique a função SUM
Primeiro, abra a planilha de exemplo. Você encontrará a tabela abaixo que contém dados sobre as despesas mensais de
entretenimento para janeiro e fevereiro:
Agora, trabalhando na planilha de exemplo, você escreverá funções nas
células para realizar determinadas tarefas. Seu primeiro objetivo é preencher
as células B7 e C7. Cada uma dessas células deve ser a soma dos números
nas células acima dela. Por exemplo, B7 deve ser a soma total dos números
nas células B2 a B6. Para alcançar esse resultado:
1. Clique na célula B7. A célula deve ter sua bordadestacada.
2. Com essa célula selecionada, digite =SUM(B2:B6) conforme a
figura abaixo. Observe que essa função aparece na célula e no
campo acima da tabela. Esse campo é chamado de barra de
fórmulas. Depois de clicar em uma célula, digitar na barra de
fórmulas é a mesma coisa que digitar diretamente na célula.
O argumento da função SUM é a expressão B2:B6. Essa expressão
representa um intervalo de valores começando da primeira célula no
intervalo (B2) até a última célula do intervalo (B6). A palavra SUM instrui a
planilha a somar os valores nesse intervalo de células. Isso funciona da
mesma forma se você deseja adicionar linhas.
3. Pressione Enter (Windows) ou Return (Mac OS). Você deve obter o
resultado abaixo.
Você descobrirá que a função SUM em B7 é substituída pelo valor
numérico (311,96) que é a soma dos números nas células B2 a
B6. Se o valor na célula B7 não for igual a 311,96, verifique a
função para garantir que você tenha o intervalo correto. A barra de
fórmulas, no entanto, ainda contém a função SUM. Isso é para
informar as pessoas que estão lendo a planilha como o valor na
célula B7 foi determinado.
Encontre erros nas funções
A sintaxe é muito importante para criar funções adequadas nas planilhas. Em seguida, você pode explorar o que acontece
quando você deixa um caractere de fora ou comete um erro.
1. Clique na célula C7. Insira a função SUM (C2:C6) na própria célula ou na barra de fórmulas. NÃO inclua o =. Pressione
Enter ou Return. Ele deve exibir o seguinte:
O sinal de igual no comando SUM não é opcional. Sem isso, a planilha interpretará a entrada como uma string. Uma string
são dados de texto. Para que a fórmula funcione, ela precisa de dados numéricos. É por isso que o comando não é
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
calculado em C7. Quando o sinal de igual é incluído, a
planilha sabe realizar o cálculo da soma e retornar o
resultado na célula.
2. As planilhas lidam com dados de string de maneira bem
diferente dos dados numéricos A coluna A desta tabela é
preenchida inteiramente por dados de string—os rótulos de
cada linha. Tente inserir a função SUM nessa coluna. Na
célula A8, digite =SUM(A2:A6) e pressione Enter ou Return.
Você encontrará a planilha calculada como zero para a soma.
Isso ocorre porque o programa foi solicitado a somar strings.
Quando uma determinada célula contém uma string, o programa
considera o valor numérico da célula como zero. É assim que a
função SUM no Excel funciona. Existem muitas outras funções
disponíveis para você além do SUM. Se você as conhece, pode
inseri-las da mesma forma que inseriu a função SUM. Existem
muitos programas de planilhas diferentes e todos eles têm
funcionalidade semelhante, se não exatamente, como esta.
Confirmação e reflexão
Pergunta 1
Como você escreveria uma função para calcular as despesas de entretenimento de fevereiro para TV a cabo, streaming de
vídeo e filmes na planilha de exemplo?
=SUM(C2:C4)
SUM(C2:C6)
SUM(B2:C6)
=SUM(B2:C4)
Pergunta 2
Durante essa atividade, você explorou as funções da planilha e praticou escrevê-las. Na caixa de texto abaixo, escreva de
duas a três frases (40 a 60 palavras) em resposta a cada uma das perguntas a seguir:
● Quando você escreveu funções incorretas, o que aprendeu sobre os dados da planilha?
● Como você acha que esse conhecimento da função de planilha SUM o ajudará a escrever outros tipos de
funções?
Aprendi que as fórmulas dependem do tipo de dado que está inserido nas células;
A fórmula SUM serve de base para o aprendizado de outras mais complexas
VÍDEO - CONHEÇA DADOS AMPLOS E LONGOS - Você provavelmente usa as palavras "amplo" e "longo" o tempo todo. Você pode
usar "amplo" para descrever a extensão de algo de lado a lado, como um rio amplo. Mas um rio também pode viajar grandes
distâncias, então você também pode chamá-lo de "longo". Espere! Antes de parar o vídeo, eu prometo que você não clicou
acidentalmente no curso errado. Não estou aqui para lhe ensinar palavras que você já conhece. Mas as palavras "amplo" e "longo"
também podem ser usadas para descrever dados. Portanto, estou aqui para ajudá-lo a entender dados amplos e longos. Até agora,
você lidou com dados organizados principalmente em um formato amplo. Com dados abrangentes, cada sujeito de dados tem uma
única linha com várias colunas para manter os valores dos vários atributos do sujeito. Aqui estão alguns dados abrangentes em uma
planilha. Você deve se lembrar que discutimos esses dados sobre a população de países Latinos e do Caribe anteriormente. Para este
conjunto de dados, cada linha fornece todas as informações sobre a população de um país. Cada coluna mostra a população para um
ano diferente. Os dados amplos permitem que você identifique e compare facilmente colunas diferentes rapidamente. Em nosso
exemplo, os dados são organizados em ordem alfabética por país, então você pode comparar as populações anuais de Antígua e
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Barbuda, Aruba e Bahamas apenas verificando os valores em cada coluna. O formato de dados amplo também torna mais fácil
encontrar e comparar as populações dos países em diferentes períodos. Por exemplo, classificando os dados, descobrimos que o
Brasil tinha a maior população entre todos os países em 2010, e as Ilhas Virgens Britânicas tiveram a população mais baixa entre
todos os países em 2013. Ok, agora vamos explorar esses dados em um formato longo. Aqui, os dados não são mais organizados em
colunas por ano. Todos os anos agora estão em uma coluna com cada país como a Argentina, aparecendo em várias linhas, uma para
cada ano de dados. Em geral, essa é a aparência dos dados longos. Dados longos são dados em que cada linha é um ponto no
tempo por assunto, então cada assunto terá dados em várias linhas. Nossa planilha é formatada para mostrar os dados
populacionais de cada ano. Aqui, vemos Antígua e Barbuda primeiro. Dados longos são um ótimo formato para armazenar e organizar
dados quando há várias variáveis para cada assunto em cada momento que queremos observar. Com este formato de dados longos,
podemos armazenar e analisar todos esses dados usando menos colunas. Além disso, se adicionarmos uma nova variável, como a
idade média de uma população, precisaremos apenas de mais uma coluna. Se usarmos um formato de dados amplo, precisaremos de
mais 10 colunas, uma para cada ano. O formato de dados longos mantém tudo bonito e compacto. Se você está se perguntando
qual formato deve usar, a resposta é simples:"depende". Às vezes, você terá que transformar dados amplos em um formato de dados
longos, outras vezes terá que fazer o contrário. Você provavelmente trabalhará com os dois formatos em sua tarefa. E você
definitivamente revisitará ambos os formatos mais tarde neste programa. Isso me lembra que anteriormente, definimos dados como
uma coleção de fatos. Como você descobriu nos últimos vídeos, essa coleção de fatos pode assumir diversos formatos, estruturas,
tipos e muito mais. Aprender sobre todas as maneiras como os dados podem ser apresentados será de grande ajuda ao longo dos
processos de análise de dados. Quanto mais você trabalhar com dados em todas as suas formas, mais rápido você começará a
reconhecer quais dados usar e quando usar. E daqui a pouco, você usará todos os dados armazenados em seu cérebro para ajudá-lo a
fazer uma avaliação. Depois disso, você aprenderá como identificar e evitar viés nos dados e como adotar credibilidade, integridade e
ética. A aventura dos dados segue em frente. Estou tão feliz que você segue com ela!
Transformando dados
O que é transformação de dados?
Nesta leitura, você explorará como os dados são transformados e as diferenças entre dados extensos e longos. A
transformação de dados é o processo de alterar o formato, a estrutura ou os valores dos dados. Como analista de dados,
há uma boa chance de você precisar transformar os dados em algum ponto para facilitar sua análise.
A transformação de dados geralmente envolve:
● Adicionar, copiar ou replicar dados
● Excluir campos ou registros
●Padronizar os nomes das variáveis
● Renomear, mover ou combinar colunas em um banco de dados
● Unir um conjunto de dados com outro
● Salvar um arquivo em um formato diferente. Por exemplo, salvar uma planilha como um arquivo de valores
separados por vírgula (CSV).
Por que transformar dados?
As metas para a transformação de dados podem ser:
● Organização de dados: dados melhor organizados são mais fáceis de usar
● Compatibilidade de dados: diferentes aplicativos ou sistemas podem usar os mesmos dados
● Migração de dados: dados com formatos correspondentes podem ser movidos de um sistema para outro
● Mesclagem de dados: dados com a mesma organização podem ser mesclados
● Aprimoramento de dados: os dados podem ser exibidos com campos mais detalhados
● Comparação de dados: comparações de igual para igual dos dados podem então ser feitas
Exemplo de transformação de dados: mesclagem de dados
Mario é um encanador dono de uma empresa de encanamento. Depois de anos no negócio, ele compra outra empresa de
encanamento. Mario deseja mesclar as informações do cliente de sua empresa recém-adquirida com as suas, mas a outra
empresa usa um banco de dados diferente. Então, Mario precisa tornar os dados compatíveis. Para isso, ele precisa
transformar o formato dos dados da empresa adquirida. Em seguida, ele deve remover as linhas duplicadas dos clientes
que eles tinham em comum. Quando os dados são compatíveis e juntos, a empresa de encanamento de Mario terá um
banco de dados de clientes completo e mesclado.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Exemplo de transformação de dados: organização de dados (longo para amplo)
Para facilitar a criação de gráficos, você também pode precisar
transformar dados longos em dados extensos. Considere o
seguinte exemplo de transformação dos preços das ações
(coletados como dados longos) em dados amplos.
Dados longos são dados em que cada linha contém um único
ponto de dados para um determinado item. No exemplo de dados
longos abaixo, preços de ações individuais (pontos de dados)
foram coletados para Apple (AAPL), Amazon (AMZN) e Google
(GOOGL) (itens específicos) nas datas fornecidas.
Exemplo de dados longos: Preços das ações
Dados amplos são dados em que cada linha contém vários pontos de dados para os itens específicos identificados
nas colunas.
Exemplo de dados abrangentes: Preços das ações
Com os dados transformados em dados amplos, você pode
criar um gráfico comparando como as ações de cada
empresa mudaram no mesmo período de tempo.
Você pode notar que todos os dados incluídos no formato
longo também estão no formato largo. Mas dados amplos
são mais fáceis de ler e entender. É por isso que os
analistas de dados normalmente transformam dados longos
em dados extensos com mais frequência do que
transformam dados extensos em dados longos. A tabela a
seguir resume quando cada formato é preferido:
Dados amplos são preferidos quando Dados longos são preferidos quando
Criação de tabelas e gráficos com algumas
variáveis sobre cada assunto
Armazenando muitas variáveis sobre cada assunto, por exemplo,
60 anos de taxas de juros para cada banco
Comparando gráficos de linha simples Execução de análises estatísticas avançadas ou gráficos
Atividade Prática: Introdução ao Kaggle
Visão geral da atividade
Até agora, você aprendeu muito sobre diferentes tipos de dados e estruturas de dados. Nesta atividade, você trabalhará
com conjuntos de dados da Kaggle, uma comunidade online de pessoas apaixonadas por dados. Para iniciar esta
atividade, você criará uma conta do Kaggle, configurará um perfil e explorará os cadernos do Kaggle. Todo analista de
dados tem uma comunidade de dados na qual eles confiam para obter ajuda, suporte e inspiração. O Kaggle pode ajudá-lo
a criar sua própria comunidade de dados. Kaggle tem milhões de usuários em todos os estágios de sua carreira em
dados, de iniciantes a cientistas de dados com décadas de experiência. A comunidade Kaggle reúne pessoas para
desenvolver suas habilidades de análise de dados, compartilhar conjuntos de dados e cadernos interativos e colaborar na
solução de problemas de dados da vida real. Confira este breve vídeo introdutório para saber mais sobre o Kaggle.
Quando você concluir esta atividade, você poderá usar muitos dos principais recursos do Kaggle. Isso permitirá que você
crie cadernos e navegue pelos dados, o que é importante para concluir e compartilhar projetos de dados em sua carreira
como analista de dados.
Crie uma conta no Kaggle
Para começar, siga estes passos para criar uma conta do Kaggle.
● Observação: O Kaggle atualiza frequentemente sua interface de usuário. As alterações mais recentes podem não
ser refletidas nas capturas de tela, mas os princípios dessa atividade permanecem os mesmos. A adaptação às
https://www.youtube.com/watch?v=TNzDMOg_zsw
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
mudanças nas atualizações de software é uma habilidade essencial para os analistas de dados, e recomendamos
que você pratique a solução de problemas. Você também pode
entrar em contato com sua comunidade de alunos no fórum de
discussão para obter ajuda.
1. Vá para kaggle.com
2. Clique no botão Registrar no canto superior direito da página inicial do
Kaggle. Você pode se registrar com suas credenciais do Google ou seu
endereço de e-mail pessoal.
3. Depois de se registrar e fazer login no Kaggle, clique no ícone Conta no
canto superior direito da tela. No menu que se abre, clique no botão Seu
Perfil.
4. Na página do seu perfil, clique no botão Editar Perfil. Insira qualquer
informação que você gostaria de compartilhar com a comunidade Kaggle.
Seu perfil será público, portanto, insira apenas as informações que você
deseja compartilhar.
5. Se você quiser inspiração, confira o perfil da advogada da comunidade
de Kaggle, Jesse Mostipak!
Explore os cadernos Kaggle
Agora que você criou uma conta e configurou seu perfil, você pode conferir alguns cadernos no Kaggle. Os Kagglers usam
cadernos para compartilhar conjuntos de dados e análises de dados.
Etapa 1: Vá para a página inicial do código - Primeiro, vá para a barra de Navegação no lado esquerdo da tela. Em
seguida, clique no ícone Código. Isso leva você para a página inicial do
Código.
Etapa 2: Revise as contribuições do Kaggler - Na página inicial do
Código, você notará links para cadernos criados por outros Kagglers.
Para começar, fique à vontade para percorrer a lista e clicar nos
cadernos que lhe interessam. Ao explorar, você pode se deparar com
termos desconhecidos e novas informações: Tudo bem! Os Kagglers
vêm de diversas origens e se concentram em diferentes áreas de
análise de dados, ciência de dados, aprendizado de máquina e
aprendizado profundo.
Etapa 3: Limite sua pesquisa - Depois de se familiarizar com a página inicial do Código, você pode restringir os resultados
da pesquisa digitando uma palavra na barra de pesquisa ou usando o recurso de filtro. Por exemplo, digite Iniciante na
barra de pesquisa para mostrar cadernos marcados como adequados para iniciantes. Ou clique no ícone Filtro, a forma de
triângulo no lado direito da barra de pesquisa. Você pode filtrar os resultados por tags, linguagem de programação, saída e
outras opções. Filtre para Conjuntos de dados para mostrar cadernos que usam uma das dezenas de milhares de
conjuntos de dados públicos disponíveis no Kaggle.
Etapa 4: Analisar cadernos sugeridos
Se você está procurando sugestões específicas, confira os seguintes cadernos:
● gganimate https://www.kaggle.com/mrisdal/space-is-the-place por Meg Risdal
● Primeiros passos no R por Rachael Tatman
● Escrevendo letras de Hamilton com Tensorflow/R por Ana Sofia Uzsoy
● Mergulhe no dplyr (tutorial #1) por Jesse Mostipak
Passe algum tempo conferindo alguns cadernos para ter uma ideia do trabalho que os Kagglers compartilham online — e
que você poderá criar quando terminar este curso!
http://www.kaggle.com/
https://www.kaggle.com/jessemostipak
https://www.kaggle.com/jessemostipak
https://www.kaggle.com/mrisdal/gganimate
https://www.kaggle.com/rtatman/getting-started-in-r-first-stepshttps://www.kaggle.com/anasofiauzsoy/writing-hamilton-lyrics-with-tensorflow-r
https://www.kaggle.com/jessemostipak/dive-into-dplyr-tutorial-1
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Editar um caderno
Agora, dê uma olhada em um caderno específico: Mergulhe no dplyr (tutorial #1) de Jesse Mostipak. Siga estas etapas
para aprender a editar cadernos:
1. Clique no link para abrir o caderno. Ele contém o conjunto de dados com o qual você trabalhará mais tarde.
2. Clique no botão Copiar e Editar no canto superior direito para fazer uma cópia do caderno em sua conta. Agora, o
caderno aparece no modo Editar. O modo de edição
permite que você faça alterações no caderno, se desejar.
Esse caderno é privado. Se você quiser compartilhar
seu trabalho, você pode optar por torná-lo público.
Quando você copia e edita outro trabalho do Kaggler,
sempre faça alterações significativas no caderno antes
de publicá-lo. Dessa forma, você não está deturpando o
trabalho de outra pessoa como seu.
3. Tire um tempo para explorar o modo de Edição do
caderno. Algumas dessas coisas podem parecer
desconhecidas — e isso é ótimo. Ao final deste curso,
você saberá como criar um caderno como esse do zero!
Trabalhando com conjuntos de dados em cadernos
Agora, você pode conferir os dados!
Neste caderno, você encontrará os dados em uma caixa
chamada Dados no canto superior direito da tela. Na caixa,
há uma pasta de entrada com o título:
palmer-archipelago-antarctica-penguin-data. Siga estas
instruções para explorar os conjuntos de dados e aprender
mais sobre os dados contidos neles:
1. Clique neste título. Dois arquivos.csv aparecem:
penguins_lter.csv e penguins_size.csv. Clique em um deles.
Na parte inferior do caderno, agora você encontrará uma
tabela de dados interativa com todas as informações do
conjunto de dados.
2. Clique no outro arquivo.csv. Isso abre uma segunda guia
com o segundo conjunto de dados.
3. Reserve um momento para conferir cada conjunto de dados.
4. Classifique os dados em cada coluna clicando nas barras horizontais à direita do nome de cada coluna.
5. Clique no botão que diz 10 de 17 colunas para alterar as colunas que estão visíveis na tabela. No menu suspenso, há
uma marca de seleção ao lado do nome de cada coluna que aparece na tabela. Marcar ou desmarcar uma dessas caixas
mudará os dados apresentados.
Parabéns! Você explorou várias maneiras de interagir com o conjunto de dados. Isso ajudará você a se familiarizar com a
interface do Kaggle. Você pode salvar o caderno em que trabalhou para referência futura. A seguir, você aprenderá mais
sobre outras maneiras de usar o Kaggle.
Confirmação e reflexão
Pergunta 1 - Quais afirmações são verdadeiras sobre os dois conjuntos de dados de pinguins no caderno Dive into
dplyr (tutorial #1)? Selecione todas as opções aplicáveis.
Em ambos os conjuntos de dados, o número de colunas é o mesmo.
https://www.kaggle.com/jessemostipak/dive-into-dplyr-tutorial-1
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Em penguins_lter.csv, a coluna ID individual não pode ser classificada.
penguins_size.csv tem 7 colunas.
Em penguins_lter.csv, o valor mais alto na coluna Número da amostra é 152.
Pergunta 2 - Nesta atividade, você aprendeu muito sobre tipos de dados e estruturas de dados. Usando o que você
aprendeu até agora, considere sua experiência com conjuntos de dados e os dois conjuntos de dados de pinguins.
Na caixa de texto abaixo, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma das perguntas a
seguir:
● Usando todas as informações que você aprendeu ao explorar no Kaggle, como você descreveria completamente
esses conjuntos de dados para outra pessoa?
● Como você acha que compartilhar cadernos interativos online pode ajudá-lo a desenvolver suas habilidades de
análise de dados?
Ao compartilhar seu trabalho online, você poderá receber feedbacks sobre seu trabalho e seus códigos, o ue pode ajudar no
aprendizado constante de novas técnicas e procedimentos.
*Desafio semanal 1*
Pergunta 1 - Um analista de dados em uma editora de livros está trabalhando em um relatório urgente para
executivos. Eles estão usando apenas dados históricos. Qual é o motivo mais provável para escolher analisar
apenas dados históricos?
Os dados estão mudando constantemente
O projeto tem um prazo muito curto
Há muito tempo para pesquisar dados históricos
Os dados são desconhecidos
Correto
A razão mais provável para escolher analisar apenas dados históricos é que um projeto tem um período de tempo muito curto.
Pergunta 2 - Os dados contínuos são medidos e têm um número limitado de valores.
Verdadeiro
Falso
Correto
Os dados contínuos são medidos, mas podem ter quase qualquer valor numérico.
Pergunta 3 - Qual das seguintes questões coleta dados qualitativos nominais? Selecione todas as opções
aplicáveis.
Você já ouviu falar do nosso programa de lanchonete frequente?
Correto
“Alguém recomendou nosso restaurante para você hoje?”, “Você já ouviu falar do nosso programa de lanchonete frequente?”
e “É a primeira vez que janta neste restaurante?” são perguntas que coletam dados qualitativos nominais.
Qual é a probabilidade de você recomendar este restaurante a um amigo?
Alguém recomendou nosso restaurante para você hoje?
Correto
“Alguém recomendou nosso restaurante para você hoje?”, “Você já ouviu falar do nosso programa de lanchonete frequente?”
e “É a primeira vez que janta neste restaurante?” são perguntas que coletam dados qualitativos nominais.
É a primeira vez que janta neste restaurante?
Correto
“Alguém recomendou nosso restaurante para você hoje?”, “Você já ouviu falar do nosso programa de lanchonete frequente?”
e “É a primeira vez que janta neste restaurante?” são perguntas que coletam dados qualitativos nominais.
Pergunta 4 - Os dados internos são mais confiáveis porque são limpos.
Verdadeiro
Falso
Correto
Os dados internos são mais confiáveis porque residem nos próprios sistemas da empresa.
Pergunta 5 - Qual das opções a seguir é um exemplo de dados estruturados?
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Arquivo de áudio
Arquivo de vídeo
Foto digital
Banco de dados relacional
Correto
Um banco de dados relacional é um exemplo de dados estruturados.
Pergunta 6 - Preencha a lacuna: um tipo de dados booleano pode ter _____ valores possíveis.
10
três
dois
infinito
Correto
Um tipo de dados booleano pode ter dois valores possíveis.
Pergunta 7 - Em dados longos, colunas separadas contêm os valores e o contexto para os valores,
respectivamente. O que cada coluna contém em dados amplos?
Uma restrição específica
Uma variável de dados única
Um tipo de dado específico
Um formato único
Correto
Em dados amplos, cada coluna contém uma variável de dados exclusiva. Em dados longos, colunas separadas contêm os
valores e o contexto para os valores, respectivamente.
Pergunta 8 - A transformação de dados pode alterar a estrutura dos dados. Um exemplo disso é pegar os dados
armazenados em um formato e convertê-los em outro.
Verdadeiro
Falso
Correto
A transformação de dados pode alterar a estrutura dos dados. Um exemplo disso é pegar os dados armazenados em um
formato e convertê-los em outro.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
SEMANA 2 - VIÉS, CREDIBILIDADE, PRIVACIDADE, ÉTICA E ACESSO
DADOS IMPARCIAIS E OBJETIVOS
VÍDEO - GARANTINDO A INTEGRIDADE DOS DADOS - Bem-vindo de volta. Em um curso anterior, falamos sobre como preparar
dados de uma forma que o ajude a contar uma história significativa. Agora vamos descobrir o que vem a seguir. Como todos os contos
bons, sua história de dados será preenchida com personagens, perguntas, desafios, conflitos e, esperançosamente, uma resolução. O
truque é evitar o conflito, superar os desafios e responder às perguntas. É disso que trata este curso. Veja como faremos isso.
Primeiro, você aprenderá a analisar dados quanto ao viés e credibilidade. Isto é muito importante porque mesmo os dados mais
sólidos podem ser distorcidos ou mal interpretados. Então, aprenderemos sobre a importância de ser bom e ruim. Sim, como quando
éramos crianças.Mas, neste caso, exploraremos boas fontes de dados e aprenderemos como nos afastarmos de seus inimigos, os
dados ruins. Depois disso, aprenderemos mais sobre o mundo da ética, privacidade e acesso a dados. Conforme mais e mais dados
se tornam disponíveis, e os algoritmos que criamos para usar esses dados se tornam mais complexos e sofisticados, novos problemas
continuam surgindo. Precisamos fazer perguntas como “quem possui todos esses dados”? Quanto controle temos sobre a privacidade
dos dados? Podemos usar e reutilizar os dados da maneira que quisermos? Como analista de dados, é importante entender a ética e a
privacidade dos dados porque, em seu trabalho, você fará muitos julgamentos sobre o uso e a aplicação correta dos dados. Estou
ansiosa para lhe apresentar algumas das perguntas, respostas, riscos e recompensas envolvidas. Vamos iniciar o primeiro capítulo
desta história de dados no próximo vídeo.
VÍDEO - VÍÉS: DAS PERGUNTAS ÀS CONCLUSÕES - Vamos começar viajando no tempo, bem, pelo menos em nossas mentes.
Minha máquina do tempo real está na oficina. Imagine que você está de volta ao ensino médio e se inscreveu em um projeto para a
feira de ciências. Você trabalhou duro por semanas para aperfeiçoar cada elemento e eles estão prestes a anunciar os vencedores.
Você fecha os olhos, respira fundo e os ouve chamar seu nome em segundo lugar. Que pena, você queria tanto aquele troféu de
primeiro lugar, mas calma, você levará a medalha por reconhecimento. No dia seguinte, você fica sabendo que o juiz era o tio do
vencedor. Como isso é justo? Pode-se mesmo esperar que ele escolha um vencedor de forma justa quando o membro de sua própria
família é um dos competidores? Ele provavelmente está enviesado! Talvez a sobrinha dele merecesse vencer e talvez não. Mas a
questão é: é muito fácil argumentar a favor do viés nesse cenário. Este é um exemplo super simples, mas a verdade é que nos
deparamos com viés o tempo todo no dia a dia. Nossos cérebros foram biologicamente projetados para agilizar o pensamento e fazer
julgamentos rápidos. O viés evoluiu para se tornar uma preferência a favor ou contra uma pessoa, grupo de pessoas ou coisa.
Pode ser consciente ou subconsciente. A boa notícia é que, uma vez que sabemos e aceitamos que temos viés, podemos começar
a reconhecer nossos próprios padrões de pensamento e aprender como administrá-los. É importante saber que o viés também pode
descobrir seu caminho para o mundo dos dados. O enviesamento de dados é um tipo de erro que distorce sistematicamente os
resultados em uma determinada direção. Talvez as perguntas em uma pesquisa tivessem uma inclinação específica para influenciar
as respostas ou talvez o grupo de amostra não fosse verdadeiramente representativo da população que estava sendo estudada. Por
exemplo, se você for pegar a idade mediana da população de pacientes dos EUA com plano de saúde, não usaria apenas uma
amostra de pacientes do Medicare com 65 anos ou mais. O viés também pode ocorrer se um grupo de amostra não tiver incluído. Por
exemplo, pessoas com deficiências tendem a ser sub identificadas, sub-representadas ou excluídas nas pesquisas de saúde
convencionais. A maneira como você coleta dados também pode enviesar um conjunto de dados. Por exemplo, se você der às pessoas
apenas um curto espaço de tempo para responder às perguntas, suas respostas serão apressadas. Quando estamos com pressa,
cometemos mais erros, o que pode afetar a qualidade de nossos dados e criar resultados enviesados. Como analista de dados, você
deve pensar sobre viés e imparcialidade desde o momento em que você começa a coletar dados até o momento em que apresenta
suas conclusões. Afinal, essas conclusões podem ter implicações sérias. Reflita sobre isso: foi reconhecido que os estudos clínicos
sobre a saúde cardiovascular tendem a incluir muito mais homens do que mulheres. Isso fez com que as mulheres não reconhecessem
os sintomas e, por fim, seus problemas cardiovasculares não fossem detectados e tratados. Este é apenas um viés unilateral que pode
ter um impacto muito real. Embora já tenhamos percorrido um longo caminho no reconhecimento do viés, ainda assim você perdeu
para a sobrinha do juiz naquela competição de ciências. O viés ainda está influenciando as decisões de negócios, opções e acesso a
cuidados de saúde, ação governamental e muito mais. Portanto, ainda temos trabalho a fazer. A seguir, mostraremos como identificar
o viés nos próprios dados e explorar alguns cenários em que você possa realmente se beneficiar com isso.
VÍDEO - DADOS ENVIESADOS E IMPARCIAIS - Olá de novo. Até agora, aprendemos que os vieses que temos como pessoas podem
acabar criando dados enviesados. Somos enviesados quando temos preferências baseadas em nossas próprias noções
preconcebidas ou até mesmo subconscientes. Quando os dados são enviesados, eles podem distorcer sistematicamente os resultados
em uma determinada direção, tornando-os não confiáveis. Abordamos isso anteriormente usando o viés de amostragem como
exemplo. O viés de amostragem ocorre quando uma amostra não é representativa da população como um todo. Isto pode ser evitado
ao garantir que a amostra seja escolhida aleatoriamente, de modo que todas as partes da população tenham chances iguais de serem
incluídas. Se você não usar a amostragem aleatória durante a coleta de dados, acabará favorecendo um resultado. Esta é uma
maneira simples de analisar isso. Digamos que haja 50 alunos em uma classe e você deseja saber se a maioria da classe prefere
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
clima quente ou frio. Você decide pesquisar os primeiros 10 alunos que encontrar e, com base nas respostas deles, determina que
toda a classe prefere clima quente. Mas espere, há algum viés aí. Essas primeiras 10 pessoas eram todas mulheres, então apenas
mulheres foram incluídas em sua pesquisa. Sua pesquisa não foi uma representação justa de toda a classe porque não incluiu outros
identificadores em todo o espectro de gênero. Se você usasse uma amostra mais aleatória da população que incluísse todos os
gêneros, teria uma amostra não enviesada. A amostragem não enviesada resulta em uma amostra representativa da população
que está sendo medida. Outra ótima maneira de descobrir se você está trabalhando com dados não enviesados é dar vida aos
resultados com visualizações. No exemplo da classe que acabamos de abordar, você pode visualizar o número de alunos na classe em
geral e suas identidades de gênero com um gráfico de barras. Você pode então comparar isso a um gráfico de barras semelhante
mostrando os alunos que você pesquisou. Isso o ajudará a identificar facilmente qualquer desalinhamento com sua amostra. Certo,
agora que já sabemos como é o viés de uma perspectiva de amostragem, vamos explorar alguns outros tipos de viés e como
reconhecê-los.
TEMA DE DISCUSSÃO: Contabilização do viés
O viés é uma preferência consciente ou subconsciente que favorece ou desfavorece uma pessoa, um grupo de pessoas ou
uma coisa. Você aprendeu que os vieses podem afetar o julgamento das pessoas e distorcer os dados. A boa notícia é
que, depois que as pessoas sabem e aceitam que têm vieses, podem começar a reconhecer seus próprios padrões de
pensamento e aprender como melhorar. Com base no que você aprendeu até agora, você acha que é importante
considerar o viés em sua vida cotidiana? Por que ou por que não? Escreva um pequeno parágrafo (50-100 palavras)
descrevendo suas ideias sobre o viés. Inclua um exemplo específico de viés retirado de sua vida cotidiana. Por fim,
acesse o fórum de discussão para ler o que outros alunos escreveram e participe da discussão com, pelo menos, duas
publicações.
É essencial que se considere o viés dos dados coletados, pois assim podemos interpretar melhor o conjunto de dados
gerados.
VÍDEO - COMPREENDER O VIÉS NOS DADOS - Posso ser enviesado, mas acho que aprender sobre os aspectos bons e ruins dos
dados é muito fascinante. A seguir, descobriremos que há muitos tipos diferentes de viés de dados, além do viés de amostragem,que
abordamos anteriormente. Como uma atualização rápida, o viés de amostragem ocorre quando uma amostra não é representativa
da população como um todo. Por exemplo, caso esteja fazendo pesquisas sobre usuários de transporte e considera apenas as
pessoas que passam na calçada, perderá a opinião de pessoas que andam de bicicleta, dirigem ou pegam o metrô. Você precisa de
todos os lados da história para evitar o viés de amostragem. Neste vídeo, exploraremos mais três tipos de viés de dados, viés do
observador, viés de interpretação e viés de confirmação, e aprenderemos como evitá-los. Vamos começar com o viés do
observador, que às vezes é conhecido como viés do experimentador ou viés de pesquisa. Basicamente, é a tendência de
pessoas diferentes observarem as coisas de maneira diferente. Você deve se lembrar antes, aprendemos que os cientistas usam
muito as observações em seu trabalho, como quando olham bactérias em um microscópio para coletar dados. Embora dois cientistas
olhando no mesmo microscópio possam ver coisas diferentes, isso é viés do observador. Outra ocasião em que o viés do observador
pode ocorrer é durante as leituras manuais de pressão arterial. Como o medidor de pressão é muito sensível, os profissionais de
saúde costumam obter resultados bem diferentes. Normalmente, eles simplesmente arredondam para o número inteiro mais próximo
para compensar a margem de erro. Mas se os médicos consistentemente arredondarem para cima ou para baixo as leituras de
pressão arterial de seus pacientes, as condições de saúde podem ser atendidas e quaisquer estudos envolvendo seus pacientes não
teriam dados exatos e precisos. Outro tipo comum de viés de dados é o viés de interpretação. A tendência de sempre interpretar
situações ambíguas de forma positiva ou negativa. Aqui está um exemplo. Vamos dizer que você esteja almoçando com um colega,
quando recebe uma mensagem de voz de sua chefe, pedindo para retornar a ligação. Você desliga o telefone zangado, certo de que
ela está com raiva, e você fica responsável por alguma coisa. Mas quando você passa a mensagem para o seu amigo, ele não ouve
raiva alguma, ele realmente pensa que ela parece calma e direta. O viés de interpretação pode levar duas pessoas a verem ou
ouvirem exatamente a mesma coisa e a interpretarem de uma variedade de maneiras diferentes, porque têm formações e
experiências diferentes. Sua história com seu chefe fez você interpretar a ligação de uma forma, enquanto seu amigo interpretou de
outra forma, porque eles são estranhos. Adicione essas interpretações a uma análise de dados e você poderá obter resultados de viés.
O último tipo de viés que abordaremos me lembra o ditado "cada um vê o que quer ver". Isto resume o viés de confirmação em
poucas palavras. O viés de confirmação é a tendência de buscar ou interpretar informações de uma forma que confirme
crenças preexistentes. Alguém pode estar tão ansioso para confirmar um sentimento que só percebe as coisas que o apoiam,
ignorando todos os outros sinais. Isso acontece o tempo todo na vida cotidiana. Podemos obter nossas notícias de um determinado
site porque os escritores compartilham nossas crenças, ou nos socializamos com as pessoas porque sabemos que elas têm pontos de
vista semelhantes. Afinal, pontos de vista conflitantes podem nos fazer questionar nossa visão de mundo, o que pode nos levar a
mudar todo o nosso sistema de crenças e, vamos encarar, a mudança é difícil. Mas você sabe o que é ainda mais difícil? Fazer um
bom trabalho quando você tem dados ruins, por isso é importante evitar o viés. Os quatro tipos de viés de dados que abordamos,
viés de amostragem, viés do observador, viés de interpretação e viés de confirmação, são todos únicos, mas têm uma coisa em
comum. Cada um deles afeta a maneira como coletamos e dá sentido aos dados. Infelizmente, eles também são apenas uma
pequena amostra, com trocadilhos, dos tipos de viés que você pode encontrar em sua carreira como analista de dados. Mas a boa
notícia é que, depois de conhecer alguns, você se verá constantemente em guarda contra qualquer forma de viés. Também é
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
importante lembrar que, independentemente do tipo de dados que você usa, todos eles precisam ser inspecionados quanto à
precisão e confiabilidade. Falaremos mais sobre isso em breve, quando começarmos a explorar dados ruins. Até a próxima.
Teste seu conhecimento com dados imparciais e objetivos
Pergunta 1: Quais das seguintes opções são exemplos de dados discretos? Selecione todas as opções aplicáveis.
- Um estudo clínico inclui três vezes mais homens que mulheres.
Correto: Uma pesquisa com alunos em idade escolar que não inclui alunos que estudam em casa, uma votação nacional que entrevista
apenas pessoas com diploma universitário e um estudo clínico que inclui três vezes mais homens do que mulheres não são representativos
da população.
- Uma votação nacional que entrevista apenas pessoas com diploma universitário.
Correto Uma pesquisa com alunos em idade escolar que não inclui alunos que estudam em casa, uma votação nacional que entrevista
apenas pessoas com diploma universitário e um estudo clínico que inclui três vezes mais homens do que mulheres não são representativos
da população.
- Uma pesquisa com alunos em idade escolar que não inclui alunos que estudam em casa.
Correto
Uma pesquisa com alunos em idade escolar que não inclui alunos que estudam em casa, uma votação nacional que entrevista apenas
pessoas com diploma universitário e um estudo clínico que inclui três vezes mais homens do que mulheres não são representativos da
população.
- Uma empresa de análise de marketing online armazena dados em uma planilha.
Pergunta 2: Complete a lacuna: A tendência de buscar ou interpretar informações de forma a confirmar crenças
pré-existentes é viés de _____.
interpretação
confirmação
exemplo
observador
Correto A tendência de buscar ou interpretar informações de forma a confirmar crenças pré-existentes é viés de confirmação.
Pergunta 3: Quais dos seguintes termos também são maneiras de descrever vieses de observador? Selecione
todas as opções aplicáveis.
-Viés de percepção
-Viés do espectador
-Viés do experimentador
Correto - Viés do observador às vezes é referido como viés do experimentador ou viés de pesquisa.
-Viés de pesquisa
Correto - Viés do observador às vezes é referido como viés do experimentador ou viés de pesquisa.
VÍDEO - IDENTIFICAR BOAS FONTES DE DADOS - Ei, o que é bom? É sério, eu quero saber, o que é bom? Deixe-me colocar desta
forma. Se eu pedisse para citar uma boa música, talvez eu não gostasse. Isso porque o bom é subjetivo. O que eu acho bom e o que
você acha que é bom podem ser diferentes. E quanto a boas fontes de dados? Elas também são subjetivas? De certa forma são, mas
felizmente, há algumas práticas recomendadas a serem seguidas que o ajudarão a medir a confiabilidade dos conjuntos de dados
antes de usá-los. Isso é o que abordaremos neste vídeo. Acho que todos podemos concordar que todos queremos bons dados. Quanto
mais dados de alta qualidade tivermos, mais confiança podemos ter em nossas decisões. Vamos aprender como podemos encontrar e
identificar boas fontes de dados. Em primeiro lugar, precisamos aprender como identificá-los. Um processo que gosto de
chamar de ROCCC, R-O-C-C-C. Certo. Acabei de inventar isso, mas acho que as siglas são uma ótima maneira de ajudar as novas
informações a ficarem no cérebro. O que dá o pontapé inicial é R de real. Como um bom amigo, boas fontes de dados são
confiáveis. Com esses dados, você pode ter certeza que está obtendo informações precisas, completas e não enviesadas que foram
examinadas e comprovadamente adequadas para uso. Certo. Agora O. O é para o original. Há uma boa chance de você descobrir
dados por meio de uma fonte secundária ou de terceiros. Para ter certeza de que está lidando com dados confiáveis, certifique-se de
validá-los com a fonte original. É hora do primeiro C. C é para abrangente. As melhores fontes de dados contém todas as
informaçõescríticas necessárias para responder à pergunta ou encontrar a solução. Pense nisso desta maneira. Você não
gostaria de trabalhar para uma empresa só porque encontrou uma ótima avaliação online sobre ela. Você pesquisaria cada aspecto da
organização para ter certeza que era a mais adequada. É importante fazer o mesmo para sua análise de dados. O próximo C é para
atual. A utilidade dos dados diminui com o passar do tempo. Se você quisesse convidar todos os clientes atuais para um evento
de negócios, não usaria uma lista de clientes de 10 anos. O mesmo vale para os dados. As melhores fontes de dados são atuais e
relevantes para a tarefa em questão. O último C é para citado. Se você já contou a um amigo onde ouviu que uma nova sequência
de filmes estava sendo produzida, você citou uma fonte. Citar torna as informações que você está fornecendo mais confiáveis.
Quando for escolher uma fonte de dados, pense em três coisas. Quem criou o conjunto de dados? É parte de uma organização
confiável? Quando os dados foram atualizados pela última vez? Se você possui dados originais de uma organização confiável e eles
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
são abrangentes, atuais e citados, é então ROCCC! Muitos lugares são conhecidos por ter bons dados. Sua melhor aposta é ir
com os conjuntos de dados públicos examinados, artigos acadêmicos, dados financeiros e dados de agências
governamentais. Agora que você sabe como identificar os dados bons, quais ROCCC, está pronto para aprender sobre a montanha
de dados ruins e como evitá-los. Vamos continuar.
VÍDEO - O QUE SÃO DADOS RUINS - Bem-vindo de volta. Na última vez em que nos encontramos, aprendemos como identificar e
encontrar boas fontes de dados. Um processo que acabei inventando chamado de ROCCC. Descobrimos que se o conjunto de
dados for confiável, original, abrangente, atual e citado, é ROCCC (ou ainda melhor: é bom). Esperamos que isso refresque sua
memória. Agora é hora de extrair o que aprendemos sobre dados bons e aplicá-los à lição de hoje, fontes de dados ruins que não
são ROCCC. Eles não são confiáveis, originais, abrangentes, atuais ou citados. Pior ainda, eles podem estar totalmente errados
ou cheios de erros humanos. Começaremos de novo com R. R é para não confiável. Os dados ruins não são confiáveis porque
são imprecisos, incompletos ou enviesados. Podem ser dados com viés de seleção de amostra porque não refletem a população
geral. Ou podem ser visualizações de dados e gráficos que são apenas enganosos. Confira esses 2 gráficos de barras, por exemplo. O
da esquerda usa um ponto inicial do eixo y de 3,14%. E o da direita usa 0. Isso faz parecer que as taxas de juros dispararam em um
período de quatro anos, quando na verdade permaneceram bastante estáveis. Certo, agora O. O é para não original. Caso não
consiga localizar a fonte de dados original e esteja apenas contando com informações de segundos ou de terceiros, isso pode
indicar que você precisa ser extremamente cuidadoso ao entender seus dados. Agora, C é para não abrangente. As fontes de dados
ruins estão faltando informações importantes necessárias para responder à pergunta ou encontrar a solução. O que é pior, eles
podem conter erro humano também. O próximo C é para não atual. As fontes de dados ruins estão desatualizadas e são
irrelevantes. Muitas fontes respeitadas atualizam seus dados regularmente, dando-lhe a certeza que são as informações mais
recentes disponíveis. Por exemplo, você sempre pode confiar no Data.gov, que abriga os dados abertos do governo dos EUA. O último
C é para não citado. Se sua fonte não foi citada ou examinada, ela não será citada. Portanto, para resumir, bons dados devem ser
dados originais de uma organização confiável, abrangentes, atuais e citados. Deve ser ROCCC! Do contrário, são dados ruins. Se
precisar de uma grande fonte de dados confiável, verifique o Departamento U.S. Census Bureau, que atualiza regularmente suas
informações. É importante que os analistas de dados entendam e fiquem atentos aos dados ruins, pois eles podem ter impactos sérios
e duradouros. Quer seja uma conclusão incorreta que leva a uma decisão de negócios ruim ou de informações imprecisas que causam
falhas nos processos e colocam as populações em risco, toda boa solução é encontrada evitando-se dados ruins. Para obter bons
dados, use conjuntos de dados públicos examinados, artigos acadêmicos, dados financeiros e dados de agências
governamentais. E com isso, chegamos ao fim de nossa aventura com viés e credibilidade. Depois de mais alguns exercícios, você
estará pronto para o que vem pela frente. Espero com expectativa pelo seu progresso.
Teste seu conhecimento sobre credibilidade de dados
Pergunta 1 - Quais dos seguintes são normalmente bons recursos de dados? Selecione todas as opções aplicáveis.
Sites de media sociais
Papéis acadêmicos
Dados da agência governamental
Conjuntos de dados públicos examinados
Pergunta 2 - To determSe um recurso de dados for citado, você deveria perguntar quais das seguintes questões?
Selecione todas as opções aplicáveis.
É um conjunto de dados de uma organização incrível?
O dado é relevante para o problema que estou tentando resolver?
Quem criou esse conjunto de dados?
O conjunto de dados foi limpo corretamente?
Pergunta 3 - Um analista de dados está analisando dados de vendas para a versão mais novas de um produto. Eles usam
dados de terceiros sobre uma versão mais antiga de um produto. Por quais motivos isso é inapropriado para as análises
deles? Selecione todas as opções aplicáveis.
Os dados não são apurados
Os dados não são originais
Os dados não são atuais
Os dados são desconhecidos
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
ÉTICA E PRIVACIDADE DE DADOS
VÍDEO - INTRODUÇÃO A ÉTICA DE DADOS - Oi de novo, deixe-me perguntar uma coisa. O que vem à sua mente quando pensa na
palavra ética? Para mim, é um conjunto de princípios pelos quais se deve viver. A maioria das pessoas possui um código de ética
pessoal que as ajuda a navegar pelo mundo. Quando somos jovens, pode ser tão simples quanto nunca mentir, trapacear ou roubar,
mas à medida que envelhecemos, é uma lista muito mais ampla de coisas que devemos e não devemos fazer. Nossa ética pessoal
evolui e se torna mais racional, dando-nos uma bússola moral para usar ao enfrentarmos as questões, desafios e
oportunidades da vida. Quando analisamos dados, também nos deparamos com perguntas, desafios e oportunidades, mas temos
que confiar em mais do que simplesmente nosso código de ética pessoal para resolvê-los. Como aprendemos anteriormente, todos
nós temos nossos próprios vieses pessoais, sem mencionar os vieses subconscientes que tornam a ética ainda mais difícil de
navegar. É por isso que temos a ética de dados, um aspecto importante da análise que exploraremos aqui neste vídeo. Mas,
primeiro, voltemos à ideia geral de ética. Embora uma definição exata ainda esteja em discussão na filosofia, uma visão prática é que
a ética se refere a padrões bem fundamentados de certo e errado que prescrevem o que os humanos devem fazer, geralmente
em termos de direitos, obrigações, benefícios para a sociedade, justiça ou virtudes específicas. Assim como os humanos, os
dados também têm padrões que devem ser seguidos. A ética dos dados se refere a padrões bem fundamentados de certo e
errado que ditam como os dados são coletados, compartilhados e usados. Já que a capacidade de coletar, compartilhar e usar
dados em grandes quantidades é relativamente nova, as regras que regulam e governam o processo ainda estão em evolução. A
importância da privacidade de dados foi reconhecida pelos governos em todo o mundo e eles começaram a criar legislação de
proteção de dados para ajudar a proteger as pessoas e seus dados. O RGPD da União Europeia foi criado para fazer exatamente
isso. Enquanto os decisores políticos continuam seu trabalho, empresas como o Google têm a responsabilidade de liderar os esforços
e farão isso com o mesmo espírito de sempre, oferecendo produtos que tornam a privacidade uma realidade paratodos. O conceito de
ética de dados e questões relacionadas à transparência e privacidade fazem parte do processo. A ética dos dados tenta chegar à raiz
da responsabilidade que as empresas têm ao proteger e usar de forma responsável os dados que coletam. Existem muitos aspectos
diferentes da ética de dados, mas abordaremos seis deles: propriedade, transparência da transação, consentimento, moeda,
privacidade e abertura. Exploraremos a privacidade e a abertura de dados um pouco mais adiante. O primeiro é a propriedade. Isso
responde à questão de quem é o proprietário dos dados? Não é a organização que investiu tempo e dinheiro coletando, armazenando,
processando e analisando. São os indivíduos que possuem os dados brutos que fornecem e têm o controle principal sobre seu
uso, como são processados e compartilhados. Em seguida, temos a transparência da transação, que é a ideia de que todas as
atividades e algoritmos de processamento de dados devem ser totalmente explicáveis e compreendidos pelo indivíduo que
fornece seus dados. Isso é uma resposta às preocupações sobre o enviesamento de dados, o que já abordamos anteriormente, é um
tipo de erro que distorce sistematicamente os resultados em uma determinada direção. Os resultados enviesados podem levar a
consequências negativas. Para evitá-los, é útil fornecer uma análise transparente, especialmente para as pessoas que compartilham
seus dados. Isso permite que as pessoas julguem se o resultado é justo e não enviesado e permite que levantem possíveis
preocupações. Agora vamos falar sobre outro aspecto da ética de dados, o consentimento. Este é o direito do indivíduo de saber
detalhes explícitos sobre como e por que seus dados serão usados antes de concordar em fornecê-los. Eles devem saber as
respostas a perguntas como por que os dados estão sendo coletados? Como isso será usado? Por quanto tempo ele ficará
armazenado? A melhor forma de dar consentimento é provavelmente uma conversa entre a pessoa que fornece os dados e a pessoa
que os solicita. Mas, com tantas atividades online atualmente, o consentimento geralmente se parece com uma caixa de seleção dos
termos e condições com links para mais detalhes. Sejamos francos, nem todo mundo clica para ler esses detalhes. O consentimento é
importante porque evita que todas as populações sejam injustamente visadas, o que é um grande problema para grupos
marginalizados que muitas vezes são representados de forma desproporcional por dados enviesados. Em seguida, temos a moeda.
Os indivíduos devem estar cientes das transações financeiras resultantes do uso de seus dados pessoais e da escala dessas
transações. Se seus dados estão ajudando a financiar os esforços de uma empresa, você deve saber do que se trata esses esforços e
ter a oportunidade de optar por não participar. Os dois últimos aspectos da ética de dados, privacidade e abertura, merecem seu
próprio destaque neste estágio de dados. A seguir, você verá por quê.
VÍDEO - RENOVAÇÃO OPCIONAL - ALEX: A IMPORTÂNCIA DA ÉTICA DE DADOS - Olá, meu nome é Alex. Sou cientista de
pesquisas do Google. Minha equipe é chamada de Equipe de IA Ética. Somos um grupo de pessoas que se preocupam muito não
apenas com a forma que a tecnologia de IA opera, mas como ela interage com a sociedade e como pode ajudar ou prejudicar
comunidades marginalizadas. Quando falamos sobre ética de dados, pensamos sobre, qual é a maneira boa e certa de usar os dados?
De que maneiras vão ser os usos de dados que serão benéficos para as pessoas? Quando se trata de ética de dados, não é apenas
sobre minimizar os danos, mas na verdade esse conceito de beneficência. Como podemos realmente melhorar a vida das pessoas
usando dados? Quando pensamos sobre a ética de dados que estamos pensando em quem está coletando os dados? Por que estão
coletando? Como estão coletando? E com que propósito? Por causa da maneira como as organizações têm imperativos de ganhar
dinheiro, ou relatar a alguém, ou fornecer alguma análise, também devemos ter em mente como isso realmente vai beneficiar as
pessoas no fim das contas. As pessoas que estão representadas nestes dados serão beneficiadas por isso? Acho que é isso que você
nunca deve perder de vista como cientista ou analista de dados. Acho que os aspirantes a analistas de dados precisam ter em mente
que muitos dados que você vai encontrar são dados que vêm de pessoas. Mas, no fim das contas, os dados são pessoas. E você quer
ter uma responsabilidade para com aquelas pessoas que estão representadas nesses dados. Em segundo lugar, pensar em como
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
manter os aspectos dos dados delas protegidos e privados. Não devemos passar por nossa prática pensando sobre exemplos de
dados como algo que podemos apenas jogar na web. Não, é preciso haver considerações sobre como manter essas informações e
similares, como imagens, ou suas vozes ou textos. Como podemos manter isso privado? Também precisamos pensar em como
podemos ter mecanismos para dar aos usuários e consumidores mais controle sobre os dados deles. Não será suficiente apenas dizer
que coletamos todos esses dados e fomos confiados a todos eles. Mas precisamos garantir que haja formas acionáveis pelas quais as
pessoas possam consentir em fornecer esses dados e formas que elas possam solicitar a revogação ou remoção deles. Os dados
estão crescendo e, ao mesmo tempo, precisamos capacitar as pessoas para que tenham controle sobre os próprios dados. O futuro é
que os dados continuarão crescendo. Não vimos nenhum tipo de evidência de que os dados estejam diminuindo. E com o
conhecimento de que os dados estão crescendo, essas questões se tornam cada vez mais instigantes e cada vez mais importantes
para se pensar.
VÍDEO - INTRODUÇÃO A PRIVACIDADE DE DADOS - Já exploramos alguns aspectos importantes da ética de dados e uma das
áreas mais pessoais envolve a privacidade. A privacidade é pessoal. Todos nós podemos definir privacidade à nossa própria
maneira, e todos temos direito a ela. Quer sejam membros da família que desejam privacidade ao usar um computador
compartilhado, um adolescente que deseja compartilhar uma selfie apenas com pessoas específicas ou uma empresa que deseja
manter as informações do cartão de crédito de seus clientes seguras, estamos todos preocupados em como nossos dados são usados
 e compartilhados. A privacidade de dados é importante na cultura de hoje, então vamos explorá-la completamente. Ao falar sobre
dados, privacidade significa preservar as informações e atividades do titular dos dados sempre que ocorrer uma transação de
dados. Isso às vezes é chamado de privacidade de informações ou proteção de dados. É tudo uma questão de acesso, uso e
coleta de dados. Também abrange o direito legal de uma pessoa aos seus dados. Isso significa que alguém como você ou eu deve
ter proteção contra acesso não autorizado aos nossos dados privados, liberdade de uso impróprio de nossos dados, o direito
de inspecionar, atualizar ou corrigir nossos dados, capacidade de dar consentimento para usar nossos dados e o direito legal
para acessar nossos dados. Para as empresas, significa implementar medidas de privacidade visando proteger os dados dos
indivíduos. A privacidade dos dados é importante, mesmo que você não seja alguém que pense nisso todos os dias. A importância da
privacidade de dados foi reconhecida por governos em todo o mundo, e eles começaram a criar legislação de proteção de dados para
ajudar a proteger as pessoas e seus dados. Ser capaz de confiar seus dados às empresas é importante. É o que faz com que as
pessoas queiram usar o produto de uma empresa, compartilhar suas informações e muito mais. A confiança é uma responsabilidade
realmente grande que não pode ser encarada de forma leviana. O aspecto final que envolve a ética de dados é aquele que está sendo
constantemente abordado. A ideia de abertura, acesso gratuito, uso e compartilhamento de dados. Abordaremos isso em outro
vídeo. Você está no caminho certo para se tornar um analista de dados éticos.
Anonimizaçãode dados
O que é anonimização de dados?
Você tem aprendido sobre a importância da privacidade na análise de dados. Agora, é hora de falar sobre anonimização
de dados e quais tipos de dados devem ser anônimos. As Informações de identificação pessoal, ou PII, são
informações que podem ser usadas sozinhas ou com outros dados para rastrear a identidade de uma pessoa. A
anonimização de dados é o processo de proteger os dados privados e confidenciais das pessoas, eliminando esse
tipo de informação. Normalmente, a anonimização de dados envolve anulação, hashing ou mascaramento de
informações pessoais, muitas vezes usando códigos de comprimento fixo para representar colunas de dados ou
ocultando dados com valores alterados.
Seu papel na anonimização de dados
As organizações têm a responsabilidade de proteger seus dados e as informações pessoais que eles possam conter.
Como analista de dados, espera-se que você entenda quais dados precisam ser anônimos, mas geralmente você não
seria responsável pela sua própria anonimização de dados. Uma rara exceção pode ser se você trabalhar com uma cópia
dos dados para fins de teste ou desenvolvimento. Nesse caso, pode ser necessário tornar os dados anônimos antes de
trabalhar com eles.
Quais tipos de dados devem ser anônimos?
Os dados de saúde e financeiros são dois dos tipos de dados mais confidenciais. Esses setores dependem muito de
técnicas de anonimização de dados. Afinal, os riscos são muito altos. É por isso que os dados nesses dois setores
geralmente passam pela desidentificação, que é um processo usado para limpar os dados de todas as informações
de identificação pessoal. A anonimização de dados é usada em quase todos os setores. É por isso que é tão importante
que os analistas de dados entendam o básico. Aqui está uma lista de dados que muitas vezes são anônimos:
● Números de telefone
● Nomes
● Placas e números de licença
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● Números de previdência social
● Endereços de IP
● Registros médicos
● Endereços de e-mail
● Fotos
● Números de conta
Para algumas pessoas, faz sentido que esse tipo de dados seja anônimo. Para outros, temos que ser muito específicos
sobre o que precisa ser anônimo. Imagine um mundo onde todos nós tivéssemos acesso aos endereços, números de
contas e outras informações identificáveis uns dos outros. Isso invadiria a privacidade de muitas pessoas e tornaria o
mundo menos seguro. A anonimização de dados é uma das maneiras de manter os dados privados e seguros!
VÍDEO - ANDREW: O USO ÉTICO DE DADOS - Meu nome é Andrew. Sou um desenvolvedor sênior defensor do grupo de pesquisas
éticas de IA do Google. Como um defensor do desenvolvedor sênior, eu tento e ajudo a comunidade em geral a construir sistemas
socialmente responsáveis de IA. Uma consequência de não usar essa tecnologia de forma responsável é a possibilidade de
amplificar ou reforçar preconceitos injustos. Agora, esses algoritmos, esses conjuntos de dados, são frequentemente usados em
ambientes onde eles estão decidindo o resultado. Seja a curadoria de conteúdo para um indivíduo ou determinar se são ou não
elegíveis para um empréstimo, todos esses diferentes processos de tomada de decisão dependem dos algoritmos e dos conjuntos de
dados que estão sendo usados naquele contexto. E então, se isso fosse tratado de forma irresponsável, então, os próprios resultados
desses sistemas poderiam potencialmente prejudicar comunidades sub-representadas e grupos minoritários. Há muito que o campo, a
indústria, a comunidade, está aprendendo sobre o uso responsável de dados e IA. Então, o que tento fazer é correlacionar todos esses
elementos diferentes, seja trabalhando com vários grupos de pesquisa dentro do Google, trabalhando com várias equipes de produtos
do Google, envolvendo-se com a comunidade em geral. Temos que ir além e realmente educar aqueles que estão se esforçando para
construir esta tecnologia para o bem, mas podem não ter necessariamente os recursos ou a sabedoria da comunidade institucional
para realmente realizar suas boas intenções. Portanto, a verdade é que a IA, os dados e qualquer tecnologia construída em torno
disso, têm muitos benefícios excelentes nisso. Está melhorando a vida de muitas pessoas lá fora. Está nos permitindo fazer coisas que
não poderíamos fazer normalmente. Está nos dando recursos para pensar sobre outras coisas na vida. Este é mais um motivo pelo
qual é importante que nós, juntos, coletivamente, não apenas uma organização, mas toda a comunidade, e mesmo os não-tecnólogos
também, todos precisam estar envolvidos. Essa é a função, que desempenho aqui, que é tentar ajudar a IA a evoluir eticamente juntos,
e fazer isso é contingente sobre a democratização do uso responsável da IA.
Teste seus conhecimentos sobre ética e privacidade de dados
Pergunta 1 - Complete os espaços:_____ presume que todos os algoritmos e atividades de processamento de dados
sejam explicáveis e entendidos pelo indivíduo que fornece os dados.
Transparência de transações
Privacidade
Moeda
Abertura
Correto - A transação de transparência presume que todos os algoritmos e atividades de processamento de dados sejam explicáveis e
entendidos pelo indivíduo que fornece os dados.
Pergunta 2 - Um analista de dados elimina pessoalmente identificando as informações de uma base de dados. Quais
tarefas eles estão desempenhando?
Visualização de dados
Anonimização de dados
Coleta de dados
Classificação de dados
Correto - Estão desenvolvendo anonimização de dados, na qual é o processo de proteção de dados privados ou confidenciais das pessoas
por identificar eliminando informações.
Pergunta 3 - Antes de completar um questionário, um indivíduo reconhece informações de leitura sobre como e
por que os dados fornecidos serão utilizados. Qual é o nome desse conceito?
Critério
Moeda
Consentimento
Privacidade
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Correto
Este conceito é chamado consentir. Consentir é o aspecto da ética de dados que presume o direito que um indivíduo tem de saber como e
por que seus dados pessoais serão usados antes de concordar em fornecê-los.
COMPREENDER OS DADOS ABERTOS
VÍDEO - CARACTERÍSTICAS DOS DADOS ABERTO - Existe algo tão libertador em ser capaz de encontrar informações sobre
qualquer assunto na Internet. Não consegue se lembrar da 3ª linha da sua música favorita de infância, está curioso para saber quem
fez mais rebatidas de beisebol em 1986, quer aprender a língua de sinais sozinho? Basta abrir seu notebook, digitar algum texto e
pronto, você tem o que precisa. Muitos grupos acham que também devemos ter esse nível de acesso aos dados. Existe até um
movimento global que acredita que a abertura dos dados pode transformar a sociedade e como as decisões são tomadas. Até agora,
falamos muito sobre o poder dos dados e a importância das questões de ética de dados, incluindo propriedade, transparência
da transação, consentimento, moeda e privacidade. Agora, vamos falar sobre abertura. Quando se refere a dados, a abertura se
refere ao livre acesso, uso e compartilhamento de dados. Às vezes, nos referimos a isso como dados abertos, mas isso não significa
que ignoramos os outros aspectos da ética de dados que abordamos. Devemos ainda ser transparentes, respeitar a privacidade e
garantir o consentimento para os dados que pertencem a terceiros. Simplesmente significa que podemos acessar, usar e
compartilhar esses dados se eles atenderem a esses altos padrões. Por exemplo, existem padrões de disponibilidade e acesso. Os
dados abertos devem ser disponibilizados como um todo, preferencialmente através de download na Internet de forma
conveniente e modificável. O site data.gov é um ótimo exemplo. Você pode baixar dados científicos e de pesquisa para uma ampla
variedade de setores e formatos de arquivo simples, como uma planilha. Outro padrão envolve a reutilização e a redistribuição. Os
dados abertos devem ser fornecidos em termos que permitam a reutilização e redistribuição, incluindo a capacidade de
usá-los com outros conjuntos de dados. Ea última área é a participação universal. Todos devem ser capazes de usar, reutilizar
e redistribuir os dados. Não deve haver qualquer discriminação contra campos, pessoas ou grupos. Ninguém pode colocar
restrições aos dados, como torná-los disponíveis apenas para uso em um setor específico. Agora vamos falar um pouco mais
sobre por que os dados abertos são tão importantes e como podem ajudá-lo como analista de dados. Um dos maiores benefícios dos
dados abertos é que bancos de dados confiáveis podem ser usados de forma mais ampla. Mais importante, todos esses dados
bons podem ser aproveitados, compartilhados e combinados com outros dados. Imagine o impacto que isso teria na colaboração
científica, no avanço da pesquisa, na capacidade analítica e na tomada de decisões. Por exemplo, na saúde humana, a abertura nos
permite acessar e combinar diversos dados para detectar doenças cada vez mais com antecedência. No governo, você pode ajudar a
responsabilizar os líderes e fornecer melhor acesso aos serviços comunitários. As possibilidades e benefícios são quase infinitos. Mas
é claro que toda grande ideia tem seus desafios. Muitos recursos são necessários para fazer a mudança tecnológica para dados
abertos. A interoperabilidade é fundamental para o sucesso dos dados abertos. A interoperabilidade é a capacidade dos
sistemas e serviços de dados de se conectarem e compartilharem dados abertamente. Por exemplo, a interoperabilidade de
dados é importante para sistemas de informação de saúde, onde várias organizações, como hospitais, clínicas, farmácias e
laboratórios, precisam acessar e compartilhar dados para garantir que os pacientes recebam os cuidados que precisam. É por isso que
seu médico pode enviar sua receita diretamente à sua farmácia para preenchê-la. Eles têm bancos de dados compatíveis que
permitem o compartilhamento de informações. Mas esse tipo de interoperabilidade requer muita cooperação. Embora haja um
grande potencial no compartilhamento de dados aberto, oportuno, justo e simples, seu futuro dependerá de quão efetivamente os
desafios maiores serão enfrentados. Como analista de dados, digo que quanto mais cedo melhor. Falando nisso, vamos falar mais
sobre dados abertos e ver seu uso em ação em um próximo vídeo. Agora que aprendeu tudo sobre ética de dados, você tem alguns
princípios importantes para guiá-lo em sua jornada de dados. Sempre que você não estiver confiante de seus dados lembre-se do que
aprendeu aqui. Faça uma boa jornada.
O debate de dados abertos
Assim como a privacidade de dados, os dados abertos são um tópico amplamente debatido nos dias de hoje. Os analistas
de dados pensam muito sobre os dados abertos e, como futuro analista de dados, é preciso entender os fundamentos para
ter sucesso em sua nova função.
O que são dados abertos?
Na análise de dados, os dados abertos fazem parte da ética dos dados, que tem a ver com o uso de dados de forma
ética. A abertura refere-se ao livre acesso, uso e compartilhamento de dados. Mas
para que os dados sejam considerados abertos, eles devem:
● Estar disponível e acessível ao público como um conjunto de dados
completo
● Ser fornecido em termos que permitam sua reutilização e redistribuição
● Permitir a participação universal para que qualquer pessoa possa usar,
reutilizar e redistribuir os dados
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Os dados só podem ser considerados abertos quando atendem a todos esses três padrões.
O debate de dados abertos: Quais dados devem ser disponibilizados publicamente?
Um dos maiores benefícios dos dados abertos é que bancos de dados confiáveis podem ser usados de forma mais ampla.
Basicamente, significa que todos os dados bons podem ser aproveitados, compartilhados e combinados com outros
dados. Isso pode ter um grande impacto na colaboração científica, nos avanços da pesquisa, na capacidade analítica e na
tomada de decisões. Mas é importante pensar nos indivíduos sendo representados também pelo público, os dados
abertos. Os dados de terceiros são coletados por uma entidade que não tem uma relação direta com os dados. Você
deve se lembrar de ter aprendido sobre esse tipo de dados anteriormente. Por exemplo, terceiros podem coletar
informações sobre os visitantes de um determinado site. Isso permite que esses terceiros criem perfis de público, o que os
ajuda a entender melhor o comportamento do usuário e direcioná-los com publicidade mais eficaz. As Informações de
identificação pessoal (PII) são dados com probabilidade razoável de identificar uma pessoa e tornar conhecidas as
informações sobre ela. É importante manter esses dados seguros. As PII podem incluir o endereço de uma pessoa,
informações de cartão de crédito, número de previdência social, registros médicos e muito mais. Todos desejam manter a
privacidade de suas informações pessoais. Como os dados de terceiros estão prontamente disponíveis, é importante
equilibrar a abertura dos dados com a privacidade dos indivíduos.
VÍDEO - CARACTERÍSTICAS DOS DADOS ABERTO - Meu nome é Andrew. Sou um Advogado Desenvolvedor Sênior em um grupo
de pesquisa ética de IA do Google. Como um analista, há algumas coisas que você pode fazer enquanto avalia seu conjunto de dados,
a fim de garantir que você esteja olhando para isso através de várias lentes éticas. Uma delas é ser auto-reflexivo e entender o que é
que você está fazendo e o impacto que isso tem. A melhor maneira de desafiar isso é questionar quem somos. Estamos, tipo, ok,
nós nesta equipe estamos tentando construir isso porque pensamos que ajudará a melhorar este produto ou ajudará a informar as
decisões sobre o que queremos fazer a seguir. Pense não apenas naqueles que se sentam lateralmente ao seu lado, mas também
pense sobre aqueles que estão representados neste conjunto de dados e aqueles que não estão representados neste conjunto de
dados, e então use essa intuição para continuar a questionar a integridade, a qualidade, a representação que está presente nesse
conjunto de dados. E também, pense sobre os vários danos e riscos associados ao trabalho que você está fazendo. Por exemplo, se
você acha que você se beneficiará em manter o conjunto de dados por mais tempo, você pode querer também entender qual é o risco
de manter este conjunto de dados? Qual é o dano potencial que poderia surgir se você continuar a procurar no conjunto de dados e
continuar a armazená-lo e continuar a recuperar esses dados? E indo além disso, também entender como é o processo de
consentimento. Você está informando aqueles de quem está coletando dados como esses dados serão usados? Como é o canal de
comunicação? Colocando as várias lentes éticas, tendo uma abordagem mais diferenciada para sua análise, estar ciente de todos os
riscos possíveis e danos que podem surgir quando não está apenas analisando seu conjunto de dados, mas também apresentando seu
conjunto de dados. Como você retrata os resultados, como estão sendo usados no processo de tomada de decisão, se você está
apresentando isso para a gerência, ou apresentando isso aos executivos, ou apresentando isso para um público maior. Tudo isso
importa no uso responsável do conjunto de dados. Mas como analista de dados, você fica na interseção entre as mesmas pessoas
que irão se beneficiar da tecnologia que está sendo desenvolvida e aqueles em sua organização que estão tentando tomar
uma decisão mais informada quanto a se deve ou não avançar com a produção da tecnologia. Pode parecer que há muito peso
lá, e há, mas também é muito importante e tem a ver com o volume do seu trabalho.
Sites e recursos para dados abertos
Felizmente para os analistas de dados, existem muitos sites e recursos confiáveis disponíveis para dados abertos. É
importante lembrar que mesmo dados confiáveis precisam ser avaliados constantemente, mas esses sites são um ponto
de partida útil:
1. Site de dados do governo dos EUA: O site Data.gov é uma das fontes de dados mais abrangentes dos EUA.
Este recurso fornece aos usuários os dados e ferramentas de que precisam para fazer pesquisas e até mesmoos
ajuda a desenvolver aplicativos da web e móveis e a projetar visualizações de dados.
2. U.S. Census Bureau: Esta fonte de dados aberta oferece informações demográficas de governos federal,
estadual e local, e entidades comerciais nos EUA também.
3. Rede de Dados Aberta: Esta fonte de dados possui um motor de busca realmente poderoso e filtros avançados.
Aqui, você pode encontrar dados sobre tópicos como finanças, segurança pública, infraestrutura e habitação e
desenvolvimento.
4. Conjuntos de dados públicos do Google Cloud: Há uma seleção de conjuntos de dados públicos disponíveis
por meio do Programa de conjuntos de dados públicos do Google Cloud que você pode encontrar já carregados
no BigQuery.
https://www.data.gov/
https://www.census.gov/data.html
https://www.opendatanetwork.com/
https://cloud.google.com/public-datasets
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
5. Pesquisa de conjunto de dados: A Pesquisa de conjunto de dados é um mecanismo de busca projetado
especificamente para conjuntos de dados; você pode usar isso para pesquisar conjuntos de dados específicos.
Atividade prática: Conjuntos de dados Kaggle
Visão geral da atividade
Na última atividade você configurou o Kaggle e explorou as ferramentas do Notebook. Nessa atividade nós trabalharemos
com uma ferramenta diferente da plataforma Kaggle: base de dados. Kaggle tem dezenas de bases de dados que estão
disponíveis para o uso público. Qualquer um pode carregar uma base de dados para o Kaggle. Se eles escolhem deixá-lo
público, outros Kagglers podem utilizar aquela base de dados para criar seus próprios projetos. Primeiro, você fará um tour
de uma base de dados específica. Então, você terá a chance de escolher sua própria base de dados para trabalhar.
Finalmente, você usará o que aprendeu nesse módulo para determinar o tipo de dados na sua base de dados, quer seja os
dados falsos ou não. Quando você concluir esta atividade, você poderá usar muitos dos principais recursos que o Kaggle
oferece. Isto permitirá que você encontre dados para projetos e se envolva com a comunidade de dados, o que é
importante para desenvolver habilidades e networking em sua carreira como analista de dados.
Explorar conjuntos de dados Kaggle
Vamos explorar essa ferramenta da base de dados!
Encontrar um conjunto de dados
1. Para começar faça login em sua conta Kaggle.
● Observação: O Kaggle atualiza frequentemente sua interface de usuário. As alterações mais recentes podem não
ser refletidas nas capturas de tela, mas os princípios dessa atividade permanecem os mesmos. A adaptação às mudanças
nas atualizações de software é uma habilidade essencial para os analistas de dados, e recomendamos que você pratique
a solução de problemas. Você também pode entrar em contato com sua comunidade de alunos no fórum de discussão para
obter ajuda.
2. Depois, clique no ícone de Dados na barra de Navegação à esquerda. Isso leva você para a página inicial do Conjunto
de dados. A partir daqui você pode criar um novo conjunto de dados ou procurar por conjuntos de dados criados por outros
Kagglers.
3. Agora verifique um conjunto de dados específico. Digite Animal
Crossing na barra de pesquisa para encontrar conjunto de dados
relacionados ao jogo de Nintendo Animal Crossing.
4. Há mais de uma opção, então clique no Catálogo de Animal
Crossing New Horizons. Isso leva você a página de entrada para esse
conjunto de dados.
Tour em uma página de entrada de um conjunto de dados
Cabeçalho: O cabeçalho no topo da página contém a seguinte informação sobre o conjunto de dados:
● Seu título
● Uma breve descrição sobre seus conteúdos
● O nome de seu criador
● Quando foi atualizado pela última vez
● Sua versão atual
Carimbo:No lado direito superior do cabeçalho você encontrará mais três itens:
https://datasetsearch.research.google.com/
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● Uma estampa no formato de um círculo
● Um ícone de formato de acento circunflexo ( ^ )
● Um número
A estampa está ligada à progressão do sistema Kaggle. Se quiser, pode ler mais
sobre isso aqui.
Votos: Clicar no acento circunflexo permite-lhe “votar” no conjunto de dados. O
número mostra o número de vezes que esse conjunto de dados foi votado pela
comunidade Kaggle.
Abas: Abaixo do cabeçalho tem uma barra com seis abas: Dados, Tarefas,
Anotações, Discussão, Atividade, e Conjunto de dados. Tire um momento para
clicar em cada dessas abas e explorar seus conteúdos. Logo após navegue de volta para a aba de Dados!
Agora você pode mover a página para baixo. Você encontrará uma caixa que contém três termos: Usabilidade, Licença e
Tags.
A Usabilidade mostra como completar a página do conjunto de dados (e não o conjunto dados específicos). O Kaggle
incentiva a comunidade a adicionar informações à página da Web do conjunto de dados para tornar o próprio conjunto de
dados mais fácil de entender. Por exemplo, uma descrição ou uma coluna no cabeçalho. Flutue seu cursor sobre a
Pontuação de usabilidade para descobrir o que a página de dados contém.
As licenças controlam como um conjunto de dados pode ser usado. Clique no nome da licença para saber mais sobre
aquele nome de licença específico.
As Tags referem-se a nomes diferentes ou categorias. Por exemplo, se clicar na tag vídeo games você irá para uma página
que mostra tudo relacionado aos videogames no Kaggle. Isso inclui repetições, anotações e conjunto de dados!
A próxima caixa abaixo contém uma descrição detalhada do conjunto de dados. Os Kagglers sempre incluem informações
de onde os conjuntos de dados vem e como os conjuntos de dados foram preparados.
E por último—mas não menos importante—é o Explorador de Dados!
Utilize o explorador de dados
O menu do Explorador de Dados mostra que o conjunto de dados do Animal
Crossing contém 30 arquivos .csv. Se clicar no nome de um arquivo, a janela à
direita mostrará informações desse arquivo específico. Experimente clicar no
umbrellas.csv para verificar!
Faça um tour no explorador da base de dados
Veja que o Data Explorer tem três opções de visualização: Detalhe, Compacto, e Coluna. Agora, focaremos na barra de
Detalhes.
A descrição no topo da aba Detalhes mostra que o ficheiro umbrellas.csv contém dados sobre todos os guarda-chuvas do
vídeo game. Agora, vamos verificar as colunas. Cada cabeçalho da coluna tem três itens:
● Um ícone pequeno na esquerda que mostra os tipos de dados
● O nome de cada coluna
● Um ícone com três barras que permite-lhe organizar os dados se clicar nele.
Abaixo do cabeçalho de cada coluna tem uma caixa que contém um resumo dos dados. Isso permite-lhe rapidamente
obter uma ideia do que está no conjunto de dados. Por exemplo, o resumo para a coluna Nome mostra que existem 67
valores únicos para os nomes de guarda-chuva. O resumo da coluna DIY mostra que 9 das receitas de guarda-chuva são
DIY (do it yourself) ou "faça você mesmo". Tire um momento para explorar os resumos para as outras colunas.
E que completo é nosso tour! É muita informação. Sinta-se livre para voltar e rever.
Acesso a um conjunto de dados
https://www.kaggle.com/progression/
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Depois de explorar um conjunto de dados, você pode vinculá-lo a um caderno Kaggle ou baixá-lo para acessá-lo para seu
próprio uso. Ligar um conjunto de dados a um caderno Kaggle significa que você cria um novo caderno a partir do conjunto
de dados existente para que ele esteja disponível para você usar.
Encontre seu próprio conjunto de dados
Então, você terá a chance de escolher sua própria base de dados para trabalhar! Use os seguintes passos para encontrar
conjunto de dados que lhe interessem:
1. Quando você estiver pronto clique no ícone de Dados na esquerda para retornar a página inicial do Conjunto de dados.
2. Observe que os conjuntos de dados podem existir em uma variedade de formatos. Se você quiser ter certeza que seu
conjunto de dados está em um formato .csv, clique no botão Filtro no lado direito da barra de pesquisa do Conjunto de
dados. Depois escolha CSV do menu.
3. Encontre de 2 a 3conjuntos de dados que você esteja interessado em explorar mais a fundo.
4. Crie notas a partir deles, descarregue-os, ou consulte-os no Data Explorer. Mantenha estes conjuntos de dados em
mente para a sua próxima reflexão.
Ligue ou transfira um conjunto de dados
Aqui estão as opções para criar uma nota ou descarregar o conjunto de dados:
● Crie uma nota Kaggle: Para ligar um conjunto de dados a uma nota Kaggle, clique no botão Nova Nota no
cabeçalho do conjunto de dados. Isso criará uma nota na sua conta Kaggle que liga ao conjunto de dados.
● Baixe o conjunto de dados: Para transferir uma cópia do conjunto de dados para seu computador, clique no botão
de Download no cabeçalho do conjunto de dados, localizado no topo da página.
● Abra o arquivo no Google Sheets: Para abrir uma visão do arquivo no Google Sheets, clique no ícone de
download no topo direito do Data Explorer. Você pode enfim baixar o arquivo.
Confirmação e reflexão
Pergunta 1 - O conjunto de dados e o Data Explorer do Kaggle permite-lhe fazer quais tarefas?
Criar visualizações de conjunto de dados
Acessar conjunto de dados
Correto
O conjunto de dados e o Data Explorer do Kaggle permite-lhe pesquisar por acessos, e carregar os seus próprios conjuntos de dados. Você
pode usar o Kaggle para conduzir a pesquisa, completar dados de projetos, e compartilhar suas conquistas com outros membros da
comunidade da ciência de dados.
Procurar por conjunto de dados
Correto
O conjunto de dados e o Data Explorer do Kaggle permite-lhe pesquisar por acessos, e carregar os seus próprios conjuntos de dados. Você
pode usar o Kaggle para conduzir a pesquisa, completar dados de projetos, e compartilhar suas conquistas com outros membros da
comunidade da ciência de dados.
Carregar seu próprio conjunto de dados
Correto
O conjunto de dados e o Data Explorer do Kaggle permite-lhe pesquisar por acessos, e carregar seus próprios conjunto de dados. Você
pode usar o Kaggle para conduzir a pesquisa, completar dados de projetos, e compartilhar suas conquistas com outros membros da
comunidade da ciência de dados.
Pergunta 2 - Até agora você aprendeu bastante sobre como usar o Kaggle para explorar o conjunto de dados.
Durante essa atividade você usou esse conhecimento para encontrar um conjunto de dados que tem interesse.
Mantenha esses conjuntos de dados em mente e na caixa de texto abaixo, escreva 2-3 frases (40-60 palavras) em
resposta a cada uma das seguintes perguntas:
● Qual(is) tipo(s) de dados estão nesse conjunto de dados? Este conjunto de dados é falso ou real? Como
saber?
● Com base no que explorou até agora, como pode usar o conjunto de dados do Kaggle para ajudar a
desenvolver as suas capacidades de análise de dados?
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Entre os dados selecionados estão: valores de salário de analistas de dados, placares dos jogos da liga inglesa de futebol
e uma coletânea de dados populacionais desde 1960. Aparentemente são dados reais, porém não posso afirmar.
A plataforma kaggle oferece uma ampla possibilidade de dados com os quais podemos trabalhar enquanto estamos
aprendendo a ciência da análise de dados.
Correto
Parabéns por concluir esta atividade prática! Uma resposta forte incluiria que a Kaggle lhe dá acesso a toneladas de conjuntos de dados
públicos que pode utilizar para praticar a análise de dados e criar os seus próprios projetos. Além disso, considere o seguinte:
Plataformas online como o Kaggle permitem-lhe procurar, visualizar, explorar, carregar, e trabalhar com conjuntos de dados a partir de uma
variedade de fontes e perspectivas. Compreender como funciona o Kaggle e como utilizá-lo ajudará a desenvolver as suas competências e a
crescer como analista de dados.
Teste seu conhecimento sobre dados abertos
Pergunta 1 - Qual aspecto da ética dos dados promove o acesso, uso e compartilhamento livre dos dados?
Abertura
Privacidade
Consentimento
Transparência de transações
Correto
Openness é o aspecto da ética de dados que promove o livre acesso, uso e compartilhamento dos dados.
Pergunta 2 - Quais são os principais benefícios dos dados abertos? Selecione todas as opções aplicáveis.
Dados abertos combinam dados de diferentes campos de conhecimento.
Correto
Os benefícios dos dados abertos incluem fazer bons dados mais amplamente disponíveis e combinar dados de diferentes campos de
conhecimento.
Dados abertos aumentam o tamanho dos dados disponíveis para compra.
Dados abertos tornam os bons dados mais amplamente disponíveis.
Correto
Os benefícios dos dados abertos incluem fazer bons dados mais amplamente disponíveis e combinar dados de diferentes campos de
conhecimento.
Dados abertos restringe acesso de dados para certos grupos de pessoas.
Pergunta 3 - A participação universal é um padrão de dados abertos. Quais são os aspectos-chave da participação
universal? Selecione todas as opções aplicáveis.
Determinados grupos de pessoas devem compartilhar seus dados privados.
Todas as corporações são permitidas para vender dados abertos.
Ninguém pode alocar restrições em dados para discriminar contra uma pessoa ou grupo.
Correto
Os aspectos chave da participação universal são que todos devem ser disponíveis para utilizar, reutilizar, e redistribuir dados abertos.
Também, ninguém pode alocar restrições em dados para discriminar contra uma pessoa ou grupo.
Todos devem ser capazes de utilizar, reutilizar e redistribuir os dados abertos.
Correto
Os aspectos chave da participação universal são que todos devem ser disponíveis para utilizar, reutilizar, e redistribuir dados abertos.
Também, ninguém pode alocar restrições em dados para discriminar contra uma pessoa ou grupo.
*Desafio semanal 2*
Parabéns! Você foi aprovado!
Nota recebida 93,75%
Nota do envio mais recente 93,75%
Pergunta 1 - Quais das seguintes situações são exemplos de viés? Selecione todas as opções aplicáveis.
- Uma creche que não contrata homens para cargos de creche
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
- Um estudioso que só lê fontes que apoiam seus argumentos
Correto
Um estudioso que só lê fontes que apoiam seu argumento, uma creche que não contrata homens para cargos de creche e um juiz de
competição de dança que é amigo próximo da dançarina que vence a competição são exemplos de viés.
- Um juiz de competição de dança que é amigo próximo da dançarina que vence a competição
Correto
Um estudioso que só lê fontes que apoiam seu argumento, uma creche que não contrata homens para cargos de creche e um juiz de
competição de dança que é amigo próximo da dançarina que vence a competição são exemplos de viés.
- Um pesquisador que pesquisa um grupo de amostra representativo da população
Pergunta 2 - Quais dos seguintes tipos de enviesamento de dados são frequentemente encontrados na análise de
dados? Selecione todas as opções aplicáveis.
- Viés educacional
- Viés de confirmação
Correto
Viés do observador, viés de interpretação e viés de confirmação são tipos de viés frequentemente encontrados na análise de dados.
- Viés do observador
Correto
Viés do observador, viés de interpretação e viés de confirmação são tipos de viés frequentemente encontrados na análise de dados.
- Viés de interpretação
Você não selecionou todas as respostas corretas
Pergunta 3 - Em geral, a utilidade dos dados diminui com o passar do tempo.
Verdadeiro
Falso
Correto
Em geral, a utilidade dos dados diminui com o passar do tempo. As melhores fontes de dados são atuais e relevantes.
Pergunta 4 - Preencha a lacuna: A _____ dos dados referem-se a padrões bem fundamentados de certo e errado
que ditam como os dados são coletados, compartilhados e usados.
ética
credibilidade
privacidade
anonimização
Correto
A ética dos dados se refere a padrões bem fundamentados de certo e errado que ditam como os dados são coletados, compartilhados e
usados.
Pergunta 5 - Um indivíduo que fornece seus dados tem o direito de saber e compreender todas as atividades de
processamento de dados e algoritmos usados nesses dados. Esse conceito se refere a qual aspecto da ética de
dados?
Transparênciade transações
Consentimento
Moeda
Propriedade
Correto
Isso se refere à transparência da transação, que é a ideia de que um indivíduo que fornece seus dados tem o direito de saber e compreender
todas as atividades de processamento de dados e algoritmos usados nesses dados.
Pergunta 6 - Um empregador acessa o relatório de crédito de um funcionário sem seu consentimento. Isso não é
uma violação da privacidade do funcionário, pois ele trabalha na empresa.
Verdadeiro
Falso
Correto
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Um empregador não pode acessar o relatório de crédito de um funcionário sem seu consentimento. Isso é uma violação da privacidade de
dados do funcionário.
Pergunta 7 - Quais dos seguintes métodos são normalmente usados para tornar os dados anônimos? Selecione
todas as opções aplicáveis.
Anulação
Exclusão
Mascaramento
Hashing
Correto
Anulação, hashing e mascaramento são métodos comuns de anonimização de dados.
Pergunta 8 - O governo de uma grande cidade coleta dados sobre a qualidade da infraestrutura da cidade.
Qualquer empresa, organização sem fins lucrativos ou pessoa pode acessar os bancos de dados do governo e
reutilizar ou redistribuir os dados. Este é um exemplo de dados abertos?
Sim
Não
Correto
Este é um exemplo de dados abertos. Todos devem ser capazes de usar, reutilizar e redistribuir dados abertos.
SEMANA 3 - BANCO DE DADOS: ONDE OS DADOS RESIDEM
TRABALHANDO COM BANCO DE DADOS
VÍDEO - TUDO SOBRE BANCOS DE DADOS - Olá de novo. Até agora, como os dados podem ser coletados e analisados para
resolver todos os tipos de problemas. Agora, vamos aprender tudo sobre bancos de dados como uma atualização. Um banco de
dados é uma coleção de dados armazenados em um sistema de computador, mas o armazenamento é apenas o começo. Você
descobrirá como os bancos de dados possibilitam encontrar o pedaço exato de informação que você precisa para sua análise. Você
também aprenderá como classificar os dados para ampliar o que você precisa para gerar relatórios detalhados e muito mais. Depois
iremos nos aprofundar ainda mais, e é sério, muito, muito profundo. Estou falando sobre metadados. Você provavelmente já ouviu
alguém dizer, Uau, isso é tão meta. Normalmente eles estão falando de algo referenciando-se a si mesmo ou sendo
completamente consciente de si mesmo. Por exemplo, se um personagem de um livro sabe que ela está em um livro, isso é meta.
Se você fizer um documentário sobre como fazer documentários, isso também é meta. E aqui no Google, a forma como eu analiso
dados está sempre sob minha avaliação. Isso é definitivamente uma meta. Faço isso como verificação da qualidade do trabalho
para garantir que meus métodos são justos. E para ter certeza de que estou prestando atenção a qualquer parcialidade que possa
interferir no resultado. Como analista, você deve fazer isso também. Às vezes ficamos muito próximos de nossos dados. Então,
afastar-se e perguntar a nós mesmos se nossos processos fazem sentido é fundamental. Mas vamos voltar um pouco e definir o que é
metadados. Metadados são dados sobre dados. Como eu disse: profundo. Os metadados são extremamente importantes quando
se trabalha com bancos de dados. Pense nisso como um guia de referência. Sem o guia tudo o que você tem é um monte de dados
sem contexto que explique o que significa. Os metadados dizem a você de onde vêm os dados, de quando e como foram criados.
Isso são os metadados. A seguir, você aprenderá como obter dados de um banco de dados ou de outra fonte e inseri-los em uma
planilha. Você fará isso por importação direta ou usando SQL para gerar uma requisição. E uma vez que você tenha dados em uma
planilha, as possibilidades são infinitas. Tudo o que estamos prestes a ver é uma parte importante da fase de preparação do processo
de análise de dados. É como os analistas de dados descobrem que tipo de dados serão os mais úteis para eles. Se você tiver os
dados corretos, é muito mais provável que você seja capaz de resolver com sucesso os problemas em seu negócio. Então, pronto para
conhecer o incrível poder dos bancos de dados? Vamos lá!
VÍDEO - RECURSOS DE BANCOS DE DADOS - Os banco de dados são ferramentas essenciais para os analistas de dados. Eu os
uso constantemente. Praticamente todos os dados que eu acesso estão armazenados em bancos de dados. Os banco de dados
armazenam e organizam os dados, tornando-os muito mais fáceis para analistas de dados gerenciarem e acessarem informações.
Eles nos ajudam a obter insight mais rapidamente, tomam decisões orientadas por dados e resolvem problemas. Você já ouviu um
pouco sobre o que são banco de dados e como eles são usados pelos analistas de dados. Agora vamos aprender mais sobre
características e componentes do banco de dados. Aqui está uma estrutura simples de banco de dados. Ele contém tabelas com
informações de um fabricante de automóveis. O alto nível inclui concessionárias de automóveis, detalhes do produto, e peças de
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
reparo. Então, se você detalhar até o próximo nível selecionando uma dessas tabelas, você vai encontrar detalhes mais específicos
sobre cada item. Isso é chamado de banco de dados relacional. Um banco de dados relacional é um banco de dados que contém
uma série de tabelas relacionadas que podem ser conectadas através de seus relacionamentos. Para que duas tabelas tenham
um relacionamento, um ou mais dos mesmos campos devem existir dentro de ambas as tabelas. Por exemplo, aqui, a
identificação da filial existe nessas duas tabelas aqui. Se existe um campo em ambas as tabelas, nós podemos usá-los para conectar
as tabelas. O campo de identificação da filial é a chave para conectar estas tabelas. Há dois tipos de chaves. Uma chave primária é
um identificador que faz referência a uma coluna na qual cada valor é único. Você pode pensar nisso como um identificador para
cada linha em uma tabela. Para nossa tabela de concessionárias com informações sobre os diferentes ramos de concessionárias, a
identificação da filial é a chave primária. Da mesma forma, para a tabela de detalhes do produto sobre cada carro, o VIN é nossa chave
primária. Como analista, você pode precisar criar tabelas. Se você decidir incluir uma chave primária, ela deve ser única, o que
significa que não há duas linhas que possam ter a mesma chave primária. Além disso, não pode ser nulo ou em branco. Há
também chaves estrangeiras. Uma chave estrangeira é um campo dentro de uma tabela que é uma chave primária em outra
tabela. Em outras palavras, uma chave estrangeira é como uma tabela pode ser conectada a outra. Porque nossa tabela de peças de
reparo contém informações sobre cada parte do carro, a chave primária é a identificação da peça. Cada linha em nossa tabela de
peças de reparo representa uma parte única. Todas as outras chaves desta tabela, tais como o VIN, são as chaves estrangeiras que
permitem a tabela de peças de reparo ser conectada às outras tabelas. Como você pode ver, uma tabela só pode ter uma chave
primária, mas pode ter múltiplas chaves estrangeiras. Compreender as chaves primárias e estrangeiras pode ser complicado, por isso
você terá mais oportunidades para praticar logo em breve. Mas como um resumo geral, uma chave primária é usada para garantir
que os dados em uma coluna específica sejam únicos. Identificam de forma única um registro em uma tabela de banco de
dados relacional. Apenas uma chave primária é permitida em uma tabela e elas não podem conter valores nulos ou em branco.
E uma chave estrangeira é uma coluna ou grupo de colunas em uma tabela de banco de dados relacional que fornece uma
ligação entre os dados e duas tabelas. Refere-se ao campo em uma tabela que é a chave primária em outra. Finalmente, é
importante notar que é permitida a existência de mais de uma chave estrangeira em uma tabela. Sinta-se à vontade para assistir
novamente a este vídeo para certificar-se de que você entendeu claramente sobre as chaves primárias e estrangeiras. E em seguida,
você irá praticar como acessar e analisar dados de bancos dedados reais. Essa será uma grande oportunidade para melhorar sua
compreensão das chaves primárias e estrangeiras, organização de banco de dados e como você pode usar bancos de dados em sua
futura carreira de analista.
Bancos de dados em análise de dados
Os bancos de dados permitem aos analistas manipular, armazenar e processar dados. Isso ajuda a pesquisar os dados
com muito mais eficiência para obter as melhores ideias.
Banco de dados relacional
Um banco de dados relacional é um banco de dados que contém uma série de tabelas que podem ser conectadas para
mostrar as relações. Eles permitem, basicamente, que os analistas de dados organizem e liguem os dados com base no
que os dados têm em comum.
Em uma tabela não-relacional, você encontrará todas as variáveis possíveis que você possa estar interessado em analisar
todas agrupadas. Isso pode dificultar a classificação. Essa é uma razão pela qual os bancos de dados relacionais são tão
comuns na análise de dados: eles simplificam muitos processos de análise e tornam os dados mais fáceis de encontrar e
usar em todo um banco de dados.
A chave para os banco de dados relacionais
As tabelas em um banco de dados relacional estão conectadas pelos campos que elas têm em comum. Você deve se
lembrar de ter aprendido sobre chaves primárias e estrangeiras antes. Como uma rápida atualização, uma chave primária
é um identificador que faz referência a uma coluna na qual cada valor é único. Em outras palavras, é uma coluna de
uma tabela que é usada para identificar de forma única cada registro dentro daquela tabela. O valor atribuído à chave
primária em uma determinada linha deve ser único dentro de toda a tabela. Por exemplo, se o customer_id for a chave
primária para a tabela do cliente, não existirá dois clientes com o mesmo client_id.
Em contraste, uma chave estrangeira é um campo dentro de uma tabela que é uma chave primária em outra tabela.
Uma tabela pode ter apenas uma chave primária, mas pode ter várias chaves estrangeiras. Estas chaves são o que cria as
relações entre as tabelas em um banco de dados relacional, o que ajuda a organizar e conectar dados em várias tabelas
do banco de dados.
Algumas tabelas não exigem uma chave primária. Por exemplo, uma tabela de receitas pode ter várias chaves
estrangeiras e não ter uma chave primária. Uma chave primária também pode ser construída usando múltiplas colunas de
uma tabela. Este tipo de chave primária é chamada de chave composta. Por exemplo, se customer_id e location_id são
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
duas colunas de uma chave composta para uma tabela de clientes, os valores atribuídos a esses campos em qualquer
linha determinada devem ser únicos dentro de toda a tabela.
SQL? Você está falando minha língua
Os bancos de dados utilizam uma linguagem especial para se comunicar, chamada linguagem de consulta. Linguagem de
Consulta Estruturada (SQL) é um tipo de linguagem de consulta que permite aos analistas de dados se comunicarem
com um banco de dados. Assim, um analista de dados usará SQL para criar uma consulta para visualizar os dados
específicos que eles desejam de dentro do conjunto maior. Em um banco de dados relacional, os analistas de dados
podem escrever consultas para obter dados das tabelas relacionadas. SQL é uma ferramenta poderosa para trabalhar com
bancos de dados - e é por isso que você vai aprender mais!
Inspecionando um conjunto de dados: Um tour prático guiado
Como analista de dados, você usará os dados para responder perguntas e resolver problemas. Quando você analisa dados
e tira conclusões, você está gerando insights que podem influenciar as decisões comerciais, impulsionar mudanças
positivas e ajudar suas partes interessadas a atingir seus objetivos.
Antes de iniciar uma análise, é importante inspecionar seus dados para determinar se eles contêm as informações
específicas que você precisa para responder às perguntas de suas partes interessadas. Em qualquer dado conjunto de
dados, pode ser o caso que:
● Os dados não estão lá (você tem dados de sanduíche, mas precisa de dados de pizza)
● Os dados são insuficientes (você tem dados de pizza para 1-7 de junho, mas precisa de dados para o mês inteiro
de junho)
● Os dados estão incorretos (seus dados de pizza listam o custo de uma fatia como $250, o que o faz questionar a
validade do conjunto de dados)
A inspeção de seu conjunto de dados o ajudará a identificar quais perguntas são respondidas e quais dados ainda estão
faltando. Você pode ser capaz de recuperar esses dados de uma fonte externa ou pelo menos recomendar às partes
interessadas que outra fonte de dados seja utilizada. Nesta leitura, imagine que você seja um analista de dados
inspecionando dados de planilhas para determinar se é possível responder às perguntas de suas partes interessadas.
Cenário:
Você é um analista de dados que trabalha para uma empresa de sorvetes. A administração está interessada em melhorar
as vendas de sorvetes da empresa. A empresa tem coletado dados sobre suas vendas - mas não muito. Os dados
disponíveis são de uma fonte de dados interna e se baseiam nas vendas para 2019. Foi solicitado que você revisse os
dados e fornecesse algumas informações sobre as vendas de sorvetes da empresa. De preferência, a administração
gostaria de respostas para as seguintes perguntas:
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
1. Qual é o sabor mais popular de sorvete?
2. Como a temperatura afeta as vendas?
3. Como os fins de semana e feriados afetam as vendas?
4. Qual é a diferença entre rentabilidade para clientes novos e clientes que retornam?
Baixe os dados
Você pode baixar os dados a seguir junto com esta leitura. Para usar o modelo para os dados de vendas, clique no link
abaixo e selecione "Use Template" (Usar Modelo).
Link para o modelo: Vendas de sorvete
Inspecione os dados
Pergunta 1: Qual é o sabor mais popular de sorvete?
Para descobrir o sabor mais popular, é preciso primeiro definir o que se entende por "popular". O sabor mais popular é
aquele que gerou mais receitas em 2019? Ou é o sabor que teve o maior número de unidades vendidas em 2019? Às
vezes suas escolhas de medição são limitadas pelos dados que você tem - você pode rever sua planilha para descobrir se
qualquer uma destas definições de "popular" faz sentido com base nos dados disponíveis.
Clique na guia “sabores” em sua planilha para visualizar os dados relevantes. A planilha de sabores tem três colunas e
209 linhas de dados. Os cabeçalhos das colunas são semana, unidades vendidas e sabor. Este conjunto de dados não
veio com uma descrição dos dados, então você tem que descobrir o significado das colunas por conta própria. Com base
nos dados, você deduz que estas colunas fornecem informações
sobre o número de unidades vendidas para cada sabor de sorvete,
por semana, em 2019
Neste caso, você pode descobrir qual é o sabor mais popular
usando unidades vendidas como sua medida. Em particular,
pode-se usar a coluna de unidades vendidas para calcular o
número total de unidades vendidas durante o ano para cada sabor.
Infelizmente, o conjunto de dados não fornece a quantidade de
vendas anuais por sabor. Neste caso, seu próximo passo seria
perguntar a suas partes interessadas se os dados das vendas
anuais por sabor estão disponíveis em outra fonte. Caso contrário,
você pode acrescentar uma declaração sobre as limitações dos
dados atuais à sua análise.
Pergunta 2: Como a temperatura afeta as vendas?
Para explorar sua segunda pergunta, clique na aba “temperaturas” e confira os dados. A planilha de temperaturas tem
duas colunas e 366 linhas de dados. Os cabeçalhos das colunas são temperatura e vendas. Os dados mostram o total de
vendas por temperatura em 2019 (por exemplo, a primeira entrada pode somar $36,69 em vendas por três dias separados
que cada um teve uma alta de 60 graus). Ou, os dados podem mostrar um instantâneo das vendas e temperatura para
cada dia em 2019 (por exemplo, a primeira entrada pode se referir a um único dia com uma alta de 60 graus e $39,69 em
vendas). Então,o que é isso? É provavelmente um retrato diário porque há 365
entradas para temperatura, e várias linhas com a mesma temperatura e valores de
vendas diferentes. Isso implica que cada entrada é para um único dia e não um
resumo de vários dias. Entretanto, sem mais informações, você não pode ter
certeza. Além disso, você não sabe se os dados atuais estão listados em ordem
consecutiva por data ou em uma ordem diferente. Seu próximo passo seria entrar
em contato com o proprietário do conjunto de dados para esclarecimentos. Se for
verificado que a temperatura afeta as vendas, você será capaz de oferecer a suas
partes interessadas uma visão como a que se segue: "Quando as máximas diárias
estão acima de X graus, a média de vendas de sorvete aumenta em Y. Portanto, a
empresa deve planejar o aumento do estoque durante esses tempos para
maximizar as vendas".
https://docs.google.com/spreadsheets/d/1NgiKb8wCnJbUTuUkDUiNRpx9NhwncEmoKuPvgfYfOIY/template/preview?resourcekey=0-X3e7NzehG2Y74MIBhOaqeQ#gid=653912415
https://d3c33hcgiwev3.cloudfront.net/ut_UMU2oTEKf1DFNqHxC2w_3dd3e1712db94912ba728a523a8b31f1_Inspecting-a-dataset-A-guided-hands-on-tour_SalesByTemp_POR.xlsx?Expires=1688083200&Signature=NNziiawtcdMCg0R1cwc~dsL92GdkkefVupJFFe9GF2iHTQw-~fusM3gvFhcSyEOrnksmrmpWO7pgETRmm330-cSKRXUNOghd1jN1GdnTNN5ixPDZvWV1SI1T1~azwjSoxbKVBI44~~iESKeu2T4Jl647XcG7g884eNapz1XP32Y_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Pergunta 3: Como os fins de semana e feriados afetam as vendas?
A seguir, clique na guia de vendas para visualizar os dados sobre as datas de venda. A planilha
de vendas tem duas colunas e 366 linhas de dados. Os cabeçalhos das colunas são data e
vendas. Esses dados são, muito provavelmente, o total de vendas diárias em 2019, já que as
vendas são registradas para cada data em 2019. Você pode usá-los para determinar se uma data
específica cai em um fim de semana ou feriado e adicionar uma coluna à sua planilha que reflita
essas informações. Assim, você pode descobrir se as vendas nos fins de semana e feriados são
maiores do que as vendas em outros dias. Isto será útil para saber para fins de planejamento de
inventário e marketing.
Pergunta 4: Como a rentabilidade difere para novos clientes em relação aos clientes que retornam?
Seu conjunto de dados não contém dados de vendas relacionados a novos clientes. Sem estes dados, você não será
capaz de responder a pergunta final. Entretanto, pode acontecer que a empresa colete dados de clientes e os armazene
em uma tabela de dados diferente. Se assim for, seu próximo passo seria descobrir como acessar os dados dos clientes
da empresa. Você pode então juntar os dados de receita de vendas à tabela de dados do cliente para categorizar cada
venda como de um cliente novo ou retornando e analisar a diferença de lucratividade entre os dois conjuntos de clientes.
Estas informações ajudarão suas partes interessadas a desenvolverem campanhas de marketing para tipos específicos de
clientes a fim de aumentar a fidelidade à marca e a rentabilidade geral.
Conclusão
Ao trabalhar em projetos analíticos, você nem sempre terá à sua disposição todos os dados necessários ou relevantes.
Em muitos desses casos, você pode recorrer a outras fontes de dados para preencher as lacunas. Apesar das limitações
de seu conjunto de dados, ainda é possível oferecer às suas partes interessadas algumas ideias valiosas. Para os
próximos passos, seu melhor plano de ação será tomar a iniciativa de fazer perguntas, identificar outros conjuntos de
dados relevantes, ou fazer alguma pesquisa por conta própria. Não importa com que dados você esteja trabalhando,
inspecionar cuidadosamente seus dados causa um grande impacto na qualidade geral de sua análise.
Teste seus conhecimentos sobre como trabalhar com bancos de dados
Pergunta 1 - Preencha a lacuna: Um(a) _____ é um identificador que faz referência a uma coluna de banco de dados
na qual cada valor é exclusivo.
relação
campo
chave primária
chave estrangeira
Correto - Uma chave primária é um identificador que faz referência a uma coluna na qual cada valor é exclusivo. Uma chave estrangeira é um
campo dentro de uma tabela que é uma chave primária na tabela original.
Pergunta 2 - Preencha a lacuna: Um banco de dados relacional contém uma série de _____ que podem ser
conectados para formar relacionamentos.
campos
tabelas
células
planilhas
Correto - Um banco de dados relacional contém uma série de tabelas que podem ser conectadas para formar relacionamentos.
Pergunta 3 - Uma vantagem importante de trabalhar com bancos de dados normalizados é que eles ajudam a
diminuir a redundância de dados. Qual dos seguintes é um exemplo de redundância?
Membros da mesma equipe em diferentes escritórios trabalhando com os mesmos dados
Um banco de dados que forma duas ou mais relações
O mesmo dado sendo armazenado em dois lugares diferentes
Um banco de dados contendo duas chaves estrangeiras
Correto - O mesmo dado sendo armazenado em dois lugares diferentes é um exemplo de redundância.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
GERENCIANDO DADOS COM METADADOS
VÍDEO - EXPLORANDO METADADOS - Agora que você entende as diferentes formas de organizar os dados em um banco de dados,
vamos falar sobre como você pode descrever esses dados. Neste vídeo, vamos começar explorando metadados, que é um aspecto
muito importante de gerenciamento de banco de dados. Metadados é um conceito abstrato, no entanto. Vamos dar o pontapé inicial
com um exemplo simples e do cotidiano. Você sabia que todas as vezes que uma foto é tirada com um smartphone, os dados são
coletados automaticamente e armazenados dentro desta foto? Dê uma olhada. Escolha qualquer foto em seu computador. Em sua foto,
clique com o botão direito do mouse em "Obter Informações" ou "Propriedades". Serão exibidos os metadados da foto, que podem
lhe dizer qual o tipo de arquivo que é; a data e a hora em que foi tirada; a geolocalização, ou onde foi tirada; que tipo de
dispositivo foi usado para tirar a foto; e muito mais. Surpreendente, não é? Vamos a um outro exemplo. Toda vez que você envia ou
recebe um e-mail, os metadados são enviados juntamente com aquela mensagem. Você pode encontrá-los clicando em "Mostrar
Original" ou "Ver Detalhes da mensagem". Os metadados de uma mensagem de e-mail incluem o tema, remetente, destinatário, a
data e hora em que foi enviada. Os metadados até sabem quão rápida foi entregue após o remetente pressionar "Enviar". Os
metadados são informações que são usadas para descrever os dados que estão contidos em algo, como uma foto ou um
e-mail. Tenha em mente que os metadados não são os dados em si. Em vez disso, são dados sobre os dados. Em análise de
dados, os metadados ajudam os analistas de dados a interpretar o conteúdo dos dados dentro de um banco de dados. É por
isso que os metadados são tão importantes quando se trabalha com bancos de dados. Eles dizem a um analista tudo sobre os dados.
Isso torna possível colocar os dados para trabalhar, resolvendo problemas e tomando decisões orientadas por dados. Como analista de
dados, há três tipos comuns de metadados com os quais você se deparará: descritivo, estrutural, e administrativos. Os
metadados descritivos são metadados que descrevem um pedaço dos dados e podem ser usados para identificá-los em um
momento mais tarde. Por exemplo, os metadados descritivos de um livro em uma biblioteca incluiriam o código que você vê na
lombada do livro, conhecido como Padrão Internacional de Numeração de Livro, também chamado de ISBN. Também incluiria o autor
e título do livro. A seguir estão os metadados estruturais que são metadados que indicam como um pedaço dos dados são
organizados e se é parte de uma ou mais coleta de dados. Vamos voltar para a biblioteca. Um exemplo de dados estruturais seria
como as páginas de um livro são montadas para criar capítulos diferentes. É importante notar que esses metadados estruturais
também mantêm um registro da relação entre duas coisas. Por exemplo, eles podem nos mostrar queo documento digital de um
livro escrito manualmente era na verdade a versão original de um livro agora impresso. Finalmente, temos os metadados
administrativos. Os metadados administrativos são metadados que indicam a fonte técnica de um bem digital. Quando olhamos
para os metadados dentro da foto, trata-se de metadados administrativos. Exibe qual o tipo de arquivo que era, a data e a hora em que
foi tirada, e muito mais. Aqui vai um pensamento final para ajudá-lo a entender os metadados. Se você estiver a caminho da biblioteca
para escolher um livro, você poderia pesquisar o título do livro, autor, comprimento, e número de capítulos. Isso é tudo metadados, e
isso pode lhe dizer muito sobre o livro, mas você tem que de fato ler o livro para saber do que se trata. Da mesma forma, você pode ler
sobre análise de dados, mas você tem que fazer este curso para ganhar o Certificado de Análise de Dados da Google. Continue
avançando para ganhar essa nova perspectiva.
Os metadados são tão importantes quanto os próprios dados
A análise de dados, por projeto, é um campo que prospera na coleta e organização de dados. Nesta leitura, você vai
aprender sobre como analisar e compreender completamente cada aspecto de seus dados. Dê uma olhada em qualquer
dado que encontrar. O que é isso? De onde veio? É útil? Como saber? É aqui que entram os metadados para proporcionar
uma compreensão mais profunda dos dados. Em termos simples, metadados são dados sobre dados. No gerenciamento
de banco de dados, eles fornecem informações sobre outros dados e ajudam os analistas de dados a interpretarem o
conteúdo dos dados dentro de um banco de dados. Independentemente de você estar trabalhando com uma grande ou
pequena quantidade de dados, os metadados são a marca de uma equipe de analistas conhecedores, ajudando a
comunicar sobre os dados em toda a empresa e facilitando a reutilização dos dados. Em essência, os metadados dizem
quem, o quê, quando, onde, qual, como e por que dos dados.
Elementos dos metadados
Antes de analisar exemplos de metadados, é importante entender que tipo de metadados de informação normalmente
fornecem.
- Título e descrição - Qual é o nome do arquivo ou website que você está examinando? Que tipo de conteúdo ele
contém?
- Etiquetas e categorias - Qual é a visão geral dos dados que você tem? Os dados são indexados ou descritos de
uma forma específica?
- Quem criou e quando - De onde vieram os dados e quando foram criados? É recente, ou já existe há muito
tempo?
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
- Quem o modificou pela última vez e quando - Foram feitas algumas alterações nos dados? Em caso
afirmativo, as modificações foram recentes?
- Quem pode acessá-los ou atualizá-los - Este conjunto de dados é público? São necessárias permissões
especiais para personalizar ou modificar o conjunto de dados?
Exemplos dos metadados
No mundo digital atual, os metadados estão em toda parte, e está se tornando uma prática mais comum fornecer
metadados em muitas mídias e informações com as quais você interage. Aqui estão alguns exemplos do mundo real de
onde encontrar metadados:
Fotos - Sempre que uma foto é capturada com uma câmera, metadados como nome de arquivo da câmera, data, hora e
geolocalização são coletados e salvos com ela.
E-mails - Quando um e-mail é enviado ou recebido, há muitos metadados visíveis, como linha de assunto, o remetente, o
destinatário e data e hora de envio. Há também metadados escondidos que incluem nomes de servidores, endereços IP,
formato HTML e detalhes de software.
Planilhas e documentos - Planilhas e documentos já estão preenchidos com uma quantidade considerável de dados,
portanto não é surpresa que os metadados também os acompanhem. Títulos, autor, data de criação, número de páginas,
comentários de usuários, assim como nomes de abas, tabelas e colunas são todos metadados que se podem encontrar em
planilhas e documentos.
Websites - Cada página web tem uma série de campos de metadados padrão, tais como etiquetas e categorias, nome do
criador do site, título e descrição da página web, hora da criação e qualquer iconografia.
Arquivos digitais - Normalmente, se você clicar com o botão direito do mouse em qualquer arquivo de computador, você
verá seus metadados. Isto poderia consistir no nome do arquivo, tamanho do arquivo, data de criação e modificação, e
tipo de arquivo.
Livros - Os metadados não são apenas digitais. Cada livro tem um número de metadados padrão nas capas e no interior
que o informarão de seu título, nome do autor, um índice, informações da editora, descrição dos direitos autorais, índice e
uma breve descrição do conteúdo do livro.
Dados como você os conhece
Conhecer o conteúdo e o contexto de seus dados, bem como eles são estruturados, é muito valioso em sua carreira como
analista de dados. Ao analisar os dados, é importante entender sempre o quadro completo. Não se trata apenas dos dados
que você está visualizando, mas de como esses dados se juntam. Os Metadados asseguram que você seja capaz de
encontrar, usar, preservar e reutilizar dados no futuro. Lembre-se, será de sua responsabilidade gerenciar e fazer uso dos
dados em sua totalidade; os metadados são tão importantes quanto os próprios dados.
VÍDEO - USANDO METADADOS COMO ANALISTA - Agora que você sabe o que são metadados, é hora de explorar o porquê os
analistas de dados os utilizam. Você já sabe que os dados precisam ser identificados e descritos antes de poderem ajudá-lo a
resolver algum problema ou tomar uma decisão comercial efetiva. Colocar os dados em contexto é provavelmente a coisa mais
valiosa que os metadados fazem, mas ainda há muito mais benefícios do uso de metadados. Veja um. Os metadados criam uma
fonte única de confiança ao manter as coisas consistentes e uniformes. Nós, analistas de dados, amamos consistência. Sempre
visamos este tipo de uniformidade em nossos dados e nossos bancos de dados. Afinal de contas, dados que são uniformes podem ser
organizados, classificados, armazenados, acessados, e utilizados eficazmente. Além disso, quando um banco de dados é consistente,
é muito mais fácil descobrir relações entre os dados dentro dele e os dados em outros lugares. Os metadados também tornam os
dados mais confiáveis ao certificar-se de que estão corretos, precisos, relevantes, e oportunos. Isso também facilita para os
analistas de dados a identificação da causa raiz de qualquer problema que possa surgir. O resultado final é que, quando os dados com
que trabalhamos são de alta qualidade, isso facilita as coisas e melhora nossos resultados. Uma das maneiras que os analistas de
dados certificam-se de que seus dados são consistentes e confiáveis é através de algo chamado de repositório de metadados. Um
repositório de metadados é um banco de dados especificamente criado para armazenar metadados. Os repositórios de
metadados podem ser armazenados em uma localização física, ou eles podem ser virtuais, como dados que existem na nuvem. Esses
repositórios descrevem de onde vieram os metadados, os mantêm em uma forma acessível para que possam ser usados de forma
rápida e fácil, e os mantêm em uma estrutura comum para todos que possam precisar utilizá-los. Os repositórios de metadados
tornam mais fácil e rápido reunir múltiplas fontes para análise de dados. Eles fazem isso descrevendo o estado e a localização
dos metadados, a estrutura das tabelas internas, e como os dados fluem através do repositório. Eles inclusive rastreiam quem
acessa os metadados e quando. Aqui está um exemplo do mundo real. Como um analista de serviços de saúde da Google, eu uso
dados de fontes imediatas e de terceiros. Como você aprendeu, dados fontes imediatas são dados que são coletados por um grupo
diretamente de seu público e depois vendidos. Os dados de terceiros vêm de fontes externas, que não são os originais coletores
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
desses dados. Eles o obtêm em websites ou programas que conseguem os dados das diversas plataformas onde foram gerados
originalmente. É um pouco complexo,mas o principal a ser lembrado é que os dados de terceiros não vêm de dentro de sua própria
empresa. Se minha equipe precisar trabalhar com dados que não foram criados na Google, isso significa que, às vezes, não sabemos
muito sobre sua qualidade e credibilidade desses dados, mas precisamos ter certeza que nossos dados podem ser de confiança e que
foram coletados de forma responsável. Afinal de contas, se os dados não são confiáveis, nossos resultados também não serão
confiáveis. É por isso que a compreensão dos metadados do banco de dados externo é tão importante. Isso nos permite confirmar que
os dados estão limpos, precisos, relevantes e oportunos. Isto é importante principalmente se os dados provêm de outra organização.
Um outro passo importante ao se trabalhar com dados externos é confirmar que temos permissão para usá-los. Sempre iremos
entrar em contato com o proprietário para certificarmos de que podemos acessar ou comprar os dados. Em resumo, os repositórios de
metadados são úteis por todas estas razões. Além disso, eles ajudam a garantir que minha equipe está pegando o conteúdo certo para
o projeto específico e usando de forma apropriada. Podemos confirmar isto porque os metadados claramente descrevem como e
quando os dados foram coletados, como estão organizados, e muito mais. Em breve você aprenderá ainda mais sobre o uso de
metadados em análise de dados, e se você estiver achando os metadados fascinantes, você vai descobrir algumas possibilidades de
carreiras realmente interessantes que se concentram em metadados. Então, prepare-se.
VÍDEO - GERENCIAMENTO DE METADADOS - Metadados e repositórios de metadados são ferramentas muito poderosas na caixa
de ferramentas do analista de dados. Como discutimos anteriormente, os analistas de dados os utilizam para criar uma única fonte
confiável, manter os dados consistentes e uniformes, e garantir que os dados com que trabalhamos sejam corretos, precisos,
relevantes e atuais. Essas ferramentas também facilitam o acesso e uso dos dados, padronizando nossos processos. Neste vídeo,
exploraremos mais componentes dos metadados e aprenderemos como os analistas de metadados trabalham para manter as coisas
organizadas. Sabemos que a quantidade de dados lá fora continua a crescer, mas muitas empresas simplesmente não estão usando
seus dados. Algumas vezes, elas não sabem o que têm, às vezes não conseguem encontrá-los ou às vezes uma empresa
simplesmente não confia nisso. Especialmente em empresas maiores, dados podem abranger inúmeros diferentes processos e
sistemas. E reunir dados de tantos lugares pode ser um grande desafio. Por exemplo, digamos que uma empresa comece com um
armazenamento de dados tradicional em seus escritórios. Mas, como a quantidade de dados que tem continua a crescer, também é
necessário o armazenamento em nuvem. Além disso, esta empresa também poderia estar acessando e usando dados de terceiros de
uma organização parceira. Cada um desses sistemas tem suas próprias regras e exigências, de modo que cada um organiza os dados
de uma maneira completamente diferente, aumentando ainda mais a complexidade. Não é de se admirar que muitas organizações
lutem para encontrar os dados corretos no momento certo. Por outro lado, os metadados são armazenados em uma localização
única e central e fornecem à empresa informações padronizadas sobre todos os seus dados. Há duas maneiras de fazer isso.
Primeiro, os metadados incluem informações sobre onde cada sistema está localizado e onde os conjuntos de dados estão
localizados dentro desses sistemas. Segundo, os metadados descrevem como todos os dados estão conectados entre os
vários sistemas. Outro aspecto importante dos metadados é algo chamado governança de dados. A governança de dados é um
processo que garante a gestão formal dos recursos de dados de uma empresa. Isto dá a uma organização melhor controle de
seus dados e ajuda uma empresa a gerenciar problemas relacionados a dados segurança e privacidade, integridade, usabilidade e
fluxo interno e externo de dados. É importante notar que governança de dados é mais do que apenas a padronização de
terminologia e procedimentos. É sobre as funções e responsabilidades das pessoas que trabalham com os metadados diariamente.
Esses são os especialistas em metadados e eles organizam e mantêm os dados da empresa, garantindo que sejam da mais alta
qualidade possível. Esses profissionais criam informações básicas de identificação e descoberta de metadados que descrevem o
modo diferente que os conjuntos de dados funcionam juntos, e explicam os muitos diferentes tipos de recursos de dados. Especialistas
em metadados também criam padrões muito importantes que todos seguem e os modelos usados para organizar os dados. Há uma
coisa que eles todos têm em comum. Não importa se trabalham em uma empresa de tecnologia, uma associação sem fins lucrativos
ou uma instituição financeira, os analistas de metadados são peças importantes da equipe. São apaixonados sobre como fazer os
dados acessíveis por meio do compartilhamento com colegas e outras partes interessadas. Se está procurando um papel que o
encoraje a explorar todos os dados que o mundo digital tem a oferecer, seguir o caminho para se tornar um analista de metadados
pode ser a escolha certa para você. Mas, de qualquer forma, empresas de todos os tipos enfrentam as tendências do mercado e a
concorrência, e precisam entender porque um processo funciona e outro não. A análise de dados permite responder perguntas-chave e
seguir melhorando.
VÍDEO - MEGAN: DIVERSÃO COM METADADOS - Meu nome é Megan, e sou líder de medição de agências aqui no Google.
Basicamente, ajudo a desmistificar medições e análises para agências de publicidade. Portanto, as pessoas encarregadas de executar
planos de mídia para anunciantes mas também pessoas interessadas em medir o impacto que a mídia está tendo para seus clientes.
Tenho feito isso há cerca de 17 anos e vi muita evolução na área a partir da disponibilidade de dados, de diferentes técnicas de
modelagem se tornando mais avançadas, mas também mais acessíveis, e tem sido uma jornada muito legal para ver como tudo
evoluiu, como o Analytics tem se tornando mais popular e como as pessoas estão ficando mais entusiasmadas com isso. Os
metadados são basicamente a chave para seu conjunto de dados maior. Eles ajudam a descrever o que está nas linhas e nas colunas
de dados com os quais você trabalhará. Os metadados são uma espécie de abreviação ou uma versão Cli�sNotes de um
conjunto de informações muito mais complexo. Pode ser útil para ajudar você a ter uma noção do que há em um único conjunto de
dados ao qual você pode ter acesso. É uma parte importante do processo de descoberta de qualquer projeto de análise, pois você está
trabalhando com um cliente ou fornecedor para entender os recursos que terá para resolver um problema e o que pode estar faltando.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Eles apenas fornecem as chaves para desbloquear esses dados de uma forma muito simples e direta e são uma ótima ferramenta de
comunicação. Quando eu trabalhava para um anunciante, uma das coisas que estávamos tentando fazer era construir algo chamado
data lake. Basicamente, isso reúne todas as fontes de dados que você pode desejar usar em uma análise em um lugar, o que
pode ser muito, muito complicado. Uma das vantagens dos metadados era descobrir onde tínhamos fontes que podiam se sobrepor,
onde tínhamos fontes de dados com coisas em comum. E quais eram as informações exclusivas que estávamos obtendo de cada um
desses conjuntos de dados. Então, enquanto pensávamos em lidar com esse projeto realmente grande e importante, pudemos usar
metadados para, de maneira rápida e fácil, chegar às construções básicas que estávamos tentando resolver. Quando você está
trabalhando com pessoas que talvez não tenham análises como trabalho diário, conseguindo aquele momento "aha", ajudando-os a
entender como a medição e o analytics são ferramentas que podem ajudá-los a atingir seus objetivos, é muito importante.E só por ter
essa ideia de que você tornou algo que antes era inacessível um pouco mais acessível para aquela equipe é algo que eles se sintam
confortáveis colocando em prática, é muito importante e realmente uma ótima maneira de vir de uma parceria.
Teste seu conhecimento sobre metadados
Pergunta 1 - Uma grande empresa tem várias coletas de dados em seus muitos departamentos. Que tipo de
metadados indica exatamente a quantas coleções um dado pertence?
Estruturais
Representantes
Descritivos
Administrativos
Correto
Os metadados estruturais indicam exatamente em quantos dados das coleções vivem. Ele fornece informações sobre como um dado é
organizado e se ele faz parte de uma, ou mais de uma, coleta de dados.
Pergunta 2 - A data e a hora em que uma foto foi tirada é um exemplo de que tipo de metadados?
Representantes
Descritivos
Administrativos
Estruturais
Correto
A data e a hora em que uma foto foi tirada é um exemplo de metadados administrativos. Os metadados administrativos indicam a fonte
técnica e os detalhes para um bem digital.
Pergunta 3 - Uma grande escola secundária metropolitana dá a cada um de seus alunos um número de
identificação para diferenciá-los em seu banco de dados. Que tipo de metadados são os números de identificação?
Estruturais
Descritivos
Administrativos
Representantes
Correto
Os números de identificação são metadados descritivos. Os metadados descritivos descrevem um pedaço de dado ou podem ser usados
para identificá-lo a qualquer momento.
Pergunta 4 - Uma empresa precisa fundir dados de terceiros com seus próprios dados. Quais das seguintes ações
ajudarão a tornar este processo bem-sucedido? Selecione todas as opções aplicáveis.
Substituir os metadados dos dados recebidos por seus próprios metadados da empresa.
Utilizar os metadados para avaliar a qualidade e credibilidade dos dados de terceiros.
Correto
A empresa pode usar os metadados para padronizar os dados e avaliar a qualidade e credibilidade dos dados de terceiros.
Alterar os metadados da empresa para refletir mais de perto os metadados recebidos.
Utilizar os metadados para padronizar os dados.
Correto
A empresa pode usar os metadados para padronizar os dados e avaliar a qualidade e credibilidade dos dados de terceiros.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
ACESSANDO DIFERENTES FONTES DE DADOS
VÍDEO - TRABALHAR COM MAIS FONTES DE DADOS - Neste vídeo, conheceremos os diferentes lugares que os analistas de dados
vão para conectar dados. Há todo tipo de dados espalhados por aí fora e é importante saber como acessá-los. Anteriormente, você
aprendeu que existem dois tipos básicos de dados usados por analistas de dados: internos e externos. Dados internos são
dados que residem no próprio sistema das empresas. Normalmente são gerados também dentro da empresa. Você também pode
ver dados internos descritos como dados primários. Os dados externos são dados que residem e são gerados fora de uma
organização. Podem vir de uma variedade de lugares, incluindo outras empresas, fontes governamentais, a mídia, associações
profissionais, escolas, e muito mais. Os dados externos às vezes são chamados dados secundários. Coletar dados internos pode ser
complicado. Dependendo do seu projeto de análise de dados, você pode precisar de dados de muitas fontes e departamentos
diferentes incluindo vendas, marketing, gerenciamento de gestão de relacionamento com o cliente, finanças, recursos humanos, e até
mesmo os arquivos de dados. Mas o esforço vale a pena. Os dados internos têm muitas vantagens para uma empresa. Eles fornecem
informações relevantes para problemas que você está tentando resolver, e são de livre acesso porque já pertencem a empresa. Com
dados internos, os analistas podem trabalhar em todos os projetos de dados sem recorrer a recursos externos. Mas às vezes os dados
internos não lhe dão o cenário completo. Nesses casos, os analistas de dados podem recorrer a dados externos e aplicar essas
informações à sua análise. Por exemplo, como analistas da área de saúde, geralmente temos parcerias com outras organizações do
setor ou organizações sem fins lucrativos e usamos esses dados para criar análises mais profundas e adicionar um pouco mais de
perspectiva em nível de setor. Em um vídeo anterior, você aprendeu que essa abertura criou muitos dados para serem usados pelos
analistas, em grande parte por meio de iniciativas de dados. Como um lembrete, abertura de dados ou dados abertos refere-se ao
livre acesso, uso e compartilhamento de dados. Por exemplo, o governo dos Estados Unidos disponibiliza centenas de milhares de
conjuntos de dados ao público por meio do site Data.gov. Estes conjuntos de dados contém informações sobre padrões
meteorológicos, progressos educacionais, taxas de criminalidade, transporte, e muito mais. Há muitas razões para estas iniciativas de
dados abertos. Uma delas é deixar as atividades do governo mais transparentes, como deixar o público ver onde o dinheiro é aplicado.
Também ajuda a educar os cidadãos sobre o voto e questões locais. Dados abertos também melhoram o serviço público, dando às
pessoas maneiras de fazer parte de planejamento público ou fornecer feedback para o governo. Finalmente, dados abertos levam à
inovação e ao crescimento econômico, ajudando pessoas e empresas a compreenderem melhor seus mercados. Realmente, o
Google hospeda muitos bancos de dados públicos com informações sobre ciência, transporte, economia, clima, e muito mais. Como
exemplo, uma empresa de compartilhamento de bicicletas poderia usar os dados de tráfego de dentro do nossos banco de dados
públicos de transporte para monitorar onde as vias estão mais congestionadas e escolher esses locais como ponto para suas bicicletas
a fim de reduzir o número de carros nas ruas e dar ao público uma outra opção de transporte. Agora você está familiarizado com dados
internos e externos e como você pode acessá-los. A seguir, vamos aprender como importar todos os dados que você coleta de
diferentes fontes para dentro de uma planilha.
De fonte externa para uma planilha
Quando se trabalha com planilhas, há algumas maneiras diferentes de importar dados. Esta leitura aborda como você
pode importar dados de fontes externas, especificamente:
● Outras planilhas
● Arquivos CSV
● Tabelas HTML (em páginas web)
Importação de dados de outras planilhas eletrônicas
Em muitos casos, você já pode ter uma planilha aberta e precisar incluir dados adicionais de outra planilha.
Planilhas Google
No Google Sheets, você pode usar a função IMPORTRANGE. Ela permite especificar um intervalo de células na outra
planilha a ser duplicado na planilha em que você está trabalhando. Você deve permitir o acesso à planilha contendo os
dados na primeira vez que importar os dados. A URL mostrada abaixo é apenas para fins de sintaxe. Não insira-o em
sua planilha. Faça a substituição por uma URL para uma planilha que você criou para poder controlar o acesso a ela,
clicando no botão Permitir acesso.
Consulte a página IMPORTRANGE do Centro de Ajuda do Google para obter mais informações sobre a sintaxe. Há
também um exemplo de seu uso mais tarde no programa em Funções avançadas para a limpeza rápida de dados.
https://support.google.com/docs/answer/3093340?hl=en&ref_topic=9199554
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/supplement/PLnRS/funcoes-avancadas-para-uma-rapida-limpeza-de-dados
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Microsoft Excel
Para importar dados de outra planilha, faça o seguinte:
Etapa 1: Selecione Dados no menu principal.
Etapa 2: Clique em Obter dados, selecione Do arquivo e, em seguida, selecione Da pasta de trabalho.
Etapa 3: Procure e selecione o arquivo da planilha e depois clique em Importar.
Etapa 4: No Navegador, selecione qual planilha de trabalho importar.
Etapa 5: Clique em Carregar para importar todos os dados da planilha ou clique em Transform Data para abrir o Power
Query Editor para ajustar as colunas e linhas de dados que você deseja importar.
Etapa 6: Se você clicou em Transform Data, cliqueem Fechar e Carregar e depois selecione uma das duas opções:
● Fechar e Carregar - importar os dados para uma nova planilha
● Fechar e Carregar para... - importar os dados para uma planilha existente
Importação de dados de arquivos CSV
Planilhas Google
Etapa 1: Abra o menu Arquivo em sua planilha e selecione Importar para abrir a janela Importar arquivo.
Etapa 2: Selecione Carregar e depois selecione o arquivo CSV que você deseja importar.
Etapa 3: A partir daqui, você terá algumas opções. Para Importar local, você pode optar
por substituir a planilha atual, criar uma nova planilha, inserir os dados CSV como uma
nova planilha, adicionar os dados à planilha atual, ou substituir os dados em uma célula
específica. Os dados serão inseridos como texto simples somente se você desmarcar a
caixa de seleção Converter texto em números, datas e fórmulas, que é a configuração
padrão. Às vezes, um arquivo CSV usa um separador como
um ponto e vírgula ou mesmo um espaço em branco, em
vez de uma vírgula. Para o Tipo de separador, você pode
selecionar Tab ou Vírgula, ou selecionar Personalizado
para inserir outro caractere que esteja sendo usado como
separador.
Etapa 4: Selecione Importar dados. Os dados do arquivo
CSV serão carregados em sua planilha, e você poderá
começar a usá-los!
Nota: você também pode usar a função IMPORTDATA
em uma célula de planilha para importar dados usando a
URL para um arquivo CSV. Consulte a página IMPORTDATA do Centro de Ajuda do
Google para obter mais informações sobre a sintaxe.
Microsoft Excel
Etapa 1: Abrir uma planilha nova ou existente
Etapa 2: Clique em Dados no menu principal e selecione a opção De Texto/CSV.
Etapa 3: Procure e selecione o arquivo CSV e depois clique em Importar.
Etapa 4: A partir daqui, você terá algumas opções. Você pode mudar o delimitador de uma vírgula para outro caractere,
como um ponto-e-vírgula. Você também pode ativar ou desativar a detecção automática do tipo de dados. E, finalmente,
você pode transformar seus dados clicando em Transform Data para abrir o Power Query Editor.
Etapa 5: Na maioria dos casos, aceite as configurações padrão na etapa anterior e clique em Carregar para que os dados
sejam carregados do arquivo CSV para a planilha. Os dados no arquivo CSV serão carregados na planilha e você poderá
começar a trabalhar com eles.
Importação de tabelas HTML de páginas web
A importação de tabelas HTML é um método muito básico para extrair ou "raspar" dados de páginas web públicas. A
raspagem da web facilitou a introdução de como fazer isso com o Planilhas Google ou o Microsoft Excel.
Planilhas Google
No Planilhas Google, você pode usar a função IMPORTHTML. Ela permite importar os dados de uma tabela HTML (ou
lista) em uma página web.
https://support.google.com/docs/answer/3093335?hl=en
https://www.thedataschool.co.uk/anna-prosvetova/web-scraping-made-easy-import-html-tables-or-lists-using-google-sheets-and-excel
https://www.thedataschool.co.uk/anna-prosvetova/web-scraping-made-easy-import-html-tables-or-lists-using-google-sheets-and-excel
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Consulte a página IMPORTHTML do Centro de Ajuda do Google para obter mais informações sobre a sintaxe. Se você
estiver importando uma lista, substitua "tabela" por "lista" no exemplo acima. O número 4 é o índice que se refere à ordem
das tabelas em uma página da web. É como um ponteiro indicando de qual tabela da página você quer importar os dados.
Você mesmo pode tentar! Em planilhas em branco, copie e cole cada uma das seguintes funções IMPORTHTML na
célula A1 e observe o que acontece. Você estará realmente importando os dados de quatro tabelas HTML diferentes em
um artigo da Wikipedia: Demografia da Índia. Você pode comparar seus dados importados com as tabelas do artigo.
● =IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India","table",1)
● =IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India","table",2)
● =IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India","table",3)
● =IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India","table",4)
Microsoft Excel
Você pode importar dados de páginas web usando a opção Da Web:
Etapa 1: Abrir uma planilha nova ou existente.
Etapa 2: Clique em Dados no menu principal e selecione a opção Da Web.
Etapa 3: Digite o URL e clique em OK.
Etapa 4: No Navegador, selecione a tabela a ser importada.
Etapa 5: Clique em Carregar para carregar os dados da tabela em sua planilha.
VÍDEO - IMPORTAÇÃO DE DADOS DE PLANILHAS E BANCOS DE DADOS - Neste ponto, você já aprendeu tudo sobre dados
internos e externos e como prepará-los para o uso. Agora, vamos passar pelo processo de realmente importar dados de fontes
diferentes. Às vezes você quer fazer o upload de uma planilha de cálculos de seus arquivos, como por exemplo um arquivo CSV. CSV
significa valores separados por vírgula. Um arquivo CSV salva dados em um formato de tabela. Agora, vamos trazer esse arquivo
para uma nova planilha. Vamos começar selecionando um arquivo para depois importar. Em seguida, vamos fazer o upload de um
arquivo. Navegue até ela, abra e insira como uma nova planilha. Os arquivos CSV utilizam texto simples e são delimitados por
caracteres. Assim, cada coluna ou campo fica claramente distinto de outro depois de importar. Como vimos, os CSVs são separados
por vírgula, e geralmente o aplicativo de planilhas detectará automaticamente essas separações. Mas às vezes, você pode precisar
indicar que o separador é outro caractere ou um espaço, selecionando as diferentes opções nesta janela. Além disso, se estiver
planejando trabalhar com o conjunto de dados, você normalmente o converteria em texto, números ou outras opções. Mas o texto
simples é bom para fins informativos. Portanto, podemos deixar esses campos em paz. Finalmente, selecione Importar dados. Agora
nosso arquivo CSV está pronto para trabalhar em nossa planilha. Eu passo a maior parte do meu tempo no trabalho analisando
planilhas cheias de informações sobre saúde. Normalmente começo procurando em um conjunto de dados maior. Então eu puxo um
subconjunto dele para uma planilha para que eu possa trabalhar com ela. Talvez eu queira analisar o crescimento anual da demanda
dos usuários no Google Search por certos serviços de saúde, como a telemedicina. Ou talvez eu queira olhar para conjuntos de dados
de organizações externas de saúde ou agências para obter mais informações sobre esta tendência. Por exemplo, com a telemedicina,
talvez eu olhe para uma planilha que liste os fornecedores de telemedicina. Há tantas maneiras de as planilhas o ajudarem a encontrar
os insights que você precisa. Uma fonte que eu uso muito é o Repositório de dados da organização mundial de saúde. Este é um lugar
onde qualquer pessoa pode acessar dados de código aberto. Como você pode ver, há toneladas de dados disponíveis. Você pode
pesquisar por tema, categoria, indicador e país. Você também pode acessar o site Metadados da Organização Mundial de Saúde, se
você quiser aprender mais sobre os dados no repositório. Para nosso exemplo, vamos olhar para médicos por país e ano. Esta
informação seria útil para um projeto de análise de dados que investiga quantos médicos estão disponíveis para tratar pacientes
dentro de uma determinada população em comparação com outras populações. Para obter estes dados, vamos começar nessa página
web, que contém o conjunto de dados que desejamos. Depois faremos o download dos dados como um arquivo CSV. Em seguida, abra
uma nova planilha e importe o arquivo, selecionando Arquivo, Importar. Em seguida, faça upload do seu arquivo e selecione importar
dados. Após a revisão dos dados para ter certeza que estão claros, podemos nomeá-los e começar nosso trabalho. Sabemos que é
muita informação para absorver, mas você ficará muito mais confortável com isso, quanto mais você praticar. A seguir, vamos aprender
a classificar e filtrar seus dados para se concentrar nas informações relevantes para você.
Exploração de conjuntos de dados públicos
Dados abertos ajudam a criar muitosconjuntos de dados públicos aos quais você pode ter acesso para tomar decisões
orientadas por dados. Aqui estão alguns recursos que você pode usar para começar a procurar por conjuntos de dados
públicos por conta própria:
https://support.google.com/docs/answer/3093339?hl=en
https://en.wikipedia.org/wiki/Demographics_of_India
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● Os Conjuntos de dados públicos do Google Cloud permitem aos analistas de dados o acesso a conjuntos de
dados públicos de alta demanda, e facilitam a descoberta de insights na nuvem.
● A Pesquisa de conjunto de dados pode ajudá-lo a encontrar conjuntos de dados disponíveis on-line com
pesquisas de palavras-chave.
● A Kaggle tem uma função de busca de dados abertos que pode ajudá-lo a encontrar conjuntos de dados para
praticar.
● Finalmente, a BigQuery hospeda mais de 150 conjuntos de dados públicos que você pode acessar e utilizar.
Conjuntos de dados de saúde pública
1. Dados do Observatório de Saúde Global : Você pode pesquisar conjuntos de dados a partir desta página ou
explorar coleções de dados em destaque da Organização Mundial da Saúde.
2. O conjunto de dados do Arquivo de Imagens de Câncer (TCIA): Assim como o conjunto de dados anterior, estes
dados são hospedados pelo Conjunto de dados públicos da Google Cloud e podem ser carregados para o
BigQuery.
3. 1000 Genomas: Este é outro conjunto de dados dos Recursos públicos do Google Cloud que pode ser carregado
para o BigQuery.
Conjuntos de dados climáticos públicos
1. Centro Nacional de Dados Climáticos: A página de links rápidos da NCDC tem uma seleção de conjuntos de
dados que você pode explorar.
2. NOAA Galeria pública de conjunto de dados: A NOAA Galeria pública de conjunto de dados contém uma coleção
pesquisável de conjuntos de dados públicos.
Conjuntos de dados sócio-políticos públicos
1. UNICEF Estado das Crianças do Mundo: Este conjunto de dados da UNICEF inclui uma coleção de tabelas que
podem ser baixadas.
2. CPS Labor Force Statistics: Esta página contém links para vários conjuntos de dados disponíveis que você pode
explorar.
3. The Stanford Open Policing Project: Este conjunto de dados pode ser baixado como um arquivo .CSV para seu
próprio uso.
Teste seus conhecimentos sobre como acessar fontes de dados
Pergunta 1 - Um arquivo CSV salva dados em um formato de tabela. O que significa CSV?
Variáveis estruturadas por células
Valores calculados em planilhas
Variáveis científicas compatíveis
Valores separados por vírgula
Correto - CSV significa valores separados por vírgula.
Pergunta 2 - Um analista de dados quer trazer dados de um arquivo CSV para uma planilha. Este é um exemplo de
que processo?
Preenchendo os dados
Edição de dados
Importação de dados
Normalização de dados
Correto - Um analista de dados que traz dados de um arquivo CSV para uma planilha eletrônica é um exemplo de importação de dados.
Pergunta 3 - Um arquivo CSV torna mais fácil para os analistas de dados completar quais tarefas? Selecione todas
as opções aplicáveis.
Distinguir valores entre si
Correto - Um arquivo CSV facilita aos analistas de dados examinar uma pequena parte de um grande conjunto de dados, importar dados
para uma nova planilha e distinguir valores uns dos outros.
Importar dados para uma nova planilha
https://cloud.google.com/public-datasets
https://datasetsearch.research.google.com/
https://www.kaggle.com/datasets?utm_medium=paid&utm_source=google.com+search&utm_campaign=datasets&gclid=CjwKCAiAt9z-BRBCEiwA_bWv-L6PpACh6RzmrJjQjmNGCCE7kky1FCtc6Jf1qld-4NwDMYL0WsUyxBoCdwAQAvD_BwE
https://cloud.google.com/bigquery/public-data
https://www.who.int/data/collections
https://cloud.google.com/healthcare/docs/resources/public-datasets/tcia
https://cloud.google.com/life-sciences/docs/resources/public-datasets/1000-genomes
https://www.ncdc.noaa.gov/data-access/quick-links
https://www.climate.gov/maps-data/datasets
https://data.unicef.org/resources/dataset/sowc-2019-statistical-tables/
https://www.bls.gov/cps/tables.htm
https://openpolicing.stanford.edu/
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Correto - Um arquivo CSV facilita aos analistas de dados examinar uma pequena parte de um grande conjunto de dados, importar dados
para uma nova planilha e distinguir valores uns dos outros.
Examinar um pequeno subconjunto de um grande conjunto de dados
Correto
Um arquivo CSV facilita aos analistas de dados examinar uma pequena parte de um grande conjunto de dados, importar dados para uma
nova planilha e distinguir valores uns dos outros.
Gerenciar várias guias dentro de uma planilha
CLASSIFICAR E FILTRAR
VÍDEO - CLASSIFICAR E FILTRAR - Nos últimos vídeos, você aprendeu sobre os dados internos e externos. Agora vou lhe mostrar
como concentrar-se apenas nos dados que são relevantes para o problema que você está tentando resolver. Isso é útil se você estiver
trabalhando com uma planilha muito grande e complexa, que os analistas de dados encontram o tempo todo. Ter muitos dados pode
dificultar para encontrar e analisar rapidamente as informações que você precisa. As análises de projetos não são as mesmas. Muitas
vezes os analistas de dados processam, visualizam e usam os dados de forma muito diferente, mesmo que venham exatamente da
mesma fonte. Vamos a um exemplo. Verifique esta planilha que mostra as vendas do representante de uma empresa e onde eles
trabalham. Diferentes analistas de dados podem querer informações diferentes da planilha, e é lá que a triagem e a filtragem
começam. A limpeza de dados é fundamental porque uma análise baseada em dados sujos pode levar a conclusões erradas e más
decisões. Quanto mais limpos forem seus dados, melhores serão seus resultados.. Pense nisso como uma lupa para nossos dados.
Vamos começar com a classificação. A classificação envolve a organização dos dados em uma ordem significativa para facilitar
a compreensão, a análise, e a visualização. Os dados podem ser classificados em ordem crescente ou decrescente e em
ordem alfabética ou numérica. A classificação pode ser feita em toda planilha ou apenas em uma única coluna ou tabela. Você
também pode classificar por múltiplas variáveis. Por exemplo, se nosso conjunto de dados contém os campos de cidade e estado,
podemos classificar primeiro por cidade e depois por estado. Sempre que você estiver classificando dados, é sempre uma boa
ideia congelar primeiro a linha de cabeçalho. Para isso, vamos destacar a linha. Em seguida, a partir do menu Ver, escolha
congelar uma linha. Isso fixa a linha no lugar. Agora, quando nos deslocamos pela planilha, a linha de cabeçalho permanece visível
para que saibamos a categoria de cada coluna. Assim está ótimo pra mim. Agora vamos classificar a planilha inteira. Vamos classificar
primeiro por cidade. Para fazer isso, selecione a coluna da cidade, depois use a seta direcional para baixo para classificar a planilha.
Selecione de A a Z. Isso classificará todas as colunas de A a Z por linha com a coluna selecionada sendo o critério primário de
classificação. As cidades estão agora classificadas por ordem alfabética, e elas ainda estão agrupadas com os estados
correspondentes, representantes de vendas e autopeças. Os detalhes em cada linha são automaticamente mantidos juntos ao
classificar uma seção específica. Bem, como você pode ver, a classificação por vários critérios é uma outra ferramenta muito útil
da análise de dados. Por exemplo, digamos que queremos ver uma lista de representantes de vendas pelas cidades e estados nos
quais eles trabalham. Primeiro, selecionamos o conjunto de dados completo, depois escolhemos os dados e a faixa de classificação.
Na caixa de diálogo, certifique-se de que "Os dados têm linha de cabeçalho" esteja marcada. Dessa forma, linha A, cidade, estados,
representante de vendas e autopeças não serão parte da classificação. Depois na classificação por menu suspenso, selecione o
estado e a ordem de classificação de A a Z. Agora acrescente outra coluna de classificação. No menu suspenso "por", selecione
cidade e a ordem de classificaçãode A a Z. Finalmente, selecione Classificar. Agora podemos pesquisar os dados para facilmente
encontrar um representante de vendas que trabalhe em uma cidade e estado específicos. A classificação é útil quando você quer
visualizar tudo em uma planilha em ordem alfabética ou numérica. Mas às vezes os analistas de dados querem isolar uma
determinada parte da informação. Para isso, eles utilizam um filtro. Filtrar significa mostrar somente os dados que atendem a um
critério específico enquanto oculta o resto. Um filtro simplifica uma planilha apenas nos mostrando as informações que
precisamos. Por exemplo, nós poderíamos adicionar um filtro para ver somente os representantes de vendas que trabalharam com um
determinado produto. Para isso, primeiro selecionamos Dados e Criar um filtro. Escolha a coluna com os dados de que precisamos.
Neste caso, Autopeças. Os botões de filtro aparecerão no canto de cada cabeçalho de coluna. Para filtrar nossa planilha por
autopeças, clique no botão no cabeçalho Autopeças. Neste exemplo, digamos que queremos ver apenas representantes de vendas que
trabalharam com jantes. Remova as marcas de verificação das categorias que não queremos ver, que seria tudo exceto para jantes.Em
seguida, selecione ok. O filtro oculta temporariamente qualquer coisa que não atenda à condição. Mas note que, mesmo que eles
não estejam visíveis, eles ainda estão lá. Quando chegar a hora de ver a planilha inteira novamente, simplesmente remova o filtro.
Classificar e filtrar os dados são ferramentas muito importantes na caixa de ferramentas do analista de dados. No próximo
vídeo, você descobrirá ainda mais formas de restringir as informações exatas que você precisa para qualquer projeto de análise de
dados.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Atividade prática: Limpe os dados em planilhas com classificação e filtragem
Visão geral da atividade
Até agora, você já conheceu a limpeza de dados em planilhas, bem como as principais habilidades de planilhas, tais como
classificação e filtragem. Nesta atividade, você utilizará a classificação e a filtragem para limpar um conjunto de dados
sujos. A limpeza de dados corrige ou remove dados incorretos, ausentes e defeituosos. A limpeza de dados é fundamental
porque uma análise baseada em dados sujos pode levar a conclusões erradas e más decisões. Quanto mais limpos forem
seus dados, melhores serão seus resultados. Para esta atividade, imagine que você seja um analista de dados
trabalhando para o superintendente de um grande distrito escolar público em Portugal. O superintendente quer saber quais
fatores afetam as notas dos alunos nas principais matérias e que mudanças podem ser feitas para melhorar o
desempenho dos alunos. Sua equipe vai analisar os dados de desempenho dos alunos do ensino médio em duas escolas
públicas portuguesas, Gabriel Pereira (GP) e Mousinho da Silveira (MS). Os dados foram coletados pelo distrito escolar
por meio de relatórios acadêmicos e pesquisas com estudantes. Os dados incluem informações como.
● Notas do estudante
● Histórico do estudante
● Tempo de estudo
● Participação dos estudantes em atividades extracurriculares
Entretanto, antes de analisar os dados, é importante certificar-se de que os dados estejam limpos. A análise de dados
ruins ou sujos pode fazer com que o distrito escolar chegue a conclusões erradas e implemente mudanças ineficazes. Sua
tarefa é ajudar a limpar os dados. Ao concluir esta atividade, você será capaz de classificar os dados de diferentes
maneiras, aplicar filtros para remover dados incorretos e preencher dados ausentes, e converter dados de texto para o
formato numérico. Os dados de limpeza são uma fase crítica do processo de análise de dados. A classificação e filtragem
são técnicas úteis para a limpeza de dados, e também são habilidades-chave que você utilizará ao longo de sua carreira
como analista de dados.
O que você vai precisar
Para começar, acesse a planilha que contém os dados. Clique no link e faça uma cópia da planilha.
Ou, se você não tiver uma conta Google, você pode baixar o conjunto de dados diretamente do anexo abaixo:
Limpe seus dados
É importante ter certeza de que seus dados estão limpos para que sua análise esteja correta. A primeira coisa a ser feita é
a verificação dos valores nas colunas mais relevantes para sua análise e descobrir se há algo para você limpar. Neste
exemplo, o principal objetivo do superintendente é determinar quais fatores impulsionam o desempenho dos alunos. Para
começar a responder esta pergunta, as colunas em que você quer se concentrar primeiro são escola, idade, motivo, Medu,
Fedu. Você pode usar a classificação e filtragem para limpar os dados em cada uma dessas colunas.
Classificando os dados
Como você tem dados de duas escolas, Gabriel Pereira (GP) e Mousinho da Silveira (MS), você pode começar
classificando os dados por escola. Depois você também pode classificar por idade para descobrir as faixas etárias dos
alunos de cada escola. Classificar envolve organizar os dados em uma ordem significativa para torná-los mais fáceis de
entender, analisar e visualizar.
1. Para começar, renomeie sua planilha. No canto superior esquerdo, clique em Planilha sem título e digite um novo
nome. Você pode usar o nome student_performance_data ou um nome similar que
descreva os dados que sua planilha contém.
2. Agora, classifique por escola. Como você deseja classificar em várias
colunas, você precisa selecionar todos os dados em sua planilha. Clique no
retângulo em branco acima da linha 1 e à esquerda da coluna A. Isto permite
selecionar todos os dados em sua planilha.
https://docs.google.com/spreadsheets/d/1lekmvxJDglmqUKxSxSk7TiA8Sfurqc9pTyKXIgUvNm4/template/preview?resourcekey=0-O8LBUyc6VTc9sYPH6hdsmw#gid=1019073941
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
3. Em seguida, na barra de menu, selecione Dados depois Classificar intervalo. (Nota: para algumas versões do Planilhas
Google, a seleção Opções de classificação de intervalo avançado pode aparecer no menu suspenso Dados em vez de
Classificar intervalo).
4. Na janela pop-up, selecione Dados com linha de cabeçalho. Agora você pode escolher cabeçalhos de coluna
específicos para classificar.
5. Na lista suspensa Classificar por, escolha o cabeçalho escola. Em seguida, clique em A→ Z para classificar em ordem
crescente.
6. Você também quer classificar por idade. Antes de poder classificar por idade, você precisa clicar em Adicionar outra
coluna de classificação para escolher um segundo cabeçalho de coluna.
7. Na lista suspensa Classificar por, escolha o cabeçalho idade. Desta vez, clique em Z → A para classificar em ordem
decrescente. Desta forma, os alunos mais antigos serão os primeiros a serem listados.
Sua janela pop-up deve aparecer assim:
8. Uma vez que ambas as seleções tenham sido feitas, clique em Classificar.
Agora, se você passar pelos dados, notará que a faixa etária dos alunos do Gabriel
Pereira (GP) é de 15-22 anos, e a faixa etária dos alunos do Mousinho da Silveira
(MS) é de 15-20 anos. Parece que ambas as escolas têm faixas etárias
semelhantes, mas a escola GP tem alunos que são um pouco mais velhos.
Ao classificar os dados, você descobriu um problema potencial com eles. Como
este conjunto de dados representa o rendimento escolar dos alunos do ensino
médio, qualquer idade acima de 18 anos pode indicar que foi cometido um erro ao
entrar na idade daquele aluno. Agora você sabe quais dados de idade podem
precisar ser pesquisados e corrigidos. Seu próximo passo é perguntar ao superintendente sobre a faixa etária legítima
para os alunos do ensino médio público. Aí você saberá quais dados de idade estão incorretos e devem ser removidos.
Remoção de dados incorretos
O superintendente diz que o limite máximo de idade para o qual é fornecido o ensino público é de 19 anos e que a faixa
etária deve ser de 15-19 anos para ambas as escolas. Qualquer estudante fora desta faixa etária deve ser excluído do
conjunto de dados.
Para limpar seus dados, você precisa remover as idades de 20,21 e 22 anos do seu conjunto de dados. Você pode
começar aplicando um filtro na coluna idade. A filtragem é o processo de mostrar apenas os dados que satisfazem
um critério especificado, enquanto esconde os demais. A filtragem facilita a busca dos dados
que você precisa.
1. Primeiro, aplicar um filtro à coluna idade. Selecione a coluna idade, clicando na letra no
topo da coluna (C).
2. Em seguida, na barra de menu, selecione Dados depois>Criar um filtro.
3. Agora você pode inspecionar os valores na coluna idade indo até o topo da coluna e
clicando no ícone Filtro ().
4. No Planilhas Google, há nove valores possíveis para o campo (15, 16, 17, 18, 19, 20, 21,
e 22). Você pode notar que todos os valores têm marcas de verificação. Filtre esta coluna para os
valores que você deseja selecionar desmarcando todos os outros valores (15, 16, 17, 18, e 19).
5. Agora clique em OK. Isto destacará as linhas que contêm as
idades de 20, 21 e 22 anos. Depois de aplicar o filtro, deve
haver nove linhas (sete para a escola GP e duas para a escola MS).
6. Para excluir as nove filas, primeiro selecione-as clicando nos números de suas
linhas.
7. Em seguida, na barra de menu, selecione Editar e Apagar linhas selecionadas.
8. Clique no ícone Filtro na parte superior da coluna idade para inspecionar os valores
mais uma vez. Agora que as três idades incorretas foram removidas (20, 21 e 22),
restam apenas cinco idades (15, 16, 17, 18 e 19). As idades restantes são confiáveis e
podem ser usadas para análise.
9. Por fim, remova o filtro. Na barra de menu, selecione Dados e Remover o filtro.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Preenchimento de dados ausentes
O preenchimento de dados ausentes é uma parte importante da limpeza de dados. É seu trabalho preencher estes
espaços em branco em seus dados com valores precisos. O superintendente quer saber quais fatores influenciam o
desempenho dos alunos e a razão de um aluno escolher uma escola específica será importante saber para análise. A
coluna motivos mostra o principal motivo pelo qual um estudante escolheu se matricular em uma escola específica, de
acordo com sua resposta à pesquisa. Por exemplo, por causa da reputação da escola, ou porque ela oferece certos cursos,
etc. Portanto, você precisa ter certeza de que a coluna “motivos” está completa e sem espaços em branco.
1. Comece aplicando um filtro na planilha inteira. Clique em qualquer célula da planilha. Em seguida, na barra de
menu, selecione Dados e depois Criar um filtro.
2. Todas as células agora estão destacadas e há filtros no topo de cada coluna contendo dados. Clique no ícone
Filtro na coluna de motivo (K).
3. Você pode notar que os valores dos dados na coluna motivo incluem espaços em branco. Filtre esta coluna para
espaços em branco, desmarcando todos os outros valores (curso, casa, reputação).
4. Clique em OK. Agora, sua planilha mostra todas as linhas em branco na coluna motivo.
5. Para limpar seus dados, você precisa encontrar uma boa maneira de preencher estes valores
ausentes. Neste caso, você não pode saber qual deve ser cada valor
em falta (isto é, sem uma nova pesquisa, você não pode descobrir a
motivo de cada aluno para escolher uma escola específica). Portanto,
você pode substituir os valores ausentes pelo valor none_given. Para
fazer isto enquanto a coluna ainda estiver filtrada para espaços em
branco, digite none_given na primeira célula vazia (K2). Em seguida,
pressione Enter.
6. Selecione novamente a célula K2. Um pequeno quadrado azul,
conhecido como a alça de preenchimento, aparece no canto inferior
direito da célula. Clique duas vezes na alça de preenchimento para
preencher todas as outras células em branco com o valor none_given.
7. Por fim, remova o filtro. Na barra de menu, selecione Dados e Remover o filtro. Se
você descer a coluna de motivo, você deve descobrir que o valor none_given substituiu
todos os espaços em branco na coluna motivo.
Conversão de dados
Durante o processo de análise de dados, às vezes é necessário alterar dados
de texto (palavras) para dados numéricos (números). Por exemplo, alguns
pacotes estatísticos como aqueles usados para realizar o aprendizado de
máquinas só aceitarão valores de dados numéricos como entrada. Neste
caso, o superintendente quer saber se o nível de educação de um dos pais é
um fator significativo no desempenho dos alunos. Os dados relevantes estão
nas colunas Medu e Fedu - que, respectivamente, se referem ao nível de
educação dos pais de um aluno. Atualmente, os dados estão em formato
texto. Para fins de análise, será útil conhecer o nível médio de educação dos
pais de cada aluno. Para fazer este cálculo, primeiro é necessário converter os dados nas colunas Medu e Fedu para o
formato numérico. Para fazer isso, você pode fazer corresponder valores numéricos específicos aos dados do texto em
cada coluna. Comece com a coluna Medu. Se você clicar no ícone Filtro na parte superior da coluna Medu (G), você notará
que a coluna contém os dados de texto mostrados na tabela abaixo. Você pode usar os seguintes códigos numéricos para
cada pedaço de texto de dados:
1. Para começar, remova o filtro da coluna Medu.
2. Em seguida, selecione os dados não filtrados da coluna Medu, clicando na letra da coluna (G).
3. Em seguida, na barra de menu, selecione Editar, depois Procurar e substituir.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
4. Preencha a janela pop-up para o valor zero. Ao lado de Procurar, digite zero
Ao lado de Substituir por, digite 0. Marque a caixa ao lado de Combinar conteúdo de
célula inteira.
5. Agora clique em Substituir todos.
6. Ainda na janela pop-up, repita este processo (passos 4-5) para os outros quatro
níveis educacionais: educação primária (4ª série), 6ª ao 9ª ano, ensino médio, e ensino
superior.
7. Após substituir todos os cinco níveis de ensino por valores numéricos, clique em
“Pronto” para fechar a janela pop-up.
8. Confira sua planilha. Todas as células da coluna Medu agora exibem valores
numéricos.
9. Alterar os dados do texto na coluna Fedu (H) da mesma forma.
Confirmação e reflexão
Pergunta 1 - Qual é o processo de mostrar apenas os dados que satisfazem um critério específico enquanto se
esconde o resto?
Filtragem
Inspeção
Classificação
Conversão
Correto - A filtragem é o processo de mostrar apenas os dados que satisfazem um critério especificado, enquanto esconde os demais. A
filtragem é uma técnica extremamente útil para a limpeza de dados e uma ferramenta essencial em todo conjunto de ferramentas para
analistas de dados.
Pergunta 2 - Na caixa de texto abaixo, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma das
perguntas a seguir:
● Por que a limpeza de dados é uma parte tão importante do processo de análise de dados?
● Como a classificação e a filtragem podem ajudá-lo a limpar os dados com mais eficácia?
- A limpeza de dados é fundamental porque uma análise baseada em dados sujos pode levar a conclusões erradas e más
decisões. Quanto mais limpos forem seus dados, melhores serão seus resultados.
- A classificação é útil quando você quer visualizar tudo em uma planilha em ordem alfabética ou numérica; Um filtro
simplifica uma planilha apenas nos mostrando as informações que precisamos.
Correto - Os dados de limpeza são uma parte importante do processo de análise de dados. Se a análise de dados for baseada em dados
ruins ou sujos, pode ser tendenciosa, equivocada e desinformada. A classificação e filtragem são habilidades essenciais para cada analista
de dados e também são muito úteis para a limpeza de dados. Nas próximas atividades, você continuará a aprender mais sobre as formas
mais eficazes e eficientes de limpar dados.
Autorreflexão: Considerando bancos de dados e planilhas para classificação e filtragem
Visão geral
Agora que você classificou e filtrou os dados em uma planilha e foi introduzido aos bancos de dados, você pode parar por
um momento e pensar sobre o que está aprendendo. Nessa auto-reflexão, você considerará seus pensamentos sobre
planilhas e bancos de dados, depoisresponderá a breves perguntas. Essa auto-reflexão o ajudará a desenvolver ideias em
seu próprio aprendizado e prepará-lo para aplicar seus conhecimentos de preparação de dados a situações do mundo
real. Ao responder a perguntas (e fazer suas próprias perguntas), você considerará conceitos, práticas e princípios para
ajudar a refinar sua compreensão e a reforçar seu aprendizado. Você fez o trabalho duro, então não deixe de aproveitá-lo
ao máximo: Essa reflexão ajudará a fixar o seu conhecimento!
Comparar e contrastar
Pense em tudo o que você aprendeu sobre planilhas e bancos de dados. Em muitos aspectos, eles são semelhantes. Já
em outros, são diferentes. Por exemplo, tanto as planilhas quanto os bancos de dados armazenam e organizam os dados.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Entretanto, os bancos de dados podem ser relacionais, enquanto as planilhas não podem. Isto significa que as
planilhas são mais adequadas para dados autocontidos, onde os dados existem em um só lugar. Enquanto isso,
você pode usar bancos de dados para armazenar dados de tabelas externas, permitindo alterar dados em vários lugares,
editando em apenas um lugar. Pare um tempo para estudar estes exemplos e apresente alguns de seus próprios
exemplos. Aqui estão algumas áreas que você pode querer estudar:
● Como eles armazenam os dados?
● Como eles são usados para interagir com os dados?
● Qual é o poder de cada um?
● Quais são seus prós e contras na classificação?
● Quais são seus prós e contras ao filtrar?
Ao estudar cada uma destas perguntas, compile-as em uma tabela simples. Você pode usar caneta e papel ou seu
software de planilha preferido, adicionar a pergunta à esquerda e comparar e contrastar planilhas e bancos de dados à
direita. Sua mesa pode ficar um pouco semelhante a isto:
Pergunta Planilha Banco de dados
Como eles armazenam os dados? Armazena os dados em células. Armazena os dados em tabelas.
Como eles são usados para interagir com os dados?
Use sua tabela para comparar e contrastar. Quando terminar, responda as perguntas de reflexão abaixo.
Reflexão
Pergunta 1 - Considere o que você aprendeu ao comparar planilhas e bancos de dados nesta reflexão:
● Que semelhanças você notou entre planilhas e bancos de dados? Quais diferenças?
● Pense em como se sentiu ao aprender sobre cada tópico. Um foi mais fácil ou mais difícil de aprender do que o
outro? Em caso afirmativo, por que você acha que sim?
Agora, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma dessas perguntas. Digite sua resposta na
caixa de texto abaixo.
- Semelhanças entre planilhas e bancos de dados: Organização de dados, Manipulação de dados, Relacionamento entre dados.
Diferenças: Estrutura, Capacidade de armazenamento, Concorrência e Escalabilidade.
- Quanto à facilidade de aprendizado, isso pode variar de pessoa para pessoa. Algumas pessoas podem encontrar as planilhas mais
fáceis de aprender, pois sua interface é geralmente mais intuitiva e familiar. Por outro lado, aprender sobre bancos de dados pode
exigir um entendimento mais aprofundado de conceitos como modelagem de dados, SQL e estruturas de bancos de dados. No
entanto, para outras pessoas, a lógica dos bancos de dados pode fazer mais sentido e ser mais fácil de compreender do que as
complexidades de fórmulas e macros em planilhas. Portanto, a facilidade de aprendizado depende do background e das habilidades
individuais de cada pessoa.
Teste seus conhecimentos sobre classificação e filtragem
Pergunta 1 - Qual é o processo de organização dos dados em uma ordem significativa para facilitar sua
compreensão, análise e visualização?
Reformulação
Priorização
Filtragem
Classificação
Correto - A classificação é o processo de organização dos dados em uma ordem significativa para facilitar a compreensão, análise e
visualização.
Pergunta 2 - Um analista de dados está revendo um banco de dados nacional de vendas imobiliárias. Ele está
interessado apenas nas vendas de condomínios. Como o analista pode reduzir seu escopo?
Filtrar a venda de condomínios
Classificar por venda em condomínio
Filtrar as vendas não condominiais
Classificar por vendas não condominiais
Correto - O analista pode reduzir seu escopo filtrando as vendas não condominiais. Isto permitirá a visualização apenas dos dados sobre a
venda de condomínios.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Pergunta 3 - Um analista de dados trabalha para uma empresa de aluguel de carros. Eles têm uma planilha que
lista os números de identificação do carro e as datas em que os carros foram devolvidos. Como eles podem
organizar a planilha para encontrar os carros devolvidos mais recentemente?
Por data de retorno, em ordem decrescente
Por identificação numérica do carro, em ordem decrescente
Por identificação numérica do carro, em ordem crescente
Por data de retorno, em ordem crescente
Correto - Para classificar a planilha para encontrar rapidamente os carros devolvidos mais recentemente, eles devem classificar por data de
devolução, em ordem decrescente.
Pergunta 4 - Preencha a lacuna: Para manter uma linha de cabeçalho na parte superior de uma planilha, destaque a
linha e selecione _____ no menu Ver.
Set (Definir)
Pin (Fixar)
Lock (Travar)
Freeze (Congelar)
Correto - Para manter uma linha de cabeçalho no topo de uma planilha, destaque a linha e selecione freeze no menu Ver.
TRABALHAR COM GRANDES CONJUNTOS DE DADOS EM SQL
VÍDEO - CONFIGURAÇÃO DO BIGQUERY, INCLUINDO SANDBOX E OPÇÕES DE FATURAMENTO - Olá. Bem-vindo de volta. Ao
longo deste curso, você viu como o BigQuery pode ser usado para visualizar e analisar dados de toneladas de fontes. Agora vamos
explorar os diferentes níveis de conta que o BigQuery oferece, para que você saiba como escolher o nível certo para suas
necessidades e como você pode acessá-los. O BigQuery é oferecido para você sem nenhum custo. Existem opções pagas
disponíveis, mas não vamos precisar delas para as atividades deste curso. Em vez disso, vamos falar sobre dois tipos de conta:
sandbox e avaliação gratuita. Uma conta sandbox está disponível sem nenhum custo e qualquer um com uma conta no Google
pode fazer login e usar. Há algumas limitações para este tipo de conta. Por exemplo, você tem um máximo de 12 projetos por vez.
Isso significa que se você quiser fazer um 13º projeto, vai ter que excluir um dos seus 12 projetos originais. Ela também não permite
que você insira novos registros em um banco de dados ou atualize os valores dos campos de registros existentes. Essa Linguagem
de Manipulações de Dados ou DML não tem suporte no sandbox. No entanto, você vai precisar fazer isso nas atividades do curso.
Você pode ler mais sobre as limitações de uma conta sandbox na documentação do BigQuery. Este é o tipo de conta que vamos usar
para a maioria de nossas atividades. É simples de configurar. Então, mais tarde neste vídeo vamos revisar cada um desses passos
necessários para criar uma conta. Antes disso, porém, devemos falar sobre a outra maneira de usar o BigQuery sem custos. A
avaliação gratuita do Google Cloud. A avaliação gratuita dá acesso a mais do que o BigQuery tem a oferecer com menos limitações no
geral. A avaliação gratuita oferece US$300 em crédito para uso no Google Cloud durante os primeiros 90 dias. Você não chegará nem
perto desse limite de gastos se usar o console BigQuery somente para praticar consultas SQL. Depois de gastar os US$300 de crédito
ou depois de 90 dias, a sua avaliação gratuita vai expirar e você vai precisar selecionar pessoalmente para uma conta paga a fim de
continuar trabalhando no Google Cloud. Seu método de pagamento não será cobrado automaticamente após o término da sua
avaliação gratuita. A avaliação gratuita exige que você configure uma opção de pagamento no Google Cloud. Mas a menos que você
opte por uma atualização da conta, ele não vai cobrar você. Porém, ele exige, sim, que você insira um tipo de pagamento. Nós
entendemos se você não se sentir confortável com essa opção. Este é um dos motivos pelos quais existe a conta sandbox do
BigQuery,para que você não precise inserir nenhuma informação de pagamento. Com qualquer tipo de conta, você pode atualizar para
uma conta paga a qualquer momento e manter todos os seus projetos existentes. Se você configurar uma conta para avaliação gratuita
mas optar por não atualizar para uma conta paga quando seu período de teste terminar, você pode então configurar uma conta
sandbox. No entanto, os projetos da sua avaliação não serão transferidos para sua sandbox. Seria como recomeçar do zero. Apenas
algo para ter em mente. Agora vamos definir sua conta sandbox, que você pode transformar em avaliação gratuita ou atualizar para
uma conta paga se preferir. Primeiro, nós vamos para a página de documentação do sandbox do BigQuery. Em seguida, vamos para o
canto superior direito para fazer login em qualquer contas do Google que você desejar para usar para a conta sandbox do BigQuery.
Vamos então selecionar o botão"Vá para BigQuery" na página de documentação. Isso nos leva a um menu suspenso para selecionar
um país e para ler os termos do contrato de serviço. Isso nos levará ao espaço de trabalho SQL, que vamos usar nas nossas próximas
atividades. Escolha "Criar projeto" e dê um nome ao projeto, gerando-lhe um ID. Escolha "Criar" e, então, "Pronto". Aí está. No próximo
vídeo, vamos explorar o que cada parte do espaço de trabalho SQL faz e como vamos usá-lo em atividades futuras. Vejo você lá.
VÍDEO - COMO USAR O BIGQUERY - Olá. Neste vídeo, aprenderemos sobre cada parte do espaço de trabalho do SQL no BigQuery
para que você possa usá-lo durante este curso e ao longo de sua carreira como analista de dados. É uma ferramenta extremamente
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
valiosa e amplamente popular, então entender como ela funciona será de grande ajuda. Fique à vontade para acompanhar em sua tela
enquanto exploramos o BigQuery. Observe que minha tela parece um pouco diferente da sua, já que a interface do BigQuery é
constantemente atualizada. Não se preocupe se for o caso, pois pequenas diferenças não o impedirão de entender o básico. Para
começar, vá para a página de entrada do BigQuery e faça login na conta em que você criou anteriormente. Para navegar até o espaço
de trabalho do SQL, selecione o menu no lado esquerdo da tela e role para baixo até o cabeçalho do Big Data. Em seguida, passe o
mouse sobre o rótulo do BigQuery e clique em “espaço de trabalho do SQL” no menu suspenso. Agora que estamos no espaço de
trabalho do SQL, vamos pesquisar conjuntos de dados públicos, selecionar um conjunto de dados por meio do Data Explorer, executar
uma consulta e carregar nossos próprios dados para consulta. Primeiro, vamos procurar um conjunto de dados públicos para usar.
Para selecionar um conjunto de dados público, navegue até o menu Explorador no lado esquerdo da tela. Clique no botão “Adicionar
dados” no canto superior direito do menu. Em seguida, no menu suspenso, selecione “Explorar conjuntos de dados públicos”. Isso
abrirá o marketplace e mostrará os conjuntos de dados públicos disponíveis. Vamos para a barra de pesquisa do marketplace procurar
noaa_lightning, um conjunto de dados que usaremos em uma atividade futura. Clique no conjunto de dados “Cloud-to-Ground
Lightning Strikes”. Isso nos dará uma descrição e uma pré-visualização do conjunto de dados que captura observações sobre a
atividade de raios e padrões climáticos nos Estados Unidos. Clique em “Visualizar conjunto de dados”. Isso o levará de volta ao
espaço de trabalho do SQL e criará uma guia para o conjunto de dados. Podemos então voltar à guia Editor que abrimos ou clicar em
“Compor nova consulta” para começar a escrever com SQL. À esquerda, observe que a lista suspensa de dados públicos do BigQuery
está no menu Explorador. Podemos clicar na seta para expandir a lista de dados do BigQuery e escolher um novo conjunto de dados.
Vamos selecionar o primeiro conjunto de dados na lista suspensa, austin_311. Quando fazemos isso, ele se expande para mostrar a
tabela dentro do conjunto de dados. Podemos abrir o conjunto de dados para uma pré-visualização. A guia Esquema contém os nomes
de cada coluna no conjunto de dados. A guia Detalhes contém metadados adicionais, como a data de criação do conjunto de dados. A
guia Pré-visualização contém as primeiras linhas do conjunto de dados. Nesta página, podemos clicar em “Consultar” para criar
automaticamente uma nova janela do editor com o modelo para uma consulta já preenchida. A partir daqui, coloque um asterisco após
Selecionar, onde nosso cursor aparece, e execute a consulta. Parabéns, você executou uma consulta do SQL no BigQuery. A consulta
que você executou retornou linhas do conjunto de dados que são preenchidas em uma janela abaixo da interface do editor. Os
resultados de qualquer consulta executada também serão exibidos aqui. Agora, digamos que você tenha os resultados de uma
pesquisa que deseja fazer o upload para o BigQuery e analisar usando o SQL. Para adicionar seus próprios dados ao BigQuery,
escolha o ID do projeto que deseja adicionar. Selecione o ícone de três pontos verticais para abrir as opções do projeto e escolha
“Criar conjunto de dados”. Atribua um nome ao conjunto de dados que o ajudará a identificá-lo mais adiante, como por exemplo,
upload_test_dataset. Em seguida, clique em “Criar conjunto de dados”. Depois, vá para o menu Explorador e escolha os três pontos
verticais ao lado do conjunto de dados na lista suspensa Projetos. Agora vamos selecionar o ícone de criar tabela, que abre uma janela
pop-up. Em Fonte e criar tabela de, selecione “Fazer upload” ou qualquer método de sua preferência para fazer o upload de seus
dados. Aqui, podemos fazer o upload de qualquer arquivo de dados, como por exemplo,um arquivo CSV. Vamos dar à nossa tabela um
nome útil, como test_table. Verifique se o esquema está definido para detecção automática e selecione “Criar tabela”. Há muito mais
por vir com o BigQuery. Fique à vontade para assistir novamente a este vídeo a qualquer momento e continue praticando. Vejo você
em breve.
VÍDEO - BIGQUERY EM AÇÃO - Você aprendeu como organizar e filtrar dados em planilhas ajuda os analistas de dados a
personalizarem as informações. A personalização dos dados torna isso ainda mais significativo e mais fácil de entender, analisar e
visualizar. Você também constatou que algumas planilhas podem ser extremamente longas e complexas. Portanto, saber como se
concentrar nos dados exatos de que precisa, deixando de lado o restante, ajuda você a se concentrar em sua análise. Isso também se
aplica no caso dos bancos de dados. Às vezes um conjunto de dados é muito grande para ser baixado, ou não caberá em uma
planilha. Portanto, um analista de dados usará SQL ao criar uma consulta para visualizar os dados específicos que eles
desejam de dentro do conjunto maior. Aprendemos que um banco de dados é uma coleção de dados armazenados em um
sistema de computador. E que SQL significa Linguagem de Consulta Estruturada. Os analistas de dados usam linguagens de
consulta para se comunicar com o banco de dados. Em um vídeo anterior, você também aprendeu que um banco de dados relacional
contém uma série de tabelas que podem ser conectadas para formar relacionamentos. Esses relacionamentos são representados por
chaves primárias e estrangeiras. Os analistas de dados escrevem consultas para obter dados dessas tabelas. Vamos ver como isso
funciona. Começaremos com nosso visualizador de tabelas. Aqui podemos ver quais conjuntos públicos de dados estão disponíveis.
Vamos avaliar os dados antes de começarmos a usá-los para ter uma ideia do que são e para ter certeza de que estão claros. Alguns
visualizadores de tabela permitem que você visualize algumas linhas antes mesmo de escrever uma consulta. Isso é útil se você quiser
dar uma olhada rápida para ter certeza de que o conjunto de dados estará correto para seu projeto. Para mostrar a você como isso
funciona, vamos verificar um conjunto de dados de amostra. Este aqui mostra quanta luz solar incide sobre os telhados em um ano.
Issoseria muito útil para um analista de dados trabalhando em um projeto de energia, por exemplo. Começaremos com uma
pré-visualização do conjunto de dados. Clique sobre ele, assim. Em seguida, selecionaremos um subconjunto desses dados, onde
encontramos regiões, estados, luz solar anual e muito mais. Agora para ver o conjunto completo de dados, vamos escrever uma
consulta. O primeiro passo é descobrir o nome completo correto do conjunto de dados. Para fazer isso, selecione o conjunto de dados,
potencial solar por código postal, e selecione a tabela de consulta. O nome do conjunto de dados é exibido dentro dos dois backticks.
Isso é para nos ajudar a ler a consulta mais facilmente. Nesse caso, também podemos remover os backticks e nossa consulta ainda
funcionaria. As palavras que você vê antes do ponto representam o nome do banco de dados. E as palavras após o ponto representam
o nome da tabela. Vamos selecionar e copiar o nome do conjunto de dados agora porque vamos precisar dele em breve. Agora vamos
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
clicar no sinal de mais para compor uma nova consulta. A maioria das consultas começa com a palavra SELECT. Depois
acrescentamos um espaço. Porque queremos ver todo o conjunto de dados, vamos colocar um asterisco a seguir. O asterisco diz que
queremos incluir todas as colunas. Este é um ótimo atalho porque sem ele, teríamos que digitar o nome de cada campo. Em
seguida, pressionaremos Return e digitamos FROM. FROM faz exatamente o que parece. Ele indica de onde os dados estão
vindo. Depois disso, acrescentamos outro espaço. Agora, nós colamos o nome do conjunto de dados que copiamos anteriormente. E
por fim, fazemos a consulta. Agora, você pode inspecionar cuidadosamente o conjunto de dados antes de começarmos a trabalhar com
ele. Uma coisa importante a ter em mente: consultas SQL podem ser escritas de várias maneiras diferentes, mas ainda fornecem os
mesmos resultados. Por exemplo, poderíamos ter escrito esta consulta como uma extensa linha de instruções assim, e ainda teríamos
os mesmos resultados. As linhas e espaços adicionais não impactam no resultado da consulta, mas elas mantêm sua consulta
organizada e mais fácil de ler para você e para outros. Agora, se o projeto não exige todos esses campos, podemos usar SQL para
visualizar um determinado pedaço ou pedaços de dados. Para fazer isso, especificamos o nome da coluna na consulta. Por exemplo,
talvez queiramos apenas ver os dados da Pensilvânia. Então, vamos começar nossa consulta da mesma forma que acabamos de
aprender. SELECT, espaço, acrescente um asterisco. Em seguida, FROM de nosso banco de dados de potencial solar. Mas desta vez
vamos acrescentar WHERE. WHERE também faz exatamente o que parece. Ele diz ao banco de dados onde procurar
informação. Neste caso, a coluna do nome do estado. Acrescente um espaço e nome sublinhado do estado, o nome da coluna. Como
só queremos ver dados da Pensilvânia, acrescentamos um sinal de igualdade e a palavra Pensilvânia entre aspas simples. Em SQL as
aspas simples indicam o início e o fim de uma string. Finalmente, realizamos a consulta. Agora podemos revisar os dados sobre o
potencial solar apenas para a Pensilvânia. Agora temos os dados que queremos e estamos prontos para começar a colocá-los para
trabalhar. Falaremos sobre isso mais tarde. Mas por enquanto, vamos celebrar a conclusão de outro módulo. Abordamos muitas
informações complexas e altamente técnicas. À medida que pratica, as coisas começam a ficar mais naturais pra você. Por enquanto,
reserve um momento para parar e pensar em tudo o que você aprendeu. Você descobriu os metadados e como eles mantêm os dados
organizados, descrevendo do que se trata esses dados. Você já viu como os dados internos e externos são acessados e como os
analistas de dados utilizam esses dados para encontrar percepções úteis para resolver problemas comerciais. E você pode classificar
e filtrar seus dados para realmente localizar as informações de que precisa. Por fim, você acabou de aprender sobre consultas e até
praticou a escrita de algumas. A seguir, você terá algumas leituras e então um desafio semanal para testar seus conhecimentos. Isso o
ajudará a confirmar que você entendeu o que temos trabalhado nestes vídeos. E como sempre, se você estiver inseguro sobre uma
pergunta, o encorajamos a rever os vídeos e leituras para encontrar a resposta. Agora você é o detetive de dados, portanto, use suas
habilidades. Continue com bom trabalho e vejo você após o desafio semanal.
Usando o BigQuery
BigQuery é um armazém de dados no Google Cloud que os analistas de dados podem usar para consultar, filtrar grandes
conjuntos de dados, agregar resultados e realizar operações complexas. A próxima atividade é realizada em BigQuery.
Esta leitura fornece instruções para criar sua própria conta BigQuery, selecionar conjuntos de dados públicos e carregar
arquivos CSV. No final desta leitura, você pode confirmar seu acesso ao console BigQuery antes de passar para a
atividade.
Nota: no final desta leitura também são fornecidos recursos adicionais para iniciar algumas outras plataformas de banco
de dados SQL se você optar por trabalhar com elas em vez de BigQuery.
Tipos de contas BigQuery
Existem dois tipos diferentes de contas: sandbox e free trial. Uma conta sandbox permite que você pratique consultas e
explore gratuitamente conjuntos de dados públicos, mas tem restrições adicionais para além das quotas e limites padrão.
Se você preferir usar BigQuery com os limites padrão, você pode criar uma conta de teste gratuita em seu lugar. Mais
detalhes:
● Uma conta sandbox gratuita não pede um método de pagamento. No entanto, ela limita a 12 projetos. Também
não permite que você insira novos registros em um banco de dados ou atualize os valores de campo dos registros
existentes. Estas operações de linguagem de manipulação de dados (DML) não são suportadas no sandbox.
● Uma conta experimental gratuita requer um método de pagamento para estabelecer uma conta faturável, mas
oferece total funcionalidade durante o período experimental.
Com qualquer tipo de conta, você pode atualizar para uma conta paga a qualquer momento e reter todos os seus projetos
existentes. Se você criar uma conta experimental gratuita, mas optar por não atualizar para uma conta paga quando seu
período experimental terminar, você ainda poderá criar uma conta sandbox gratuita naquele momento. No entanto, os
projetos de sua conta de teste não serão transferidos para sua conta sandbox. Seria como recomeçar do zero.
Estabelecer uma conta sandbox gratuita para uso neste programa
● Siga estas instruções passo a passo ou assista ao vídeo Configurando BigQuery, incluindo sandbox e opções de
cobrança.
https://cloud.google.com/bigquery/docs
https://cloud.google.com/bigquery/docs/sandbox#limits
https://cloud.google.com/bigquery/quotas
https://cursive.io/shared/2da0e63f3-9de7-476f-997b-93fff70d7cb6
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/lecture/YCkys/configuracao-do-bigquery-incluindo-sandbox-e-opcoes-de-faturamento
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/lecture/YCkys/configuracao-do-bigquery-incluindo-sandbox-e-opcoes-de-faturamento
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● Para informações mais detalhadas sobre o uso da sandbox, comece com a documentação Usando a sandbox
BigQuery.
● Após configurar sua conta, você verá o nome do projeto que criou para a conta no banner e SANDBOX na parte
superior de seu console BigQuery.
Em vez disso, crie uma conta de teste gratuita (se preferir)
Se você preferir não ter as limitações da sandbox em BigQuery, você pode criar uma conta de teste gratuita para uso neste
programa.
● Siga estas instruções passo a passo ou assista ao vídeo Configurando BigQuery, incluindo sandbox e opções de
cobrança. O teste gratuito oferece $300 dólares em crédito durante os próximos 90 dias. Você não chegará perto
desse limite de gastos se você usar apenas o console BigQuery para praticar consultas SQL. Após gastaro
crédito de $300 (ou após 90 dias) seu teste gratuito expirará e você precisará fazer a seleção pessoalmente para
atualizar para uma conta paga para continuar usando os serviços da Plataforma Google Cloud, incluindo o
BigQuery. Seu método de pagamento nunca será cobrado automaticamente após o término de seu teste
gratuito. Se você optar por atualizar sua conta, você começará a ser cobrado.
● Após configurar sua conta, você verá Meu Primeiro Projeto no banner e o status de sua conta acima do banner –
seu saldo de crédito e o número de dias restantes em seu período experimental.
Como chegar ao painel do BigQuery
Em seu navegador, acesse console.cloud.google.com/bigquery.
Observação: Acesse console.cloud.google.com em seu navegador o leva ao painel principal da plataforma Google Cloud.
Para navegar para BigQuery a partir do painel de instrumentos, faça o seguinte:
● Clique no ícone do menu Navegação (ícone Hambúrguer) no banner.
● Vá até a seção BIG DATA.
● Clique em BigQuery e selecione o espaço de trabalho SQL.
Assista ao vídeo Como usar o BigQuery para uma introdução a cada parte do espaço de trabalho SQL BigQuery.
(Opcional) Explore um conjunto de dados públicos BigQuery
Você explorará um conjunto de dados públicos em uma próxima atividade, portanto, se preferir, pode realizar estas etapas
mais tarde.
● Consulte as seguintes instruções passo a passo.
(Opcional) Carregamento de um arquivo CSV para BigQuery
Estas etapas são fornecidas para que você possa trabalhar com um conjunto de dados por conta própria neste momento.
Você carregará arquivos CSV para BigQuery mais tarde no programa.
● Consulte as seguintes instruções passo a passo.
Começando com outros bancos de dados (se não estiver usando BigQuery)
É mais fácil de acompanhar as atividades do curso se você usar o BigQuery, mas se você estiver se conectando e
praticando consultas SQL em outras plataformas de banco de dados em vez de BigQuery, aqui estão recursos
semelhantes para iniciar:
● Começando com o MySQL: Este é um guia para configurar e usar o MySQL.
● Começando com o Microsoft SQL Server: Este é um tutorial para começar a usar o SQL Server.
● Começando com o PostgreSQL: Este é um tutorial para começar a usar o PostgreSQL.
● Começando com SQLite: Este é um guia de início rápido para usar o SQLite.
https://cloud.google.com/bigquery/docs/sandbox?hl=en_US
https://cloud.google.com/bigquery/docs/sandbox?hl=en_US
https://cursive.io/shared/2e98bf922-42d6-48c2-998f-6057389d0ccb
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/lecture/YCkys/configuracao-do-bigquery-incluindo-sandbox-e-opcoes-de-faturamento
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/lecture/YCkys/configuracao-do-bigquery-incluindo-sandbox-e-opcoes-de-faturamento
https://console.cloud.google.com/bigquery
https://console.cloud.google.com/
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/lecture/YWn81/como-usar-o-bigquery
https://cursive.io/shared/242bde9a6-5415-4ce0-bbae-7e875d14d927
https://cursive.io/shared/2dea0d610-ef6b-4ba8-8e44-d40dfeb0454b
https://dev.mysql.com/doc/mysql-getting-started/en/
https://docs.microsoft.com/en-us/sql/relational-databases/tutorial-getting-started-with-the-database-engine?view=sql-server-ver15
https://www.postgresql.org/docs/10/tutorial-start.html
https://www.sqlite.org/quickstart.html
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Atividade prática: Introdução ao BigQuery
Visão geral da atividade
Até agora, você já foi apresentado ao BigQuery, um depósito de dados no Google Cloud que os analistas de dados podem
usar para consultar, filtrar grandes conjuntos de dados, agregar resultados e realizar operações complexas. Nesta
atividade, você explorará a interface BigQuery, carregar dados públicos para seu console e escrever algumas consultas
SQL simples usando SELECT, FROM, e WHERE. Ao concluir esta atividade, você estará mais familiarizado com as
consultas de escrita na interface do BigQuery. Isto lhe permitirá praticar SQL, o que é importante para trabalhar com
bancos de dados em sua carreira como analista de dados.
Explore o BigQuery
Para esta atividade, você precisará de uma conta BigQuery. Se você ainda não tiver criado uma, você pode seguir as
instruções da Leitura: Usando BigQuery. Uma vez que a conta foi criada, você pode começar a explorar!
Abra seu console
1. Faça login no BigQuery.
2. Em seguida, clique no botão Ir para console na página inicial do BigQuery. Será aberta uma nova guia com seu console.
3. Tire um momento para explorar o console. No lado esquerdo, você encontrará o
menu Explorer que inclui uma barra de busca que você pode usar para encontrar
recursos, projetos fixados, e o botão + ADICIONAR DADOS. No lado direito, você
encontrará o Editor de Consultas. É aqui que você introduzirá as consultas e
visualizará os conjuntos de dados. Você também pode encontrar seu Histórico de
Trabalho, Histórico de Consultas e Consultas Guardadas aqui.
Acesso a dados públicos em BigQuery
Para realmente começar a escrever consultas, você precisará de alguns dados para trabalhar. Uma vez que você esteja
familiarizado com a interface BigQuery, você pode acessar um conjunto de dados públicos diretamente de seu console.
1. Clique no botão + ADICIONAR DADOS no painel de menu Explorar e selecione Explorar conjuntos de dados públicos.
Será aberto um novo menu onde você poderá pesquisar conjuntos de dados públicos que já estão disponíveis por meio do
Google Cloud.
2. No menu do conjunto de dados que você acabou de abrir, digite london
bicycle na caixa de busca no topo. Isto retornará o conjunto de dados
London Bicycle Hires da Greater London Authority. Clique no conjunto de
dados para obter mais detalhes.
https://www.coursera.org/teach/preparar-os-dados-para-exploracao/ya2S-yfxEeyavRI3rIvGvQ/content/edit/supplement/DYOQK
https://cloud.google.com/bigquery
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
3. A partir da página de informações do conjunto de dados, clique no botão
azul VISUALIZAR CONJUNTO DE DADOS. Isto abrirá seu console em uma
nova guia com este conjunto de dados carregado. Você perceberá que o
bigquery-public-data está agora fixado em seu painel Explorar. Agora você
pode explorar e consultar estes conjuntos de dados públicos.
4. Clique na seta ao lado de bigquery-public-data e percorra a lista de conjuntos de dados públicos
até encontrar os dados de london_bicycles. Quando você clicar no conjunto de dados, ele listará
duas tabelas. Clique em cycle_hire. Isso abrirá uma nova guia em seu Editor de Consultas com
informações sobre o esquema da tabela.
5. Depois de verificar o esquema da tabela, você pode dar uma olhada em quais
dados a tabela do cycle_hire contém, clicando na guia Visualização. Isto lhe dará
uma ideia melhor do tipo de dados com os quais você estará trabalhando. Uma vez
terminada a visualização dos dados, você pode escrever uma consulta!
Consulte seus dados
Até agora, você aprendeu três comandos de uma consulta: SELECT, FROM e WHERE. Como atualização, veja abaixo o
que esses comandos básicos representam na consulta:
● SELECT é a seção de uma consulta que indica quais dados você quer que o SQL retorne a você
● FROM é a seção de uma consulta que indica de qual tabela provêm os dados desejados.
● WHERE está a seção de uma consulta que indica qualquer filtro que você gostaria de aplicar ao seu conjunto de
dados
Escreva uma consulta básica
Agora, construa um comando simples usando as partes básicas de uma consulta que você já aprendeu! Por exemplo, você
pode selecionar uma coluna específica da tabela cycle_hire, tal como a coluna end_station_name.
1. Comece sua consulta com uma cláusula SELECT e indique qual coluna você deseja selecionar da tabela; neste caso,
você inserirá end_station_name.
2. Após ter indicado qual coluna você está selecionando, escreva sua cláusula FROM. Você precisará especificar a tabela
que está consultando, inserindo a seguinte localização: `bigquery-public-data.london_bicycles.cycle_hirè;
A consulta concluída deve aparecer assim:SELECT
end_station_name
FROM
`bigquery-public-data.london_bicycles.cycle_hirè;
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
3. Execute sua consulta completa clicando no botão azul de EXECUTAR.
Esta consulta pode levar alguns segundos para ser executada. Uma vez terminado, você encontrará a lista de nomes de
estações que você solicitou sob o painel de resultados da consulta.
Escreva uma consulta para responder a uma pergunta
Depois de executar a primeira consulta básica, tente responder a uma pergunta específica sobre os dados. Por exemplo,
quais foram as rental_ids para todas as viagens de bicicleta que duraram 20 minutos ou mais?
1. Clique em COMPOR NOVA CONSULTA para iniciar uma nova consulta. Comece com o SELECT novamente. Desta
vez, você vai querer incluir todas as colunas na tabela para esta consulta. Você pode usar um asterisco para indicar que
você está selecionando todos os dados desta forma: SELECT COUNT(*) AS num_of_trips
2. Depois, você vai adicionar seu FROM. Você estará utilizando o mesmo conjunto de dados da consulta anterior: FROM
`bigquery-public-data.london_bicycles.cycle_hirè.
3. Por fim, você acrescentará uma declaração WHERE pois você deseja filtrar apenas para passeios de bicicleta de 20
minutos ou mais. Se verificar a visualização destes dados, poderá notar que a duração é registrada em segundos, então
você especificará 1200 segundos em sua consulta. Você pode escrever isso comoWHERE duração>=1200;
Sua consulta completa deve ser escrita desta forma:
SELECT
COUNT(*) como num_of_trips
FROM
`bigquery-public-data.london_bicycles.cycle_hirè
WHERE
duration >= 1200;
4. Execute sua consulta completa clicando no botão azul de EXECUTAR.
Esta consulta pode levar alguns segundos para ser executada. Uma vez terminado, você encontrará uma lista de viagens
desta tabela que se encaixam em seus critérios. Há mais de 7 milhões de linhas com viagens de bicicleta que são de 20
minutos ou mais!
A fim de um desafio?
Se você estiver à vontade para responder perguntas, tente criar e executar perguntas para responder a qualquer uma das
perguntas abaixo:
● Quais são os nomes das estações a partir das quais a bike_id 1710 começou?
● Quantas bicicletas já terminaram na "Moor Street, Soho"?
● O que é o station_id para "Canton Street, Poplar"?
● Qual é o nome da estação cuja identificação é 111?
● Quantas bicicletas distintas tiveram durações de viagem superiores a 2400 segundos (ou 40 minutos)?
Você pode usar o documento de soluções para verificar seu trabalho: Introdução às soluções BigQuery
Ou faça o download do arquivo diretamente aqui:
Confirmação e reflexão
Pergunta 1 - Execute outra consulta em sua tabela:
SELECT end_station_name FROM `bigquery-public-data.london_bicycles.cycle_hirè WHERE rental_id = 57635395;
Em que estação a viagem de bicicleta com o rental_id 57635395 terminou?
Southwark Street, Bankside
Notting Hill Gate Station, Notting Hill
East Village, Queen Elizabeth Olympic Park
Tower Gardens, Tower
Correto - O endereço listado sob a coluna end_station_name para a linha 1 de sua tabela de resultados foi East Village, Queen Elizabeth
Olympic Park. Para encontrar isto, você fez uma consulta com sucesso. Seguindo adiante, você continuará usando SELECT, FROM e
WHERE em suas consultas para interagir com bancos de dados usando SQL. Isso o ajudará a construir consultas SQL mais complexas
quando você estiver analisando dados no futuro.
https://docs.google.com/document/d/1Rw8gXT0E4Smo4huoOcahX5ZQqV_pV8zgES8Oltatr-Y/template/preview
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Pergunta 2 - Nesta atividade, você teve a oportunidade de se familiarizar mais com BigQuery e escrever consultas
SQL. Na caixa de texto abaixo, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma das
perguntas a seguir:
● Como você acha que pode usar conjuntos de dados públicos em BigQuery para ajudar a desenvolver suas
habilidades de análise de dados?
● Como você acha que a compreensão da sintaxe básica da consulta o ajudará a escrever consultas mais
complicadas no futuro?
Correto - Uma boa resposta incluiria que os conjuntos de dados públicos BigQuery podem ajudar você a praticar a escrita em SQL.
Ser capaz de construir consultas SQL é uma habilidade importante para os analistas de dados, pois eles frequentemente precisam trabalhar
com bancos de dados. Nas próximas atividades, você continuará a trabalhar com bancos de dados e a escrever consultas com SQL - uma
ferramenta essencial em todo conjunto de ferramentas de analistas de dados.
Atividade prática: Crie uma tabela personalizada no BigQuery
Visão geral da atividade
Recentemente, você tem pensado em identificar boas fontes de dados que seriam úteis para a análise. Você também
passou algum tempo em uma atividade anterior explorando um conjunto de dados públicos em BigQuery e escrevendo
algumas consultas SQL básicas. Além de usar dados públicos sobre BigQuery, você precisará ser capaz de importar dados
de outras fontes. Nesta atividade, você criará uma tabela personalizada e um conjunto de dados, que você carregará em
uma nova tabela e consultará. Ao concluir esta atividade, você poderá carregar seus próprios dados em BigQuery para
análise. Isto lhe permitirá importar suas próprias fontes de dados para BigQuery, que é uma habilidade que você precisará
para analisar dados de diferentes fontes.
O que você vai precisar
Para começar, baixe o arquivo zip de dados de nomes de bebês. Este arquivo contém cerca de 7 MB de dados sobre
nomes populares de bebês do site da Administração da Previdência Social dos EUA.
Clique no link para o arquivo zip de dados de nomes de bebês para baixá-lo.
Link para dados de nomes de bebês: names.zip
Criar uma tabela personalizada
Uma vez que você tenha o arquivo zip baixado, você pode importá-lo para o BigQuery para consulta e análise. Para fazer
isso, será necessário criar um novo conjunto de dados e uma tabela personalizada.
Etapa 1: Descompacte o arquivo
Você precisará descompactar o arquivo baixado em seu computador para poder acessá-lo em BigQuery. Depois de
descompactar o arquivo, você encontrará um arquivo .pdf intitulado NationalReadMe que contém mais informações sobre
o conjunto de dados. Este conjunto de dados acompanha a popularidade dos nomes de bebês para cada ano; você pode
encontrar arquivos de texto etiquetados pelo ano em que eles contêm. Abra yob2014.txt para visualizar os dados. Você
notará que se trata de um arquivo .csv com três colunas. Lembre-se onde você salvou esta pasta para poder referenciá-la
mais tarde.
Etapa 2: Crie um conjunto de dados
Antes de poder carregar seu arquivo txt e criar uma tabela para
consulta, você precisará criar um conjunto de dados para carregar seus
dados e armazenar suas tabelas.
1. Vá até o painel Explorer em seu espaço de trabalho e clique nos três
pontos ao lado de seu projeto fixado para abrir um menu. A partir
daqui, selecione Criar conjunto de dados.
2. Será aberto o menu Criar conjunto de dados no lado direito de seu
vídeo. É aqui que você preencherá algumas informações sobre o
conjunto de dados. Você inserirá o Dataset ID como babynames e
https://storage.googleapis.com/gwg-content/gdac006/names.zip
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
definirá a localização dos dados para os Estados Unidos (EUA). Uma vez que você tenha
terminado de preencher estas informações, você pode clicar no botão azul CRIAR CONJUNTO
DE DADOS no final do menu.
Etapa 3: Crie uma tabela
Agora que você tem um conjunto de dados personalizados armazenados em seu espaço de
projeto, aqui é onde você adicionará sua tabela.
1. A partir do conjunto de dados babynames, clique no botão CRIAR TABELA. Isso abrirá outro
menu no lado direito de seu vídeo.
2. Na seção Source, você selecionará a opção Upload em
Criar tabela de. Em seguida, você clicará no botão Browse
para abrir seus arquivos. Encontre e abra o arquivo
yob2014.txt. Defina o formato do arquivo para .csv. Na
seção Destino, nomeie sua tabela como names_2014.
Abaixo de Esquema, selecione Editar como texto e insirao
seguinte código: name:string,gender:string,count:integer.
Isto estabelecerá os tipos de dados das três colunas da
tabela. Deixe os outros parâmetros como estão, e selecione
Criar tabela.
3. Uma vez criada sua tabela, ela aparecerá em seu painel de exploração
sob o conjunto de dados que você criou anteriormente.
Clique sobre a tabela para abri-la em seu espaço
de trabalho. Aqui, você pode verificar o esquema
da tabela. Em seguida, vá para a guia Visualizar
para explorar seus dados. A tabela deve ter três
colunas: nome, gênero e contagem.
Consulte sua tabela personalizada
Agora que sua tabela está montada, você está pronto para começar a escrever perguntas e respostas sobre esses dados.
Por exemplo, digamos que você estava interessado nos cinco principais nomes de bebês para meninos nos Estados
Unidos em 2014. Clique em COMPOR NOVA CONSULTA para iniciar uma nova consulta para esta tabela. Em seguida,
copie e cole este código:
SELECT name, count FROM `babynames.names_2014̀ WHERE gender = 'M' ORDER BY count DESC LIMIT 5
Esta consulta SELECIONA o nome e as colunas de contagem da tabela de names_2014. Usando a cláusulaWHERE, você
está filtrando para um gênero específico para seus resultados. Então, você está ordenando como deseja que seus
resultados apareçam com ORDER BY. Como você está ordenando pela contagem em ordem decrescente, você receberá
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
nomes e a contagem correspondente do maior para o menor. E finalmente, LIMIT diz ao SQL para devolver apenas os
cinco nomes mais populares e suas contas. Uma vez que você tenha inserido isto em seu console, selecione
EXECUTAR para obter os resultados de sua consulta.
A fim de um desafio?
Se você se sentir confortável em criar suas próprias tabelas personalizadas, tente carregar mais arquivos do conjunto de
dados de nomes de bebês em tabelas que você possa consultar. Por exemplo, você poderia carregar cada um dos
arquivos de 2015 a 2019 para encontrar os melhores nomes de bebês dos próximos anos.
Confirmação e reflexão
Pergunta 1 - Depois de fazer a consulta em sua nova tabela, qual foi o terceiro nome de bebê mais popular para
meninos em 2014?
William
Mason
Noah
Jacob
Correto - Para descobrir que Mason era o terceiro nome infantil mais popular para meninos em 2014, você consultou sua tabela
personalizada e verificou os resultados. Prosseguindo, você poderá carregar suas próprias fontes de dados em BigQuery para futuros
projetos de análise. Isso lhe permitirá praticar a escrita de consultas SQL para mais fontes de dados, o que será uma habilidade fundamental
como analista de dados.
.
Pergunta 2 - Nesta atividade, você explorou dados públicos em BigQuery e os usou para criar uma tabela
personalizada. Na caixa de texto abaixo, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma
das perguntas a seguir:
● Por que é útil poder usar dados de diferentes fontes como um analista de dados?
● Como você pode usar as tabelas e conjuntos de dados personalizados BigQuery em seus projetos de análise
futura?
- Usar dados de diferentes fontes como um analista de dados é útil porque permite obter uma visão abrangente e diversificada
do problema em questão. Ao combinar informações de várias fontes, é possível identificar padrões, tendências e insights mais
profundos, fornecendo uma base sólida para tomadas de decisão informadas e estratégias eficazes. Além disso, a diversidade
dos dados ajuda a reduzir vieses e oferece uma perspectiva mais ampla para análise.
- Você pode usar tabelas e conjuntos de dados personalizados do BigQuery em seus projetos de análise futura para
armazenar, organizar e analisar grandes volumes de dados. Com a capacidade de consultar e processar dados rapidamente,
você pode extrair insights valiosos, identificar padrões e tendências, realizar análises preditivas e tomar decisões estratégicas
com base nos dados armazenados no BigQuery.
Correto - Uma boa resposta incluiria a possibilidade de avaliar e usar diferentes fontes de dados, o que lhe permite acessar mais dados.
Como analista de dados, é importante ser capaz de avaliar as fontes de dados e usar a ferramenta apropriada para analisá-las. Por exemplo,
você foi capaz de usar SQL para analisar um conjunto de dados que estava previamente armazenado em seu computador como um arquivo
.csv.
Guia de aprofundamento: Melhores práticas SQL
Você pode salvar esta leitura para referência futura. É possível fazer o download de uma versão em PDF desta leitura
abaixo:
In-depth guide_ SQL best practices_POR
DOCX File
Estas melhores práticas incluem diretrizes para escrever consultas SQL, desenvolver documentação e exemplos que
demonstram estas práticas. Este é um grande recurso para ter à mão quando você mesmo estiver usando SQL. Você pode
simplesmente ir diretamente à seção relevante para rever estas práticas. Pense nisso como um guia de campo SQL!
https://d3c33hcgiwev3.cloudfront.net/oHC8HNXyR3ywvBzV8pd8kQ_6571867e357d40a3ac82d85335df73f1_In-depth-guide_-SQL-best-practices_POR.docx?Expires=1688169600&Signature=REv1MhDuT8i0KxUYR6Zn1r11f6AldGnO5RDpyktjMSwGOGSjsTfx41V2o37C6ZyXRP4cmNFevfrzWC7uS~wYXznXj3sk2NhDwedgJg8twRXAcAd5EugQlYW7Pu9xo6rgRW9dcVBbeot~foBjcUKSuLXvMYCaajkW4l5qQZtPtuw_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A
https://d3c33hcgiwev3.cloudfront.net/oHC8HNXyR3ywvBzV8pd8kQ_6571867e357d40a3ac82d85335df73f1_In-depth-guide_-SQL-best-practices_POR.docx?Expires=1688169600&Signature=REv1MhDuT8i0KxUYR6Zn1r11f6AldGnO5RDpyktjMSwGOGSjsTfx41V2o37C6ZyXRP4cmNFevfrzWC7uS~wYXznXj3sk2NhDwedgJg8twRXAcAd5EugQlYW7Pu9xo6rgRW9dcVBbeot~foBjcUKSuLXvMYCaajkW4l5qQZtPtuw_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Uso de maiúsculas e diferenciação de maiúsculas e minúsculas
Com SQL, o uso de maiúsculas geralmente não importa. Você poderia escrever SELECT ou selecionar ou SeLeCT.
Ambos iriam funcionar! Mas se você usar maiúsculas como parte de um estilo consistente, suas consultas parecerão
mais profissionais. Para escrever consultas SQL como um profissional, é sempre uma boa ideia usar todas as letras
maiúsculas para iniciar as cláusulas (por exemplo, SELECT, FROM, WHERE, etc.). As funções também devem estar
todas em letras maiúsculas (por exemplo, SUM()). Os nomes das colunas devem ser todos em letras minúsculas.
(consulte a seção sobre o Snake_case, mais adiante neste guia). Os nomes das tabelas devem estar em CamelCase
(consulte a seção sobre CamelCase mais adiante neste guia). Isto ajuda a manter suas consultas consistentes e mais
fáceis de ler, sem afetar os dados que serão puxados quando você os executar. A única vez que escrever com letra
maiúscula importa é quando ela está dentro de aspas (mais sobre aspas abaixo). Os fornecedores de bancos de
dados SQL podem usar variações ligeiramente diferentes de SQL. Estas variações são chamadas de dialetos SQL.
Alguns dialetos SQL são sensíveis a maiúsculas e minúsculas. O BigQuery é uma delas. Vertica é outro. Mas a
maioria, como MySQL, PostgreSQL e SQL Server, não são sensíveis a maiúsculas e minúsculas. Isto significa que se
você procurou por country_code = 'us', ele retornará todas as entradas que tenham 'us', 'uS', 'Us' e 'US'. Este não é o
caso da BigQuery. BigQuery é sensível a maiúsculas e minúsculas, de modo que ela busca só retornaria entradas
onde o código do país é exatamente ‘us’. Se o código de país for 'US', o BigQuery não retornaria essas entradas como
parte de seu resultado.
Aspas simples ou duplas: ' ' ou " "
Na maioria das vezes, também não importa se você usa aspas simples ' ' ou aspas duplas “'' quando se refere a
strings. Por exemplo, o SELECT é uma cláusula inicial. Se você colocar o SELECT entre aspas como 'SELECT' ou
"SELECT", então o SQL o tratará como uma string de texto. Sua consulta retornará um erro porque sua consulta
necessita de uma cláusula SELECT.
Mas há duas situações em que importa que tipo de aspas que você usa:
1. Quando você quer que as strings sejam identificáveis em qualquer dialeto SQL
2. Quando sua string contém um apóstrofo ou aspasDentro de cada dialeto SQL existem regras para o que é aceito e o que não é. Mas uma regra geral em quase todos os
dialetos SQL é usar aspas simples para as strings. Isto ajuda a se livrar de muita confusão. Portanto, se quisermos
fazer referência ao país US em uma cláusula WHERE (por exemplo, country_code = 'US'), então use aspas simples ao
redor da string 'US'. A segunda situação é quando sua string tem aspas dentro dela. Suponha que você tenha uma coluna
de alimentos favoritos em uma tabela chamada FavoriteFoods e a outra coluna corresponda a cada amigo.
Amigo Favorite_food
Rachel DeSantos Shepherd’s pie
Sujin Lee Tacos
Najil Okoro Spanish paella
Você pode notar como a comida favorita de Rachel contém um apóstrofo. Se você usasse aspas simples em uma cláusula
WHERE para encontrar o amigo que tem esta comida favorita, seria parecido com isto:
Não vai funcionar. Se você executar esta
consulta, será exibido um erro. Isto porque SQL
reconhece uma cadeia de texto como algo que
começa com uma citação 'e termina com outra
aspas'. Portanto, na consulta ruim acima, o SQL
pensa que o Favorite_food que você está
procurando é 'Shepherd'. Apenas 'Shepherd'
porque o apóstrofo em Shepherd termina a string.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Em geral, esta deveria ser a única vez que você usaria aspas duplas em vez de aspas simples. Deste modo, sua consulta
ficaria assim:
SQL entende as strings de texto como
começando com uma aspas simples ' ou aspas
dupla ". Como esta string começa com aspas
duplas, o SQL esperará outra aspas duplas
para sinalizar o fim da string. Isto mantém o
apóstrofo a salvo, de modo que retorna
"Shepherd's pie" e não "Shepherd".
Comentários como lembrete
À medida que você se sentir mais confortável com SQL, você será capaz de ler e entender as consultas num relance. Mas
não tem problema ter comentários na consulta para se lembrar do que você está tentando fazer. E se você compartilhar
sua consulta, isso também ajuda os outros a compreendê-la.
Por exemplo,
Você pode usar # no lugar dos dois traços, --, na consulta acima, mas tenha em mente que # não é reconhecido em
todos os dialetos SQL (o MySQL não reconhece #). Portanto, é melhor usar e ser consistente nisso. Quando você
adiciona um comentário a uma consulta usando --, o mecanismo de consulta de banco de dados ignorará tudo na
mesma linha depois de --. Continuará a processar a consulta a partir da próxima linha.
Nomes "Snake_case" para colunas
É importante sempre garantir que o resultado de sua consulta tenha nomes fáceis de entender. Se você criar uma
nova coluna (digamos, a partir de um cálculo ou da concatenação de novos campos), a nova coluna receberá um nome
genérico padrão (por exemplo, f0). Por exemplo,
A tabela a seguir apresenta os resultados desta consulta:
f0: 8
f1: 4
total_tickets: 8
Number_of_purchases: 4
f0 f1 total_tickets number_of_purchases
8 4 8 4
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Resultados: as duas primeiras colunas são denominadas f0 e f1 porque não foram nomeadas na consulta acima. O
padrão SQL é f0, f1, f2, f3, e assim por diante. Nomeamos as duas últimas colunas, total_tickets e
number_of_purchases para que estes nomes de colunas apareçam nos resultados da consulta. É por isso que é sempre
bom dar nomes úteis a suas colunas, especialmente quando se utilizam funções. Após executar sua consulta, você quer
ser capaz de compreender rapidamente seus resultados, como as duas últimas colunas que descrevemos no exemplo.
Além disso, você pode notar como os nomes das colunas têm um sublinhado entre as palavras. Nunca deve haver
espaços nos nomes. Se 'total_tickets' tivesse um espaço e parecesse 'total tickets' então o SQL renomearia SUM(tickets)
como apenas 'total'. Por causa do espaço, SQL usará 'total' como o nome e não entenderá o que você quer dizer com
'tickets'. Portanto, os espaços são ruins em nomes SQL. Jamais use espaços. A melhor prática é usar o Snake_case.
Isto significa que 'total tickets', que tem um espaço entre as duas palavras, deve ser escrito como 'total_tickets' com um
sublinhado em vez de um espaço.
Nomes CamelCase para tabelas
Você também pode usar letras maiúsculas CamelCase ao nomear sua tabela. O uso de letras maiúsculas do CamelCase
significa que o início de cada palavra será maiúscula, como um camelo de duas corcovas (bactriano). Portanto, a
tabela TicketsByOccasion utiliza o padrão CamelCase. Observe que a letra maiúscula da primeira palavra em
CamelCase é opcional; camelCase também é usado. Algumas pessoas diferenciam entre os dois estilos chamando
CamelCase, PascalCase e reservando CamelCase para quando a primeira palavra não é maiúscula, como um camelo
de um só salto (Dromedary); por exemplo, ticketsByOccasion.
No final das contas, o CamelCase é uma escolha de estilo. Há outras maneiras de nomear suas tabelas, inclusive:
● Todas as letras minúsculas ou maiúsculas, como bilhetesbyoccasion ou TICKETSBYOCCASION
● Com snake_case, como tickets_by_occasion
Tenha em mente que a opção com todas as letras minúsculas ou maiúsculas pode dificultar a leitura do nome de sua
tabela, por isso não é recomendada para uso profissional. A segunda opção, Snake_case, é tecnicamente boa. Com
palavras separadas por sublinhados, o nome de sua tabela é fácil de ler, mas pode ficar muito longo porque você está
acrescentando os sublinhados. Também leva mais tempo para escrever. Se você usar muito essa tabela, ela pode se
tornar uma tarefa difícil. Em resumo, cabe a você usar o Snake_case ou CamelCase ao criar nomes de tabelas.
Certifique-se apenas de que o nome de sua tabela seja fácil de ler e consistente. Certifique-se também de descobrir se
sua empresa tem uma maneira preferida de nomear suas tabelas. Se o fizerem, sempre devem ir com sua convenção de
nomeação por consistência.
Recuo
Como regra geral, você quer manter o comprimento de cada linha em uma consulta <= 100 caracteres. Isto facilita a
leitura de suas consultas. Por exemplo, verifique esta consulta com uma linha com >100 caracteres:
Esta consulta é difícil de ler e igualmente difícil de solucionar ou editar. Agora, aqui está uma pergunta onde nos
mantemos fiéis à regra <= 100 caracteres:
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Agora é muito mais fácil entender o que você está tentando fazer com a cláusula SELECT. Claro, ambas as consultas
funcionarão sem problemas, pois o recuo não importa em SQL. Mas o recuo adequado ainda é importante para
manter as linhas curtas. E será valorizado por qualquer pessoa que ler sua consulta, inclusive você mesmo!
Comentários multi-linha
Se você fizer comentários que ocupem várias linhas, você pode usar -- para cada linha. Ou, se você tiver mais de duas
linhas de comentários, pode ser mais limpo e mais fácil é usar /* para iniciar o comentário e */ para fechar o
comentário. Por exemplo, você pode usar o -- método como abaixo:
Ou, você pode usar o método /* */ como no exemplo:
Em SQL, não importa qual método você usa. A SQL ignora os comentários, independentemente do que você usa: #, --, ou
/* e */. Portanto, depende de você e de sua preferência pessoal. O método /* e */ para comentários de várias linhas
geralmente parece mais limpo e ajuda a separar os comentários da consulta. Mas não há um método certo ou errado.
Editores de texto SQL
Ao ingressar em uma empresa, você pode esperar que cada empresa utilize sua própria plataforma SQL e dialeto SQL. A
plataforma SQL que eles usam (por exemplo, BigQuery, MySQL ou SQL Server) é onde você escreverá e executará suas
consultas SQL. Mas tenha em mente que nem todas as plataformas SQL fornecem editores de scripts nativos para
escrever código SQL. Os editores de texto SQL fornecem uma interface onde você pode escrever suas consultas
SQL de uma maneira mais fácil e codificada por cores. Na verdade, todo o código com o qual temos trabalhado até
agora foi escrito com um editor de texto SQL.
Exemplos com o Sublime Text
Se sua plataforma SQL não tiver codificação por cores, você pode
pensar em usar um editor de texto como SublimeText ou Atom.
Esta seção mostra como o SQL é exibido no Sublime Text. Aqui
está uma consulta no Sublime Text.
Com o Sublime Text, você também pode fazer edições avançadas como a eliminação de travessões em várias linhas ao
mesmo tempo. Por exemplo, suponha que sua consulta, de alguma forma, tivesse recuos nos lugares errados e tivesse
este aspecto:
Isto é realmente difícil de ler, então você vai querer eliminar esses travessões
e começar de novo. Em uma plataforma SQL regular, você teria que ir em cada
linha e pressionar BACKSPACE para apagar cada travessão por linha. Mas no
Sublime, você pode se livrar de todos os travessões ao mesmo tempo,
selecionando todas as linhas e pressionando Command (ou CTRL em
https://www.sublimetext.com/
https://atom.io/
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Windows) + [. Isto elimina os travessões de todas as linhas. Em seguida, você pode selecionar as linhas que deseja
recuar (isto é, linhas 2, 4 e 6) pressionando a tecla Command (ou a tecla CTRL no Windows) e selecionando essas
linhas. Depois, mantendo pressionada a tecla Command (ou a tecla CTRL no Windows), pressione ] para recuar as
linhas 2, 4, e 6 ao mesmo tempo. Isto limpará sua consulta e fará com que ela
se pareça com isto:
O Sublime Text também suporta expressões regulares. Expressões regulares
(ou regex) podem ser usadas para procurar e substituir padrões de string
em consultas. Não falaremos aqui sobre as expressões regulares, mas talvez
você queira aprender mais sobre elas por conta própria, pois são uma
ferramenta muito poderosa.
Você pode começar com estes recursos:
● Pesquisar e substituir no Sublime Text
● Regex tutorial (se você não souber o que são expressões regulares)
● Planilha de referências sobre Regex
Atividade prática: Aplicando SQL
Visão geral da atividade
Nas últimas aulas, você aprendeu como aplicar fórmulas em planilhas. Nesta atividade, praticaremos o uso de fórmulas
com consultas SQL. Ao concluir esta atividade, você poderá usar SQL para escrever consultas para conjuntos de dados.
Isto lhe permitirá explorar conjuntos de dados públicos no BigQuery, o que é importante para escrever consultas em sua
carreira como analista de dados.
Configure seus dados
1. Faça login no BigQuery Sandbox. Se você tiver uma versão experimental gratuita do BigQuery, você pode usá-la. Na
página BigQuery, clique no botão Ir para BigQuery.
● Nota: o BigQuery Sandbox atualiza frequentemente sua interface de usuário. As últimas mudanças podem não
estar refletidas nas telas apresentadas nesta atividade, mas os princípios permanecem os mesmos. A adaptação a
mudanças nas atualizações de software é uma habilidade essencial para analistas de dados, além de útil para você
praticar a solução de problemas. Você também pode entrar em contato com sua comunidade de alunos no fórum de
discussão para obter ajuda.
2. Se você nunca criou um projeto BigQuery antes, clique em CRIAR PROJETO no lado direito da tela. Se você já criou
um projeto antes, você pode usar um projeto existente ou criar um novo clicando na barra de cabeçalho azul e
selecionando NOVO PROJETO.
3. Dê ao seu projeto um nome que o ajude a identificá-lo mais tarde. Você pode dar-lhe uma identificação de projeto única
ou usar uma identificação gerada automaticamente. Não se preocupe em selecionar uma organização se você não souber
o que colocar.
4. Agora, você verá a interface do Editor. No meio da tela há uma janela onde você pode digitar o código, e à esquerda
está o menu Explorador onde você pode procurar por conjuntos de dados.
Escolha um conjunto de dados
Siga estas etapas para encontrar e escolher um conjunto de dados para esta
atividade:
1. Localize o menu Explorador no lado esquerdo de sua tela. Clique em +
ADICIONAR DADOS e, em seguida, Explore os conjuntos de dados
públicos.
2. Na barra do Search Marketplace, procure por "Cloud-to-Ground Lightning
Strikes", um conjunto de dados da NOAA. Clique no resultado e, em seguida,
clique em Visualizar Conjunto de Dados. Isto o levará de volta à interface do
BigQuery Sandbox em uma nova aba.
https://sublime-text-unofficial-documentation.readthedocs.io/en/latest/search_and_replace/search_and_replace_overview.html
https://www.regular-expressions.info/tutorialcnt.html
https://jdhao.github.io/2019/02/28/sublime_text_regex_cheat_sheet/
https://cloud.google.com/bigquery/docs/sandbox
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● Nota: isto pode colocar o menu Explorador no menu
de dados do Bigquery-public-data. Você pode usar isto para
navegar pelos conjuntos de dados e tabelas.
3. Em BigQuery, você encontrará informações sobre o
conjunto de dados que você selecionou.
Por exemplo, você pode localizar o ID do Conjunto de dados.
Você precisará disso para escrever uma consulta SQL, para
que você possa dizer qual banco de dados, conjunto de dados e
tabela você está visando. Neste caso, a conexão do banco de
dados é "bigquery-public-data" e o ID do Conjunto de Dados é
"noaa_lightning". Você ainda precisa identificar a tabela que
deseja consultar, portanto, comece com uma revisão detalhada
do conjunto de dados.
Escolha uma tabela
1. Digite o ID do Conjunto de Dados, "noaa_lightning", na barra de busca do menu Explorador. Se isto não puxar nada para
cima, você pode encontrá-lo manualmente apagando o texto da barra de pesquisa, clicando na seta ao lado de
bigquery-public-data, e rolando até encontrar o conjunto de dados correto.
2. Uma vez encontrado o conjunto de dados "noaa_lightning", clique na seta ao lado dele para
expandir o conjunto de dados e examinar as tabelas que ele contém. Estas são todas as tabelas
contidas no conjunto de dados. Você pode verificar os dados para 2019, que estão contidos na
tabela “lightning_2019”.
3. Clique na tabela lightning_2019. Isto trará informações para a tabela.
4. No lado direito da janela de informações, clique em Consultar tabela.
Isto preencherá a janela de consulta com uma consulta. Observe que a consulta não contém nada entre "SELECT" e
"FROM".
Escreva uma consulta
Consulte os dados
Você ainda precisará completar a consulta adicionando o que deseja.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
1. Insira um asterisco * após a seleção, para que sua consulta leia SELECT * FROM seguido pela localização de sua
tabela.
2. Execute a consulta. No exemplo fornecido, seu resultado deve ser algo como isto:
Esta consulta retorna todas as colunas para as primeiras 1.000 linhas da tabela.
3. Escreva uma consulta para ver quantos raios ao todo aconteceram em 2019. Ao invés de um asterisco, digite
SUM(number_of_strikes).
Isto retorna sua resposta, 209.166.
Escreva suas próprias consultas
Agora, faça algumas perguntas e responda-as com suas próprias consultas SQL. Por exemplo, com o conjunto de dados
do exemplo, tente descobrir quantos raios aconteceram em um ano diferente. Você também é livre para escolher outro
conjunto de dados disponível publicamente em BigQuery e escrever suas próprias consultas para prática extra - há muitas
escolhas interessantes!
Confirmação e reflexão
Pergunta 1 - De acordo com o conjunto de dados que você utilizou nesta atividade, qual foi o número total de raios
em 2018?
45.304.842.
42.283.749.
44,600,989
42.299.304.
Correto - O número total de relâmpagos em 2018 foi de 44.600.989.
Pergunta 2 - Durante esta atividade, você praticou a escrita de consultas SQL para retornar informações de
conjuntos de dados. Na caixa de texto abaixo, escreva de duas a três frases (40 a 60 palavras) em resposta a cada
uma das perguntas a seguir:
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● O que você acha que poderia acontecer se você escrevesse cada componente de uma consulta corretamente,
mas reordenasse a ordem?
● Como você pode usar as consultas SQL para crescer como analista de dados?
Você pode usar consultas SQL para crescer como analista de dados, pois elas permitem extrair informações específicas de
grandes conjuntos de dados. Ao dominar a linguagem SQL, você poderá realizar análises complexas, criar relatórios
personalizados, identificarinsights valiosos e comunicar efetivamente seus resultados. As consultas SQL são uma habilidade
essencial para explorar e interpretar dados, tornando-se um analista de dados mais competente e bem-sucedido.
Correto - Uma resposta forte incluiria como consultar conjuntos de dados públicos é uma ótima maneira de praticar SQL. Além disso,
considere o seguinte: os analistas de dados utilizam SQL para interagir com bancos de dados e visualizar os dados que precisam analisar.
Este é um conhecimento importante que o preparará para futuros cursos e muitos aspectos de sua carreira como analista de dados. Nas
próximas atividades, você aprenderá e praticará a escrita de consultas mais avançadas, o que o ajudará a dominar o SQL - uma ferramenta
essencial em todo conjunto de ferramentas para os analistas de dados.
Teste seus conhecimentos sobre como usar SQL com grandes conjuntos de dados
Pergunta 1 - No MySQL, qual é a sintaxe aceitável para a palavra-chave SELECT? Selecione todas as opções
aplicáveis.
SELECT
Correto - No MySQL, SELECT ou select é uma sintaxe aceitável.
"SELECT"
'SELECT'
select
Correto - No MySQL, SELECT ou select é uma sintaxe aceitável.
Pergunta 2 - Uma tabela de banco de dados é chamada blueFlowers. Qual é esse tipo de caso?
camelCase
Snake-case
Lowercase (letras minúsculas)
Caixa de título
Correto - blueFlowers está em camelCase
Pergunta 3 - Em BigQuery, que sintaxe opcional pode ser removida da seguinte cláusula FROM sem impedir o
funcionamento da consulta?
FROM `bigquery-public-data.sunroof_solar.solar_potential_by_postal_codè
Backticks
Pontos
Sublinhar
Traços
Correto - O nome do conjunto de dados é mostrado entre dois backticks para ajudar as pessoas a ler a consulta mais facilmente. Se você
remover os backticks, a consulta ainda funcionará.
Pergunta 4 - Na seguinte cláusula FROM, qual é o nome da tabela na consulta SQL?
FROM bigquery-public-data.sunroof_solar.solar_potential_by_postal_code
sunroof_solar
public-data.sunroof
solar.solar
solar_potential_by_postal_code
Correto - O nome da tabela na consulta SQL é solar_potential_by_postal_code. Esta tabela está no conjunto de dados sunroof_solar, um
conjunto de dados público em BigQuery.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Desafio semanal 3
Pergunta 1 - Os bancos de dados relacionais ilustram as relações entre as tabelas. Quais campos representam a
conexão entre estas tabelas? Selecione todas as opções aplicáveis.
Chaves estrangeiras
Chave primária
Chaves externas
Chaves secundárias
Correto - As chaves primárias e estrangeiras representam a conexão entre as tabelas em um banco de dados relacional.
Pergunta 2 - Os analistas de dados utilizam metadados para quais tarefas? Selecione todas as opções
aplicáveis.
Para combinar dados de mais de uma fonte
Para avaliar a qualidade dos dados
Para realizar análises de dados
Para interpretar o conteúdo de um banco de dados
Correto - Os analistas de dados usam metadados para combinar dados, avaliar dados e interpretar um banco de dados.
Pergunta 3 - Pense em dados como dirigir um táxi. Nesta metáfora, quais dos seguintes são exemplos de
metadados? Selecione todas as opções aplicáveis.
Marca e modelo do táxi
Passageiros que o táxi pega
Empresa proprietária do táxi
Número da placa do carro
Correto - O número da placa, marca e modelo da cabine e a empresa proprietária do táxi representam metadados estruturais.
Pergunta 4 - Preencha a lacuna: Governança de dados é o processo de garantir que _____ de uma empresa seja
administrada de maneira formal.
estratégias de negócios
engenheiros de dados
recursos dos dados
tarefa de negócios
Correto - A governança de dados é o processo de assegurar que os recursos dos dados de uma empresa sejam administrados de maneira
formal.
Pergunta 5 - Um analista de dados opta por não utilizar dados externos porque estes representam perspectivas
diversas. Esta é uma decisão apropriada quando se trabalha com dados externos.
Verdadeiro
Falso
Correto - Dados externos representando diversas perspectivas não é uma razão apropriada para optar por não utilizar um conjunto de
dados. Um analista de dados pode optar por não utilizar dados externos se não for possível confirmar a confiabilidade deles.
Pergunta 6 - Um analista de dados analisa um banco de dados de vendas de carros de Wisconsin para encontrar
os últimos modelos vendidos em Milwaukee em 2019. Como eles podem classificar e filtrar os dados para devolver
os últimos cinco carros vendidos no topo de sua lista? Selecione todas as opções aplicáveis.
Filtrar as vendas fora de Milwaukee
Classificar por data de venda em ordem decrescente
Filtrar as vendas não em 2019
Classificar por data de venda em ordem ascendente
Correto - O analista pode filtrar as vendas fora de Milwaukee em 2019 e ordenar por data em ordem decrescente.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Pergunta 7 - Ao escrever uma consulta, o nome do conjunto de dados pode estar dentro de dois backticks, ou não,
e a consulta ainda será executada corretamente.
Verdadeiro
Falso
Correto - Ao escrever uma consulta, o nome do conjunto de dados pode estar dentro de dois backticks, ou não, e a consulta ainda será
executada corretamente.
Pergunta 8 - Você está trabalhando com uma tabela de banco de dados que contém dados de clientes. A coluna
first_name lista o primeiro nome de cada cliente. Você só está interessado em clientes com o primeiro nome Mark.
Você escreve a consulta SQL abaixo. Adicione uma cláusula WHERE que devolverá somente clientes com o nome Mark.
SELECT *
FROM
customer
WHERE
first_name = "Mark"
+-------------+------------+-----------+---------+-------------------+----------+-------+-----------+-------------+--------------------+-------------------+----------------------+----------------+
| customer_id | first_name | last_name | company | address | city | state | country | postal_code | phone | fax | email | support_rep_id |
+-------------+------------+-----------+---------+-------------------+----------+-------+-----------+-------------+--------------------+-------------------+----------------------+----------------+
| 14 | Mark | Philips | Telus | 8210 111 ST NW | Edmonton | AB | Canada | T6G 2C7 | +1 (780) 434-4554 | +1 (780) 434-5565 | mphilips12@shaw.ca | 5 |
| 55 | Mark | Taylor | None | 421 Bourke Street | Sidney | NSW | Australia | 2010 | +61 (02) 9332 3633 | None | mark.taylor@yahoo.au | 4 |
+-------------+------------+-----------+---------+-------------------+----------+-------+-----------+-------------+--------------------+-------------------+----------------------+----------------+
Quantos clientes são nomeados Mark?
3
2
5
1
Correto - A cláusula WHERE first_name = 'Mark' retornará somente clientes com o nome Mark. A consulta completa é SELECT * FROM
cliente WHERE first_name = 'Mark'.
SEMANA 4 - COMO ORGANIZAR E PROTEGER SEUS DADOS
Excelentes habilidades de organização representam grande parte da maioria dos tipos de trabalho, e com o
Data Analytics isso não é diferente. Nessa parte do curso, falaremos sobre as práticas recomendadas de
organização e proteção dos dados. Além disso, você aprenderá como os analistas usam as convenções de
nomenclatura de arquivos para manter seus trabalhos organizados.
Objetivos de aprendizagem
1. Explicar as etapas relevantes para a segurança dos dados
2. Discutir o uso das convenções de nomenclatura de arquivos por analista de dados
3. Descrever as práticas recomendadas para organizar os dados
4.1 - ORGANIZE OS DADOS COM EFICIÊNCIA
VÍDEO - TENHA CONFIANÇA EM SEUS DADOS - Olá, que bom que você voltou. Até agora, mantivemos nosso foco em preparar
seus dados para o processamento e análise. Nos próximos vídeos, falaremos sobre outra parte importante do processo, como
organizar e proteger seus dados. Manter seus dados organizados é importante por algumas razões. Fica mais fácil encontrá-los
e usá-los, ajuda a evitar que você cometa erros durante sua análise e também ajuda a protegê-los. A seguir, vamos discutir os
princípios básicos de como organizar os dados parauso pessoal e profissional, além das convenções de nomenclatura de arquivos.
Também analisaremos alguns recursos de segurança das planilhas. Ao final desses próximos vídeos, você conseguirá fazer tudo isso e
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
poderá explicar essas etapas às partes interessadas, para que elas tenham a certeza de que suas práticas de dados são seguras. Tudo
pronto para começar? Passe para o próximo vídeo. Nele, começaremos explicando como organizar os dados para uso pessoal.
VÍDEO - TENHA CONFIANÇA EM SEUS DADOS - Olá mais uma vez! Não importa se você está organizando seus dados pessoais
para uso próprio ou os dados do projeto para trabalho, há certos procedimentos que deseja seguir para garantir que seus dados sejam
fáceis de encontrar e usar. Neste vídeo, falaremos sobre algumas práticas corporativas recomendadas e conferiremos algumas formas
diferentes de organizar dados do projeto. Existem várias práticas recomendadas que você pode usar ao organizar dados, incluindo
convenções de nomenclatura, foldering e arquivamento de arquivos antigos. Já falamos sobre nomenclatura de arquivos antes,
também conhecida como convenções de nomenclatura. São diretrizes sistemáticas que descrevem o conteúdo, a data ou
versão de um arquivo em seu nome. Basicamente, significa que você quer usar nomes descritivos e lógicos em seus arquivos,
para torná-los fáceis de encontrar e usar. Por falar em facilidade de encontrar coisas, organizar seus arquivos em pastas ajuda a
agrupar arquivos relacionados ao mesmo projeto, chamamos isso de foldering. Por exemplo, todos os arquivos relacionados ao
seu plano de férias podem ser direcionados à pasta Férias2025. Você pode segmentar essa pasta ainda mais ao criar subpastas,
como itinerários ou fotos, dependendo do que gostaria de acessar mais facilmente. Também pode ser útil mover projetos antigos
para um local separado, criando um arquivo morto e reduzindo a desorganização. Fica muito mais fácil encontrar e usar meus
arquivos quando dou a eles nomes com significado e pesquisáveis, e ao organizá-los em pastas. Assim, meus dados ficam mais
acessíveis e úteis. Além dessas três práticas recomendadas, há duas outras coisas a levar a serem consideradas ao organizar os
dados para uso no trabalho. Primeiro, os dados do projeto que usará para o trabalho podem ser acessados e usados por várias
pessoas. É importante alinhar suas práticas de nomenclatura e armazenamento com a sua equipe para evitar confusão. Sua
equipe também pode desenvolver práticas de metadados, como criar um arquivo que defina convenções de nomenclatura do
projeto para facilitar a consulta. Nós falaremos sobre convenções de nomenclatura para arquivos de trabalho mais adiante. Em
segundo lugar, pense sobre quantas vezes você faz cópias de dados e as armazena em locais diferentes. Principalmente, porque se
os dados são armazenados em vários bancos de dados ou planilhas diferentes, eles podem se contradizer e levar a erros no futuro.
Além disso, armazenar em vários locais exige vários espaços. Os bancos de dados relacionais ajudam a evitar a duplicação de
dados e armazenam seus dados com mais eficiência. Use essas práticas para organizar dados de diferentes formas, de acordo com
o projeto. Vamos ver alguns exemplos de organização de dados. Tenho algumas pastas de projeto modelo, cada uma organizada de
uma forma um pouco diferente. Vamos olhar cada uma mais detalhadamente. Vamos começar com a pasta de alto nível de Finanças.
Essa pasta foi organizada de forma categórica. Nela, há subpastas, como orçamento, notas fiscais e folha de pagamento, que
representam diferentes categorias. Vamos clicar em "Notas fiscais" e ver o que há nela. Nessa pasta, você pode ver que há outro
conjunto de subpastas rotuladas por ano, 2014, 2015... Parece que seguem uma ordem cronológica. Às vezes, a forma como os
arquivos foram organizados nos diz como os dados nesses arquivos são organizados. Vamos abrir um arquivo e ver se é isso mesmo.
Na subpasta 2014, há um arquivo com notas fiscais de junho. Se abrirmos, podemos ver que foram organizados por data, assim como
as pastas. Há diferentes formas de se organizar dados, dependendo do que você precisa fazer com eles. A organização categórica
de subpastas e finanças facilita ir direto para as notas fiscais, no entanto, a organização cronológica da subpasta de notas fiscais
pode nos ajudar a encontrar dados financeiros pela data exata que estamos procurando. Há também outras formas de organizar dados:
em ordem de importância ou mesmo por local. Uma empresa, por exemplo, pode usar a organização hierárquica para que os dados
do funcionário reflitam a estrutura da organização de funcionários. Ou uma empresa que trabalha com dados geográficos pode optar
por organizar por local. É uma boa ideia pensar logo no início do projeto quais os melhores métodos de organização para você e sua
equipe seguirem. Veja outra maneira de pensar nisso. Os dados desorganizados são como uma sala bagunçada. É insuportável, fica
difícil de encontrar alguma coisa e, quanto mais evita limpá-la, pior fica. Porém, ao ter certeza logo no início, de onde colocar seus
arquivos, você mantém os dados de trabalho organizados, fáceis de usar e livres de erros. Agora que você sabe da importância de
manter os dados organizados, seja para uso pessoal ou no trabalho, falaremos um pouco mais nas convenções de nomenclatura de
arquivos e como elas se estendem aos seus bancos de dados. Vejo você no próximo vídeo.
Diretrizes de organização
Nesse texto, você encontra um resumo das práticas recomendadas de nomenclatura, organização e armazenamento de
arquivos.
Práticas recomendadas de convenções de nomenclatura de arquivos
Consulte as seguintes recomendações de nomenclatura de arquivos:
● Defina e chegue a um acordo com relação às convenções de nomenclatura de arquivos no início do projeto, evitando
que os arquivos sempre recebam uma nova nomenclatura.
● Alinhe a nomenclatura de arquivos com as convenções de nomenclatura de arquivos já implementadas em sua
empresa/equipe.
● Certifique-se de que as nomenclaturas são pertinentes. Inclua informações como nome do projeto e tudo o que possa
ajudar a identificar (e usar) rapidamente o arquivo dentro da finalidade adequada.
● Inclua a data e o número de versão nos nomes do arquivo (formatos frequentes incluem AAAAMMDD para datas e
v## para versões ou revisões).
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● Crie um arquivo de texto como um arquivo modelo, cujo conteúdo descreva (discrimine) a convenção de
nomenclatura de arquivos, além de um nome de arquivo aplicável.
● Evite incluir espaços e caracteres especiais nos nomes dos arquivos, em vez disso, use travessões, sublinhados ou
letras maiúsculas. Os espaços e caracteres especiais podem levar a erros em certos aplicativos.
Práticas recomendadas para manter os arquivos organizados
Lembre-se destas dicas sobre como manter a organização ao trabalhar com os arquivos:
● Crie pastas e subpastas em uma hierarquia lógica para que os arquivos correlacionados sejam armazenados juntos.
● Separe os trabalhos concluídos dos em andamento. Assim, fica mais fácil encontrar os arquivos de projetos atuais.
Armazene arquivos antigos em uma pasta separada ou em um local de armazenamento externo.
● Não é feito o backup automático dos arquivos? Faça isso manualmente com frequência, para evitar que trabalhos
importantes sejam perdidos.
VÍDEO - TENHA CONFIANÇA EM SEUS DADOS - Olá, novamente. Bem, você viu que eu mencionei a ideia de usar nomes de
arquivo significativos e lógicos para ajudar a organizar seus dados. Porém, usar nomes de arquivos consistentes também pode
simplificar ou mesmo automatizar seu processo de análise, economizando tempo e energia a longo prazo. Ao usar diretrizes
sistemáticas que descrevem o conteúdo, a data ou a versão de um arquivo e o seu nome, você está usando convenções de
nomenclatura de arquivos. Como já sabemos, essas convenções nos ajudam a organizar, acessar, processar e analisar nossos
dados. Confiraalgumas dicas gerais sobre como criar convenções de nomenclatura de arquivos que sejam lógicos e funcionais. Saiba
algumas coisas importantes a se fazer. Planeje suas convenções com antecedência para evitar ter que perder tempo refazendo
isso depois. Alinhe a nomenclatura de arquivos com sua equipe e certifique-se de que os nomes dos arquivos são pertinentes
e façam referência ao nome do projeto, data de criação, versão de revisão ou qualquer outra informação útil, necessária para
entender o conteúdo do arquivo. Existem algumas outras coisas simples que você pode fazer para garantir que as convenções
estejam corretas. Primeiro, mantenha o nome do arquivo curto e simples. Eles devem servir como breves pontos de referência que
indicam o que está no arquivo. Os vídeos anteriores nos mostraram que devemos incluir datas e números de revisão nos nomes dos
arquivos. Eu recomendo formatar por ano, mês e dia, seguindo os padrões internacionais de data. Cada país segue uma
convenção de data diferente, lembre-se disso. Ao incluir os números de revisão em um nome de arquivo, preceda-o com um zero.
Assim, se houver dígitos de revisões duplicados, isso já estará incorporado às suas convenções. Outra ótima regra é o uso de hífens,
sublinhados ou letras maiúsculas em vez de espaços. Seu software pode não reconhecer espaços e caracteres especiais. Além
disso, não há dúvidas de que evitar espaços facilita o trabalho no SQL. Meu último conselho: crie um arquivo de texto que apresente
todas as suas convenções de nomenclatura em um projeto. Isso é muito útil se uma pessoa nova integrar a equipe ou se você só
precisa de um breve lembrete enquanto trabalha em algo. Já falamos disso antes quando abordamos os metadados, que são dados
sobre dados. Eles ajudam a explicar quais dados existem e como estão organizados. Ao usar convenções de nomenclatura de
arquivos sistemáticas e pertinentes em seu projeto, seus dados serão fáceis de encontrar e usar, e você também pode economizar
tempo. A seguir, continuaremos a analisar as planilhas e falaremos sobre recursos de segurança e como você pode usá-los para
proteger seus dados, agora já organizados. Vejo você lá.
Registro de aprendizado: consulte as convenções de nomenclatura e estrutura de arquivos
Visão geral
Na sessão anterior, você aprendeu os princípios básicos das convenções de nomenclatura e estrutura de arquivos. Agora
você concluirá um item em seu registro de aprendizado ao revisar esses conceitos e refletir sobre o motivo da sua
importância. Assim, você entenderá melhor como e por que os analistas de dados usam as convenções de nomenclatura e
estrutura de arquivos em suas funções, o que o ajudará a refletir de forma criteriosa sobre a nomenclatura e a estrutura de
arquivos em seus próprios projetos daqui pra frente, mantendo seus trabalhos mais organizados.
Revise as práticas recomendadas
Antes de adentrar na questão de que tipo de convenções de nomenclatura e padrões você usaria em seus projetos, pare
um momento para revisar as práticas recomendadas de convenções de nomenclatura e estrutura de arquivos.
Ao criar um padrão de convenção de nomenclatura e estrutura de arquivos para determinado projeto, sempre:
● Trabalhe com suas convenções com antecedência em seu projeto. Quanto antes começar, mais organizado será.
● Alinhe as convenções de nomenclatura com sua equipe. As convenções se tornam mais úteis quando todos
aderem a elas.
● Certifique-se de que os nomes dos arquivos têm significância. Mantenha um padrão consistente, o qual abrange
as informações necessárias mais úteis.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● Mantenha os nomes dos arquivos curtos e diretos.
Isto inclui entender a estrutura esperada de pastas e arquivos em um projeto. Onde ficam os dados? E suas planilhas? E
quanto às visualizações de dados? Ser capaz de acessar suas pastas com facilidade contribui para um projeto bem
estruturado.
Lembre-se de que você precisa fazer algumas escolhas estilísticas quando se trata das convenções de nomenclatura de
arquivos, embora ainda haja práticas recomendadas a serem seguidas também:
Convenção de formatação Exemplo
As datas devem seguir o formato "aaaammdd" SalesReport20201125
Preceda os números de revisão com 0 SalesReport20201125v02
Use hífens, sublinhados ou letras maiúsculas SalesReport_2020_11_25_v02
Você refletirá sobre a importância dessas convenções e como implementaria a nomenclatura e a estrutura de arquivos em
seus projetos no modelo de registro de aprendizado abaixo.
Acesse seu registro de aprendizado
Para usar o registro de aprendizado deste item do curso, clique no link abaixo e selecione “Usar modelo”.
Link para o modelo de registro de aprendizado: Consulte as convenções de nomenclatura e estrutura de arquivos.
Reflexão
Em seu modelo de registro de aprendizado, responda às seguintes perguntas sobre convenções de nomenclatura e
estrutura de arquivos com duas ou três frases (40 a 60 palavras):
● Por que as convenções de nomenclatura e estrutura de arquivos são tão importantes? Quais as consequências
que o analista de dados enfrenta pela má organização no trabalho?
As convenções de nomenclatura e estrutura de arquivos são cruciais para a organização e eficiência no trabalho de
um analista de dados. Elas ajudam a garantir a fácil identificação e localização dos arquivos, facilitam a colaboração
entre as equipes e permitem a manutenção e atualização dos dados de forma consistente. A má organização pode
levar a dificuldades na busca por informações, erros na interpretação dos dados e perda de tempo na localização e
processamento dos arquivos, gerados em atras
● Como você estruturaria pastas e arquivos? Quais convenções de nomenclatura você usaria?
Uma possível estrutura de pastas e arquivos poderia incluir pastas principais para categorias como "Dados brutos",
"Análise" e "Relatórios". Para as convenções de nomenclatura, é recomendado usar nomes descritivos e
expressivos, como "YYYY-MM-DD_Descrição" para dados e "Nome_Dataset_Versão" para conjuntos de dados.
● O que leva você a optar por essas escolhas?
Essas escolhas são realizadas em práticas comuns e eficientes de organização de arquivos e massas. A estrutura
por categorias permite uma separação clara e lógica dos diferentes tipos de arquivos, facilitando a localização e o
acesso. As convenções de nomenclatura descritivas e padronizadas garantem que os arquivos sejam identificados
de forma clara e consistente, permitindo uma compreensão rápida do conteúdo e evitando ambiguidades ou
confusões. Isso torna o trabalho mais eficiente e colaborativo, tolerando erros e otimizando o fluxo de trabalho.
Teste seu conhecimento sobre como organizar dados
Pergunta 1 - Os analistas de dados usam diretrizes para descrever a versão, o conteúdo e a data de criação de um
arquivo. Como se chamam essas diretrizes?
Verificações de nomenclatura
Atributos de nomenclatura
Referências de nomenclatura
Convenções de nomenclatura
Correto - As convenções de nomenclatura são consideradas diretrizes que descrevem o conteúdo, a data ou a versão de um arquivo.
https://docs.google.com/document/d/1-l0JS6BNeggTsDXUbQhpX_rxRgukeHn8Zk6K-kbMzck/template/preview
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Pergunta 2 - Os analistas de dados usam o método de foldering para alcançar quais metas? Selecione todas as
opções aplicáveis.
Transferir arquivos de um lugar para outro
Organizar arquivos em subpastas
Atribuir metadados associados às pastas
Agrupar arquivos relacionados ao mesmo projeto
Correto - Os analistas de dados usam o método de foldering para agrupar arquivos relacionados ao mesmo projeto e organizá-los em
subpastas.
Pergunta 3 - Preencha a lacuna: A fim de separar trabalhos passados dos atuais e mitigar a desordem, os analistas
de dados criam _____, o que envolve mover arquivos de projetos finalizados a um local isolado.
backups
cópias
arquivos mortos
estruturas
Correto - A fim de separar trabalhos passados dos atuais e mitigar a desordem, os analistas de dados criam arquivos mortos.
Pergunta4 - Qual o processo de estruturar pastas mais abrangentes no topo e, e sua segmentação posterior em
assuntos mais específicos?
Elaboração de backup
Criação de uma hierarquia
Desenvolvimento de metadados
Atribuição de convenções de nomenclatura
Correto - Entende-se por criação de hierarquia o processo em que se estruturam pastas de forma abrangente no topo e, então, e sua
segmentação em assuntos mais específicos.
Pergunta 5 - As convenções de nomenclatura de arquivos incluem informações úteis para a localização ou
atualização de um arquivo. Qual das opções a seguir é um nome de arquivo eficaz?
CampaignData_03
Data_519
May30-2019_AirportAdvertisingCampaignResults_Terminals3-5_InclCustSurveyResponses_PLUS_IdeasforJune
AirportCampaign_2013_10_09_V01
Correto - AirportCampaign_2013_10_09_V01 é um nome de arquivo eficaz, uma vez que possui uma extensão adequada e faz referência ao
nome, data de criação e versão do projeto.
4.1 - COMO PROTEGER OS DADOS
VÍDEO - RECURSOS DE SEGURANÇA EM PLANILHAS - Você voltou! Bem, agora que nossos dados estão organizados e fáceis de
achar, é hora de começar a pensar sobre como protegê-los. A boa notícia é que as planilhas dispõem de recursos de segurança
integrados. Neste vídeo, veremos diferentes programas de planilhas e de que maneira os recursos de segurança, como proteção de
planilhas e controle de acesso, são parecidos. Quando digo "recursos de segurança", você pode estar pensando em formas de
proteger os dados de outras pessoas. Mas esse é só um tipo de segurança. Os recursos de segurança podem ser desenvolvidos
para impedir que usuários não autorizados visualizem certos arquivos, ou apenas bloquear suas planilhas, para que você não
corrompa suas fórmulas sem querer. Isso é conhecido como segurança de dados. Segurança de dados trata de proteger os
dados contra o acesso não autorizado ou a corrupção por meio da adoção de medidas de segurança. Independentemente do
programa de planilhas que você use, ele apresentará medidas de segurança semelhantes integradas. Como analista de dados, você
trabalhará bastante com o Google Planilhas e o Excel. Vamos falar sobre o que eles têm em comum. Primeiro, ambos os
programas têm recursos que permitem proteger suas planilhas ou partes de suas planilhas de serem editadas, desde a
planilha inteira até células únicas em uma tabela. Se estiver em colaboração com outros usuários, é fácil bloquear suas fórmulas
para que não sejam corrompidas por acidente. Por falar em colaboração, o Excel e o Planilhas Google têm recursos de controle de
acesso, como proteção por senha e permissões de usuário. Com isso, você tem mais controle sobre quem pode fazer o que em
sua planilha. Como os programas ficam instalados em diferentes locais, os recursos apresentam pequenas diferenças. Nas planilhas
do Excel, você pode criptografar os arquivos e planilhas com senhas antes de enviá-las por e-mail a outros usuários. Quanto ao
Planilhas Google, as configurações ficam logo no menu de compartilhamento, permitindo que você controle quem pode ver ou editar a
planilha online. Além disso, podem ser copiadas para que os usuários trabalhem com os dados sem alterar os originais. Em ambos os
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
programas, as ABAS podem ficar ocultas ou não. Assim, você pode alterar quais dados são exibidos. Lembre-se, porém, de que
outra pessoa pode cancelar a ocultação das guias, então tenha certeza de que não há problema em deixá-las acessíveis. Como
analista de dados, a segurança dos dados será uma prioridade. Independentemente do programa que você use para criar
planilhas, você pode contar com recursos de segurança para proteger o seu trabalho. Existem algumas práticas recomendadas
básicas para manter seus dados mais protegidos no geral. Nós falaremos disso mais adiante. Você chegou ao final do módulo.
Parabéns! Durante os vídeos, falamos sobre estratégias para a organização dos dados para uso pessoal e profissional, como criar
convenções de nomenclatura de arquivos funcionais, além de algumas medidas de segurança úteis ao usar as planilhas. Antes de
prosseguir no ciclo da vida da análise de dados, é importante assegurar que seus dados estejam preparados, o que inclui
organizá-los e protegê-los. Como de costume, após o vídeo, você passará pelo seu desafio semanal. Eu sei que você conseguirá
resolvê-lo! Após o desafio semanal, existem alguns materiais opcionais sobre como se conectar à comunidade de dados online.
Enquanto dá seus primeiros passos na carreira em Data Analytics, será muito útil conectar-se a outras pessoas, aprender
novas tendências da área e compartilhar seu trabalho. Acredito que você aproveitará bastante esses vídeos. Eles o ajudarão você a
desenvolver sua presença profissional online e encontrar formas de se comunicar com pessoas da área, o que é fundamental, já que o
networking se torna cada vez mais online e as oportunidades de trabalho remoto, o padrão. Se você se sente confiante quanto à sua
presença online, prossiga para o desafio do curso. Boa sorte em seu desafio semanal e nos vemos em breve!
Como equilibrar a segurança e o Data Analytics
A luta entre a segurança e o Data Analytics
Entende-se por Segurança de dados proteger os dados contra o acesso não autorizado ou a corrupção com a
implementação de medidas de segurança. Em geral, tem como propósito impedir que usuários não autorizados tenham
acesso ou visualizem dados confidenciais. Cabe aos analistas de dados encontrar uma forma de equilibrar a segurança de
dados com suas próprias necessidades de Analytics, o que pode ser complicado. Nós queremos manter nossos dados
seguros, mas, ao mesmo tempo, usá-los o mais rápido possível, para que possamos fazer observações adequadas e no
tempo certo. Para tanto, as empresas precisam encontrar formas de equilibrar as medidas de segurança de dados com
suas necessidades de acesso aos dados.
Segurança de dados Acesso aos dados
Felizmente, há algumas medidas de segurança que podem ajudar as
empresas a fazerem isso. Nós falaremos sobre duas delas: criptografia e
tokenização.
A criptografia usa um algoritmo único para alterar dados e torná-los
inutilizáveis por usuários e aplicativos que desconheçam o algoritmo, que é
salvo como uma “chave” que pode ser usada para revogar a criptografia.
Dessa forma, se você tem a chave, você ainda pode usar os dados em seu formato original.
A tokenização, por sua vez, substitui os elementos dos dados que você quer proteger com dados gerados de forma
aleatória, conhecidos como “token”. Os dados originais são armazenados em um local separado e atribuídos aos tokens.
Para ter acesso aos dados originais completos, o usuário ou o aplicativo precisa ter permissão para usar o dado
tokenizado e o mapeamento do token, ou seja, mesmo que o dado tokenizado seja hackeado, o dado original continua
seguro em um local separado.
A criptografia e a tokenização são apenas algumas das opções de segurança de dados disponíveis. Existem muitas outras
alternativas, como o uso de dispositivos de autenticação para tecnologia de IA.
Provavelmente, você, analista de dados júnior, não será responsável por desenvolver esses sistemas. Muitas organizações
contam com equipes dedicadas exclusivamente à segurança de dados, ou contratam empresas terceirizadas
especializadas em segurança de dados, para criar esses sistemas. É importante saber, no entanto, que todas as empresas
são responsáveis por manter a segurança dos dados, além de entender alguns dos possíveis sistemas que seu futuro
empregador poderá usar.
Autorreflexão: como proteger seus recursos
Visão geral
Agora que você já aprendeu sobre a importância da segurança dos dados, faça uma pequena pausa e reflita sobre o que
está aprendendo. Durante essa autorreflexão, você levará em conta sua opinião sobre a privacidade de dados, a
colaboração e o controle de versão. Em seguida, responda a umas perguntas breves. A autorreflexão ajudará você a
desenvolver insights sobre seu próprio aprendizado e irá prepará-lo para aplicar seu conhecimento quanto à privacidadeCurso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
de dados em sua prática com o Kaggle. Ao responder as perguntas (e fazer as suas próprias), você considerará conceitos,
práticas e princípios úteis para refinar sua compreensão e reforçar seu aprendizado. Você trabalhou duro, então aproveite
ao máximo: essa reflexão ajudará a fixar o seu conhecimento!
Privacidade
É possível fazer upload e manter a privacidade dos seus conjuntos de dados no Kaggle. Assim, só você tem acesso a eles.
Além disso, você tem a opção de adicionar colaboradores ao conjunto de dados, seja como visualizadores ou editores. Os
colaboradores com acesso de visualização podem acessar seu conjunto privado, enquanto aqueles com acesso para
edição podem fazer alterações ao conjunto. Você pode compartilhar o link do seu conjunto de dados privado e, quem
receber, poderá visualizá-lo. Não tem interesse no recurso? Basta desabilitá-lo na guia Configurações do conjunto de
dados.
Observação: se você tem um conjunto de dados privado no Kaggle deseja torná-lo público, ele não poderá voltar a ser
privado. A única opção é excluir permanentemente o conjunto de dados no Kaggle.
Colaboração
Todos os notebooks criados no Kaggle são, por padrão, privados. Assim como no conjunto de dados, é possível adicionar
colaboradores como visualizadores ou editores. Você também pode tornar um notebook público, que será compartilhado
com toda a comunidade Kaggle. Os colaboradores adicionados ao seu notebook têm permissão para fazer alterações nele.
Você quer ter a certeza de que salva o notebook irá sobrescrever, já que a última pessoa que salva o notebook irá
sobrescrever todo o trabalho anterior. Se você procura ter um controle mais preciso das alterações no seu código, com um
sistema como o GitHub você tem um maior controle de versão.
Controle de versão
Com relação ao controle de versão, o Kaggle conta com um estilo próprio para que você possa manter registros do seu
progresso. Leia os detalhes na íntegra aqui. Lembre-se, porém, das vezes em que trabalhou em um notebook do Kaggle e
clicou no botão Salvar versão.
Quando fez isso e, depois, clicou em Salvar, você o fez sem alterar nada. No entanto, você também tem a opção de
adicionar uma pequena observação descritiva sobre as mudanças feitas, o que pode ser útil em situações nas quais você
fez alterações no notebook, mas gostaria de voltar a uma versão anterior. Para isso, acesse o modo Editar e clique no
número próximo ao texto Salvar versão na parte superior
do notebook.
Feito isso, será aberta uma barra de navegação à direita
da tela, com uma lista de todas as versões do notebook.
Ao clicar nas diferentes versões do notebook, serão
exibidos à esquerda da tela o código e o texto da versão.
https://www.kaggle.com/product-feedback/120243
https://www.kaggle.com/product-feedback/120243
https://www.kaggle.com/product-feedback/120243
https://www.kaggle.com/product-feedback/139884
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Assim que a versão for executada, sua tela ficará assim:
Nessa tela, você também pode abrir a versão como Leitor, definir uma versão como padrão ou até mesmo alterar o nome
da versão. Definir uma versão como LEITOR pode ajudá-lo quando há uma versão operacional do seu notebook disponível
para a comunidade Kaggle, mas você deseja fazer alterações e atualizações que podem não funcionar de primeira. Com
isso, você pode fazer alterações, com segurança, em segundo plano enquanto compartilha a versão operacional mais
recente do notebook com a comunidade Kaggle.
Reflexão
Considere o que você aprendeu sobre a segurança dos dados no Kaggle:
● Aponte alguns casos em que é necessário usar os recursos de privacidade, colaboração e controle de versão do
Kaggle.
O Kaggle oferece recursos de privacidade, colaboração e controle de versão que são úteis em várias situações. Por exemplo,
ao lidar com dados sensíveis ou proprietários, é essencial garantir a privacidade dos dados compartilhados. A colaboração
permite que as equipes trabalhem de forma conjunta em projetos, compartilhando código e conhecimento. O controle de
versão ajuda a gerenciar e acompanhar as alterações feitas nos projetos, facilitando a colaboração e evitando conflitos entre
as diferentes versões dos arquivos.
● Indique outras situações nas quais você queira definir uma versão diferente do notebook que não a mais recente.
Em alguns casos, pode ser necessário definir uma versão diferente do notebook no Kaggle para fins de reprodução de
resultados, comparação de diferentes abordagens ou análise de mudanças ao longo do tempo. Isso permite que você
mantenha um registro histórico das versões anteriores e facilite a comparação e análise dos resultados obtidos em diferentes
momentos.
Agora, responda cada uma dessas perguntas com duas ou três frases (40 a 60 palavras). Digite sua resposta na caixa de
texto abaixo.
Correto - Excelente trabalho ao reforçar seu aprendizado com uma autorreflexão cuidadosa! Uma ótima observação sobre o assunto incluiria
como e quando você deve aplicar seu conhecimento sobre privacidade de dados e controle de versão ao trabalhar no Kaggle. Entender
como manter a privacidade e registrar seu progresso com o controle de versão é uma habilidade fundamental para a função de analista de
dados, na qual se espera, em geral, que você trabalhe junto com outros analistas. Se você domina os padrões de privacidade e sabe como
garantir uma colaboração efetiva, você ficará livre do risco de expor dados importantes ou perder trabalhos essenciais. Futuramente, você
pode usar seu conhecimento sobre a segurança dos dados em outras plataformas ou em projetos futuros.
Teste seu conhecimento sobre como proteger seus dados
Pergunta 1 - Preencha a lacuna: A segurança dos dados abrange o uso de _____ para a proteção dos dados contra
a corrupção ou acesso não autorizados.
foldering
metadados
medidas de segurança
validação de dados
Correto - A segurança dos dados abrange o uso de medidas de segurança para a proteção dos dados contra a corrupção ou acesso não
autorizados.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Pergunta 2 - Com o uso de medidas de segurança de dados, os analistas conseguem optar entre proteger uma
planilha completa ou apenas determinadas células da planilha.
Verdadeiro
Falso
Correto - Com o uso de medidas de segurança de dados, os analistas conseguem optar entre proteger uma planilha completa ou apenas
determinadas células da planilha. A segurança de dados pode ser usada para proteger uma planilha completa, determinadas partes da
planilha ou até mesmo uma única célula.
Pergunta 3 - Os analistas de dados podem usar quais ferramentas para controlar quem tem acesso ou permissão
para editar uma planilha? Selecione todas as opções aplicáveis.
Filtros
Criptografia
Guia
Permissões de compartilhamento
Correto - Os analistas de dados usam a criptografia e as permissões de compartilhamento para controlar quem tem acesso ou permissão
para editar uma planilha.
Desafio semanal 4
Pergunta 1 - Preencha a lacuna: As convenções de nomenclatura de arquivos são _____ que descrevem o
conteúdo, a data de criação ou a versão de um arquivo.
diretrizes sistemáticas
verificações comuns
sugestões frequentes
atributos gerais
Correto - As convenções de nomenclatura de arquivos são diretrizes sistemáticas que descrevem o conteúdo, a data de criação ou a versão
de um arquivo.
Pergunta 2 - Preencha a lacuna: Uma equipe de Data Analytics usa _____ para indicar convenções sistemáticas de
nomenclatura para determinado projeto. Este é um exemplo de uso de dados sobre dados.
metadados
controle de versão
classificações
hierarquias de pasta
Correto - Uma equipe de Data Analytics usa metadados para indicar convenções sistemáticas de nomenclatura para determinado projeto.
Este é um exemplo de uso de dados sobre dados.
Pergunta 3 - Um analista de dados está trabalhando com um arquivo obtido da pesquisa de satisfação de um
cliente. A pesquisa foi enviada a todos os que se tornaram clientes entre abril e junho de 2020. Qual das opções a
seguiré um nome válido para o arquivo?
NewCustomerSurvey_2020-6-20_V03
Survey_Responses
April_May_June_2020_Responses_to_New_Customer_Survey_ANALYSISDATA_928310
Apr-June2020_CustSurvey_V
Correto - NewCustomerSurvey_2020-6-20_V03 é um nome de arquivo eficaz, uma vez que possui uma extensão adequada e faz referência ao
nome, data de criação e versão do projeto.
Pergunta 4 - Os analistas de dados usam qual processo para agrupar arquivos relacionados ao mesmo projeto e
organizá-los em subpastas?
Nomenclatura
Foldering
Edição
Criptografia
Correto - Os analistas de dados usam o método de foldering para agrupar arquivos relacionados ao mesmo projeto e organizá-los em
subpastas.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Pergunta 5 - Os analistas de dados usam o arquivamento para separar os trabalhos atuais e passados. Tal
processo envolve o quê?
Revisar arquivos de dados atuais para confirmar a remoção
Transferir arquivos de projetos finalizados para outro local
Reorganizar e renomear arquivos atuais
Usar o software seguro de apagar dados para destruir arquivos antigos
Correto - O arquivamento envolve transferir arquivos de projetos finalizados para um local isolado.
Pergunta 6 - Os analistas de dados criam hierarquias para organizar suas pastas. Como se dá a estrutura das
hierarquias de pastas?
Assuntos abrangentes à direita e tópicos mais específicos à esquerda.
Assuntos abrangentes à esquerda e tópicos mais específicos à direita.
Assuntos específicos no topo, seguidos de assuntos mais abrangentes logo abaixo
Assuntos abrangentes no topo, seguidos de tópicos mais específicos logo abaixo
Correto - As hierarquias de pastas são estruturadas com assuntos abrangentes no topo, seguidos de tópicos mais específicos logo abaixo.
Pergunta 7 - Um analista de dados adiciona permissões de compartilhamento para limitar quem pode editar os
dados de um arquivo. Este é um exemplo do quê?
Segurança de dados
Ética de dados
Integridade dos dados
Validação de dados
Correto - Um analista de dados adiciona permissões de compartilhamento para limitar quem pode editar os dados de um arquivo. Este é um
exemplo de segurança de dados.
Pergunta 8 - Um analista de dados cria uma planilha com cinco abas. Ele deseja compartilhar os dados das abas 1
a 4 com um cliente. A aba 5 contém informações privadas sobre outros clientes. Qual das táticas abaixo permitirá
que o analista mantenha a privacidade da aba 5? Selecione todas as opções aplicáveis.
Renomear a aba 5 para incluir a palavra "privado" e, depois, compartilhar a planilha com o cliente.
Copiar as abas 1 a 4 em uma planilha separada e, depois, compartilhar o novo arquivo com o cliente:
Fazer uma cópia da planilha, excluir a aba 5 e, depois, compartilhar o novo arquivo com o cliente.
Ocultar a aba 5 e, depois, compartilhar a planilha com o cliente.
Correto - Ao copiar as abas 1 a 4 em uma planilha separada e, depois, compartilhar o novo arquivo com o cliente, a aba 5 será mantida como
privada. Além disso, ao fazer uma cópia da planilha, excluir a aba 5 e, depois, compartilhar o novo arquivo com o cliente, a aba 5 será
mantida como privada.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
SEMANA 4 - O ENGAJAMENTO NA COMUNIDADE DOS DADOS
Ter uma presença online sólida pode ser uma grande ajuda para todos os tipos de candidatos a oportunidades
de emprego. Nesta parte do curso, você explorará como gerenciar sua presença online. Além disso, descobrirá
os benefícios do networking com outros profissionais de Data Analytics.
Objetivos de aprendizagem
4. Explicar a importância do networking com outros analistas de dados, incluindo referência à mentoria e
comunicação
5. Apliqcar as práticas recomendadas para gerenciar uma presença profissional online
6. Descrever abordagens para construir uma presença online como analista de dados
5.1 - CRIE OU APRIMORE SUA PRESENÇA
VÍDEO - GESTÃO DE SUA PRESENÇA COMO ANALISTA DE DADOS - Ei, é ótimo ter você de volta! Até agora, abordamos tudo,
desde o uso de SQL até os principais aspectos da ética de dados. Você desenvolveu uma ampla variedade de habilidades, e todas
podem ajudá-lo em sua jornada para uma carreira em Data Analytics. Porém, você não precisa fazer tudo sozinho. Como analista de
dados, você fará parte de uma crescente comunidade de dados. Ao construir uma presença online consistente e profissional, você será
capaz de se conectar com os demais em seu campo e expandir sua rede. A seguir, você saberá mais sobre como começar a construir
sua presença online. Ou, se já fizer parte da comunidade, aprenderá a levar sua rede online ainda mais longe. Com o trabalho remoto
online se tornando cada vez mais comum, as redes de contato online também estão. Ou seja, ter e manter uma presença online bem
desenvolvida poderia abrir portas para muitas novas oportunidades. Vejo que me aproximo de pessoas com quem trabalhei ao longo
da minha carreira para manter contato, fazer perguntas sobre suas experiências e conferir o que estão fazendo de interessante, e isso
só é possível porque mantenho minha presença online. Junte-se a mim no próximo vídeo para começar a construir sua presença online
e se conectar!
VÍDEO - POR QUE UMA PRESENÇA ONLINE É IMPORTANTE - Olá, novamente. Hoje, muitos de nós passamos muito tempo online
fazendo conexões com pessoas. Mantemos contato com familiares e amigos que não podemos ver todos os dias, ou postamos o que
estamos fazendo, comendo e assistindo nas redes sociais. Mas nossa presença online vai além do pessoal. Uma presença online
consistente e profissional é uma ferramenta importante na construção de uma carreira em Data Analytics. Uma presença online
profissional é importante por algumas razões fundamentais. Em primeiro lugar, pode ajudar empregadores em potencial a
encontrá-lo. Em segundo lugar, permite que você faça conexões com outros analistas de dados em sua área, aprenda e
compartilhe descobertas de dados e, talvez, até participe de eventos da comunidade. Lembre-se de que muitas redes de contato
são criadas online agora. Se você não está mantendo sua presença online, pode estar deixando passar grandes oportunidades mesmo
sem saber. Existem vários sites profissionais diferentes dos quais você pode se beneficiar ao começar a construir sua própria
presença online. Por enquanto, nos concentraremos no LinkedIn e GitHub. O LinkedIn foi projetado especificamente para ajudar
pessoas a fazer conexões com outras pessoas em sua área. É uma ótima forma de seguir tendências e aprender com líderes do
seu setor e se manter envolvido com a comunidade profissional em geral. E, se você estiver procurando por um novo emprego
ativamente, o LinkedIn contém painéis de vagas nos quais é possível pesquisar. Você pode até mesmo restringir sua localização para
ver quem está contratando por perto. Além disso, os recrutadores costumam usar o LinkedIn para encontrar possíveis analistas de
dados para novos projetos. É sempre uma boa ideia manter seu perfil no LinkedIn atualizado com seu currículo. Você pode
acabar sendo recrutado. O LinkedIn também permite que você se conecte com pessoas e construa uma rede. Você pode compartilhar
o que acontece de interessante na sua vida profissional e acompanhar para onde suas conexões vão. Nunca se sabe quando é
possível acabar trabalhando com alguém de novo. Com o LinkedIn, você pode ser endossado por possuir habilidades profissionais ou
endossar outras pessoas. Se tiver impressionado alguém em um emprego anterior, essa pessoa pode avisar outras do quanto é
incrível trabalhar com você. O GitHub, outro site que mencionei antes, é um pouco diferente. O GitHub é parte site de
compartilhamento de código, parte mídia social. Ele tem uma comunidade ativa que colabora e compartilha insights para
desenvolver recursos. Você pode conversar com outros usuários do GitHub no fórum, usar as wikis movimentadas pela comunidade ou
até mesmo aproveitá-las para gerenciar projetos de equipe. O GitHub também hospeda eventos da comunidade onde é possível
encontrar outras pessoas da área e aprender coisas novas. O GitHubdispõe de muitos recursos para você conferir. A melhor forma de
saber mais sobre a plataforma é testando por conta própria. Também falaremos mais sobre o GitHub posteriormente no programa. Às
vezes, se estiver em busca de uma nova carreira, encontrar alguém que tenha algo em comum com você, como interesses em comum
ou a mesma cidade natal, e poder entrar em contato, pode ser muito útil. Uma simples conversa de 15 minutos com alguém poderia
colocá-lo no caminho para uma nova carreira, seja em um site de redes de contato profissional como o LinkedIn, seja em um evento da
comunidade organizado pelo GitHub. O LinkedIn se tornou um dos sites profissionais padrão nas mídias sociais, sendo um bom ponto
de partida para construir sua presença online. O GitHub oferece diversas ferramentas excelentes para analistas de dados na
comunidade. Se você ainda não se cadastrou nesses sites, experimente configurar suas contas agora. Conecte-se com outras
pessoas. Compartilhe algumas atualizações sobre no que está trabalhando no momento. Se já estiver usando o LinkedIn e o GitHub,
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
tenho ótimas notícias: falaremos mais sobre como aprimorar sua presença já existente nas redes sociais em breve. Vejo você em
breve.
Introdução ao LinkedIn
Inscrevendo-se
Inscrever-se no LinkedIn é simples. Basta seguir alguns passos simples:
1. Navegue até linkedin.com
2. Clique em Cadastre-se agora ou Cadastre-se com um currículo.
Se você clicou em Cadastre-se agora:
1. Digite seu endereço de e-mail e uma senha e clique em Aceite e cadastre-se (ou clique em Cadastre-se com
Google para vincular a uma conta do Google).
2. Digite seu nome e sobrenome e clique em Continuar.
3. Insira seu país/região, seu código postal e localização com a área (o que ajuda o LinkedIn a identificar
oportunidades de emprego perto de você).
4. Digite seu cargo mais recente ou selecione Sou estudante.
5. Caso tenha inserido o cargo mais recente, selecione o tipo de emprego e adicione o nome da empresa mais
recente.
6. Se selecionou profissional autônomo ou freelancer, o LinkedIn perguntará qual é o seu setor.
7. Clique em confirmar seu endereço de e-mail. Você receberá um e-mail do LinkedIn.
8. Para confirmar seu endereço de e-mail, clique em Concordar e confirmar em seu e-mail.
9. O LinkedIn perguntará se você está em busca de uma vaga de emprego. Clique na resposta mais adequada. Ao
selecionar Sim, o LinkedIn o ajudará a começar a procurar oportunidades de emprego.
Se você clicou em Cadastre-se com um currículo:
1. Clique em Carregar seu currículo e selecione o arquivo a ser considerado.
2. Siga qualquer uma das etapas relevantes em Cadastre-se agora.
A opção de se cadastrar com currículo economiza seu tempo porque preenche automaticamente a maioria das
informações do seu currículo. Em um instante, seu perfil inicial estará pronto!
Incluir informações básicas em seu perfil
É recomendado preencher cada seção do seu perfil com calma, o que ajuda os recrutadores a encontrar seu perfil e as
pessoas com as quais você se conecta a conhecê-lo melhor. Comece pela sua foto. Aqui estão algumas dicas para
ajudá-lo a escolher a foto ideal para seu novo perfil:
● Escolha uma imagem em que você se pareça com quem realmente é. Você quer ter a certeza de que seu perfil
seja sua melhor representação, e isso abrange a foto selecionada. Você deseja que um possível contato ou
empregador possa reconhecê-lo a partir de sua foto de perfil caso tenha se encontrado com você pessoalmente.
● Use seu setor como exemplo: Se estiver tendo problemas para decidir o que é considerado adequado para sua
imagem de perfil, consulte outros perfis no mesmo setor ou de empresas em que esteja interessado para ter uma
ideia melhor do que deve fazer.
● Escolha uma imagem de alta resolução: Quanto melhor for a resolução, melhor será a impressão. Por isso,
certifique-se de que a imagem que escolheu não esteja desfocada. O tamanho da imagem ideal para uma foto de
perfil do LinkedIn é de 400 x 400 pixels. Use uma foto em que seu rosto ocupe pelo menos 60% do espaço do
enquadramento.
● Lembre-se de sorrir: A foto do seu perfil é
uma breve representação de quem você é
como pessoa, e não há problema em manter
uma expressão séria no registro. Porém,
sorrir ajuda a deixar possíveis contatos e
empregadores mais à vontade.
https://www.linkedin.com/
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Adicionar contatos
Contatos são uma ótima maneira de se manter atualizado com seus colegas de trabalho anteriores, colegas de classe ou
até mesmo empresas com as quais deseja trabalhar. O mundo é um lugar extenso, repleto de pessoas. Portanto, aqui
estão algumas dicas para ajudá-lo a começar.
1. Conecte-se a pessoas que você conhece pessoalmente.
2. Adicione um toque pessoal à sua mensagem de convite. Em vez de apenas deixar que eles saibam que você
gostaria de se conectar, revele o porquê.
3. Certifique-se de que sua foto de perfil seja atual para que as pessoas possam reconhecê-lo.
4. Adicione valor. Forneça a eles um recurso, um link para site ou até mesmo algum conteúdo que possam achar
interessante em seu convite para se conectar.
Encontrar líderes e influenciadores
O LinkedIn é um ótimo lugar para encontrar excelentes pessoas e ideias. De tecnologia ao marketing e tudo que envolve
ambos, há todos os tipos de influenciadores e líderes ativos no LinkedIn. Se você sempre quis saber a opinião de algumas
das mentes mais influentes e respeitadas em determinado campo, o LinkedIn é um ótimo lugar para começar. Seguir suas
pessoas favoritas leva apenas alguns minutos. Você pode pesquisar pessoas ou empresas individualmente ou usar essas
listas como pontos de partida.
Principais influenciadores no LinkedIn LinkedIn Top Voices 2020: Ciência de dados e IA
Procurar por um novo emprego
No LinkedIn, é simples informar aos possíveis recrutadores e empregadores que você está em busca de um novo
emprego. Basta seguir as etapas a seguir:
1. Clique no ícone Eu na parte superior da sua página inicial do LinkedIn.
2. Clique em Visualizar perfil.
3. Clique no menu suspenso Adicionar seção e, em Introdução, selecione Buscando emprego.
Certifique-se de selecionar os filtros adequados para as novas posições que você pode estar buscando e atualize seu
perfil para que melhor se adeque à função para a qual está se candidatando.
Manter seu perfil atualizado
Alimente seu perfil de modo a mantê-lo completo, atualizado e interessante. Por exemplo, lembre-se de adicionar o
certificado do Google Data Analytics ao seu perfil depois de concluir o programa!
Fazer contatos no LinkedIn
Usar o LinkedIn para se conectar
Uma conexão é feita com alguém que você conhece e em quem confia pessoal ou profissionalmente. Suas conexões são
geradas por quem compõe sua rede. Quando se trata da sua rede, é importante priorizar mais qualidade do que
quantidade. Portanto, não se concentre em quantas conexões você tem. Em vez disso, certifique-se de que todas as
pessoas com quem você se conecta agregam valor à sua rede e vice-versa.
Convidar aqueles que você conhece em vez de enviar convites a quem não conhece
Adicionar contatos no LinkedIn é fácil. Você convida
pessoas para se juntarem à sua rede e elas aceitam o
convite. Ao enviar um convite, é possível anexar uma
nota pessoal. Notas pessoais são altamente
recomendadas.
Uma ótima maneira de aumentar seu número de
contatos é convidar colegas de classe, amigos,
professores ou até mesmo membros de um clube ou
organização do qual você faz parte. O LinkedIn
também oferece sugestões de contatos com base nas
informações do seu perfil. Aqui está um exemplo
(modelo) que você pode usar para se conectar com um
antigo colega de trabalho:
https://lists.linkedin.com/2015/top-voices/influencers
https://www.linkedin.com/pulse/linkedin-top-voices-2020-data-science-ai-jessi-hempel/
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Convites não solicitados no LinkedIn são convites para se conectar com pessoas que você não conhece pessoal ou
profissionalmente. Quando vocêcomeça a fortalecer sua rede, é melhor se conectar com pessoas que já conhece.
Entretanto, os convites não solicitados podem ser a única maneira de entrar em contato com pessoas que trabalham em
empresas nas quais você está interessado. Você pode aprender muito sobre a cultura de uma empresa e as vagas de
emprego com os funcionários atuais. Como prática recomendada, procure não enviar muitos convites não solicitados e
somente o faça quando não houver outra maneira de se conectar.
Pedir recomendações (referências)
As recomendações no LinkedIn são uma ótima maneira de receber o aval de outras pessoas. Peça às pessoas que
comentem sobre seu desempenho anterior, como você lidou com um projeto desafiador ou seus pontos fortes como
analista de dados. Você pode optar por aceitar, rejeitar, mostrar ou ocultar recomendações em seu perfil.
Aqui estão algumas dicas para pedir uma recomendação:
● Alcance uma variedade de pessoas para poder proporcionar uma visão completa: supervisores, colegas de
trabalho, subordinados diretos, parceiros e clientes.
● Personalize o pedido de recomendação com uma mensagem única.
● Sugira pontos fortes e capacidades que eles podem destacar como parte de sua solicitação.
● Esteja disposto a escrever uma recomendação em troca.
● Leia a recomendação com atenção antes de aceitá-la em seu perfil.
Às vezes, a parte mais difícil de obter uma recomendação é criar a mensagem de solicitação certa. Aqui está um exemplo
(modelo) que você pode usar para pedir uma recomendação:
Peça a alguns contatos para recomendá-lo, destacando por que você
deve ser contratado. As recomendações ajudam os possíveis
empregadores a ter uma ideia melhor de quem você é e da qualidade
do seu trabalho.
Resumo
Quando você elabora publicações atenciosas e responde a outras
pessoas com sinceridade, as pessoas da sua rede e até mesmo de
fora dela se sentirão abertas e prontas para auxiliá-lo em sua busca
por uma oportunidade de emprego
VÍDEO - DICAS PARA MELHORARA SUA PRESENÇA ONLINE - Olá! Vamos falar sobre mídias sociais. Hoje, há 3,8 bilhões de
pessoas que usam as redes sociais em todo o mundo. Há uma boa chance de que, provavelmente, você já tenha uma presença online.
Isso é ótimo. Significa que você já está fazendo conexões com pessoas online, e talvez até profissionalmente em sites como o
LinkedIn. Se não estiver, começar é tão fácil quanto se cadastrar hoje. Existem maneiras realmente fáceis de melhorar sua presença
online ainda mais e usar seus perfis existentes para construir sua identidade profissional. Uma das primeiras coisas que você deve se
perguntar ao observar sua presença online nova ou existente é: você aceitaria que possíveis empregadores e colegas vissem seus
perfis nas redes sociais? Tente se colocar no lugar deles. Quando um possível empregador examina perfis públicos, ele se pergunta se
você é a pessoa certa para representar sua empresa e seus valores. Existe algo em suas contas atuais que o faria reconsiderar? Se
você pretende limitar o que compartilha, certifique-se de verificar as configurações de privacidade em suas contas. Se estiverem
definidas como públicas, qualquer um pode ver tudo o que você posta. Também é possível tornar particulares fotos ou álbuns
específicos, mas lembre-se de que isso não os remove da Internet. Tenha em mente que mudar suas configurações de privacidade não
necessariamente mantém todas as suas postagens seguras, então recomendamos que pense com cuidado antes de postar. Agora, a
melhor maneira de garantir que suas postagens e fotos sejam adequadas e profissionais é excluir qualquer uma que não deseja que
seu futuro chefe veja. Se está se preparando para enviar fotos pela primeira vez, pense em como essas fotos o representam antes de
postá-las. É uma opção fazer backup das fotos em seus arquivos pessoais, mas talvez não as publicar no Facebook ou Instagram.
Falando em Facebook e Instagram, há algumas opções fáceis para excluir postagens nessas plataformas. Tanto o Facebook quanto o
Instagram têm uma função de arquivo que permite remover suas postagens do seu perfil. Você pode até mesmo excluir postagens em
massa no Facebook. Aproveite também e verifique o seu Twitter. Seus perfis nas redes sociais provavelmente estão conectados, então
é importante garantir que todos o representem do modo como pretende ser visto profissionalmente. Uma boa regra prática: suas
postagens devem ser adequadas para toda a família. Isso vale para fotos e postagens de texto. Verifique se seu conteúdo e sua
linguagem são adequados para toda a família. Enquanto você trabalha em aprimorar sua personalidade online, uma foto de perfil
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
profissional causa uma ótima impressão. Mesmo se sua conta estiver configurada como privada, os recrutadores provavelmente ainda
conseguirão ver sua foto de perfil. Ter uma foto em seu perfil no LinkedIn é importante, porque aumenta significativamente suas
chances de ser contatado. Tenha uma foto de perfil que represente seu lado profissional da melhor forma possível. Depois de colocar
seus perfis em funcionamento, poste com consciência. Pense na imagem profissional que está tentando criar e procure mantê-la. Ou
seja, faça a curadoria das postagens para plataformas diferentes. Decida qual plataforma pretende usar para contato com família e
amigos, como o Facebook e o Instagram, e mantenha atualizações sobre sua vida pessoal nessas plataformas. Use plataformas
profissionais, como o LinkedIn, para postagens relacionadas à sua vida profissional e construção de relações profissionais. Um grande
número de empresas e gerentes de contratação utilizam fontes online para identificar e selecionar candidatos. Assim sendo, é
importante garantir que sua presença online gere um impacto positivo na sua vida real. Certifique-se de que sua presença online seja
adequada ao trabalho, mantendo a privacidade de suas contas, excluindo postagens que não gostaria que seu chefe ou seus colegas
vissem e postando com consciência. Não tenha medo de pedir a alguém que você respeite profissionalmente para conferir e dar uma
opinião. Isso pode ser de grande ajuda para a construção dessa presença online e o uso dela para criar conexões dentro da sua
comunidade profissional. Agora que construímos e aprimoramos nossa presença online, vamos aprender mais sobre como construir
redes de contato e alcançar outros profissionais. Vejo você em breve.
Autorreflexão: Adicionando Kaggle à sua presença online
Visão geral
Agora que você conhece a plataforma Kaggle, faça uma breve pausa para aplicar o que está aprendendo. Nesta
autorreflexão, procure considerar seus pensamentos sobre sua presença online e responder a algumas perguntas breves.
Esta autorreflexão o ajudará a desenvolver insights sobre seu próprio aprendizado, preparando você para associar seu
conhecimento do Kaggle com os objetivos que traçou para sua presença online. Ao responder a perguntas (e fazer suas
próprias perguntas), você considerará conceitos, práticas e princípios úteis para refinar sua compreensão e reforçar seu
aprendizado. Você trabalhou duro, então não deixe de aproveitá-lo ao máximo: Essa reflexão ajudará a fixar o seu
conhecimento!
Socialize no Kaggle
À medida que se familiariza com as opções de carreira disponíveis para analistas de dados, você descobrirá que é
importante ter uma presença online. Ao se envolver com a comunidade de dados online, é possível fazer perguntas,
adquirir novas habilidades e demonstrar suas realizações para possíveis empregadores. Você já abordou várias maneiras
de construir sua presença online, do LinkedIn e GitHub ao Medium. Para desenvolver uma conexão mais sólida com a
comunidade de dados e interagir com outros profissionais e entusiastas de dados, você também pode construir uma
presença online no Kaggle. Além dos conjuntos de dados, o Kaggle possui micro cursos, competições, fóruns e uma
grande comunidade de usuários. Com o Kaggle Progression System (Sistema de progressão Kaggle), é possível
acompanhar seu progresso e crescimento dentroda plataforma e demonstrar suas habilidades de dados e conhecimento
para empregadores e colegas.
Recursos do perfil
Para começar no Kaggle, é necessário configurar um perfil. Sua página de perfil do Kaggle é uma coleção de todos os
seus trabalhos e realizações no Kaggle. Confira a página de perfil de exemplo e explore como um perfil pode ser usado
para compartilhar informações: Cara ou coroa. Conforme navega no perfil do Kaggle para Cara ou Coroa, é possível
observar o trabalho desenvolvido para atingir altas classificações em cada categoria. Elas também incluem links. Por
exemplo, há links nos perfis para blogs pessoais e vídeos, o que permite que compartilhem seu perfil Kaggle com
possíveis empregadores, a fim de destacar suas habilidades e progresso. Criar seu perfil no Kaggle, ou qualquer outra
forma de presença nas mídias sociais, leva tempo. Ser paciente com seu progresso e se envolver de forma consistente
atrairá mais atenção para seu trabalho. Antes de passar para a próxima seção, reserve alguns minutos para olhar os
diferentes perfis do Kaggler e pense sobre o que eles estão fazendo que o inspira. Ao encontrar o perfil de alguém cujo
trabalho gostaria de acompanhar, clique no botão Seguir usuário no perfil.
https://www.kaggle.com/progression/
https://www.kaggle.com/headsortails
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Como começar
Para facilitar os primeiros passos no Kaggle, comece conferindo o modo como a comunidade Kaggle opera. Você pode
fazer isso ao ler as Diretrizes da comunidade e conferir a lista de reprodução no YouTube sobre Primeiros passos no
Kaggle. Em seguida, disponibilize tempo para ler as postagens e conferir os fóruns. Quando estiver pronto para se
envolver, tente responder às perguntas e interagir com as postagens quando alguém compartilhar algo útil ou esclarecedor.
Reflexão
Considere os recursos da comunidade do Kaggle e como você mesmo pode usar as redes sociais:
● Como é possível se beneficiar dos notebooks interativos e da comunidade de dados no Kaggle para impulsionar
sua carreira?
Através dos notebooks interativos e da comunidade de dados no Kaggle, é possível compartilhar conhecimentos, colaborar
com outros profissionais, obter feedback valioso e ter acesso a conjuntos de dados e soluções inovadoras, impulsionando o
aprendizado, a visibilidade e o crescimento profissional na área de análise de dados.
● Como é possível usar o Kaggle para ajudar a melhorar seu impacto nas mídias sociais e atingir seus objetivos
profissionais?
Ao utilizar o Kaggle, é possível participar de competições, contribuir com projetos de código aberto e compartilhar análises e
visualizações de dados impressionantes. Essas conquistas podem aumentar a confiança profissional, expandir a rede de
contatos e ampliar o alcance nas mídias sociais, ajudando a atingir objetivos profissionais e aumentar o impacto na
comunidade de dados.
● Imagine a presença de um analista de dados ideal nas mídias sociais. O que gostaria de colocar no seu perfil?
Que tipo de engajamento gostaria de gerar com outras pessoas?
Reflita sobre seus objetivos profissionais nas mídias sociais e pense em como poderia usar o Kaggle para estabelecer sua
presença online. Agora, responda cada uma dessas perguntas com duas ou três frases (40 a 60 palavras). Digite sua
resposta na caixa de texto abaixo.
Correto - Excelente trabalho ao reforçar seu aprendizado com uma autorreflexão cuidadosa! Uma boa reflexão sobre este tópico incluiria
meios de construir sua própria presença online com base nos recursos do Kaggle ou de outra plataforma de mídia social. Assumir o
controle de sua presença online e estabelecer um registro de seu trabalho árduo é crucial para aprimorar suas habilidades e conquistar um
emprego como analista de dados. Mais adiante, você pode ler as postagens de discussão que lhe interessam no Kaggle ou em outro fórum
de ciência de dados. Interaja adicionando suas ideias ou fazendo perguntas para melhorar sua presença online e adquirir novas habilidades
de dados.
5.2 - CONSTRUIR UMA REDE DE DATA ANALYTICS
VÍDEO - KNOW-HOW DO NETWORKING - Qual profissão faz o melhor trabalho de redes? O setor de pesca. Falando sério, o trabalho
que fazemos tem tudo a ver com pessoas. Depois de aprender as habilidades e desenvolver um portfólio sólido, a próxima etapa é se
conectar com pessoas em sua profissão ou setor que podem ajudá-lo a usar esses pontos fortes para construir uma carreira. Neste
vídeo, falaremos sobre networking. Networking é sinônimo de construção de relacionamento profissional. É uma questão de
conhecer pessoas online e o�ine para desenvolver relacionamentos com elas. O networking lhe ajudará a encontrar pessoas que são
semelhantes e diferentes de você, e a se manter a par do que está acontecendo em suas áreas. Mesmo dentro da organização da qual
faz parte, você deseja interagir com outras equipes para entender melhor os projetos dos quais está participando. A verdade é que
muitas das melhores oportunidades não são publicadas em painéis de vagas. Elas estão lá fora, no mundo real. Problemas à espera
de solução, inovações à espera de inspiração. Construir sua rede com outros analistas de dados pode aumentar suas chances
de entrar no setor. Na verdade, o networking com qualquer profissional do setor pode ajudá-lo neste sentido. Aqui estão algumas
sugestões para começar: pesquise encontros públicos em sua área. Normalmente, há pelo menos um em cada cidade grande. Basta
pesquisar no Google por encontros de Data Analytics próximos ou fazer uma pesquisa no meetup.com. Em seguida, busque mais
informações sobre os diferentes tipos de análise de dados ou compartilhe seu interesse com outras pessoas da área. Também é bom
se lembrar de que vivemos em um mundo digital, ou seja, não se sinta confinado ao networking presencial. Alguns dos melhores
influenciadores de análise de dados estão nas redes sociais. Siga empresas interessantes ou líderes de pensamento no LinkedIn,
Twitter, Facebook e Instagram, interaja com eles e compartilhe seu conteúdo. Se houver uma postagem da qual você goste, deixe um
comentário explicando o porquê. O networking digital pode levá-lo a qualquer lugar hoje em dia. Além disso, há inúmeros podcasts de
dados excelentes para acompanhar, como o Partially Derivative e o O'Reilly Data Show. Eles não apenas podem ajudá-lo a se
manter a par sobre como o setor está evoluindo, mas ouvir os conceitos repetidos ao longo do tempo pode ajudar a reforçar sua
confiança em seu próprio conhecimento. Há também muitos blogs e comunidades online como O'Reilly, Kaggle, KDnuggets, GitHub
e Medium, que podem ajudá-lo a se conectar com colegas e especialistas. As possibilidades são virtualmente infinitas quando se trata
https://www.kaggle.com/community-guidelines
https://www.youtube.com/playlist?list=PLqFaTIg4myu8gbDh6oBl7XRYNBlthpDEW
https://www.youtube.com/playlist?list=PLqFaTIg4myu8gbDh6oBl7XRYNBlthpDEW
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
de construir sua rede. Em nosso próximo vídeo, falaremos sobre um dos métodos mais eficazes, que é encontrar um mentor. Acredite,
você não pode perder.
Desenvolver uma rede
Nesta leitura, você conhecerá as oportunidades online e presenciais de se conectar com outros analistas de dados. Isso
faz parte do modo como você desenvolve as relações profissionais, o que é muito importante quando se está iniciando
uma carreira.
Nota importante para esta leitura
● As reuniões presenciais podem estar restritas em sua área devido à pandemia de COVID-19. Siga as orientações
das autoridades de saúde locais se decidir participar de uma reunião presencial. Esperamos que as reuniões
presenciais possam ser retomadas com segurança em breve.
● Os links compartilhados nesta leitura são fornecidos apenas como exemplos e estão sujeitos a alterações. O
Google não os patrocina ou endossa especificamente.
Conexões online
Se você passa algumas horas nas redes sociais diariamente, pode se sentir totalmente confortável em se conectar com
outros analistas de dados online. Porém, onde você deveriarealizar sua busca se não conhece nenhum analista de
dados? Mesmo que você não esteja nas redes sociais e tenha criado seu perfil do LinkedIn recentemente, você ainda
pode se beneficiar da sua presença online para encontrar e interagir com outros analistas de dados.
Saber onde buscar é fundamental. Aqui estão algumas sugestões sobre por onde começar no ambiente online:
● Assinaturas de boletins informativos como Data Elixir. Isso não apenas lhe dará um tesouro de informações úteis
regularmente, mas também o ajudará a descobrir os nomes de especialistas em ciência de dados que você pode
seguir, ou possivelmente até mesmo se conectar, se tiver um bom motivo para tal.
● Hackathons (competições) como as patrocinadas pela Kaggle, uma das maiores comunidades de ciência de
dados e machine learning do mundo. Participar de um hackathon pode não ser para todos. Contudo, depois de
ingressar em uma comunidade, você costuma ter acesso a fóruns onde pode conversar e se conectar com outros
analistas de dados.
● Encontros ou reuniões online que geralmente são locais de acordo com a sua localização. Faça uma pesquisa
por ‘encontros de ciência de dados perto de mim’ para ver os resultados obtidos. Geralmente, há uma
programação publicada para os próximos encontros, para que você possa comparecer virtualmente e se encontrar
com outros analistas de dados. Obtenha mais informações sobre encontros disponíveis pelo mundo.
● Plataformas como LinkedIn e Twitter. Utilize o recurso de pesquisa em qualquer uma das plataformas para
encontrar hashtags de ciência de dados ou de análise de dados a seguir. Você também pode postar suas próprias
perguntas ou artigos para gerar respostas e construir conexões dessa forma. No momento em que este artigo foi
escrito, a hashtag #dataanalyst do LinkedIn tinha 11.842 seguidores, a hashtag #dataanalytics tinha 98.412
seguidores e a hashtag #datascience tinha 746.945 seguidores. Muitas das mesmas hashtags funcionam no
Twitter e até mesmo no Instagram.
● Os webinars podem apresentar um painel de palestrantes e costumam ser gravados para facilitar o acesso e a
reprodução. Você também pode conferir quem está em um painel de webinar e segui-los. Além disso, muitos
webinars são gratuitos. Uma escolha interessante é a série de webinars Tableau no Tableau. Descubra como o
Tableau usou o Tableau em seus departamentos internos.
Reuniões presenciais (o�ine)
Reuniões presenciais são muito valiosas em um mundo digitalizado. Representam uma ótima maneira de conhecer
pessoas. Muitos relacionamentos online são iniciados em encontros presenciais e mantidos depois que as pessoas voltam
para casa. Muitas organizações que patrocinam encontros anuais também oferecem reuniões virtuais e recursos durante o
resto do ano.
Aqui estão algumas sugestões para buscar encontros presenciais em sua área:
● As conferências geralmente apresentam ideias e tópicos inovadores. O valor das conferências varia, e algumas
têm um custo elevado. Porém, muitas conferências oferecem descontos para alunos, e algumas como Women in
Analytics, visam aumentar o número de grupos pouco representados no campo. Empresas líderes em pesquisa e
consultoria, como a Gartner, também patrocinam conferências para dados e análises. A lista KDNuggets de
reuniões e eventos online sobre IA, análises, big data, ciência de dados e machine learning é bastante útil.
https://dataelixir.com/
https://www.kaggle.com/
https://www.meetup.com/topics/data-analytics/
https://www.tableau.com/learn/series/how-we-do-data
https://womeninanalytics.com/about/
https://womeninanalytics.com/about/
https://emtemp.gcom.cloud/ngw/eventassets/common/conference-calendar/gartner-conference-calendar.pdf
https://www.kdnuggets.com/meetings/index.html
https://www.kdnuggets.com/meetings/index.html
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● Associações ou sociedades reúnem membros para promover um campo como a ciência de dados. Muitas
associações são gratuitas. A Digital Analytics Association é um exemplo. A lista KDNuggets de sociedades e
grupos para análises, mineração de dados, ciência de dados e descoberta de conhecimento é bastante útil.
● Comunidades de usuários e encontros oferecem eventos para usuários de ferramentas de análise de dados, o
que representa uma oportunidade para aprender com os melhores. Você já viu a comunidade do Tableau?
● Organizações sem fins lucrativos que promovem o uso ético da ciência de dados e podem oferecer eventos
para o desenvolvimento profissional de seus associados. A Data Science Association é um exemplo.
Principais conclusões
Seus contatos o ajudarão a expandir seus conhecimentos e habilidades. Fazer e manter conexões também é importante
para aqueles que já trabalham na área de Data Analytics. Portanto, procure comunidades online que promovam
ferramentas de análise de dados ou ciência de dados avançada. E, se disponível onde você mora, procure encontros para
se conectar com mais pessoas presencialmente. Aproveite as vantagens de ambas as rotas para o melhor dos dois
mundos! É mais fácil conversar e trocar informações pessoalmente, mas a principal vantagem das conexões online é que
elas não se limitam ao local onde você mora. Comunidades online podem até mesmo conectá-lo a uma multidão
internacional.
VÍDEO - BENEFÍCIOS DA MENTORIA - Foi o exemplo de Maya Angelou para Oprah Winfrey. Steven Spielberg para JJ Abrams.
Warren Bu�ett para Bill Gates. Eles foram mentores, e ter um pode gerar um enorme impacto na sua carreira e na sua vida em geral.
Basicamente, um mentor é um profissional que compartilha seu conhecimento, suas habilidades e experiência para ajudá-lo a
se desenvolver e crescer. Cerca de 3 em cada 4 pessoas pensam que ter um mentor é uma parte importante do desenvolvimento
profissional. Porém, estudos descobriram que apenas 37% deles têm um mentor. Como analista de dados, você não precisa ter um
mentor, mas aqueles que encontram um bom nunca o esquecem. Mentores assumem muitas formas. Eles podem ser conselheiros
confiáveis, um porto seguro, críticos, recursos ou todos os itens acima. Às vezes, o relacionamento acontece naturalmente, mas é
comum precisar convidá-lo formalmente para que seja seu mentor, afinal, pode ser que ele não perceba seu interesse na orientação
dele. Tentei buscar mentores em todas as etapas da minha carreira, da escola até minha função atual no Google. Sempre é bom
garantir que seus mentores tenham tempo para apoiar seu crescimento, sendo de igual importância que você mantenha um
relacionamento profissional com eles. Além de um mentor, um patrocinador também pode ajudá-lo no desenvolvimento de sua carreira.
Mas falaremos mais sobre isso mais tarde. É muito importante descobrir o que você procura em um mentor. Isso ajudará a restringir
sua lista de profissionais em potencial. Tente pensar sobre seus pontos fortes, desafios no trabalho e como gostaria de crescer como
analista de dados. Compartilhe sua visão abertamente com seus mentores em potencial! Também é ótimo pensar sobre experiências
compartilhadas ou pontos em comum. Talvez você seja um veterano que se beneficiaria da orientação de um analista de dados para as
forças armadas. Ou talvez você apenas pense que poderia realmente se beneficiar ao conversar com alguém da sua cidade natal. Não
há uma única maneira certa de encontrar o mentor perfeito. Seu mentor nem mesmo precisa trabalhar com você. Se não houver
pessoas com quem você possa se conectar em seu ambiente de trabalho atual, é possível encontrar mentores em qualquer lugar, seja
em uma plataforma de mídia social, um evento de networking ou programa de correspondência de mentores. Por exemplo, sites como
Score.org e MicroMentor.org e um aplicativo denominado Mentorship permitem que você busque credenciais específicas que
atendam às suas necessidades. Você pode marcar horários específicos, talvez na plataforma, para se encontrar ou conversar por
telefone. Pessoalmente, acho interessante enviar um e-mail ou mensagem amigável em um site de networking profissional. Se você
seguir esse caminho, reserveum tempo para descrever seus objetivos de carreira e como eles podem se alinhar com as próprias
experiências deles. Tente mencionar algo que você goste particularmente sobre o trabalho ou o conteúdo publicado deles. A partir daí,
basta sugerir uma conversa com café, encontro virtual ou troca de e-mails para começar. Assim que estabelecer alguns contatos, faça
algumas verificações pessoais. Certifique-se de que o processo seja natural e que você esteja recebendo tudo o que precisa. Também
é uma boa ideia verificar com seu mentor se o processo está funcionando para ele também. Lembre-se de que esta é uma parceria.
Você e seu mentor são participantes igualitários. Quanto mais autêntico e honesto você for sobre a parceria, melhores serão os
resultados. Por exemplo, é sempre uma boa ideia compartilhar sua gratidão pelo tempo e esforço do mentor. Agora, embora um mentor
o ajude a adquirir habilidades essenciais e a enfrentar desafios no trabalho, muitas pessoas descobrem que ter um patrocinador pode
levar suas carreiras ainda mais longe. Um patrocinador é um defensor profissional que se compromete a fazer a carreira do
patrocinado avançar em conjunto com uma organização. Para compreender a diferença entre esses dois papéis, pense da
seguinte forma: um mentor o ajuda a melhorar suas habilidades, um patrocinador o ajuda a progredir na carreira. Contar com o
apoio de um patrocinador é como ter uma rede de segurança. Ele pode transmitir a você a confiança para assumir riscos no trabalho,
como pedir por uma nova atribuição ou promoção. Vamos falar sobre como conseguir um patrocinador. Bem, ao contrário dos
mentores, você não consegue escolher o patrocinador. O patrocinador quase sempre escolhe você. O melhor curso de ação é
comprometer-se a sempre fazer o melhor no seu trabalho. São grandes as chances de que alguém com influência possa notá-lo. Agora
que vimos a importância do networking nos relacionamentos, é uma boa ideia adotar medidas proativas. Primeiro, construa e cultive
sua presença no LinkedIn. Em seguida, observe sua atual presença nas redes sociais e verifique se ela está ajudando você a dar o seu
melhor. Por fim, esteja sempre aberto a se conectar com pares e colegas. Nunca se sabe o que de positivo uma conversa é capaz de
trazer.
https://www.digitalanalyticsassociation.org/
https://www.kdnuggets.com/websites/societies.html
https://www.kdnuggets.com/websites/societies.html
https://community.tableau.com/s/
https://www.datascienceassn.org/
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
VÍDEO - RACHEL: OS MENTORES SÃO FUNDAMENTAIS - Olá. Meu nome é Rachel, e eu sou a líder de sistemas de negócios e
análises da Verily. Tive sorte o bastante de ter alguns mentores realmente ótimos ao longo do curso da minha carreira, e eu não posso
enfatizar o suficiente como é importante ter alguém ao seu lado enquanto você atravessa todos os altos e baixos da sua carreira. Para
mim, tive alguns mentores maravilhosos que me guiaram através de certas decisões de carreira realmente difíceis, começando desde
o início. Meu primeiro mentor foi um professor na escola, e este professor me deu conselhos maravilhosos de como seguir meus
sonhos e como me basear no que me interessa. Eu acho que é muito importante também ter ótimos mentores no trabalho. Meu mentor
me ajuda a cruzar todos os altos e baixos da minha organização, todos os altos e baixos da política, algumas vezes, e também me
ajuda a tomar decisões sobre o que fazer a seguir. É bom ter um mentor que está fora do que está acontecendo, mas também é muito
bom às vezes ter um mentor que entende o ambiente. Eu encontro o meu mentor com regularidade só para manter contato, só para ver
como estamos indo, para manter um relacionamento, mas eu agendo especificamente um horário com meu mentor quando estou
enfrentando algum tipo de pergunta difícil ou quando tenho um momento crucial chegando. Por exemplo, tive ótimas conversas com
meu mentor sobre se eu realmente deveria me inclinar para o aspecto financeiro da minha carreira ou se queria me apoiar no lado do
TI e de sistemas, ajudando a tomar algumas dessas decisões sobre onde focar e que aulas assistir, a área onde continuar minha
educação, e para onde me inclinar nos próximos projetos. Conversar sobre isso com alguém realmente me ajudou a esmiuçar alguns
pensamentos confusos e descobrir para onde ir na sequência. Eu acho que a coisa mais importante a se procurar em um mentor é
alguém com quem você vai se dar bem e alguém em quem você confie. Esta é uma pessoa com quem você vai atravessar algumas
das escolhas possivelmente mais difíceis de sua carreira, procurando nela orientação, ajuda e apoio. Meus mentores de maior
sucesso, os relacionamentos de mentoria de maior sucesso que eu já tive, foram com pessoas com quem sou próxima pessoal ou
profissionalmente e em quem eu confio e me sinto confortável em compartilhar pensamentos possivelmente profundos, e vários outros
detalhes potencialmente sensíveis sobre o que estou pensando, o que estou passando e o que eu quero, para que eles possam me
ajudar a isso fazer sentido e descobrir o que fazer. Eu amo agora que posso pagar adiante e compartilhar um pouco da sabedoria que
aprendi com meus mentores e algumas das experiências que tive em minha carreira, e ajudar a dividir isso com outras pessoas para
que elas possam passar por algumas das mesmas decisões e algumas dessas mesmas situações, e, com sorte, aprender com
algumas das minhas experiências e alguns dos meus erros, e ajudar a passar isso para frente é o que realmente torna ser um mentor
tão empolgante.
Desafio do curso
Cenário 1, perguntas 1-5
Você está trabalhando em uma empresa de consultoria em Data Analytics nos últimos seis meses. Sua equipe ajuda
restaurantes a usarem seus dados para entender melhor as preferências dos clientes e identificar oportunidades para se
tornarem mais lucrativos. Para fazer isso, sua equipe analisa o feedback dos consumidores a fim de melhorar o
desempenho do restaurante. Você utiliza os dados para ajudar os restaurantes a tomar melhores decisões de contratação
e impulsionar a fidelidade do cliente. Sua análise consegue, inclusive, acompanhar quantas vezes um consumidor solicita
um novo prato ou ingrediente para revisar os cardápios dos restaurantes. Atualmente, você está trabalhando com um
restaurante de sanduíches vegetarianos chamado Garden. O proprietário quer tornar as entregas de alimentos mais
eficientes e rentáveis. Para alcançar essa meta, sua equipe utilizará dados de entrega a fim de compreender melhor
quando os pedidos saem do Garden, quando chegam ao cliente e a satisfação geral dos clientes com relação aos pedidos.
Antes do início do projeto, você participa de uma sessão de descoberta com o vice-presidente de experiência do
consumidor do Garden. Ele compartilha informações para ajudar a sua equipe a entender melhor os objetivos do negócio e
do projeto. Para fazer um acompanhamento, ele envia um e-mail com conjuntos de dados.
Pergunta 1 - Revisar os dados permite que você descreva como irá usá-los para alcançar as metas do seu cliente.
Primeiramente, você nota que todos os dados são dados primários. O que isso significa?
São dados subjetivos que medem as qualidades e características.
São dados coletados pelos funcionários da Garden usando os recursos próprios da empresa.
São dados coletados de fontes externas.
São dados categorizados sem uma ordem definida.
Correto - Os dados primários são coletados por um indivíduo ou grupo usando seus próprios recursos.
Pergunta 2 - Continuação do cenário 1 - A seguir, você revisa os dados da pesquisa de satisfação do cliente. A
pergunta feita na coluna E é “O seu pedido estava correto? Por favor, responda com sim ou não”. Os dados são de
que tipo?
Dados booleanos
Dados ordinais
Dados secundários
Dados limpos
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Correto - São dados booleanos, pois têm apenas dois valores possíveis, como sim ou não.
Pergunta 3 - Continuação do cenário 1 - Agora, você revisará os dados sobre tempos de entrega

Mais conteúdos dessa disciplina