Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Esse será uma formação em Ciência de Dados. Usamos o conceito de formação pois 
vamos te ensinar todos os conteúdos necessários para que você consiga seguir a 
carreira de cientista de dados ou simplesmente utilizar os conhecimentos de ciência 
de dados para melhorar qualquer processo na sua empresa, o que vai te ajudar a se 
destacar na sua carreira. Isso inclui desde técnicas de alinhamento com o negócio 
até conceitos estatísticos importantes. Toda a formação se baseia nos 3 principais 
pilares de ciência de dados que são: negócios, estatística e python.
Conceitualmente, Ciência de Dados é uma área multidisciplinar que busca analisar 
o negócio usando tecnologia e estatística. Hoje em dia temos uma abundância de 
dados e podemos usar esses dados para encontrar padrões que estavam 
desconhecidos e, com esses padrões, fazer sugestões para o negócio e até 
inferências sobre o futuro. Ciência de Dados está presente desde a autorização da 
sua transação do cartão de crédito na padaria até se o banco vai aprovar seu 
empréstimo para comprar uma casa.
01
PROGRAMA: CIÊNCIA DE 
DADOS IMPRESSIONADOR
A formação Ciências de Dados Impressionadora possui atualmente 56 horas 
gravadas, com diversos conteúdos planejados. Focamos o curso em módulos 
totalmente direcionados a situações onde você já vai conseguir aplicar de forma 
prática desde o início do curso.
No Impressionador, temos uma equipe de experts focada no suporte, portanto 
conseguimos tirar dúvidas além do conteúdo, incluindo coisas que você precise 
fazer no seu trabalho (não é uma consultoria, então não fazemos com você, mas 
conseguimos tirar dúvidas de qualquer ferramenta que você esteja construindo 
sim), além de apostila completa que será disponibilizada nas próximas semanas, 
exercícios extras e atualização constante.
Nas próximas páginas você pode visualizar a ementa completa do curso.
Apostila e Suporte3
Ementa e carga horária2
Proposta e Objetivo do Curso1
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
O que é Ciência de Dados?
1. O que é ciência de dados?
2. O que eu quero responder?
3. Os pilares da Ciência de Dados
02
Módulo 1
Python Básico
1. Explicando esse módulo
2. Instalando o Python no Windows
3. Problemas na Instalação - Resolvido
4. Mac, Linux e Google Colab
5. Criando seu Primeiro Programa
6. Variáveis
7. Tipos de Variáveis
8. Estrutura do if - Condições no Python
9. Elif
10. Comparadores
11. And e Or
12. Listas em Python
13. Índices em Lista, Consultando e Modificando Valores
Módulo 3
Introdução a Ciência de Dados
1. O que é ser um cientista
2. Framework para Ciência de Dados
3. Resumindo ciência de dados
4. Python como ferramenta de Data Science
5. O mercado de trabalho para um cientista de dados
Módulo 2
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 03
Módulo 3
Python Básico
14. Estrutura de Repetição For
15. For each - Percorrer cada item de uma lista
16. For e If
17. Estrutura While
18. Loop Infinito no While
19. Tuplas
20. Unpacking em Tuplas
21. Dicionários em Python
22. Pegar item Dicionário e Verificar Item Dicionário
23. Range
24. Functions no Python
25. Retornar um valor na Function
26. Argumentos e Parâmetros numa Function
27. (Opcional) Aplicação em um Exemplo de argumento
28. O que são Módulos e qual a importância
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Pandas e Numpy: As bibliotecas básicas para Ciência 
de Dados
1. Comparando Pandas e Excel
2. Comparando Pandas e Excel na prática
3. A importância do NumPy
4. Propriedades de uma array
5. Trabalhando com arrays
6. Importando e visualizando uma base no Pandas
7. Entendendo os conceitos de DataFrame e Series
8. Tipos de dados, valores nulos e seleção de colunas
9. Informações estatísticas e filtros na base
10. Criando gráficos básicos no Pandas
04
Módulo 4
Projeto 1 - Analisando o engajamento do Instagram
1. Explicando o projeto
2. Importando e tratando a base com Pandas
3. Tratando valores nulos da coluna Carrossel
4. Analisando informações estatísticas e 5 melhores / 5 piores 
publicações
5. O group by no pandas e a análise do engajamento
6. Analisando Tags: Separando valores de uma coluna em linhas 
diferentes (split e explode)
7. Analisando Tags: Analisando o engajamento por Tags
8. Analisando Tags: Finalizando a análise da nossa base (analisando 
tag, pessoas e campanhas)
Módulo 5
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Introdução à Estatística
1. Introdução a Estatística e Estatística Descritiva
2. Tabela de frequência e histograma
3. Entendendo o conceito da média
4. Mediana e sua relação com a média
5. Usando Python para entender a relação entre média e mediana
6. Média, mediana e moda
7. Entendendo de forma prática a relação entre média, mediana e 
moda
05
Módulo 6
Matplotlib: Criando gráficos em Python
1. Apresentando o Matplotlib
2. Introdução ao Matplotlib
3. Usando a documentação para criar nosso primeiro gráfico (gráfico 
de linha)
4. (Opcional) Entendendo a documentação do Matplotlib
5. Usando gráficos (de linha) para entender os dados (máximo, 
mínimo e média mensal de curtidas)
6. Filtrando a base usando o contains (e fillna para tratar valores 
vazios)
7. Criando e ajustando o visual (rotacionando o eixo x) de um gráfico 
de barras
8. Usando o annotate para adicionar rótulos de dados no gráfico
9. Criando um scatter plot usando apenas a documentação
10. (Opcional) Revisando o datetime e o astype
Módulo 7
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Boas práticas para apresentação de dados
1. Introdução aos conceitos básicos de apresentação de dados
2. Reduzindo o esforço para entender sua apresentação (eixo Y 
começando no zero e eixos secundários)
3. Melhorando o seu visual (Proximidade e Similaridade)
4. Melhorando o seu visual (Acercamento, Fechamento, 
Continuidade e Conexão)
5. Contraste e atributos pré-atentivos
6. Visualização de dados no Python: Passo a passo para melhorar 
seus visuais no matplotlib
7. Visualização de dados no Python: Ajustando o plot e colocando 
barras lado a lado em um gráfico de barras
8. Visualização de dados no Python: Adicionando rótulo nos dados 
(annotate)
9. Visualização de dados no Python: Retirando as bordas, ajustando 
os eixos e separando realizado x projetado
10. Boas práticas de visualização no Python: Separando em dois 
gráficos e alterando o tipo de gráfico
11. Boas práticas de visualização no Python: Ajustando as barras e 
adicionando rótulo de dados nos gráficos de barra e de linha
12. Boas práticas de visualização no Python: Melhorando o visual do 
gráfico de linhas e separando realizado x projetado
06
Módulo 8
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 07
Projeto 2 - Criando uma apresentação executiva
1. Apresentando o projeto
2. Importando e analisando a base
3. Tratando valores vazios
4. Usando o datetime para tratar datas
5. Criando um gráfico de barras no matplotlib
6. Adicionando título no gráfico e ajustando o eixo x
7. Adicionando e formatando rótulo de dados, ajustando o eixo y e 
retirando bordas
8. Vendas por mês e transformando índices em colunas com o 
reset_index
9. Entendendo o deslocamento das barras em um gráfico de barras 
horizontais
10. Adicionando todos os anos no gráfico de barras e colocando 
rótulo nos dados
11. Mudando os rótulos do eixo x e finalizando o visual da venda por 
mês
12. Respondendo qual foi a categoria mais vendida
13. Criando um gráfico de barras horizontais para o top N itens
14. Usando o merge para unir 2 bases no pandas
15. Usando o merge para criar a relação de top N itens pelos anos
16. Criando o gráfico de barras horizontais do top N itens pelos anos
17. Concluindo o projeto e respondendo as informações do negócio
18. Apresentando as informações em um PowerPoint
Módulo 9
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Introduçãoao Aprendizado de Máquinas
1. O que é Aprendizado de Máquinas (Machine Learning)?
2. O aprendizado de máquinas no Instagram
3. Explicando o Aprendizado de Máquinas
4. Caso Real: Uso do Aprendizado de Máquinas pelo Walmart
5. Como funciona um modelo de Aprendizado de Máquinas?
6. O erro no processo de aprendizado
7. O Aprendizado de Máquinas no Python
8. Regressão Linear no Scikit-Learn: importanto, tratando e 
entendendo os dados
9. Usando Regressão Linear do Scikit-Learn para calcular a Venda 
utilizando apenas o Preço
10. Calculando a regressão linear com Scikit-Learn utilizando Preço 
Original e Desconto
11. Usando o sklearn.metrics para calcular os erros de cada um dos 
modelos
12. A descrição estatística do Pandas
13. A variância e o desvio padrão (medidas de dispersão)
14. Separatrizes: entendendo os quartis
08
Módulo 10
Como as máquinas aprendem?
1. Os tipos de aprendizado de máquinas: aprendizado 
supervisionado e não supervisionado
2. Os tipos de aprendizado de máquinas: aprendizado semi 
supervisionado e por reforço
3. A diferença entre aprender e decorar
4. Considerações importantes para o Aprendizado de Máquinas
Módulo 11 
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Projeto 3 - Criando um modelo de classificação
1. Entendendo e importando o dataset iris do scikit-learn
2. Tratando os dados do dataset e transformando em um 
DataFrame do pandas
3. Escolhendo visualmente quais colunas da base iremos usar no 
modelo
4. Criando uma reta capaz de separar os dados do modelo
5. Classificando um novo ponto usando o modelo visual que 
acabamos de criar
6. Criando uma função em Python para classificar um novo ponto 
no modelo
7. Entendendo o Perceptron e usando esse algoritmo nos nossos 
dados
8. Usando o Perceptron para criar um modelo de aprendizado de 
máquinas
09
Módulo 12
Utilizando o Aprendizado de Máquinas
1. Revisando a imporação da base usando o pandas
2. Revisando a visualização do scatter plot com o matplotlib
3. Criando uma reta capaz de separar os dados em 2 classes 
diferentes
4. (Opcional) Entendendo a reta criada para classificar os pontos
5. Criando uma função que classfica os dados usando a reta gerada 
pelo scatter plot
6. Avaliando um modelo de classificação
7. A matriz de confusão para um modelo de classificação
8. Acurácia, precisão e recall em um modelo de classificação
9. Gerando a matriz de confusão no Scikit-Learn (avaliando modelos 
de classificação)
10. Calculando acurácia, precisão e recall no Scikit-Learn (avaliando 
modelos de classificação)
11. Avaliando os dados de TREINO do modelo que criamos
Módulo 13
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 10
Utilizando o Aprendizado de Máquinas
12. Avaliando os dados de TESTE do modelo que criamos
13. Usando o train_test_split do Scikit-Learn para separar os dados 
em treino e teste
14. Usando o train_test_split e avaliando o modelo criado
15. Explicando o que é uma Árvore de Decisão
16. Entendendo a classificação dos dados utilizando a Árvore de 
Decisão
17. Importando e tratando os dados do projeto 3 (iris) para 
aplicarmos diferentes modelos de classificação
18. Separando em treino e teste e analisando os dados de TREINO
19. Traçando uma reta capaz de separar os dados de TREINO
20. Criando uma árvore de decisão capaz de separar os dados de 
TREINO
21. Avaliando os dados de TESTE para os dois modelos criados
Módulo 13
Análise Exploratória de Dados
1. Explicando a Análise Exploratória e a base que vamos usar 
(dataset do Titanic)
2. Importando e entendendo a base do Titanic
3. Analisando as informações da base e o resumo estatístico
4. Entendendo a cardinalidade de uma base
5. Visualizando os dados de forma gráfica
6. Gerando um boxplot usando o matplotlib
7. Interpretando o boxplot
8. Outras opções de gráficos
9. Correlação entre as variáveis e o KDE (Kernel Density Estimation)
10. Criando um mapa de calor da correlação entre as variáveis
11. Tratando valores vazios e outliers
12. O Pandas Profiling
13. (Opcional) Corrigindo o erro ao carregar o Pandas Profiling
14. Apresentando sua análise exploratória de forma executiva
Módulo 14
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
O Scikit-Learn
1. Apresentando a documentação do Scikit-Learn
2. Importando o dataset iris do Scikit-Learn e transformando em um 
DataFrame do pandas
3. O Perceptron no Scikit-Learn
4. Entendendo o resultado gerado pelo perceptron
5. A árvore de decisão no Scikit-Learn
6. Classificação no Scikit-Learn: entendendo o dataset e criando os 
classificadores
7. Classificação no Scikit-Learn: Avaliando erros de classificação
8. (Opcional) O average no precision_score
9. Classificação no Scikit-Learn: separando os dados em treino e 
teste e avaliando o modelo
10. Classificação no Scikit-Learn: adicionando novos algoritmos 
(Regressão Logística) e melhorando o resultado do Perceptron
11. A equação da reta
12. Entendendo a regressão linear
13. O erro na regressão linear
14. A regressão linear no Scikit-Learn
15. Regressão no Scikit-Learn: explicando o problema e importando a 
base
16. Regressão no Scikit-Learn: utilizando regressão linear simples 
para prever o volume de ações
17. Regressão no Scikit-Learn: utilizando regressão linear múltipla
18. Regressão no Scikit-Learn: tratando a variável de data e utilizando 
no modelo
11
Módulo 15
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 12
Projeto 4 - Criando um algoritmo de regressão
1. Explicando o projeto e importando a base de casas da Califórnia
2. Visualizando os dados de maneira gráfica
3. Entendendo a base, verificando valores duplicados e tratando 
outliers
4. Separando a base em treino e teste e usando Regressão Linear 
Simples
5. Utilizando o for para fazer a regressão de todas as colunas da base
6. Entendendo o coeficiente de determinação (r quadrado)
7. Métricas de erro para regressão
8. Avaliando o erro na regressão com Scikit-Learn
9. Avaliando os erros do nosso modelo e escolhendo o melhor 
modelo de Regressão Linear Simples
10. A Regressão Linear Múltipla
11. Utilizando o for para escolher o melhor par de variáveis na 
Regressão Linear Múltipla
12. Utilizando Árvore de Regressão e Support Vector Regression nos 
dados
13. Concluindo o projeto e visualizando os resultados de forma 
gráfica
Módulo 16
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Conceitos básicos de SQL para Ciência de Dados
1. Apresentando o sqlite3
2. Transformando dados do SQL em um DataFrame do pandas
3. Selecionando (SELECT) dados de um banco de dados com SQL
4. Utilizando o WHERE para filtrar a nossa tabela
5. (Opcional) Revisando o SELECT utilizando o sqlite3
6. (Opcional) Revisando o SELECT DISTINCT e o WHERE (AND, OR e 
NOT)
7. Utilizando o GROUP BY e o ORDER BY no SQL
8. Limitando a base com o TOP / LIMIT e usando o HAVING para 
filtrar a tabela
9. Definindo condicionais no SQL com o CASE
10. Utilizando subquery no SQL
11. Outros filtros no SQL (IN e LIKE)
12. Bases de dados com mais de 1 tabela
13. Revisando o merge do pandas
14. Unindo duas bases no SQL utilizando o JOIN
15. O UNION e o FULL JOIN no SQL
13
Módulo 17
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Técnicas de storytelling com dados: Utilizando o SQL 
com dados reais de venda
1. Apresentando a base de dados que vamos utilizar nesse módulo
2. Usando a biblioteca os para buscar os arquivos da nossa base de 
dados
3. Importando todas as bases de dados para o pandas
4. Analisando a base de ordens, itens e pagamentos para iniciar o 
entendimento dos dados
5. Utilizando o groupby do pandas para analisar as ordens com mais 
de 1 item
6. Fazendo o pivot (pivotando) da tabela para analisar diferentes 
itens na mesma ordem
7. Finalizando o entendimento da base analisando pagamentos, 
vendedores e review
8. (Opcional) Criando um banco de dados utilizando a 
documentação do sqlite3
9. (Opcional) Criando uma tabela utilizando um DataFramedo 
pandas
10. (Opcional) Inserindo dados em uma tabela utilizando o to_sql e o 
INSERT
11. (Opcional) Atualizando e deletando registros em uma tabela 
utilizando UPDATE e DELETE
12. Usando a biblioteca os para visualizar os arquivos que iremos 
transformar em tabelas
13. Criando um banco de dados e a nossa primeira tabela
14. Adicionando todos os arquivos da pasta como tabelas no banco 
de dados
15. Ajustando as colunas de datas e usando o if_exists para substituir 
tabelas em uma banco
16. Criando uma função para automatizar as consultas no nosso 
banco de dados
17. Apresentando o banco de dados de vendas
14
Módulo 18
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Técnicas de storytelling com dados: Utilizando o SQL 
com dados reais de venda
18. Exercício: Melhorando a satisfação do cliente
19. Criando uma história com seus dados
20. Dicas para uma boa apresentação de dados
21. A estrutura de uma história
22. Resolução - O problema realmente existe? Conectando ao banco 
e começando a analisar a tabela de pedidos
23. Resolução - Tratando as colunas de data que estão como texto 
(usando o to_datetime do pandas)
24. Resolução - Calculando o atraso na entrega e verificando a média 
de atraso utilizando o datetime
25. Resolução - Utilizando o to_period para calcular a média do atraso 
em cada um dos meses
26. Resolução - Analisando o máximo e mínimo do atraso e 
visualizando graficamente utilizando o matplotlib
27. Resolução - Criando uma função para contar o número de 
pedidos atrasados (usando apply e lambda function)
28. (Opcional) Formatando o gráfico de pedidos atrasados no 
matplotlib
29. Resolução - Relação da avaliação com o atraso (Analisando a 
tabela de avaliações e a tabela de pedidos)
30. Resolução - Entendendo a relação entre a tabela de pedidos e a 
de avaliações (pedidos sem avaliação e pedidos com mais de 
uma avaliação)
31. Resolução - Avaliando a média e o máximo das notas para 
pedidos com mais de uma avaliação
32. Resolução - Finalizando o tratamento da base e analisando o 
impacto de utilizar o máximo ao invés da média das notas para 
pedidos com mais de uma avaliação
33. Resolução - Entendendo a relação entre o atraso e a avaliação dos 
clientes
15
Módulo 18
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Técnicas de storytelling com dados: Utilizando o SQL 
com dados reais de venda
34. Resolução - Calculando a média da avaliação por cada período de 
atraso e apresentando graficamente essa informação
35. (Opcional) Formatando o gráfico de atraso no pedido x avaliação
36. Resolução - Avaliando os comentários de pedidos atrasados
37. Resolução - Usando o wordcloud para verificar as palavras mais 
frequentes nas reclamações 
38. Resolução - Melhorando a núvem de palavras (wordcloud) e 
criando uma núvem de frases
39. Criando uma história com os dados gerados na nossa análise
16
Módulo 18
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Projeto 5 - Criando um modelo de identificação de 
fraude
1. Mostrando a base desse módulo e apresentando o Kaggle e a sua 
importância para nossos projetos de ciência de dados
2. Entendendo a base de transações e analisando a relação entre 
fraude e não fraude
3. Criando um modelo de classificação de fraude usando a base 
desbalanceada e analisando a acurácia, precisão e recall desse 
modelo
4. Apresentando o imbalanced-learn e utilizando o undersampling 
e o oversampling para os nossos dados de crédito
5. (Opcional) Importando e visualizando a base de transações
6. Revisando o undersampling e o oversampling do imbalanced-
learn e visualizando de forma gráfica as novas bases geradas
7. Explicando o RandomUnderSampler do imblearn
8. Apresentando de forma visual o funcionamento do 
RandomUnderSampling
9. Utilizando o ClusterCentroids e o NearMiss para realizar o 
undersampling
10. Explicando o RandomOverSampler do imblearn
11. Usando o shrinkage do RandomOverSampler e visualizando 
graficamente os novos dados
12. Utilizando SMOTE e ADASYM para realizar o oversampling
13. Realizando o undersampling com o RandomUnderSampler na 
base de transações e analisando a acurácia e o recall
14. Fazendo o oversampling com o RandomOverSampler para essa 
mesma base e comparando os resultados
15. Utilizando o ClusterCentroids e o NearMiss para o undersampling 
para o modelo de classificação de fraude
16. Utilizando SMOTE e ADASYM para o oversampling e testando 
combinar os métodos para o modelo de classificação de fraude
17
Módulo 19
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
Subindo seu modelo para produção (Deploy)
1. Criando um modelo de Regressão Linear passo a passo
2. Persistindo o modelo (usando o dump e load do joblib)
3. (Opcional) Utilizando o modelo nos mesmos dados para provar 
que temos exatamente o mesmo modelo
4. Utilizando o modelo criado em dados de produção
5. Colocando nosso modelo em produção utilizando um arquivo do 
Jupyter Notebook
6. Utilizando um arquivo .py para colocar o modelo em produção
7. Criando um executável para realizar a previsão utilizando o 
modelo criado
8. Apresentando o Streamlit para criarmos uma tela para o usuário 
acessar o modelo
9. Criando campos de entrada para os valores numéricos de preço e 
desconto e o botão de "PREVER"“
10. Criando uma tela para o usuário utilizar o nosso modelo com o 
Streamlit
11. (Opcional) Explicando o predict
18
Módulo 20
Ajustando os dados para o modelo (Data Cleaning)
1. Explicando a importância da limpeza dos dados e importando a 
base
2. Buscando na base por valores nulos e linhas duplicadas
3. Procurando na base alguns problemas que podem ter sido 
gerados por erros humanos
4. Tratando valores vazios e linhas duplicadas
Módulo 21
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 19
Ajustando os dados para o modelo (Data Cleaning)
5. Tratando valores digitados errados (erros humanos)
6. Limpeza de Dados – Exercício
7. Entendendo a base e respondendo as perguntas sem fazer o 
tratamento dos dados
8. Contando a quantidade de alunos que responderam o questionário
9. Eliminando valores duplicados e discutindo sobre o tratamento do 
ID_aluno
10. Somando a matrícula dos alunos que responderam (visualizando e 
tratando outliers)
11. Verificando o tamanho da blusa para todos os alunos
12. Descobrindo quantos alunos vão participar da formatura
13. Estimando a altura de um aluno usando média e mediana dos dados
14. Aprofundando no tratamento de dados: Entendendo a base de notas 
de português
15. Usando o drop_duplicates para retirar valores duplicados da base
16. Analisando o describe e o boxplot e tratando outliers nos dados
17. Criando a função para transformar as notas dadas em conceitos 
(textos) em números de 1 a 10
18. Otimizando a função criada, unindo duas bases e calculando a média 
final dos alunos
19. Apresentando a base de cadastro dos alunos e tratando e-mails 
escritos errados
20. Tratando a data e ajustando as colunas de texto no cadastro dos 
alunos
21. Exercício: limpeza dos dados no dataset do titanic
22. Tratando as informações de embarque vazias e usando a mediana 
para as idades
23. Analisando a média das idades pela classe, gênero e pelo título 
extraído do nome
24. Usando o transform para substituir as idades vazias pelo resultado do 
groupby e eliminando colunas desnecessárias
25. Analisando outliers, cardinalidade e eliminando colunas 
desnecessárias
Módulo 21
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Outros modelos supervisionados
1. Relembrando o Perceptron e importando o dataset íris
2. Criando um modelo utilizando o perceptron
3. Utilizando o coef_ e o intercept_ para traçar a reta gerada pelo 
perceptron
4. Explicando o Perceptron para mais de 2 classes e para dados que 
não são linearmente separáveis
5. Relembrando a árvore de decisão e aprofundando teoricamente
6. Importando novamente o dataset iris e criando um modeloutilizando a árvore de classificação
7. Visualizando graficamente como funciona uma árvore de decisão
8. Fazendo a previsão utilizando o predict e as regiões gráficas que 
criamos
9. Utilizando todo o dataset iris para criar nossa árvore de decisão
10. Explicando o índice gini e a entropia utilizados no "criterion“
11. (Opcional) Visualizando graficamente o índice gini e a entropia
12. O tamanho da árvore: utilizando o max_depth para melhorar a 
acurácia do modelo
13. Relembrando a regressão linear
14. Visualizando graficamente a vantagem da regressão linear ao 
criar a melhor reta (menor erro quadrático)
15. Utilizando a regressão linear de forma prática no dataset de casas 
da Califórnia
16. Apresentando os conceitos do K-Nearest Neighbors (KNN)
17. Utilizando o KNN e entendendo o cálculo da distância entre os 
pontos (euclidiana e manhattan)
Módulo 22
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Outros modelos supervisionados
18. Calculando manualmente as distâncias euclidiana e manhattan 
do ponto central
19. Utilizando o kneighbors para visualizar os pontos mais próximos e 
mudando a ordem dos dados para avaliar a previsão
20. 20. Utilizando o KNN com um dataset real (dataset iris) e 
avaliando a previsão desse algoritmo
21. Entendendo visualmente a previsão feita para o dataset iris
22. Apresentando a Regressão Logística e importando o dataset iris
23. Utilizando a regressão logística e visualizando graficamente o 
gráfico gerado
24. Entendendo o predict_proba (prevendo a probabilidade de cada 
uma das classes)
25. Utilizando a regressão logística para um problema com 3 classes
26. Utilizando todo o dataset iris para criar a regressão logística
27. Apresentando o Support Vector Machine (SVM)
28. Importando novamente o dataset iris (passo a passo)
29. Utilizando o SVM (SCV) e visualizando graficamente o resultado 
em dados linearmente separáveis
30. Explicando o hiperparâmetro C e as margens rígidas e flexíveis do 
SVM
31. Utilizando o SVM para dados que não são linearmente separáveis 
e analisando o dataset iris completo
Módulo 22
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Aprendizado Não Supervisionado
1. Revisando os tipos de aprendizado e relembrando o aprendizado 
não supervisionado
2. Apresentando os principais conceitos da aprendizagem não 
supervisionada
3. Explicando o K-means para clusterização / agrupamento dos 
dados
4. Detalhando o K-means e explicando o hiperparâmetro init e o 
Elbow Method (método do cotovelo)
5. Importando o dataset iris e utilizando o K-means para criar 2 
clusters nesses dados
6. Entendendo matematicamente a classificação dos pontos em 
cada um dos clusters / grupos
7. Entendendo a distância euclidiana
8. Visualizando os clusters / grupos para diferentes valores de K e 
utilizando o Elbow Method (Método do Cotovelo) para a escolha 
de K
9. Comparando os clusters gerados com as classes do dataset iris 
para valores de k próximos ao número de classes
10. Exercício: utilizando o K-Means para agrupar os valores do 
dataset load_digits
11. Entendendo a base e utilizando a documentação para importar o 
K-Means
12. Utilizando o Elbow Method (método do cotovelo) para escolher 
um valor de K para iniciarmos nossa análise
13. Utilizando K = 9 e transformando os números do label em letras 
para analisarmos os grupos
14. Visualizando a tabela relacionando os rótulos (targets) reais dos 
dados com os grupos gerados pelo K-Means
15. Entendendo os dígitos classificados errados e discutindo como 
essa avaliação poderia ser feito sem os rótulos (targets) dos dados
Módulo 23
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Aprendizado Não Supervisionado
16. Usando os grupos para classificar os dados e avaliando os erros 
dessa classificação
17. Testando diferentes valores de k e buscando a melhor 
clusterização para os dados
18. Métricas de avaliação no aprendizado não supervisionado
19. Clusterizando o dataset iris e analisando a relação entre target 
(rótulo) e os labels do kmeans
20. Utilizando a classe mais frequente no cluster para fazer a previsão 
dos dados (criando um y_pred como na classiifação)
21. Avaliando a clusterização utilizando as métricas de classificação 
(matriz de confusão, acurácia, precisão e recall)
22. Explicando a base teórica do Rand Index e usando essa métrica 
para avaliar a clusterização
23. Apresentando o ajuste do Rand Index (Adjusted Rand Index) e 
comparando as duas métricas
24. Utilizando o Rand Index (e o índice ajustado) no dataset iris e 
avaliando diferentes valores de k
25. Apresentando a médida V (V Measure), a homogeneidade e a 
completude
26. Usando a medida V, homogeneidade e completude para avaliar o 
dataset iris
27. Revisando a inércia e apresentando os conceitos do "Coeficiente 
Silhueta" (silhouette_score)
28. Apresentando matematicamente o cálculo do coeficiente 
silhueta para um ponto de dado (silhouette_samples)
29. Calculando o silhouette_score para os dados e entendendo os 
principais conceitos dessa métrica
30. Criando um plot para visualiar o silhoutte_score, o 
silhoutte_simples e os clusters dos dados
Módulo 23
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Aprendizado Não Supervisionado
31. Criando uma visualização considerando o silhoutte_score e os 
clusters dos dados para o dataset iris
32. Apresentando o PCA (Principal Component Analysis)
33. Passo a passo para a definição dos componentes principais do 
PCA
34. Utilizando o PCA nos dados e entendendo os principais 
parâmetros e atributos da documentação
35. Reduzindo o dataset de 3 dimensões para 2 utilizando o PCA e 
utilizando o PCA no dataset iris
36. A ciência além dos dados: ética em Data Science
37. Livro: Algoritmos de destruição em massa (exemplos práticos)
38. Cuidados importantes para garantirmos a ética em nossos 
projetos de Data Science
Módulo 23
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Feature Engineering
1. O que é Feature Engineering?
2. Utilizando lambda function para transformar uma coluna de 
texto em uma nova coluna de valores 1 ou 0
3. O OneHotEncoder para tratamento de colunas com texto
4. Unindo nosso dataset com os dados gerados pelo 
OneHotEncoder e fazendo o Encoding para todas as colunas de 
texto
5. Fazendo o One Hot Encoding utilizando o get_dummies do 
pandas
6. Utilizando o max_categories e o min_frequency do 
OneHotEncoder para limitar o número de colunas geradas
7. Alertando sobre o cuidado ao usar o get_dummies quando a 
coluna pode receber diferentes valores em produção
8. Utilizando o handle_unknown do OneHotEncoder para tratar 
categorias desconhecidas nos dados de produção
9. Apresentando o OrdinalEncoder para colunas com texto que 
possuem relação entre os rótulos
10. Definindo a ordem das categorias e tratando valores 
desconhecidos (categories, handle_unknown e unknown_value 
no OrdinalEncoder)
11. Escolhendo o tipo de dado (dtype) no OrdinalEncoder e fazendo 
o encoding para mais de uma coluna
12. Tratando features com diferença de escala (padronização e 
normalização)
13. Utilizando a padronização (escala padrão) na coluna Age do 
dataset Titanic
14. Utilizando a normalização com o MinMaxScaler nessa mesma 
coluna
Módulo 24
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Feature Engineering
15. Apresentando o MaxAbsScaler para dados esparsos (dispersos) e 
o RobustScaler para dados com outliers
16. Apresentando visualmente a diferenç entre a escala padrão, o 
MinMax, o MaxAbs e o RobustScaler
17. Realizando o cálculo matemático passo a passo de cada uma das 
transformações vistas até agora (Standard, MinMax, MaxAbs e 
Robust)
18. Fazendo a padronização e normalização dos dados da coluna 
Fare
19. Visualizando o histograma de cada transformação e comparando 
entre eles
20. Utilizando o Normalizer para fazer a normalização das linhas de 
um dataset
21.Transformando valores contínuos em atributos discretos com a 
Discretização
22. Dividindo o intervalo em grupos com o mesmo comprimento 
utilizando o KBinsDiscretizer com "strategy=uniform"
23. Utilizando o quantile do KBinsDiscretizer para gerar "grupos" 
com uma quantidade próxima de dados
24. Binarizando os dados utilizando um limite através do Binarizer
Módulo 24
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
R Básico
1. Primeiros passos em R: Apresentando e instalando o R e o 
RStudio
2. Visão geral do RStudio (entendendo a IDE) e importando / 
salvando arquivos
3. Escrevendo comentários e imprimindo valores na tela (print)
4. Criando variáveis em R
5. Operações matemáticas básicas em R
6. Operações lógicas e de comparação em R
7. [Em breve - E muito mais!]
Módulo 25
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Criando seu portifólio
1. Criando seu portfólio e datasets (bases de dados) para seus 
primeiros passos
2. Utilizando datasets mais simples para criar seu portfólio
3. Datasets mais complexos (e completos) para o seu portfólio
4. Começando o seu portfólio e criando o seu LinkedIn
5. Tornando o seu perfil do LinkedIn relevante para recrutadores
6. Criando um LinkedIn do zero
7. Criando seu perfil do GitHub (e o arquivo README)
8. Criando um GitHub do zero
9. Introdução ao markdown e HTML (para seu README do GitHub)
10. Cabeçalhos, imagens e links no HTML
11. Divisões, comentários, enter e espaço no HTML 
12. Conceitos importantes de markdown para o seu README do 
GitHub
13. Começando a criar seu README do GitHub (título, descrição, 
ícones, links e textos em destaque)
14. Adicionando ícones, redes sociais e artigos / conteúdos no seu 
README do GitHub
15. Criando seus artigos no Medium / LinkedIn
16. Criando seus artigos do zero
17. O que é SEO e utilizando o Google Trends para escolher o melhor 
título para o seu artigo
18. Otimizando cabeçalhos, URLs e links para o SEO
19. Palavras-chave (pesquisa Google / Google Trends) e imagens 
para o SEO
20. Aplicando os conceitos do SEO de forma prática
Módulo 26
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 
• Módulo 27 - ‘Projeto 6 - Criando um modelo ponta a ponta para 
seu portfólio’ (Previsão 31/Abr)
• Módulo 28 - ‘Criando um projeto de Aprendizado de Máquinas 
em R’ (Previsão 31/Mai)
• Módulo 29 - Seleção do modelo (Previsão 30/Jun)
• Módulo 30 - Projeto 7 - Utilizando o aprendizado não 
supervisionado para clusterização (Previsão 14/Jul)
• Módulo 31 - Redes Neurais (Previsão 18/Ago)
• Módulo 32 - Deep Learning (Previsão 15/Set)
• Módulo 33 - Projeto 8 - Aplicando Redes Neurais e Deep Learning 
(Previsão 29/Set)
• Módulo 34 - Reconhecimento de Imagem (Previsão 31/Out)
• Módulo 35 - Projeto 9 - Utilizando Deep Learning para 
Reconhecimento de Imagem (Previsão 17/Nov)
21
Módulos em Planejamento
A formação Ciência de Dados Impressionadora contará ainda com 
uma série de módulos adicionais além dos 19 módulos e 5 projetos 
descritos anteriormente. Abaixo, listamos alguns desses módulos que 
serão incluídos no curso.
Obs: importante destacar que as datas informadas são uma previsão, 
podendo sofrer alterações.
	Slide 1
	Slide 2
	Slide 3
	Slide 4
	Slide 5
	Slide 6
	Slide 7
	Slide 8
	Slide 9
	Slide 10
	Slide 11
	Slide 12
	Slide 13
	Slide 14
	Slide 15
	Slide 16
	Slide 17
	Slide 18
	Slide 19
	Slide 20
	Slide 21
	Slide 22
	Slide 23
	Slide 24
	Slide 25
	Slide 26
	Slide 27
	Slide 28
	Slide 29
	Slide 30

Mais conteúdos dessa disciplina