Ementa Ciência de Dados Impressionador

breadcrumb-separator

Exatas

em 16/05/2023

Conteúdos escolhidos para você

Fichário1

UNIFATECIE

Importância do Machine Learning

Importância do Machine Learning

UNIFATECIE

Livro-Texto 2 - Ciência de Dados

Livro-Texto 2 - Ciência de Dados

UNIP

Machine Learning - Unidade 1

Machine Learning - Unidade 1

UAM

Apostila Ciência de Dados Oficial

Apostila Ciência de Dados Oficial

Perguntas dessa disciplina

A Classificação é uma tarefa de Mineração de Dados supervisionada, empregada em conjuntos de dados rotulados, realizando a predição discreta dos da...

UNIASSELVI

A aplicação da lógica de programação no desenvolvimento de sistemas reais exige a combinação de diferentes estruturas de controle e organização de dad

FRBA

O aprendizado supervisionado é efetuado na etapa de Mineração de Dados, uma das principais etapas do Processo de KDD. A Mineração de Dados é por me...

A utilização de dados no setor produtivo exige atenção desde o momento da coleta até as etapas de análise e comunicação. Em ambientes organizacionais

ESTÁCIO EAD

A cada dia, uma enorme quantidade de dados é gerada. Relatório da IDC (do inglês International Data Corporation), de novembro de 2018, estima que a...

Uniasselvi

Material

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

Fichário1

UNIFATECIE

Importância do Machine Learning

Importância do Machine Learning

UNIFATECIE

Livro-Texto 2 - Ciência de Dados

Livro-Texto 2 - Ciência de Dados

UNIP

Machine Learning - Unidade 1

Machine Learning - Unidade 1

UAM

Apostila Ciência de Dados Oficial

Apostila Ciência de Dados Oficial

Perguntas dessa disciplina

A Classificação é uma tarefa de Mineração de Dados supervisionada, empregada em conjuntos de dados rotulados, realizando a predição discreta dos da...

UNIASSELVI

A aplicação da lógica de programação no desenvolvimento de sistemas reais exige a combinação de diferentes estruturas de controle e organização de dad

FRBA

O aprendizado supervisionado é efetuado na etapa de Mineração de Dados, uma das principais etapas do Processo de KDD. A Mineração de Dados é por me...

A utilização de dados no setor produtivo exige atenção desde o momento da coleta até as etapas de análise e comunicação. Em ambientes organizacionais

ESTÁCIO EAD

A cada dia, uma enorme quantidade de dados é gerada. Relatório da IDC (do inglês International Data Corporation), de novembro de 2018, estima que a...

Uniasselvi

Prévia do material em texto

CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Esse será uma formação em Ciência de Dados. Usamos o conceito de formação pois
vamos te ensinar todos os conteúdos necessários para que você consiga seguir a
carreira de cientista de dados ou simplesmente utilizar os conhecimentos de ciência
de dados para melhorar qualquer processo na sua empresa, o que vai te ajudar a se
destacar na sua carreira. Isso inclui desde técnicas de alinhamento com o negócio
até conceitos estatísticos importantes. Toda a formação se baseia nos 3 principais
pilares de ciência de dados que são: negócios, estatística e python.
Conceitualmente, Ciência de Dados é uma área multidisciplinar que busca analisar
o negócio usando tecnologia e estatística. Hoje em dia temos uma abundância de
dados e podemos usar esses dados para encontrar padrões que estavam
desconhecidos e, com esses padrões, fazer sugestões para o negócio e até
inferências sobre o futuro. Ciência de Dados está presente desde a autorização da
sua transação do cartão de crédito na padaria até se o banco vai aprovar seu
empréstimo para comprar uma casa.
01
PROGRAMA: CIÊNCIA DE
DADOS IMPRESSIONADOR
A formação Ciências de Dados Impressionadora possui atualmente 56 horas
gravadas, com diversos conteúdos planejados. Focamos o curso em módulos
totalmente direcionados a situações onde você já vai conseguir aplicar de forma
prática desde o início do curso.
No Impressionador, temos uma equipe de experts focada no suporte, portanto
conseguimos tirar dúvidas além do conteúdo, incluindo coisas que você precise
fazer no seu trabalho (não é uma consultoria, então não fazemos com você, mas
conseguimos tirar dúvidas de qualquer ferramenta que você esteja construindo
sim), além de apostila completa que será disponibilizada nas próximas semanas,
exercícios extras e atualização constante.
Nas próximas páginas você pode visualizar a ementa completa do curso.
Apostila e Suporte3
Ementa e carga horária2
Proposta e Objetivo do Curso1
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
O que é Ciência de Dados?
1. O que é ciência de dados?
2. O que eu quero responder?
3. Os pilares da Ciência de Dados
02
Módulo 1
Python Básico
1. Explicando esse módulo
2. Instalando o Python no Windows
3. Problemas na Instalação - Resolvido
4. Mac, Linux e Google Colab
5. Criando seu Primeiro Programa
6. Variáveis
7. Tipos de Variáveis
8. Estrutura do if - Condições no Python
9. Elif
10. Comparadores
11. And e Or
12. Listas em Python
13. Índices em Lista, Consultando e Modificando Valores
Módulo 3
Introdução a Ciência de Dados
1. O que é ser um cientista
2. Framework para Ciência de Dados
3. Resumindo ciência de dados
4. Python como ferramenta de Data Science
5. O mercado de trabalho para um cientista de dados
Módulo 2
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 03
Módulo 3
Python Básico
14. Estrutura de Repetição For
15. For each - Percorrer cada item de uma lista
16. For e If
17. Estrutura While
18. Loop Infinito no While
19. Tuplas
20. Unpacking em Tuplas
21. Dicionários em Python
22. Pegar item Dicionário e Verificar Item Dicionário
23. Range
24. Functions no Python
25. Retornar um valor na Function
26. Argumentos e Parâmetros numa Function
27. (Opcional) Aplicação em um Exemplo de argumento
28. O que são Módulos e qual a importância
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Pandas e Numpy: As bibliotecas básicas para Ciência
de Dados
1. Comparando Pandas e Excel
2. Comparando Pandas e Excel na prática
3. A importância do NumPy
4. Propriedades de uma array
5. Trabalhando com arrays
6. Importando e visualizando uma base no Pandas
7. Entendendo os conceitos de DataFrame e Series
8. Tipos de dados, valores nulos e seleção de colunas
9. Informações estatísticas e filtros na base
10. Criando gráficos básicos no Pandas
04
Módulo 4
Projeto 1 - Analisando o engajamento do Instagram
1. Explicando o projeto
2. Importando e tratando a base com Pandas
3. Tratando valores nulos da coluna Carrossel
4. Analisando informações estatísticas e 5 melhores / 5 piores
publicações
5. O group by no pandas e a análise do engajamento
6. Analisando Tags: Separando valores de uma coluna em linhas
diferentes (split e explode)
7. Analisando Tags: Analisando o engajamento por Tags
8. Analisando Tags: Finalizando a análise da nossa base (analisando
tag, pessoas e campanhas)
Módulo 5
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Introdução à Estatística
1. Introdução a Estatística e Estatística Descritiva
2. Tabela de frequência e histograma
3. Entendendo o conceito da média
4. Mediana e sua relação com a média
5. Usando Python para entender a relação entre média e mediana
6. Média, mediana e moda
7. Entendendo de forma prática a relação entre média, mediana e
moda
05
Módulo 6
Matplotlib: Criando gráficos em Python
1. Apresentando o Matplotlib
2. Introdução ao Matplotlib
3. Usando a documentação para criar nosso primeiro gráfico (gráfico
de linha)
4. (Opcional) Entendendo a documentação do Matplotlib
5. Usando gráficos (de linha) para entender os dados (máximo,
mínimo e média mensal de curtidas)
6. Filtrando a base usando o contains (e fillna para tratar valores
vazios)
7. Criando e ajustando o visual (rotacionando o eixo x) de um gráfico
de barras
8. Usando o annotate para adicionar rótulos de dados no gráfico
9. Criando um scatter plot usando apenas a documentação
10. (Opcional) Revisando o datetime e o astype
Módulo 7
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Boas práticas para apresentação de dados
1. Introdução aos conceitos básicos de apresentação de dados
2. Reduzindo o esforço para entender sua apresentação (eixo Y
começando no zero e eixos secundários)
3. Melhorando o seu visual (Proximidade e Similaridade)
4. Melhorando o seu visual (Acercamento, Fechamento,
Continuidade e Conexão)
5. Contraste e atributos pré-atentivos
6. Visualização de dados no Python: Passo a passo para melhorar
seus visuais no matplotlib
7. Visualização de dados no Python: Ajustando o plot e colocando
barras lado a lado em um gráfico de barras
8. Visualização de dados no Python: Adicionando rótulo nos dados
(annotate)
9. Visualização de dados no Python: Retirando as bordas, ajustando
os eixos e separando realizado x projetado
10. Boas práticas de visualização no Python: Separando em dois
gráficos e alterando o tipo de gráfico
11. Boas práticas de visualização no Python: Ajustando as barras e
adicionando rótulo de dados nos gráficos de barra e de linha
12. Boas práticas de visualização no Python: Melhorando o visual do
gráfico de linhas e separando realizado x projetado
06
Módulo 8
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 07
Projeto 2 - Criando uma apresentação executiva
1. Apresentando o projeto
2. Importando e analisando a base
3. Tratando valores vazios
4. Usando o datetime para tratar datas
5. Criando um gráfico de barras no matplotlib
6. Adicionando título no gráfico e ajustando o eixo x
7. Adicionando e formatando rótulo de dados, ajustando o eixo y e
retirando bordas
8. Vendas por mês e transformando índices em colunas com o
reset_index
9. Entendendo o deslocamento das barras em um gráfico de barras
horizontais
10. Adicionando todos os anos no gráfico de barras e colocando
rótulo nos dados
11. Mudando os rótulos do eixo x e finalizando o visual da venda por
mês
12. Respondendo qual foi a categoria mais vendida
13. Criando um gráfico de barras horizontais para o top N itens
14. Usando o merge para unir 2 bases no pandas
15. Usando o merge para criar a relação de top N itens pelos anos
16. Criando o gráfico de barras horizontais do top N itens pelos anos
17. Concluindo o projeto e respondendo as informações do negócio
18. Apresentando as informações em um PowerPoint
Módulo 9
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Introduçãoao Aprendizado de Máquinas
1. O que é Aprendizado de Máquinas (Machine Learning)?
2. O aprendizado de máquinas no Instagram
3. Explicando o Aprendizado de Máquinas
4. Caso Real: Uso do Aprendizado de Máquinas pelo Walmart
5. Como funciona um modelo de Aprendizado de Máquinas?
6. O erro no processo de aprendizado
7. O Aprendizado de Máquinas no Python
8. Regressão Linear no Scikit-Learn: importanto, tratando e
entendendo os dados
9. Usando Regressão Linear do Scikit-Learn para calcular a Venda
utilizando apenas o Preço
10. Calculando a regressão linear com Scikit-Learn utilizando Preço
Original e Desconto
11. Usando o sklearn.metrics para calcular os erros de cada um dos
modelos
12. A descrição estatística do Pandas
13. A variância e o desvio padrão (medidas de dispersão)
14. Separatrizes: entendendo os quartis
08
Módulo 10
Como as máquinas aprendem?
1. Os tipos de aprendizado de máquinas: aprendizado
supervisionado e não supervisionado
2. Os tipos de aprendizado de máquinas: aprendizado semi
supervisionado e por reforço
3. A diferença entre aprender e decorar
4. Considerações importantes para o Aprendizado de Máquinas
Módulo 11
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Projeto 3 - Criando um modelo de classificação
1. Entendendo e importando o dataset iris do scikit-learn
2. Tratando os dados do dataset e transformando em um
DataFrame do pandas
3. Escolhendo visualmente quais colunas da base iremos usar no
modelo
4. Criando uma reta capaz de separar os dados do modelo
5. Classificando um novo ponto usando o modelo visual que
acabamos de criar
6. Criando uma função em Python para classificar um novo ponto
no modelo
7. Entendendo o Perceptron e usando esse algoritmo nos nossos
dados
8. Usando o Perceptron para criar um modelo de aprendizado de
máquinas
09
Módulo 12
Utilizando o Aprendizado de Máquinas
1. Revisando a imporação da base usando o pandas
2. Revisando a visualização do scatter plot com o matplotlib
3. Criando uma reta capaz de separar os dados em 2 classes
diferentes
4. (Opcional) Entendendo a reta criada para classificar os pontos
5. Criando uma função que classfica os dados usando a reta gerada
pelo scatter plot
6. Avaliando um modelo de classificação
7. A matriz de confusão para um modelo de classificação
8. Acurácia, precisão e recall em um modelo de classificação
9. Gerando a matriz de confusão no Scikit-Learn (avaliando modelos
de classificação)
10. Calculando acurácia, precisão e recall no Scikit-Learn (avaliando
modelos de classificação)
11. Avaliando os dados de TREINO do modelo que criamos
Módulo 13
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 10
Utilizando o Aprendizado de Máquinas
12. Avaliando os dados de TESTE do modelo que criamos
13. Usando o train_test_split do Scikit-Learn para separar os dados
em treino e teste
14. Usando o train_test_split e avaliando o modelo criado
15. Explicando o que é uma Árvore de Decisão
16. Entendendo a classificação dos dados utilizando a Árvore de
Decisão
17. Importando e tratando os dados do projeto 3 (iris) para
aplicarmos diferentes modelos de classificação
18. Separando em treino e teste e analisando os dados de TREINO
19. Traçando uma reta capaz de separar os dados de TREINO
20. Criando uma árvore de decisão capaz de separar os dados de
TREINO
21. Avaliando os dados de TESTE para os dois modelos criados
Módulo 13
Análise Exploratória de Dados
1. Explicando a Análise Exploratória e a base que vamos usar
(dataset do Titanic)
2. Importando e entendendo a base do Titanic
3. Analisando as informações da base e o resumo estatístico
4. Entendendo a cardinalidade de uma base
5. Visualizando os dados de forma gráfica
6. Gerando um boxplot usando o matplotlib
7. Interpretando o boxplot
8. Outras opções de gráficos
9. Correlação entre as variáveis e o KDE (Kernel Density Estimation)
10. Criando um mapa de calor da correlação entre as variáveis
11. Tratando valores vazios e outliers
12. O Pandas Profiling
13. (Opcional) Corrigindo o erro ao carregar o Pandas Profiling
14. Apresentando sua análise exploratória de forma executiva
Módulo 14
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
O Scikit-Learn
1. Apresentando a documentação do Scikit-Learn
2. Importando o dataset iris do Scikit-Learn e transformando em um
DataFrame do pandas
3. O Perceptron no Scikit-Learn
4. Entendendo o resultado gerado pelo perceptron
5. A árvore de decisão no Scikit-Learn
6. Classificação no Scikit-Learn: entendendo o dataset e criando os
classificadores
7. Classificação no Scikit-Learn: Avaliando erros de classificação
8. (Opcional) O average no precision_score
9. Classificação no Scikit-Learn: separando os dados em treino e
teste e avaliando o modelo
10. Classificação no Scikit-Learn: adicionando novos algoritmos
(Regressão Logística) e melhorando o resultado do Perceptron
11. A equação da reta
12. Entendendo a regressão linear
13. O erro na regressão linear
14. A regressão linear no Scikit-Learn
15. Regressão no Scikit-Learn: explicando o problema e importando a
base
16. Regressão no Scikit-Learn: utilizando regressão linear simples
para prever o volume de ações
17. Regressão no Scikit-Learn: utilizando regressão linear múltipla
18. Regressão no Scikit-Learn: tratando a variável de data e utilizando
no modelo
11
Módulo 15
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 12
Projeto 4 - Criando um algoritmo de regressão
1. Explicando o projeto e importando a base de casas da Califórnia
2. Visualizando os dados de maneira gráfica
3. Entendendo a base, verificando valores duplicados e tratando
outliers
4. Separando a base em treino e teste e usando Regressão Linear
Simples
5. Utilizando o for para fazer a regressão de todas as colunas da base
6. Entendendo o coeficiente de determinação (r quadrado)
7. Métricas de erro para regressão
8. Avaliando o erro na regressão com Scikit-Learn
9. Avaliando os erros do nosso modelo e escolhendo o melhor
modelo de Regressão Linear Simples
10. A Regressão Linear Múltipla
11. Utilizando o for para escolher o melhor par de variáveis na
Regressão Linear Múltipla
12. Utilizando Árvore de Regressão e Support Vector Regression nos
dados
13. Concluindo o projeto e visualizando os resultados de forma
gráfica
Módulo 16
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Conceitos básicos de SQL para Ciência de Dados
1. Apresentando o sqlite3
2. Transformando dados do SQL em um DataFrame do pandas
3. Selecionando (SELECT) dados de um banco de dados com SQL
4. Utilizando o WHERE para filtrar a nossa tabela
5. (Opcional) Revisando o SELECT utilizando o sqlite3
6. (Opcional) Revisando o SELECT DISTINCT e o WHERE (AND, OR e
NOT)
7. Utilizando o GROUP BY e o ORDER BY no SQL
8. Limitando a base com o TOP / LIMIT e usando o HAVING para
filtrar a tabela
9. Definindo condicionais no SQL com o CASE
10. Utilizando subquery no SQL
11. Outros filtros no SQL (IN e LIKE)
12. Bases de dados com mais de 1 tabela
13. Revisando o merge do pandas
14. Unindo duas bases no SQL utilizando o JOIN
15. O UNION e o FULL JOIN no SQL
13
Módulo 17
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Técnicas de storytelling com dados: Utilizando o SQL
com dados reais de venda
1. Apresentando a base de dados que vamos utilizar nesse módulo
2. Usando a biblioteca os para buscar os arquivos da nossa base de
dados
3. Importando todas as bases de dados para o pandas
4. Analisando a base de ordens, itens e pagamentos para iniciar o
entendimento dos dados
5. Utilizando o groupby do pandas para analisar as ordens com mais
de 1 item
6. Fazendo o pivot (pivotando) da tabela para analisar diferentes
itens na mesma ordem
7. Finalizando o entendimento da base analisando pagamentos,
vendedores e review
8. (Opcional) Criando um banco de dados utilizando a
documentação do sqlite3
9. (Opcional) Criando uma tabela utilizando um DataFramedo
pandas
10. (Opcional) Inserindo dados em uma tabela utilizando o to_sql e o
INSERT
11. (Opcional) Atualizando e deletando registros em uma tabela
utilizando UPDATE e DELETE
12. Usando a biblioteca os para visualizar os arquivos que iremos
transformar em tabelas
13. Criando um banco de dados e a nossa primeira tabela
14. Adicionando todos os arquivos da pasta como tabelas no banco
de dados
15. Ajustando as colunas de datas e usando o if_exists para substituir
tabelas em uma banco
16. Criando uma função para automatizar as consultas no nosso
banco de dados
17. Apresentando o banco de dados de vendas
14
Módulo 18
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Técnicas de storytelling com dados: Utilizando o SQL
com dados reais de venda
18. Exercício: Melhorando a satisfação do cliente
19. Criando uma história com seus dados
20. Dicas para uma boa apresentação de dados
21. A estrutura de uma história
22. Resolução - O problema realmente existe? Conectando ao banco
e começando a analisar a tabela de pedidos
23. Resolução - Tratando as colunas de data que estão como texto
(usando o to_datetime do pandas)
24. Resolução - Calculando o atraso na entrega e verificando a média
de atraso utilizando o datetime
25. Resolução - Utilizando o to_period para calcular a média do atraso
em cada um dos meses
26. Resolução - Analisando o máximo e mínimo do atraso e
visualizando graficamente utilizando o matplotlib
27. Resolução - Criando uma função para contar o número de
pedidos atrasados (usando apply e lambda function)
28. (Opcional) Formatando o gráfico de pedidos atrasados no
matplotlib
29. Resolução - Relação da avaliação com o atraso (Analisando a
tabela de avaliações e a tabela de pedidos)
30. Resolução - Entendendo a relação entre a tabela de pedidos e a
de avaliações (pedidos sem avaliação e pedidos com mais de
uma avaliação)
31. Resolução - Avaliando a média e o máximo das notas para
pedidos com mais de uma avaliação
32. Resolução - Finalizando o tratamento da base e analisando o
impacto de utilizar o máximo ao invés da média das notas para
pedidos com mais de uma avaliação
33. Resolução - Entendendo a relação entre o atraso e a avaliação dos
clientes
15
Módulo 18
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Técnicas de storytelling com dados: Utilizando o SQL
com dados reais de venda
34. Resolução - Calculando a média da avaliação por cada período de
atraso e apresentando graficamente essa informação
35. (Opcional) Formatando o gráfico de atraso no pedido x avaliação
36. Resolução - Avaliando os comentários de pedidos atrasados
37. Resolução - Usando o wordcloud para verificar as palavras mais
frequentes nas reclamações
38. Resolução - Melhorando a núvem de palavras (wordcloud) e
criando uma núvem de frases
39. Criando uma história com os dados gerados na nossa análise
16
Módulo 18
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Projeto 5 - Criando um modelo de identificação de
fraude
1. Mostrando a base desse módulo e apresentando o Kaggle e a sua
importância para nossos projetos de ciência de dados
2. Entendendo a base de transações e analisando a relação entre
fraude e não fraude
3. Criando um modelo de classificação de fraude usando a base
desbalanceada e analisando a acurácia, precisão e recall desse
modelo
4. Apresentando o imbalanced-learn e utilizando o undersampling
e o oversampling para os nossos dados de crédito
5. (Opcional) Importando e visualizando a base de transações
6. Revisando o undersampling e o oversampling do imbalanced-
learn e visualizando de forma gráfica as novas bases geradas
7. Explicando o RandomUnderSampler do imblearn
8. Apresentando de forma visual o funcionamento do
RandomUnderSampling
9. Utilizando o ClusterCentroids e o NearMiss para realizar o
undersampling
10. Explicando o RandomOverSampler do imblearn
11. Usando o shrinkage do RandomOverSampler e visualizando
graficamente os novos dados
12. Utilizando SMOTE e ADASYM para realizar o oversampling
13. Realizando o undersampling com o RandomUnderSampler na
base de transações e analisando a acurácia e o recall
14. Fazendo o oversampling com o RandomOverSampler para essa
mesma base e comparando os resultados
15. Utilizando o ClusterCentroids e o NearMiss para o undersampling
para o modelo de classificação de fraude
16. Utilizando SMOTE e ADASYM para o oversampling e testando
combinar os métodos para o modelo de classificação de fraude
17
Módulo 19
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
Subindo seu modelo para produção (Deploy)
1. Criando um modelo de Regressão Linear passo a passo
2. Persistindo o modelo (usando o dump e load do joblib)
3. (Opcional) Utilizando o modelo nos mesmos dados para provar
que temos exatamente o mesmo modelo
4. Utilizando o modelo criado em dados de produção
5. Colocando nosso modelo em produção utilizando um arquivo do
Jupyter Notebook
6. Utilizando um arquivo .py para colocar o modelo em produção
7. Criando um executável para realizar a previsão utilizando o
modelo criado
8. Apresentando o Streamlit para criarmos uma tela para o usuário
acessar o modelo
9. Criando campos de entrada para os valores numéricos de preço e
desconto e o botão de "PREVER"“
10. Criando uma tela para o usuário utilizar o nosso modelo com o
Streamlit
11. (Opcional) Explicando o predict
18
Módulo 20
Ajustando os dados para o modelo (Data Cleaning)
1. Explicando a importância da limpeza dos dados e importando a
base
2. Buscando na base por valores nulos e linhas duplicadas
3. Procurando na base alguns problemas que podem ter sido
gerados por erros humanos
4. Tratando valores vazios e linhas duplicadas
Módulo 21
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 19
Ajustando os dados para o modelo (Data Cleaning)
5. Tratando valores digitados errados (erros humanos)
6. Limpeza de Dados – Exercício
7. Entendendo a base e respondendo as perguntas sem fazer o
tratamento dos dados
8. Contando a quantidade de alunos que responderam o questionário
9. Eliminando valores duplicados e discutindo sobre o tratamento do
ID_aluno
10. Somando a matrícula dos alunos que responderam (visualizando e
tratando outliers)
11. Verificando o tamanho da blusa para todos os alunos
12. Descobrindo quantos alunos vão participar da formatura
13. Estimando a altura de um aluno usando média e mediana dos dados
14. Aprofundando no tratamento de dados: Entendendo a base de notas
de português
15. Usando o drop_duplicates para retirar valores duplicados da base
16. Analisando o describe e o boxplot e tratando outliers nos dados
17. Criando a função para transformar as notas dadas em conceitos
(textos) em números de 1 a 10
18. Otimizando a função criada, unindo duas bases e calculando a média
final dos alunos
19. Apresentando a base de cadastro dos alunos e tratando e-mails
escritos errados
20. Tratando a data e ajustando as colunas de texto no cadastro dos
alunos
21. Exercício: limpeza dos dados no dataset do titanic
22. Tratando as informações de embarque vazias e usando a mediana
para as idades
23. Analisando a média das idades pela classe, gênero e pelo título
extraído do nome
24. Usando o transform para substituir as idades vazias pelo resultado do
groupby e eliminando colunas desnecessárias
25. Analisando outliers, cardinalidade e eliminando colunas
desnecessárias
Módulo 21
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Outros modelos supervisionados
1. Relembrando o Perceptron e importando o dataset íris
2. Criando um modelo utilizando o perceptron
3. Utilizando o coef_ e o intercept_ para traçar a reta gerada pelo
perceptron
4. Explicando o Perceptron para mais de 2 classes e para dados que
não são linearmente separáveis
5. Relembrando a árvore de decisão e aprofundando teoricamente
6. Importando novamente o dataset iris e criando um modeloutilizando a árvore de classificação
7. Visualizando graficamente como funciona uma árvore de decisão
8. Fazendo a previsão utilizando o predict e as regiões gráficas que
criamos
9. Utilizando todo o dataset iris para criar nossa árvore de decisão
10. Explicando o índice gini e a entropia utilizados no "criterion“
11. (Opcional) Visualizando graficamente o índice gini e a entropia
12. O tamanho da árvore: utilizando o max_depth para melhorar a
acurácia do modelo
13. Relembrando a regressão linear
14. Visualizando graficamente a vantagem da regressão linear ao
criar a melhor reta (menor erro quadrático)
15. Utilizando a regressão linear de forma prática no dataset de casas
da Califórnia
16. Apresentando os conceitos do K-Nearest Neighbors (KNN)
17. Utilizando o KNN e entendendo o cálculo da distância entre os
pontos (euclidiana e manhattan)
Módulo 22
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Outros modelos supervisionados
18. Calculando manualmente as distâncias euclidiana e manhattan
do ponto central
19. Utilizando o kneighbors para visualizar os pontos mais próximos e
mudando a ordem dos dados para avaliar a previsão
20. 20. Utilizando o KNN com um dataset real (dataset iris) e
avaliando a previsão desse algoritmo
21. Entendendo visualmente a previsão feita para o dataset iris
22. Apresentando a Regressão Logística e importando o dataset iris
23. Utilizando a regressão logística e visualizando graficamente o
gráfico gerado
24. Entendendo o predict_proba (prevendo a probabilidade de cada
uma das classes)
25. Utilizando a regressão logística para um problema com 3 classes
26. Utilizando todo o dataset iris para criar a regressão logística
27. Apresentando o Support Vector Machine (SVM)
28. Importando novamente o dataset iris (passo a passo)
29. Utilizando o SVM (SCV) e visualizando graficamente o resultado
em dados linearmente separáveis
30. Explicando o hiperparâmetro C e as margens rígidas e flexíveis do
SVM
31. Utilizando o SVM para dados que não são linearmente separáveis
e analisando o dataset iris completo
Módulo 22
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Aprendizado Não Supervisionado
1. Revisando os tipos de aprendizado e relembrando o aprendizado
não supervisionado
2. Apresentando os principais conceitos da aprendizagem não
supervisionada
3. Explicando o K-means para clusterização / agrupamento dos
dados
4. Detalhando o K-means e explicando o hiperparâmetro init e o
Elbow Method (método do cotovelo)
5. Importando o dataset iris e utilizando o K-means para criar 2
clusters nesses dados
6. Entendendo matematicamente a classificação dos pontos em
cada um dos clusters / grupos
7. Entendendo a distância euclidiana
8. Visualizando os clusters / grupos para diferentes valores de K e
utilizando o Elbow Method (Método do Cotovelo) para a escolha
de K
9. Comparando os clusters gerados com as classes do dataset iris
para valores de k próximos ao número de classes
10. Exercício: utilizando o K-Means para agrupar os valores do
dataset load_digits
11. Entendendo a base e utilizando a documentação para importar o
K-Means
12. Utilizando o Elbow Method (método do cotovelo) para escolher
um valor de K para iniciarmos nossa análise
13. Utilizando K = 9 e transformando os números do label em letras
para analisarmos os grupos
14. Visualizando a tabela relacionando os rótulos (targets) reais dos
dados com os grupos gerados pelo K-Means
15. Entendendo os dígitos classificados errados e discutindo como
essa avaliação poderia ser feito sem os rótulos (targets) dos dados
Módulo 23
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Aprendizado Não Supervisionado
16. Usando os grupos para classificar os dados e avaliando os erros
dessa classificação
17. Testando diferentes valores de k e buscando a melhor
clusterização para os dados
18. Métricas de avaliação no aprendizado não supervisionado
19. Clusterizando o dataset iris e analisando a relação entre target
(rótulo) e os labels do kmeans
20. Utilizando a classe mais frequente no cluster para fazer a previsão
dos dados (criando um y_pred como na classiifação)
21. Avaliando a clusterização utilizando as métricas de classificação
(matriz de confusão, acurácia, precisão e recall)
22. Explicando a base teórica do Rand Index e usando essa métrica
para avaliar a clusterização
23. Apresentando o ajuste do Rand Index (Adjusted Rand Index) e
comparando as duas métricas
24. Utilizando o Rand Index (e o índice ajustado) no dataset iris e
avaliando diferentes valores de k
25. Apresentando a médida V (V Measure), a homogeneidade e a
completude
26. Usando a medida V, homogeneidade e completude para avaliar o
dataset iris
27. Revisando a inércia e apresentando os conceitos do "Coeficiente
Silhueta" (silhouette_score)
28. Apresentando matematicamente o cálculo do coeficiente
silhueta para um ponto de dado (silhouette_samples)
29. Calculando o silhouette_score para os dados e entendendo os
principais conceitos dessa métrica
30. Criando um plot para visualiar o silhoutte_score, o
silhoutte_simples e os clusters dos dados
Módulo 23
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Aprendizado Não Supervisionado
31. Criando uma visualização considerando o silhoutte_score e os
clusters dos dados para o dataset iris
32. Apresentando o PCA (Principal Component Analysis)
33. Passo a passo para a definição dos componentes principais do
PCA
34. Utilizando o PCA nos dados e entendendo os principais
parâmetros e atributos da documentação
35. Reduzindo o dataset de 3 dimensões para 2 utilizando o PCA e
utilizando o PCA no dataset iris
36. A ciência além dos dados: ética em Data Science
37. Livro: Algoritmos de destruição em massa (exemplos práticos)
38. Cuidados importantes para garantirmos a ética em nossos
projetos de Data Science
Módulo 23
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Feature Engineering
1. O que é Feature Engineering?
2. Utilizando lambda function para transformar uma coluna de
texto em uma nova coluna de valores 1 ou 0
3. O OneHotEncoder para tratamento de colunas com texto
4. Unindo nosso dataset com os dados gerados pelo
OneHotEncoder e fazendo o Encoding para todas as colunas de
texto
5. Fazendo o One Hot Encoding utilizando o get_dummies do
pandas
6. Utilizando o max_categories e o min_frequency do
OneHotEncoder para limitar o número de colunas geradas
7. Alertando sobre o cuidado ao usar o get_dummies quando a
coluna pode receber diferentes valores em produção
8. Utilizando o handle_unknown do OneHotEncoder para tratar
categorias desconhecidas nos dados de produção
9. Apresentando o OrdinalEncoder para colunas com texto que
possuem relação entre os rótulos
10. Definindo a ordem das categorias e tratando valores
desconhecidos (categories, handle_unknown e unknown_value
no OrdinalEncoder)
11. Escolhendo o tipo de dado (dtype) no OrdinalEncoder e fazendo
o encoding para mais de uma coluna
12. Tratando features com diferença de escala (padronização e
normalização)
13. Utilizando a padronização (escala padrão) na coluna Age do
dataset Titanic
14. Utilizando a normalização com o MinMaxScaler nessa mesma
coluna
Módulo 24
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Feature Engineering
15. Apresentando o MaxAbsScaler para dados esparsos (dispersos) e
o RobustScaler para dados com outliers
16. Apresentando visualmente a diferenç entre a escala padrão, o
MinMax, o MaxAbs e o RobustScaler
17. Realizando o cálculo matemático passo a passo de cada uma das
transformações vistas até agora (Standard, MinMax, MaxAbs e
Robust)
18. Fazendo a padronização e normalização dos dados da coluna
Fare
19. Visualizando o histograma de cada transformação e comparando
entre eles
20. Utilizando o Normalizer para fazer a normalização das linhas de
um dataset
21.Transformando valores contínuos em atributos discretos com a
Discretização
22. Dividindo o intervalo em grupos com o mesmo comprimento
utilizando o KBinsDiscretizer com "strategy=uniform"
23. Utilizando o quantile do KBinsDiscretizer para gerar "grupos"
com uma quantidade próxima de dados
24. Binarizando os dados utilizando um limite através do Binarizer
Módulo 24
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
R Básico
1. Primeiros passos em R: Apresentando e instalando o R e o
RStudio
2. Visão geral do RStudio (entendendo a IDE) e importando /
salvando arquivos
3. Escrevendo comentários e imprimindo valores na tela (print)
4. Criando variáveis em R
5. Operações matemáticas básicas em R
6. Operações lógicas e de comparação em R
7. [Em breve - E muito mais!]
Módulo 25
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20
Criando seu portifólio
1. Criando seu portfólio e datasets (bases de dados) para seus
primeiros passos
2. Utilizando datasets mais simples para criar seu portfólio
3. Datasets mais complexos (e completos) para o seu portfólio
4. Começando o seu portfólio e criando o seu LinkedIn
5. Tornando o seu perfil do LinkedIn relevante para recrutadores
6. Criando um LinkedIn do zero
7. Criando seu perfil do GitHub (e o arquivo README)
8. Criando um GitHub do zero
9. Introdução ao markdown e HTML (para seu README do GitHub)
10. Cabeçalhos, imagens e links no HTML
11. Divisões, comentários, enter e espaço no HTML
12. Conceitos importantes de markdown para o seu README do
GitHub
13. Começando a criar seu README do GitHub (título, descrição,
ícones, links e textos em destaque)
14. Adicionando ícones, redes sociais e artigos / conteúdos no seu
README do GitHub
15. Criando seus artigos no Medium / LinkedIn
16. Criando seus artigos do zero
17. O que é SEO e utilizando o Google Trends para escolher o melhor
título para o seu artigo
18. Otimizando cabeçalhos, URLs e links para o SEO
19. Palavras-chave (pesquisa Google / Google Trends) e imagens
para o SEO
20. Aplicando os conceitos do SEO de forma prática
Módulo 26
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS
• Módulo 27 - ‘Projeto 6 - Criando um modelo ponta a ponta para
seu portfólio’ (Previsão 31/Abr)
• Módulo 28 - ‘Criando um projeto de Aprendizado de Máquinas
em R’ (Previsão 31/Mai)
• Módulo 29 - Seleção do modelo (Previsão 30/Jun)
• Módulo 30 - Projeto 7 - Utilizando o aprendizado não
supervisionado para clusterização (Previsão 14/Jul)
• Módulo 31 - Redes Neurais (Previsão 18/Ago)
• Módulo 32 - Deep Learning (Previsão 15/Set)
• Módulo 33 - Projeto 8 - Aplicando Redes Neurais e Deep Learning
(Previsão 29/Set)
• Módulo 34 - Reconhecimento de Imagem (Previsão 31/Out)
• Módulo 35 - Projeto 9 - Utilizando Deep Learning para
Reconhecimento de Imagem (Previsão 17/Nov)
21
Módulos em Planejamento
A formação Ciência de Dados Impressionadora contará ainda com
uma série de módulos adicionais além dos 19 módulos e 5 projetos
descritos anteriormente. Abaixo, listamos alguns desses módulos que
serão incluídos no curso.
Obs: importante destacar que as datas informadas são uma previsão,
podendo sofrer alterações.
Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30