Prévia do material em texto
CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Esse será uma formação em Ciência de Dados. Usamos o conceito de formação pois vamos te ensinar todos os conteúdos necessários para que você consiga seguir a carreira de cientista de dados ou simplesmente utilizar os conhecimentos de ciência de dados para melhorar qualquer processo na sua empresa, o que vai te ajudar a se destacar na sua carreira. Isso inclui desde técnicas de alinhamento com o negócio até conceitos estatísticos importantes. Toda a formação se baseia nos 3 principais pilares de ciência de dados que são: negócios, estatística e python. Conceitualmente, Ciência de Dados é uma área multidisciplinar que busca analisar o negócio usando tecnologia e estatística. Hoje em dia temos uma abundância de dados e podemos usar esses dados para encontrar padrões que estavam desconhecidos e, com esses padrões, fazer sugestões para o negócio e até inferências sobre o futuro. Ciência de Dados está presente desde a autorização da sua transação do cartão de crédito na padaria até se o banco vai aprovar seu empréstimo para comprar uma casa. 01 PROGRAMA: CIÊNCIA DE DADOS IMPRESSIONADOR A formação Ciências de Dados Impressionadora possui atualmente 56 horas gravadas, com diversos conteúdos planejados. Focamos o curso em módulos totalmente direcionados a situações onde você já vai conseguir aplicar de forma prática desde o início do curso. No Impressionador, temos uma equipe de experts focada no suporte, portanto conseguimos tirar dúvidas além do conteúdo, incluindo coisas que você precise fazer no seu trabalho (não é uma consultoria, então não fazemos com você, mas conseguimos tirar dúvidas de qualquer ferramenta que você esteja construindo sim), além de apostila completa que será disponibilizada nas próximas semanas, exercícios extras e atualização constante. Nas próximas páginas você pode visualizar a ementa completa do curso. Apostila e Suporte3 Ementa e carga horária2 Proposta e Objetivo do Curso1 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS O que é Ciência de Dados? 1. O que é ciência de dados? 2. O que eu quero responder? 3. Os pilares da Ciência de Dados 02 Módulo 1 Python Básico 1. Explicando esse módulo 2. Instalando o Python no Windows 3. Problemas na Instalação - Resolvido 4. Mac, Linux e Google Colab 5. Criando seu Primeiro Programa 6. Variáveis 7. Tipos de Variáveis 8. Estrutura do if - Condições no Python 9. Elif 10. Comparadores 11. And e Or 12. Listas em Python 13. Índices em Lista, Consultando e Modificando Valores Módulo 3 Introdução a Ciência de Dados 1. O que é ser um cientista 2. Framework para Ciência de Dados 3. Resumindo ciência de dados 4. Python como ferramenta de Data Science 5. O mercado de trabalho para um cientista de dados Módulo 2 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 03 Módulo 3 Python Básico 14. Estrutura de Repetição For 15. For each - Percorrer cada item de uma lista 16. For e If 17. Estrutura While 18. Loop Infinito no While 19. Tuplas 20. Unpacking em Tuplas 21. Dicionários em Python 22. Pegar item Dicionário e Verificar Item Dicionário 23. Range 24. Functions no Python 25. Retornar um valor na Function 26. Argumentos e Parâmetros numa Function 27. (Opcional) Aplicação em um Exemplo de argumento 28. O que são Módulos e qual a importância CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Pandas e Numpy: As bibliotecas básicas para Ciência de Dados 1. Comparando Pandas e Excel 2. Comparando Pandas e Excel na prática 3. A importância do NumPy 4. Propriedades de uma array 5. Trabalhando com arrays 6. Importando e visualizando uma base no Pandas 7. Entendendo os conceitos de DataFrame e Series 8. Tipos de dados, valores nulos e seleção de colunas 9. Informações estatísticas e filtros na base 10. Criando gráficos básicos no Pandas 04 Módulo 4 Projeto 1 - Analisando o engajamento do Instagram 1. Explicando o projeto 2. Importando e tratando a base com Pandas 3. Tratando valores nulos da coluna Carrossel 4. Analisando informações estatísticas e 5 melhores / 5 piores publicações 5. O group by no pandas e a análise do engajamento 6. Analisando Tags: Separando valores de uma coluna em linhas diferentes (split e explode) 7. Analisando Tags: Analisando o engajamento por Tags 8. Analisando Tags: Finalizando a análise da nossa base (analisando tag, pessoas e campanhas) Módulo 5 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Introdução à Estatística 1. Introdução a Estatística e Estatística Descritiva 2. Tabela de frequência e histograma 3. Entendendo o conceito da média 4. Mediana e sua relação com a média 5. Usando Python para entender a relação entre média e mediana 6. Média, mediana e moda 7. Entendendo de forma prática a relação entre média, mediana e moda 05 Módulo 6 Matplotlib: Criando gráficos em Python 1. Apresentando o Matplotlib 2. Introdução ao Matplotlib 3. Usando a documentação para criar nosso primeiro gráfico (gráfico de linha) 4. (Opcional) Entendendo a documentação do Matplotlib 5. Usando gráficos (de linha) para entender os dados (máximo, mínimo e média mensal de curtidas) 6. Filtrando a base usando o contains (e fillna para tratar valores vazios) 7. Criando e ajustando o visual (rotacionando o eixo x) de um gráfico de barras 8. Usando o annotate para adicionar rótulos de dados no gráfico 9. Criando um scatter plot usando apenas a documentação 10. (Opcional) Revisando o datetime e o astype Módulo 7 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Boas práticas para apresentação de dados 1. Introdução aos conceitos básicos de apresentação de dados 2. Reduzindo o esforço para entender sua apresentação (eixo Y começando no zero e eixos secundários) 3. Melhorando o seu visual (Proximidade e Similaridade) 4. Melhorando o seu visual (Acercamento, Fechamento, Continuidade e Conexão) 5. Contraste e atributos pré-atentivos 6. Visualização de dados no Python: Passo a passo para melhorar seus visuais no matplotlib 7. Visualização de dados no Python: Ajustando o plot e colocando barras lado a lado em um gráfico de barras 8. Visualização de dados no Python: Adicionando rótulo nos dados (annotate) 9. Visualização de dados no Python: Retirando as bordas, ajustando os eixos e separando realizado x projetado 10. Boas práticas de visualização no Python: Separando em dois gráficos e alterando o tipo de gráfico 11. Boas práticas de visualização no Python: Ajustando as barras e adicionando rótulo de dados nos gráficos de barra e de linha 12. Boas práticas de visualização no Python: Melhorando o visual do gráfico de linhas e separando realizado x projetado 06 Módulo 8 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 07 Projeto 2 - Criando uma apresentação executiva 1. Apresentando o projeto 2. Importando e analisando a base 3. Tratando valores vazios 4. Usando o datetime para tratar datas 5. Criando um gráfico de barras no matplotlib 6. Adicionando título no gráfico e ajustando o eixo x 7. Adicionando e formatando rótulo de dados, ajustando o eixo y e retirando bordas 8. Vendas por mês e transformando índices em colunas com o reset_index 9. Entendendo o deslocamento das barras em um gráfico de barras horizontais 10. Adicionando todos os anos no gráfico de barras e colocando rótulo nos dados 11. Mudando os rótulos do eixo x e finalizando o visual da venda por mês 12. Respondendo qual foi a categoria mais vendida 13. Criando um gráfico de barras horizontais para o top N itens 14. Usando o merge para unir 2 bases no pandas 15. Usando o merge para criar a relação de top N itens pelos anos 16. Criando o gráfico de barras horizontais do top N itens pelos anos 17. Concluindo o projeto e respondendo as informações do negócio 18. Apresentando as informações em um PowerPoint Módulo 9 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Introduçãoao Aprendizado de Máquinas 1. O que é Aprendizado de Máquinas (Machine Learning)? 2. O aprendizado de máquinas no Instagram 3. Explicando o Aprendizado de Máquinas 4. Caso Real: Uso do Aprendizado de Máquinas pelo Walmart 5. Como funciona um modelo de Aprendizado de Máquinas? 6. O erro no processo de aprendizado 7. O Aprendizado de Máquinas no Python 8. Regressão Linear no Scikit-Learn: importanto, tratando e entendendo os dados 9. Usando Regressão Linear do Scikit-Learn para calcular a Venda utilizando apenas o Preço 10. Calculando a regressão linear com Scikit-Learn utilizando Preço Original e Desconto 11. Usando o sklearn.metrics para calcular os erros de cada um dos modelos 12. A descrição estatística do Pandas 13. A variância e o desvio padrão (medidas de dispersão) 14. Separatrizes: entendendo os quartis 08 Módulo 10 Como as máquinas aprendem? 1. Os tipos de aprendizado de máquinas: aprendizado supervisionado e não supervisionado 2. Os tipos de aprendizado de máquinas: aprendizado semi supervisionado e por reforço 3. A diferença entre aprender e decorar 4. Considerações importantes para o Aprendizado de Máquinas Módulo 11 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Projeto 3 - Criando um modelo de classificação 1. Entendendo e importando o dataset iris do scikit-learn 2. Tratando os dados do dataset e transformando em um DataFrame do pandas 3. Escolhendo visualmente quais colunas da base iremos usar no modelo 4. Criando uma reta capaz de separar os dados do modelo 5. Classificando um novo ponto usando o modelo visual que acabamos de criar 6. Criando uma função em Python para classificar um novo ponto no modelo 7. Entendendo o Perceptron e usando esse algoritmo nos nossos dados 8. Usando o Perceptron para criar um modelo de aprendizado de máquinas 09 Módulo 12 Utilizando o Aprendizado de Máquinas 1. Revisando a imporação da base usando o pandas 2. Revisando a visualização do scatter plot com o matplotlib 3. Criando uma reta capaz de separar os dados em 2 classes diferentes 4. (Opcional) Entendendo a reta criada para classificar os pontos 5. Criando uma função que classfica os dados usando a reta gerada pelo scatter plot 6. Avaliando um modelo de classificação 7. A matriz de confusão para um modelo de classificação 8. Acurácia, precisão e recall em um modelo de classificação 9. Gerando a matriz de confusão no Scikit-Learn (avaliando modelos de classificação) 10. Calculando acurácia, precisão e recall no Scikit-Learn (avaliando modelos de classificação) 11. Avaliando os dados de TREINO do modelo que criamos Módulo 13 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 10 Utilizando o Aprendizado de Máquinas 12. Avaliando os dados de TESTE do modelo que criamos 13. Usando o train_test_split do Scikit-Learn para separar os dados em treino e teste 14. Usando o train_test_split e avaliando o modelo criado 15. Explicando o que é uma Árvore de Decisão 16. Entendendo a classificação dos dados utilizando a Árvore de Decisão 17. Importando e tratando os dados do projeto 3 (iris) para aplicarmos diferentes modelos de classificação 18. Separando em treino e teste e analisando os dados de TREINO 19. Traçando uma reta capaz de separar os dados de TREINO 20. Criando uma árvore de decisão capaz de separar os dados de TREINO 21. Avaliando os dados de TESTE para os dois modelos criados Módulo 13 Análise Exploratória de Dados 1. Explicando a Análise Exploratória e a base que vamos usar (dataset do Titanic) 2. Importando e entendendo a base do Titanic 3. Analisando as informações da base e o resumo estatístico 4. Entendendo a cardinalidade de uma base 5. Visualizando os dados de forma gráfica 6. Gerando um boxplot usando o matplotlib 7. Interpretando o boxplot 8. Outras opções de gráficos 9. Correlação entre as variáveis e o KDE (Kernel Density Estimation) 10. Criando um mapa de calor da correlação entre as variáveis 11. Tratando valores vazios e outliers 12. O Pandas Profiling 13. (Opcional) Corrigindo o erro ao carregar o Pandas Profiling 14. Apresentando sua análise exploratória de forma executiva Módulo 14 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS O Scikit-Learn 1. Apresentando a documentação do Scikit-Learn 2. Importando o dataset iris do Scikit-Learn e transformando em um DataFrame do pandas 3. O Perceptron no Scikit-Learn 4. Entendendo o resultado gerado pelo perceptron 5. A árvore de decisão no Scikit-Learn 6. Classificação no Scikit-Learn: entendendo o dataset e criando os classificadores 7. Classificação no Scikit-Learn: Avaliando erros de classificação 8. (Opcional) O average no precision_score 9. Classificação no Scikit-Learn: separando os dados em treino e teste e avaliando o modelo 10. Classificação no Scikit-Learn: adicionando novos algoritmos (Regressão Logística) e melhorando o resultado do Perceptron 11. A equação da reta 12. Entendendo a regressão linear 13. O erro na regressão linear 14. A regressão linear no Scikit-Learn 15. Regressão no Scikit-Learn: explicando o problema e importando a base 16. Regressão no Scikit-Learn: utilizando regressão linear simples para prever o volume de ações 17. Regressão no Scikit-Learn: utilizando regressão linear múltipla 18. Regressão no Scikit-Learn: tratando a variável de data e utilizando no modelo 11 Módulo 15 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 12 Projeto 4 - Criando um algoritmo de regressão 1. Explicando o projeto e importando a base de casas da Califórnia 2. Visualizando os dados de maneira gráfica 3. Entendendo a base, verificando valores duplicados e tratando outliers 4. Separando a base em treino e teste e usando Regressão Linear Simples 5. Utilizando o for para fazer a regressão de todas as colunas da base 6. Entendendo o coeficiente de determinação (r quadrado) 7. Métricas de erro para regressão 8. Avaliando o erro na regressão com Scikit-Learn 9. Avaliando os erros do nosso modelo e escolhendo o melhor modelo de Regressão Linear Simples 10. A Regressão Linear Múltipla 11. Utilizando o for para escolher o melhor par de variáveis na Regressão Linear Múltipla 12. Utilizando Árvore de Regressão e Support Vector Regression nos dados 13. Concluindo o projeto e visualizando os resultados de forma gráfica Módulo 16 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Conceitos básicos de SQL para Ciência de Dados 1. Apresentando o sqlite3 2. Transformando dados do SQL em um DataFrame do pandas 3. Selecionando (SELECT) dados de um banco de dados com SQL 4. Utilizando o WHERE para filtrar a nossa tabela 5. (Opcional) Revisando o SELECT utilizando o sqlite3 6. (Opcional) Revisando o SELECT DISTINCT e o WHERE (AND, OR e NOT) 7. Utilizando o GROUP BY e o ORDER BY no SQL 8. Limitando a base com o TOP / LIMIT e usando o HAVING para filtrar a tabela 9. Definindo condicionais no SQL com o CASE 10. Utilizando subquery no SQL 11. Outros filtros no SQL (IN e LIKE) 12. Bases de dados com mais de 1 tabela 13. Revisando o merge do pandas 14. Unindo duas bases no SQL utilizando o JOIN 15. O UNION e o FULL JOIN no SQL 13 Módulo 17 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Técnicas de storytelling com dados: Utilizando o SQL com dados reais de venda 1. Apresentando a base de dados que vamos utilizar nesse módulo 2. Usando a biblioteca os para buscar os arquivos da nossa base de dados 3. Importando todas as bases de dados para o pandas 4. Analisando a base de ordens, itens e pagamentos para iniciar o entendimento dos dados 5. Utilizando o groupby do pandas para analisar as ordens com mais de 1 item 6. Fazendo o pivot (pivotando) da tabela para analisar diferentes itens na mesma ordem 7. Finalizando o entendimento da base analisando pagamentos, vendedores e review 8. (Opcional) Criando um banco de dados utilizando a documentação do sqlite3 9. (Opcional) Criando uma tabela utilizando um DataFramedo pandas 10. (Opcional) Inserindo dados em uma tabela utilizando o to_sql e o INSERT 11. (Opcional) Atualizando e deletando registros em uma tabela utilizando UPDATE e DELETE 12. Usando a biblioteca os para visualizar os arquivos que iremos transformar em tabelas 13. Criando um banco de dados e a nossa primeira tabela 14. Adicionando todos os arquivos da pasta como tabelas no banco de dados 15. Ajustando as colunas de datas e usando o if_exists para substituir tabelas em uma banco 16. Criando uma função para automatizar as consultas no nosso banco de dados 17. Apresentando o banco de dados de vendas 14 Módulo 18 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Técnicas de storytelling com dados: Utilizando o SQL com dados reais de venda 18. Exercício: Melhorando a satisfação do cliente 19. Criando uma história com seus dados 20. Dicas para uma boa apresentação de dados 21. A estrutura de uma história 22. Resolução - O problema realmente existe? Conectando ao banco e começando a analisar a tabela de pedidos 23. Resolução - Tratando as colunas de data que estão como texto (usando o to_datetime do pandas) 24. Resolução - Calculando o atraso na entrega e verificando a média de atraso utilizando o datetime 25. Resolução - Utilizando o to_period para calcular a média do atraso em cada um dos meses 26. Resolução - Analisando o máximo e mínimo do atraso e visualizando graficamente utilizando o matplotlib 27. Resolução - Criando uma função para contar o número de pedidos atrasados (usando apply e lambda function) 28. (Opcional) Formatando o gráfico de pedidos atrasados no matplotlib 29. Resolução - Relação da avaliação com o atraso (Analisando a tabela de avaliações e a tabela de pedidos) 30. Resolução - Entendendo a relação entre a tabela de pedidos e a de avaliações (pedidos sem avaliação e pedidos com mais de uma avaliação) 31. Resolução - Avaliando a média e o máximo das notas para pedidos com mais de uma avaliação 32. Resolução - Finalizando o tratamento da base e analisando o impacto de utilizar o máximo ao invés da média das notas para pedidos com mais de uma avaliação 33. Resolução - Entendendo a relação entre o atraso e a avaliação dos clientes 15 Módulo 18 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Técnicas de storytelling com dados: Utilizando o SQL com dados reais de venda 34. Resolução - Calculando a média da avaliação por cada período de atraso e apresentando graficamente essa informação 35. (Opcional) Formatando o gráfico de atraso no pedido x avaliação 36. Resolução - Avaliando os comentários de pedidos atrasados 37. Resolução - Usando o wordcloud para verificar as palavras mais frequentes nas reclamações 38. Resolução - Melhorando a núvem de palavras (wordcloud) e criando uma núvem de frases 39. Criando uma história com os dados gerados na nossa análise 16 Módulo 18 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Projeto 5 - Criando um modelo de identificação de fraude 1. Mostrando a base desse módulo e apresentando o Kaggle e a sua importância para nossos projetos de ciência de dados 2. Entendendo a base de transações e analisando a relação entre fraude e não fraude 3. Criando um modelo de classificação de fraude usando a base desbalanceada e analisando a acurácia, precisão e recall desse modelo 4. Apresentando o imbalanced-learn e utilizando o undersampling e o oversampling para os nossos dados de crédito 5. (Opcional) Importando e visualizando a base de transações 6. Revisando o undersampling e o oversampling do imbalanced- learn e visualizando de forma gráfica as novas bases geradas 7. Explicando o RandomUnderSampler do imblearn 8. Apresentando de forma visual o funcionamento do RandomUnderSampling 9. Utilizando o ClusterCentroids e o NearMiss para realizar o undersampling 10. Explicando o RandomOverSampler do imblearn 11. Usando o shrinkage do RandomOverSampler e visualizando graficamente os novos dados 12. Utilizando SMOTE e ADASYM para realizar o oversampling 13. Realizando o undersampling com o RandomUnderSampler na base de transações e analisando a acurácia e o recall 14. Fazendo o oversampling com o RandomOverSampler para essa mesma base e comparando os resultados 15. Utilizando o ClusterCentroids e o NearMiss para o undersampling para o modelo de classificação de fraude 16. Utilizando SMOTE e ADASYM para o oversampling e testando combinar os métodos para o modelo de classificação de fraude 17 Módulo 19 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS Subindo seu modelo para produção (Deploy) 1. Criando um modelo de Regressão Linear passo a passo 2. Persistindo o modelo (usando o dump e load do joblib) 3. (Opcional) Utilizando o modelo nos mesmos dados para provar que temos exatamente o mesmo modelo 4. Utilizando o modelo criado em dados de produção 5. Colocando nosso modelo em produção utilizando um arquivo do Jupyter Notebook 6. Utilizando um arquivo .py para colocar o modelo em produção 7. Criando um executável para realizar a previsão utilizando o modelo criado 8. Apresentando o Streamlit para criarmos uma tela para o usuário acessar o modelo 9. Criando campos de entrada para os valores numéricos de preço e desconto e o botão de "PREVER"“ 10. Criando uma tela para o usuário utilizar o nosso modelo com o Streamlit 11. (Opcional) Explicando o predict 18 Módulo 20 Ajustando os dados para o modelo (Data Cleaning) 1. Explicando a importância da limpeza dos dados e importando a base 2. Buscando na base por valores nulos e linhas duplicadas 3. Procurando na base alguns problemas que podem ter sido gerados por erros humanos 4. Tratando valores vazios e linhas duplicadas Módulo 21 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 19 Ajustando os dados para o modelo (Data Cleaning) 5. Tratando valores digitados errados (erros humanos) 6. Limpeza de Dados – Exercício 7. Entendendo a base e respondendo as perguntas sem fazer o tratamento dos dados 8. Contando a quantidade de alunos que responderam o questionário 9. Eliminando valores duplicados e discutindo sobre o tratamento do ID_aluno 10. Somando a matrícula dos alunos que responderam (visualizando e tratando outliers) 11. Verificando o tamanho da blusa para todos os alunos 12. Descobrindo quantos alunos vão participar da formatura 13. Estimando a altura de um aluno usando média e mediana dos dados 14. Aprofundando no tratamento de dados: Entendendo a base de notas de português 15. Usando o drop_duplicates para retirar valores duplicados da base 16. Analisando o describe e o boxplot e tratando outliers nos dados 17. Criando a função para transformar as notas dadas em conceitos (textos) em números de 1 a 10 18. Otimizando a função criada, unindo duas bases e calculando a média final dos alunos 19. Apresentando a base de cadastro dos alunos e tratando e-mails escritos errados 20. Tratando a data e ajustando as colunas de texto no cadastro dos alunos 21. Exercício: limpeza dos dados no dataset do titanic 22. Tratando as informações de embarque vazias e usando a mediana para as idades 23. Analisando a média das idades pela classe, gênero e pelo título extraído do nome 24. Usando o transform para substituir as idades vazias pelo resultado do groupby e eliminando colunas desnecessárias 25. Analisando outliers, cardinalidade e eliminando colunas desnecessárias Módulo 21 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20 Outros modelos supervisionados 1. Relembrando o Perceptron e importando o dataset íris 2. Criando um modelo utilizando o perceptron 3. Utilizando o coef_ e o intercept_ para traçar a reta gerada pelo perceptron 4. Explicando o Perceptron para mais de 2 classes e para dados que não são linearmente separáveis 5. Relembrando a árvore de decisão e aprofundando teoricamente 6. Importando novamente o dataset iris e criando um modeloutilizando a árvore de classificação 7. Visualizando graficamente como funciona uma árvore de decisão 8. Fazendo a previsão utilizando o predict e as regiões gráficas que criamos 9. Utilizando todo o dataset iris para criar nossa árvore de decisão 10. Explicando o índice gini e a entropia utilizados no "criterion“ 11. (Opcional) Visualizando graficamente o índice gini e a entropia 12. O tamanho da árvore: utilizando o max_depth para melhorar a acurácia do modelo 13. Relembrando a regressão linear 14. Visualizando graficamente a vantagem da regressão linear ao criar a melhor reta (menor erro quadrático) 15. Utilizando a regressão linear de forma prática no dataset de casas da Califórnia 16. Apresentando os conceitos do K-Nearest Neighbors (KNN) 17. Utilizando o KNN e entendendo o cálculo da distância entre os pontos (euclidiana e manhattan) Módulo 22 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20 Outros modelos supervisionados 18. Calculando manualmente as distâncias euclidiana e manhattan do ponto central 19. Utilizando o kneighbors para visualizar os pontos mais próximos e mudando a ordem dos dados para avaliar a previsão 20. 20. Utilizando o KNN com um dataset real (dataset iris) e avaliando a previsão desse algoritmo 21. Entendendo visualmente a previsão feita para o dataset iris 22. Apresentando a Regressão Logística e importando o dataset iris 23. Utilizando a regressão logística e visualizando graficamente o gráfico gerado 24. Entendendo o predict_proba (prevendo a probabilidade de cada uma das classes) 25. Utilizando a regressão logística para um problema com 3 classes 26. Utilizando todo o dataset iris para criar a regressão logística 27. Apresentando o Support Vector Machine (SVM) 28. Importando novamente o dataset iris (passo a passo) 29. Utilizando o SVM (SCV) e visualizando graficamente o resultado em dados linearmente separáveis 30. Explicando o hiperparâmetro C e as margens rígidas e flexíveis do SVM 31. Utilizando o SVM para dados que não são linearmente separáveis e analisando o dataset iris completo Módulo 22 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20 Aprendizado Não Supervisionado 1. Revisando os tipos de aprendizado e relembrando o aprendizado não supervisionado 2. Apresentando os principais conceitos da aprendizagem não supervisionada 3. Explicando o K-means para clusterização / agrupamento dos dados 4. Detalhando o K-means e explicando o hiperparâmetro init e o Elbow Method (método do cotovelo) 5. Importando o dataset iris e utilizando o K-means para criar 2 clusters nesses dados 6. Entendendo matematicamente a classificação dos pontos em cada um dos clusters / grupos 7. Entendendo a distância euclidiana 8. Visualizando os clusters / grupos para diferentes valores de K e utilizando o Elbow Method (Método do Cotovelo) para a escolha de K 9. Comparando os clusters gerados com as classes do dataset iris para valores de k próximos ao número de classes 10. Exercício: utilizando o K-Means para agrupar os valores do dataset load_digits 11. Entendendo a base e utilizando a documentação para importar o K-Means 12. Utilizando o Elbow Method (método do cotovelo) para escolher um valor de K para iniciarmos nossa análise 13. Utilizando K = 9 e transformando os números do label em letras para analisarmos os grupos 14. Visualizando a tabela relacionando os rótulos (targets) reais dos dados com os grupos gerados pelo K-Means 15. Entendendo os dígitos classificados errados e discutindo como essa avaliação poderia ser feito sem os rótulos (targets) dos dados Módulo 23 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20 Aprendizado Não Supervisionado 16. Usando os grupos para classificar os dados e avaliando os erros dessa classificação 17. Testando diferentes valores de k e buscando a melhor clusterização para os dados 18. Métricas de avaliação no aprendizado não supervisionado 19. Clusterizando o dataset iris e analisando a relação entre target (rótulo) e os labels do kmeans 20. Utilizando a classe mais frequente no cluster para fazer a previsão dos dados (criando um y_pred como na classiifação) 21. Avaliando a clusterização utilizando as métricas de classificação (matriz de confusão, acurácia, precisão e recall) 22. Explicando a base teórica do Rand Index e usando essa métrica para avaliar a clusterização 23. Apresentando o ajuste do Rand Index (Adjusted Rand Index) e comparando as duas métricas 24. Utilizando o Rand Index (e o índice ajustado) no dataset iris e avaliando diferentes valores de k 25. Apresentando a médida V (V Measure), a homogeneidade e a completude 26. Usando a medida V, homogeneidade e completude para avaliar o dataset iris 27. Revisando a inércia e apresentando os conceitos do "Coeficiente Silhueta" (silhouette_score) 28. Apresentando matematicamente o cálculo do coeficiente silhueta para um ponto de dado (silhouette_samples) 29. Calculando o silhouette_score para os dados e entendendo os principais conceitos dessa métrica 30. Criando um plot para visualiar o silhoutte_score, o silhoutte_simples e os clusters dos dados Módulo 23 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20 Aprendizado Não Supervisionado 31. Criando uma visualização considerando o silhoutte_score e os clusters dos dados para o dataset iris 32. Apresentando o PCA (Principal Component Analysis) 33. Passo a passo para a definição dos componentes principais do PCA 34. Utilizando o PCA nos dados e entendendo os principais parâmetros e atributos da documentação 35. Reduzindo o dataset de 3 dimensões para 2 utilizando o PCA e utilizando o PCA no dataset iris 36. A ciência além dos dados: ética em Data Science 37. Livro: Algoritmos de destruição em massa (exemplos práticos) 38. Cuidados importantes para garantirmos a ética em nossos projetos de Data Science Módulo 23 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20 Feature Engineering 1. O que é Feature Engineering? 2. Utilizando lambda function para transformar uma coluna de texto em uma nova coluna de valores 1 ou 0 3. O OneHotEncoder para tratamento de colunas com texto 4. Unindo nosso dataset com os dados gerados pelo OneHotEncoder e fazendo o Encoding para todas as colunas de texto 5. Fazendo o One Hot Encoding utilizando o get_dummies do pandas 6. Utilizando o max_categories e o min_frequency do OneHotEncoder para limitar o número de colunas geradas 7. Alertando sobre o cuidado ao usar o get_dummies quando a coluna pode receber diferentes valores em produção 8. Utilizando o handle_unknown do OneHotEncoder para tratar categorias desconhecidas nos dados de produção 9. Apresentando o OrdinalEncoder para colunas com texto que possuem relação entre os rótulos 10. Definindo a ordem das categorias e tratando valores desconhecidos (categories, handle_unknown e unknown_value no OrdinalEncoder) 11. Escolhendo o tipo de dado (dtype) no OrdinalEncoder e fazendo o encoding para mais de uma coluna 12. Tratando features com diferença de escala (padronização e normalização) 13. Utilizando a padronização (escala padrão) na coluna Age do dataset Titanic 14. Utilizando a normalização com o MinMaxScaler nessa mesma coluna Módulo 24 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20 Feature Engineering 15. Apresentando o MaxAbsScaler para dados esparsos (dispersos) e o RobustScaler para dados com outliers 16. Apresentando visualmente a diferenç entre a escala padrão, o MinMax, o MaxAbs e o RobustScaler 17. Realizando o cálculo matemático passo a passo de cada uma das transformações vistas até agora (Standard, MinMax, MaxAbs e Robust) 18. Fazendo a padronização e normalização dos dados da coluna Fare 19. Visualizando o histograma de cada transformação e comparando entre eles 20. Utilizando o Normalizer para fazer a normalização das linhas de um dataset 21.Transformando valores contínuos em atributos discretos com a Discretização 22. Dividindo o intervalo em grupos com o mesmo comprimento utilizando o KBinsDiscretizer com "strategy=uniform" 23. Utilizando o quantile do KBinsDiscretizer para gerar "grupos" com uma quantidade próxima de dados 24. Binarizando os dados utilizando um limite através do Binarizer Módulo 24 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20 R Básico 1. Primeiros passos em R: Apresentando e instalando o R e o RStudio 2. Visão geral do RStudio (entendendo a IDE) e importando / salvando arquivos 3. Escrevendo comentários e imprimindo valores na tela (print) 4. Criando variáveis em R 5. Operações matemáticas básicas em R 6. Operações lógicas e de comparação em R 7. [Em breve - E muito mais!] Módulo 25 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS 20 Criando seu portifólio 1. Criando seu portfólio e datasets (bases de dados) para seus primeiros passos 2. Utilizando datasets mais simples para criar seu portfólio 3. Datasets mais complexos (e completos) para o seu portfólio 4. Começando o seu portfólio e criando o seu LinkedIn 5. Tornando o seu perfil do LinkedIn relevante para recrutadores 6. Criando um LinkedIn do zero 7. Criando seu perfil do GitHub (e o arquivo README) 8. Criando um GitHub do zero 9. Introdução ao markdown e HTML (para seu README do GitHub) 10. Cabeçalhos, imagens e links no HTML 11. Divisões, comentários, enter e espaço no HTML 12. Conceitos importantes de markdown para o seu README do GitHub 13. Começando a criar seu README do GitHub (título, descrição, ícones, links e textos em destaque) 14. Adicionando ícones, redes sociais e artigos / conteúdos no seu README do GitHub 15. Criando seus artigos no Medium / LinkedIn 16. Criando seus artigos do zero 17. O que é SEO e utilizando o Google Trends para escolher o melhor título para o seu artigo 18. Otimizando cabeçalhos, URLs e links para o SEO 19. Palavras-chave (pesquisa Google / Google Trends) e imagens para o SEO 20. Aplicando os conceitos do SEO de forma prática Módulo 26 CIÊNCIA DE DADOS IMPRESSIONADOR I HASHTAG TREINAMENTOS • Módulo 27 - ‘Projeto 6 - Criando um modelo ponta a ponta para seu portfólio’ (Previsão 31/Abr) • Módulo 28 - ‘Criando um projeto de Aprendizado de Máquinas em R’ (Previsão 31/Mai) • Módulo 29 - Seleção do modelo (Previsão 30/Jun) • Módulo 30 - Projeto 7 - Utilizando o aprendizado não supervisionado para clusterização (Previsão 14/Jul) • Módulo 31 - Redes Neurais (Previsão 18/Ago) • Módulo 32 - Deep Learning (Previsão 15/Set) • Módulo 33 - Projeto 8 - Aplicando Redes Neurais e Deep Learning (Previsão 29/Set) • Módulo 34 - Reconhecimento de Imagem (Previsão 31/Out) • Módulo 35 - Projeto 9 - Utilizando Deep Learning para Reconhecimento de Imagem (Previsão 17/Nov) 21 Módulos em Planejamento A formação Ciência de Dados Impressionadora contará ainda com uma série de módulos adicionais além dos 19 módulos e 5 projetos descritos anteriormente. Abaixo, listamos alguns desses módulos que serão incluídos no curso. Obs: importante destacar que as datas informadas são uma previsão, podendo sofrer alterações. Slide 1 Slide 2 Slide 3 Slide 4 Slide 5 Slide 6 Slide 7 Slide 8 Slide 9 Slide 10 Slide 11 Slide 12 Slide 13 Slide 14 Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20 Slide 21 Slide 22 Slide 23 Slide 24 Slide 25 Slide 26 Slide 27 Slide 28 Slide 29 Slide 30