Prévia do material em texto
INTRODUÇÃO À CIÊNCIA DE DADOS Professora Me. Simone Regina da Silva REITOR Prof. Ms. Gilmar de Oliveira DIRETOR DE ENSINO PRESENCIAL Prof. Ms. Daniel de Lima DIRETORA DE ENSINO EAD Prof. Dra. Giani Andrea Linde Colauto DIRETOR FINANCEIRO EAD Prof. Eduardo Luiz Campano Santini DIRETOR ADMINISTRATIVO Guilherme Esquivel SECRETÁRIO ACADÊMICO Tiago Pereira da Silva COORDENAÇÃO DE ENSINO, PESQUISA E EXTENSÃO Prof. Dr. Hudson Sérgio de Souza COORDENAÇÃO ADJUNTA DE ENSINO Prof. Dra. Nelma Sgarbosa Roman de Araújo COORDENAÇÃO ADJUNTA DE PESQUISA Prof. Ms. Luciana Moraes COORDENAÇÃO ADJUNTA DE EXTENSÃO Prof. Ms. Jeferson de Souza Sá COORDENAÇÃO DO NÚCLEO DE EDUCAÇÃO A DISTÂNCIA Prof. Me. Jorge Luiz Garcia Van Dal COORDENAÇÃO DOS CURSOS - ÁREAS DE GESTÃO E CIÊNCIAS SOCIAIS Prof. Dra. Ariane Maria Machado de Oliveira COORDENAÇÃO DOS CURSOS - ÁREAS DE T.I E ENGENHARIAS Prof. Me. Arthur Rosinski do Nascimento COORDENAÇÃO DOS CURSOS - ÁREAS DE SAÚDE E LICENCIATURAS Prof. Dra. Katiúscia Kelli Montanari Coelho COORDENAÇÃO DO DEPTO. DE PRODUÇÃO DE MATERIAIS Luiz Fernando Freitas REVISÃO ORTOGRÁFICA E NORMATIVA Beatriz Longen Rohling Caroline da Silva Marques Carolayne Beatriz da Silva Cavalcante Eduardo Alves de Oliveira Jéssica Eugênio Azevedo Kauê Berto Marcelino Fernando Rodrigues Santos PROJETO GRÁFICO E DIAGRAMAÇÃO André Dudatt Vitor Amaral Poltronieri ESTÚDIO, PRODUÇÃO E EDIÇÃO André Oliveira Vaz DE VÍDEO Carlos Henrique Moraes dos Anjos Pedro Vinícius de Lima Machado FICHA CATALOGRÁFICA Dados Internacionais de Catalogação na Publicação - CIP S586i Silva, Simone Regina da Introdução à ciência de dados / Simone Regina da Silva. Paranavaí: EduFatecie, 2023. 80 p. 1. Processamento eletrônico de dados. 2. Mineração de dados (Computação). Python (Linguagem de programação de computador) . I. Centro Universitário UniFatecie. II. Núcleo de Educação a Distância. III. Título. CDD: 23. ed. 006.312 Catalogação na publicação: Zineide Pereira dos Santos – CRB 9/1577 As imagens utilizadas neste material didático são oriundas dos bancos de imagens Shutterstock . 2023 by Editora Edufatecie. Copyright do Texto C 2023. Os autores. Copyright C Edição 2023 Editora Edufatecie. O conteúdo dos artigos e seus dados em sua forma, correção e confiabilidade são de responsabilidade exclusiva dos autores e não representam necessariamente a posição oficial da Editora Edufatecie. Permitido o download da obra e o compartilhamento desde que sejam atribuídos créditos aos autores, mas sem a possibilidade de alterá-la de nenhuma forma ou utilizá-la para fins comerciais. https://www.shutterstock.com/pt/ 3 AUTORA Professora Simone Regina da Silva Possuo graduação em Processamento de Dados pela Universidade de Taubaté (UNITAU), Especialista em Sistemas de Informação pela Universidade Estadual de Marin- gá(UEM), Especialista em Data Science pela Faculdade Eficaz de Maringá e Mestrado em Informática Gerenciamento de Sistema de Informação pela Pontifícia Universidade Católica de Campinas (PUCCAMP-2003). Conclui o Curso preparatório para a certificação PMP. Presto Serviços Técnicos Especializados, Avaliador de Curso e Institucional - INEP, nas modalidades presencial e a distância. Em empresas de TI, trabalhou na Elotech Gestão Pública como Gerente de Projetos nas áreas de Gestão Educacional, Gestão de Saúde e Gestão de Ação Social, e na UDS Informática atuando como Gerente de Projetos. Na Faculdade Vincit atuou como Coordenadora do Curso de Análise e Desenvolvimento de Sistemas e Professora Conteudista na elaboração de e-books. Atualmente é professora de Informática no IFSC- Campus Tubarão. INFORMAÇÕES RELEVANTES • Formação Acadêmica; Tecnólogo em Processamento de Dados; • Níveis de Titulação; Especialização e Mestrado; • Instituições Frequentadas;Unipar, Fasul, Unicesumar, FCV, Vincit e Faculdade Eficaz; • CURRÍCULO LATTES: http://lattes.cnpq.br/1746684914211305 http://lattes.cnpq.br/1746684914211305 4 Caro aluno, neste material abordaremos temas relativos à área de Data Science, que é o estudo disciplinado dos dados e informações características ao negócio e todas as visões que podem cercar um determinado assunto. É uma ciência que estuda as infor- mações, seu processo de captura, transformação, geração e, posteriormente, análise de dados. A ciência de dados envolve diversas disciplinas: Computação; Estatística; Matemá- tica e Conhecimento do Negócio. Na Unidade I vamos conhecer um pouco mais sobre os temas relevantes como: Big Data, Data Warehouse, Data Analytics e Data Lake que tratam sobre grandes conjuntos de dados que precisam ser processados e armazenados. Veremos como a Estatística é usada na Ciência de Dados fornecendo subsídios para coletar, organizar, resumir, analisar, apresentar dados e avaliar as informações contidas em grande conjunto de dados. Já na Unidade II, apresentaremos conceitos básicos de Data Mining, entender a utilização do ETL, ou seja, compreender o processo de extração, transformação e carga, que é um importante processo para as análises de inteligência de negócio. Na sequência, na Unidade III vamos conhecer um pouco mais sobre Machine Learning ou aprendizagem de máquina, esse método influente que está se tornando cada vez mais apreciado com a mudança digital das empresas. Com protótipos essenciais de dados, as empresas distinguem oportunidades valiosas e conseguem evitar erros graves. Veremos os conceitos de inteligência artificial, machine learning e deep learning. E por fim na Unidade IV, será exposta uma introdução a linguagem de programação Python, que permite criar um caminho direto para análise de dados. Python é uma linguagem com uma curva de aprendizado muito simples e acessível, por isso se destaca no meio acadêmico. Muito obrigado e bom estudo !!! APRESENTAÇÃO DO MATERIAL SUMÁRIO 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Plano de Estudos • Introdução a Ciência de Dados; • Especificar os conceitos fundamentais de Big Data, Data Warehouse, Data Analytics e Data Lake; • As áreas da Estatística; • Análise Preditiva. Objetivos da Aprendizagem • Conceituar e contextualizar Ciência de Dados; • Assimilar as principais definições da área de Análise de Dados; • Conhecer as áreas da Estatística; • Entender os tipos de Análise Preditiva. 1UNIDADEUNIDADE CIÊNCIA CIÊNCIA DE DADOS - ÁREADE DADOS - ÁREA INTERDISCIPLINARINTERDISCIPLINAR Professora Me. Simone Regina da Silva 7 Nesta unidade será apresentado a Ciência de Dados, que é o estudo dos dados que derivam de insights significativos para os negócios. Ela é uma abordagem multidisciplinar que combina princípios e práticas das áreas de ciência e engenharia da computação, inte- ligência artificial,matemática e estatística, que quando associadas servem para analisar grandes quantidades de dados com muita efetividade. Entenderemos um pouco mais sobre os temas relevantes como: Big Data, Data Warehouse, Data Analytics e Data Lake que tratam sobre grandes conjuntos de dados que precisam ser processados e armazenados. Veremos como a Estatística é usada na Ciência de Dados fornecendo subsídios para co- letar, organizar, resumir, analisar, apresentar dados e avaliar as informações contidas em grande conjunto de dados. Será apresentado o conceito de Análise preditiva que utiliza dados históricos, que são usados para construir modelos matemáticos que nos possibilitam “prever o futuro”, antecipar acontecimentos e traçar possíveis tendências. INTRODUÇÃO UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Data Science ou Ciência de Dados, promove o desenvolvimento que combina fer- ramentas, métodos e tecnologia que permite a extração, análise, exploração e visualização dos dados que são gerados diariamente pelas empresas e por usuários comuns. Dados de texto, áudio, vídeo e imagens que constroem modelos utilizando bibliotecas e linguagens de programação, como linguagem R e Python. As áreas que se relacionam com a Ciência de Dados são: ● Áreas de Negócio; ● Computação; ● Estatística; ● Matemática. 1.1. Ciência de Dados nas empresas, qual sua importância ? A importância da Ciência de Dados é evidenciada pela possibilidade de modelar as melhores estratégias, com uma tomada de decisão respaldada, promovendo a inovação e solucionando problemas práticos dos diversos setores essenciais para sociedade, como saúde, educação, finanças, cultura, lazer entre outras. Os dados são considerados como o novo petróleo, utilizando Ciência de Dados na área da saúde incluindo, diagnóstico, análise de imagens e pesquisa médica. Na área do esporte, ela contribuiu com a análise de desem- penho, e a predição da evolução que o esportista pode chegar. Na área das finanças ela contribui com o gerenciamento de riscos financeiros, com detecção de fraudes e prevenção de ataques cibernéticos. 1 INTRODUÇÃO À CIÊNCIA DE DADOS TÓPICO 8UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR De modo geral, a proeminência do uso de Ciência de dados abrange todas as áreas de negócio como: as áreas da gestão pública, transporte, recursos humanos, engenharias, marke- ting, operações comerciais, instituições acadêmicas, segurança de TI, saúde entre outras. 1.2 Habilidades para a execução do Data Science A demanda por profissionais com uma carreira em data science tem sido muito re- quisitada, mas para tratar com grandes e complexos volumes de dados que são produzidos diariamente, se faz necessário ter um conhecimento analítico e habilidades técnicas para limpar, tratar, organizar e preparar os dados de diversas fontes de dados. Utilizar técnicas de análise exploratória, identificando padrões ou tendências são algumas habilidades ne- cessárias para o cientista de dados. O conhecimento de uma linguagem de programação é imprescindível, linguagens como Python ou Linguagem R e outras, alguns pacotes de análise de dados requerem o aprendizado em uma linguagem de programação. É necessário ter um conhecimento lógico, habilidade com a matemática, pois os conceitos matemáticos são base para os algoritmos de Machine Learning. Entender os conceitos de banco de dados relacional e nosql, data warehouse, data mining e entender como a informação é apresentada, o Data- Viz (visualização de dados). 9UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR “Os dados estão se tornando a nova matéria-prima dos negócios”. Craig Mundie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Neste tópico, serão apresentados alguns conceitos primordiais para o melhor en- tendimento de como extrair, transformar e carregar os dados, e as ferramentas necessárias para a execução da Análise de Dados. 2.1 Big Data O conceito de BIG DATA está sendo muito difundido atualmente em função das demandas dos diferentes tipos de dados que manipulamos e armazenamos diariamente. Uma definição mais simplificada do termo BIG DATA, é um grande volume de dados que são gerados, e precisam ser armazenados estrategicamente. Possuem uma grande variedade, volumes crescentes e com mais velocidade, conhecido como os três V´s. Os dados são classificados como estruturados, quando possuem uma estrutura bem definida, e dados não estruturados, quando são compostos distintos elementos. Os 3V´s que conceituam o Big Data são: ● Volume: são os dados gerados a cada segundo pelas empresas, redes sociais, imagens, textos, transações bancárias e vídeos que circulam na web e, também, os dados da Internet das Coisas (IoT). ● Variedade: diferentes tipos de formatos como texto, som, imagem, vídeo, stream etc. ● Velocidade: o quão rápido os dados são gerados e armazenados podendo ter ou não relevância para as empresas. Existem também outras características importantes associadas ao Big Data: 2 ESPECIFICAR CONCEITOS FUNDAMENTAIS DE BIG DATA, DATA WAREHOUSE, DATA ANALYTICS E DATA LAKE TÓPICO UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR ● Veracidade: refere-se à importância da confiabilidade dos dados, obter dados verídicos, dados que condizem com a realidade. ● Valor: refere-se a análise dos dados que geram valor para o negócio. As organizações necessitam de uma tecnologia de armazenamento para guardar uma quantidade massiva que vem de diferentes plataformas, por exemplo: mensagens que enviamos, vídeos compartilhados, transações bancárias, compras via web, localização por GPS. Esses tipos de dados não possuem uma estrutura padronizada. Com isso, a utilização de um data center comum não é recomendada para armazenar esse tipo de informação, sendo a melhor solução para essa situação a aplicação de um Big Data. Com o auxílio de um Big Data, a empresa pode utilizar todos os dados coletados para realização de análises específicas com a finalidade de extrair conhecimento relevante para subsidiar as tomadas de decisão estratégicas. 2.1.1 Tipos de Big Data O Big Data pode ser encontrado em três formas: a. Estruturado; b. Não estruturado; c. Semi-estruturado. a) Estruturado – Quaisquer dados que possam ser armazenados, acessados e processados em um formato fixo são denominados dados “estruturados”. TABELA 01 - EXEMPLO DE DADOS ESTRUTURADOS: TABELA: CLIENTE Id_Cli Cpf_Cli Nome_Cli End_Cli Tel_Cli Cidade_Cli Limite_Cli 001 072387747-31 Monica Silva Rua Franca, 234 (44)999767611 Maringá R$5000,00 002 082387747-32 Arthur Fredagolli Rua Itália, 234 (44)988767612Maringá R$1500,00 002 092387747-33 Regina Bezerra Rua Espanha, 234 (44)995667613 Cascavel R$8000,00 002 062387747-34 Augusto Santo Rua Inglaterra, 234 (44)888765614 Cascavel R$3000,00 Fonte: O autor (2022). 11UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR b) Não estruturado – Qualquer dado com forma ou estrutura desconhecida é classificado como não estruturado. Além do tamanho ser grande, os dados não estruturados apresentam muitos problemas no que se refere ao processamento da extração dos valores. Um exemplo é uma fonte de dados heterogênea que contém uma concordância de arquivos de texto, imagens, vídeos, streaming e etc. Atualmente, as organizações têm muitos dados disponíveis, mas infeliz- mente ainda desconhecem como extrair valor dos dados que se apresentam da forma bruta ou em um formato não estruturado, por isso é essencial organizar estes dados de forma estratégica. EXEMPLO DE DADOS NÃO ESTRUTURADOS: O RETORNO DE UMA PESQUISA REALIZADA EM UM NAVEGADOR. Semi estruturado - Os dados semi estruturados são uma forma de dados estrutura- dos que não se limitam a uma estrutura rígida de um banco de dados relacionais. EXEMPLO DE DADOS SEMI ESTRUTURADOS: DADOS PESSOAIS ARMAZENADOS EM UM ARQUIVO XML <rec> <name> João Lima </name> <sex> Masculino </sex> <age> 35 </age> </rec> <rec> <name> Sonia R. </name> <sex> Feminino </sex> <age> 41 </age> </rec> <rec> <name> Regina F. </name> <sex> Feminino </sex> <age> 29 </age> </rec> <rec> <name> Cristina L. </name> <sex> Feminino </sex> <age> 26 </age> </rec> <rec> <name> Cicero A. </name> <sex> Masculino </sex> <age> 35 </age> </rec> 12UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR 2.2 Data Warehouse Data Warehouse (DW), em tradução livre Armazém de Dados, é um repositório de dados onde ficam armazenadas as bases de dados de diversos sistemas existentes em uma organização. O DW surgiu com o propósito de ser um repositório estruturado (organizado por linhas e colunas) de consultas para fins analíticos, e ser um sistema de apoio para tomada de decisões (DSS). Essa característica difere dos bancos de dados relacionais tradicionais, pois não tem a finalidade de ser um banco para realizar transações básicas dos usuários, tais como: cadastrar, consultar, atualizar e deletar dados. O processo denominado ETL (extract, transform, loading), é responsável pela trans- formação e integração de dados que compila informações de diferentes bases de dados. O ETL utilizado junto a um DW de uma empresa, disponibiliza o acesso aos dados históricos da empresa, facilitando aos usuários dos mais diferentes níveis, o acesso a esses dados para análise e criação de relatórios otimizados. A Figura 1 ilustra a etapa de extração (Extract) dos dados oriundos dos diferentes sistemas e tipos de arquivos existentes, no qual é possível realizar a transformação (Trans- form), integração e enriquecimento desses dados, e posteriormente efetuar o carregamento (Load) dos mesmos no banco de dados do warehouse. FIGURA 01 - EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DE DADOS - ETL 2.3 Data Analytics Data Analytics ou análise de dados é a ciência que examina, explora e transforma os dados brutos com a finalidade de identificar tendências e padrões, aplicando algoritmos que revelam insights que promovem decisões embasadas, garantindo resultados imediatos. 13UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR 2.3.1 Cultura de Data Analytics A finalidade da cultura de Data Analytics é auxiliar as empresas a entenderem a sua realidade e identificar as suas potencialidades, gerando insights que auxiliam em uma tomada de decisão mais assertiva, como apresentado na figura abaixo. FIGURA 02 - CULTURA DA DATA ANALYTICS Fonte: O que é dataanalytics. AQUARELA. 2018. Disponível em: https://www.aquare.la/o-que-e-data-analytics/. Acesso em: 4 jan. 2022. 2.3.2 Categorias do Data Analytics As três categorias de dados que geralmente abrangem o Data Analytics são: ● Social Data – são dados que contém perfis e conduta dos indivíduos que apre- sentam em redes sociais; ● Enterprise Data – são dados gerados especialmente por empresas, dados como operações e financeiros; ● Personal Data – é a novidade, tem como base a integração entre os disposi- tivos por meio da internet, tem como base a integração entre os dispositivos por meio da internet, termo usado em segurança da informação, referem-se a informações que podem ser usadas para identificar, contactar ou localizar uma única pessoa, o principal exemplo são os smartphones. 14UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR https://www.aquare.la/o-que-e-data-analytics/ O processo de análise de dados é capaz de explorar os dados, a fim de criar prin- cípios para otimizar o entendimento de cenários e padrões. Tudo isso é consequência de uma análise cautelosa e exata. Todos esses padrões são elaborados com o objetivo de filtrar e levar aos interessados todas as informações úteis. Por trás disso, tem todo um ciclo que começa com extração dos dados, organização, tratamento e compreensão. 2.3.3 Data Lake Os dados que não foram transformados, que podem ser estruturados ou não es- truturados, necessitam de um repositório chamado Data Lake, ou seja, um repositório sem nenhum tratamento, são os dados nativos, é uma visão não refinada dos dados. Existem também os Data Lakes que se tornam inacessíveis, pesados, caros e inúteis para os usuários são chamados de “data swamps”(pantano de dados). 15UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR A infraestrutura de streaming e análise de dados vai aumentar cinco vezes até 2024. Isso decorre do fato de que 75% das organizações passarão da fase piloto para operacionalização ou implantação de inteligência artificial até 2024. As soluções analíticas avançadas fornecem insights e soluções vitais para as organizações, e a utilização só aumentará nos próximos anos. Fatos Interessantes sobre big data - GTA(Grupo de Pes- quisas em Tecnologia e Computação aplicada à informação e computação) Universidade Federal de Goiás. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 O termo “estatística” pode ser dividido em dois grupos diferentes na análise de dados. Pode ser usado apenas como um termo genérico, em que precisamos calcular va- lores numéricos de interesse a partir de nossos elementos, como, por exemplo, analisar a distribuição de salários no Brasil. Essas análises frequentemente incluem cálculo de média, mediana, moda e assim por diante. Esse tipo de abordagem está mais voltado para uma es- tatística consolidada, que vemos com muita frequência e que nos fornece a estrutura básica teórica e prática para Data Science. Muitas pessoas podem pensar que não é necessário ter um conhecimento profundo em estatística, pois atualmente os softwares já fazem boa parte do trabalho duro. Realmente, isso é verdade, porém, quando realizamos uma análise, sem o entendimento genérico do processo, não é possível explicar ou convencer alguém da sua utilidade. O outro grupo da estatística, está relacionado ao teste de hipóteses, para estimar incertezas e conclusões. As áreas da Estatística se dividem em 03 áreas que são complementares: 3.1 Probabilidade: de acordo com Batanero (2004), a probabilidade como parte essencial da Estatística, requer em primeiro lugar, o reconhecimentode que os paradigmas no processo de resolução de problemas sejam diferentes daqueles utilizados na matemática. Portanto, a probabilidade pode ser usada como medida do grau de incerteza de que um determinado evento possa acontecer. 3 AS ÁREAS DA ESTATÍSTICA TÓPICO UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR 3.2 Estatística descritiva: esse ramo da estatística intenciona sintetizar e descre- ver qualquer agrupamento de dados, como exemplo podemos citar a média, media- na e desvio padrão. A estatística descritiva, ao contrário da estatística inferencial, está focada na apresentação dos dados, mas não procura fazer inferências ou tirar sólidas conclusões que podem ser usadas para prever futuros dados da amostra. 3.3 Estatística inferencial: a estatística inferencial utiliza os dados de uma amos- tra (geralmente apresentados com a estatística descritiva), para realizar inferências (conclusões) sobre a população. 17UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 De acordo com FINLAY (2014) - A analítica preditiva é a área de estudo estatístico cujo objetivo é extrair informações dos dados e posteriormente utilizá-los para identificar padrões de comportamento e prever tendências, podendo assim, prever eventos desco- nhecidos no futuro, presente ou até mesmo no passado, como por exemplo a predição de suspeitos que cometeram crimes. Para SIEGEL (2013) - A analítica preditiva pode ser definida também como previ- sões com nível de granularidade mais detalhado, baseando-se em pontuações preditivas probabilísticas para cada elemento organizacional individual. Análise preditiva utiliza dados históricos, esses dados são usados para construir modelos matemáticos que nos possibilitam “prever o futuro”, antecipar acontecimentos e traçar possíveis tendências. 4.1 Tipos de Análise Preditiva a. Previsão de Churn - De acordo com Hoffman (1997), o fato do cliente cancelar seu contrato, configura-se churn - métrica que indica quantos clientes deixaram determi- nado produto, é necessário um gerenciamento, o churn, pois se configura um processo sistemático de tentar reter agilmente os clientes. b. Leitura de Upsell and Cross-Sell - Segundo Kwiatkowska (2018), Cross-sell e up-sell são estratégias de recomendação de produtos na fase de decisão de compra, nomeadamente quando o utilizador seleciona ou escolhe produtos. 4 ANÁLISE PREDITIVA TÓPICO UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR c. Otimizção de campanhas de Marketing - Informações coletadas, pela análise preditiva que apontam ocasiões favoráveis para que as empresas criem planos de mídia dinâmicos, que atraiam e/ou retenham cliente ou até para expansão do seu produto no mercado. d. Segmentação de lead para campanhas - Segmentar leads significa agrupar seus potenciais clientes de acordo com suas características. Isso ajuda a equipe a organizar seu conteúdo e direcionar suas ações para garantir bons resultados de vendas. e. Distribuição de conteúdo personalizado - É a análise de dados, baseada na entrega mais eficiente ao perfil do cliente, um exemplo que podemos citar são os conteúdos propostos pela Netflix ao seus clientes. 4.2 Análise Preditiva e Big Data Para realizar a análise preditiva de um grande número de dados, e ser possível estabelecer tendências de comportamentos futuros, é necessário ter uma base de dados estruturados e minerados por ferramentas de Big Data, por exemplo: Haddop, Apache Spark, MongoDB etc. 4.2.1 Soluções de Análise Preditiva Existem diversas soluções que auxiliam na hora de executar a análise preditiva. Abaixo alguns dos softwares mais utilizados no mercado. a. Power BI Power BI - É a solução da Microsoft, que contempla serviços de análise e inteligência de negócios. É apanhado de ferramentas de business intelligence, transformando as base de dados que não estão relacionadas em dados que agregam valor para a empresa. b. Adobe Analytics O Adobe Analytics é o concorrente de peso do Google Analytics, com uma ferramenta exclusiva de análise preditiva. O sistema utiliza o machine learning e modelagem estatística para analisar dados de forma avançada e prever comportamentos futuros como rotatividade e probabilidade de conversão. 19UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR c. Tableau O Tableau é a plataforma líder mundial na área de análise e visualização de dados, possui uma interface intuitiva, auxiliando o usuário no gerenciamento dos dados, sua capacidade de mo- dificar cálculos e testar cenários distintos. d. IBM Cognos Analytics É uma solução da IBM, orientada por Inteligência Artificial que disponibiliza os recursos de análise preditiva. Faz integração com diversas linguagens de programação, como R, Python entre outras. e. Sisense Uma plataforma que é responsável por criar, incorporar e im- plementar aplicativos de análise. É uma tecnologia em nuvem baseada na API, que possibilita o usuário transformar dados em relatórios interativos. 20UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR 21 Nesta unidade, percebemos que realizar análise de dados exige muito preparo, recursos e pessoal capacitado, pois muitas empresas ainda desperdiçam uma grande parte das informações que poderiam ser estratégias para seus negócios. Conhecer so- bre os temas relevantes para a área da Ciência de Dados, que tratam sobre os grandes conjuntos de dados, e que auxiliam os gestores a tomarem a melhor decisão quanto ao processamento e armazenamento dos dados. A área da Estatística fornece subsídios na avaliação das informações contidas no conjunto de dados, e a Análise Preditiva conecta os pontos e consegue descobrir as tendências dos dados. Espero que você tenha aproveitado o conteúdo, para enriquecer seus conhecimentos e obter insights a partir das tendências de dados que podemos produzir. Desejamos revê-los nas próximas unidades. CONSIDERAÇÕES FINAIS UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR 22 LIVRO Título: R para Data Science Autor: Handley Wickham & Garrett Grolemund. Editora: Alta Books. Sinopse: A linguagem R é uma linguagem também muito apre- ciada por matemáticos e estatísticos, já que possui suporte para cálculos e análises complexas Uma das vantagens do uso da Linguagem R é que assim como com Python, também é possível o uso de ambientes interativos para codar (REPL), e também possui uma ampla biblioteca nativa, que possui uma das maiores quantidade de pacotes do mercado. FILME / VÍDEO Título: O DILEMA DAS REDES Ano: 2020. Sinopse: A base do documentário é construída a partir do im- pacto dos dados em nossas vidas. O Dilema das Redes trata sobre a importância desses conteúdos para que empresas ditam tendências e conheçam ainda melhor a audiência. Por mais que dados sejam fundamentais para empresas, sempre cabe refletir sobre a ética aplicada no uso. MATERIAL COMPLEMENTAR UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Plano de Estudos • Introdução à Data Mining; • Processos ETL; • Análise de Dados. Objetivos da Aprendizagem • Entender os conceitos de Data Mining; • Compreender o fluxo do ETL; • Exibir as fases da Análise de dados. 2UNIDADEUNIDADE EXTRAÇÃO, EXTRAÇÃO, TRANSFORMAÇÃO TRANSFORMAÇÃO E CARREGAMENTO E CARREGAMENTO DOS DADOSDOS DADOS Professora Me. Simone Regina da Silva 24 INTRODUÇÃO UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS Como embasamento para entender o fluxo ETL, apresentaremos nesta unidade conceitos básicos de Data Mining, entender a utilização do ETL, ou seja, compreender o processo de extração, transformação e carga, que é um importante processo para as análi- ses de inteligência de negócio. Com o advento do Big Data, os dados podem vir de diversas fontes e de diferentes formatos, e isso faz com que o dado tenha que passar por diversas etapas de processamento, desde a coleta até sua visualização, para que possa atingir um objetivo, ou um problema a ser resolvido. Neste estudo serão apresentadas ferramentas e frameworks que vão auxiliar na compreensão das etapas da análise de dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1 INTRODUÇÃO À DATA MINING TÓPICO UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS A mineração de dados - Data Mining - é a prática de “minerar”, ou seja, examinar dados que foram reunidos por muitos exemplos de algoritmos, que tem por finalidade gerar informações novas, encontrar anomalias e padrões. Para o Data Mining, não interessa como os dados foram coletados, que podem ser por API´s, via banco de dados, web scraping etc. Então, basicamente, o Data Mining analisa e processa uma grande quantidade de dados sob o ponto de vista diferentes. Os dados são convertidos em informação, que serão utilizadas estrategicamente em diferentes áreas de negócio. O objetivo do Data Mining, é que todo tipo de dado precisa identificar seus padrões, consistências e relacionamentos com outros dados, transformando em conhecimento para ser aplicado em decisões estratégicas. Para realizar o processo de Data Mining, será necessário utilizar desde aplicações matemáticas e métodos estatísticos até algoritmos com redes neurais, deep learning, análise de clustering e classificações automáticas, que vão auxiliar na descoberta do conhecimento. Uma das definições mais importantes de data mining, foi a elaborada por Fayyad (1996, p.4):“...o processo não-trivial de identificar, em dados, padrões válidos, novos, po- tencialmente úteis e ultimamente compreensíveis”. FIGURA 01 - DATA MINING Em síntese, as ferramentas de Data Mining são responsáveis por analisar, e descobrir impedimentos relacionados aos dados ou novas perspectivas, que apontam um comportamento recente nos negócios. As ferramentas usadas no processo de Data Mining, são denominadas ferramentas de agrupamento, ou clustering, que é o nome atribuído ao grupo de técnicas computacionais cujo objetivo é separar objetos em grupos, tomando como base as características desses objetos, ou seja, agrupar esses objetos de acordo com algum critério pré-estabelecido. As técnicas que estas ferramentas utilizam pode ser: ● agrupamentos; ● hipóteses; ● regras; ● árvores de decisão e ● grafos ou dendrogramas. Quando analisamos os dados com estatística e/ou algoritmos de modo mais refina- do, estamos fazendo um Data Mining, pois estamos contribuindo com a busca de um novo conhecimento para a empresa, sobre seu negócio. O Data Mining atua no plano estratégico da empresa. 1.1 Procedência do data mining O Data Mining procede de três linhagens: Estatística, Inteligência Artificial e Machi- ne Learning. 26UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS Estatística: É a base da maior parte das tecnologias onde o Data Mining é edifica- do. A Estatística Clássica é composta por concepções como a distribuição normal, variância, análise de regressão, desvio simples, análise de conjuntos, análise de discriminantes e in- tervalos de confiança, todos estes são usados para estudar dados e seus relacionamentos. Esses princípios são os basilares da análise estatística, e com certeza estão no cerne das atuais ferramentas e técnicas de Data Mining. Inteligência Artificial: A Inteligência Artificial (IA), é construída a partir dos funda- mentos da heurística, ou seja, a heurística representa a forma como o ser humano simplifica o entendimento de questões complexas, para tanto, a IA necessita de um processamento de máquina muito elevado. Machine Learning: O aprendizado de máquina ou Machine Learning, é a união entre a estatística e a inteligência artificial. A finalidade da Machine Learning é empenhar-se em fazer com que sistemas de computador ”aprendam” com seus dados, e que possam identificar padrões, tomando decisões como o mínimo de interferência humana. 27UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS 1.2 Data mining sua utilização para o negócio O Data Mining é essencial, quando o propósito é alcançar conhecimentos a partir de uma determinada massa de dados, e principalmente em grandes quantidades. Diver- sas empresas já empregam a mineração de dados para o auxílio na tomada de decisão nos mais diferentes setores que envolvem seus negócios, como seus clientes, produtos, funcionários, inovação entre outros. É certo que o que gera valor é o grupo de ações que são tomadas a partir do processamento dos dados que foram gerados pela mineração de dados. É preciso compreender onde utilizar as técnicas e ferramentas de mineração que são mais oportunas para cada caso. A mineração de dados tem sua aplicação cada vez mais difundida em áreas que antes sequer poderíamos imaginar uma aplicação prática, pois eram modelos de negócios em que os dados não se encontravam armazenados digitalmente. Um exemplo é a análise de sentimento utilizado por empresas para avaliar a reputação da empresa em redes sociais. Além das tradicio- nais aplicações em marketing, hoje a mineração de dados e o aprendizado de máquina entram aplicações na medicina, educação, processamento de linguagem natural, bioinformática, detectação de fraude, reconhecimento de fala, finanças, robótica, sistemas de recomendação, mineração de texto entre muitos outros (AMARAL, 2016a. p3-4). A aplicação nas empresas do Data Mining efetivo, se apresenta ainda mais re- levante na transformação e ou melhoria do negócio, pois com a mineração de dados a empresa tem insights preponderantes a respeito de seu público e negócio, possibilitando assim encontrar predileções de seus clientes, avaliar a performance das vendas, entender o grau de satisfação dos consumidores, explorar o posicionamento de seusprodutos e marca, entre outras inúmeras tendências que podem ser lapidadas e, consequentemente, melhorar o seu negócio. 28UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS Uma das primeiras soluções focadas em Data Mining, foi o Software Weka. O Weka, foi criado em 1993 e mantido até os dias atuais, é uma rica coleção de algoritmos de Machine Learning e Data Mining. O pro- pósito do software em sua concepção foi permitir que o usuário não precisasse conhecer linguagens de programação para fazer o pré-processamento dos dados (organizá-los) e assim aplicar diversos algoritmos prontos em seus próprios dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2 PROCESSOS ETL TÓPICO UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS O acrônimo ETL (Extract, Transform, Load), que em português significa: Extrair, Transformar e Carregar dados de diversas fontes, são as três fases que os dados percor- rem antes de estarem prontos para utilização. O ETL, técnica de integração de dados surgiu da demanda dos negócios de agregar dados de fontes distintas para serem analisadas. O ETL tem um grande desafio de extrair, transformar e carregar os dados de diferentes locais e formatos por vezes ambíguos ou inconsistentes. No início dos anos 1970, o ETL começou a ganhar mais destaque, pelo fato das organizações terem muitos repositórios ou bancos de dados, para o armazenamento dos seus diferentes tipos de informações em seus negócios. Para entendermos melhor o ETL, vamos descrever abaixo cada uma das suas etapas: EXTRACT-TRANSFORM-LOAD. 2.1 E – EXTRACT Extract ou Extração é a primeira fase do processo ETL, ela consiste em extrair os dados de todas as fontes significativas e compilá-las. Para que seja possível compilar os dados é necessário realizar a preparação para a integração destes dados, pois as fontes de dados podem abranger dados de inúmeras fontes. Exemplos de fontes de dados seriam: planilhas eletrônicas, bancos de dados locais, sistemas de CRM, arquivos XML, sistemas ERP, redes sociais, arquivos de texto, arquivos estruturados e arquivos não estruturados, data warehouse na nuvem, aplicativos em nuvem e etc. Essa é uma fase que exige uma organização no nível de consistência dos dados a serem alimentados no sistema e convertidos na próxima etapa. A complexidade nesta etapa pode alterar significativamente, dependendo dos tipos de dados, do volume de dados e das fontes de dados. 2.2 T – TRANSFORM Nesta fase, os dados são transformados e é realizada a limpeza dos dados. Os dados que foram extraídos na primeira fase de Extração, são compilados, convertidos, reformatados e limpos na área de teste, para serem inseridos no banco de dados destino da próxima etapa. Quando se fala em conversão deve se executar uma série de funções e a aplicação de conjunto de regras aos dados que foram extraídos, para convertê-los em um formato padrão que irá atender aos requisitos do esquema de banco de dados destino. Nesta etapa consiste em indicar em arquivos ou tabelas as correspondências entre campos e valores. Os filtros utilizados para realizar esta etapa, depende da necessidade do negócios, algumas variáveis que ocorrem no decorrer da etapa de transformação seriam: correção de erro de digitação, arredondamento de casas decimais, substituição de caracteres diferentes ou estranhos entre outros. A operação chamada de Qualidade de Dados é realizada para garantir a utilização nas análises dos dados. 2.3 L – LOAD Esta é a fase do carregamento do conjunto de dados que foram extraídos e trans- formados nas fases anteriores para o banco de dados destino. Este carregamento pode ser feito de duas formas: a) rotina de inserção SQL - com esta rotina a inserção é realizada manualmente de cada registro em cada linha de sua tabela do banco de dados destino. Esta abordagem pode ser lenta, mas garante a verificação de qualidade a cada entrada. b) carregamento em massa - é o carregamento numeroso de dados, consegue realizar o carregamento de forma muito rápida, mas não garante a integridade dos dados para todos os registros. Portanto esta fase constitui-se em estruturar os dados para que sejam lidos em uma área de armazenamento (staging area), e são enviados para um data warehouse ou para um data mart ou depositados em diferentes aplicações, e também podem ser armazenados em nuvem. ETL é, portanto, uma técnica que agrega valor a diferentes áreas de negócios ao simplificar o processo de integração de dados. 30UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS 2.1 Como o ETL é usado? O ETL, atua em conjunto com outras ferramentas de integração de dados e com inú- meros cenários do gerenciamento de dados, cenários como: qualidade de dados, governança de dados, virtualização e metadados. As aplicações do ETL mais comuns atualmente incluem: 2.1.1 ETL e usos habituais Muitas empresas contam habitualmente com a utilização de ETL, como por exemplo empresas de varejo que têm a necessidade de realizar a verificação das vendas diariamen- te, ou operadoras de saúde em alguma esfera específica de seu uso. O ETL é frequentemente utilizado na migração de dados de sistemas obsoletos para sistemas mais contemporâneos, também na fusão de empresas para coletar e unir dados de fornecedores ou parceiros em comuns. 2.1.2 ETL com Big Data A utilização do ETL nas empresas que já trabalham com Big Data (dados de vídeos, mídias sociais, IoT, logs do servidor, dados geográficos, dados espaciais e etc), tornam o mecanismo de extração de dados muito mais eficiente, o processo de carga de dados utilizado nas plataformas de Big Data é chamado de Data Ingestion. 2.1.3 ETL para Hadoop Utilizando as ferramentas do ecossistema Hadoop, é possível minimizar a curva de aprendizado de novas ferramentas. O Data Warehouse - Apache Hive, e a plataforma para criar programas que rodam no Hadoop o Apache Pig, são ferramentas que permitem a extração, carregamento e transformação de inúmeras formas de dados. Essas ferramentas trabalham com dados estruturados, não estruturados ou semi-estruturados, diferente de al- gumas ferramentas ETL tradicionais que não estão preparadas para alguns tipos de dados. 2.1.4 ETL e a Qualidade de Dados A confiabilidade dos dados ou a noção de Data Quality (Qualidade de Dados) é uma preocupação constante para quem utiliza ETL. Isso inclui a atenção em abandonar ruídos de dados que não auxiliam de modo nenhum nas análises. Ou seja, o ETL, extingue alguns dados que não são pertinentes, e que podem interferir em dados limpos, atrapalhando as análises. 31UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS 2.1.5 ETL e metadados Metadados são as informações a respeito do que se trata o dado, ou seja, é en- tender a linhagem dos dados e seu efeito em outros ativos de dados na organização. É muito relevante rastrear como os diversos elementos de dados são utilizados e como estão ligados, mediante as inúmeras arquiteturas complexas de sistemas existentes. 2.2 Softwares de ETL É muito importante a escolha de uma plataforma ETL para qualquer empresa, em função da arquitetura de seus dados. A escolha pode trazer benefícios ou pode requerer mais atenção do que era esperado. Existem inúmeras soluções ETL no mercado, com suporte e flexíveispara o aten- dimento de diversas áreas de negócio, aqui neste documento vamos apresentar algumas soluções. Vamos tomar como base o fluxo de ETL (coleta, armazenamento e carregamento de dados) para a apresentação de algumas ferramentas. a) Coleta de dados: SnowPlow, Segment. SnowPlow - É uma plataforma de coleta de dados baseada na nuvem, armaze- nando em tempo real as informações coletadas em relação aos esquemas associados. Os principais recursos oferecidos pela plataforma incluem coleta e validação de dados, estatísticas em tempo real, migração de dados, segurança e modelos personalizados. Ele fornece ferramentas para manter a conformidade e as normas regulatórias de privacidade e GDPR, permitindo que os usuários evitem violações de segurança nos fluxos de dados. b) Extração e carregamento de dados: Stitch, Fivetran e Kondado. Stitch - Responsável pela extração de grandes quantidades de dados em silos geradas em mais de 120 aplicativos e banco de dados como serviço (SaaS) e os integra rapidamente a um armazém de dados ou data lake, possibilitando o serviço de análise em minutos. 32UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS c) Transformação de Dados: Spark, Dremio. Dremio - É uma ferramenta de código aberto que se conecta diretamente a várias fontes de dados, incluindo banco de dados relacionais, clusters de big data e serviços de armazenamento em nuvem. Esses dados formam um data lake. d) Armazenamento de Dados: Oracle, Google BigQuery, PostgreSql, SnowFlake. SnowFlake - É um data warehouse baseado em nuvem que fornece uma maneira simples, segura e escalável de armazenar dados e depois consolida e armazena esses dados para exploração e análise adicionais. 33UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS O processo de Extração, Transformação e Carga (ETL – Extraction, Transformation and Load) pode ser con- siderado o estágio mais importante na construção de um Data Warehouse (KIMBALL, 2004). Nessa etapa, podem ser gastos 40% do custo para construção total de um Data Warehouse. (BERNSTEIN; HAAS, 2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3 ANÁLISE DE DADOS TÓPICO UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS Análise de dados é um processo que a partir de dados brutos é realizada a inspe- ção, limpeza, transformação e modelagem de dados. Estes dados são transformados em insights, que auxiliam a tomada de decisões nas organizações. As etapas de processamento desses dados seguem o mesmo ciclo do método científico: observação, questionamento, hipóteses, experimentação, análise dos resultados e a conclusão. No qual a partir de uma observação, deve-se formular uma hi- pótese, realizar experimentos, analisar os dados, efetuar a criação de um modelo, divulgar os resultados e efetuar a implementação do modelo proposto. Na fase de Análise de Dados, os dados são separados e tratados e implementados com técnicas de Machine Learning, algoritmos avançados, estatísticas, modelos matemá- ticos e muitas outras metodologias. De acordo com Schmarzo (2013), a Análise de dados consiste em seis estágio conforme a figura abaixo: FIGURA 05 - CICLO DE VIDA DA ANÁLISE DE DADOS Fonte: (SCHMARZO, 2013 p. 40) - Ciclo de Vida da Análise de Dados 3.1 Etapas da análise de dados 3.1.1 Exploração dos dados Nesta etapa, deve ser definido o escopo da análise e seus objetivos que devem ser claros, mensuráveis e pertinentes para o negócio. É importante que sejam formuladas questões que visam realizar o levantamento das métricas que serão coletadas para a resolução do objeto da análise, e também deve-se realizar a verificação dos recursos disponíveis para a realização do estudo proposto. 3.1.2 Preparação dos dados Nesta etapa será escolhido os tipos de dados que serão analisados, é importante definir métricas que sejam claras e possíveis para garantir análises mais otimizadas, e que vão retornar insumos significativos para a organização. Os dados são coletados de reposi- tórios internos ou externos, e dos mais diferentes formatos, ou seja, dados estruturados e não-estruturados. Pode-se utilizar alguma ferramenta gráfica, que seja possível visualizar e eliminar dados incompletos ou que foram preenchidos de forma incorreta e até mesmo adicionar um tratamento ao dado que irá enriquecer a análise. Nesta fase é possível realizar os ajustes necessários para a junção desses dados, determinando que o conjunto de dados utilizados estejam satisfatórios para a análise pretendida. 35UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS A preparação também leva em consideração a importância da transformação do dado, que consiste em realizar a conversão do mesmo. Esta preparação/transformação utiliza técnicas e ferramentas ETL. Com os dados já preparados, já é possível seguir para a próxima fase no desenvolvimento de um modelo analítico de dados. 3.1.3 Planejamento do modelo Nesta etapa já é possível apresentar dados consideráveis para iniciar o desenvol- vimento do modelo analítico de dados. Existem diversas metodologias, técnicas e ferramentas para a concepção do mo- delo. A escolha apropriada para resolução do problema deve levar em conta o que foi exposto inicialmente na fase de exploração. Abaixo, são apresentadas algumas técnicas que de acordo com o cenário podem ou não serem utilizadas: a) Redes Neurais Artificiais: a manipulação de dados complexos como imagens ou vídeos, alcançam um bom desempenho quando utilizados técnicas de Redes Neurais Artificiais. São técnicas de computação com nós interconectados que funcionam, como os neurônios do cérebro humano. É um modelo matemático inspirado na estrutura neural de organismos inteligentes e que alcança o conhecimento através da prática. Utilizando algoritmos, as Redes Neurais é possível reconhecer padrões e a conexão em dados brutos, agrupá-los e classificá-los, e aprender e melhorar continuamente. b) Árvore de decisão: as Árvores de decisão são classificadas como Contínua, Binária e Não binária. É a representação simples do conhecimento e uma forma eficiente de construir classificadores que podem predizer valores de determinados atributos de um conjunto de dados. A modelagem gráfica de uma árvore consiste de folhas, também chamadas de nós, e ramos. Onde cada nó representa o conjunto de dados de uma clas- sificação, esta por sua vez representada pelos ramos. O desempenho dos algoritmos que utilizam árvores de decisão pode variar, de acordo com o volume de dados e com a situação em que estão sendo usados. Exemplos de algoritmos que podemos citar são: C4.5, CART (Classification and Regression Trees), CHAID (Chi Square Automatic Interac- tion Detection) e muitos outros. 36UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS c) Regressão Linear: é utilizada para entender e comparar dados, possibilitando a identificação do comportamento do dado analisado, assim é possível realizar projeções e estudos dos dados, classificando matematicamente quais são os mais relevantes para o estudo. É uma técnica estatística que pode ser utilizada para efetuar uma análise preditiva. Existem inúmeras metodologias, técnicas e ferramentas, o que difereuma da outra são as variáveis e métricas escolhidas para obter um determinado resultado. Ou seja, a partir dos dados existentes serão avaliados quais métricas e variáveis se correlacionam e os resultados das causas e efeitos que elas podem ter entre si. O modelo analítico de dados escolhido vai definir quais métodos, algoritmos e ferramentas que possuem a resposta mais apropriada para o problema em questão, bem como a definição da apresentação do resultado das análises. 3.1.4 Implementação do modelo Empregando ferramentas pertinentes ao problema, é nesta fase que é averiguado se a metodologia escolhida está adequada para responder as questões tratadas na fase inicial da análise, se os métodos matemáticos e estatísticos foram definidos corretamente e se as métricas escolhidas foram as mais apropriadas. Assim é possível efetuar o refina- mento e a realização de ajustes no modelo analítico de dados proposto. 3.1.5 Comunicação dos resultados A divulgação dos resultados obtidos da análise dos dados, devem ser transmitidos de maneira clara e objetiva, a utilização de aplicações gráficas, recursos áudios visuais e métodos interativos auxiliam a melhor compreensão do público alvo. Na divulgação pode ser usado ferramentas como Power BI, Google Data Studio, Pacotes da Linguagem R e Python entre outros 3.1.6 Utilização em produção Esta é a fase final do ciclo de vida da Análise de dados, proposta por Schmarzo (2013), que é a fase que será realizada a implementação do modelo em ambiente de produção, para a transformação dos dados em conhecimento. 37UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS 38 Nesta unidade aprendemos como são realizados a extração, a transformação e o carregamento dos dados - ETL - entendemos a importância do seu funcionamento, que está relacionado a outras técnicas, funções e processos de integração de dados. O geren- ciamento de dados está se tornando cada dia mais complexo, conhecer outras ferramentas de integração de dados que devem ser analisadas constantemente para acompanhar a evolução. CONSIDERAÇÕES FINAIS UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS 39 MATERIAL COMPLEMENTAR UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS LIVRO Título: Integração de dados na prática: Técnicas de ETL para Business Intelligence com Microsoft Integration Services 2012 Autor: Rodrigo Ribeiro Gonçalves. Editora: Érica. Sinopse: Para que o leitor entenda melhor a ferramenta, um pequeno projeto de BI é desenvolvido neste livro, pois enten- der conceitos como DW, BI, ETL, e outros jargões da indústria é essencial para quem quer trabalhar com integração de dados. FILME / VÍDEO Título: Ex_Machina Ano: 2015. Sinopse: Esta obra de ficção científica levanta uma série de questões éticas que vão desde moralidade no uso de uma tec- nologia até mesmo afetividade e sexualidade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Plano de Estudos • Machine Learning - Entendendo sua importância; • Algoritmos de Machine Learning - Tipos de Aprendizagem; • Conceitos essenciais de Machine Learning; • Como funciona o Machine Learning? Objetivos da Aprendizagem • Aprender a importância do Machine Learning; • Exibir os tipos de Aprendizagem do Machine Learning; • Compreender os conceitos essenciais para a utilização do Machine Learning; • Entender como funciona Machine Learning e suas etapas. 3UNIDADEUNIDADE MACHINEMACHINE LEARNINGLEARNING Professora Me. Simone Regina da Silva 41 Nesta unidade, vamos conhecer um pouco mais sobre Machine Learning, ou apren- dizagem de máquina, esse método influente que está se tornando cada vez mais apreciado com a mudança digital das empresas. Com protótipos essenciais de dados, as empresas distinguem oportunidades valiosas e conseguem evitar erros graves. Veremos os conceitos de inteligência artificial, machine learning e deep learning onde muitas pessoas confundem o significado, apesar de estarem correlacionados, não expressam a mesma definição. Serão abordados a aprendizagem supervisionada e a aprendizagem não supervisionada que são os métodos mais adotados na aprendizagem de máquina, serão apresentados outros métodos de aprendizagem por máquinas. Com a utilização do Machine Learning nos negócios, é possível compreender o perfil dos clientes e como chegam até o seu negócio. Rastreando os conteúdos mais pertinentes para o cliente. INTRODUÇÃO UNIDADE 3 MACHINE LEARNING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 1 MACHINE LEARNING- ENTENDENDO SUA IMPORTÂNCIA TÓPICO UNIDADE 3 MACHINE LEARNING Para Freitas e Santana ( 2019, pg.8) - O Aprendizado de Máquina (AM) - do inglês, Machine Learning - é um dos principais pilares dessa nova era da indústria, pois permite a extração de informação utilizando dados de forma eficiente e eficaz. Do ponto de vista da eficiência, o AM é alavancado pelos dispositivos de baixo custo voltados para a computação de alto desempenho como as GPUs. Já a eficácia depende da quantidade e qualidade dos dados disponíveis e dos modelos de aprendizagem. Esses modelos, que são utilizados para representar as aplicações, estão cada vez mais sofisticados e hábeis em resolver problemas complexos graças ao apoio da ciência básica, especialmente, a Matemática e a Estatística. O Machine Learning (ML), é um subconjunto da grande área da Inteligência Artificial (IA), que possibilita a criação de modelos analíticos. A ML se baseia na constru- ção de sistemas que aprendem, e melhoram o comportamento, identificando padrões e tomando decisões com pouca interferência humana. Para melhorar a compreensão do conceito de ML, pode-se considerar uma máqui- na que será projetada para jogar xadrez ou outro jogo qualquer que possua um conjunto de regras. O computador irá aprender com uma série de regras e jogadas para se atingir o objetivo que é “conquistar” o rei (peça) do seu adversário. De modo que quanto mais partidas com diversos jogadores experientes de xadrez, melhor será a performance e a pro- babilidade do computador vencer as partidas, através do crescimento do seu treino. Este experimento foi realizado em 1997, quando o russo Garry Kasparov, que é considerado o maior enxadrista da atualidade, foi derrotado pelo computador Deep Blue da IBM. UNIDADE 3 MACHINE LEARNING 43 A ML surge do reconhecimento de padrões e do princípio de que computadores podem aprender sem serem programados para realizar tarefas típicas.Pesquisadores dedicados em IA queriam saber se as máquinas poderiam aprender com dados. O aspecto repetido do aprendizado de máquina é importante porque, quando os modelos são expressos a novos dados, eles são habilitados a se adaptar independentemente. Eles aprendem com computa- ções anteriores para produzir decisões e resultados confiáveis, passíveis de repetição. De acordo com Faceli (2021, pg 1), Machine Learning: “são técnicas que deveriam ser capazes de criar por si próprias, a partir da experiência passada, uma hipótese, ou função, capaz de resolver o problema que se deseja tratar” Os diferentes tipos de algoritmos em Machine Learning tem as mais distintas uti- lidades, não existe um algoritmo único que funcione para todos os problemas. Não se pode afirmar que os algoritmos de redes neurais são os melhores, ou que os de árvore de decisão são melhores que os de redes neurais e vice-versa. Há muitos princípios a se considerar como o tamanho, e a estrutura do conjunto de dados. Os tipos fundamentais de Aprendizado de Máquina são: Supervisionado, Semi Supervisionado, Não Supervisionado e por Reforço. 1.1 Tipos de aplicações que utilizam Machine Learning O Machine Learning é usado na personalização dos 03 (três) principais serviços de streaming: Netflix, Spotify e Amazon Prime Video, onde os algoritmos de recomendação são constantemente aprimorados, destacando o catálogo de filmes, séries, podcasts e músicas conforme a resposta do usuário. Com o crescente volume e variedade de dados disponíveis, com o processamento computacional mais barato e o armazenamento de dados acessível, é possível produzir rápida e automaticamente, modelos capazes de analisar dados mais complexos. As aplica- ções de Machine Learning são utilizadas em diferentes áreas, podemos citar: a. Identificação de fraudes - Os algoritmos utilizados na identificação de fraudes, detectam quais são as variáveis de maior impacto e como a relação entre elas indica uma possibilidade maior de acontecer uma transação fraudulenta. Os bancos e operadoras de cartões de crédito foram as primeiras instituições a usar a aprendizagem de máquina. Estes algoritmos aprendem com as mudanças nos dados ao longo do tempo, da mesma forma que os fraudadores mudam seu comportamento, o modelo é capaz de identificar a mudança através da rotina de retreino do modelo. UNIDADE 3 MACHINE LEARNING 44 b. Sistemas de recomendação (RecSys) - O objetivo principal de um sistema de recomendação é de filtrar o conteúdo que é entregue ao usuário. Utilizando dados coleta- dos de milhões de compradores e usuários, estes sistemas podem prever os itens que são relevantes para cada usuário, conforme as suas compras anteriores e também com os seus hábitos de visualização. c. Mecanismos de busca - Todos os mecanismos de busca como Google, Bing, Yahoo, Naver entre outros coletam o máximo de dados possíveis sobre os seus usuários, como por exemplo quais gêneros de programa assistem, quais os links que estão clicando em um site, como interagem em redes sociais. Todos estes dados utilizados no aprendi- zado de máquina melhoram o processamento de linguagem natural e fornecem respostas específicas para algumas questões. d. Sistemas de detecção facial - Identificação de um rosto em uma imagem ou vídeo, apontando também algumas características do rosto. Estes sistemas conseguem analisar atributos como olhos abertos ou fechados, humor, cor do cabelo, e geometria visual do rosto. e. Bots de serviço ao cliente - Um bot ou chatbot identifica em uma frase, todas as necessidades do consumidor naquele momento, eles utilizam o processamento de lin- guagem natural e os dados de atendimento ao cliente para responder às perguntas. Outros sistemas que utilizam o Machine Learning são: Sistemas de reconhecimen- to de voz e frases, Sistemas de Segurança de Tecnologia da Informação, Sistemas de produção de energia e controle de temperaturas, Sistemas de previsão de rotas rodoviárias e aeroespaciais, Sistemas para o mercado financeiros, Sistemas de processamento gené- tico, Sistemas de previsão de tempo e muitos outros. CURIOSIDADES ● No aprendizado de máquina, um alvo é chamado de rótulo; ● Em estatística, um alvo é chamado de variável dependente; ● Uma variável em estatística é chamada de recurso em Machine Learning; ● Uma transformação em estatística é chamada de criação de recursos em Machine Learning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2 ALGORITMOS DE MACHINE LEARNING - TIPOS DE APRENDIZAGEM TÓPICO UNIDADE 3 MACHINE LEARNING Podemos classificar os algoritmos de Machine Learning conforme seu tipo de aprendizagem, ou seja, a forma como aprendem. Os tipos principais de Aprendizado de Máquina são: Aprendizado Supervisionado, Aprendizado Não Supervisionado e Aprendiza- gem por Reforço. O Aprendizado Supervisionado, os algoritmos relacionam uma saída com uma entrada com base em dados rotulados. Neste caso, o usuário alimenta ao algoritmo pares de entradas e saídas conhecidos, normalmente na forma de vetores. Para cada saída é atribuído um rótulo, que pode ser um valor numérico ou uma classe. O algoritmo determina uma forma de prever qual rótulo de saída com base em uma entrada informada. Os resul- tados desse tipo de algoritmo são classificação e regressão. Classificação ou Classification- É o modelo de diagramar elementos iguais em categorias próprias. Regressão ou Regression - Reconhece uma predisposição para os dados que permite, predizer o futuro com base em dados históricos. O Aprendizado Não Supervisionado, o algoritmo não recebe os rótulos de en- trada e, portanto, não conhece os rótulos de saída que devem ser gerados. O objetivo do aprendizado não supervisionado é de identificar os padrões existentes nos dados sob análise, suas similaridades (conforme critério estabelecido), suas diferenças e efetuar um agrupamento consistente das informações analisadas. Esse agrupamento de objetos com características semelhantes é denominado de clusterização, no qual consiste em agrupar UNIDADE 3 MACHINE LEARNING 46 os dados em classes de objetos com características semelhantes ou com algum tipo de pa- drão. O algoritmo agrupa os exemplos pelas similaridades dos seus atributos. O algoritmo analisa os exemplos fornecidos e tenta determinar se alguns deles podem ser agrupados de alguma maneira, formando agrupamento ou clusters. A busca de padrões e a realização de agrupamento possibilitam também que o algoritmo efetue uma redução nas variáveis analisadas, seja por identificar atributos redundantes ou que não são importantes para o contexto da análise, denominado de redução de dimensionalidade. O Aprendizado Não Supervisionado funciona bem com dados transacionais, por exemplo, ele identifica seg- mentos de clientes com atributos similares que podem ser tratados de modo igualmente similar em campanhas de marketing, ou ele pode encontrar os principais atributos que separam segmentos distintos de clientes. As técnicas mais conhecidas para o aprendizado não supervisionado são: k-médias, análise de componentes principais, clusterização hierárquica, decomposição em valores singulares, clusterização baseada em densi- dade, modelo de mistura Gaussiana entre outras. No Aprendizado por Reforço, oalgoritmo não recebe a resposta correta mas rece- be um sinal de reforço, de recompensa ou punição. O algoritmo faz uma hipótese baseado nos exemplos e determina se essa hipótese foi boa ou ruim. A aprendizagem por reforço foi inspirada por psicólogos comportamentais, que acreditavam na eficácia de recompensas e punições na educação dos seres humanos, e também lembra o adestramento de animais. Aprendizado por Reforço é bastante utilizado em jogos e robótica, jogos de navegação, máquinas que jogam xadrez e veículos autônomos. Cada modelo de aprendizado é descrito por Breve (2010), como: Aprendizado Supervisionado: Os algoritmos desta categoria deduzem uma função a partir dos dados de treinamento. Os dados de treinamento consis- tem de pares de exemplos de entradas e saídas desejadas. A saída pode ser um valor contínuo (regressão), ou pode predizer um rótulo de classe para o objeto de entrada (classificação). O objetivo é obter uma função que seja capaz de predizer a saída para qualquer entrada válida, após ter visto um número suficiente de exemplos de treinamento[...] Aprendizado Não Super- visionado: Os algoritmos desta categoria buscam determinar como os dados estão organizados. Os dados de treinamento consistem apenas de exem- plos de entrada, sem rótulos ou valores de saída. O objetivo é encontrar padrões no espaço de entradas. Uma das formas de atingir este objetivo é observar quais são as regiões com maior e menor densidade de dados. Aprendizado Semi supervisionado: Os algoritmos desta categoria fazem uso tanto de dados rotulados quanto de dados não rotulados para o treinamento, normalmente poucos dados rotulados e bastante dados não rotulados. Esta categoria está localizada entre o aprendizado supervisionado e o não super- visionado (BREVE, 2010, p. 13). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3 CONCEITOS ESSENCIAIS DE MACHINE LEARNING TÓPICO UNIDADE 3 MACHINE LEARNING Atualmente o Machine Learning está presente em diferentes áreas do conhecimen- to, entender os diferentes termos que tangenciam o Machine Learning, se torna relevante para profissionais de todas as áreas. Abaixo, seguem alguns dos principais termos que são utilizados no aprendizado de máquina. Acurácia - É definida como a proximidade de um resultado experimental com o seu valor de referência real, ou seja, o quão próximos da realidade são os resultados encon- trados de forma automatizada ou e soluções de inteligência artificial, determinado assim o grau de exatidão. Árvore de decisão (Decision Trees) - É um algoritmo de aprendizado de máquina supervisionado que é utilizado para classificação e para regressão. Ela estabelece nós(no- des) que se relacionam entre si por hierarquia. Ela fornece ao usuário final uma interpretação simples e desenham um caminho a ser percorrido para alcançar um determinado objetivo na árvore de decisão existe o nó-raiz (root node), que é o mais importante, e os nós-folha (leaf nodes), que são os resultados finais. No Machine Learning, o raiz é um atributo da base de dados e o nó-folha é a classe ou o calor que será gerado como resposta. Big data - O conceito se caracteriza por um grande volume de dados estruturados e não-estruturados, que nenhuma ferramenta convencional de gerenciamento de banco de dados ou gerenciamento de informações consegue armazenar os diferentes tipos de dados existentes como: Texto, Sensores, Navegação Web, Áudio, Vídeo, Arquivos de Log, e-mails, dados gerados por Redes Sociais, Arquivos XML, etc. Com este volume de dados acumulados, o mais importante é saber o que fazer com estes dados. UNIDADE 3 MACHINE LEARNING 48 Computação cognitiva - Descreve tecnologias baseadas nos princípios científicos, ela é considerada a evolução das aplicações de Inteligência Artificial, envolve mineração de dados, sistemas de autoaprendizagem utilizando Machine Learning, reconhecimento de padrões para imitar o funcionamento dos processos do pensamento humano de Pro- cessamento de Linguagem Natural (PLN), interação humano-computador e muito mais. Em computação cognitiva, um sistema ou dispositivo é treinado por algoritmos de ML ou algoritmos de Aprendizado Profundo (Deep Learning) com o objetivo de resolver problemas complexos, problemas que só são resolvidos pelo pensamento cognitivo humano. Data lake - Os dados que não foram transformados, que podem ser estruturados ou não estruturados necessitam de um repositório chamado Data Lake, ou seja, um reposi- tório sem nenhum tratamento, são os dados nativos, é uma visão não refinada dos dados. Existem também os Data Lakes que se tornam inacessíveis, pesados, caros e inúteis para os usuários são chamados de “data swamps”(pantano de dados). Data science - É uma área multidisciplinar do conhecimento, que visa estudar as informações, seu processo de captura, transformação, geração e, posteriormente, análise de dados. Resolve problemas reais de negócios, com o uso de métodos científicos e técni- cas avançadas de análise de dados, Machine Learning e Inteligência Artificial. Deep learning (dl) - Ou Aprendizagem Profunda, é uma das técnicas utilizadas pela Machine Learning para que a máquina consiga interpretar dados e aprender com eles. A base do Deep Learning é a utilização de Redes Neurais profundas, ou seja, são algoritmos complexos, que imitam a rede neural do cérebro humano. A principal aplicação dos algoritmos de Deep Learning são as tarefas de classificação, em especial, reconhe- cimento de imagens. NPL - PLN - Processamento de Linguagem Natural, é a forma como as máquinas entendem e lidam com as linguagens humanas, combinam ciência da computação, IA e lin- guística. Esta técnica lida com dados não estruturados de texto, ela é capaz de caracterizar e explicar toda a diversidade das observações linguísticas que envolvem conversas, escrita e outras mídias. Inteligência artificial - Camargo (1999, p. 57) estabelece que: a Inteligência Artifi- cial é o ramo da ciência da Computação que pesquisa a criação de sistemas inteligentes. A IA possui duas abordagens: uma científica, voltada ao estudo da psicologia cognitiva, para compreender os processos envolvidos na inteligência, e outra tecnológica, que lida com a representação destes processos através da máquina. UNIDADE 3 MACHINE LEARNING 49 FIGURA 01 - MARCO HISTÓRICO DOS AVANÇOS DA IA. Fonte: Tuples (2017) tradução de Crepaldi (2020) Redes neurais - As redes neurais são técnicas que simulam a forma do funcio- namento do cérebro humano, imitando as conexões entre os neurônios, esta técnica é utilizada na aprendizagem de máquina. A busca por um modelo computacional que simule o funcionamento das células do cérebro vem desde a década de 40. Para HAYKIN 2011, p. 32-36: “A habilidade de um ser humano em realizar funções complexas e principal- mente a sua capacidade de aprender advêm do processamento paralelo dis- tribuído da rede de neurônios do cérebro. Os neurônios do córtex, a camada externa do cérebro, são responsáveis pelo processamento cognitivo. Um novo conhecimento ou uma nova experiência pode levar a alterações estruturais no cérebro. Tais alterações são efetivadas por meio de um rearranjo das redes de neurônios, reforçando ou inibindo algumas sinapses.” As redes neurais refletem o comportamento do cérebro,permitindo que programas de computador reconheçam padrões e resolvam problemas comuns no campo da Inteligên- cia Artificial, Machine Learning e Deep Learning. UNIDADE 3 MACHINE LEARNING 50 Redes Neurais - O potencial desse método pode ser representado com o exemplo do Google Translate. Em 2016, o Google anunciou o uso do sistema de Tradução com Máquinas Neurais do Google (ou Google Neural Machine Translation – GNMT) para melhorar a qualidade da tradução. Antes, a tradução pegava palavras ou pedaços de frases independentes. Com a rede neural, o sistema tenta traduzir frases inteiras, utilizando o contexto mais amplo para descobrir a opção mais relevante. Com o tempo, o sistema consegui- rá oferecer traduções mais naturais e precisas. O GNMT foi aplicado em oito idiomas, inglês, francês, ale- mão, espanhol, português, chinês, japonês, coreano e turco, mas o objetivo é ampliar o uso e englobar as 103 línguas do Google Translate. Fonte: https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html https://research.googleblog.com/2016/09/a-neural-network-for-machine.html https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4 COMO FUNCIONA O MACHINE LEARNING ? TÓPICO UNIDADE 3 MACHINE LEARNING Atualmente, atividades como dirigir, investir, detectar anomalias e ameaças, recomendação de colheita, catalogar doenças, etc., não são mais executadas apenas por seres humanos. Utilizando Machine Learning, somos capazes de treinar sistemas na execução destas atividades com uma precisão e rapidez muito melhor que a dos seres humanos. Para a execução do Machine Learning são necessários muitos algoritmos e métodos estatísticos diferenciados. Algoritmos - Os algoritmos manipulados na aplicação de Machine Learning, utilizam a mesma lógica de algoritmos computacionais, podendo apresentar regras mais complexas ou mais simples. Quais são os algoritmos utilizados para a execução de Machine Learning? Cada algoritmo tem suas próprias características e vantagens e desvantagens, que vai depender do Cientista de Dados (profissional) conhecê-los para indicar o que melhor a determinada situação. Os algoritmos mais utilizados em Machine Learning são: a. Regressão linear; b. Regressão logística; c. Ridge regression; d. Lasso regression; e. Elastica net; f. KNN; g. Naive Bayes; UNIDADE 3 MACHINE LEARNING 52 h. Decision trees; i. K-means; j. Random Forest; k. Extratrees; l. Adaboost; m. Gradient Boosting; n. Nagging; o. SVM. Métodos - Dentre os vários métodos de Machine Learning disponíveis na literatura, os mais conhecidos são classificação, regressão e clustering. Classificação, são utilizados para a identificação do rótulo de determinadas obser- vações com base em características e informações previamente conhecidas. O método regressão é utilizado em algoritmos de aprendizagem supervisionada, que busca modelar relações entre variáveis dependentes e independentes através de mé- todos estatísticos. Agrupamento ou clustering utilizam um conjunto de dados não rotulados, este mé- todo encontra padrões e os dados são agrupados de acordo com as relações encontradas entre as variáveis. 4.1 Etapas da aprendizagem de máquina O processo para a construção de um modelo de Machine Learning é dividido de 04 a 07 etapas, dependendo do problema a ser resolvido, são elas: Coleta de dados, Preparação dos dados, Escolha do modelo, Treinamento, Avaliação, Aprimoramento dos parâmetros e Predição. 1. Coleta de dados - Após ter identificado o problema a ser resolvido e os equipa- mentos que serão utilizados, inicia-se a coleta de dados. É importante ressaltar que a quantidade e a qualidade das informações determina a aplicação da predição no modelo de machine learning. 2. Preparação de dados - Examinar a distribuição das informações coletadas se estão bem distribuídas ou são tendenciosas e verificar a necessidade de ajustes. É interessante evidenciar que nesta etapa exigirá conhecimentos de programação ou utilização de ferramentas de preparação de dados, por exem- plo Power BI, ClicData, IBM Cognos Analytics, Tableau e outros. UNIDADE 3 MACHINE LEARNING 53 3. Escolha do Modelo - É um arquivo que foi treinado para reconhecer determi- nados tipos de padrões. Os modelos mais utilizados são: Classificação binária, Classificação multi-classe e Classificação por regressão. A escolha do modelo deve estar de acordo com o objetivo inicial. 4. Treinamento - Aqui a máquina aprende com seus erros, e vai se aperfeiçoando. 5. Avaliação - Testar o modelo, para verificar se a máquina aprendeu com seus erros. Dependendo do desempenho do modelo no conjunto de dados, é possível verificar se haverá algum ajuste a ser realizado. 6. Aprimoramento dos Parâmetros - Identifica valores que afetam a exatidão do modelo, e o tempo de treinamento necessário. Criar as definições de um bom modelo. A etapa de aprimoramento deve ser contínua. 7. Predição - Quando a máquina que utiliza ML pode responder as perguntas para as quais ela foi treinada, ou seja, quando a máquina consegue antever os problemas. Uma área de crescente aplicação da automação é a de diagnósticos automáticos. Hoje já contamos com diagnósticos automáticos que são corretos e precisos, às vezes até mais precisos que os diagnósticos feitos pelos profissionais de saúde. A empresa iFlytek criou um robô que passou no exame nacional para licencia- mento de médicos da China (Saracco, 2017). O “Médico Assistente robô” registra os sintomas dos pacien- tes, analisa as imagens de tomografia computadorizada e faz o diagnóstico inicial. O robô não se destina a substituir médicos. Em vez disso, tem como objetivo ajudá-los e aumentar sua eficiência. Fonte: https://doi.org/10.1590/s0103-4014.2021.35101.007 https://doi.org/10.1590/s0103-4014.2021.35101.007 54 Entender um pouco mais sobre Machine Learning proporciona a construção de modelos preparados para analisar uma grande quantidade de dados com uma maior agili- dade, credibilidade e exatidão. O Machine Learning é baseado na construção de algoritmos que possibilita o treinamento da máquina para aprender como executar diferentes tipos de tarefas. Podemos compreender que a Inteligência Artificial levou ao desenvolvimento do Machine Learning e do Deep Learning, tecnologias que ampliam as possibilidades e as formas de atuação da IA. CONSIDERAÇÕES FINAIS UNIDADE 3 MACHINE LEARNING 55 CIENTISTAS DE DADOS USAM MACHINE LEARNING PARA DESCOBRIR TRATAMENTOS PARA O COVID-19 http://datascienceacademy.com.br/blog/cientistas-de-dados-usam-machine-lear- ning-para-descobrir-tratamentos-para-o-covid-19/ LEITURA COMPLEMENTAR UNIDADE 3 MACHINE LEARNING http://datascienceacademy.com.br/blog/cientistas-de-dados-usam-machine-learning-para-descobrir-tratamentos-para-o-covid-19/ http://datascienceacademy.com.br/blog/cientistas-de-dados-usam-machine-learning-para-descobrir-tratamentos-para-o-covid-19/ 56 MATERIAL COMPLEMENTAR UNIDADE 3 MACHINE LEARNING LIVRO Título: Machine Learning - Guia de Referência Rápida: Traba- lhando com Dados Estruturados em Python Autor: Matt Harrison. Editora: Novatec 1a Ed. Sinopse: Ideal para programadores, cientistas de dados e en- genheiros da área de IA, este livro apresenta uma visão geraldo processo de machine learning e da classificação com dados estruturados, será apresentado métodos para clustering, re- gressão e redução de dimensões, entre outros assuntos. FILME / VÍDEO Título: AlphaGo Ano: 2017. Sinopse: O Go é um milenar jogo de tabuleiro chinês e ofereceu um grande desafio aos desenvolvedores da Deep Mind por conta do caráter intuitivo que as jogadas possuem. Se um pro- grama pode calcular todas as jogadas possíveis em um jogo de xadrez e escolher a melhor, no Go essa estratégia não funciona. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Plano de Estudos • Entendendo Python; • Bibliotecas em Python utilizadas para Análise de Dados; • Ferramentas Python para Machine Learning. Objetivos da Aprendizagem • Compreender os benefícios de conhecer a linguagem Python; • Exibir as bibliotecas mais aplicadas na análise de dados com Python; • Explorar as ferramentas em Python empregadas no Machine Learn. 4UNIDADEUNIDADE PYTHON -PYTHON - PRINCÍPIOS PRINCÍPIOS PARA ANÁLISE PARA ANÁLISE DE DADOSDE DADOS Professora Me. Simone Regina da Silva 58 Nesta unidade será exposta uma introdução a linguagem de programação Python, que permite criar um caminho direto para análise de dados. Python é uma linguagem com uma curva de aprendizado muito simples e acessível, por isso se destaca no meio acadêmico. Ela possui bibliotecas para visualização dos dados que apresentam resulta- dos e previsões em qualquer área de negócio. Soluções inovadoras utilizando Machine Learning, requer uma Linguagem de Programação como o Python que é capaz de aplicar com veracidade quais os dados utilizar e quais os dados retornar. A escolha da linguagem de programação é muito subjetiva, pois depende de muitos fatores técnicos e do negócio, então é importante conhecer os recursos de outras linguagens de programação utilizadas na análise de dados para que o seu objetivo seja atingido. INTRODUÇÃO UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A linguagem Python foi idealizada no final dos anos 80 e sua implementa- ção iniciou-se em dezembro de 1989, pelo desenvolvedor Guido van Rossum no CWI (Centrum Wiskunde & Informatica) que é o Centro de Matemática e Computação, em Amsterdã na Holanda. Python é orientada a objetos, é interpretada, de script, imperativa, funcional e de forte tipagem e dinâmica. É gratuita e seu objetivo é de ser utilizada para as mais distintas aplicações, e pode ser executada em diferentes plataformas, característica de uma lingua- gem interpretada. Uma linguagem de programação pode ser uma linguagem compilada ou interpretada. Ambas recebem códigos que são compreendidos pelos seres humanos e o convertem para a linguagem de máquina. Uma linguagem compilada, a máquina destino traduz o código fonte diretamente, ou seja, é processada por um compilador diretamente do código-fonte para a linguagem de máquina específica para um processador e para um sistema operacional. Já na linguagem interpretada, o código fonte não é traduzido diretamente na máquina destino, ela apresenta um programa, denominado interpretador, que lê e executa o código, ou seja o interpretador é convertido em código executável, o qual será executado por uma máquina virtual. 59 1 ENTENDENDO PYTHON TÓPICO UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS FIGURA 01 - EXECUÇÃO DO PYTHON Fonte: https://acervolima.com/compreendendo-a-execucao-do-programa-python/ Uma máquina virtual permite a aplicação do código fonte em sistemas operacionais distintos, ou seja, um ambiente virtual empacota todas as dependências que um projeto necessita e armazena em um diretório, cada projeto pode possuir seu próprio ambiente e por consequência suas bibliotecas. O venv é o módulo usado para criar e gerenciar ambientes virtuais no Python, ele irá instalar a versão mais recente do Python. Outras vantagens da linguagem Python são os pacotes exclusivos para a utilização de Data Science como o scikit-learn, que é uma biblioteca de Machine Learning. E também as bibliotecas NumPy e Pandas para análise de dados. 1.1 Benefícios de aprender Python A linguagem de programação Python está presente nas maiores plataformas de redes sociais, serviços de streaming, navegadores, desenvolvimento web, desenvolvi- mento de aplicativos, automação, fintechs, machine learning, data science entre outros. A tecnologia está presente no Instagram, Facebook, Reddit, Netflix, Spotify, Google e muitos outros e roda em diferentes sistemas operacionais, como Windows, MacOs, distribuições Linux, Solaris, Unix. Abaixo são apresentados alguns dos benefícios na utilização da linguagem Python: a. Python é uma das predominantes linguagens de programação Python ocupou o terceiro lugar no ranking mundial das linguagens de programação, segundo a pesquisa de 2021 Stack Overflow por ser uma linguagem de fácil aprendizado, gratuita e pelo grande número de projetos inovadores que utilizam Python. 60UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS https://acervolima.com/compreendendo-a-execucao-do-programa-python/ b. Aumento das oportunidades de vagas de trabalho com conhecimentos em Python Apesar da linguagem ter sido amplamente difundida nos meios acadêmicos e no mercado de trabalho, ainda existe uma carência por profissionais com conhecimento mais aprofundado nas diversas aplicações que utilizam Python, como por exemplo desenvolve- dores full-stack. c. Diversidade de bibliotecas e estruturas Por ser uma linguagem open source (código aberto), ela pode ser acessada ou mo- dificada por qualquer pessoa que tenha conhecimento em programação, e assim consegue contribuir com novas bibliotecas em diversos campos de atuação. Em abril/2022, já exis- tiam mais de 127.000 bibliotecas, que facilitam a vida dos programadores com diferentes propósitos. d. Python aplicado ao Data Science A diversidade de bibliotecas disponíveis para Python, como Pandas, Numpy e Seaborn, possibilitam a exploração de dados muito mais simples. Projetos que envolvem Inteligência Artificial, têm à disposição bibliotecas prontas para criar modelos com a finali- dade de treinar e implementar soluções inovadores. e. Inteligência artificial e machine learning As bibliotecas Theano, Scikit-learn, Tensorflow são muito eficazes na programação de Machine Learning, já a biblioteca Keras é uma biblioteca de Rede Neural para aplicações de Inteligência Artificial. f.Desenvolvimento da Web com Python Diversas páginas e aplicações web popularmente conhecidas utilizam Python para o desenvolvimento de suas aplicações. g. Python comunidade Python possui uma grande comunidade, onde é disponibilizada toda a documenta- ção de bibliotecas, fóruns, tutoriais e cursos gratuitos, onde está disponível para qualquer programador consultar material e solicitar ajuda. 61UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS h. Interfaces Gráficas (GUI) criadas em Python Python possui diversas ferramentas e frameworks para criação de GUI, como por exemplo o Kivy, WxWidgets, Tkinter e outras i. Python é empregado para “Scripting and Automation” Scripting and Automation - Python pode ser utilizado como uma linguagem de scrip- ts, que podem automatizar diferentes tarefas reduzindo o tempo de processos. Essas são algumas dos incentivos de se utilizar Python, por apresentar uma sin- taxe simples, reduz o tempo de codificação de código, disponibilizando assim mais tempo para a análise de dados realizada por Cientistas de Dados. Outra vantagem é o número reduzido de palavras reservadas no código, o uso de indentação, possui um coletor de lixo automático que gerencia a memória. 62UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Para realizar a análise de dados, é obrigatório a extração e a organização dos dados, e como vimos, esses dados podem vir de inúmeras fontes e com distintos tipos de dados como: arquivos de texto, planilhas, email, xml, json, linguagem de banco de dados e outros. As bibliotecas mais empregadas para análise de dados com Python são: ● NumPy; ● Pandas; ● Matplotlib. Fonte: https://numpy.org/ 2.1 Numpy - A biblioteca Numpy é usada amplamente por outras bibliotecas, ela foi criada baseada nos projetos Numeric e Numarray. Seu objeto primordial é o vetor n-dimensional, ou ndarray. Um vetor n-dimensional, também é conhecido como tensor. A principal característica do ndarray é que ele deve ser homogêneo, ou seja, todos os elementos de mesmo tipo de dados. 63 2 BIBLIOTECAS EM PYTHON UTILIZADAS PARA ANÁLISE DE DADOS TÓPICO UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS https://numpy.org/ Numpy fornece várias funções e operações para a execução de cálculos numéricos como multiplicação de arrays, transposição adição manipulação de matrizes, estatísticas des- critivas, manipulação de dados, manipulação de imagem entre outros tipos de processamento. O Numpy desempenha cálculos numéricos para executar: Modelos de Machine Learning, Processamento de Imagem e Computação Gráfica, Tarefas matemáticas. Exemplos utilizando a biblioteca numpy: Fonte: O autor (2022). O tensor notas, possui 1 dimensão com 5 elementos, é chamado de tensor unidi- mensional que corresponde a um vetor. Já um tensor bidimensional corresponde a uma matriz usando o atributo shape Fonte: O autor (2022). Fonte: https://pandas.pydata.org/ 64UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS https://pandas.pydata.org/ 2.2 Pandas - Os objetos mais significativos da biblioteca são: as Séries e os Data- Frames. Séries são matrizes unidimensionais que contém uma sequência de valores que apresentam uma indexação, que podem ser de qualquer tipo (inteiro, string, float, objetos python e etc.), a série é parecida com uma única coluna do Excel. Fonte: O autor (2022). No exemplo acima, a biblioteca Pandas retorna a array serializado com índice. Todos os índices iniciam na posição 0 (zero). Outro exemplo usando séries com a coluna de quantidade de alunos (20,15,,85,145,320). Fonte: O autor (2022). Já o Pandas Dataframe é uma biblioteca do Python, que é apresentado na forma de um quadro de dados que é uma estrutura de dados bidimensional, ou seja, são organiza- dos em uma tabela em linhas e colunas. O Pandas Dataframe é composto de 03 elementos principais: dados, linhas e colunas. Exemplos de Dataframes: Fonte: O autor (2022). 65UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS Portanto, Séries são colunas e DataFrames são tabelas. As principais funções do Pandas para manipulação de DataFrames são: read_cvs (); head (); memory_usage (); describe (); loc [:]; astype (); value_counts (); sort_values (); drop_duplicates () e merge (). O Pandas é um divisor de águas no que diz respeito à análise de dados com o Python e é uma das ferramentas mais preferidas e amplamente usadas em munging / wrangling (mesclagem de dados) de dados, se não o mais usado. O Pandas é um código aberto, de uso livre (sob uma licença BSD) e foi originalmente escrito por Wes McKinney. O que é interessante no Pandas é que ele pega dados (como um arquivo CSV ou TSV ou um banco de dados SQL) e cria um objeto Python com linhas e colunas chamado quadro de dados que se parece muito com a tabela de um software estatístico. Fonte: https://matplotlib.org/stable/gallery/index.html 2.3 MatplotLib - é uma biblioteca de visualização de dados do Python. É uma API (Application Programming Interface - Interface de Programação de Aplicação) orientada a objetos que permite a criação de gráficos 2D com poucos comandos. A ferramenta permite a elaboração de diversos tipos de gráficos, como em barra, em linha, em pizza, histogramas entre outras opções. Com o Matplotlib é possível criar visualizações estáticas, animadas e interativas. Pode-se trabalhar estilos gráficos, cores, exibição e diversas outras aplicações. Exemplo utilizando o matplotlib: 66UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS https://en.wikipedia.org/wiki/Wes_McKinney https://matplotlib.org/stable/gallery/index.html Fonte: O autor (2022). 67UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS 68UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS Panda3D - A estrutura de código aberto para renderização 3D e jogos. O Panda3D é um mecanismos de código aberto e totalmente gratuito para jogos 3D em tempo real, visuali- zações, simulações, experimentos. Panda3D é um motor de jogo 3D para Microsoft Windows, Linux, e Mac OS X. O núcleo do motor é escrito em C++ e foi desenvolvido para ser usado com Python. Fonte: https://www.panda3d.org/ https://www.panda3d.org/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . O Machine Learning (aprendizado de máquina) está entre as direções principais e mais prospectivas no nicho de desenvolvimento de software. O conceito ajuda a automa- tizar convenientemente vários processos de trabalho (incluindo o processamento de Big Data ), aprimora a precisão dos resultados de previsão dos negócios e otimiza a cadeia de suprimentos etc. Além disso, o ML é uma base para aplicativos que apresentam oreconhecimento de sinais de voz (sons, fala), recursos faciais e outros objetos que não podem ser identificados com a ajuda de fórmulas matemáticas de linha única e expressões booleanas simples. Existem muitas ferramentas para ajudar na criação de soluções baseadas no aprendizado de máquina na linguagem de programação Python. Na sequência serão apre- sentadas as ferramentas de ML mais eficientes e renomadas, além de outros aspectos importantes da ML. 69 3 FERRAMENTAS PYTHON PARA MACHINE LEARNING TÓPICO UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS https://en.wikipedia.org/wiki/Machine_learning 3.1 Ferramentas de software para a criação de soluções baseadas em ML TensorFlow Filho da equipe do Google, o Tensorflow é uma das estruturas Python mais avançadas que implementam algoritmos profundos de aprendizado de máquina. Sistema utilizado para criação e treinamento de redes neurais. Apesar de sua alta curva de aprendizado, o produto pode fornecer aos desenvolvedores vá- rios recursos (como alternativa, você pode escolher entre outras estruturas populares de aprendizado de máquina com curvas de aprendizado mais acentuadas, como o Theano). Em particular, o Tensorflow apresenta ferramentas que permitem executar a análise de dados de entrada com a ajuda de dados enciclopé- dicos e os dados analisados anteriormente durante a interação com determinados usuários (supervisores). Shogun Shogun é uma biblioteca de software de aprendizado de máquina de código-fonte aberto, escrita em C ++. Ele oferece numerosos algoritmos e estruturas de dados para problemas de aprendizado de máquina. Oferece interfaces para Octave, Python, R, Java, Lua, Ruby e C # essa disponibilidade para muitas linguagens de programação é devido ao SWI (Wrapper Simplificado e Gerador de Interface). É baseado no SVM (Support Vector Machines). Essa ferramenta pode ser usada com o mínimo esforço através da nuvem e fornece a realização eficiente e simples de todos os scripts gerais de ML. Keras Uma API de nível superior, o Keras é perfeito para iniciantes. É usado para a criação de redes neurais artificiais que imitam o processo de memória, semelhante ao que ocorre nos neurô- nios humanos. Este produto é facilmente integrado ao Theano, TensorFlow e CNTK e permite a criação de soluções nodulares abertas ao dimensionamento. 70UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS https://www.tensorflow.org/ http://www.shogun-toolbox.org/ https://keras.io/ Scikit-Learn Essa API fornece meios acessíveis e eficientes para análise de dados intelectuais. Com base em ferramentas especializadas como NumPy, SciPy e Matplotlib (que já foram apresentados), essa API é basicamente um assistente universal na resolução de tarefas de classificação, regressão e clusterização. Theano O Theano é uma das estruturas de aprendizado de máquina mais renomadas do Python. Foi criado para o processamento de matrizes multidimensionais. Está intimamente integrado à so- lução de computação mais antiga NumPy. Os desenvolvedores adoram a Theano por seu rápido desempenho fornecido pelo emprego de uma GPU adicional durante os cálculos, bem como pelo prático recurso de teste de unidade. NLTK A plataforma gratuita Natural Language Toolkit é uma solução universal para processamento de fala em humanos. A NLTK (Na- tural e Text Analytics), pode ser usada mesmo para a criação de software estritamente especializado que requer identificação de terminologia difícil ou expressões de dialeto. O NLTK é compatí- vel com os sistemas operacionais Linux, Windows e Mac OS X. Gensim Um produto de código aberto, o Gensim é usado pelos desenvol- vedores para modelar espaços vetoriais em Python e é baseado nas bibliotecas NumPy e SciPy. O software é adaptado para tra- balhar com grandes volumes de dados digitais, demonstrando ótimo desempenho e taxas racionais de consumo de memória. 71UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS http://scikit-learn.org/stable/index.html http://deeplearning.net/software/theano/ https://www.nltk.org/ https://radimrehurek.com/gensim/ SciPy SciPy é uma biblioteca gratuita criada para implementar cálcu- los matemáticos e de engenharia complexos. Inclui os pacotes NumPy, IPython e Pandas, que fornecem uma abordagem abran- gente para resolver tarefas científicas de várias etapas quando combinadas. Particularmente, ele fornece todas as funções pa- drão de análise matemática (por exemplo, cálculo de extremos, solventes de equações diferenciais, solventes integrais), além de capacidades bastante específicas, como reconhecimento de gesto e imagem. O SciPy será uma ótima opção para quem costuma trabalhar com o MATLAB. Dask Este produto permite a implementação de processos de análise de dados multidimensionais. É por isso que é frequentemente empregado na criação de aplicativos de previsão. Além disso, é integrado com o NumPy, o Pandas e o Scikit-Learn. O Dask exe- cuta o paralelismo dos cálculos, permitindo o dimensionamento de aplicativos com base nos pacotes mencionados além dos limites de um único computador (por exemplo, pode se espalhar pelos clusters distribuídos). Numba O Numba é um compilador JIT, que traduz um subconjunto de Python e Numpy em código de máquina rápido usando LLVM. É uma solução bem importante para quem usa algoritmos de aprendizado de máquina capacitivo. Ele oferece uma diversi- dade para paralelizar código Python para CPUs e GPUs, com mínimas alterações de código. de opções Basicamente, ele emprega as capacidades do compilador LLVM para converter o código Python em binário em modo acelerado. 72UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS https://www.scipy.org/ https://dask.pydata.org/en/latest/ https://numba.pydata.org/ HPAT (High Performance Analytics Toolkit) O HPAT também é um compilador que aumenta a performance do software que atua em grandes volumes de dados, porque opera grandes volumes de dados. É uma distribuição de análise de big data de código aberto, que acelera a análise de dados e o aprendizado de máquina em clusters. A grande vantagem das ferramentas de Machine Learning é a colaboração para com os programadores que estão iniciando na área de Análise de Dados. É muito im- portante que se realizem as perguntas certas e que procurem os dados nos lugares adequados, e também que seja realizado um estudo para escolher qual ferramenta irá atender ao seu propósito. Google Colab Google Colab ou Google Colaboratory - é uma ferramenta em nuvem que permite criar e executar códigos na linguagem Py- thon. Com ele, você pode rodar os programas diretamente do seu navegador. O Google Colab oferece um ambiente bastante semelhante ao software de código aberto Júpiter Notebook, com a vantagem de não necessitar que seja realizada a ins- talação localmente e não requer configurações. Para criar seu notebook no Colaboratory é preciso ter uma conta do Google, com ela você terá acesso ao Google Colab e ao Google Drive, que permite salvar seus códigos na nuvem, acesse a plataforma https://colab.research.google.com/, faça seu cadastro e comece a programar em Python, sem a preocupação de instalação. 73UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS https://github.com/IntelLabs/hpat https://colab.research.google.com/ 74UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS Localização de novos planetas Um artigo científico publicado por Shallue e Vanderburg no The Astronomical Journal apresentou, em 2018, um método para identificar novos planetas usando Deep Learning. Esse estudo conjunto entre cientistas da Nasa e do Google analisou perturbações orbitais mínimas detecta- das pelo Telescópio Kepler, e descobriu um sistema com 8 planetas desconhecidos. Fonte: https://sigmoidal.ai/deep-learning-e-python-aplicacoes-no-espaco/ https://sigmoidal.ai/deep-learning-e-python-aplicacoes-no-espaco/ 75 Finalizamosa última unidade da disciplina, expomos uma pequena parte dos recur- sos da linguagem Python que é uma linguagem muito fácil de aprender, e tem uma sintaxe simples, permitindo explorar inúmeros recursos. Apresentamos as bibliotecas principais da linguagem Python: Numpy, Pandas e Matplotlib, e algumas ferramentas para a utilização de machine learning. Esperamos que o conteúdo apresentado desperte em vocês a vontade de conhecer mais sobre Análise de Dados. Bons estudos e até a próxima. CONSIDERAÇÕES FINAIS UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS 76 LIVRO Título: Python Para Análise de Dados: Tratamento de Dados com Pandas, NumPy e IPython Autor: Wes McKinney. Editora: Novatec/2018. Sinopse: Instruções completas para manipular, processar, limpar e extrair informações de conjunto de dados em Python, este guia prático está repleto de casos de estudo que mostram como resolver um amplo conjunto de problemas de análise de dados de forma eficiente. FILME / VÍDEO Título: Transcendence — A revolução Ano: 2014. Sinopse: Esse filme, une computação quântica e nanotecnologia à inteligência artificial. Na trama, o Dr. Will Caster (Johnny Depp) é um grande pesquisador no campo da IA e vem conquistando grandes avanços na área. Esses avanços tornam o principal alvo de extremistas anti-tecnologia. MATERIAL COMPLEMENTAR UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS 77 REFERÊNCIAS BIBLIOGRÁFICAS 5 BENEFÍCIOS ao usar data science no marketing digital. DSAcademy, 2022. Disponível em: https://blog.dsacademy.com.br/5-beneficios-ao-usar-data-science-no-marketing_digital/ Acesso em 10/12/2002. AMARAL, F. Aprenda Mineração de Dados: Teoria e prática. 1ª. ed. Rio de Janeiro: Alta Books, 2016a. AMARAL, F. Introdução à Ciência de Dados. Mineração de Dados e Big Data, 2015. BATANERO, Carmen et al.Training Teachers to tech probability. Journal of Statistics Education, San Luis Opispo, California, v.12, n.1, 2004. BEM-VINDO AO APACHE PIG! Pig. Apache, 2021. Disponível em: http://pig.apache.org/ Acesso em 10/10/2022 BERNSTEIN, PHILIP A.; HAAS, LAURA M. Information integration in the Enterprise. 2008. BREVE, F. A. Aprendizado de máquina em redes complexas. Tese (Doutorado em Ciên- cias de Computação e Matemática Computacional) - Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2010. CAMARGO, K. G. Inteligência Artificial Aplicada a Nutrição na Prescrição de Planos Alimentares. 1999. 252 f. Dissertação (mestrado em engenharia) – Universidade Federal de Santa Catarina – UFSC, Florianópolis, 1999. CIÊNCIA de dados: o que é, conceitos e definição. Cetax, 2022. Disponível em: https:// www.cetax.com.br/blog/data-science-ou-ciencia-de-dados/ Acesso em 18/03/2022. CIÊNCIA e dados - data science for professionals. Cienciadedados, 2015. Disponível em : https://www.cienciaedados.com/predictive-analytics/ Acesso em 15/09/2022. https://blog.dsacademy.com.br/5-beneficios-ao-usar-data-science-no-marketing_digital/ http://pig.apache.org/ https://www.cetax.com.br/blog/data-science-ou-ciencia-de-dados/ https://www.cetax.com.br/blog/data-science-ou-ciencia-de-dados/ : https:/www.cienciaedados.com/predictive-analytics/ : https:/www.cienciaedados.com/predictive-analytics/ 78 DEAN, JEFFREY, & GHEMAWAT, SANJAY. MapReduce: Simplified Data Processing on Large Clusters. Symposium on Operating System Design and Implementation. 2004 DEEP LEARNING BOOK. Deeplearningbook.com. Disponível em: http://www.deeplearnin- gbook.com.br/.Acesso em 03/04/2020 FACELI, K. et al. Inteligência Artificial: uma Abordagem de Aprendizado de Máquina. ed.2 .ed. LCT. 2021. FAYYAD, U.M. et al. From data mining to Knowledge discovery: an overview. In: Advan- ces in Knowledge discovery and data mining California: AAAI/The MIT, 1996 p.1-34. FINLAY, Steven. Predictive Analytics, Data Mining and Big Data. Myths, Misconcep- tions and Methods (1ed) Basingstoke: Palgrave Macmilian. 2014. FREITAS, A. L, SANTANA O.V.J. Machine Learning: Desafios para um Brasil compe- titivo, qual é o papel que o Brasil deve desempenhar nessa significativa evolução científica e tecnológica? - Revista Computação Brasil - Revista da Sociedade Brasileira de Computação. n.39 ed.1. 2019. GATES, ALAN. Programming Pig. O’Reilly Media, Inc. 2011. HAYKIN, S. Redes neurais: princípios e prática, Porto Alegre: Bookman, 2011. HOFFMAN, K. Douglas, BATESON, E.G. John. Essentials of Services Marketing. Texas: The Dryden Press, 1997. KIMBALL, RALPH. The Data Warehouse ETL Toolkit. 2004. KWIATKOWSKA, Julia. Cross-selling and Up-selling in bank. Copernican Journal of Fi- nance & Accounting, 2018. LIU, XIUFENG, THOMSEN, CHRISTIAN, & PEDERSEN, TORBEN BACH. ETLMR: A Highly Scalable Dimensional ETL Framework based on MapReduce. Proceedings of 13th International Conference on Data Warehousing and Knowledge, Toulouse, France. 2011. http://www.deeplearningbook.com.br/ http://www.deeplearningbook.com.br/ 79 MACHINE LEARNING - O QUE É E QUAL SUA IMPORTÂNCIA?. Sas.com, 2020 Dispo- nível em: https://www.sas.com/pt_br/insights/analytics/machine-learning.html. Acesso em 01/04/2020. O QUE É ETL – EXTRACT TRANSFORM LOAD? Cetax, 2022. Disponível em : https:// cetax.com.br/etl-extract-transform-load/ . Acesso em 25/09/2022 O QUE É MACHINE LEARNING E COMO FUNCIONA?. Transformacaodigital.com, 2018. Disponível em: https://transformacaodigital.com/dados/o-que-e-machine-learning-e-como- -funciona/. Acesso em 01/04/2020. PORTO, Sarah. Fundamentos de python para análise de dados. geekhunter. 2020. Dispo- nível em : https://blog.geekhunter.com.br/fundamentos-de-python-para-analise-de-dados/. Acesso em 10/08/2022. R OU PYTHON PARA ANÁLISE DE DADOS? Cienciadedados.com, 2018. Disponível em: http://www.cienciaedados.com/r-ou-python-para-analise-de-dados/. Acesso em: 03/04/2020 SARACCO, R. Congrats Xiaoyi. You are now a medical doctor. IEEE Future Directions. 2017. Disponível em: <https://cmte.ieee.org/futuredirections/2017/12/02/congrats-xiaoyi- -you-are-now-a-medical-doctor/>. Acesso em: 09 fev. 2023. SCHMARZO, Bill, Understanding How Data Powers Big Business. Ed. Wiley, 2013. SIEGEL, Eric. predictive Analytics: The Power to Predict who will click, buy, lie, or Die(1ed.). 2013. SIEGEL, I.F. Linguagem Python e suas aplicações em Ciência de Dados – Universida- de Federal Fluminense. 2018 THOMSEN, C., & PEDERSEN, T. B. pygrametl: A Powerful Programming Framework for Extract - Transform-Load Programmers. In Proc. of DOLAP. 2009. TUPLES, E.. Difference Between Artificial Intelligence, Machine Learning and Deep Learning. buZZrobot, 2017. D VICTÓRIA, Penélope. Qual a melhor linguagem para ciência de dados? geekhunter, 2021. Disponível em : https://blog.geekhunter.com.br/qual-a-melhor-linguagem-para-ciencia-de-dados/ Acesso em 15/08/2022 https://www.sas.com/pt_br/insights/analytics/machine-learning.html. https://cetax.com.br/etl-extract-transform-load/ https://cetax.com.br/etl-extract-transform-load/ https://transformacaodigital.com/dados/o-que-e-machine-learning-e-como-funciona https://transformacaodigital.com/dados/o-que-e-machine-learning-e-como-funciona/ https://transformacaodigital.com/dados/o-que-e-machine-learning-e-como-funciona/ https://blog.geekhunter.com.br/fundamentos-de-python-para-analise-de-dados/ http://www.cienciaedados.com/r-ou-python-para-analise-de-dados/ <https://cmte.ieee.org/futuredirections/2017/12/02/congrats-xiaoyi-you-are-now-a-medical-doctor/> <https://cmte.ieee.org/futuredirections/2017/12/02/congrats-xiaoyi-you-are-now-a-medical-doctor/> https://blog.geekhunter.com.br/qual-a-melhor-linguagem-para-ciencia-de-dados/ 80 Prezado (a) aluno (a), Nesta disciplina conseguimos verificar que a área de ciência de dados surge mo- tivada pela necessidade de compreender os processos nos quais os dados se encontram e ter uma boa interpretação que seja capaz de trazer resultados para embasar decisões estratégicas. Ciência de dados é a junção entre várias áreasde conhecimento, como esta- tística, computação e conhecimento do negócio. Foi apresentado como são realizados a extração, a transformação e o carregamento dos dados - ETL - e entendemos a importância do seu funcionamento. Podemos entender que a Inteligência Artificial levou ao desenvolvimento do Machine Learning e do Deep Learning, tecnologias que ampliam as possibilidades e as formas de atuação da IA. Portanto, o conteúdo exposto nesta disciplina, consiste no passos iniciais para o conhecimento na área de Análise de Dados, existem inúmeras ferramentas para um aprendizado mais profundo, deixamos como recomendação às bibliotecas scikit-learn e Gensim consideradas relevantes para os que desejam um conhecimento mais elevado na área de Ciência de Dados. CONCLUSÃO GERAL ENDEREÇO MEGAPOLO SEDE Praça Brasil , 250 - Centro CEP 87702 - 320 Paranavaí - PR - Brasil TELEFONE (44) 3045 - 9898 Site UniFatecie 3: Botão 11: Botão 10: Botão 9: Botão 8: Unidade 01: Unidade 02: Unidade 03: Unidade 04: