Introdução à Ciência de Dados (UniFatecie)

breadcrumb-separator

Outros

em 08/06/2024

Conteúdos escolhidos para você

Fundamentos de Big Data

Fundamentos de Big Data

Uniasselvi

Avaliação da Disciplina (Cod645440) Corrigido

Avaliação da Disciplina (Cod645440) Corrigido

UNIASSELVI

Noções Gerais de Mineração de Dados

Noções Gerais de Mineração de Dados

ESTÁCIO

Avaliacao da Disciplina - big data

Avaliacao da Disciplina - big data

ESTÁCIO

Avaliação da Disciplina

Avaliação da Disciplina

IFSC

Perguntas dessa disciplina

Nome: Sistemas de Informações Gerenciais - Unidade: 1 Questões 1) Os dados podem se apresentar por meio de vários formatos, inclusive os tradiciona...

ESTÁCIO

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

ESTÁCIO

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

ESTÁCIO

Pergunta 1 Os sistemas de informação desempenham um papel crucial nas operações e no sucesso das empresas modernas. Eles são essenciais para diversas

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que um...

UNIP

Material

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

Fundamentos de Big Data

Fundamentos de Big Data

Uniasselvi

Avaliação da Disciplina (Cod645440) Corrigido

Avaliação da Disciplina (Cod645440) Corrigido

UNIASSELVI

Noções Gerais de Mineração de Dados

Noções Gerais de Mineração de Dados

ESTÁCIO

Avaliacao da Disciplina - big data

Avaliacao da Disciplina - big data

ESTÁCIO

Avaliação da Disciplina

Avaliação da Disciplina

IFSC

Perguntas dessa disciplina

Nome: Sistemas de Informações Gerenciais - Unidade: 1 Questões 1) Os dados podem se apresentar por meio de vários formatos, inclusive os tradiciona...

ESTÁCIO

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

ESTÁCIO

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

ESTÁCIO

Pergunta 1 Os sistemas de informação desempenham um papel crucial nas operações e no sucesso das empresas modernas. Eles são essenciais para diversas

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que um...

UNIP

Prévia do material em texto

INTRODUÇÃO À
CIÊNCIA DE DADOS
Professora Me. Simone Regina da Silva
 REITOR Prof. Ms. Gilmar de Oliveira
 DIRETOR DE ENSINO PRESENCIAL Prof. Ms. Daniel de Lima
 DIRETORA DE ENSINO EAD Prof. Dra. Giani Andrea Linde Colauto 
 DIRETOR FINANCEIRO EAD Prof. Eduardo Luiz Campano Santini
 DIRETOR ADMINISTRATIVO Guilherme Esquivel 
 SECRETÁRIO ACADÊMICO Tiago Pereira da Silva
 COORDENAÇÃO DE ENSINO, PESQUISA E EXTENSÃO Prof. Dr. Hudson Sérgio de Souza
 COORDENAÇÃO ADJUNTA DE ENSINO Prof. Dra. Nelma Sgarbosa Roman de Araújo
 COORDENAÇÃO ADJUNTA DE PESQUISA Prof. Ms. Luciana Moraes
 COORDENAÇÃO ADJUNTA DE EXTENSÃO Prof. Ms. Jeferson de Souza Sá
 COORDENAÇÃO DO NÚCLEO DE EDUCAÇÃO A DISTÂNCIA Prof. Me. Jorge Luiz Garcia Van Dal
 COORDENAÇÃO DOS CURSOS - ÁREAS DE GESTÃO E CIÊNCIAS SOCIAIS Prof. Dra. Ariane Maria Machado de Oliveira
 COORDENAÇÃO DOS CURSOS - ÁREAS DE T.I E ENGENHARIAS Prof. Me. Arthur Rosinski do Nascimento
 COORDENAÇÃO DOS CURSOS - ÁREAS DE SAÚDE E LICENCIATURAS Prof. Dra. Katiúscia Kelli Montanari Coelho 
 COORDENAÇÃO DO DEPTO. DE PRODUÇÃO DE MATERIAIS Luiz Fernando Freitas
 REVISÃO ORTOGRÁFICA E NORMATIVA Beatriz Longen Rohling 
 Caroline da Silva Marques
 Carolayne Beatriz da Silva Cavalcante 
 Eduardo Alves de Oliveira
 Jéssica Eugênio Azevedo
 Kauê Berto
 Marcelino Fernando Rodrigues Santos
 PROJETO GRÁFICO E DIAGRAMAÇÃO André Dudatt
 Vitor Amaral Poltronieri
 ESTÚDIO, PRODUÇÃO E EDIÇÃO André Oliveira Vaz 
 DE VÍDEO Carlos Henrique Moraes dos Anjos 
 Pedro Vinícius de Lima Machado
 
 
 
FICHA CATALOGRÁFICA
 Dados Internacionais de Catalogação na Publicação - CIP
S586i Silva, Simone Regina da
 Introdução à ciência de dados / Simone Regina da Silva.
 Paranavaí: EduFatecie, 2023. 80 p.
 
1. Processamento eletrônico de dados. 2. Mineração de dados
 (Computação). Python (Linguagem de programação de 
 computador) . I. Centro Universitário UniFatecie. II. Núcleo de
 Educação a Distância. III. Título. 
 
 CDD: 23. ed. 006.312
 
 Catalogação na publicação: Zineide Pereira dos Santos – CRB 9/1577
As imagens utilizadas neste material didático 
são oriundas dos bancos de imagens 
Shutterstock .
2023 by Editora Edufatecie. Copyright do Texto C 2023. Os autores. Copyright C Edição 2023 Editora Edufatecie.
O conteúdo dos artigos e seus dados em sua forma, correção e confiabilidade são de responsabilidade exclusiva
dos autores e não representam necessariamente a posição oficial da Editora Edufatecie. Permitido o download da 
obra e o compartilhamento desde que sejam atribuídos créditos aos autores, mas sem a possibilidade de alterá-la 
de nenhuma forma ou utilizá-la para fins comerciais.
https://www.shutterstock.com/pt/
3
AUTORA
Professora Simone Regina da Silva
Possuo graduação em Processamento de Dados pela Universidade de Taubaté 
(UNITAU), Especialista em Sistemas de Informação pela Universidade Estadual de Marin-
gá(UEM), Especialista em Data Science pela Faculdade Eficaz de Maringá e Mestrado em 
Informática Gerenciamento de Sistema de Informação pela Pontifícia Universidade Católica 
de Campinas (PUCCAMP-2003). Conclui o Curso preparatório para a certificação PMP. 
Presto Serviços Técnicos Especializados, Avaliador de Curso e Institucional - INEP, nas 
modalidades presencial e a distância. Em empresas de TI, trabalhou na Elotech Gestão 
Pública como Gerente de Projetos nas áreas de Gestão Educacional, Gestão de Saúde 
e Gestão de Ação Social, e na UDS Informática atuando como Gerente de Projetos. Na 
Faculdade Vincit atuou como Coordenadora do Curso de Análise e Desenvolvimento de 
Sistemas e Professora Conteudista na elaboração de e-books. Atualmente é professora de 
Informática no IFSC- Campus Tubarão.
INFORMAÇÕES RELEVANTES
• Formação Acadêmica; Tecnólogo em Processamento de Dados;
• Níveis de Titulação; Especialização e Mestrado;
• Instituições Frequentadas;Unipar, Fasul, Unicesumar, FCV, Vincit e Faculdade Eficaz;
• CURRÍCULO LATTES: http://lattes.cnpq.br/1746684914211305
http://lattes.cnpq.br/1746684914211305 
4
Caro aluno, neste material abordaremos temas relativos à área de Data Science, 
que é o estudo disciplinado dos dados e informações características ao negócio e todas 
as visões que podem cercar um determinado assunto. É uma ciência que estuda as infor-
mações, seu processo de captura, transformação, geração e, posteriormente, análise de 
dados. A ciência de dados envolve diversas disciplinas: Computação; Estatística; Matemá-
tica e Conhecimento do Negócio.
Na Unidade I vamos conhecer um pouco mais sobre os temas relevantes como: 
Big Data, Data Warehouse, Data Analytics e Data Lake que tratam sobre grandes conjuntos 
de dados que precisam ser processados e armazenados. Veremos como a Estatística é 
usada na Ciência de Dados fornecendo subsídios para coletar, organizar, resumir, analisar, 
apresentar dados e avaliar as informações contidas em grande conjunto de dados. Já na 
Unidade II, apresentaremos conceitos básicos de Data Mining, entender a utilização do ETL, 
ou seja, compreender o processo de extração, transformação e carga, que é um importante 
processo para as análises de inteligência de negócio. Na sequência, na Unidade III vamos 
conhecer um pouco mais sobre Machine Learning ou aprendizagem de máquina, esse 
método influente que está se tornando cada vez mais apreciado com a mudança digital das 
empresas. Com protótipos essenciais de dados, as empresas distinguem oportunidades 
valiosas e conseguem evitar erros graves. Veremos os conceitos de inteligência artificial, 
machine learning e deep learning. E por fim na Unidade IV, será exposta uma introdução 
a linguagem de programação Python, que permite criar um caminho direto para análise de 
dados. Python é uma linguagem com uma curva de aprendizado muito simples e acessível, 
por isso se destaca no meio acadêmico.
Muito obrigado e bom estudo !!!
APRESENTAÇÃO DO MATERIAL
SUMÁRIO
5
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
 . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
Plano de Estudos
• Introdução a Ciência de Dados;
• Especificar os conceitos fundamentais de Big Data, 
 Data Warehouse, Data Analytics e Data Lake;
• As áreas da Estatística;
• Análise Preditiva.
Objetivos da Aprendizagem
• Conceituar e contextualizar Ciência de Dados;
• Assimilar as principais definições da área de 
 Análise de Dados;
• Conhecer as áreas da Estatística;
• Entender os tipos de Análise Preditiva.
1UNIDADEUNIDADE
CIÊNCIA CIÊNCIA 
DE DADOS - ÁREADE DADOS - ÁREA
INTERDISCIPLINARINTERDISCIPLINAR
 Professora Me. Simone Regina da Silva
7
Nesta unidade será apresentado a Ciência de Dados, que é o estudo dos dados que 
derivam de insights significativos para os negócios. Ela é uma abordagem multidisciplinar 
que combina princípios e práticas das áreas de ciência e engenharia da computação, inte-
ligência artificial,matemática e estatística, que quando associadas servem para analisar 
grandes quantidades de dados com muita efetividade. Entenderemos um pouco mais sobre 
os temas relevantes como: Big Data, Data Warehouse, Data Analytics e Data Lake que 
tratam sobre grandes conjuntos de dados que precisam ser processados e armazenados. 
Veremos como a Estatística é usada na Ciência de Dados fornecendo subsídios para co-
letar, organizar, resumir, analisar, apresentar dados e avaliar as informações contidas em 
grande conjunto de dados. Será apresentado o conceito de Análise preditiva que utiliza 
dados históricos, que são usados para construir modelos matemáticos que nos possibilitam 
“prever o futuro”, antecipar acontecimentos e traçar possíveis tendências. 
INTRODUÇÃO
UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
Data Science ou Ciência de Dados, promove o desenvolvimento que combina fer-
ramentas, métodos e tecnologia que permite a extração, análise, exploração e visualização 
dos dados que são gerados diariamente pelas empresas e por usuários comuns. Dados de 
texto, áudio, vídeo e imagens que constroem modelos utilizando bibliotecas e linguagens 
de programação, como linguagem R e Python. As áreas que se relacionam com a Ciência 
de Dados são:
 ● Áreas de Negócio;
 ● Computação;
 ● Estatística;
 ● Matemática.
1.1. Ciência de Dados nas empresas, qual sua importância ?
A importância da Ciência de Dados é evidenciada pela possibilidade de modelar 
as melhores estratégias, com uma tomada de decisão respaldada, promovendo a inovação 
e solucionando problemas práticos dos diversos setores essenciais para sociedade, como 
saúde, educação, finanças, cultura, lazer entre outras. Os dados são considerados como o 
novo petróleo, utilizando Ciência de Dados na área da saúde incluindo, diagnóstico, análise 
de imagens e pesquisa médica. Na área do esporte, ela contribuiu com a análise de desem-
penho, e a predição da evolução que o esportista pode chegar. Na área das finanças ela 
contribui com o gerenciamento de riscos financeiros, com detecção de fraudes e prevenção 
de ataques cibernéticos.
 1 INTRODUÇÃO
 À CIÊNCIA 
 DE DADOS
TÓPICO
8UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
De modo geral, a proeminência do uso de Ciência de dados abrange todas as áreas de 
negócio como: as áreas da gestão pública, transporte, recursos humanos, engenharias, marke-
ting, operações comerciais, instituições acadêmicas, segurança de TI, saúde entre outras.
1.2 Habilidades para a execução do Data Science
A demanda por profissionais com uma carreira em data science tem sido muito re-
quisitada, mas para tratar com grandes e complexos volumes de dados que são produzidos 
diariamente, se faz necessário ter um conhecimento analítico e habilidades técnicas para 
limpar, tratar, organizar e preparar os dados de diversas fontes de dados. Utilizar técnicas 
de análise exploratória, identificando padrões ou tendências são algumas habilidades ne-
cessárias para o cientista de dados.
O conhecimento de uma linguagem de programação é imprescindível, linguagens 
como Python ou Linguagem R e outras, alguns pacotes de análise de dados requerem 
o aprendizado em uma linguagem de programação. É necessário ter um conhecimento 
lógico, habilidade com a matemática, pois os conceitos matemáticos são base para os 
algoritmos de Machine Learning. Entender os conceitos de banco de dados relacional e 
nosql, data warehouse, data mining e entender como a informação é apresentada, o Data-
Viz (visualização de dados).
9UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
“Os dados estão se tornando a nova matéria-prima dos negócios”. 
Craig Mundie
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
10
Neste tópico, serão apresentados alguns conceitos primordiais para o melhor en-
tendimento de como extrair, transformar e carregar os dados, e as ferramentas necessárias 
para a execução da Análise de Dados. 
2.1 Big Data 
O conceito de BIG DATA está sendo muito difundido atualmente em função das 
demandas dos diferentes tipos de dados que manipulamos e armazenamos diariamente. 
Uma definição mais simplificada do termo BIG DATA, é um grande volume de dados que são 
gerados, e precisam ser armazenados estrategicamente. Possuem uma grande variedade, 
volumes crescentes e com mais velocidade, conhecido como os três V´s. Os dados são 
classificados como estruturados, quando possuem uma estrutura bem definida, e dados 
não estruturados, quando são compostos distintos elementos. 
Os 3V´s que conceituam o Big Data são:
 ● Volume: são os dados gerados a cada segundo pelas empresas, redes sociais, 
imagens, textos, transações bancárias e vídeos que circulam na web e, também, os 
dados da Internet das Coisas (IoT).
 ● Variedade: diferentes tipos de formatos como texto, som, imagem, vídeo, stream etc.
 ● Velocidade: o quão rápido os dados são gerados e armazenados podendo ter ou 
não relevância para as empresas. 
Existem também outras características importantes associadas ao Big Data:
 2
 ESPECIFICAR CONCEITOS
 FUNDAMENTAIS DE BIG DATA,
 DATA WAREHOUSE, 
 DATA ANALYTICS E DATA LAKE
TÓPICO
UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
 ● Veracidade: refere-se à importância da confiabilidade dos dados, obter dados 
verídicos, dados que condizem com a realidade.
 ● Valor: refere-se a análise dos dados que geram valor para o negócio.
As organizações necessitam de uma tecnologia de armazenamento para guardar 
uma quantidade massiva que vem de diferentes plataformas, por exemplo: mensagens que 
enviamos, vídeos compartilhados, transações bancárias, compras via web, localização por 
GPS. Esses tipos de dados não possuem uma estrutura padronizada. Com isso, a utilização 
de um data center comum não é recomendada para armazenar esse tipo de informação, 
sendo a melhor solução para essa situação a aplicação de um Big Data. Com o auxílio de 
um Big Data, a empresa pode utilizar todos os dados coletados para realização de análises 
específicas com a finalidade de extrair conhecimento relevante para subsidiar as tomadas 
de decisão estratégicas.
2.1.1 Tipos de Big Data 
O Big Data pode ser encontrado em três formas:
a. Estruturado;
b. Não estruturado;
c. Semi-estruturado.
a) Estruturado – Quaisquer dados que possam ser armazenados, acessados e 
processados em um formato fixo são denominados dados “estruturados”.
TABELA 01 - EXEMPLO DE DADOS ESTRUTURADOS: TABELA: CLIENTE
Id_Cli Cpf_Cli Nome_Cli End_Cli Tel_Cli Cidade_Cli Limite_Cli
001 072387747-31 Monica Silva Rua Franca, 
234
(44)999767611 Maringá R$5000,00
002 082387747-32 Arthur 
Fredagolli
Rua Itália, 234 (44)988767612Maringá R$1500,00
002 092387747-33 Regina 
Bezerra
Rua Espanha, 
234
(44)995667613 Cascavel R$8000,00
002 062387747-34 Augusto 
Santo
Rua Inglaterra, 
234
(44)888765614 Cascavel R$3000,00
Fonte: O autor (2022).
11UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
b) Não estruturado – Qualquer dado com forma ou estrutura desconhecida é 
classificado como não estruturado. Além do tamanho ser grande, os dados não 
estruturados apresentam muitos problemas no que se refere ao processamento 
da extração dos valores. Um exemplo é uma fonte de dados heterogênea que 
contém uma concordância de arquivos de texto, imagens, vídeos, streaming e 
etc. Atualmente, as organizações têm muitos dados disponíveis, mas infeliz-
mente ainda desconhecem como extrair valor dos dados que se apresentam da 
forma bruta ou em um formato não estruturado, por isso é essencial organizar 
estes dados de forma estratégica.
EXEMPLO DE DADOS NÃO ESTRUTURADOS: O RETORNO DE 
UMA PESQUISA REALIZADA EM UM NAVEGADOR.
Semi estruturado - Os dados semi estruturados são uma forma de dados estrutura-
dos que não se limitam a uma estrutura rígida de um banco de dados relacionais. 
EXEMPLO DE DADOS SEMI ESTRUTURADOS: 
DADOS PESSOAIS ARMAZENADOS EM UM ARQUIVO XML
<rec> <name> João Lima </name> <sex> Masculino </sex> <age> 35 </age> </rec>
<rec> <name> Sonia R. </name> <sex> Feminino </sex> <age> 41 </age> </rec>
<rec> <name> Regina F. </name> <sex> Feminino </sex> <age> 29 </age> </rec>
<rec> <name> Cristina L. </name> <sex> Feminino </sex> <age> 26 </age> </rec>
<rec> <name> Cicero A. </name> <sex> Masculino </sex> <age> 35 </age> </rec>
12UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
2.2 Data Warehouse 
Data Warehouse (DW), em tradução livre Armazém de Dados, é um repositório 
de dados onde ficam armazenadas as bases de dados de diversos sistemas existentes 
em uma organização. O DW surgiu com o propósito de ser um repositório estruturado 
(organizado por linhas e colunas) de consultas para fins analíticos, e ser um sistema de 
apoio para tomada de decisões (DSS). Essa característica difere dos bancos de dados 
relacionais tradicionais, pois não tem a finalidade de ser um banco para realizar transações 
básicas dos usuários, tais como: cadastrar, consultar, atualizar e deletar dados.
O processo denominado ETL (extract, transform, loading), é responsável pela trans-
formação e integração de dados que compila informações de diferentes bases de dados. O 
ETL utilizado junto a um DW de uma empresa, disponibiliza o acesso aos dados históricos 
da empresa, facilitando aos usuários dos mais diferentes níveis, o acesso a esses dados 
para análise e criação de relatórios otimizados.
A Figura 1 ilustra a etapa de extração (Extract) dos dados oriundos dos diferentes 
sistemas e tipos de arquivos existentes, no qual é possível realizar a transformação (Trans-
form), integração e enriquecimento desses dados, e posteriormente efetuar o carregamento 
(Load) dos mesmos no banco de dados do warehouse.
FIGURA 01 - EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DE DADOS - ETL
2.3 Data Analytics
Data Analytics ou análise de dados é a ciência que examina, explora e transforma 
os dados brutos com a finalidade de identificar tendências e padrões, aplicando algoritmos 
que revelam insights que promovem decisões embasadas, garantindo resultados imediatos. 
13UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
2.3.1 Cultura de Data Analytics
A finalidade da cultura de Data Analytics é auxiliar as empresas a entenderem a 
sua realidade e identificar as suas potencialidades, gerando insights que auxiliam em uma 
tomada de decisão mais assertiva, como apresentado na figura abaixo.
FIGURA 02 - CULTURA DA DATA ANALYTICS
Fonte: O que é dataanalytics. AQUARELA. 2018. Disponível em: 
https://www.aquare.la/o-que-e-data-analytics/. Acesso em: 4 jan. 2022.
2.3.2 Categorias do Data Analytics
As três categorias de dados que geralmente abrangem o Data Analytics são:
 ● Social Data – são dados que contém perfis e conduta dos indivíduos que apre-
sentam em redes sociais;
 ● Enterprise Data – são dados gerados especialmente por empresas, dados 
como operações e financeiros;
 ● Personal Data – é a novidade, tem como base a integração entre os disposi-
tivos por meio da internet, tem como base a integração entre os dispositivos 
por meio da internet, termo usado em segurança da informação, referem-se a 
informações que podem ser usadas para identificar, contactar ou localizar uma 
única pessoa, o principal exemplo são os smartphones.
14UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
https://www.aquare.la/o-que-e-data-analytics/
O processo de análise de dados é capaz de explorar os dados, a fim de criar prin-
cípios para otimizar o entendimento de cenários e padrões. Tudo isso é consequência de 
uma análise cautelosa e exata. Todos esses padrões são elaborados com o objetivo de 
filtrar e levar aos interessados todas as informações úteis. Por trás disso, tem todo um ciclo 
que começa com extração dos dados, organização, tratamento e compreensão.
2.3.3 Data Lake 
Os dados que não foram transformados, que podem ser estruturados ou não es-
truturados, necessitam de um repositório chamado Data Lake, ou seja, um repositório sem 
nenhum tratamento, são os dados nativos, é uma visão não refinada dos dados. 
Existem também os Data Lakes que se tornam inacessíveis, pesados, caros e 
inúteis para os usuários são chamados de “data swamps”(pantano de dados).
15UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
A infraestrutura de streaming e análise de dados vai aumentar cinco vezes até 2024. Isso decorre do fato de 
que 75% das organizações passarão da fase piloto para operacionalização ou implantação de inteligência 
artificial até 2024. As soluções analíticas avançadas fornecem insights e soluções vitais para as organizações, 
e a utilização só aumentará nos próximos anos. Fatos Interessantes sobre big data - GTA(Grupo de Pes-
quisas em Tecnologia e Computação aplicada à informação e computação) Universidade Federal de Goiás.
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
16
O termo “estatística” pode ser dividido em dois grupos diferentes na análise de 
dados. Pode ser usado apenas como um termo genérico, em que precisamos calcular va-
lores numéricos de interesse a partir de nossos elementos, como, por exemplo, analisar a 
distribuição de salários no Brasil. Essas análises frequentemente incluem cálculo de média, 
mediana, moda e assim por diante. Esse tipo de abordagem está mais voltado para uma es-
tatística consolidada, que vemos com muita frequência e que nos fornece a estrutura básica 
teórica e prática para Data Science. Muitas pessoas podem pensar que não é necessário 
ter um conhecimento profundo em estatística, pois atualmente os softwares já fazem boa 
parte do trabalho duro. Realmente, isso é verdade, porém, quando realizamos uma análise, 
sem o entendimento genérico do processo, não é possível explicar ou convencer alguém 
da sua utilidade. O outro grupo da estatística, está relacionado ao teste de hipóteses, para 
estimar incertezas e conclusões. 
As áreas da Estatística se dividem em 03 áreas que são complementares: 
3.1 Probabilidade: de acordo com Batanero (2004), a probabilidade como parte 
essencial da Estatística, requer em primeiro lugar, o reconhecimentode que os 
paradigmas no processo de resolução de problemas sejam diferentes daqueles 
utilizados na matemática. Portanto, a probabilidade pode ser usada como medida 
do grau de incerteza de que um determinado evento possa acontecer. 
 3 AS ÁREAS DA
 ESTATÍSTICA
TÓPICO
UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
3.2 Estatística descritiva: esse ramo da estatística intenciona sintetizar e descre-
ver qualquer agrupamento de dados, como exemplo podemos citar a média, media-
na e desvio padrão. A estatística descritiva, ao contrário da estatística inferencial, 
está focada na apresentação dos dados, mas não procura fazer inferências ou tirar 
sólidas conclusões que podem ser usadas para prever futuros dados da amostra.
3.3 Estatística inferencial: a estatística inferencial utiliza os dados de uma amos-
tra (geralmente apresentados com a estatística descritiva), para realizar inferências 
(conclusões) sobre a população.
17UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
18
De acordo com FINLAY (2014) - A analítica preditiva é a área de estudo estatístico 
cujo objetivo é extrair informações dos dados e posteriormente utilizá-los para identificar 
padrões de comportamento e prever tendências, podendo assim, prever eventos desco-
nhecidos no futuro, presente ou até mesmo no passado, como por exemplo a predição de 
suspeitos que cometeram crimes.
Para SIEGEL (2013) - A analítica preditiva pode ser definida também como previ-
sões com nível de granularidade mais detalhado, baseando-se em pontuações preditivas 
probabilísticas para cada elemento organizacional individual.
Análise preditiva utiliza dados históricos, esses dados são usados para construir 
modelos matemáticos que nos possibilitam “prever o futuro”, antecipar acontecimentos e 
traçar possíveis tendências.
4.1 Tipos de Análise Preditiva
a. Previsão de Churn - De acordo com Hoffman (1997), o fato do cliente cancelar 
seu contrato, configura-se churn - métrica que indica quantos clientes deixaram determi-
nado produto, é necessário um gerenciamento, o churn, pois se configura um processo 
sistemático de tentar reter agilmente os clientes.
b. Leitura de Upsell and Cross-Sell - Segundo Kwiatkowska (2018), Cross-sell 
e up-sell são estratégias de recomendação de produtos na fase de decisão de compra, 
nomeadamente quando o utilizador seleciona ou escolhe produtos.
 4 ANÁLISE 
 PREDITIVA
TÓPICO
UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
c. Otimizção de campanhas de Marketing - Informações coletadas, pela 
análise preditiva que apontam ocasiões favoráveis para que as empresas criem planos 
de mídia dinâmicos, que atraiam e/ou retenham cliente ou até para expansão do seu 
produto no mercado.
d. Segmentação de lead para campanhas - Segmentar leads significa agrupar 
seus potenciais clientes de acordo com suas características. Isso ajuda a equipe a organizar 
seu conteúdo e direcionar suas ações para garantir bons resultados de vendas.
e. Distribuição de conteúdo personalizado - É a análise de dados, baseada na 
entrega mais eficiente ao perfil do cliente, um exemplo que podemos citar são os conteúdos 
propostos pela Netflix ao seus clientes.
4.2 Análise Preditiva e Big Data
Para realizar a análise preditiva de um grande número de dados, e ser possível 
estabelecer tendências de comportamentos futuros, é necessário ter uma base de dados 
estruturados e minerados por ferramentas de Big Data, por exemplo: Haddop, Apache 
Spark, MongoDB etc.
4.2.1 Soluções de Análise Preditiva
Existem diversas soluções que auxiliam na hora de executar a análise preditiva. 
Abaixo alguns dos softwares mais utilizados no mercado.
a. Power BI
Power BI - É a solução da Microsoft, que contempla serviços de 
análise e inteligência de negócios. É apanhado de ferramentas 
de business intelligence, transformando as base de dados que 
não estão relacionadas em dados que agregam valor para a 
empresa.
b. Adobe Analytics 
O Adobe Analytics é o concorrente de peso do Google Analytics, 
com uma ferramenta exclusiva de análise preditiva. O sistema 
utiliza o machine learning e modelagem estatística para analisar 
dados de forma avançada e prever comportamentos futuros 
como rotatividade e probabilidade de conversão.
19UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
c. Tableau
O Tableau é a plataforma líder mundial na área de análise e 
visualização de dados, possui uma interface intuitiva, auxiliando 
o usuário no gerenciamento dos dados, sua capacidade de mo-
dificar cálculos e testar cenários distintos.
d. IBM Cognos Analytics
É uma solução da IBM, orientada por Inteligência Artificial que 
disponibiliza os recursos de análise preditiva. Faz integração 
com diversas linguagens de programação, como R, Python entre 
outras.
e. Sisense
Uma plataforma que é responsável por criar, incorporar e im-
plementar aplicativos de análise. É uma tecnologia em nuvem 
baseada na API, que possibilita o usuário transformar dados em 
relatórios interativos.
20UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
21
Nesta unidade, percebemos que realizar análise de dados exige muito preparo, 
recursos e pessoal capacitado, pois muitas empresas ainda desperdiçam uma grande 
parte das informações que poderiam ser estratégias para seus negócios. Conhecer so-
bre os temas relevantes para a área da Ciência de Dados, que tratam sobre os grandes 
conjuntos de dados, e que auxiliam os gestores a tomarem a melhor decisão quanto ao 
processamento e armazenamento dos dados. A área da Estatística fornece subsídios na 
avaliação das informações contidas no conjunto de dados, e a Análise Preditiva conecta os 
pontos e consegue descobrir as tendências dos dados. Espero que você tenha aproveitado 
o conteúdo, para enriquecer seus conhecimentos e obter insights a partir das tendências de 
dados que podemos produzir. Desejamos revê-los nas próximas unidades.
CONSIDERAÇÕES FINAIS
UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
22
LIVRO 
Título: R para Data Science
Autor: Handley Wickham & Garrett Grolemund.
Editora: Alta Books.
Sinopse: A linguagem R é uma linguagem também muito apre-
ciada por matemáticos e estatísticos, já que possui suporte 
para cálculos e análises complexas Uma das vantagens do 
uso da Linguagem R é que assim como com Python, também 
é possível o uso de ambientes interativos para codar (REPL), e 
também possui uma ampla biblioteca nativa, que possui uma 
das maiores quantidade de pacotes do mercado.
FILME / VÍDEO 
Título: O DILEMA DAS REDES
Ano: 2020.
Sinopse: A base do documentário é construída a partir do im-
pacto dos dados em nossas vidas. O Dilema das Redes trata 
sobre a importância desses conteúdos para que empresas 
ditam tendências e conheçam ainda melhor a audiência. Por 
mais que dados sejam fundamentais para empresas, sempre 
cabe refletir sobre a ética aplicada no uso.
MATERIAL COMPLEMENTAR
UNIDADE 1 CIÊNCIA DE DADOS - ÁREA INTERDISCIPLINAR
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
 . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
Plano de Estudos
• Introdução à Data Mining;
• Processos ETL;
• Análise de Dados.
Objetivos da Aprendizagem
• Entender os conceitos de Data Mining;
• Compreender o fluxo do ETL;
• Exibir as fases da Análise de dados.
2UNIDADEUNIDADE
EXTRAÇÃO, EXTRAÇÃO, 
TRANSFORMAÇÃO TRANSFORMAÇÃO 
E CARREGAMENTO E CARREGAMENTO 
DOS DADOSDOS DADOS
 Professora Me. Simone Regina da Silva
24
INTRODUÇÃO
UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
Como embasamento para entender o fluxo ETL, apresentaremos nesta unidade 
conceitos básicos de Data Mining, entender a utilização do ETL, ou seja, compreender o 
processo de extração, transformação e carga, que é um importante processo para as análi-
ses de inteligência de negócio. Com o advento do Big Data, os dados podem vir de diversas 
fontes e de diferentes formatos, e isso faz com que o dado tenha que passar por diversas 
etapas de processamento, desde a coleta até sua visualização, para que possa atingir um 
objetivo, ou um problema a ser resolvido. Neste estudo serão apresentadas ferramentas e 
frameworks que vão auxiliar na compreensão das etapas da análise de dados.
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
25
 1 INTRODUÇÃO À
 DATA MINING
TÓPICO
UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
A mineração de dados - Data Mining - é a prática de “minerar”, ou seja, examinar 
dados que foram reunidos por muitos exemplos de algoritmos, que tem por finalidade gerar 
informações novas, encontrar anomalias e padrões.
Para o Data Mining, não interessa como os dados foram coletados, que podem 
ser por API´s, via banco de dados, web scraping etc. Então, basicamente, o Data Mining 
analisa e processa uma grande quantidade de dados sob o ponto de vista diferentes.
Os dados são convertidos em informação, que serão utilizadas estrategicamente 
em diferentes áreas de negócio. O objetivo do Data Mining, é que todo tipo de dado precisa 
identificar seus padrões, consistências e relacionamentos com outros dados, transformando 
em conhecimento para ser aplicado em decisões estratégicas.
Para realizar o processo de Data Mining, será necessário utilizar desde 
aplicações matemáticas e métodos estatísticos até algoritmos com redes neurais, 
deep learning, análise de clustering e classificações automáticas, que vão auxiliar na 
descoberta do conhecimento.
Uma das definições mais importantes de data mining, foi a elaborada por Fayyad 
(1996, p.4):“...o processo não-trivial de identificar, em dados, padrões válidos, novos, po-
tencialmente úteis e ultimamente compreensíveis”.
FIGURA 01 - DATA MINING 
Em síntese, as ferramentas de Data Mining são responsáveis por analisar, e 
descobrir impedimentos relacionados aos dados ou novas perspectivas, que apontam um 
comportamento recente nos negócios.
As ferramentas usadas no processo de Data Mining, são denominadas ferramentas 
de agrupamento, ou clustering, que é o nome atribuído ao grupo de técnicas computacionais 
cujo objetivo é separar objetos em grupos, tomando como base as características desses 
objetos, ou seja, agrupar esses objetos de acordo com algum critério pré-estabelecido. As 
técnicas que estas ferramentas utilizam pode ser:
 ● agrupamentos;
 ● hipóteses;
 ● regras;
 ● árvores de decisão e
 ● grafos ou dendrogramas.
Quando analisamos os dados com estatística e/ou algoritmos de modo mais refina-
do, estamos fazendo um Data Mining, pois estamos contribuindo com a busca de um novo 
conhecimento para a empresa, sobre seu negócio. O Data Mining atua no plano estratégico 
da empresa.
1.1 Procedência do data mining
O Data Mining procede de três linhagens: Estatística, Inteligência Artificial e Machi-
ne Learning.
26UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
Estatística: É a base da maior parte das tecnologias onde o Data Mining é edifica-
do. A Estatística Clássica é composta por concepções como a distribuição normal, variância, 
análise de regressão, desvio simples, análise de conjuntos, análise de discriminantes e in-
tervalos de confiança, todos estes são usados para estudar dados e seus relacionamentos. 
Esses princípios são os basilares da análise estatística, e com certeza estão no cerne das 
atuais ferramentas e técnicas de Data Mining.
Inteligência Artificial: A Inteligência Artificial (IA), é construída a partir dos funda-
mentos da heurística, ou seja, a heurística representa a forma como o ser humano simplifica 
o entendimento de questões complexas, para tanto, a IA necessita de um processamento 
de máquina muito elevado.
Machine Learning: O aprendizado de máquina ou Machine Learning, é a união 
entre a estatística e a inteligência artificial. A finalidade da Machine Learning é empenhar-se 
em fazer com que sistemas de computador ”aprendam” com seus dados, e que possam 
identificar padrões, tomando decisões como o mínimo de interferência humana.
27UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
1.2 Data mining sua utilização para o negócio
O Data Mining é essencial, quando o propósito é alcançar conhecimentos a partir 
de uma determinada massa de dados, e principalmente em grandes quantidades. Diver-
sas empresas já empregam a mineração de dados para o auxílio na tomada de decisão 
nos mais diferentes setores que envolvem seus negócios, como seus clientes, produtos, 
funcionários, inovação entre outros. É certo que o que gera valor é o grupo de ações que 
são tomadas a partir do processamento dos dados que foram gerados pela mineração de 
dados. É preciso compreender onde utilizar as técnicas e ferramentas de mineração que 
são mais oportunas para cada caso.
A mineração de dados tem sua aplicação cada vez mais difundida em áreas 
que antes sequer poderíamos imaginar uma aplicação prática, pois eram 
modelos de negócios em que os dados não se encontravam armazenados 
digitalmente. Um exemplo é a análise de sentimento utilizado por empresas 
para avaliar a reputação da empresa em redes sociais. Além das tradicio-
nais aplicações em marketing, hoje a mineração de dados e o aprendizado 
de máquina entram aplicações na medicina, educação, processamento de 
linguagem natural, bioinformática, detectação de fraude, reconhecimento de 
fala, finanças, robótica, sistemas de recomendação, mineração de texto entre 
muitos outros (AMARAL, 2016a. p3-4).
A aplicação nas empresas do Data Mining efetivo, se apresenta ainda mais re-
levante na transformação e ou melhoria do negócio, pois com a mineração de dados a 
empresa tem insights preponderantes a respeito de seu público e negócio, possibilitando 
assim encontrar predileções de seus clientes, avaliar a performance das vendas, entender 
o grau de satisfação dos consumidores, explorar o posicionamento de seusprodutos e 
marca, entre outras inúmeras tendências que podem ser lapidadas e, consequentemente, 
melhorar o seu negócio.
28UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
Uma das primeiras soluções focadas em Data Mining, foi o Software Weka. O Weka, foi criado em 1993 e 
mantido até os dias atuais, é uma rica coleção de algoritmos de Machine Learning e Data Mining. O pro-
pósito do software em sua concepção foi permitir que o usuário não precisasse conhecer linguagens de 
programação para fazer o pré-processamento dos dados (organizá-los) e assim aplicar diversos algoritmos 
prontos em seus próprios dados.
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
29
 2 PROCESSOS
 ETL
TÓPICO
UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
O acrônimo ETL (Extract, Transform, Load), que em português significa: Extrair, 
Transformar e Carregar dados de diversas fontes, são as três fases que os dados percor-
rem antes de estarem prontos para utilização.
O ETL, técnica de integração de dados surgiu da demanda dos negócios de agregar 
dados de fontes distintas para serem analisadas. O ETL tem um grande desafio de extrair, 
transformar e carregar os dados de diferentes locais e formatos por vezes ambíguos ou 
inconsistentes.
No início dos anos 1970, o ETL começou a ganhar mais destaque, pelo fato das 
organizações terem muitos repositórios ou bancos de dados, para o armazenamento dos 
seus diferentes tipos de informações em seus negócios.
Para entendermos melhor o ETL, vamos descrever abaixo cada uma das suas 
etapas: EXTRACT-TRANSFORM-LOAD.
2.1 E – EXTRACT
Extract ou Extração é a primeira fase do processo ETL, ela consiste em extrair os 
dados de todas as fontes significativas e compilá-las. Para que seja possível compilar os 
dados é necessário realizar a preparação para a integração destes dados, pois as fontes 
de dados podem abranger dados de inúmeras fontes. Exemplos de fontes de dados seriam: 
planilhas eletrônicas, bancos de dados locais, sistemas de CRM, arquivos XML, sistemas 
ERP, redes sociais, arquivos de texto, arquivos estruturados e arquivos não estruturados, 
data warehouse na nuvem, aplicativos em nuvem e etc.
Essa é uma fase que exige uma organização no nível de consistência dos dados 
a serem alimentados no sistema e convertidos na próxima etapa. A complexidade nesta 
etapa pode alterar significativamente, dependendo dos tipos de dados, do volume de dados 
e das fontes de dados.
2.2 T – TRANSFORM
Nesta fase, os dados são transformados e é realizada a limpeza dos dados. Os 
dados que foram extraídos na primeira fase de Extração, são compilados, convertidos, 
reformatados e limpos na área de teste, para serem inseridos no banco de dados destino 
da próxima etapa. Quando se fala em conversão deve se executar uma série de funções 
e a aplicação de conjunto de regras aos dados que foram extraídos, para convertê-los 
em um formato padrão que irá atender aos requisitos do esquema de banco de dados 
destino. Nesta etapa consiste em indicar em arquivos ou tabelas as correspondências 
entre campos e valores.
Os filtros utilizados para realizar esta etapa, depende da necessidade do negócios, 
algumas variáveis que ocorrem no decorrer da etapa de transformação seriam: correção de 
erro de digitação, arredondamento de casas decimais, substituição de caracteres diferentes 
ou estranhos entre outros. A operação chamada de Qualidade de Dados é realizada para 
garantir a utilização nas análises dos dados.
2.3 L – LOAD
Esta é a fase do carregamento do conjunto de dados que foram extraídos e trans-
formados nas fases anteriores para o banco de dados destino. Este carregamento pode ser 
feito de duas formas: 
a) rotina de inserção SQL - com esta rotina a inserção é realizada manualmente 
de cada registro em cada linha de sua tabela do banco de dados destino. Esta abordagem 
pode ser lenta, mas garante a verificação de qualidade a cada entrada.
b) carregamento em massa - é o carregamento numeroso de dados, consegue 
realizar o carregamento de forma muito rápida, mas não garante a integridade dos dados 
para todos os registros. Portanto esta fase constitui-se em estruturar os dados para que 
sejam lidos em uma área de armazenamento (staging area), e são enviados para um 
data warehouse ou para um data mart ou depositados em diferentes aplicações, e também 
podem ser armazenados em nuvem.
ETL é, portanto, uma técnica que agrega valor a diferentes áreas de negócios ao 
simplificar o processo de integração de dados.
30UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
2.1 Como o ETL é usado?
O ETL, atua em conjunto com outras ferramentas de integração de dados e com inú-
meros cenários do gerenciamento de dados, cenários como: qualidade de dados, governança 
de dados, virtualização e metadados. As aplicações do ETL mais comuns atualmente incluem:
2.1.1 ETL e usos habituais
Muitas empresas contam habitualmente com a utilização de ETL, como por exemplo 
empresas de varejo que têm a necessidade de realizar a verificação das vendas diariamen-
te, ou operadoras de saúde em alguma esfera específica de seu uso.
O ETL é frequentemente utilizado na migração de dados de sistemas obsoletos 
para sistemas mais contemporâneos, também na fusão de empresas para coletar e unir 
dados de fornecedores ou parceiros em comuns.
2.1.2 ETL com Big Data 
A utilização do ETL nas empresas que já trabalham com Big Data (dados de vídeos, 
mídias sociais, IoT, logs do servidor, dados geográficos, dados espaciais e etc), tornam 
o mecanismo de extração de dados muito mais eficiente, o processo de carga de dados 
utilizado nas plataformas de Big Data é chamado de Data Ingestion.
2.1.3 ETL para Hadoop
Utilizando as ferramentas do ecossistema Hadoop, é possível minimizar a curva de 
aprendizado de novas ferramentas. O Data Warehouse - Apache Hive, e a plataforma para 
criar programas que rodam no Hadoop o Apache Pig, são ferramentas que permitem a 
extração, carregamento e transformação de inúmeras formas de dados. Essas ferramentas 
trabalham com dados estruturados, não estruturados ou semi-estruturados, diferente de al-
gumas ferramentas ETL tradicionais que não estão preparadas para alguns tipos de dados.
2.1.4 ETL e a Qualidade de Dados
A confiabilidade dos dados ou a noção de Data Quality (Qualidade de Dados) é uma 
preocupação constante para quem utiliza ETL. Isso inclui a atenção em abandonar ruídos de 
dados que não auxiliam de modo nenhum nas análises. Ou seja, o ETL, extingue alguns dados 
que não são pertinentes, e que podem interferir em dados limpos, atrapalhando as análises.
31UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
2.1.5 ETL e metadados
Metadados são as informações a respeito do que se trata o dado, ou seja, é en-
tender a linhagem dos dados e seu efeito em outros ativos de dados na organização. É 
muito relevante rastrear como os diversos elementos de dados são utilizados e como estão 
ligados, mediante as inúmeras arquiteturas complexas de sistemas existentes.
2.2 Softwares de ETL
É muito importante a escolha de uma plataforma ETL para qualquer empresa, em 
função da arquitetura de seus dados. A escolha pode trazer benefícios ou pode requerer 
mais atenção do que era esperado. 
Existem inúmeras soluções ETL no mercado, com suporte e flexíveispara o aten-
dimento de diversas áreas de negócio, aqui neste documento vamos apresentar algumas 
soluções. Vamos tomar como base o fluxo de ETL (coleta, armazenamento e carregamento 
de dados) para a apresentação de algumas ferramentas.
a) Coleta de dados: SnowPlow, Segment.
SnowPlow - É uma plataforma de coleta de dados baseada na nuvem, armaze-
nando em tempo real as informações coletadas em relação aos esquemas associados. 
Os principais recursos oferecidos pela plataforma incluem coleta e validação de dados, 
estatísticas em tempo real, migração de dados, segurança e modelos personalizados. Ele 
fornece ferramentas para manter a conformidade e as normas regulatórias de privacidade 
e GDPR, permitindo que os usuários evitem violações de segurança nos fluxos de dados.
 
b) Extração e carregamento de dados: Stitch, Fivetran e Kondado.
Stitch - Responsável pela extração de grandes quantidades de dados em silos 
geradas em mais de 120 aplicativos e banco de dados como serviço (SaaS) e os integra 
rapidamente a um armazém de dados ou data lake, possibilitando o serviço de análise em 
minutos.
32UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
c) Transformação de Dados: Spark, Dremio.
Dremio - É uma ferramenta de código aberto que se conecta diretamente a várias 
fontes de dados, incluindo banco de dados relacionais, clusters de big data e serviços de 
armazenamento em nuvem. Esses dados formam um data lake.
 
d) Armazenamento de Dados: Oracle, Google BigQuery, PostgreSql, SnowFlake.
SnowFlake - É um data warehouse baseado em nuvem que fornece uma maneira 
simples, segura e escalável de armazenar dados e depois consolida e armazena esses 
dados para exploração e análise adicionais.
 
 
33UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
O processo de Extração, Transformação e Carga (ETL – Extraction, Transformation and Load) pode ser con-
siderado o estágio mais importante na construção de um Data Warehouse (KIMBALL, 2004). Nessa etapa, 
podem ser gastos 40% do custo para construção total de um Data Warehouse. 
(BERNSTEIN; HAAS, 2008)
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
34
 3 ANÁLISE
 DE DADOS
TÓPICO
UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
Análise de dados é um processo que a partir de dados brutos é realizada a inspe-
ção, limpeza, transformação e modelagem de dados. Estes dados são transformados em 
insights, que auxiliam a tomada de decisões nas organizações.
As etapas de processamento desses dados seguem o mesmo ciclo do método 
científico: observação, questionamento, hipóteses, experimentação, análise dos 
resultados e a conclusão. No qual a partir de uma observação, deve-se formular uma hi-
pótese, realizar experimentos, analisar os dados, efetuar a criação de um modelo, divulgar 
os resultados e efetuar a implementação do modelo proposto.
Na fase de Análise de Dados, os dados são separados e tratados e implementados 
com técnicas de Machine Learning, algoritmos avançados, estatísticas, modelos matemá-
ticos e muitas outras metodologias. De acordo com Schmarzo (2013), a Análise de dados 
consiste em seis estágio conforme a figura abaixo:
FIGURA 05 - CICLO DE VIDA DA ANÁLISE DE DADOS
Fonte: (SCHMARZO, 2013 p. 40) - Ciclo de Vida da Análise de Dados
3.1 Etapas da análise de dados
3.1.1 Exploração dos dados
Nesta etapa, deve ser definido o escopo da análise e seus objetivos que devem 
ser claros, mensuráveis e pertinentes para o negócio. É importante que sejam formuladas 
questões que visam realizar o levantamento das métricas que serão coletadas para a 
resolução do objeto da análise, e também deve-se realizar a verificação dos recursos 
disponíveis para a realização do estudo proposto.
3.1.2 Preparação dos dados
Nesta etapa será escolhido os tipos de dados que serão analisados, é importante 
definir métricas que sejam claras e possíveis para garantir análises mais otimizadas, e que 
vão retornar insumos significativos para a organização. Os dados são coletados de reposi-
tórios internos ou externos, e dos mais diferentes formatos, ou seja, dados estruturados e 
não-estruturados. Pode-se utilizar alguma ferramenta gráfica, que seja possível visualizar 
e eliminar dados incompletos ou que foram preenchidos de forma incorreta e até mesmo 
adicionar um tratamento ao dado que irá enriquecer a análise. Nesta fase é possível realizar 
os ajustes necessários para a junção desses dados, determinando que o conjunto de dados 
utilizados estejam satisfatórios para a análise pretendida.
35UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
A preparação também leva em consideração a importância da transformação do 
dado, que consiste em realizar a conversão do mesmo. Esta preparação/transformação 
utiliza técnicas e ferramentas ETL. Com os dados já preparados, já é possível seguir para 
a próxima fase no desenvolvimento de um modelo analítico de dados.
3.1.3 Planejamento do modelo
Nesta etapa já é possível apresentar dados consideráveis para iniciar o desenvol-
vimento do modelo analítico de dados.
Existem diversas metodologias, técnicas e ferramentas para a concepção do mo-
delo. A escolha apropriada para resolução do problema deve levar em conta o que foi 
exposto inicialmente na fase de exploração.
Abaixo, são apresentadas algumas técnicas que de acordo com o cenário podem 
ou não serem utilizadas:
a) Redes Neurais Artificiais: a manipulação de dados complexos como imagens 
ou vídeos, alcançam um bom desempenho quando utilizados técnicas de Redes Neurais 
Artificiais. São técnicas de computação com nós interconectados que funcionam, como 
os neurônios do cérebro humano. É um modelo matemático inspirado na estrutura neural 
de organismos inteligentes e que alcança o conhecimento através da prática. Utilizando 
algoritmos, as Redes Neurais é possível reconhecer padrões e a conexão em dados brutos, 
agrupá-los e classificá-los, e aprender e melhorar continuamente.
b) Árvore de decisão: as Árvores de decisão são classificadas como Contínua, 
Binária e Não binária. É a representação simples do conhecimento e uma forma eficiente 
de construir classificadores que podem predizer valores de determinados atributos de 
um conjunto de dados. A modelagem gráfica de uma árvore consiste de folhas, também 
chamadas de nós, e ramos. Onde cada nó representa o conjunto de dados de uma clas-
sificação, esta por sua vez representada pelos ramos. O desempenho dos algoritmos 
que utilizam árvores de decisão pode variar, de acordo com o volume de dados e com a 
situação em que estão sendo usados. Exemplos de algoritmos que podemos citar são: 
C4.5, CART (Classification and Regression Trees), CHAID (Chi Square Automatic Interac-
tion Detection) e muitos outros.
36UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
c) Regressão Linear: é utilizada para entender e comparar dados, possibilitando 
a identificação do comportamento do dado analisado, assim é possível realizar projeções 
e estudos dos dados, classificando matematicamente quais são os mais relevantes para o 
estudo. É uma técnica estatística que pode ser utilizada para efetuar uma análise preditiva.
Existem inúmeras metodologias, técnicas e ferramentas, o que difereuma da outra 
são as variáveis e métricas escolhidas para obter um determinado resultado. Ou seja, a 
partir dos dados existentes serão avaliados quais métricas e variáveis se correlacionam e 
os resultados das causas e efeitos que elas podem ter entre si. O modelo analítico de dados 
escolhido vai definir quais métodos, algoritmos e ferramentas que possuem a resposta 
mais apropriada para o problema em questão, bem como a definição da apresentação do 
resultado das análises.
3.1.4 Implementação do modelo
Empregando ferramentas pertinentes ao problema, é nesta fase que é averiguado 
se a metodologia escolhida está adequada para responder as questões tratadas na fase 
inicial da análise, se os métodos matemáticos e estatísticos foram definidos corretamente 
e se as métricas escolhidas foram as mais apropriadas. Assim é possível efetuar o refina-
mento e a realização de ajustes no modelo analítico de dados proposto.
3.1.5 Comunicação dos resultados
A divulgação dos resultados obtidos da análise dos dados, devem ser transmitidos 
de maneira clara e objetiva, a utilização de aplicações gráficas, recursos áudios visuais e 
métodos interativos auxiliam a melhor compreensão do público alvo. Na divulgação pode 
ser usado ferramentas como Power BI, Google Data Studio, Pacotes da Linguagem R e 
Python entre outros
3.1.6 Utilização em produção
Esta é a fase final do ciclo de vida da Análise de dados, proposta por Schmarzo 
(2013), que é a fase que será realizada a implementação do modelo em ambiente de 
produção, para a transformação dos dados em conhecimento. 
37UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
38
Nesta unidade aprendemos como são realizados a extração, a transformação e 
o carregamento dos dados - ETL - entendemos a importância do seu funcionamento, que 
está relacionado a outras técnicas, funções e processos de integração de dados. O geren-
ciamento de dados está se tornando cada dia mais complexo, conhecer outras ferramentas 
de integração de dados que devem ser analisadas constantemente para acompanhar a 
evolução.
CONSIDERAÇÕES FINAIS
UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
39
MATERIAL COMPLEMENTAR
UNIDADE 2 EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO DOS DADOS
LIVRO
Título: Integração de dados na prática: Técnicas de ETL para 
Business Intelligence com Microsoft Integration Services 2012
Autor: Rodrigo Ribeiro Gonçalves.
Editora: Érica.
Sinopse: Para que o leitor entenda melhor a ferramenta, um 
pequeno projeto de BI é desenvolvido neste livro, pois enten-
der conceitos como DW, BI, ETL, e outros jargões da indústria é 
essencial para quem quer trabalhar com integração de dados.
FILME / VÍDEO 
Título: Ex_Machina
Ano: 2015.
Sinopse: Esta obra de ficção científica levanta uma série de 
questões éticas que vão desde moralidade no uso de uma tec-
nologia até mesmo afetividade e sexualidade.
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
 . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
Plano de Estudos
• Machine Learning - Entendendo sua importância;
• Algoritmos de Machine Learning - Tipos de Aprendizagem;
• Conceitos essenciais de Machine Learning; 
• Como funciona o Machine Learning?
Objetivos da Aprendizagem
• Aprender a importância do Machine Learning;
• Exibir os tipos de Aprendizagem do Machine Learning;
• Compreender os conceitos essenciais para a utilização 
 do Machine Learning;
• Entender como funciona Machine Learning e suas etapas.
3UNIDADEUNIDADE
MACHINEMACHINE
LEARNINGLEARNING
 Professora Me. Simone Regina da Silva
41
Nesta unidade, vamos conhecer um pouco mais sobre Machine Learning, ou apren-
dizagem de máquina, esse método influente que está se tornando cada vez mais apreciado 
com a mudança digital das empresas. Com protótipos essenciais de dados, as empresas 
distinguem oportunidades valiosas e conseguem evitar erros graves. Veremos os conceitos 
de inteligência artificial, machine learning e deep learning onde muitas pessoas confundem 
o significado, apesar de estarem correlacionados, não expressam a mesma definição. 
Serão abordados a aprendizagem supervisionada e a aprendizagem não supervisionada 
que são os métodos mais adotados na aprendizagem de máquina, serão apresentados 
outros métodos de aprendizagem por máquinas. Com a utilização do Machine Learning nos 
negócios, é possível compreender o perfil dos clientes e como chegam até o seu negócio. 
Rastreando os conteúdos mais pertinentes para o cliente.
INTRODUÇÃO
UNIDADE 3 MACHINE LEARNING
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
42
 1 MACHINE LEARNING-
 ENTENDENDO SUA
 IMPORTÂNCIA
TÓPICO
UNIDADE 3 MACHINE LEARNING
Para Freitas e Santana ( 2019, pg.8) - O Aprendizado de Máquina (AM) - do 
inglês, Machine Learning - é um dos principais pilares dessa nova era da indústria, pois 
permite a extração de informação utilizando dados de forma eficiente e eficaz. Do ponto 
de vista da eficiência, o AM é alavancado pelos dispositivos de baixo custo voltados para 
a computação de alto desempenho como as GPUs. Já a eficácia depende da quantidade 
e qualidade dos dados disponíveis e dos modelos de aprendizagem. Esses modelos, que 
são utilizados para representar as aplicações, estão cada vez mais sofisticados e hábeis 
em resolver problemas complexos graças ao apoio da ciência básica, especialmente, a 
Matemática e a Estatística.
O Machine Learning (ML), é um subconjunto da grande área da Inteligência 
Artificial (IA), que possibilita a criação de modelos analíticos. A ML se baseia na constru-
ção de sistemas que aprendem, e melhoram o comportamento, identificando padrões e 
tomando decisões com pouca interferência humana.
Para melhorar a compreensão do conceito de ML, pode-se considerar uma máqui-
na que será projetada para jogar xadrez ou outro jogo qualquer que possua um conjunto 
de regras. O computador irá aprender com uma série de regras e jogadas para se atingir 
o objetivo que é “conquistar” o rei (peça) do seu adversário. De modo que quanto mais 
partidas com diversos jogadores experientes de xadrez, melhor será a performance e a pro-
babilidade do computador vencer as partidas, através do crescimento do seu treino. Este 
experimento foi realizado em 1997, quando o russo Garry Kasparov, que é considerado o 
maior enxadrista da atualidade, foi derrotado pelo computador Deep Blue da IBM.
UNIDADE 3 MACHINE LEARNING 43
A ML surge do reconhecimento de padrões e do princípio de que computadores podem 
aprender sem serem programados para realizar tarefas típicas.Pesquisadores dedicados em 
IA queriam saber se as máquinas poderiam aprender com dados. O aspecto repetido do 
aprendizado de máquina é importante porque, quando os modelos são expressos a novos 
dados, eles são habilitados a se adaptar independentemente. Eles aprendem com computa-
ções anteriores para produzir decisões e resultados confiáveis, passíveis de repetição.
De acordo com Faceli (2021, pg 1), Machine Learning: 
“são técnicas que deveriam ser capazes de criar por si próprias, a partir da 
experiência passada, uma hipótese, ou função, capaz de resolver o problema 
que se deseja tratar”
Os diferentes tipos de algoritmos em Machine Learning tem as mais distintas uti-
lidades, não existe um algoritmo único que funcione para todos os problemas. Não se 
pode afirmar que os algoritmos de redes neurais são os melhores, ou que os de árvore 
de decisão são melhores que os de redes neurais e vice-versa. Há muitos princípios a se 
considerar como o tamanho, e a estrutura do conjunto de dados.
Os tipos fundamentais de Aprendizado de Máquina são: Supervisionado, Semi 
Supervisionado, Não Supervisionado e por Reforço.
1.1 Tipos de aplicações que utilizam Machine Learning
O Machine Learning é usado na personalização dos 03 (três) principais serviços de 
streaming: Netflix, Spotify e Amazon Prime Video, onde os algoritmos de recomendação são 
constantemente aprimorados, destacando o catálogo de filmes, séries, podcasts e músicas 
conforme a resposta do usuário.
Com o crescente volume e variedade de dados disponíveis, com o processamento 
computacional mais barato e o armazenamento de dados acessível, é possível produzir 
rápida e automaticamente, modelos capazes de analisar dados mais complexos. As aplica-
ções de Machine Learning são utilizadas em diferentes áreas, podemos citar:
a. Identificação de fraudes - Os algoritmos utilizados na identificação de fraudes, 
detectam quais são as variáveis de maior impacto e como a relação entre elas indica uma 
possibilidade maior de acontecer uma transação fraudulenta. Os bancos e operadoras de 
cartões de crédito foram as primeiras instituições a usar a aprendizagem de máquina. Estes 
algoritmos aprendem com as mudanças nos dados ao longo do tempo, da mesma forma 
que os fraudadores mudam seu comportamento, o modelo é capaz de identificar a mudança 
através da rotina de retreino do modelo.
UNIDADE 3 MACHINE LEARNING 44
b. Sistemas de recomendação (RecSys) - O objetivo principal de um sistema de 
recomendação é de filtrar o conteúdo que é entregue ao usuário. Utilizando dados coleta-
dos de milhões de compradores e usuários, estes sistemas podem prever os itens que são 
relevantes para cada usuário, conforme as suas compras anteriores e também com os seus 
hábitos de visualização.
c. Mecanismos de busca - Todos os mecanismos de busca como Google, Bing, 
Yahoo, Naver entre outros coletam o máximo de dados possíveis sobre os seus usuários, 
como por exemplo quais gêneros de programa assistem, quais os links que estão clicando 
em um site, como interagem em redes sociais. Todos estes dados utilizados no aprendi-
zado de máquina melhoram o processamento de linguagem natural e fornecem respostas 
específicas para algumas questões.
d. Sistemas de detecção facial - Identificação de um rosto em uma imagem ou 
vídeo, apontando também algumas características do rosto. Estes sistemas conseguem 
analisar atributos como olhos abertos ou fechados, humor, cor do cabelo, e geometria 
visual do rosto.
e. Bots de serviço ao cliente - Um bot ou chatbot identifica em uma frase, todas 
as necessidades do consumidor naquele momento, eles utilizam o processamento de lin-
guagem natural e os dados de atendimento ao cliente para responder às perguntas.
Outros sistemas que utilizam o Machine Learning são: Sistemas de reconhecimen-
to de voz e frases, Sistemas de Segurança de Tecnologia da Informação, Sistemas de 
produção de energia e controle de temperaturas, Sistemas de previsão de rotas rodoviárias 
e aeroespaciais, Sistemas para o mercado financeiros, Sistemas de processamento gené-
tico, Sistemas de previsão de tempo e muitos outros.
 CURIOSIDADES
 ● No aprendizado de máquina, um alvo é chamado de rótulo;
 ● Em estatística, um alvo é chamado de variável dependente;
 ● Uma variável em estatística é chamada de recurso em Machine 
Learning;
 ● Uma transformação em estatística é chamada de criação de 
recursos em Machine Learning.
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
45
 2 ALGORITMOS DE MACHINE
 LEARNING - TIPOS DE
 APRENDIZAGEM
TÓPICO
UNIDADE 3 MACHINE LEARNING
Podemos classificar os algoritmos de Machine Learning conforme seu tipo de 
aprendizagem, ou seja, a forma como aprendem. Os tipos principais de Aprendizado de 
Máquina são: Aprendizado Supervisionado, Aprendizado Não Supervisionado e Aprendiza-
gem por Reforço.
O Aprendizado Supervisionado, os algoritmos relacionam uma saída com uma 
entrada com base em dados rotulados. Neste caso, o usuário alimenta ao algoritmo pares 
de entradas e saídas conhecidos, normalmente na forma de vetores. Para cada saída é 
atribuído um rótulo, que pode ser um valor numérico ou uma classe. O algoritmo determina 
uma forma de prever qual rótulo de saída com base em uma entrada informada. Os resul-
tados desse tipo de algoritmo são classificação e regressão. 
Classificação ou Classification- É o modelo de diagramar elementos iguais em 
categorias próprias.
Regressão ou Regression - Reconhece uma predisposição para os dados que 
permite, predizer o futuro com base em dados históricos.
O Aprendizado Não Supervisionado, o algoritmo não recebe os rótulos de en-
trada e, portanto, não conhece os rótulos de saída que devem ser gerados. O objetivo 
do aprendizado não supervisionado é de identificar os padrões existentes nos dados sob 
análise, suas similaridades (conforme critério estabelecido), suas diferenças e efetuar um 
agrupamento consistente das informações analisadas. Esse agrupamento de objetos com 
características semelhantes é denominado de clusterização, no qual consiste em agrupar 
UNIDADE 3 MACHINE LEARNING 46
os dados em classes de objetos com características semelhantes ou com algum tipo de pa-
drão. O algoritmo agrupa os exemplos pelas similaridades dos seus atributos. O algoritmo 
analisa os exemplos fornecidos e tenta determinar se alguns deles podem ser agrupados 
de alguma maneira, formando agrupamento ou clusters. A busca de padrões e a realização 
de agrupamento possibilitam também que o algoritmo efetue uma redução nas variáveis 
analisadas, seja por identificar atributos redundantes ou que não são importantes para o 
contexto da análise, denominado de redução de dimensionalidade. O Aprendizado Não 
Supervisionado funciona bem com dados transacionais, por exemplo, ele identifica seg-
mentos de clientes com atributos similares que podem ser tratados de modo igualmente 
similar em campanhas de marketing, ou ele pode encontrar os principais atributos que 
separam segmentos distintos de clientes. As técnicas mais conhecidas para o aprendizado 
não supervisionado são: k-médias, análise de componentes principais, clusterização 
hierárquica, decomposição em valores singulares, clusterização baseada em densi-
dade, modelo de mistura Gaussiana entre outras.
No Aprendizado por Reforço, oalgoritmo não recebe a resposta correta mas rece-
be um sinal de reforço, de recompensa ou punição. O algoritmo faz uma hipótese baseado 
nos exemplos e determina se essa hipótese foi boa ou ruim. A aprendizagem por reforço foi 
inspirada por psicólogos comportamentais, que acreditavam na eficácia de recompensas e 
punições na educação dos seres humanos, e também lembra o adestramento de animais. 
Aprendizado por Reforço é bastante utilizado em jogos e robótica, jogos de navegação, 
máquinas que jogam xadrez e veículos autônomos.
Cada modelo de aprendizado é descrito por Breve (2010), como: 
Aprendizado Supervisionado: Os algoritmos desta categoria deduzem uma 
função a partir dos dados de treinamento. Os dados de treinamento consis-
tem de pares de exemplos de entradas e saídas desejadas. A saída pode ser 
um valor contínuo (regressão), ou pode predizer um rótulo de classe para 
o objeto de entrada (classificação). O objetivo é obter uma função que seja 
capaz de predizer a saída para qualquer entrada válida, após ter visto um 
número suficiente de exemplos de treinamento[...] Aprendizado Não Super-
visionado: Os algoritmos desta categoria buscam determinar como os dados 
estão organizados. Os dados de treinamento consistem apenas de exem-
plos de entrada, sem rótulos ou valores de saída. O objetivo é encontrar 
padrões no espaço de entradas. Uma das formas de atingir este objetivo 
é observar quais são as regiões com maior e menor densidade de dados. 
Aprendizado Semi supervisionado: Os algoritmos desta categoria fazem uso 
tanto de dados rotulados quanto de dados não rotulados para o treinamento, 
normalmente poucos dados rotulados e bastante dados não rotulados. Esta 
categoria está localizada entre o aprendizado supervisionado e o não super-
visionado (BREVE, 2010, p. 13). 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
47
 3 CONCEITOS 
 ESSENCIAIS DE
 MACHINE LEARNING
TÓPICO
UNIDADE 3 MACHINE LEARNING
Atualmente o Machine Learning está presente em diferentes áreas do conhecimen-
to, entender os diferentes termos que tangenciam o Machine Learning, se torna relevante 
para profissionais de todas as áreas.
Abaixo, seguem alguns dos principais termos que são utilizados no aprendizado de 
máquina.
Acurácia - É definida como a proximidade de um resultado experimental com o seu 
valor de referência real, ou seja, o quão próximos da realidade são os resultados encon-
trados de forma automatizada ou e soluções de inteligência artificial, determinado assim o 
grau de exatidão.
Árvore de decisão (Decision Trees) - É um algoritmo de aprendizado de máquina 
supervisionado que é utilizado para classificação e para regressão. Ela estabelece nós(no-
des) que se relacionam entre si por hierarquia. Ela fornece ao usuário final uma interpretação 
simples e desenham um caminho a ser percorrido para alcançar um determinado objetivo 
na árvore de decisão existe o nó-raiz (root node), que é o mais importante, e os nós-folha 
(leaf nodes), que são os resultados finais. No Machine Learning, o raiz é um atributo da 
base de dados e o nó-folha é a classe ou o calor que será gerado como resposta.
Big data - O conceito se caracteriza por um grande volume de dados estruturados 
e não-estruturados, que nenhuma ferramenta convencional de gerenciamento de banco 
de dados ou gerenciamento de informações consegue armazenar os diferentes tipos de 
dados existentes como: Texto, Sensores, Navegação Web, Áudio, Vídeo, Arquivos de Log, 
e-mails, dados gerados por Redes Sociais, Arquivos XML, etc. Com este volume de dados 
acumulados, o mais importante é saber o que fazer com estes dados.
UNIDADE 3 MACHINE LEARNING 48
Computação cognitiva - Descreve tecnologias baseadas nos princípios científicos, 
ela é considerada a evolução das aplicações de Inteligência Artificial, envolve mineração 
de dados, sistemas de autoaprendizagem utilizando Machine Learning, reconhecimento 
de padrões para imitar o funcionamento dos processos do pensamento humano de Pro-
cessamento de Linguagem Natural (PLN), interação humano-computador e muito mais. 
Em computação cognitiva, um sistema ou dispositivo é treinado por algoritmos de ML ou 
algoritmos de Aprendizado Profundo (Deep Learning) com o objetivo de resolver problemas 
complexos, problemas que só são resolvidos pelo pensamento cognitivo humano.
Data lake - Os dados que não foram transformados, que podem ser estruturados 
ou não estruturados necessitam de um repositório chamado Data Lake, ou seja, um reposi-
tório sem nenhum tratamento, são os dados nativos, é uma visão não refinada dos dados. 
Existem também os Data Lakes que se tornam inacessíveis, pesados, caros e inúteis para 
os usuários são chamados de “data swamps”(pantano de dados).
Data science - É uma área multidisciplinar do conhecimento, que visa estudar as 
informações, seu processo de captura, transformação, geração e, posteriormente, análise 
de dados. Resolve problemas reais de negócios, com o uso de métodos científicos e técni-
cas avançadas de análise de dados, Machine Learning e Inteligência Artificial.
Deep learning (dl) - Ou Aprendizagem Profunda, é uma das técnicas utilizadas 
pela Machine Learning para que a máquina consiga interpretar dados e aprender com 
eles. A base do Deep Learning é a utilização de Redes Neurais profundas, ou seja, são 
algoritmos complexos, que imitam a rede neural do cérebro humano. A principal aplicação 
dos algoritmos de Deep Learning são as tarefas de classificação, em especial, reconhe-
cimento de imagens.
NPL - PLN - Processamento de Linguagem Natural, é a forma como as máquinas 
entendem e lidam com as linguagens humanas, combinam ciência da computação, IA e lin-
guística. Esta técnica lida com dados não estruturados de texto, ela é capaz de caracterizar 
e explicar toda a diversidade das observações linguísticas que envolvem conversas, escrita 
e outras mídias.
Inteligência artificial - Camargo (1999, p. 57) estabelece que: a Inteligência Artifi-
cial é o ramo da ciência da Computação que pesquisa a criação de sistemas inteligentes. A 
IA possui duas abordagens: uma científica, voltada ao estudo da psicologia cognitiva, para 
compreender os processos envolvidos na inteligência, e outra tecnológica, que lida com a 
representação destes processos através da máquina.
UNIDADE 3 MACHINE LEARNING 49
 FIGURA 01 - MARCO HISTÓRICO DOS AVANÇOS DA IA. 
 
 Fonte: Tuples (2017) tradução de Crepaldi (2020)
Redes neurais - As redes neurais são técnicas que simulam a forma do funcio-
namento do cérebro humano, imitando as conexões entre os neurônios, esta técnica 
é utilizada na aprendizagem de máquina. A busca por um modelo computacional que 
simule o funcionamento das células do cérebro vem desde a década de 40. Para HAYKIN 
2011, p. 32-36: 
“A habilidade de um ser humano em realizar funções complexas e principal-
mente a sua capacidade de aprender advêm do processamento paralelo dis-
tribuído da rede de neurônios do cérebro. Os neurônios do córtex, a camada 
externa do cérebro, são responsáveis pelo processamento cognitivo. Um novo 
conhecimento ou uma nova experiência pode levar a alterações estruturais no 
cérebro. Tais alterações são efetivadas por meio de um rearranjo das redes de 
neurônios, reforçando ou inibindo algumas sinapses.”
As redes neurais refletem o comportamento do cérebro,permitindo que programas 
de computador reconheçam padrões e resolvam problemas comuns no campo da Inteligên-
cia Artificial, Machine Learning e Deep Learning.
UNIDADE 3 MACHINE LEARNING 50
Redes Neurais - O potencial desse método pode ser representado com o exemplo do Google Translate. 
Em 2016, o Google anunciou o uso do sistema de Tradução com Máquinas Neurais do Google (ou Google 
Neural Machine Translation – GNMT) para melhorar a qualidade da tradução. Antes, a tradução pegava 
palavras ou pedaços de frases independentes. Com a rede neural, o sistema tenta traduzir frases inteiras, 
utilizando o contexto mais amplo para descobrir a opção mais relevante. Com o tempo, o sistema consegui-
rá oferecer traduções mais naturais e precisas. O GNMT foi aplicado em oito idiomas, inglês, francês, ale-
mão, espanhol, português, chinês, japonês, coreano e turco, mas o objetivo é ampliar o uso e englobar as 
103 línguas do Google Translate.
Fonte: https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html
https://research.googleblog.com/2016/09/a-neural-network-for-machine.html
https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
51
 4 COMO FUNCIONA
 O MACHINE
 LEARNING ?
TÓPICO
UNIDADE 3 MACHINE LEARNING
Atualmente, atividades como dirigir, investir, detectar anomalias e ameaças, 
recomendação de colheita, catalogar doenças, etc., não são mais executadas apenas 
por seres humanos. Utilizando Machine Learning, somos capazes de treinar sistemas na 
execução destas atividades com uma precisão e rapidez muito melhor que a dos seres 
humanos. Para a execução do Machine Learning são necessários muitos algoritmos e 
métodos estatísticos diferenciados. 
Algoritmos - Os algoritmos manipulados na aplicação de Machine Learning, utilizam 
a mesma lógica de algoritmos computacionais, podendo apresentar regras mais complexas 
ou mais simples. Quais são os algoritmos utilizados para a execução de Machine Learning? 
Cada algoritmo tem suas próprias características e vantagens e desvantagens, que vai 
depender do Cientista de Dados (profissional) conhecê-los para indicar o que melhor a 
determinada situação.
Os algoritmos mais utilizados em Machine Learning são:
a. Regressão linear;
b. Regressão logística;
c. Ridge regression;
d. Lasso regression;
e. Elastica net;
f. KNN;
g. Naive Bayes;
UNIDADE 3 MACHINE LEARNING 52
h. Decision trees;
i. K-means;
j. Random Forest;
k. Extratrees;
l. Adaboost;
m. Gradient Boosting;
n. Nagging;
o. SVM.
Métodos - Dentre os vários métodos de Machine Learning disponíveis na literatura, 
os mais conhecidos são classificação, regressão e clustering.
Classificação, são utilizados para a identificação do rótulo de determinadas obser-
vações com base em características e informações previamente conhecidas.
O método regressão é utilizado em algoritmos de aprendizagem supervisionada, 
que busca modelar relações entre variáveis dependentes e independentes através de mé-
todos estatísticos.
Agrupamento ou clustering utilizam um conjunto de dados não rotulados, este mé-
todo encontra padrões e os dados são agrupados de acordo com as relações encontradas 
entre as variáveis. 
4.1 Etapas da aprendizagem de máquina
O processo para a construção de um modelo de Machine Learning é dividido de 
04 a 07 etapas, dependendo do problema a ser resolvido, são elas: Coleta de dados, 
Preparação dos dados, Escolha do modelo, Treinamento, Avaliação, Aprimoramento dos 
parâmetros e Predição.
1. Coleta de dados - Após ter identificado o problema a ser resolvido e os equipa-
mentos que serão utilizados, inicia-se a coleta de dados. É importante ressaltar 
que a quantidade e a qualidade das informações determina a aplicação da 
predição no modelo de machine learning.
2. Preparação de dados - Examinar a distribuição das informações coletadas 
se estão bem distribuídas ou são tendenciosas e verificar a necessidade de 
ajustes. É interessante evidenciar que nesta etapa exigirá conhecimentos de 
programação ou utilização de ferramentas de preparação de dados, por exem-
plo Power BI, ClicData, IBM Cognos Analytics, Tableau e outros.
UNIDADE 3 MACHINE LEARNING 53
3. Escolha do Modelo - É um arquivo que foi treinado para reconhecer determi-
nados tipos de padrões. Os modelos mais utilizados são: Classificação binária, 
Classificação multi-classe e Classificação por regressão. A escolha do modelo 
deve estar de acordo com o objetivo inicial.
4. Treinamento - Aqui a máquina aprende com seus erros, e vai se aperfeiçoando.
5. Avaliação - Testar o modelo, para verificar se a máquina aprendeu com seus 
erros. Dependendo do desempenho do modelo no conjunto de dados, é possível 
verificar se haverá algum ajuste a ser realizado.
6. Aprimoramento dos Parâmetros - Identifica valores que afetam a exatidão do 
modelo, e o tempo de treinamento necessário. Criar as definições de um bom 
modelo. A etapa de aprimoramento deve ser contínua.
7. Predição - Quando a máquina que utiliza ML pode responder as perguntas 
para as quais ela foi treinada, ou seja, quando a máquina consegue antever os 
problemas.
Uma área de crescente aplicação da automação é a de diagnósticos automáticos. Hoje já contamos com 
diagnósticos automáticos que são corretos e precisos, às vezes até mais precisos que os diagnósticos feitos 
pelos profissionais de saúde. A empresa iFlytek criou um robô que passou no exame nacional para licencia-
mento de médicos da China (Saracco, 2017). O “Médico Assistente robô” registra os sintomas dos pacien-
tes, analisa as imagens de tomografia computadorizada e faz o diagnóstico inicial. O robô não se destina a 
substituir médicos. Em vez disso, tem como objetivo ajudá-los e aumentar sua eficiência. 
Fonte: https://doi.org/10.1590/s0103-4014.2021.35101.007
https://doi.org/10.1590/s0103-4014.2021.35101.007
54
Entender um pouco mais sobre Machine Learning proporciona a construção de 
modelos preparados para analisar uma grande quantidade de dados com uma maior agili-
dade, credibilidade e exatidão. O Machine Learning é baseado na construção de algoritmos 
que possibilita o treinamento da máquina para aprender como executar diferentes tipos de 
tarefas. Podemos compreender que a Inteligência Artificial levou ao desenvolvimento do 
Machine Learning e do Deep Learning, tecnologias que ampliam as possibilidades e as 
formas de atuação da IA.
CONSIDERAÇÕES FINAIS
UNIDADE 3 MACHINE LEARNING
55
CIENTISTAS DE DADOS USAM MACHINE LEARNING PARA DESCOBRIR 
TRATAMENTOS PARA O COVID-19
http://datascienceacademy.com.br/blog/cientistas-de-dados-usam-machine-lear-
ning-para-descobrir-tratamentos-para-o-covid-19/
LEITURA COMPLEMENTAR
UNIDADE 3 MACHINE LEARNING
http://datascienceacademy.com.br/blog/cientistas-de-dados-usam-machine-learning-para-descobrir-tratamentos-para-o-covid-19/
http://datascienceacademy.com.br/blog/cientistas-de-dados-usam-machine-learning-para-descobrir-tratamentos-para-o-covid-19/
56
MATERIAL COMPLEMENTAR
UNIDADE 3 MACHINE LEARNING
LIVRO
Título: Machine Learning - Guia de Referência Rápida: Traba-
lhando com Dados Estruturados em Python
Autor: Matt Harrison.
Editora: Novatec 1a Ed.
Sinopse: Ideal para programadores, cientistas de dados e en-
genheiros da área de IA, este livro apresenta uma visão geraldo processo de machine learning e da classificação com dados 
estruturados, será apresentado métodos para clustering, re-
gressão e redução de dimensões, entre outros assuntos.
FILME / VÍDEO 
Título: AlphaGo
Ano: 2017.
Sinopse: O Go é um milenar jogo de tabuleiro chinês e ofereceu 
um grande desafio aos desenvolvedores da Deep Mind por 
conta do caráter intuitivo que as jogadas possuem. Se um pro-
grama pode calcular todas as jogadas possíveis em um jogo de 
xadrez e escolher a melhor, no Go essa estratégia não funciona.
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
 . . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
Plano de Estudos
• Entendendo Python;
• Bibliotecas em Python utilizadas para Análise de Dados;
• Ferramentas Python para Machine Learning.
Objetivos da Aprendizagem
• Compreender os benefícios de conhecer
 a linguagem Python;
• Exibir as bibliotecas mais aplicadas na 
 análise de dados com Python;
• Explorar as ferramentas em Python empregadas
 no Machine Learn.
4UNIDADEUNIDADE
PYTHON -PYTHON -
PRINCÍPIOS PRINCÍPIOS 
PARA ANÁLISE PARA ANÁLISE 
DE DADOSDE DADOS
 Professora Me. Simone Regina da Silva
58
Nesta unidade será exposta uma introdução a linguagem de programação Python, 
que permite criar um caminho direto para análise de dados. Python é uma linguagem 
com uma curva de aprendizado muito simples e acessível, por isso se destaca no meio 
acadêmico. Ela possui bibliotecas para visualização dos dados que apresentam resulta-
dos e previsões em qualquer área de negócio. Soluções inovadoras utilizando Machine 
Learning, requer uma Linguagem de Programação como o Python que é capaz de aplicar 
com veracidade quais os dados utilizar e quais os dados retornar. A escolha da linguagem 
de programação é muito subjetiva, pois depende de muitos fatores técnicos e do negócio, 
então é importante conhecer os recursos de outras linguagens de programação utilizadas 
na análise de dados para que o seu objetivo seja atingido.
INTRODUÇÃO
UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
A linguagem Python foi idealizada no final dos anos 80 e sua implementa-
ção iniciou-se em dezembro de 1989, pelo desenvolvedor Guido van Rossum no CWI 
(Centrum Wiskunde & Informatica) que é o Centro de Matemática e Computação, em 
Amsterdã na Holanda.
Python é orientada a objetos, é interpretada, de script, imperativa, funcional e de 
forte tipagem e dinâmica. É gratuita e seu objetivo é de ser utilizada para as mais distintas 
aplicações, e pode ser executada em diferentes plataformas, característica de uma lingua-
gem interpretada.
Uma linguagem de programação pode ser uma linguagem compilada ou 
interpretada. Ambas recebem códigos que são compreendidos pelos seres humanos e o 
convertem para a linguagem de máquina. Uma linguagem compilada, a máquina destino 
traduz o código fonte diretamente, ou seja, é processada por um compilador diretamente 
do código-fonte para a linguagem de máquina específica para um processador e para 
um sistema operacional. Já na linguagem interpretada, o código fonte não é traduzido 
diretamente na máquina destino, ela apresenta um programa, denominado interpretador, 
que lê e executa o código, ou seja o interpretador é convertido em código executável, o qual 
será executado por uma máquina virtual.
59
 1 ENTENDENDO
 PYTHON
TÓPICO
UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
FIGURA 01 - EXECUÇÃO DO PYTHON
Fonte: https://acervolima.com/compreendendo-a-execucao-do-programa-python/
Uma máquina virtual permite a aplicação do código fonte em sistemas operacionais 
distintos, ou seja, um ambiente virtual empacota todas as dependências que um projeto 
necessita e armazena em um diretório, cada projeto pode possuir seu próprio ambiente 
e por consequência suas bibliotecas. O venv é o módulo usado para criar e gerenciar 
ambientes virtuais no Python, ele irá instalar a versão mais recente do Python. 
Outras vantagens da linguagem Python são os pacotes exclusivos para a utilização 
de Data Science como o scikit-learn, que é uma biblioteca de Machine Learning. E também 
as bibliotecas NumPy e Pandas para análise de dados. 
1.1 Benefícios de aprender Python
A linguagem de programação Python está presente nas maiores plataformas de 
redes sociais, serviços de streaming, navegadores, desenvolvimento web, desenvolvi-
mento de aplicativos, automação, fintechs, machine learning, data science entre outros. A 
tecnologia está presente no Instagram, Facebook, Reddit, Netflix, Spotify, Google e muitos 
outros e roda em diferentes sistemas operacionais, como Windows, MacOs, distribuições 
Linux, Solaris, Unix.
Abaixo são apresentados alguns dos benefícios na utilização da linguagem Python:
a. Python é uma das predominantes linguagens de programação
Python ocupou o terceiro lugar no ranking mundial das linguagens de programação, 
segundo a pesquisa de 2021 Stack Overflow por ser uma linguagem de fácil aprendizado, 
gratuita e pelo grande número de projetos inovadores que utilizam Python.
60UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
https://acervolima.com/compreendendo-a-execucao-do-programa-python/ 
b. Aumento das oportunidades de vagas de trabalho com conhecimentos em Python
Apesar da linguagem ter sido amplamente difundida nos meios acadêmicos e no 
mercado de trabalho, ainda existe uma carência por profissionais com conhecimento mais 
aprofundado nas diversas aplicações que utilizam Python, como por exemplo desenvolve-
dores full-stack.
c. Diversidade de bibliotecas e estruturas
Por ser uma linguagem open source (código aberto), ela pode ser acessada ou mo-
dificada por qualquer pessoa que tenha conhecimento em programação, e assim consegue 
contribuir com novas bibliotecas em diversos campos de atuação. Em abril/2022, já exis-
tiam mais de 127.000 bibliotecas, que facilitam a vida dos programadores com diferentes 
propósitos.
d. Python aplicado ao Data Science 
A diversidade de bibliotecas disponíveis para Python, como Pandas, Numpy e 
Seaborn, possibilitam a exploração de dados muito mais simples. Projetos que envolvem 
Inteligência Artificial, têm à disposição bibliotecas prontas para criar modelos com a finali-
dade de treinar e implementar soluções inovadores.
e. Inteligência artificial e machine learning
As bibliotecas Theano, Scikit-learn, Tensorflow são muito eficazes na programação 
de Machine Learning, já a biblioteca Keras é uma biblioteca de Rede Neural para aplicações 
de Inteligência Artificial.
f.Desenvolvimento da Web com Python
Diversas páginas e aplicações web popularmente conhecidas utilizam Python para 
o desenvolvimento de suas aplicações.
g. Python comunidade
Python possui uma grande comunidade, onde é disponibilizada toda a documenta-
ção de bibliotecas, fóruns, tutoriais e cursos gratuitos, onde está disponível para qualquer 
programador consultar material e solicitar ajuda.
61UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
h. Interfaces Gráficas (GUI) criadas em Python
Python possui diversas ferramentas e frameworks para criação de GUI, como por 
exemplo o Kivy, WxWidgets, Tkinter e outras
i. Python é empregado para “Scripting and Automation”
Scripting and Automation - Python pode ser utilizado como uma linguagem de scrip-
ts, que podem automatizar diferentes tarefas reduzindo o tempo de processos. 
Essas são algumas dos incentivos de se utilizar Python, por apresentar uma sin-
taxe simples, reduz o tempo de codificação de código, disponibilizando assim mais tempo 
para a análise de dados realizada por Cientistas de Dados. Outra vantagem é o número 
reduzido de palavras reservadas no código, o uso de indentação, possui um coletor de lixo 
automático que gerencia a memória.
62UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
Para realizar a análise de dados, é obrigatório a extração e a organização dos 
dados, e como vimos, esses dados podem vir de inúmeras fontes e com distintos tipos de 
dados como: arquivos de texto, planilhas, email, xml, json, linguagem de banco de dados 
e outros.
As bibliotecas mais empregadas para análise de dados com Python são:
 ● NumPy;
 ● Pandas;
 ● Matplotlib.
Fonte: https://numpy.org/
2.1 Numpy - A biblioteca Numpy é usada amplamente por outras bibliotecas, 
ela foi criada baseada nos projetos Numeric e Numarray. Seu objeto primordial é o vetor 
n-dimensional, ou ndarray. Um vetor n-dimensional, também é conhecido como tensor. 
A principal característica do ndarray é que ele deve ser homogêneo, ou seja, todos os 
elementos de mesmo tipo de dados.
63
 2 BIBLIOTECAS EM
 PYTHON UTILIZADAS
 PARA ANÁLISE DE DADOS
TÓPICO
UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
https://numpy.org/
Numpy fornece várias funções e operações para a execução de cálculos numéricos 
como multiplicação de arrays, transposição adição manipulação de matrizes, estatísticas des-
critivas, manipulação de dados, manipulação de imagem entre outros tipos de processamento.
O Numpy desempenha cálculos numéricos para executar: Modelos de Machine 
Learning, Processamento de Imagem e Computação Gráfica, Tarefas matemáticas.
Exemplos utilizando a biblioteca numpy:
Fonte: O autor (2022).
O tensor notas, possui 1 dimensão com 5 elementos, é chamado de tensor unidi-
mensional que corresponde a um vetor. 
Já um tensor bidimensional corresponde a uma matriz usando o atributo shape
Fonte: O autor (2022).
Fonte: https://pandas.pydata.org/
64UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
https://pandas.pydata.org/ 
2.2 Pandas - Os objetos mais significativos da biblioteca são: as Séries e os Data-
Frames. Séries são matrizes unidimensionais que contém uma sequência de valores que 
apresentam uma indexação, que podem ser de qualquer tipo (inteiro, string, float, objetos 
python e etc.), a série é parecida com uma única coluna do Excel.
Fonte: O autor (2022).
 No exemplo acima, a biblioteca Pandas retorna a array serializado com índice. 
Todos os índices iniciam na posição 0 (zero).
Outro exemplo usando séries com a coluna de quantidade de alunos 
(20,15,,85,145,320).
Fonte: O autor (2022).
Já o Pandas Dataframe é uma biblioteca do Python, que é apresentado na forma 
de um quadro de dados que é uma estrutura de dados bidimensional, ou seja, são organiza-
dos em uma tabela em linhas e colunas. O Pandas Dataframe é composto de 03 elementos 
principais: dados, linhas e colunas.
Exemplos de Dataframes:
Fonte: O autor (2022).
65UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
Portanto, Séries são colunas e DataFrames são tabelas. 
As principais funções do Pandas para manipulação de DataFrames são: read_cvs 
(); head (); memory_usage (); describe (); loc [:]; astype (); value_counts (); sort_values (); 
drop_duplicates () e merge ().
O Pandas é um divisor de águas no que diz respeito à análise de dados com o 
Python e é uma das ferramentas mais preferidas e amplamente usadas em munging / 
wrangling (mesclagem de dados) de dados, se não o mais usado. O Pandas é um código 
aberto, de uso livre (sob uma licença BSD) e foi originalmente escrito por Wes McKinney. 
O que é interessante no Pandas é que ele pega dados (como um arquivo CSV ou 
TSV ou um banco de dados SQL) e cria um objeto Python com linhas e colunas chamado 
quadro de dados que se parece muito com a tabela de um software estatístico. 
Fonte: https://matplotlib.org/stable/gallery/index.html
2.3 MatplotLib - é uma biblioteca de visualização de dados do Python. É uma API 
(Application Programming Interface - Interface de Programação de Aplicação) orientada a 
objetos que permite a criação de gráficos 2D com poucos comandos. A ferramenta permite 
a elaboração de diversos tipos de gráficos, como em barra, em linha, em pizza, histogramas 
entre outras opções. Com o Matplotlib é possível criar visualizações estáticas, animadas e 
interativas. Pode-se trabalhar estilos gráficos, cores, exibição e diversas outras aplicações.
Exemplo utilizando o matplotlib:
66UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
https://en.wikipedia.org/wiki/Wes_McKinney
https://matplotlib.org/stable/gallery/index.html
Fonte: O autor (2022).
67UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
68UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
Panda3D - A estrutura de código aberto para renderização 3D e jogos.
O Panda3D é um mecanismos de código aberto e totalmente gratuito para jogos 3D em tempo real, visuali-
zações, simulações, experimentos. Panda3D é um motor de jogo 3D para Microsoft Windows, Linux, e Mac 
OS X. O núcleo do motor é escrito em C++ e foi desenvolvido para ser usado com Python. 
Fonte: https://www.panda3d.org/
https://www.panda3d.org/
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . 
. . . . . . . . . . . . . . . . . . . . . 
. . . . . 
. . . . . 
. 
O Machine Learning (aprendizado de máquina) está entre as direções principais e 
mais prospectivas no nicho de desenvolvimento de software. O conceito ajuda a automa-
tizar convenientemente vários processos de trabalho (incluindo o processamento de Big 
Data ), aprimora a precisão dos resultados de previsão dos negócios e otimiza a cadeia de 
suprimentos etc.
Além disso, o ML é uma base para aplicativos que apresentam oreconhecimento de 
sinais de voz (sons, fala), recursos faciais e outros objetos que não podem ser identificados 
com a ajuda de fórmulas matemáticas de linha única e expressões booleanas simples.
Existem muitas ferramentas para ajudar na criação de soluções baseadas no 
aprendizado de máquina na linguagem de programação Python. Na sequência serão apre-
sentadas as ferramentas de ML mais eficientes e renomadas, além de outros aspectos 
importantes da ML.
 
69
 3 FERRAMENTAS 
 PYTHON PARA
 MACHINE LEARNING
TÓPICO
UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
https://en.wikipedia.org/wiki/Machine_learning
3.1 Ferramentas de software para a criação de soluções baseadas em ML
TensorFlow
Filho da equipe do Google, o Tensorflow é uma das estruturas 
Python mais avançadas que implementam algoritmos profundos 
de aprendizado de máquina. Sistema utilizado para criação 
e treinamento de redes neurais. Apesar de sua alta curva de 
aprendizado, o produto pode fornecer aos desenvolvedores vá-
rios recursos (como alternativa, você pode escolher entre outras 
estruturas populares de aprendizado de máquina com curvas de 
aprendizado mais acentuadas, como o Theano). Em particular, 
o Tensorflow apresenta ferramentas que permitem executar a 
análise de dados de entrada com a ajuda de dados enciclopé-
dicos e os dados analisados anteriormente durante a interação 
com determinados usuários (supervisores).
Shogun
Shogun é uma biblioteca de software de aprendizado de máquina 
de código-fonte aberto, escrita em C ++. Ele oferece numerosos 
algoritmos e estruturas de dados para problemas de aprendizado 
de máquina. Oferece interfaces para Octave, Python, R, Java, 
Lua, Ruby e C # essa disponibilidade para muitas linguagens de 
programação é devido ao SWI (Wrapper Simplificado e Gerador 
de Interface). É baseado no SVM (Support Vector Machines). 
Essa ferramenta pode ser usada com o mínimo esforço através 
da nuvem e fornece a realização eficiente e simples de todos os 
scripts gerais de ML.
Keras
Uma API de nível superior, o Keras é perfeito para iniciantes. É 
usado para a criação de redes neurais artificiais que imitam 
o processo de memória, semelhante ao que ocorre nos neurô-
nios humanos. Este produto é facilmente integrado ao Theano, 
TensorFlow e CNTK e permite a criação de soluções nodulares 
abertas ao dimensionamento.
70UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
https://www.tensorflow.org/
http://www.shogun-toolbox.org/
https://keras.io/
Scikit-Learn
Essa API fornece meios acessíveis e eficientes para análise de 
dados intelectuais. Com base em ferramentas especializadas 
como NumPy, SciPy e Matplotlib (que já foram apresentados), 
essa API é basicamente um assistente universal na resolução 
de tarefas de classificação, regressão e clusterização.
Theano
O Theano é uma das estruturas de aprendizado de máquina 
mais renomadas do Python. Foi criado para o processamento 
de matrizes multidimensionais. Está intimamente integrado à so-
lução de computação mais antiga NumPy. Os desenvolvedores 
adoram a Theano por seu rápido desempenho fornecido pelo 
emprego de uma GPU adicional durante os cálculos, bem como 
pelo prático recurso de teste de unidade.
NLTK
A plataforma gratuita Natural Language Toolkit é uma solução 
universal para processamento de fala em humanos. A NLTK (Na-
tural e Text Analytics), pode ser usada mesmo para a criação de 
software estritamente especializado que requer identificação de 
terminologia difícil ou expressões de dialeto. O NLTK é compatí-
vel com os sistemas operacionais Linux, Windows e Mac OS X.
Gensim
Um produto de código aberto, o Gensim é usado pelos desenvol-
vedores para modelar espaços vetoriais em Python e é baseado 
nas bibliotecas NumPy e SciPy. O software é adaptado para tra-
balhar com grandes volumes de dados digitais, demonstrando 
ótimo desempenho e taxas racionais de consumo de memória.
71UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
http://scikit-learn.org/stable/index.html
http://deeplearning.net/software/theano/
https://www.nltk.org/
https://radimrehurek.com/gensim/
SciPy
SciPy é uma biblioteca gratuita criada para implementar cálcu-
los matemáticos e de engenharia complexos. Inclui os pacotes 
NumPy, IPython e Pandas, que fornecem uma abordagem abran-
gente para resolver tarefas científicas de várias etapas quando 
combinadas. Particularmente, ele fornece todas as funções pa-
drão de análise matemática (por exemplo, cálculo de extremos, 
solventes de equações diferenciais, solventes integrais), além 
de capacidades bastante específicas, como reconhecimento 
de gesto e imagem. O SciPy será uma ótima opção para quem 
costuma trabalhar com o MATLAB.
Dask
Este produto permite a implementação de processos de análise 
de dados multidimensionais. É por isso que é frequentemente 
empregado na criação de aplicativos de previsão. Além disso, é 
integrado com o NumPy, o Pandas e o Scikit-Learn. O Dask exe-
cuta o paralelismo dos cálculos, permitindo o dimensionamento 
de aplicativos com base nos pacotes mencionados além dos 
limites de um único computador (por exemplo, pode se espalhar 
pelos clusters distribuídos).
Numba
O Numba é um compilador JIT, que traduz um subconjunto de 
Python e Numpy em código de máquina rápido usando LLVM. 
É uma solução bem importante para quem usa algoritmos de 
aprendizado de máquina capacitivo. Ele oferece uma diversi-
dade para paralelizar código Python para CPUs e GPUs, com 
mínimas alterações de código. de opções Basicamente, ele 
emprega as capacidades do compilador LLVM para converter o 
código Python em binário em modo acelerado.
72UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
https://www.scipy.org/
https://dask.pydata.org/en/latest/
https://numba.pydata.org/
HPAT (High Performance Analytics Toolkit)
O HPAT também é um compilador que aumenta a performance 
do software que atua em grandes volumes de dados, porque 
opera grandes volumes de dados. É uma distribuição de análise 
de big data de código aberto, que acelera a análise de dados e 
o aprendizado de máquina em clusters.
A grande vantagem das ferramentas de Machine Learning é a colaboração para 
com os programadores que estão iniciando na área de Análise de Dados. É muito im-
portante que se realizem as perguntas certas e que procurem os dados nos lugares 
adequados, e também que seja realizado um estudo para escolher qual ferramenta irá 
atender ao seu propósito.
Google Colab
Google Colab ou Google Colaboratory - é uma ferramenta em 
nuvem que permite criar e executar códigos na linguagem Py-
thon. Com ele, você pode rodar os programas diretamente do 
seu navegador. O Google Colab oferece um ambiente bastante 
semelhante ao software de código aberto Júpiter Notebook, 
com a vantagem de não necessitar que seja realizada a ins-
talação localmente e não requer configurações. Para criar seu 
notebook no Colaboratory é preciso ter uma conta do Google, 
com ela você terá acesso ao Google Colab e ao Google Drive, 
que permite salvar seus códigos na nuvem, acesse a plataforma 
https://colab.research.google.com/, faça seu cadastro e comece 
a programar em Python, sem a preocupação de instalação.
73UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
https://github.com/IntelLabs/hpat
https://colab.research.google.com/
74UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
Localização de novos planetas
Um artigo científico publicado por Shallue e Vanderburg no The Astronomical Journal apresentou, em 2018, 
um método para identificar novos planetas usando Deep Learning.
Esse estudo conjunto entre cientistas da Nasa e do Google analisou perturbações orbitais mínimas detecta-
das pelo Telescópio Kepler, e descobriu um sistema com 8 planetas desconhecidos.
Fonte: https://sigmoidal.ai/deep-learning-e-python-aplicacoes-no-espaco/
https://sigmoidal.ai/deep-learning-e-python-aplicacoes-no-espaco/
75
Finalizamosa última unidade da disciplina, expomos uma pequena parte dos recur-
sos da linguagem Python que é uma linguagem muito fácil de aprender, e tem uma sintaxe 
simples, permitindo explorar inúmeros recursos. Apresentamos as bibliotecas principais da 
linguagem Python: Numpy, Pandas e Matplotlib, e algumas ferramentas para a utilização de 
machine learning. Esperamos que o conteúdo apresentado desperte em vocês a vontade 
de conhecer mais sobre Análise de Dados. Bons estudos e até a próxima.
CONSIDERAÇÕES FINAIS
UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
76
LIVRO 
Título: Python Para Análise de Dados: Tratamento de Dados 
com Pandas, NumPy e IPython
Autor: Wes McKinney.
Editora: Novatec/2018.
Sinopse: Instruções completas para manipular, processar, 
limpar e extrair informações de conjunto de dados em Python, 
este guia prático está repleto de casos de estudo que mostram 
como resolver um amplo conjunto de problemas de análise de 
dados de forma eficiente. 
FILME / VÍDEO 
Título: Transcendence — A revolução
Ano: 2014.
Sinopse: Esse filme, une computação quântica e nanotecnologia 
à inteligência artificial. Na trama, o Dr. Will Caster (Johnny Depp) 
é um grande pesquisador no campo da IA e vem conquistando 
grandes avanços na área. Esses avanços tornam o principal alvo 
de extremistas anti-tecnologia. 
MATERIAL COMPLEMENTAR
UNIDADE 4 PYTHON - PRINCÍPIOS PARA ANÁLISE DE DADOS
77
REFERÊNCIAS BIBLIOGRÁFICAS
5 BENEFÍCIOS ao usar data science no marketing digital. DSAcademy, 2022. Disponível 
em: https://blog.dsacademy.com.br/5-beneficios-ao-usar-data-science-no-marketing_digital/ 
Acesso em 10/12/2002.
AMARAL, F. Aprenda Mineração de Dados: Teoria e prática. 1ª. ed. Rio de Janeiro: Alta 
Books, 2016a.
AMARAL, F. Introdução à Ciência de Dados. Mineração de Dados e Big Data, 2015.
BATANERO, Carmen et al.Training Teachers to tech probability. Journal of Statistics 
Education, San Luis Opispo, California, v.12, n.1, 2004.
BEM-VINDO AO APACHE PIG! Pig. Apache, 2021. Disponível em: http://pig.apache.org/ 
Acesso em 10/10/2022
BERNSTEIN, PHILIP A.; HAAS, LAURA M. Information integration in the Enterprise. 
2008.
BREVE, F. A. Aprendizado de máquina em redes complexas. Tese (Doutorado em Ciên-
cias de Computação e Matemática Computacional) - Instituto de Ciências Matemáticas e de 
Computação, Universidade de São Paulo, São Carlos, 2010. 
CAMARGO, K. G. Inteligência Artificial Aplicada a Nutrição na Prescrição de Planos 
Alimentares. 1999. 252 f. Dissertação (mestrado em engenharia) – Universidade Federal 
de Santa Catarina – UFSC, Florianópolis, 1999. 
CIÊNCIA de dados: o que é, conceitos e definição. Cetax, 2022. Disponível em: https://
www.cetax.com.br/blog/data-science-ou-ciencia-de-dados/ Acesso em 18/03/2022.
CIÊNCIA e dados - data science for professionals. Cienciadedados, 2015. Disponível em : 
https://www.cienciaedados.com/predictive-analytics/ Acesso em 15/09/2022.
https://blog.dsacademy.com.br/5-beneficios-ao-usar-data-science-no-marketing_digital/ 
http://pig.apache.org/
https://www.cetax.com.br/blog/data-science-ou-ciencia-de-dados/
https://www.cetax.com.br/blog/data-science-ou-ciencia-de-dados/
: https:/www.cienciaedados.com/predictive-analytics/ 
: https:/www.cienciaedados.com/predictive-analytics/ 
78
DEAN, JEFFREY, & GHEMAWAT, SANJAY. MapReduce: Simplified Data Processing on 
Large Clusters. Symposium on Operating System Design and Implementation. 2004
DEEP LEARNING BOOK. Deeplearningbook.com. Disponível em: http://www.deeplearnin-
gbook.com.br/.Acesso em 03/04/2020
FACELI, K. et al. Inteligência Artificial: uma Abordagem de Aprendizado de Máquina. 
ed.2 .ed. LCT. 2021.
FAYYAD, U.M. et al. From data mining to Knowledge discovery: an overview. In: Advan-
ces in Knowledge discovery and data mining California: AAAI/The MIT, 1996 p.1-34.
FINLAY, Steven. Predictive Analytics, Data Mining and Big Data. Myths, Misconcep-
tions and Methods (1ed) Basingstoke: Palgrave Macmilian. 2014.
FREITAS, A. L, SANTANA O.V.J. Machine Learning: Desafios para um Brasil compe-
titivo, qual é o papel que o Brasil deve desempenhar nessa significativa evolução 
científica e tecnológica? - Revista Computação Brasil - Revista da Sociedade Brasileira 
de Computação. n.39 ed.1. 2019.
GATES, ALAN. Programming Pig. O’Reilly Media, Inc. 2011.
HAYKIN, S. Redes neurais: princípios e prática, Porto Alegre: Bookman, 2011.
HOFFMAN, K. Douglas, BATESON, E.G. John. Essentials of Services Marketing. Texas: 
The Dryden Press, 1997.
KIMBALL, RALPH. The Data Warehouse ETL Toolkit. 2004.
KWIATKOWSKA, Julia. Cross-selling and Up-selling in bank. Copernican Journal of Fi-
nance & Accounting, 2018.
LIU, XIUFENG, THOMSEN, CHRISTIAN, & PEDERSEN, TORBEN BACH. ETLMR: A 
Highly Scalable Dimensional ETL Framework based on MapReduce. Proceedings 
of 13th International Conference on Data Warehousing and Knowledge, Toulouse, 
France. 2011. 
http://www.deeplearningbook.com.br/
http://www.deeplearningbook.com.br/
79
MACHINE LEARNING - O QUE É E QUAL SUA IMPORTÂNCIA?. Sas.com, 2020 Dispo-
nível em: https://www.sas.com/pt_br/insights/analytics/machine-learning.html. Acesso em 
01/04/2020.
O QUE É ETL – EXTRACT TRANSFORM LOAD? Cetax, 2022. Disponível em : https://
cetax.com.br/etl-extract-transform-load/ . Acesso em 25/09/2022
O QUE É MACHINE LEARNING E COMO FUNCIONA?. Transformacaodigital.com, 2018. 
Disponível em: https://transformacaodigital.com/dados/o-que-e-machine-learning-e-como-
-funciona/. Acesso em 01/04/2020.
PORTO, Sarah. Fundamentos de python para análise de dados. geekhunter. 2020. Dispo-
nível em : https://blog.geekhunter.com.br/fundamentos-de-python-para-analise-de-dados/. 
Acesso em 10/08/2022.
R OU PYTHON PARA ANÁLISE DE DADOS? Cienciadedados.com, 2018. Disponível em: 
http://www.cienciaedados.com/r-ou-python-para-analise-de-dados/. Acesso em: 03/04/2020
SARACCO, R. Congrats Xiaoyi. You are now a medical doctor. IEEE Future Directions. 
2017. Disponível em: <https://cmte.ieee.org/futuredirections/2017/12/02/congrats-xiaoyi-
-you-are-now-a-medical-doctor/>. Acesso em: 09 fev. 2023.
SCHMARZO, Bill, Understanding How Data Powers Big Business. Ed. Wiley, 2013.
SIEGEL, Eric. predictive Analytics: The Power to Predict who will click, buy, lie, or 
Die(1ed.). 2013.
SIEGEL, I.F. Linguagem Python e suas aplicações em Ciência de Dados – Universida-
de Federal Fluminense. 2018 
THOMSEN, C., & PEDERSEN, T. B. pygrametl: A Powerful Programming Framework 
for Extract - Transform-Load Programmers. In Proc. of DOLAP. 2009.
TUPLES, E.. Difference Between Artificial Intelligence, Machine Learning and Deep 
Learning. buZZrobot, 2017. D
VICTÓRIA, Penélope. Qual a melhor linguagem para ciência de dados? geekhunter, 2021. 
Disponível em : https://blog.geekhunter.com.br/qual-a-melhor-linguagem-para-ciencia-de-dados/ 
Acesso em 15/08/2022
https://www.sas.com/pt_br/insights/analytics/machine-learning.html. 
https://cetax.com.br/etl-extract-transform-load/
https://cetax.com.br/etl-extract-transform-load/
https://transformacaodigital.com/dados/o-que-e-machine-learning-e-como-funciona
https://transformacaodigital.com/dados/o-que-e-machine-learning-e-como-funciona/
https://transformacaodigital.com/dados/o-que-e-machine-learning-e-como-funciona/
https://blog.geekhunter.com.br/fundamentos-de-python-para-analise-de-dados/
http://www.cienciaedados.com/r-ou-python-para-analise-de-dados/
<https://cmte.ieee.org/futuredirections/2017/12/02/congrats-xiaoyi-you-are-now-a-medical-doctor/>
<https://cmte.ieee.org/futuredirections/2017/12/02/congrats-xiaoyi-you-are-now-a-medical-doctor/>
https://blog.geekhunter.com.br/qual-a-melhor-linguagem-para-ciencia-de-dados/
80
Prezado (a) aluno (a),
Nesta disciplina conseguimos verificar que a área de ciência de dados surge mo-
tivada pela necessidade de compreender os processos nos quais os dados se encontram 
e ter uma boa interpretação que seja capaz de trazer resultados para embasar decisões 
estratégicas. Ciência de dados é a junção entre várias áreasde conhecimento, como esta-
tística, computação e conhecimento do negócio.
Foi apresentado como são realizados a extração, a transformação e o carregamento 
dos dados - ETL - e entendemos a importância do seu funcionamento. 
 Podemos entender que a Inteligência Artificial levou ao desenvolvimento do 
Machine Learning e do Deep Learning, tecnologias que ampliam as possibilidades e as 
formas de atuação da IA.
Portanto, o conteúdo exposto nesta disciplina, consiste no passos iniciais para 
o conhecimento na área de Análise de Dados, existem inúmeras ferramentas para um 
aprendizado mais profundo, deixamos como recomendação às bibliotecas scikit-learn e 
Gensim consideradas relevantes para os que desejam um conhecimento mais elevado 
na área de Ciência de Dados.
CONCLUSÃO GERAL
ENDEREÇO MEGAPOLO SEDE
 Praça Brasil , 250 - Centro
 CEP 87702 - 320
 Paranavaí - PR - Brasil 
TELEFONE (44) 3045 - 9898
	Site UniFatecie 3: 
	Botão 11: 
	Botão 10: 
	Botão 9: 
	Botão 8: 
	Unidade 01: 
	Unidade 02: 
	Unidade 03: 
	Unidade 04: