Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

DESCOBERTA DE CONHECIMENTO COM BIG DATA 
ANALYTICS 
2 
 
 
NOSSA HISTÓRIA 
 
A nossa história inicia com a realização do sonho de um grupo de empresários, 
em atender à crescente demanda de alunos para cursos de Graduação e Pós-
Graduação. Com isso foi criado a nossa instituição, como entidade oferecendo 
serviços educacionais em nível superior. 
A instituição tem por objetivo formar diplomados nas diferentes áreas de 
conhecimento, aptos para a inserção em setores profissionais e para a participação 
no desenvolvimento da sociedade brasileira, e colaborar na sua formação contínua. 
Além de promover a divulgação de conhecimentos culturais, científicos e técnicos que 
constituem patrimônio da humanidade e comunicar o saber através do ensino, de 
publicação ou outras normas de comunicação. 
A nossa missão é oferecer qualidade em conhecimento e cultura de forma 
confiável e eficiente para que o aluno tenha oportunidade de construir uma base 
profissional e ética. Dessa forma, conquistando o espaço de uma das instituições 
modelo no país na oferta de cursos, primando sempre pela inovação tecnológica, 
excelência no atendimento e valor do serviço oferecido. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3 
 
 
SUMÁRIO 
 
1. Tomada de Decisão ............................................................................................ 4 
1.1 Produção de dados ................................................................................................................... 4 
1.2 Abordagem dos dados .............................................................................................................. 5 
1.3 Introdução à tecnologia NoSQL ................................................................................................ 7 
1.4 Armazenamento dos dados ...................................................................................................... 8 
1.5 Importância do armazenamento de dados ............................................................................... 8 
1.5.1 Dispositivos de storage ...................................................................................................... 9 
1.5.2 Servidores ......................................................................................................................... 9 
1.5.3 Armazenamento em nuvem — cloud computing ..............................................................10 
1.6 Fundamentos para a tomada de decisão .................................................................................12 
1.6.1 Modelo Racional ...............................................................................................................12 
1.6.2 Modelo Processual ...........................................................................................................14 
1.6.3 Modelo Político ................................................................................................................15 
1.6.4 Modelo Anárquico ............................................................................................................16 
2. Analytics ............................................................................................................ 18 
2.1.1 Análise Descritiva .............................................................................................................18 
2.1.2 Análise Preditiva ...............................................................................................................19 
2.1.3 Análise Prescritiva ............................................................................................................20 
2.1 Business Analytics ...................................................................................................................21 
2.2 Business Intelligence ...............................................................................................................23 
2.3 Semelhanças entre BI e BA ......................................................................................................23 
2.3.1 Ferramentas para tomadas de decisões .....................................................................24 
2.3.2 Data-driven ................................................................................................................24 
2.4 Diferença entre Business Analytics e Business Intelligence ......................................................25 
2.5 O que esperar da tomada de decisão com BA? ........................................................................26 
2.6 Data Analytics .........................................................................................................................26 
2.7 Algumas plataformas para Big Date Analytics ..........................................................................27 
2.7.1 Recursos e funções do Yarn ........................................................................................28 
2.8 O início da Ciência de Dados ....................................................................................................29 
2.9 Ciência de dados e seus pilares ................................................................................................30 
2.9.1 Aplicações de Data Science ...............................................................................................31 
Referências Bibliográficas ..................................................................................... 32 
 
4 
 
 
1. Tomada de Decisão 
 
A tomada de decisão nas organizações consiste em fazer uma escolha 
importante, normalmente dividida entre mais de duas possibilidades e que desdobrará 
consequências para o futuro, tanto do negócio quanto dos colaboradores e clientes. 
O processo de decisão é contínuo e combina uma junção de conhecimentos, 
habilidades e experiência. Deve ser trabalhado constantemente e ter seus riscos 
analisados para que os problemas sejam solucionados da melhor forma possível. 
1.1 Produção de dados 
Com o advindo da internet e o avanço de uma nova era de compartilhamento 
de informações em um volume e velocidade nunca vistos antes, segundo Sodré 
(2016), aproximadamente 2,5 quintilhões de bytes de dados são produzidos 
diariamente através de postagens em redes sociais, upload de fotos, arquivos e 
vídeos, registros de transações financeiras, sinais de GPS, rastros de navegação e 
sensores dos mais vários tipos. 
Além do mais, as novas tecnologias têm originado nos últimos anos para 
endereçar as lacunas técnicas das ferramentas clássicas, no tratamento das 
demandas de processamento mais robustos, tempos de resposta cada vez menores 
e crescentes volumes de dados (LETOUZÉ, 2012; GOLDMAN et al., 2012). 
É importante percebemos que, a cada dia, a produção dos dados tem crescido 
massivamente. Um estudo da “A Universe of Opportunities and Challenges”, 
elaborado pela consultoria EMC, reportou que, de 2006 a 2010, o volume de dados 
digitais produzidos cresceu de 166 exabytes para 988 exabytes, fazendo a perspectiva 
de que o volume de dados atinga a casa dos 40.000 exabytes, ou 40 zettabytes (ou 
40 trilhões de Gigabytes), nos próximos anos (GANTZ, 2012). 
Nesse sentido, observamos que os grandes volumes de dados estão sendo 
processados pelas soluções de Big Data, Ciências de Dados, Analytics, na qual 
aumentam exponencialmente e solicitam critérios diferenciados de armazenamento e 
processamento, expondo um grande desafio às organizações de tecnologias 
tradicionais, bem como o conjunto de volumes de dados precisa de armazenamento 
5 
 
 
escalonável e ter um enfoque distribuído para possibilitar a consulta a eles (ERL et. 
al., 2016). 
 O Facebook armazena, acessa e analisa mais de 50 petabytes de 
informações geradas pelos usuários, a cada mês são gerados mais de 
700 milhões de minutos por mês. 
 A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, 
ou seja, nunca ninguém conseguiráassistir todos os vídeos do 
Youtube. 
 Diariamente mais de 500 milhões de mensagens são enviadas pelo 
Twitter, com uma média de 5700 TPS (Twittes per Second ou 
Mensagens por Segundo), o recorde é de 143.199 TPS. 
 O Google processa diariamente mais de 3 bilhões de pesquisas em 
todo o mundo, sendo desse total 15% totalmente inéditas. Seu “motor” 
de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 
petabytes de informação. Sem contar todas as informações que as 
companhias geram diariamente, sejam elas estruturadas ou não. 
 
1.2 Abordagem dos dados 
 
Tudo que fazemos no nosso dia a dia como tomar banho, mandar e-mails, fazer 
ligações entre outras atividades geram certa quantidade de dados no mundo digital. 
E um levantamento divulgado recentemente pelo IDC afirma que a produção de dados 
dobra a cada dois anos, e a previsão é de que em 2020 sejam gerados 350 zettabytes 
de dados, ou 35 trilhões de gigabytes. 
O estudo ainda revela que hoje, em todo mundo, existem mais de 500 
quatrilhões de informações armazenadas no universo digital. Segundo uma matéria 
publicada pelo jornal O Globo, os seres humanos geram muito mais dados do que a 
tecnologia é capaz de comportar. 
Além dos humanos, máquinas que coletam dados geográficos, bancários, 
climáticos e de produção são as principais responsáveis pela grande produção de 
informação diária. 
6 
 
 
Analistas afirmam que o grande desafio para o setor de tecnologia da 
informação é o desenvolvimento de novas ferramentas com capacidades superiores 
de armazenamento e também velocidade de acesso. Tal desafio se deve ao fato de 
que a próxima década será a década dos dados, na qual a capacidade de 
armazenamento e velocidade devem estar interligadas para garantir o acesso a essas 
informações. Os profissionais de TI deverão investir em sistemas de armazenamento 
mais rápidos. 
De acordo com a professora da PUC-Rio Karin Breitnam, os equipamentos de 
hardware necessários para essa função já estão prontos, o que os profissionais de TI 
devem fazer agora é voltar sua atenção para os sistemas de armazenamento, nos 
quais os produtos voltados ao mercado empresarial têm capacidade de 5 petabytes, 
equivalente a 5 milhões de gigabytes. 
A velocidade e a potência dos sistemas possibilitarão o cruzamento complexo 
de informações, garantindo diversas possibilidades para o mercado. 
 
 
Figura 1.2 – Crescimento dos dados 
 
A capacidade dos discos rígidos e outros elementos de armazenamento 
aumentaram bastante nos últimos anos, mas a velocidade de leitura e escrita dos 
mesmos não acompanhou o mesmo ritmo. Como um exemplo, a leitura de todo um 
disco rígido 20 anos atrás levava cerca de cinco minutos. Atualmente, leva mais de 
duas horas e meia. Trata-se de um longo período para ler todos os dados, e escrever 
7 
 
 
é ainda mais lento. A solução mais óbvia para resolver esse problema é ler/escrever 
os dados em paralelo, utilizando vários discos. Deste modo, se existem 100 HDs, cada 
um com 1% do total dos dados, por exemplo, a leitura pode ser realizada 100 vezes 
mais rapidamente, em teoria. 
 
1.3 Introdução à tecnologia NoSQL 
 
Constantemente, até mesmo os profissionais da área preferem tornarem-se 
céticos usuários dos SGBD’s (Sistemas de Gerenciamento de Bancos de Dados) 
puramente relacionais, para resolver problemas com estruturas muito dispares ao 
paradigma relacional, causando limitações e trabalho excessivamente desnecessário. 
Ferramentas NoSQL fornecem meios mais eficientes de armazenamento de 
grandes volumes de dados e/ou mecanismos de pesquisa de baixa latência, fatores 
importantes que precisam ser considerados durante a escolha de uma solução de 
armazenamento de dados (PORCELLI, 2011, p.21). 
Não se trata apenas de uma linguagem, mas sim de um conjunto de 
ferramentas e estruturas. “NoSQL é um movimento que promove soluções de 
armazenamento de dados não relacionais.” (PORCELLI, 2011). 
Esse conjunto consiste em diversas tecnologias capazes de resolver certos 
problemas de forma mais específica, abordando, para tal, cada cenário de uma forma 
bem particular. Contudo, o objetivo do NoSQL não é substituir a linguagem SQL, como 
muitos pensam. Sua proposta é (como o nome denomina: not only SQL – não apenas 
SQL) usar também modelos não-relacionais, para trazer a melhor solução para um 
determinado problema. 
Segundo Porcelli (2011), desta forma, é possível trabalhar com tecnologias 
NoSQL e banco de dados relacionais dentro de uma mesma aplicação. 
 
 
8 
 
 
1.4 Armazenamento dos dados 
 
Outro lado interessante a ser observado que pode constatar é que os dados 
estão sendo gerados a cada instante e de maneira exponencial, esse aspecto 
ocasiona na necessidade de se ter recursos de armazenamento para esses dados. 
Isso se deve aos recursos tradicionais que já não podem suportar tanto volume 
de informações produzido, de modo que, além desse volume de dados, existem as 
capacidades de transferência das redes de comunicação que ficam excedidas. Dessa 
forma, existe uma necessidade crescente em revolucionar as tecnologias de 
armazenamento e de comunicação (JUSTIN, et al., 2006). 
O armazenamento possibilita que, de forma posterior, os dados possam ser 
readquiridos facilmente para se realizar uma cópia ou para replicar o processo 
acontecido, como também, para produzir informação ou conhecimento (AMARAL, 
2016). 
Ressalta-se que o armazenamento deve priorizar os seguintes aspectos: 
segurança da informação, integridade, diminuir redundância, concorrência, otimização 
de espaço, etc. Outro aspecto é que o armazenamento pode ser feito em um 
dispositivo volátil ou não volátil. 
Atualmente, algumas empresas usam ambientes, como Cloud Computing ou 
Computação em Nuvem, para o armazenamento. A computação em nuvem admite 
que empresas aluguem capacidade de computação e armazenamento sob solicitação 
e com pagamento relacionado à utilização, ao invés de bancarem grandes 
investimentos para a construção e instalação de dispositivos de computação em 
grande escala (SOUSA et al., 2010). 
 
1.5 Importância do armazenamento de dados 
 
O armazenamento de dados é um fator estratégico para uma empresa 
moderna. Sua importância se revela quando avaliamos o intenso uso de tecnologia 
para comunicação e realização de atividades corporativas que, em conjunto, levam a 
9 
 
 
um crescimento exponencial do volume de dados a ser gerido. Esses dados são um 
substrato importante, não apenas para a operação de uma empresa, mas também 
para gerar insights e nortear ações que visam a inovação e também o entendimento 
das necessidades dos clientes. 
Tecnologias como o big data têm revelado o potencial que a análise de grandes 
volumes de dados tem para fornecer um panorama do mercado e prescrever ações 
que vão preparar as empresas para o futuro. É importante salientar também que 
problemas relacionados a imprecisão ou perda de dados podem causar prejuízos de 
diversas naturezas para as empresas, como indisponibilidade de serviços, perdas de 
vendas e problemas jurídicos. 
Para evitar esses contratempos, é importante saber quais opções de 
armazenamento se mostram mais compatíveis com o negócio. Elas devem suprir a 
demanda por armazenamento, confiança e distribuição de informações. 
 
1.5.1 Dispositivos de storage 
 
São hardwares usados para o armazenamento de dados, cujos exemplos são 
HDs, SSDs, DVDs, fitas, pendrive e cartões de memória. São empregados para 
aumentar o volume de dados que pode ser guardado e usado em suas atividades e 
também para o transporte de informações. 
Entretanto, essas opções são predominantes somente em negócios de 
pequeno e médio porte. Assim que o negócio começar a crescer e gerar uma 
quantidade maior de informações, é importante considerar a aquisição de um servidor 
ou, então, a transferência dos dados para a nuvem. 
 
1.5.2 Servidores 
 
Um servidor éum computador com grande capacidade de armazenamento e 
processamento. Tem como finalidade guardar e tornar possível a distribuição 
gerenciável de dados em diversos formados (planilhas, imagens, documentos de 
10 
 
 
textos, etc.), aplicações web, logs de sistemas e outros recursos computacionais 
necessários para uma organização. Utiliza um sistema operacional apropriado para 
essas funções, como Windows Server e Ubuntu Server. Pode ser instalado 
localmente, em uma empresa e acessado via rede interna, ou remotamente, em um 
data center. 
À medida que o volume de dados aumenta, a empresa tem como opções 
adquirir mais recursos computacionais, como mídias de armazenamento com mais 
espaço, ou modelos mais robustos, como blade ou rack. 
Usar um servidor local tem como vantagem a segurança, pois os dados não 
ficam expostos na web. Entretanto, demanda diversos custos com manutenção de um 
espaço e profissionais para operacionalizá-lo, mantê-lo atualizado e em bom estado, 
encarregados de implantar práticas de governança de dados. 
Outra necessidade recorrente é a substituição por tecnologias mais robustas, 
capazes de rodar novos softwares relevantes que surgem no mercado. 
 
Figura 1.5.2 – Tipos de servidores para armazenamento 
 
1.5.3 Armazenamento em nuvem — cloud computing 
 
A nuvem onde os dados são armazenados e distribuídos é na realidade um 
data center no qual um grande número de servidores e dispositivos de storage oferece 
um espaço para o armazenamento de dados e aplicações. Ao se contratar um serviço 
de cloud computing, a empresa se habilita a usar recursos computacionais como 
espaço em disco, memória RAM, CPU e transferência de dados via web. 
Normalmente, as empresas que oferecem esse serviço disponibilizam um 
painel em que se pode gerir os recursos contratados. Com uma interface simples, 
11 
 
 
permitem contratar serviços sob demanda a fim de se compatibilizar com 
necessidades do negócio. Um exemplo é o Microsoft Azure Cloud. Com essa solução 
em cloud é possível desenvolver aplicações web que podem ser acessadas por 
computador ou smartphone, criar APIs e transferir aquelas aplicações antes usadas 
apenas na rede interna da empresa. 
A vantagem do armazenamento de dados na nuvem são: 
 redução de custos: o preço da mensalidade para armazenamento e 
processamento de grandes volumes de dados é bastante reduzido 
quando comparado à aquisição de ativos, manutenção e contratação de 
pessoal; 
 aquisição sob demanda: através do painel, a empresa pode contratar 
mais recursos ou reduzir conforme a necessidade; 
 serviços agregados: os serviços com backup, proteção de dados e 
integração com APIs; 
 mobilidade: os colaboradores da empresa podem acessar os dados e 
trocar informações de qualquer lugar com acesso à internet. 
 
A principal desvantagem que o armazenamento em nuvem pode apresentar é 
em relação à segurança, uma vez que os dados são acessíveis via web. Entretanto, 
o provedor desse serviço, em geral, oferece opções para mitigar esses riscos, como 
no caso do Azure que disponibiliza firewalls, anti-malwares e software para 
monitoramento do estado da segurança. 
 
12 
 
 
 
Figura 1.5.3 – Computação em nuvem 
 
1.6 Fundamentos para a tomada de decisão 
O processo decisório e a tomada de decisão estão intimamente ligados e 
podem ser mal interpretadas. Angeloni (2003) afirma que dado, informação e 
conhecimento são aspectos importantes para o processo decisório nas organizações. 
Entendemos que o processo decisório e os indivíduos tomadores de decisões 
necessitam de atentar-se aos dados e as informações a serem usadas para que a 
decisão seja a mais próxima de ser eficaz (GUIMARÃES; ÉVORA, 2004). 
Segundo Robbins (2005), todas as decisões precisam de interpretações e 
avaliação de informação. Os dados podem vir de várias fontes e requerem ser 
selecionados, processados e interpretados. 
 
1.6.1 Modelo Racional 
 
Quando precisamos tomar uma decisão? Para resolver um problema 
(funcionamento inadequado) ou aproveitar a oportunidade de maximizar ganhos 
(bater metas). Entre o estado atual de desempenho e o final, deve haver melhoras 
perceptíveis. As decisões são tomadas entre as alternativas que proporcionam estes 
ganhos. 
13 
 
 
O modelo racional pressupõe que a decisão ideal seria a escolhida, 
independente de quem fosse o tomador da decisão. 
Tem como premissas: 
 O problema ou a oportunidade está bem definido e compreendido; 
 Os objetivos e metas são claros; 
 Não há limitação de tempo e de recursos para a análise; 
 As informações estão disponíveis e confiáveis, em quantidade e qualidade; 
 Os critérios de avaliação das alternativas são conhecidos e estáveis; 
 O tomador de decisão é racional, usa a lógica para avaliar e escolher as 
alternativas, maximizando os objetivos. 
Nem sempre estas premissas acontecem ao se analisar um problema ou 
oportunidade. É necessário um grau de certeza e confiabilidade nas informações das 
alternativas e seus resultados, o que não é comum ocorrer. 
O modelo racional de tomada de decisão assume que devem ser utilizados 
procedimentos racionais, para que sejam obtidas decisões de qualidade. É um modelo 
teórico e normativo, que modela o processo decisório, tornando-o mais racional. 
Porém, como o tomador de decisões é um ser humano e nosso cérebro possui 
restrições devido ao modo como funciona, há tanto limitações de racionalidade quanto 
interferência dos processos cognitivos e emocionais durante todas as fases do 
processo decisório. 
Na tomada de decisão racional toda decisão deve ser tomada racionalmente, com 
base em informações completas sobre os objetivos da empresa, alternativas 
plausíveis, prováveis resultados dessas alternativas e importância desses resultados 
para a organização. Na prática, a racionalidade da decisão é atrapalhada pelo choque 
de interesses entre sócios da empresa, pelas barganhas e negociações entre grupos 
e indivíduos, pelas limitações e idiossincrasias que envolvem as decisões, pela falta 
de informações e assim por diante (CHOO, 2003). 
14 
 
 
1.6.2 Modelo Processual 
 
A tomada de decisão processual é caracterizada por enfatizar o processo de 
tomada de decisão em ambientes complexos e dinâmicos. Diferente do modelo 
racional, que é utilizado para solucionar problemas de baixa incerteza e utiliza um alto 
nível de informações (CHOO, 2003). 
O modelo processual é utilizado quando os objetivos são claros, mas os métodos 
e as técnicas para atingi-los são incertos. Apesar disso, o processo revela uma linha 
geral de desenvolvimento, cujo início se dá com o reconhecimento e o diagnóstico de 
um problema, prossegue com a análise das possíveis alternativas, e termina com a 
avaliação e seleção de uma opção a fim de resolver o problema (CHOO, 2003). 
O modelo processual se identifica por ser o modelo mais complexo e com mais 
etapas para a tomada de uma decisão. A sua constituição se dá em três fases 
decisórias, três rotinas de apoio e seis grupos de fatores dinâmicos. 
Fases decisórias: 
1. Identificação: é a fase que reconhece a necessidade de tomar uma decisão 
e desenvolve a compreensão das questões implicadas a ela. Consiste em 
reconhecer e diagnosticar o problema. 
2. Desenvolvimento: tem como objetivo desenvolver uma ou mais soluções 
para um problema, crise ou oportunidade. Consiste na busca ou criação de 
projetos para a resolução dos mesmos. 
3. Seleção: avalia as alternativas encontradas pelos envolvidos no projeto e 
escolhe aquela que for considerada a mais viável e eficaz. 
 
Segundo Mintzberg et al. (1976) como complemento à fase de desenvolvimento, 
existem três rotinas para auxiliar na busca de uma ou mais soluções para um 
problema, e consistem em: rotina de busca e rotina de criação. Com relação às rotinas 
de busca, estas podem ser pesquisas internas ou externas. Já as rotinas de criação 
envolvem o desenvolvimentode uma solução customizada e única. 
Existem três rotinas que auxiliam na hora de colocar em pratica as fases decisórias 
e são elas: a rotina de controle, de comunicação e política. A rotina de controle tem 
15 
 
 
como objetivo guiar o processo decisório analisando seu planejamento. A rotina de 
comunicação visa reunir e distribuir as informações reunidas. A rotina política é a 
forma de barganha e persuasão para impor as ideias encontradas (CHOO, 2003). Por 
fim existem os fatores dinâmicos. 
Fatores dinâmicos: 
 Interrupções: intervenções ambientais e internas. 
 Prazos: reestruturação dos prazos durante o processo. 
 Feedback: os encarregados são responsáveis por demonstrar os resultados 
a todos aqueles envolvidos na decisão. 
 Ciclos de compreensão: necessários para lidar com questões complexas. 
 Ciclos de fracasso: ocorrem quando não se consegue chegar a uma 
decisão. 
O modelo processual apresenta várias semelhanças ao modelo racional e suas 
principais características são semelhantes em muitos sentidos. Porém, um fator que 
o difere é a condição de flexibilidade, permitindo que os gestores realizem ajustes 
quando necessário. O modelo processual é focado em resultados de longo prazo É 
estratégico em sua orientação e visa promover mudanças. O modelo processual é 
eclético e aproveita características de outros modelos. Essas qualidades fazem dele 
o resumo de como deve ocorrer a interdisciplinaridade na tomada de decisão 
(HARRISON, 1993). 
1.6.3 Modelo Político 
 
O modelo político segundo Choo (2003) é considerado uma ferramenta para 
decisões utilizadas quando os responsáveis pela tomada de decisão ocupam 
diferentes posições na empresa e exercem graus diferentes de influência dentro da 
organização. Deste modo as escolhas resultam em escolhas menos racionais e levam 
em consideração os níveis ocupados pelos gestores. 
Bacharach e Baratz (1983) afirmam que o poder não é posse de alguém, ele é 
relacional. Para que o poder exista, é necessário que existam conflitos entre os 
interesses de duas ou mais pessoas/grupos, e que um deles ceda ao desejo do outro. 
16 
 
 
Os autores ainda destacam a necessidade de se levar em consideração o peso do 
poder, ou seja, o grau em que os valores são afetados e sua amplitude. O poder é 
exercido apenas quando existe resistência de uma das partes, se ela não ocorrer, o 
poder não existe. Uma limitação para este modelo é de que ele não oferece nenhum 
critério para auxiliar na distinção de questões importantes e não importantes. Outra 
limitação é de que o modelo não considera o exercício do poder como um meio de 
restrição de decisões (BACHARACH; BARATZ, 1983). 
Com relação às limitações, os autores citam a importância de distinguir quais 
questões são importantes e quais não são dentro da organização, levando em 
consideração seus valores e urgências. Choo (2003) acreditava que a tomada de 
decisão era um processo inteiramente político por ser dependente das divergências, 
objetivos, recursos e controle de informações das empresas. Sendo assim, no modelo 
político seria escolhido primeiro o resultado que se deseja alcançar e então seriam 
reunidas e apresentadas as informações para justificar o resultado desejado. Desse 
modo, existiriam duas categorias para a busca de informações: a informação usada 
para tomar decisões e a informação usada para apoiar as decisões já tomadas. 
1.6.4 Modelo Anárquico 
 
O modelo de decisão anárquico caracteriza as organizações como anarquias 
organizadas, e as situações são caracterizadas por preferências problemáticas, sendo 
essas preferências mal definidas e incoerentes. A tecnologia usada para a tomada de 
decisão do modelo é considerada obscura, sendo que seus processos tendem ao erro. 
A participação dos envolvidos é fluida, todos dedicam às atividades uma quantidade 
de tempo e de esforço variável e indefinida (CHOO, 2003). 
O modelo anárquico, ou da lata de lixo, pode ser visualizado como uma 
oportunidade de escolha em uma lata, nos quais vários tipos de problemas e soluções 
são despejados por participantes. Este modelo leva ao extremo a visão 
desestruturada do processo de tomada de decisão. As organizações tendem a 
produzir muitas "soluções" que são descartadas no lixo devido a uma falta de 
problemas. Mas podem surgir problemas cuja solução se encontra nesse “lixo”, 
conforme apresentado por Onusic (1972) representando: 
17 
 
 
1. Problemas: neste modelo somente os problemas mais graves merecem 
passar pelo processo de decisão. Os indivíduos passam pelo “lixo” e 
procuram a solução que lhe parece mais adequada ao problema. 
2. Soluções: as soluções são as respostas aos problemas e são trazidas à 
organização por meio de funcionários. As ideias encontradas formam uma 
cascata de soluções e os funcionários podem se beneficiar delas. 
3. Oportunidades de decisão: ocorrem quando existe algum contrato a ser 
assinado ou contratação na empresa. Pode ocorrer quando existir a mistura 
certa de participantes e uma decisão for alcançada. 
4. Participantes: os participantes são aqueles que tem ideias para os 
problemas e carregam as soluções para a empresa. Os participantes variam 
muito no modelo da lata de lixo, eles estão sempre indo e vindo, sendo 
demitidos ou contratados 
Este modelo foi desenvolvido para explicar como o modo das tomadas de decisão 
afetam as empresas que possuem um alto nível de incerteza. Essas incertezas 
ocorrem por três motivos: prioridades mal definidas, pouco entendimento da 
tecnologia e alta rotatividade dos funcionários. O modelo da lata de lixo não define o 
processo decisório como uma sequência de passos a serem dados, que começam 
com um problema e terminam com uma solução. Neste modelo as decisões são 
efeitos de eventos independentes entre si. A organização é considerada uma lata de 
lixo onde tudo é atirado (ONUSIC, 1972). 
Choo (2003) afirma que as preferências usadas na tomada de decisão são mal 
definidas e incoerentes, não são sistematizadas como no modelo racional e 
processual. A organização trata as situações de forma obscura, assim como os 
processos e procedimentos não são muito bem definidos, o que gera falta de 
entendimento e insegurança em seus colaboradores. 
 
 
 
18 
 
 
2. Analytics 
 
Segundo descreve Mortenson et al. (2015), não existe uma concordância na 
academia sobre o conceito de Business Analytics e como esse termo pode ser 
diferente de conceitos correlacionados, por exemplo, Business Intelligence e Big data. 
O autor Chen et. al. (2012) assumi uma definição unificada dos dois termos 
usando a nomenclatura Business Intelligence & Analytics (BI&A). Pois, segundo os 
autores, o conceito Business Intelligence tomou fama entre os profissionais de TI e 
gestão durante a década de 1990 e já expressão Analytics no final da década passada 
(2000), sendo esse termo inserido para representar os componentes analíticos de 
ferramentas de BI. 
Em seguida, os autores definiram outros termos também como unificados o 
Big Data e Big Data Analytics que foram adotados para descreverem técnicas 
analíticas direcionadas em grandes e complexos volumes de dados, as quais exigem 
metodologias e tecnologias avançadas de armazenamento, gestão, análise e 
visualização, porém esse termo será estudado no capítulo seguinte. 
Conforme Chen et. al. (2012), o BI&A tem seu surgimento marcado na área 
de gestão de dados e o descreve como direcionado as técnicas, tecnologias, 
sistemas, práticas, métodos e aplicações que analisam dados importantes no negócio 
para contribuir nas organizações em uma melhor compreensão do mercado, negócio 
e em decisões mais eficazes. 
Os autores Evans e Lindner (2012) descreveram que Business Analytics como 
sendo a combinação de três disciplinas básicas: estatística; inteligência de negócios 
(BI) e sistemas de informação (TI); bem como, modelagem e otimização. Além disso, 
afirmam que o Business Analyticsé normalmente analisado por três perspectivas. 
 
2.1.1 Análise Descritiva 
 
A análise descritiva consiste em estudar tudo o que tem a ver com o passado. 
É usada para descrever todos os eventos que ocorreram, tendo em vista parâmetros 
19 
 
 
e referências que refletirão na tomada de decisão. Para isso, várias abordagens e 
recursos podem ser aplicados: 
 Estatísticas: Alguns dados estatísticos que podem ser usadas são o 
máximo, o mínimo, a média, a mediana, os quartis, o desvio padrão, a 
variação ou os dez melhores/ piores. Estas informações podem ser 
visualizadas uma a uma ou agrupadas. Um bom exemplo é a análise 
estatística das vendas de uma empresa multinacional por países. 
 Gráficos: é um elemento visual único que resume os dados que temos 
nas estatísticas. Existem vários tipos de gráficos que, dependendo dos 
dados que você possui e do que você está interessado em visualizar, 
podem estar em barras com linhas ou circulares, dentre diversos 
formatos de organização. Alguns exemplos podem ser a evolução das 
vendas ou os benefícios e custos que uma empresa em particular pode 
ter. 
 Tabelas: também é um elemento muito visual para os dados. Um 
exemplo é o saldo da empresa. 
Nesse tipo de análise são extraídos pontos especiais de atenção e são 
explicados de forma a analisar o histórico de determinado tema. A informação mostra 
tendências e ocorrências que permitem que as partes interessadas analisem os 
resultados e eventos passados. 
 
2.1.2 Análise Preditiva 
 
A análise preditiva consiste em colocar o aprendizado de máquina em uso para 
prever possíveis cenários futuros. Para fazer isso, o usuário precisa seguir etapas 
específicas, que são as seguintes: 
 Definir o que queremos prever: é essencial esclarecer que previsões queremos 
obter. Por exemplo, o impacto que um anúncio terá na Internet. 
 Definir os dados nos quais as previsões se baseiam: é necessário escolher bem 
os dados para que a previsão seja precisa e faça a diferença na tomada de 
20 
 
 
decisão. Forneça à inteligência artificial os dados históricos necessários para 
trabalhar nas melhores condições possíveis. 
 Os atributos devem ser incluídos, juntamente com os resultados. É essencial 
garantir dados precisos. Isso significa que é preciso criar um modelo que se 
baseia nos dados de entrada, ou dados históricos. 
 
Para se ter certeza de que a análise será confiável, o modelo deve ser 
consistente, e constantemente avaliado. Quando temos confiança em nosso 
modelo de inteligência artificial, podemos realizar a previsão final. Um exemplo 
pode ser o cálculo da probabilidade de um cliente em potencial clicar em 
anúncios individuais e solicitar uma compra. 
Com esse tipo de análise, é possível prever o que acontece com base 
nos dados históricos. O ponto mais crucial é a qualidade dos dados que temos, 
para que a previsão seja o mais precisa possível. 
 
2.1.3 Análise Prescritiva 
 
Com a análise prescritiva, a inteligência artificial é colocada a serviço da 
estratégia de forma mais dinâmica e sofisticada, indo além de fornecer panoramas 
descritivos e preditivos, om base em fatores múltiplos, são indicados os melhores 
caminhos a seguir e o impacto possível de diferentes variáveis. 
Em outras palavras, com este tipo de análise avaliamos decisões em cenários 
futuros, como o impacto que pode ter uma determinada ação corretiva para que os 
resultados sejam condizentes com o objetivo proposto. 
Dessa forma, a empresa pode tomar decisões baseando-se em histórico de 
fatos e diante de diferentes possibilidades e obter recomendações estratégicas para 
otimizar resultados em diversos setores. Um exemplo pode ser uma companhia 
telefônica que percebe que o uso de seus serviços por determinado cliente está em 
queda. A análise prescritiva poderá sugerir que haja uma otimização de serviços ou 
um ajuste de preços para evitar a perda desse cliente. 
21 
 
 
Com base nos resultados anteriores, os usuários entenderão e tomarão 
melhores decisões sobre o que precisa ser feito para obter os resultados desejados 
para o futuro. Isso quer dizer que a análise prescritiva permite efetivamente desenhar 
recomendações para possíveis situações futuras com base em dados históricos. 
 
 
 
Figura 2.1.3 – Análise dos dados 
 
2.1 Business Analytics 
 
Com a evolução das tecnologias, um desafio constante na vida de gestores é 
adaptar os seus negócios para responder com eficiência e rapidez às mudanças no 
mercado, de forma que se mantenham competitivos. Para isso, é fundamental 
desenvolver competências e habilidades para se manter à frente dos concorrentes. 
Uma dessas estratégias é o Business Analytics, um conceito que utiliza a 
exploração de dados para fazer análises de inteligência de negócio. 
Independentemente do tamanho da empresa ou do mercado em que atuam, o 
Business Analytics pode ser útil para avaliar tendências e conhecer o negócio. 
22 
 
 
Business Analytics, ou análise de negócios, é o processo de avaliar e analisar 
todos os dados que a sua empresa dispõe e utilizá-los para tomar decisões data-
driven. Esse conceito vai muito além de apenas olhar para os números e ver o que 
aconteceu. 
É uma abordagem centrada em dados que combina a ciência de análise 
preditiva com capacidades avançadas de inteligência de negócios. Uma análise 
preditiva utiliza algoritmos analíticos avançados para processar registros de dados e 
criar modelos que possam realizar previsões sobre os resultados futuros e agregar 
valor aos serviços da Empresa. 
As potencialidades fornecidas pela inteligência de negócio de uma empresa 
podem entregar insights preditivos para departamentos fundamentais da organização, 
ajudando a atingir as metas e os objetivos – e ainda contribuem para aumentar a 
rentabilidade e a eficiência operacional. 
O Business Analytics é uma forma de levar a inteligência do BI um passo 
adiante. Ele se aproxima à ciência de dados, aplicando os padrões identificados nas 
informações que uma empresa utiliza para alimentar o software, na construção de 
modelos preditivos. 
Aplicando Inteligência Artificial, com Machine Learning ou Computação 
Cognitiva, Business Analytics consegue antecipar o futuro do negócio em aspectos 
tão complexos quanto a retenção de clientes. Ele também pode ser aplicado a 
processos rotineiros, como a detecção de fraudes nas instituições financeiras, com 
muito mais rapidez que qualquer outra tecnologia. 
Examinando dados com ferramentas mais sofisticadas, BA cria o que 
chamamos de insights profundos e pode apontar, baseado em dados históricos, um 
roadmap para o futuro. Os algoritmos do Business Analytics não têm como única 
tarefa analisar dados com base em regras pré-determinadas.Eles processam dados 
brutos e são capazes de aplicá-los para entender correlações, relacionamentos, 
padrões e, assim, gerar previsões que acarretam decisões diferentes e mais precisas. 
 
23 
 
 
2.2 Business Intelligence 
 O Forrester, instituto de pesquisa de mercado norte-americano, define BI como 
metodologias, processos, arquiteturas e tecnologias que ajudam as empresas a 
lidarem com dados. Ao inserir informações nessas ferramentas, conseguimos 
administrá-las e visualizá-las melhor, criar relatórios, verificar a performance de cada 
área do negócio e organizar os conhecimentos de que dispomos. 
Em geral, os softwares de BI possuem ferramentas que fazem querying 
(perguntas para validar o que um dado quer dizer) e geram relatórios, contando 
também com um dashboard que traduz esses dados em gráficos fáceis de se 
compreender. Ainda que o termo BI seja bastante amplo, nos negócios ele é utilizado, 
principalmente, para gerar insights com base em dados históricos. 
A maioria dos softwares pode ser obtida isoladamente e integrada a sistemas 
que uma empresa já utiliza (como CRM e ERP). A principal diferença entre como 
dados são tratados pelo BI e pelo BusinessAnalytics são painéis interativos que, no 
Business Intelligence, ajudam o usuário a compreender os dados que possui. 
Podemos simplificar as coisas dizendo que os sistemas de BI funcionam de 
maneira similar a um FAQ para os dados internos. Os usuários fazem perguntas e 
obtêm respostas que são apresentadas de maneira tão simples que até a pessoa 
menos acostumada a lidar com eles consegue entendê-los. Portanto, o BI compartilha 
o acesso à informação que antes estaria restrita aos departamentos de TI. 
 
2.3 Semelhanças entre BI e BA 
 
Alguns especialistas, como Pat Roche, vice-presidente de engenharia da 
Magnitude, dizem que BI e BA se diferenciam porque o primeiro é necessário para 
que os negócios funcionem e o segundo para que eles sejam revolucionados. Mas 
Business Intelligence e Business Analytics têm muito em comum. Confira, nos tópicos 
a seguir, o que podemos perceber ao utilizar essas duas tecnologias. 
 
https://www.betterbuys.com/bi/business-intelligence-vs-business-analytics/
24 
 
 
2.3.1 Ferramentas para tomadas de decisões 
 
Business Intelligence e Business Analytics são, ambas, ferramentas para melhorar 
a tomada de decisão. Elas apenas utilizam metodologias diferentes para fazer isso. 
Enquanto o BI trabalha com dados do passado, avaliando o que já aconteceu dentro 
da empresa e quais ações podem ser tomadas para repetir sucessos e evitar 
fracassos, o BA se concentra no uso de Inteligência Artificial para prever o futuro. 
Machine Learning é um dos recursos que dão ao Business Analytics o poder de prever 
o impacto das decisões nos rumos do negócio. 
 
2.3.2 Data-driven 
 
A tendência de se utilizar dados para discernir entre as oportunidades e desafios 
enfrentados pelos negócios é referenciada pelo termo “direcionado por dados”, do 
inglês data-driven. São BI, Big Data e Business Analytics os grandes responsáveis 
por ela. 
Estima-se que 90% dos dados que existem em todo o mundo foram produzidos 
apenas nos últimos dois anos. Eles se tornaram maneiras de dimensionar o sucesso 
dos negócios e também de guiá-los para o caminho certo. 
Data driven é um adjetivo que qualifica processos orientados por dados, ou seja, 
embasados na coleta e análise de informações. No mundo dos negócios, significa 
colocar os dados no centro da tomada de decisão e do planejamento estratégico, 
buscando fontes confiáveis ao invés de gerir a empresa por intuição. 
O termo data driven pode ser traduzido para “orientado a dados” e tem origem no 
conceito de ciência de dados. Basicamente, essa ciência multidisciplinar usa métodos 
científicos, processos e algoritmos para extrair conhecimento de dados estruturados 
e não estruturados. A ideia é usar a análise computacional (analytics) de grandes 
volumes de dados (Big Data) para solucionar problemas e obter insights, valendo-se 
de tecnologias em inteligência artificial e machine learning. Obviamente, estamos 
falando de um universo de dados digitais, que podem ser coletados, combinados e 
interpretados para gerar informações valiosas. Ao transformar dados em respostas 
25 
 
 
para o sucesso do negócio, as organizações saem na frente da concorrência e 
crescem muito mais rápido, alinhadas à transformação digital. 
Segundo o relatório Insights-Driven Businesses Set The Pace For Global Growth, 
publicado em 2018 pela Forrester, as empresas data-driven crescem mais de 30% 
anualmente e devem faturar mais de US$ 1,8 trilhões até 2021. No estudo, essas 
organizações são descritas como obcecadas pelo consumidor e capazes de criar 
vantagem competitiva a partir da tecnologia. 
Em resumo, essa é a função do data driven nos negócios: usar o poder dos dados 
para tomar decisões assertivas e criar valor superior no mercado, 
 
2.4 Diferença entre Business Analytics e Business Intelligence 
 
Os conceitos de BA e BI são bem parecidos. Por isso, um jeito simples de 
entender a diferença entre os dois é entendendo um como uma evolução do outro. O 
Business Analytics surgiu justamente do Business Intelligence, aprimorando e 
desenvolvendo as técnicas e métricas. 
No entanto, é importante frisar que isso não significa que o BI seja ultrapassado 
ou desnecessário para as empresas. São apenas metodologias distintas. O Business 
Intelligence, por exemplo, é muito útil para auxiliar os gestores no planejamento e na 
elaboração de estratégias, principalmente quando a empresa ainda não tem um ponto 
de partida.Já o BA é mais abrangente e envolve outros recursos de estatísticas. 
Então, de maneira simplificada, o Business Intelligence é uma ferramenta para 
estruturar um sistema de métricas e análise de dados, enquanto o Business Analytics 
é um recurso mais aprofundado que se baseia em informações para propor 
abordagens diferentes. 
 
26 
 
 
2.5 O que esperar da tomada de decisão com BA? 
O foco do Business Analytics é fomentar melhores decisões por meio da análise 
de projeções futuras, o que permite diminuir drasticamente problemas por conta de 
interpretações errôneas do mercado. 
Como todas essas projeções são baseadas em um histórico, construído ao 
longo dos anos e salvo em databases, sua precisão é muito grande, de modo que os 
gestores estarão sempre amparados por informações relevantes. 
A utilização de BA dentro das organizações já não é mais apenas um 
diferencial, mas, sim, uma necessidade, já que a alta competitividade atual não tem 
espaço para erros. Plataformas de BA podem gerar relatórios de projeção futura a 
qualquer momento, demonstrando, assim, os rumos que a empresa vem tomando e 
quais as demandas para maximizar oportunidades e diminuir riscos. 
Como o Business Analytics oferece não apenas uma análise de dados, mas 
também uma visão sobre o futuro, ele é cada vez mais importante para a tomada de 
decisão. Usado corretamente, ajuda negócios a crescerem e, principalmente, a se 
fortalecerem no mercado. 
2.6 Data Analytics 
A definição simples de Data Analytics pode ser respondida como a ciência de 
examinar dados brutos para poder extrair conclusões e informações de valores a 
respeito daquele dado. 
Geralmente, envolve aplicar um algoritmo ou um processo de automação para 
extrair esses insights. 
A análise de dados sempre obtém suas conclusões, a partir de conhecimentos 
que o pesquisador possui, o que significa que seu foco é na inferência. 
Cientistas e pesquisadores, por exemplo, utilizam data analytics para verificar 
ou desacreditar modelos e hipóteses. Já empresas a utilizam para validar tomadas de 
decisões. 
O analista de dados pode utilizar ferramentas como SAS e R para extrair dados 
e procurar informações de valor, mas não é algo mandatório no dia a dia do 
27 
 
 
profissional. Seu trabalho envolve responder questões de rotina, geralmente, 
determinadas pela empresa. 
Para trabalhar com Data Analytics, não é fundamental conhecer linguagens de 
programação, como R e Python. No entanto, é essencial possuir facilidade com 
números e afinidade com estatística. 
Para analistas de dados, a habilidade de conseguir transformar os dados em 
algo que possa ser facilmente visualizado ou comunicar adequadamente as 
informações importantes faz toda a diferença no momento de apresentar resultados. 
Por isso, é fundamental que um analista não seja só focado na parte exata, mas 
também consiga exercer criatividade. 
O Data Analytics é a ciência de examinar dados brutos com o objetivo de 
encontrar padrões e tirar conclusões sobre essa informação, aplicando um processo 
algorítmico ou mecânico para obter informações. Segundo a Forbes, o grande 
mercado de análise de dados superará em breve $ 200 bilhões. 
O trabalho de um analista de dados reside na inferência, que é o processo de 
derivar conclusões que são unicamente baseadas no que o pesquisador já conhece; 
por exemplo, executando uma série de conjuntos de dados para procurar correlações 
significativas entre si. O Data Analytics é usado em várias indústriaspara permitir que 
as organizações tomem melhores decisões, bem como verifiquem e refutem teorias 
ou modelos existentes. 
 
2.7 Algumas plataformas para Big Date Analytics 
A plataforma do Big Data é um ecossistema de serviços e tecnologias que 
precisam de funcionar análise de dados volumosos, complexos e dinâmicos. Visto que 
essa aumenta a escala da plataforma de hardware e torna iminente e escolhe as 
tecnologias de hardware. Seguem abaixo exemplos de tecnologias usadas no Big 
Data e Big Data Analytics. 
 
 
28 
 
 
2.7.1 Recursos e funções do Yarn 
 
Em uma arquitetura de cluster, o Apache Hadoop YARN fica entre o HDFS e 
os mecanismos de processamento usados para executar aplicativos. Ele combina um 
gerenciador de recursos central com contêineres , coordenadores de aplicativos 
e agentes de nível de nó que monitoram operações de processamento em nós de 
cluster individuais. O YARN pode alocar recursos dinamicamente para aplicativos 
conforme necessário, um recurso projetado para melhorar a utilização de recursos e 
o desempenho do aplicativo em comparação com a abordagem de alocação mais 
estática do MapReduce. 
 
2.7.2 Haddop 
 
Hadoop é um dos termos que fazem parte do "vocabulário" das tecnologias 
emergentes. Mas afinal, o que é Hadoop? De forma simples, ele pode ser descrito 
como um conjunto de programas e procedimentos open source - disponíveis de graça 
para que todos usem e modifiquem, que servem como estrutura para operações de 
dados. 
A natureza flexível de um sistema Hadoop permite que as empresas possam 
adicionar ou modificar seu sistema de dados à medida que suas necessidades 
mudam, usando peças baratas e prontamente disponíveis de qualquer fornecedor de 
TI. 
Mais comumente, o Hadoop é usado para processar cargas de trabalho de 
big data por ser altamente escalável. Para aumentar a capacidade de 
processamento do cluster do Hadoop, é possível adicionar mais servidores com os 
recursos de CPU e memória necessários precisa para atender às necessidades. 
O Hadoop proporciona um alto nível de durabilidade e disponibilidade, 
enquanto continua processando em paralelo cargas de trabalho analíticas 
computacionais. A combinação de disponibilidade, durabilidade e escalabilidade de 
https://whatis.techtarget.com/definition/container-disambiguation
https://whatis.techtarget.com/definition/software-agent
29 
 
 
processamento torna o Hadoop a escolha ideal para cargas de trabalho de maior 
número de dados. Algumas vantagens do Hadoop são: 
 Velocidade e agilidade maiores; 
 Complexidade administrativa reduzida; 
 Integração com outros serviços na nuvem; 
 Disponibilidade e recuperação de desastres melhoradas; 
 Capacidade flexível 
 
2.7.3 Spark 
 
O Spark é um framework para processamento de Big Data construído com foco 
em velocidade, facilidade de uso e análises sofisticadas. Está sendo desenvolvido 
desde de 2009 pelo AMPLab da Universidade de Califórnia em Berkeley e em 2010 
seu código foi aberto como projeto da fundação Apache. 
O Spark tem muitas vantagens se comparado as outras tecnologias de Big Data 
e do paradigma MapReduce, como o Hadoop e o Storm. O Spark armazenará a maior 
quantidade possível de dados na memória e, em seguida, irá persisti-los em disco. 
 
2.8 O início da Ciência de Dados 
 
Alguns fatores culminaram na existência da ciência de dados. O principal deles 
é o aumento de dados não estruturados disponíveis, a partir da digitalização da 
informação. Esse grande volume de dados não estruturados também é conhecido 
como Big Data. 
O segundo fator importante foi o avanço na capacidade de processamento em 
nuvem, por meio de processamento horizontal com clusters. Sem esse aumento de 
capacidade de processamento a ciência de dados certamente não existiria. Isso 
ocorre porque o processamento vertical tradicional é caro e ineficiente para grandes 
quantidades de dados. 
https://spark.apache.org/
http://www.maximizasoftware.com.br/noticias/hora-da-revisao-dados-estruturados-e-nao-estruturados-na-nuvem/
https://pt.wikipedia.org/wiki/Cluster
30 
 
 
Esse problema foi resolvido, principalmente, a partir da especialização de 
capacidade computacional disponibilizada por fornecedores de computação em 
nuvem, como Amazon (AWS), Google (GCP) e Microsoft (Azure). Com a possibilidade 
de locação de hardware sob demanda e a sua redistribuição para atingimento de 
máxima eficiência, muitos projetos passaram a ser viabilizados com a computação em 
nuvem. 
2.9 Ciência de dados e seus pilares 
Hoje, a profissão de data science é a que mais cresce no mundo. Muito disso 
é causado a partir da necessidade que as empresas têm de tratar dados não 
estruturados e transformá-los em informações úteis. 
Segundo especialistas, estima-se que em torno de 90% dos dados 
armazenados na web tenham sido gerados somente nos últimos 2 anos. Além disso, 
no máximo 20% destes dados estão estruturados em linhas e colunas para serem 
analisados por ferramentas tradicionais. Um vídeo subido no Youtube, por exemplo, é 
considerado um dado não estruturado, pois é composto por imagem e áudio. Ou seja, 
não possui informações organizadas em categorias (etiquetadas). 
Data science é a coleta de dados de diversas fontes para analisar e subsidiar 
a tomada de decisões, de forma preditiva, em grandes quantidades e gerando 
insights. 
É importante lembrar que a predição não garante o futuro, é apenas uma 
ferramenta para melhorar o processo de decisão. Ou seja, o planejamento não é 
certeza, pois não está imune a falhas. Ciência de dados, como é conhecida em 
português, é o processo que extrai dados de diversas fontes, em diferentes 
velocidades, processando grandes quantidades (big data) e gerando valor. De modo 
algum pode ser entendida como uma ferramenta, mas sim como um conjunto de 
métodos, assim como big data e o business intelligence. 
Geralmente o processo de data science é composto por definição dos 
problemas ou questões, preparação, exploração, conclusão e comunicação. Veja o 
esquema abaixo: 
 Questões > Preparação > Exploração > Conclusões > Comunicação 
31 
 
 
 Entre os principais pilares da ciência de dados estão a matemática, a 
estatística, a área de negócios, a mineração e a visualização de dados, a programação 
e a computação. Embora essa área seja essencialmente multidisciplinar, a estatística 
e a matemática são a base da ciência de dados e o diferencial de métodos anteriores, 
pois é através delas que são construídos os modelos de análise de dados para 
predição futura, também conhecidos como algoritmos. 
 
2.9.1 Aplicações de Data Science 
 
A ciência de dados possui diversas aplicações práticas. Algumas delas são a 
recomendação de produtos no varejo online, o reconhecimento de voz (deep learning), 
o tratamento de doenças a partir de correlações de dados e o reconhecimento facial. 
Hoje, diversos fabricantes de tecnologia estão investindo pesado em 
tecnologias de deep learning para reconhecimento de voz. Cortana (Microsoft), Siri 
(Apple) e Alexa (Amazon) são alguns exemplos de tecnologias conversacionais, que 
permitem que o usuário interaja com uma inteligência artificial por meio de comandos 
de voz. Essa tecnologia revela de forma bastante compreensiva como funciona a 
transformação entre dados não estruturados (voz) em informações úteis (comandos 
computacionais). 
 
 
 
 
 
 
 
 
 
32 
 
 
REFERÊNCIAS BIBLIOGRÁFICAS 
 
ESPINDOLA, A.M.S; ROTH, L. Big Data e Inteligência Estratégica: Um Estudo de 
Caso Sobre a Mineração de Dados como Alternativa de Análise. Revista Espacios, v. 
37, n. 4, p. 16, out. 2015. Disponível em: 
<http://www.revistaespacios.com/a16v37n04/16370417.html>. Acesso em: 27 de 
Janeiro 2021. 
EVANS, J. R.; LINDNER, C. H. (2012). Business analytics: the next frontier for decision 
sciences. Decision Line, 43(2), pp. 4-6. 
FRANK, C. (2012). Improving Decision Making in the World of Big Data.Disponível 
em: <https://www.forbes.com/sites/christopherfrank/2012/03/25/improving-decision-
making-in-the-world-of-big-data/#- 7641c6f11e85>. Acesso em: Acesso 28 de Janeito 
2021. 
GUIMARÃES, Eliane Marina Palhares; ÉVORA, Yolanda Dora Martinez. Sistema de 
informação: instrumento para tomada de decisão no exercício da gerência. Ciência da 
Informação, Brasília, v. 33, n. 1, p. 72- 80, jan./abril 2004

Mais conteúdos dessa disciplina