APOSTILA DESCOBERTA DE CONHECIMENTO COM BIG DATA ANALYTICS

FACEMINAS

MATEUS FERREIRA

em 26/07/2023

Conteúdos escolhidos para você

38 pág.

Ebook - Análise de dados nos negócios um passo a passo para a cultura - Ifood

127 pág.

Analytics e o Processo de Tomada de Decisão

PROMINAS

14 pág.

Avaliação da Disciplina - Fundamentos de Big Data

UFPA

Perguntas dessa disciplina

Nesse ambiente de desafios, cresce 0 uso de uma nova postura de gestão estratégica da informação, denominada BI (Business Intelligence). Termo que tem

IFCE

Originalmente, a estatística surgiu como uma ferramenta para os governantes administrarem seus Estados, coletando dados sobre população e recursos par

IESB

Pergunta 1 Os sistemas de informação desempenham um papel crucial nas operações e no sucesso das empresas modernas. Eles são essenciais para diversas

Nome: Sistemas de Informações Gerenciais - Unidade: 1 Questões 1) Os dados podem se apresentar por meio de vários formatos, inclusive os tradiciona...

ESTÁCIO

Questão 4/10 - Big Data Ler em voz alta O texto abaixo trata da importância do Big Data em ambiente corporativo. O Big Data pode ser empregado em vári

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

38 pág.

Ebook - Análise de dados nos negócios um passo a passo para a cultura - Ifood

127 pág.

Analytics e o Processo de Tomada de Decisão

PROMINAS

14 pág.

Avaliação da Disciplina - Fundamentos de Big Data

UFPA

Perguntas dessa disciplina

Nesse ambiente de desafios, cresce 0 uso de uma nova postura de gestão estratégica da informação, denominada BI (Business Intelligence). Termo que tem

IFCE

Originalmente, a estatística surgiu como uma ferramenta para os governantes administrarem seus Estados, coletando dados sobre população e recursos par

IESB

Pergunta 1 Os sistemas de informação desempenham um papel crucial nas operações e no sucesso das empresas modernas. Eles são essenciais para diversas

Nome: Sistemas de Informações Gerenciais - Unidade: 1 Questões 1) Os dados podem se apresentar por meio de vários formatos, inclusive os tradiciona...

ESTÁCIO

Questão 4/10 - Big Data Ler em voz alta O texto abaixo trata da importância do Big Data em ambiente corporativo. O Big Data pode ser empregado em vári

Prévia do material em texto

DESCOBERTA DE CONHECIMENTO COM BIG DATA
ANALYTICS
2

NOSSA HISTÓRIA

A nossa história inicia com a realização do sonho de um grupo de empresários,
em atender à crescente demanda de alunos para cursos de Graduação e Pós-
Graduação. Com isso foi criado a nossa instituição, como entidade oferecendo
serviços educacionais em nível superior.
A instituição tem por objetivo formar diplomados nas diferentes áreas de
conhecimento, aptos para a inserção em setores profissionais e para a participação
no desenvolvimento da sociedade brasileira, e colaborar na sua formação contínua.
Além de promover a divulgação de conhecimentos culturais, científicos e técnicos que
constituem patrimônio da humanidade e comunicar o saber através do ensino, de
publicação ou outras normas de comunicação.
A nossa missão é oferecer qualidade em conhecimento e cultura de forma
confiável e eficiente para que o aluno tenha oportunidade de construir uma base
profissional e ética. Dessa forma, conquistando o espaço de uma das instituições
modelo no país na oferta de cursos, primando sempre pela inovação tecnológica,
excelência no atendimento e valor do serviço oferecido.

SUMÁRIO

1. Tomada de Decisão ............................................................................................ 4
1.1 Produção de dados ................................................................................................................... 4
1.2 Abordagem dos dados .............................................................................................................. 5
1.3 Introdução à tecnologia NoSQL ................................................................................................ 7
1.4 Armazenamento dos dados ...................................................................................................... 8
1.5 Importância do armazenamento de dados ............................................................................... 8
1.5.1 Dispositivos de storage ...................................................................................................... 9
1.5.2 Servidores ......................................................................................................................... 9
1.5.3 Armazenamento em nuvem — cloud computing ..............................................................10
1.6 Fundamentos para a tomada de decisão .................................................................................12
1.6.1 Modelo Racional ...............................................................................................................12
1.6.2 Modelo Processual ...........................................................................................................14
1.6.3 Modelo Político ................................................................................................................15
1.6.4 Modelo Anárquico ............................................................................................................16
2. Analytics ............................................................................................................ 18
2.1.1 Análise Descritiva .............................................................................................................18
2.1.2 Análise Preditiva ...............................................................................................................19
2.1.3 Análise Prescritiva ............................................................................................................20
2.1 Business Analytics ...................................................................................................................21
2.2 Business Intelligence ...............................................................................................................23
2.3 Semelhanças entre BI e BA ......................................................................................................23
2.3.1 Ferramentas para tomadas de decisões .....................................................................24
2.3.2 Data-driven ................................................................................................................24
2.4 Diferença entre Business Analytics e Business Intelligence ......................................................25
2.5 O que esperar da tomada de decisão com BA? ........................................................................26
2.6 Data Analytics .........................................................................................................................26
2.7 Algumas plataformas para Big Date Analytics ..........................................................................27
2.7.1 Recursos e funções do Yarn ........................................................................................28
2.8 O início da Ciência de Dados ....................................................................................................29
2.9 Ciência de dados e seus pilares ................................................................................................30
2.9.1 Aplicações de Data Science ...............................................................................................31
Referências Bibliográficas ..................................................................................... 32

1. Tomada de Decisão

A tomada de decisão nas organizações consiste em fazer uma escolha
importante, normalmente dividida entre mais de duas possibilidades e que desdobrará
consequências para o futuro, tanto do negócio quanto dos colaboradores e clientes.
O processo de decisão é contínuo e combina uma junção de conhecimentos,
habilidades e experiência. Deve ser trabalhado constantemente e ter seus riscos
analisados para que os problemas sejam solucionados da melhor forma possível.
1.1 Produção de dados
Com o advindo da internet e o avanço de uma nova era de compartilhamento
de informações em um volume e velocidade nunca vistos antes, segundo Sodré
(2016), aproximadamente 2,5 quintilhões de bytes de dados são produzidos
diariamente através de postagens em redes sociais, upload de fotos, arquivos e
vídeos, registros de transações financeiras, sinais de GPS, rastros de navegação e
sensores dos mais vários tipos.
Além do mais, as novas tecnologias têm originado nos últimos anos para
endereçar as lacunas técnicas das ferramentas clássicas, no tratamento das
demandas de processamento mais robustos, tempos de resposta cada vez menores
e crescentes volumes de dados (LETOUZÉ, 2012; GOLDMAN et al., 2012).
É importante percebemos que, a cada dia, a produção dos dados tem crescido
massivamente. Um estudo da “A Universe of Opportunities and Challenges”,
elaborado pela consultoria EMC, reportou que, de 2006 a 2010, o volume de dados
digitais produzidos cresceu de 166 exabytes para 988 exabytes, fazendo a perspectiva
de que o volume de dados atinga a casa dos 40.000 exabytes, ou 40 zettabytes (ou
40 trilhões de Gigabytes), nos próximos anos (GANTZ, 2012).
Nesse sentido, observamos que os grandes volumes de dados estão sendo
processados pelas soluções de Big Data, Ciências de Dados, Analytics, na qual
aumentam exponencialmente e solicitam critérios diferenciados de armazenamento e
processamento, expondo um grande desafio às organizações de tecnologias
tradicionais, bem como o conjunto de volumes de dados precisa de armazenamento
5

escalonável e ter um enfoque distribuído para possibilitar a consulta a eles (ERL et.
al., 2016).
 O Facebook armazena, acessa e analisa mais de 50 petabytes de
informações geradas pelos usuários, a cada mês são gerados mais de
700 milhões de minutos por mês.
 A cada minuto são feitos uploads de 48 horas de vídeos no Youtube,
ou seja, nunca ninguém conseguiráassistir todos os vídeos do
Youtube.
 Diariamente mais de 500 milhões de mensagens são enviadas pelo
Twitter, com uma média de 5700 TPS (Twittes per Second ou
Mensagens por Segundo), o recorde é de 143.199 TPS.
 O Google processa diariamente mais de 3 bilhões de pesquisas em
todo o mundo, sendo desse total 15% totalmente inéditas. Seu “motor”
de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100
petabytes de informação. Sem contar todas as informações que as
companhias geram diariamente, sejam elas estruturadas ou não.

1.2 Abordagem dos dados

Tudo que fazemos no nosso dia a dia como tomar banho, mandar e-mails, fazer
ligações entre outras atividades geram certa quantidade de dados no mundo digital.
E um levantamento divulgado recentemente pelo IDC afirma que a produção de dados
dobra a cada dois anos, e a previsão é de que em 2020 sejam gerados 350 zettabytes
de dados, ou 35 trilhões de gigabytes.
O estudo ainda revela que hoje, em todo mundo, existem mais de 500
quatrilhões de informações armazenadas no universo digital. Segundo uma matéria
publicada pelo jornal O Globo, os seres humanos geram muito mais dados do que a
tecnologia é capaz de comportar.
Além dos humanos, máquinas que coletam dados geográficos, bancários,
climáticos e de produção são as principais responsáveis pela grande produção de
informação diária.
6

Analistas afirmam que o grande desafio para o setor de tecnologia da
informação é o desenvolvimento de novas ferramentas com capacidades superiores
de armazenamento e também velocidade de acesso. Tal desafio se deve ao fato de
que a próxima década será a década dos dados, na qual a capacidade de
armazenamento e velocidade devem estar interligadas para garantir o acesso a essas
informações. Os profissionais de TI deverão investir em sistemas de armazenamento
mais rápidos.
De acordo com a professora da PUC-Rio Karin Breitnam, os equipamentos de
hardware necessários para essa função já estão prontos, o que os profissionais de TI
devem fazer agora é voltar sua atenção para os sistemas de armazenamento, nos
quais os produtos voltados ao mercado empresarial têm capacidade de 5 petabytes,
equivalente a 5 milhões de gigabytes.
A velocidade e a potência dos sistemas possibilitarão o cruzamento complexo
de informações, garantindo diversas possibilidades para o mercado.

Figura 1.2 – Crescimento dos dados

A capacidade dos discos rígidos e outros elementos de armazenamento
aumentaram bastante nos últimos anos, mas a velocidade de leitura e escrita dos
mesmos não acompanhou o mesmo ritmo. Como um exemplo, a leitura de todo um
disco rígido 20 anos atrás levava cerca de cinco minutos. Atualmente, leva mais de
duas horas e meia. Trata-se de um longo período para ler todos os dados, e escrever
7

é ainda mais lento. A solução mais óbvia para resolver esse problema é ler/escrever
os dados em paralelo, utilizando vários discos. Deste modo, se existem 100 HDs, cada
um com 1% do total dos dados, por exemplo, a leitura pode ser realizada 100 vezes
mais rapidamente, em teoria.

1.3 Introdução à tecnologia NoSQL

Constantemente, até mesmo os profissionais da área preferem tornarem-se
céticos usuários dos SGBD’s (Sistemas de Gerenciamento de Bancos de Dados)
puramente relacionais, para resolver problemas com estruturas muito dispares ao
paradigma relacional, causando limitações e trabalho excessivamente desnecessário.
Ferramentas NoSQL fornecem meios mais eficientes de armazenamento de
grandes volumes de dados e/ou mecanismos de pesquisa de baixa latência, fatores
importantes que precisam ser considerados durante a escolha de uma solução de
armazenamento de dados (PORCELLI, 2011, p.21).
Não se trata apenas de uma linguagem, mas sim de um conjunto de
ferramentas e estruturas. “NoSQL é um movimento que promove soluções de
armazenamento de dados não relacionais.” (PORCELLI, 2011).
Esse conjunto consiste em diversas tecnologias capazes de resolver certos
problemas de forma mais específica, abordando, para tal, cada cenário de uma forma
bem particular. Contudo, o objetivo do NoSQL não é substituir a linguagem SQL, como
muitos pensam. Sua proposta é (como o nome denomina: not only SQL – não apenas
SQL) usar também modelos não-relacionais, para trazer a melhor solução para um
determinado problema.
Segundo Porcelli (2011), desta forma, é possível trabalhar com tecnologias
NoSQL e banco de dados relacionais dentro de uma mesma aplicação.

1.4 Armazenamento dos dados

Outro lado interessante a ser observado que pode constatar é que os dados
estão sendo gerados a cada instante e de maneira exponencial, esse aspecto
ocasiona na necessidade de se ter recursos de armazenamento para esses dados.
Isso se deve aos recursos tradicionais que já não podem suportar tanto volume
de informações produzido, de modo que, além desse volume de dados, existem as
capacidades de transferência das redes de comunicação que ficam excedidas. Dessa
forma, existe uma necessidade crescente em revolucionar as tecnologias de
armazenamento e de comunicação (JUSTIN, et al., 2006).
O armazenamento possibilita que, de forma posterior, os dados possam ser
readquiridos facilmente para se realizar uma cópia ou para replicar o processo
acontecido, como também, para produzir informação ou conhecimento (AMARAL,
2016).
Ressalta-se que o armazenamento deve priorizar os seguintes aspectos:
segurança da informação, integridade, diminuir redundância, concorrência, otimização
de espaço, etc. Outro aspecto é que o armazenamento pode ser feito em um
dispositivo volátil ou não volátil.
Atualmente, algumas empresas usam ambientes, como Cloud Computing ou
Computação em Nuvem, para o armazenamento. A computação em nuvem admite
que empresas aluguem capacidade de computação e armazenamento sob solicitação
e com pagamento relacionado à utilização, ao invés de bancarem grandes
investimentos para a construção e instalação de dispositivos de computação em
grande escala (SOUSA et al., 2010).

1.5 Importância do armazenamento de dados

O armazenamento de dados é um fator estratégico para uma empresa
moderna. Sua importância se revela quando avaliamos o intenso uso de tecnologia
para comunicação e realização de atividades corporativas que, em conjunto, levam a
9

um crescimento exponencial do volume de dados a ser gerido. Esses dados são um
substrato importante, não apenas para a operação de uma empresa, mas também
para gerar insights e nortear ações que visam a inovação e também o entendimento
das necessidades dos clientes.
Tecnologias como o big data têm revelado o potencial que a análise de grandes
volumes de dados tem para fornecer um panorama do mercado e prescrever ações
que vão preparar as empresas para o futuro. É importante salientar também que
problemas relacionados a imprecisão ou perda de dados podem causar prejuízos de
diversas naturezas para as empresas, como indisponibilidade de serviços, perdas de
vendas e problemas jurídicos.
Para evitar esses contratempos, é importante saber quais opções de
armazenamento se mostram mais compatíveis com o negócio. Elas devem suprir a
demanda por armazenamento, confiança e distribuição de informações.

1.5.1 Dispositivos de storage

São hardwares usados para o armazenamento de dados, cujos exemplos são
HDs, SSDs, DVDs, fitas, pendrive e cartões de memória. São empregados para
aumentar o volume de dados que pode ser guardado e usado em suas atividades e
também para o transporte de informações.
Entretanto, essas opções são predominantes somente em negócios de
pequeno e médio porte. Assim que o negócio começar a crescer e gerar uma
quantidade maior de informações, é importante considerar a aquisição de um servidor
ou, então, a transferência dos dados para a nuvem.

1.5.2 Servidores

Um servidor éum computador com grande capacidade de armazenamento e
processamento. Tem como finalidade guardar e tornar possível a distribuição
gerenciável de dados em diversos formados (planilhas, imagens, documentos de
10

textos, etc.), aplicações web, logs de sistemas e outros recursos computacionais
necessários para uma organização. Utiliza um sistema operacional apropriado para
essas funções, como Windows Server e Ubuntu Server. Pode ser instalado
localmente, em uma empresa e acessado via rede interna, ou remotamente, em um
data center.
À medida que o volume de dados aumenta, a empresa tem como opções
adquirir mais recursos computacionais, como mídias de armazenamento com mais
espaço, ou modelos mais robustos, como blade ou rack.
Usar um servidor local tem como vantagem a segurança, pois os dados não
ficam expostos na web. Entretanto, demanda diversos custos com manutenção de um
espaço e profissionais para operacionalizá-lo, mantê-lo atualizado e em bom estado,
encarregados de implantar práticas de governança de dados.
Outra necessidade recorrente é a substituição por tecnologias mais robustas,
capazes de rodar novos softwares relevantes que surgem no mercado.

Figura 1.5.2 – Tipos de servidores para armazenamento

1.5.3 Armazenamento em nuvem — cloud computing

A nuvem onde os dados são armazenados e distribuídos é na realidade um
data center no qual um grande número de servidores e dispositivos de storage oferece
um espaço para o armazenamento de dados e aplicações. Ao se contratar um serviço
de cloud computing, a empresa se habilita a usar recursos computacionais como
espaço em disco, memória RAM, CPU e transferência de dados via web.
Normalmente, as empresas que oferecem esse serviço disponibilizam um
painel em que se pode gerir os recursos contratados. Com uma interface simples,
11

permitem contratar serviços sob demanda a fim de se compatibilizar com
necessidades do negócio. Um exemplo é o Microsoft Azure Cloud. Com essa solução
em cloud é possível desenvolver aplicações web que podem ser acessadas por
computador ou smartphone, criar APIs e transferir aquelas aplicações antes usadas
apenas na rede interna da empresa.
A vantagem do armazenamento de dados na nuvem são:
 redução de custos: o preço da mensalidade para armazenamento e
processamento de grandes volumes de dados é bastante reduzido
quando comparado à aquisição de ativos, manutenção e contratação de
pessoal;
 aquisição sob demanda: através do painel, a empresa pode contratar
mais recursos ou reduzir conforme a necessidade;
 serviços agregados: os serviços com backup, proteção de dados e
integração com APIs;
 mobilidade: os colaboradores da empresa podem acessar os dados e
trocar informações de qualquer lugar com acesso à internet.

A principal desvantagem que o armazenamento em nuvem pode apresentar é
em relação à segurança, uma vez que os dados são acessíveis via web. Entretanto,
o provedor desse serviço, em geral, oferece opções para mitigar esses riscos, como
no caso do Azure que disponibiliza firewalls, anti-malwares e software para
monitoramento do estado da segurança.

Figura 1.5.3 – Computação em nuvem

1.6 Fundamentos para a tomada de decisão
O processo decisório e a tomada de decisão estão intimamente ligados e
podem ser mal interpretadas. Angeloni (2003) afirma que dado, informação e
conhecimento são aspectos importantes para o processo decisório nas organizações.
Entendemos que o processo decisório e os indivíduos tomadores de decisões
necessitam de atentar-se aos dados e as informações a serem usadas para que a
decisão seja a mais próxima de ser eficaz (GUIMARÃES; ÉVORA, 2004).
Segundo Robbins (2005), todas as decisões precisam de interpretações e
avaliação de informação. Os dados podem vir de várias fontes e requerem ser
selecionados, processados e interpretados.

1.6.1 Modelo Racional

Quando precisamos tomar uma decisão? Para resolver um problema
(funcionamento inadequado) ou aproveitar a oportunidade de maximizar ganhos
(bater metas). Entre o estado atual de desempenho e o final, deve haver melhoras
perceptíveis. As decisões são tomadas entre as alternativas que proporcionam estes
ganhos.
13

O modelo racional pressupõe que a decisão ideal seria a escolhida,
independente de quem fosse o tomador da decisão.
Tem como premissas:
 O problema ou a oportunidade está bem definido e compreendido;
 Os objetivos e metas são claros;
 Não há limitação de tempo e de recursos para a análise;
 As informações estão disponíveis e confiáveis, em quantidade e qualidade;
 Os critérios de avaliação das alternativas são conhecidos e estáveis;
 O tomador de decisão é racional, usa a lógica para avaliar e escolher as
alternativas, maximizando os objetivos.
Nem sempre estas premissas acontecem ao se analisar um problema ou
oportunidade. É necessário um grau de certeza e confiabilidade nas informações das
alternativas e seus resultados, o que não é comum ocorrer.
O modelo racional de tomada de decisão assume que devem ser utilizados
procedimentos racionais, para que sejam obtidas decisões de qualidade. É um modelo
teórico e normativo, que modela o processo decisório, tornando-o mais racional.
Porém, como o tomador de decisões é um ser humano e nosso cérebro possui
restrições devido ao modo como funciona, há tanto limitações de racionalidade quanto
interferência dos processos cognitivos e emocionais durante todas as fases do
processo decisório.
Na tomada de decisão racional toda decisão deve ser tomada racionalmente, com
base em informações completas sobre os objetivos da empresa, alternativas
plausíveis, prováveis resultados dessas alternativas e importância desses resultados
para a organização. Na prática, a racionalidade da decisão é atrapalhada pelo choque
de interesses entre sócios da empresa, pelas barganhas e negociações entre grupos
e indivíduos, pelas limitações e idiossincrasias que envolvem as decisões, pela falta
de informações e assim por diante (CHOO, 2003).
14

1.6.2 Modelo Processual

A tomada de decisão processual é caracterizada por enfatizar o processo de
tomada de decisão em ambientes complexos e dinâmicos. Diferente do modelo
racional, que é utilizado para solucionar problemas de baixa incerteza e utiliza um alto
nível de informações (CHOO, 2003).
O modelo processual é utilizado quando os objetivos são claros, mas os métodos
e as técnicas para atingi-los são incertos. Apesar disso, o processo revela uma linha
geral de desenvolvimento, cujo início se dá com o reconhecimento e o diagnóstico de
um problema, prossegue com a análise das possíveis alternativas, e termina com a
avaliação e seleção de uma opção a fim de resolver o problema (CHOO, 2003).
O modelo processual se identifica por ser o modelo mais complexo e com mais
etapas para a tomada de uma decisão. A sua constituição se dá em três fases
decisórias, três rotinas de apoio e seis grupos de fatores dinâmicos.
Fases decisórias:
1. Identificação: é a fase que reconhece a necessidade de tomar uma decisão
e desenvolve a compreensão das questões implicadas a ela. Consiste em
reconhecer e diagnosticar o problema.
2. Desenvolvimento: tem como objetivo desenvolver uma ou mais soluções
para um problema, crise ou oportunidade. Consiste na busca ou criação de
projetos para a resolução dos mesmos.
3. Seleção: avalia as alternativas encontradas pelos envolvidos no projeto e
escolhe aquela que for considerada a mais viável e eficaz.

Segundo Mintzberg et al. (1976) como complemento à fase de desenvolvimento,
existem três rotinas para auxiliar na busca de uma ou mais soluções para um
problema, e consistem em: rotina de busca e rotina de criação. Com relação às rotinas
de busca, estas podem ser pesquisas internas ou externas. Já as rotinas de criação
envolvem o desenvolvimentode uma solução customizada e única.
Existem três rotinas que auxiliam na hora de colocar em pratica as fases decisórias
e são elas: a rotina de controle, de comunicação e política. A rotina de controle tem
15

como objetivo guiar o processo decisório analisando seu planejamento. A rotina de
comunicação visa reunir e distribuir as informações reunidas. A rotina política é a
forma de barganha e persuasão para impor as ideias encontradas (CHOO, 2003). Por
fim existem os fatores dinâmicos.
Fatores dinâmicos:
 Interrupções: intervenções ambientais e internas.
 Prazos: reestruturação dos prazos durante o processo.
 Feedback: os encarregados são responsáveis por demonstrar os resultados
a todos aqueles envolvidos na decisão.
 Ciclos de compreensão: necessários para lidar com questões complexas.
 Ciclos de fracasso: ocorrem quando não se consegue chegar a uma
decisão.
O modelo processual apresenta várias semelhanças ao modelo racional e suas
principais características são semelhantes em muitos sentidos. Porém, um fator que
o difere é a condição de flexibilidade, permitindo que os gestores realizem ajustes
quando necessário. O modelo processual é focado em resultados de longo prazo É
estratégico em sua orientação e visa promover mudanças. O modelo processual é
eclético e aproveita características de outros modelos. Essas qualidades fazem dele
o resumo de como deve ocorrer a interdisciplinaridade na tomada de decisão
(HARRISON, 1993).
1.6.3 Modelo Político

O modelo político segundo Choo (2003) é considerado uma ferramenta para
decisões utilizadas quando os responsáveis pela tomada de decisão ocupam
diferentes posições na empresa e exercem graus diferentes de influência dentro da
organização. Deste modo as escolhas resultam em escolhas menos racionais e levam
em consideração os níveis ocupados pelos gestores.
Bacharach e Baratz (1983) afirmam que o poder não é posse de alguém, ele é
relacional. Para que o poder exista, é necessário que existam conflitos entre os
interesses de duas ou mais pessoas/grupos, e que um deles ceda ao desejo do outro.
16

Os autores ainda destacam a necessidade de se levar em consideração o peso do
poder, ou seja, o grau em que os valores são afetados e sua amplitude. O poder é
exercido apenas quando existe resistência de uma das partes, se ela não ocorrer, o
poder não existe. Uma limitação para este modelo é de que ele não oferece nenhum
critério para auxiliar na distinção de questões importantes e não importantes. Outra
limitação é de que o modelo não considera o exercício do poder como um meio de
restrição de decisões (BACHARACH; BARATZ, 1983).
Com relação às limitações, os autores citam a importância de distinguir quais
questões são importantes e quais não são dentro da organização, levando em
consideração seus valores e urgências. Choo (2003) acreditava que a tomada de
decisão era um processo inteiramente político por ser dependente das divergências,
objetivos, recursos e controle de informações das empresas. Sendo assim, no modelo
político seria escolhido primeiro o resultado que se deseja alcançar e então seriam
reunidas e apresentadas as informações para justificar o resultado desejado. Desse
modo, existiriam duas categorias para a busca de informações: a informação usada
para tomar decisões e a informação usada para apoiar as decisões já tomadas.
1.6.4 Modelo Anárquico

O modelo de decisão anárquico caracteriza as organizações como anarquias
organizadas, e as situações são caracterizadas por preferências problemáticas, sendo
essas preferências mal definidas e incoerentes. A tecnologia usada para a tomada de
decisão do modelo é considerada obscura, sendo que seus processos tendem ao erro.
A participação dos envolvidos é fluida, todos dedicam às atividades uma quantidade
de tempo e de esforço variável e indefinida (CHOO, 2003).
O modelo anárquico, ou da lata de lixo, pode ser visualizado como uma
oportunidade de escolha em uma lata, nos quais vários tipos de problemas e soluções
são despejados por participantes. Este modelo leva ao extremo a visão
desestruturada do processo de tomada de decisão. As organizações tendem a
produzir muitas "soluções" que são descartadas no lixo devido a uma falta de
problemas. Mas podem surgir problemas cuja solução se encontra nesse “lixo”,
conforme apresentado por Onusic (1972) representando:
17

1. Problemas: neste modelo somente os problemas mais graves merecem
passar pelo processo de decisão. Os indivíduos passam pelo “lixo” e
procuram a solução que lhe parece mais adequada ao problema.
2. Soluções: as soluções são as respostas aos problemas e são trazidas à
organização por meio de funcionários. As ideias encontradas formam uma
cascata de soluções e os funcionários podem se beneficiar delas.
3. Oportunidades de decisão: ocorrem quando existe algum contrato a ser
assinado ou contratação na empresa. Pode ocorrer quando existir a mistura
certa de participantes e uma decisão for alcançada.
4. Participantes: os participantes são aqueles que tem ideias para os
problemas e carregam as soluções para a empresa. Os participantes variam
muito no modelo da lata de lixo, eles estão sempre indo e vindo, sendo
demitidos ou contratados
Este modelo foi desenvolvido para explicar como o modo das tomadas de decisão
afetam as empresas que possuem um alto nível de incerteza. Essas incertezas
ocorrem por três motivos: prioridades mal definidas, pouco entendimento da
tecnologia e alta rotatividade dos funcionários. O modelo da lata de lixo não define o
processo decisório como uma sequência de passos a serem dados, que começam
com um problema e terminam com uma solução. Neste modelo as decisões são
efeitos de eventos independentes entre si. A organização é considerada uma lata de
lixo onde tudo é atirado (ONUSIC, 1972).
Choo (2003) afirma que as preferências usadas na tomada de decisão são mal
definidas e incoerentes, não são sistematizadas como no modelo racional e
processual. A organização trata as situações de forma obscura, assim como os
processos e procedimentos não são muito bem definidos, o que gera falta de
entendimento e insegurança em seus colaboradores.

2. Analytics

Segundo descreve Mortenson et al. (2015), não existe uma concordância na
academia sobre o conceito de Business Analytics e como esse termo pode ser
diferente de conceitos correlacionados, por exemplo, Business Intelligence e Big data.
O autor Chen et. al. (2012) assumi uma definição unificada dos dois termos
usando a nomenclatura Business Intelligence & Analytics (BI&A). Pois, segundo os
autores, o conceito Business Intelligence tomou fama entre os profissionais de TI e
gestão durante a década de 1990 e já expressão Analytics no final da década passada
(2000), sendo esse termo inserido para representar os componentes analíticos de
ferramentas de BI.
Em seguida, os autores definiram outros termos também como unificados o
Big Data e Big Data Analytics que foram adotados para descreverem técnicas
analíticas direcionadas em grandes e complexos volumes de dados, as quais exigem
metodologias e tecnologias avançadas de armazenamento, gestão, análise e
visualização, porém esse termo será estudado no capítulo seguinte.
Conforme Chen et. al. (2012), o BI&A tem seu surgimento marcado na área
de gestão de dados e o descreve como direcionado as técnicas, tecnologias,
sistemas, práticas, métodos e aplicações que analisam dados importantes no negócio
para contribuir nas organizações em uma melhor compreensão do mercado, negócio
e em decisões mais eficazes.
Os autores Evans e Lindner (2012) descreveram que Business Analytics como
sendo a combinação de três disciplinas básicas: estatística; inteligência de negócios
(BI) e sistemas de informação (TI); bem como, modelagem e otimização. Além disso,
afirmam que o Business Analyticsé normalmente analisado por três perspectivas.

2.1.1 Análise Descritiva

A análise descritiva consiste em estudar tudo o que tem a ver com o passado.
É usada para descrever todos os eventos que ocorreram, tendo em vista parâmetros
19

e referências que refletirão na tomada de decisão. Para isso, várias abordagens e
recursos podem ser aplicados:
 Estatísticas: Alguns dados estatísticos que podem ser usadas são o
máximo, o mínimo, a média, a mediana, os quartis, o desvio padrão, a
variação ou os dez melhores/ piores. Estas informações podem ser
visualizadas uma a uma ou agrupadas. Um bom exemplo é a análise
estatística das vendas de uma empresa multinacional por países.
 Gráficos: é um elemento visual único que resume os dados que temos
nas estatísticas. Existem vários tipos de gráficos que, dependendo dos
dados que você possui e do que você está interessado em visualizar,
podem estar em barras com linhas ou circulares, dentre diversos
formatos de organização. Alguns exemplos podem ser a evolução das
vendas ou os benefícios e custos que uma empresa em particular pode
ter.
 Tabelas: também é um elemento muito visual para os dados. Um
exemplo é o saldo da empresa.
Nesse tipo de análise são extraídos pontos especiais de atenção e são
explicados de forma a analisar o histórico de determinado tema. A informação mostra
tendências e ocorrências que permitem que as partes interessadas analisem os
resultados e eventos passados.

2.1.2 Análise Preditiva

A análise preditiva consiste em colocar o aprendizado de máquina em uso para
prever possíveis cenários futuros. Para fazer isso, o usuário precisa seguir etapas
específicas, que são as seguintes:
 Definir o que queremos prever: é essencial esclarecer que previsões queremos
obter. Por exemplo, o impacto que um anúncio terá na Internet.
 Definir os dados nos quais as previsões se baseiam: é necessário escolher bem
os dados para que a previsão seja precisa e faça a diferença na tomada de
20

decisão. Forneça à inteligência artificial os dados históricos necessários para
trabalhar nas melhores condições possíveis.
 Os atributos devem ser incluídos, juntamente com os resultados. É essencial
garantir dados precisos. Isso significa que é preciso criar um modelo que se
baseia nos dados de entrada, ou dados históricos.

Para se ter certeza de que a análise será confiável, o modelo deve ser
consistente, e constantemente avaliado. Quando temos confiança em nosso
modelo de inteligência artificial, podemos realizar a previsão final. Um exemplo
pode ser o cálculo da probabilidade de um cliente em potencial clicar em
anúncios individuais e solicitar uma compra.
Com esse tipo de análise, é possível prever o que acontece com base
nos dados históricos. O ponto mais crucial é a qualidade dos dados que temos,
para que a previsão seja o mais precisa possível.

2.1.3 Análise Prescritiva

Com a análise prescritiva, a inteligência artificial é colocada a serviço da
estratégia de forma mais dinâmica e sofisticada, indo além de fornecer panoramas
descritivos e preditivos, om base em fatores múltiplos, são indicados os melhores
caminhos a seguir e o impacto possível de diferentes variáveis.
Em outras palavras, com este tipo de análise avaliamos decisões em cenários
futuros, como o impacto que pode ter uma determinada ação corretiva para que os
resultados sejam condizentes com o objetivo proposto.
Dessa forma, a empresa pode tomar decisões baseando-se em histórico de
fatos e diante de diferentes possibilidades e obter recomendações estratégicas para
otimizar resultados em diversos setores. Um exemplo pode ser uma companhia
telefônica que percebe que o uso de seus serviços por determinado cliente está em
queda. A análise prescritiva poderá sugerir que haja uma otimização de serviços ou
um ajuste de preços para evitar a perda desse cliente.
21

Com base nos resultados anteriores, os usuários entenderão e tomarão
melhores decisões sobre o que precisa ser feito para obter os resultados desejados
para o futuro. Isso quer dizer que a análise prescritiva permite efetivamente desenhar
recomendações para possíveis situações futuras com base em dados históricos.

Figura 2.1.3 – Análise dos dados

2.1 Business Analytics

Com a evolução das tecnologias, um desafio constante na vida de gestores é
adaptar os seus negócios para responder com eficiência e rapidez às mudanças no
mercado, de forma que se mantenham competitivos. Para isso, é fundamental
desenvolver competências e habilidades para se manter à frente dos concorrentes.
Uma dessas estratégias é o Business Analytics, um conceito que utiliza a
exploração de dados para fazer análises de inteligência de negócio.
Independentemente do tamanho da empresa ou do mercado em que atuam, o
Business Analytics pode ser útil para avaliar tendências e conhecer o negócio.
22

Business Analytics, ou análise de negócios, é o processo de avaliar e analisar
todos os dados que a sua empresa dispõe e utilizá-los para tomar decisões data-
driven. Esse conceito vai muito além de apenas olhar para os números e ver o que
aconteceu.
É uma abordagem centrada em dados que combina a ciência de análise
preditiva com capacidades avançadas de inteligência de negócios. Uma análise
preditiva utiliza algoritmos analíticos avançados para processar registros de dados e
criar modelos que possam realizar previsões sobre os resultados futuros e agregar
valor aos serviços da Empresa.
As potencialidades fornecidas pela inteligência de negócio de uma empresa
podem entregar insights preditivos para departamentos fundamentais da organização,
ajudando a atingir as metas e os objetivos – e ainda contribuem para aumentar a
rentabilidade e a eficiência operacional.
O Business Analytics é uma forma de levar a inteligência do BI um passo
adiante. Ele se aproxima à ciência de dados, aplicando os padrões identificados nas
informações que uma empresa utiliza para alimentar o software, na construção de
modelos preditivos.
Aplicando Inteligência Artificial, com Machine Learning ou Computação
Cognitiva, Business Analytics consegue antecipar o futuro do negócio em aspectos
tão complexos quanto a retenção de clientes. Ele também pode ser aplicado a
processos rotineiros, como a detecção de fraudes nas instituições financeiras, com
muito mais rapidez que qualquer outra tecnologia.
Examinando dados com ferramentas mais sofisticadas, BA cria o que
chamamos de insights profundos e pode apontar, baseado em dados históricos, um
roadmap para o futuro. Os algoritmos do Business Analytics não têm como única
tarefa analisar dados com base em regras pré-determinadas.Eles processam dados
brutos e são capazes de aplicá-los para entender correlações, relacionamentos,
padrões e, assim, gerar previsões que acarretam decisões diferentes e mais precisas.

2.2 Business Intelligence
O Forrester, instituto de pesquisa de mercado norte-americano, define BI como
metodologias, processos, arquiteturas e tecnologias que ajudam as empresas a
lidarem com dados. Ao inserir informações nessas ferramentas, conseguimos
administrá-las e visualizá-las melhor, criar relatórios, verificar a performance de cada
área do negócio e organizar os conhecimentos de que dispomos.
Em geral, os softwares de BI possuem ferramentas que fazem querying
(perguntas para validar o que um dado quer dizer) e geram relatórios, contando
também com um dashboard que traduz esses dados em gráficos fáceis de se
compreender. Ainda que o termo BI seja bastante amplo, nos negócios ele é utilizado,
principalmente, para gerar insights com base em dados históricos.
A maioria dos softwares pode ser obtida isoladamente e integrada a sistemas
que uma empresa já utiliza (como CRM e ERP). A principal diferença entre como
dados são tratados pelo BI e pelo BusinessAnalytics são painéis interativos que, no
Business Intelligence, ajudam o usuário a compreender os dados que possui.
Podemos simplificar as coisas dizendo que os sistemas de BI funcionam de
maneira similar a um FAQ para os dados internos. Os usuários fazem perguntas e
obtêm respostas que são apresentadas de maneira tão simples que até a pessoa
menos acostumada a lidar com eles consegue entendê-los. Portanto, o BI compartilha
o acesso à informação que antes estaria restrita aos departamentos de TI.

2.3 Semelhanças entre BI e BA

Alguns especialistas, como Pat Roche, vice-presidente de engenharia da
Magnitude, dizem que BI e BA se diferenciam porque o primeiro é necessário para
que os negócios funcionem e o segundo para que eles sejam revolucionados. Mas
Business Intelligence e Business Analytics têm muito em comum. Confira, nos tópicos
a seguir, o que podemos perceber ao utilizar essas duas tecnologias.

https://www.betterbuys.com/bi/business-intelligence-vs-business-analytics/
24

2.3.1 Ferramentas para tomadas de decisões

Business Intelligence e Business Analytics são, ambas, ferramentas para melhorar
a tomada de decisão. Elas apenas utilizam metodologias diferentes para fazer isso.
Enquanto o BI trabalha com dados do passado, avaliando o que já aconteceu dentro
da empresa e quais ações podem ser tomadas para repetir sucessos e evitar
fracassos, o BA se concentra no uso de Inteligência Artificial para prever o futuro.
Machine Learning é um dos recursos que dão ao Business Analytics o poder de prever
o impacto das decisões nos rumos do negócio.

2.3.2 Data-driven

A tendência de se utilizar dados para discernir entre as oportunidades e desafios
enfrentados pelos negócios é referenciada pelo termo “direcionado por dados”, do
inglês data-driven. São BI, Big Data e Business Analytics os grandes responsáveis
por ela.
Estima-se que 90% dos dados que existem em todo o mundo foram produzidos
apenas nos últimos dois anos. Eles se tornaram maneiras de dimensionar o sucesso
dos negócios e também de guiá-los para o caminho certo.
Data driven é um adjetivo que qualifica processos orientados por dados, ou seja,
embasados na coleta e análise de informações. No mundo dos negócios, significa
colocar os dados no centro da tomada de decisão e do planejamento estratégico,
buscando fontes confiáveis ao invés de gerir a empresa por intuição.
O termo data driven pode ser traduzido para “orientado a dados” e tem origem no
conceito de ciência de dados. Basicamente, essa ciência multidisciplinar usa métodos
científicos, processos e algoritmos para extrair conhecimento de dados estruturados
e não estruturados. A ideia é usar a análise computacional (analytics) de grandes
volumes de dados (Big Data) para solucionar problemas e obter insights, valendo-se
de tecnologias em inteligência artificial e machine learning. Obviamente, estamos
falando de um universo de dados digitais, que podem ser coletados, combinados e
interpretados para gerar informações valiosas. Ao transformar dados em respostas
25

para o sucesso do negócio, as organizações saem na frente da concorrência e
crescem muito mais rápido, alinhadas à transformação digital.
Segundo o relatório Insights-Driven Businesses Set The Pace For Global Growth,
publicado em 2018 pela Forrester, as empresas data-driven crescem mais de 30%
anualmente e devem faturar mais de US$ 1,8 trilhões até 2021. No estudo, essas
organizações são descritas como obcecadas pelo consumidor e capazes de criar
vantagem competitiva a partir da tecnologia.
Em resumo, essa é a função do data driven nos negócios: usar o poder dos dados
para tomar decisões assertivas e criar valor superior no mercado,

2.4 Diferença entre Business Analytics e Business Intelligence

Os conceitos de BA e BI são bem parecidos. Por isso, um jeito simples de
entender a diferença entre os dois é entendendo um como uma evolução do outro. O
Business Analytics surgiu justamente do Business Intelligence, aprimorando e
desenvolvendo as técnicas e métricas.
No entanto, é importante frisar que isso não significa que o BI seja ultrapassado
ou desnecessário para as empresas. São apenas metodologias distintas. O Business
Intelligence, por exemplo, é muito útil para auxiliar os gestores no planejamento e na
elaboração de estratégias, principalmente quando a empresa ainda não tem um ponto
de partida.Já o BA é mais abrangente e envolve outros recursos de estatísticas.
Então, de maneira simplificada, o Business Intelligence é uma ferramenta para
estruturar um sistema de métricas e análise de dados, enquanto o Business Analytics
é um recurso mais aprofundado que se baseia em informações para propor
abordagens diferentes.

2.5 O que esperar da tomada de decisão com BA?
O foco do Business Analytics é fomentar melhores decisões por meio da análise
de projeções futuras, o que permite diminuir drasticamente problemas por conta de
interpretações errôneas do mercado.
Como todas essas projeções são baseadas em um histórico, construído ao
longo dos anos e salvo em databases, sua precisão é muito grande, de modo que os
gestores estarão sempre amparados por informações relevantes.
A utilização de BA dentro das organizações já não é mais apenas um
diferencial, mas, sim, uma necessidade, já que a alta competitividade atual não tem
espaço para erros. Plataformas de BA podem gerar relatórios de projeção futura a
qualquer momento, demonstrando, assim, os rumos que a empresa vem tomando e
quais as demandas para maximizar oportunidades e diminuir riscos.
Como o Business Analytics oferece não apenas uma análise de dados, mas
também uma visão sobre o futuro, ele é cada vez mais importante para a tomada de
decisão. Usado corretamente, ajuda negócios a crescerem e, principalmente, a se
fortalecerem no mercado.
2.6 Data Analytics
A definição simples de Data Analytics pode ser respondida como a ciência de
examinar dados brutos para poder extrair conclusões e informações de valores a
respeito daquele dado.
Geralmente, envolve aplicar um algoritmo ou um processo de automação para
extrair esses insights.
A análise de dados sempre obtém suas conclusões, a partir de conhecimentos
que o pesquisador possui, o que significa que seu foco é na inferência.
Cientistas e pesquisadores, por exemplo, utilizam data analytics para verificar
ou desacreditar modelos e hipóteses. Já empresas a utilizam para validar tomadas de
decisões.
O analista de dados pode utilizar ferramentas como SAS e R para extrair dados
e procurar informações de valor, mas não é algo mandatório no dia a dia do
27

profissional. Seu trabalho envolve responder questões de rotina, geralmente,
determinadas pela empresa.
Para trabalhar com Data Analytics, não é fundamental conhecer linguagens de
programação, como R e Python. No entanto, é essencial possuir facilidade com
números e afinidade com estatística.
Para analistas de dados, a habilidade de conseguir transformar os dados em
algo que possa ser facilmente visualizado ou comunicar adequadamente as
informações importantes faz toda a diferença no momento de apresentar resultados.
Por isso, é fundamental que um analista não seja só focado na parte exata, mas
também consiga exercer criatividade.
O Data Analytics é a ciência de examinar dados brutos com o objetivo de
encontrar padrões e tirar conclusões sobre essa informação, aplicando um processo
algorítmico ou mecânico para obter informações. Segundo a Forbes, o grande
mercado de análise de dados superará em breve $ 200 bilhões.
O trabalho de um analista de dados reside na inferência, que é o processo de
derivar conclusões que são unicamente baseadas no que o pesquisador já conhece;
por exemplo, executando uma série de conjuntos de dados para procurar correlações
significativas entre si. O Data Analytics é usado em várias indústriaspara permitir que
as organizações tomem melhores decisões, bem como verifiquem e refutem teorias
ou modelos existentes.

2.7 Algumas plataformas para Big Date Analytics
A plataforma do Big Data é um ecossistema de serviços e tecnologias que
precisam de funcionar análise de dados volumosos, complexos e dinâmicos. Visto que
essa aumenta a escala da plataforma de hardware e torna iminente e escolhe as
tecnologias de hardware. Seguem abaixo exemplos de tecnologias usadas no Big
Data e Big Data Analytics.

2.7.1 Recursos e funções do Yarn

Em uma arquitetura de cluster, o Apache Hadoop YARN fica entre o HDFS e
os mecanismos de processamento usados para executar aplicativos. Ele combina um
gerenciador de recursos central com contêineres , coordenadores de aplicativos
e agentes de nível de nó que monitoram operações de processamento em nós de
cluster individuais. O YARN pode alocar recursos dinamicamente para aplicativos
conforme necessário, um recurso projetado para melhorar a utilização de recursos e
o desempenho do aplicativo em comparação com a abordagem de alocação mais
estática do MapReduce.

2.7.2 Haddop

Hadoop é um dos termos que fazem parte do "vocabulário" das tecnologias
emergentes. Mas afinal, o que é Hadoop? De forma simples, ele pode ser descrito
como um conjunto de programas e procedimentos open source - disponíveis de graça
para que todos usem e modifiquem, que servem como estrutura para operações de
dados.
A natureza flexível de um sistema Hadoop permite que as empresas possam
adicionar ou modificar seu sistema de dados à medida que suas necessidades
mudam, usando peças baratas e prontamente disponíveis de qualquer fornecedor de
TI.
Mais comumente, o Hadoop é usado para processar cargas de trabalho de
big data por ser altamente escalável. Para aumentar a capacidade de
processamento do cluster do Hadoop, é possível adicionar mais servidores com os
recursos de CPU e memória necessários precisa para atender às necessidades.
O Hadoop proporciona um alto nível de durabilidade e disponibilidade,
enquanto continua processando em paralelo cargas de trabalho analíticas
computacionais. A combinação de disponibilidade, durabilidade e escalabilidade de
https://whatis.techtarget.com/definition/container-disambiguation
https://whatis.techtarget.com/definition/software-agent
29

processamento torna o Hadoop a escolha ideal para cargas de trabalho de maior
número de dados. Algumas vantagens do Hadoop são:
 Velocidade e agilidade maiores;
 Complexidade administrativa reduzida;
 Integração com outros serviços na nuvem;
 Disponibilidade e recuperação de desastres melhoradas;
 Capacidade flexível

2.7.3 Spark

O Spark é um framework para processamento de Big Data construído com foco
em velocidade, facilidade de uso e análises sofisticadas. Está sendo desenvolvido
desde de 2009 pelo AMPLab da Universidade de Califórnia em Berkeley e em 2010
seu código foi aberto como projeto da fundação Apache.
O Spark tem muitas vantagens se comparado as outras tecnologias de Big Data
e do paradigma MapReduce, como o Hadoop e o Storm. O Spark armazenará a maior
quantidade possível de dados na memória e, em seguida, irá persisti-los em disco.

2.8 O início da Ciência de Dados

Alguns fatores culminaram na existência da ciência de dados. O principal deles
é o aumento de dados não estruturados disponíveis, a partir da digitalização da
informação. Esse grande volume de dados não estruturados também é conhecido
como Big Data.
O segundo fator importante foi o avanço na capacidade de processamento em
nuvem, por meio de processamento horizontal com clusters. Sem esse aumento de
capacidade de processamento a ciência de dados certamente não existiria. Isso
ocorre porque o processamento vertical tradicional é caro e ineficiente para grandes
quantidades de dados.
https://spark.apache.org/
http://www.maximizasoftware.com.br/noticias/hora-da-revisao-dados-estruturados-e-nao-estruturados-na-nuvem/
https://pt.wikipedia.org/wiki/Cluster
30

Esse problema foi resolvido, principalmente, a partir da especialização de
capacidade computacional disponibilizada por fornecedores de computação em
nuvem, como Amazon (AWS), Google (GCP) e Microsoft (Azure). Com a possibilidade
de locação de hardware sob demanda e a sua redistribuição para atingimento de
máxima eficiência, muitos projetos passaram a ser viabilizados com a computação em
nuvem.
2.9 Ciência de dados e seus pilares
Hoje, a profissão de data science é a que mais cresce no mundo. Muito disso
é causado a partir da necessidade que as empresas têm de tratar dados não
estruturados e transformá-los em informações úteis.
Segundo especialistas, estima-se que em torno de 90% dos dados
armazenados na web tenham sido gerados somente nos últimos 2 anos. Além disso,
no máximo 20% destes dados estão estruturados em linhas e colunas para serem
analisados por ferramentas tradicionais. Um vídeo subido no Youtube, por exemplo, é
considerado um dado não estruturado, pois é composto por imagem e áudio. Ou seja,
não possui informações organizadas em categorias (etiquetadas).
Data science é a coleta de dados de diversas fontes para analisar e subsidiar
a tomada de decisões, de forma preditiva, em grandes quantidades e gerando
insights.
É importante lembrar que a predição não garante o futuro, é apenas uma
ferramenta para melhorar o processo de decisão. Ou seja, o planejamento não é
certeza, pois não está imune a falhas. Ciência de dados, como é conhecida em
português, é o processo que extrai dados de diversas fontes, em diferentes
velocidades, processando grandes quantidades (big data) e gerando valor. De modo
algum pode ser entendida como uma ferramenta, mas sim como um conjunto de
métodos, assim como big data e o business intelligence.
Geralmente o processo de data science é composto por definição dos
problemas ou questões, preparação, exploração, conclusão e comunicação. Veja o
esquema abaixo:
Questões > Preparação > Exploração > Conclusões > Comunicação
31

Entre os principais pilares da ciência de dados estão a matemática, a
estatística, a área de negócios, a mineração e a visualização de dados, a programação
e a computação. Embora essa área seja essencialmente multidisciplinar, a estatística
e a matemática são a base da ciência de dados e o diferencial de métodos anteriores,
pois é através delas que são construídos os modelos de análise de dados para
predição futura, também conhecidos como algoritmos.

2.9.1 Aplicações de Data Science

A ciência de dados possui diversas aplicações práticas. Algumas delas são a
recomendação de produtos no varejo online, o reconhecimento de voz (deep learning),
o tratamento de doenças a partir de correlações de dados e o reconhecimento facial.
Hoje, diversos fabricantes de tecnologia estão investindo pesado em
tecnologias de deep learning para reconhecimento de voz. Cortana (Microsoft), Siri
(Apple) e Alexa (Amazon) são alguns exemplos de tecnologias conversacionais, que
permitem que o usuário interaja com uma inteligência artificial por meio de comandos
de voz. Essa tecnologia revela de forma bastante compreensiva como funciona a
transformação entre dados não estruturados (voz) em informações úteis (comandos
computacionais).

REFERÊNCIAS BIBLIOGRÁFICAS

ESPINDOLA, A.M.S; ROTH, L. Big Data e Inteligência Estratégica: Um Estudo de
Caso Sobre a Mineração de Dados como Alternativa de Análise. Revista Espacios, v.
37, n. 4, p. 16, out. 2015. Disponível em:
<http://www.revistaespacios.com/a16v37n04/16370417.html>. Acesso em: 27 de
Janeiro 2021.
EVANS, J. R.; LINDNER, C. H. (2012). Business analytics: the next frontier for decision
sciences. Decision Line, 43(2), pp. 4-6.
FRANK, C. (2012). Improving Decision Making in the World of Big Data.Disponível
em: <https://www.forbes.com/sites/christopherfrank/2012/03/25/improving-decision-
making-in-the-world-of-big-data/#- 7641c6f11e85>. Acesso em: Acesso 28 de Janeito
2021.
GUIMARÃES, Eliane Marina Palhares; ÉVORA, Yolanda Dora Martinez. Sistema de
informação: instrumento para tomada de decisão no exercício da gerência. Ciência da
Informação, Brasília, v. 33, n. 1, p. 72- 80, jan./abril 2004

APOSTILA DESCOBERTA DE CONHECIMENTO COM BIG DATA ANALYTICS

Bases de Dados

FACEMINAS

Ferramentas de estudo

Conteúdos escolhidos para você

01 - APOSTILA BANCO DE DADOS

Ebook - Análise de dados nos negócios um passo a passo para a cultura - Ifood

Fluência em Dados

Analytics e o Processo de Tomada de Decisão

Avaliação da Disciplina - Fundamentos de Big Data

Perguntas dessa disciplina

Nesse ambiente de desafios, cresce 0 uso de uma nova postura de gestão estratégica da informação, denominada BI (Business Intelligence). Termo que tem

Originalmente, a estatística surgiu como uma ferramenta para os governantes administrarem seus Estados, coletando dados sobre população e recursos par

Pergunta 1 Os sistemas de informação desempenham um papel crucial nas operações e no sucesso das empresas modernas. Eles são essenciais para diversas

Nome: Sistemas de Informações Gerenciais - Unidade: 1 Questões 1) Os dados podem se apresentar por meio de vários formatos, inclusive os tradiciona...

Questão 4/10 - Big Data Ler em voz alta O texto abaixo trata da importância do Big Data em ambiente corporativo. O Big Data pode ser empregado em vári

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

01 - APOSTILA BANCO DE DADOS

Ebook - Análise de dados nos negócios um passo a passo para a cultura - Ifood

Fluência em Dados

Analytics e o Processo de Tomada de Decisão

Avaliação da Disciplina - Fundamentos de Big Data

Perguntas dessa disciplina

Nesse ambiente de desafios, cresce 0 uso de uma nova postura de gestão estratégica da informação, denominada BI (Business Intelligence). Termo que tem

Originalmente, a estatística surgiu como uma ferramenta para os governantes administrarem seus Estados, coletando dados sobre população e recursos par

Pergunta 1 Os sistemas de informação desempenham um papel crucial nas operações e no sucesso das empresas modernas. Eles são essenciais para diversas

Nome: Sistemas de Informações Gerenciais - Unidade: 1 Questões 1) Os dados podem se apresentar por meio de vários formatos, inclusive os tradiciona...

Questão 4/10 - Big Data Ler em voz alta O texto abaixo trata da importância do Big Data em ambiente corporativo. O Big Data pode ser empregado em vári

Mais conteúdos dessa disciplina