Prévia do material em texto
DESCOBERTA DE CONHECIMENTO COM BIG DATA ANALYTICS 2 NOSSA HISTÓRIA A nossa história inicia com a realização do sonho de um grupo de empresários, em atender à crescente demanda de alunos para cursos de Graduação e Pós- Graduação. Com isso foi criado a nossa instituição, como entidade oferecendo serviços educacionais em nível superior. A instituição tem por objetivo formar diplomados nas diferentes áreas de conhecimento, aptos para a inserção em setores profissionais e para a participação no desenvolvimento da sociedade brasileira, e colaborar na sua formação contínua. Além de promover a divulgação de conhecimentos culturais, científicos e técnicos que constituem patrimônio da humanidade e comunicar o saber através do ensino, de publicação ou outras normas de comunicação. A nossa missão é oferecer qualidade em conhecimento e cultura de forma confiável e eficiente para que o aluno tenha oportunidade de construir uma base profissional e ética. Dessa forma, conquistando o espaço de uma das instituições modelo no país na oferta de cursos, primando sempre pela inovação tecnológica, excelência no atendimento e valor do serviço oferecido. 3 SUMÁRIO 1. Tomada de Decisão ............................................................................................ 4 1.1 Produção de dados ................................................................................................................... 4 1.2 Abordagem dos dados .............................................................................................................. 5 1.3 Introdução à tecnologia NoSQL ................................................................................................ 7 1.4 Armazenamento dos dados ...................................................................................................... 8 1.5 Importância do armazenamento de dados ............................................................................... 8 1.5.1 Dispositivos de storage ...................................................................................................... 9 1.5.2 Servidores ......................................................................................................................... 9 1.5.3 Armazenamento em nuvem — cloud computing ..............................................................10 1.6 Fundamentos para a tomada de decisão .................................................................................12 1.6.1 Modelo Racional ...............................................................................................................12 1.6.2 Modelo Processual ...........................................................................................................14 1.6.3 Modelo Político ................................................................................................................15 1.6.4 Modelo Anárquico ............................................................................................................16 2. Analytics ............................................................................................................ 18 2.1.1 Análise Descritiva .............................................................................................................18 2.1.2 Análise Preditiva ...............................................................................................................19 2.1.3 Análise Prescritiva ............................................................................................................20 2.1 Business Analytics ...................................................................................................................21 2.2 Business Intelligence ...............................................................................................................23 2.3 Semelhanças entre BI e BA ......................................................................................................23 2.3.1 Ferramentas para tomadas de decisões .....................................................................24 2.3.2 Data-driven ................................................................................................................24 2.4 Diferença entre Business Analytics e Business Intelligence ......................................................25 2.5 O que esperar da tomada de decisão com BA? ........................................................................26 2.6 Data Analytics .........................................................................................................................26 2.7 Algumas plataformas para Big Date Analytics ..........................................................................27 2.7.1 Recursos e funções do Yarn ........................................................................................28 2.8 O início da Ciência de Dados ....................................................................................................29 2.9 Ciência de dados e seus pilares ................................................................................................30 2.9.1 Aplicações de Data Science ...............................................................................................31 Referências Bibliográficas ..................................................................................... 32 4 1. Tomada de Decisão A tomada de decisão nas organizações consiste em fazer uma escolha importante, normalmente dividida entre mais de duas possibilidades e que desdobrará consequências para o futuro, tanto do negócio quanto dos colaboradores e clientes. O processo de decisão é contínuo e combina uma junção de conhecimentos, habilidades e experiência. Deve ser trabalhado constantemente e ter seus riscos analisados para que os problemas sejam solucionados da melhor forma possível. 1.1 Produção de dados Com o advindo da internet e o avanço de uma nova era de compartilhamento de informações em um volume e velocidade nunca vistos antes, segundo Sodré (2016), aproximadamente 2,5 quintilhões de bytes de dados são produzidos diariamente através de postagens em redes sociais, upload de fotos, arquivos e vídeos, registros de transações financeiras, sinais de GPS, rastros de navegação e sensores dos mais vários tipos. Além do mais, as novas tecnologias têm originado nos últimos anos para endereçar as lacunas técnicas das ferramentas clássicas, no tratamento das demandas de processamento mais robustos, tempos de resposta cada vez menores e crescentes volumes de dados (LETOUZÉ, 2012; GOLDMAN et al., 2012). É importante percebemos que, a cada dia, a produção dos dados tem crescido massivamente. Um estudo da “A Universe of Opportunities and Challenges”, elaborado pela consultoria EMC, reportou que, de 2006 a 2010, o volume de dados digitais produzidos cresceu de 166 exabytes para 988 exabytes, fazendo a perspectiva de que o volume de dados atinga a casa dos 40.000 exabytes, ou 40 zettabytes (ou 40 trilhões de Gigabytes), nos próximos anos (GANTZ, 2012). Nesse sentido, observamos que os grandes volumes de dados estão sendo processados pelas soluções de Big Data, Ciências de Dados, Analytics, na qual aumentam exponencialmente e solicitam critérios diferenciados de armazenamento e processamento, expondo um grande desafio às organizações de tecnologias tradicionais, bem como o conjunto de volumes de dados precisa de armazenamento 5 escalonável e ter um enfoque distribuído para possibilitar a consulta a eles (ERL et. al., 2016). O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a cada mês são gerados mais de 700 milhões de minutos por mês. A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguiráassistir todos os vídeos do Youtube. Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS. O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu “motor” de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação. Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não. 1.2 Abordagem dos dados Tudo que fazemos no nosso dia a dia como tomar banho, mandar e-mails, fazer ligações entre outras atividades geram certa quantidade de dados no mundo digital. E um levantamento divulgado recentemente pelo IDC afirma que a produção de dados dobra a cada dois anos, e a previsão é de que em 2020 sejam gerados 350 zettabytes de dados, ou 35 trilhões de gigabytes. O estudo ainda revela que hoje, em todo mundo, existem mais de 500 quatrilhões de informações armazenadas no universo digital. Segundo uma matéria publicada pelo jornal O Globo, os seres humanos geram muito mais dados do que a tecnologia é capaz de comportar. Além dos humanos, máquinas que coletam dados geográficos, bancários, climáticos e de produção são as principais responsáveis pela grande produção de informação diária. 6 Analistas afirmam que o grande desafio para o setor de tecnologia da informação é o desenvolvimento de novas ferramentas com capacidades superiores de armazenamento e também velocidade de acesso. Tal desafio se deve ao fato de que a próxima década será a década dos dados, na qual a capacidade de armazenamento e velocidade devem estar interligadas para garantir o acesso a essas informações. Os profissionais de TI deverão investir em sistemas de armazenamento mais rápidos. De acordo com a professora da PUC-Rio Karin Breitnam, os equipamentos de hardware necessários para essa função já estão prontos, o que os profissionais de TI devem fazer agora é voltar sua atenção para os sistemas de armazenamento, nos quais os produtos voltados ao mercado empresarial têm capacidade de 5 petabytes, equivalente a 5 milhões de gigabytes. A velocidade e a potência dos sistemas possibilitarão o cruzamento complexo de informações, garantindo diversas possibilidades para o mercado. Figura 1.2 – Crescimento dos dados A capacidade dos discos rígidos e outros elementos de armazenamento aumentaram bastante nos últimos anos, mas a velocidade de leitura e escrita dos mesmos não acompanhou o mesmo ritmo. Como um exemplo, a leitura de todo um disco rígido 20 anos atrás levava cerca de cinco minutos. Atualmente, leva mais de duas horas e meia. Trata-se de um longo período para ler todos os dados, e escrever 7 é ainda mais lento. A solução mais óbvia para resolver esse problema é ler/escrever os dados em paralelo, utilizando vários discos. Deste modo, se existem 100 HDs, cada um com 1% do total dos dados, por exemplo, a leitura pode ser realizada 100 vezes mais rapidamente, em teoria. 1.3 Introdução à tecnologia NoSQL Constantemente, até mesmo os profissionais da área preferem tornarem-se céticos usuários dos SGBD’s (Sistemas de Gerenciamento de Bancos de Dados) puramente relacionais, para resolver problemas com estruturas muito dispares ao paradigma relacional, causando limitações e trabalho excessivamente desnecessário. Ferramentas NoSQL fornecem meios mais eficientes de armazenamento de grandes volumes de dados e/ou mecanismos de pesquisa de baixa latência, fatores importantes que precisam ser considerados durante a escolha de uma solução de armazenamento de dados (PORCELLI, 2011, p.21). Não se trata apenas de uma linguagem, mas sim de um conjunto de ferramentas e estruturas. “NoSQL é um movimento que promove soluções de armazenamento de dados não relacionais.” (PORCELLI, 2011). Esse conjunto consiste em diversas tecnologias capazes de resolver certos problemas de forma mais específica, abordando, para tal, cada cenário de uma forma bem particular. Contudo, o objetivo do NoSQL não é substituir a linguagem SQL, como muitos pensam. Sua proposta é (como o nome denomina: not only SQL – não apenas SQL) usar também modelos não-relacionais, para trazer a melhor solução para um determinado problema. Segundo Porcelli (2011), desta forma, é possível trabalhar com tecnologias NoSQL e banco de dados relacionais dentro de uma mesma aplicação. 8 1.4 Armazenamento dos dados Outro lado interessante a ser observado que pode constatar é que os dados estão sendo gerados a cada instante e de maneira exponencial, esse aspecto ocasiona na necessidade de se ter recursos de armazenamento para esses dados. Isso se deve aos recursos tradicionais que já não podem suportar tanto volume de informações produzido, de modo que, além desse volume de dados, existem as capacidades de transferência das redes de comunicação que ficam excedidas. Dessa forma, existe uma necessidade crescente em revolucionar as tecnologias de armazenamento e de comunicação (JUSTIN, et al., 2006). O armazenamento possibilita que, de forma posterior, os dados possam ser readquiridos facilmente para se realizar uma cópia ou para replicar o processo acontecido, como também, para produzir informação ou conhecimento (AMARAL, 2016). Ressalta-se que o armazenamento deve priorizar os seguintes aspectos: segurança da informação, integridade, diminuir redundância, concorrência, otimização de espaço, etc. Outro aspecto é que o armazenamento pode ser feito em um dispositivo volátil ou não volátil. Atualmente, algumas empresas usam ambientes, como Cloud Computing ou Computação em Nuvem, para o armazenamento. A computação em nuvem admite que empresas aluguem capacidade de computação e armazenamento sob solicitação e com pagamento relacionado à utilização, ao invés de bancarem grandes investimentos para a construção e instalação de dispositivos de computação em grande escala (SOUSA et al., 2010). 1.5 Importância do armazenamento de dados O armazenamento de dados é um fator estratégico para uma empresa moderna. Sua importância se revela quando avaliamos o intenso uso de tecnologia para comunicação e realização de atividades corporativas que, em conjunto, levam a 9 um crescimento exponencial do volume de dados a ser gerido. Esses dados são um substrato importante, não apenas para a operação de uma empresa, mas também para gerar insights e nortear ações que visam a inovação e também o entendimento das necessidades dos clientes. Tecnologias como o big data têm revelado o potencial que a análise de grandes volumes de dados tem para fornecer um panorama do mercado e prescrever ações que vão preparar as empresas para o futuro. É importante salientar também que problemas relacionados a imprecisão ou perda de dados podem causar prejuízos de diversas naturezas para as empresas, como indisponibilidade de serviços, perdas de vendas e problemas jurídicos. Para evitar esses contratempos, é importante saber quais opções de armazenamento se mostram mais compatíveis com o negócio. Elas devem suprir a demanda por armazenamento, confiança e distribuição de informações. 1.5.1 Dispositivos de storage São hardwares usados para o armazenamento de dados, cujos exemplos são HDs, SSDs, DVDs, fitas, pendrive e cartões de memória. São empregados para aumentar o volume de dados que pode ser guardado e usado em suas atividades e também para o transporte de informações. Entretanto, essas opções são predominantes somente em negócios de pequeno e médio porte. Assim que o negócio começar a crescer e gerar uma quantidade maior de informações, é importante considerar a aquisição de um servidor ou, então, a transferência dos dados para a nuvem. 1.5.2 Servidores Um servidor éum computador com grande capacidade de armazenamento e processamento. Tem como finalidade guardar e tornar possível a distribuição gerenciável de dados em diversos formados (planilhas, imagens, documentos de 10 textos, etc.), aplicações web, logs de sistemas e outros recursos computacionais necessários para uma organização. Utiliza um sistema operacional apropriado para essas funções, como Windows Server e Ubuntu Server. Pode ser instalado localmente, em uma empresa e acessado via rede interna, ou remotamente, em um data center. À medida que o volume de dados aumenta, a empresa tem como opções adquirir mais recursos computacionais, como mídias de armazenamento com mais espaço, ou modelos mais robustos, como blade ou rack. Usar um servidor local tem como vantagem a segurança, pois os dados não ficam expostos na web. Entretanto, demanda diversos custos com manutenção de um espaço e profissionais para operacionalizá-lo, mantê-lo atualizado e em bom estado, encarregados de implantar práticas de governança de dados. Outra necessidade recorrente é a substituição por tecnologias mais robustas, capazes de rodar novos softwares relevantes que surgem no mercado. Figura 1.5.2 – Tipos de servidores para armazenamento 1.5.3 Armazenamento em nuvem — cloud computing A nuvem onde os dados são armazenados e distribuídos é na realidade um data center no qual um grande número de servidores e dispositivos de storage oferece um espaço para o armazenamento de dados e aplicações. Ao se contratar um serviço de cloud computing, a empresa se habilita a usar recursos computacionais como espaço em disco, memória RAM, CPU e transferência de dados via web. Normalmente, as empresas que oferecem esse serviço disponibilizam um painel em que se pode gerir os recursos contratados. Com uma interface simples, 11 permitem contratar serviços sob demanda a fim de se compatibilizar com necessidades do negócio. Um exemplo é o Microsoft Azure Cloud. Com essa solução em cloud é possível desenvolver aplicações web que podem ser acessadas por computador ou smartphone, criar APIs e transferir aquelas aplicações antes usadas apenas na rede interna da empresa. A vantagem do armazenamento de dados na nuvem são: redução de custos: o preço da mensalidade para armazenamento e processamento de grandes volumes de dados é bastante reduzido quando comparado à aquisição de ativos, manutenção e contratação de pessoal; aquisição sob demanda: através do painel, a empresa pode contratar mais recursos ou reduzir conforme a necessidade; serviços agregados: os serviços com backup, proteção de dados e integração com APIs; mobilidade: os colaboradores da empresa podem acessar os dados e trocar informações de qualquer lugar com acesso à internet. A principal desvantagem que o armazenamento em nuvem pode apresentar é em relação à segurança, uma vez que os dados são acessíveis via web. Entretanto, o provedor desse serviço, em geral, oferece opções para mitigar esses riscos, como no caso do Azure que disponibiliza firewalls, anti-malwares e software para monitoramento do estado da segurança. 12 Figura 1.5.3 – Computação em nuvem 1.6 Fundamentos para a tomada de decisão O processo decisório e a tomada de decisão estão intimamente ligados e podem ser mal interpretadas. Angeloni (2003) afirma que dado, informação e conhecimento são aspectos importantes para o processo decisório nas organizações. Entendemos que o processo decisório e os indivíduos tomadores de decisões necessitam de atentar-se aos dados e as informações a serem usadas para que a decisão seja a mais próxima de ser eficaz (GUIMARÃES; ÉVORA, 2004). Segundo Robbins (2005), todas as decisões precisam de interpretações e avaliação de informação. Os dados podem vir de várias fontes e requerem ser selecionados, processados e interpretados. 1.6.1 Modelo Racional Quando precisamos tomar uma decisão? Para resolver um problema (funcionamento inadequado) ou aproveitar a oportunidade de maximizar ganhos (bater metas). Entre o estado atual de desempenho e o final, deve haver melhoras perceptíveis. As decisões são tomadas entre as alternativas que proporcionam estes ganhos. 13 O modelo racional pressupõe que a decisão ideal seria a escolhida, independente de quem fosse o tomador da decisão. Tem como premissas: O problema ou a oportunidade está bem definido e compreendido; Os objetivos e metas são claros; Não há limitação de tempo e de recursos para a análise; As informações estão disponíveis e confiáveis, em quantidade e qualidade; Os critérios de avaliação das alternativas são conhecidos e estáveis; O tomador de decisão é racional, usa a lógica para avaliar e escolher as alternativas, maximizando os objetivos. Nem sempre estas premissas acontecem ao se analisar um problema ou oportunidade. É necessário um grau de certeza e confiabilidade nas informações das alternativas e seus resultados, o que não é comum ocorrer. O modelo racional de tomada de decisão assume que devem ser utilizados procedimentos racionais, para que sejam obtidas decisões de qualidade. É um modelo teórico e normativo, que modela o processo decisório, tornando-o mais racional. Porém, como o tomador de decisões é um ser humano e nosso cérebro possui restrições devido ao modo como funciona, há tanto limitações de racionalidade quanto interferência dos processos cognitivos e emocionais durante todas as fases do processo decisório. Na tomada de decisão racional toda decisão deve ser tomada racionalmente, com base em informações completas sobre os objetivos da empresa, alternativas plausíveis, prováveis resultados dessas alternativas e importância desses resultados para a organização. Na prática, a racionalidade da decisão é atrapalhada pelo choque de interesses entre sócios da empresa, pelas barganhas e negociações entre grupos e indivíduos, pelas limitações e idiossincrasias que envolvem as decisões, pela falta de informações e assim por diante (CHOO, 2003). 14 1.6.2 Modelo Processual A tomada de decisão processual é caracterizada por enfatizar o processo de tomada de decisão em ambientes complexos e dinâmicos. Diferente do modelo racional, que é utilizado para solucionar problemas de baixa incerteza e utiliza um alto nível de informações (CHOO, 2003). O modelo processual é utilizado quando os objetivos são claros, mas os métodos e as técnicas para atingi-los são incertos. Apesar disso, o processo revela uma linha geral de desenvolvimento, cujo início se dá com o reconhecimento e o diagnóstico de um problema, prossegue com a análise das possíveis alternativas, e termina com a avaliação e seleção de uma opção a fim de resolver o problema (CHOO, 2003). O modelo processual se identifica por ser o modelo mais complexo e com mais etapas para a tomada de uma decisão. A sua constituição se dá em três fases decisórias, três rotinas de apoio e seis grupos de fatores dinâmicos. Fases decisórias: 1. Identificação: é a fase que reconhece a necessidade de tomar uma decisão e desenvolve a compreensão das questões implicadas a ela. Consiste em reconhecer e diagnosticar o problema. 2. Desenvolvimento: tem como objetivo desenvolver uma ou mais soluções para um problema, crise ou oportunidade. Consiste na busca ou criação de projetos para a resolução dos mesmos. 3. Seleção: avalia as alternativas encontradas pelos envolvidos no projeto e escolhe aquela que for considerada a mais viável e eficaz. Segundo Mintzberg et al. (1976) como complemento à fase de desenvolvimento, existem três rotinas para auxiliar na busca de uma ou mais soluções para um problema, e consistem em: rotina de busca e rotina de criação. Com relação às rotinas de busca, estas podem ser pesquisas internas ou externas. Já as rotinas de criação envolvem o desenvolvimentode uma solução customizada e única. Existem três rotinas que auxiliam na hora de colocar em pratica as fases decisórias e são elas: a rotina de controle, de comunicação e política. A rotina de controle tem 15 como objetivo guiar o processo decisório analisando seu planejamento. A rotina de comunicação visa reunir e distribuir as informações reunidas. A rotina política é a forma de barganha e persuasão para impor as ideias encontradas (CHOO, 2003). Por fim existem os fatores dinâmicos. Fatores dinâmicos: Interrupções: intervenções ambientais e internas. Prazos: reestruturação dos prazos durante o processo. Feedback: os encarregados são responsáveis por demonstrar os resultados a todos aqueles envolvidos na decisão. Ciclos de compreensão: necessários para lidar com questões complexas. Ciclos de fracasso: ocorrem quando não se consegue chegar a uma decisão. O modelo processual apresenta várias semelhanças ao modelo racional e suas principais características são semelhantes em muitos sentidos. Porém, um fator que o difere é a condição de flexibilidade, permitindo que os gestores realizem ajustes quando necessário. O modelo processual é focado em resultados de longo prazo É estratégico em sua orientação e visa promover mudanças. O modelo processual é eclético e aproveita características de outros modelos. Essas qualidades fazem dele o resumo de como deve ocorrer a interdisciplinaridade na tomada de decisão (HARRISON, 1993). 1.6.3 Modelo Político O modelo político segundo Choo (2003) é considerado uma ferramenta para decisões utilizadas quando os responsáveis pela tomada de decisão ocupam diferentes posições na empresa e exercem graus diferentes de influência dentro da organização. Deste modo as escolhas resultam em escolhas menos racionais e levam em consideração os níveis ocupados pelos gestores. Bacharach e Baratz (1983) afirmam que o poder não é posse de alguém, ele é relacional. Para que o poder exista, é necessário que existam conflitos entre os interesses de duas ou mais pessoas/grupos, e que um deles ceda ao desejo do outro. 16 Os autores ainda destacam a necessidade de se levar em consideração o peso do poder, ou seja, o grau em que os valores são afetados e sua amplitude. O poder é exercido apenas quando existe resistência de uma das partes, se ela não ocorrer, o poder não existe. Uma limitação para este modelo é de que ele não oferece nenhum critério para auxiliar na distinção de questões importantes e não importantes. Outra limitação é de que o modelo não considera o exercício do poder como um meio de restrição de decisões (BACHARACH; BARATZ, 1983). Com relação às limitações, os autores citam a importância de distinguir quais questões são importantes e quais não são dentro da organização, levando em consideração seus valores e urgências. Choo (2003) acreditava que a tomada de decisão era um processo inteiramente político por ser dependente das divergências, objetivos, recursos e controle de informações das empresas. Sendo assim, no modelo político seria escolhido primeiro o resultado que se deseja alcançar e então seriam reunidas e apresentadas as informações para justificar o resultado desejado. Desse modo, existiriam duas categorias para a busca de informações: a informação usada para tomar decisões e a informação usada para apoiar as decisões já tomadas. 1.6.4 Modelo Anárquico O modelo de decisão anárquico caracteriza as organizações como anarquias organizadas, e as situações são caracterizadas por preferências problemáticas, sendo essas preferências mal definidas e incoerentes. A tecnologia usada para a tomada de decisão do modelo é considerada obscura, sendo que seus processos tendem ao erro. A participação dos envolvidos é fluida, todos dedicam às atividades uma quantidade de tempo e de esforço variável e indefinida (CHOO, 2003). O modelo anárquico, ou da lata de lixo, pode ser visualizado como uma oportunidade de escolha em uma lata, nos quais vários tipos de problemas e soluções são despejados por participantes. Este modelo leva ao extremo a visão desestruturada do processo de tomada de decisão. As organizações tendem a produzir muitas "soluções" que são descartadas no lixo devido a uma falta de problemas. Mas podem surgir problemas cuja solução se encontra nesse “lixo”, conforme apresentado por Onusic (1972) representando: 17 1. Problemas: neste modelo somente os problemas mais graves merecem passar pelo processo de decisão. Os indivíduos passam pelo “lixo” e procuram a solução que lhe parece mais adequada ao problema. 2. Soluções: as soluções são as respostas aos problemas e são trazidas à organização por meio de funcionários. As ideias encontradas formam uma cascata de soluções e os funcionários podem se beneficiar delas. 3. Oportunidades de decisão: ocorrem quando existe algum contrato a ser assinado ou contratação na empresa. Pode ocorrer quando existir a mistura certa de participantes e uma decisão for alcançada. 4. Participantes: os participantes são aqueles que tem ideias para os problemas e carregam as soluções para a empresa. Os participantes variam muito no modelo da lata de lixo, eles estão sempre indo e vindo, sendo demitidos ou contratados Este modelo foi desenvolvido para explicar como o modo das tomadas de decisão afetam as empresas que possuem um alto nível de incerteza. Essas incertezas ocorrem por três motivos: prioridades mal definidas, pouco entendimento da tecnologia e alta rotatividade dos funcionários. O modelo da lata de lixo não define o processo decisório como uma sequência de passos a serem dados, que começam com um problema e terminam com uma solução. Neste modelo as decisões são efeitos de eventos independentes entre si. A organização é considerada uma lata de lixo onde tudo é atirado (ONUSIC, 1972). Choo (2003) afirma que as preferências usadas na tomada de decisão são mal definidas e incoerentes, não são sistematizadas como no modelo racional e processual. A organização trata as situações de forma obscura, assim como os processos e procedimentos não são muito bem definidos, o que gera falta de entendimento e insegurança em seus colaboradores. 18 2. Analytics Segundo descreve Mortenson et al. (2015), não existe uma concordância na academia sobre o conceito de Business Analytics e como esse termo pode ser diferente de conceitos correlacionados, por exemplo, Business Intelligence e Big data. O autor Chen et. al. (2012) assumi uma definição unificada dos dois termos usando a nomenclatura Business Intelligence & Analytics (BI&A). Pois, segundo os autores, o conceito Business Intelligence tomou fama entre os profissionais de TI e gestão durante a década de 1990 e já expressão Analytics no final da década passada (2000), sendo esse termo inserido para representar os componentes analíticos de ferramentas de BI. Em seguida, os autores definiram outros termos também como unificados o Big Data e Big Data Analytics que foram adotados para descreverem técnicas analíticas direcionadas em grandes e complexos volumes de dados, as quais exigem metodologias e tecnologias avançadas de armazenamento, gestão, análise e visualização, porém esse termo será estudado no capítulo seguinte. Conforme Chen et. al. (2012), o BI&A tem seu surgimento marcado na área de gestão de dados e o descreve como direcionado as técnicas, tecnologias, sistemas, práticas, métodos e aplicações que analisam dados importantes no negócio para contribuir nas organizações em uma melhor compreensão do mercado, negócio e em decisões mais eficazes. Os autores Evans e Lindner (2012) descreveram que Business Analytics como sendo a combinação de três disciplinas básicas: estatística; inteligência de negócios (BI) e sistemas de informação (TI); bem como, modelagem e otimização. Além disso, afirmam que o Business Analyticsé normalmente analisado por três perspectivas. 2.1.1 Análise Descritiva A análise descritiva consiste em estudar tudo o que tem a ver com o passado. É usada para descrever todos os eventos que ocorreram, tendo em vista parâmetros 19 e referências que refletirão na tomada de decisão. Para isso, várias abordagens e recursos podem ser aplicados: Estatísticas: Alguns dados estatísticos que podem ser usadas são o máximo, o mínimo, a média, a mediana, os quartis, o desvio padrão, a variação ou os dez melhores/ piores. Estas informações podem ser visualizadas uma a uma ou agrupadas. Um bom exemplo é a análise estatística das vendas de uma empresa multinacional por países. Gráficos: é um elemento visual único que resume os dados que temos nas estatísticas. Existem vários tipos de gráficos que, dependendo dos dados que você possui e do que você está interessado em visualizar, podem estar em barras com linhas ou circulares, dentre diversos formatos de organização. Alguns exemplos podem ser a evolução das vendas ou os benefícios e custos que uma empresa em particular pode ter. Tabelas: também é um elemento muito visual para os dados. Um exemplo é o saldo da empresa. Nesse tipo de análise são extraídos pontos especiais de atenção e são explicados de forma a analisar o histórico de determinado tema. A informação mostra tendências e ocorrências que permitem que as partes interessadas analisem os resultados e eventos passados. 2.1.2 Análise Preditiva A análise preditiva consiste em colocar o aprendizado de máquina em uso para prever possíveis cenários futuros. Para fazer isso, o usuário precisa seguir etapas específicas, que são as seguintes: Definir o que queremos prever: é essencial esclarecer que previsões queremos obter. Por exemplo, o impacto que um anúncio terá na Internet. Definir os dados nos quais as previsões se baseiam: é necessário escolher bem os dados para que a previsão seja precisa e faça a diferença na tomada de 20 decisão. Forneça à inteligência artificial os dados históricos necessários para trabalhar nas melhores condições possíveis. Os atributos devem ser incluídos, juntamente com os resultados. É essencial garantir dados precisos. Isso significa que é preciso criar um modelo que se baseia nos dados de entrada, ou dados históricos. Para se ter certeza de que a análise será confiável, o modelo deve ser consistente, e constantemente avaliado. Quando temos confiança em nosso modelo de inteligência artificial, podemos realizar a previsão final. Um exemplo pode ser o cálculo da probabilidade de um cliente em potencial clicar em anúncios individuais e solicitar uma compra. Com esse tipo de análise, é possível prever o que acontece com base nos dados históricos. O ponto mais crucial é a qualidade dos dados que temos, para que a previsão seja o mais precisa possível. 2.1.3 Análise Prescritiva Com a análise prescritiva, a inteligência artificial é colocada a serviço da estratégia de forma mais dinâmica e sofisticada, indo além de fornecer panoramas descritivos e preditivos, om base em fatores múltiplos, são indicados os melhores caminhos a seguir e o impacto possível de diferentes variáveis. Em outras palavras, com este tipo de análise avaliamos decisões em cenários futuros, como o impacto que pode ter uma determinada ação corretiva para que os resultados sejam condizentes com o objetivo proposto. Dessa forma, a empresa pode tomar decisões baseando-se em histórico de fatos e diante de diferentes possibilidades e obter recomendações estratégicas para otimizar resultados em diversos setores. Um exemplo pode ser uma companhia telefônica que percebe que o uso de seus serviços por determinado cliente está em queda. A análise prescritiva poderá sugerir que haja uma otimização de serviços ou um ajuste de preços para evitar a perda desse cliente. 21 Com base nos resultados anteriores, os usuários entenderão e tomarão melhores decisões sobre o que precisa ser feito para obter os resultados desejados para o futuro. Isso quer dizer que a análise prescritiva permite efetivamente desenhar recomendações para possíveis situações futuras com base em dados históricos. Figura 2.1.3 – Análise dos dados 2.1 Business Analytics Com a evolução das tecnologias, um desafio constante na vida de gestores é adaptar os seus negócios para responder com eficiência e rapidez às mudanças no mercado, de forma que se mantenham competitivos. Para isso, é fundamental desenvolver competências e habilidades para se manter à frente dos concorrentes. Uma dessas estratégias é o Business Analytics, um conceito que utiliza a exploração de dados para fazer análises de inteligência de negócio. Independentemente do tamanho da empresa ou do mercado em que atuam, o Business Analytics pode ser útil para avaliar tendências e conhecer o negócio. 22 Business Analytics, ou análise de negócios, é o processo de avaliar e analisar todos os dados que a sua empresa dispõe e utilizá-los para tomar decisões data- driven. Esse conceito vai muito além de apenas olhar para os números e ver o que aconteceu. É uma abordagem centrada em dados que combina a ciência de análise preditiva com capacidades avançadas de inteligência de negócios. Uma análise preditiva utiliza algoritmos analíticos avançados para processar registros de dados e criar modelos que possam realizar previsões sobre os resultados futuros e agregar valor aos serviços da Empresa. As potencialidades fornecidas pela inteligência de negócio de uma empresa podem entregar insights preditivos para departamentos fundamentais da organização, ajudando a atingir as metas e os objetivos – e ainda contribuem para aumentar a rentabilidade e a eficiência operacional. O Business Analytics é uma forma de levar a inteligência do BI um passo adiante. Ele se aproxima à ciência de dados, aplicando os padrões identificados nas informações que uma empresa utiliza para alimentar o software, na construção de modelos preditivos. Aplicando Inteligência Artificial, com Machine Learning ou Computação Cognitiva, Business Analytics consegue antecipar o futuro do negócio em aspectos tão complexos quanto a retenção de clientes. Ele também pode ser aplicado a processos rotineiros, como a detecção de fraudes nas instituições financeiras, com muito mais rapidez que qualquer outra tecnologia. Examinando dados com ferramentas mais sofisticadas, BA cria o que chamamos de insights profundos e pode apontar, baseado em dados históricos, um roadmap para o futuro. Os algoritmos do Business Analytics não têm como única tarefa analisar dados com base em regras pré-determinadas.Eles processam dados brutos e são capazes de aplicá-los para entender correlações, relacionamentos, padrões e, assim, gerar previsões que acarretam decisões diferentes e mais precisas. 23 2.2 Business Intelligence O Forrester, instituto de pesquisa de mercado norte-americano, define BI como metodologias, processos, arquiteturas e tecnologias que ajudam as empresas a lidarem com dados. Ao inserir informações nessas ferramentas, conseguimos administrá-las e visualizá-las melhor, criar relatórios, verificar a performance de cada área do negócio e organizar os conhecimentos de que dispomos. Em geral, os softwares de BI possuem ferramentas que fazem querying (perguntas para validar o que um dado quer dizer) e geram relatórios, contando também com um dashboard que traduz esses dados em gráficos fáceis de se compreender. Ainda que o termo BI seja bastante amplo, nos negócios ele é utilizado, principalmente, para gerar insights com base em dados históricos. A maioria dos softwares pode ser obtida isoladamente e integrada a sistemas que uma empresa já utiliza (como CRM e ERP). A principal diferença entre como dados são tratados pelo BI e pelo BusinessAnalytics são painéis interativos que, no Business Intelligence, ajudam o usuário a compreender os dados que possui. Podemos simplificar as coisas dizendo que os sistemas de BI funcionam de maneira similar a um FAQ para os dados internos. Os usuários fazem perguntas e obtêm respostas que são apresentadas de maneira tão simples que até a pessoa menos acostumada a lidar com eles consegue entendê-los. Portanto, o BI compartilha o acesso à informação que antes estaria restrita aos departamentos de TI. 2.3 Semelhanças entre BI e BA Alguns especialistas, como Pat Roche, vice-presidente de engenharia da Magnitude, dizem que BI e BA se diferenciam porque o primeiro é necessário para que os negócios funcionem e o segundo para que eles sejam revolucionados. Mas Business Intelligence e Business Analytics têm muito em comum. Confira, nos tópicos a seguir, o que podemos perceber ao utilizar essas duas tecnologias. https://www.betterbuys.com/bi/business-intelligence-vs-business-analytics/ 24 2.3.1 Ferramentas para tomadas de decisões Business Intelligence e Business Analytics são, ambas, ferramentas para melhorar a tomada de decisão. Elas apenas utilizam metodologias diferentes para fazer isso. Enquanto o BI trabalha com dados do passado, avaliando o que já aconteceu dentro da empresa e quais ações podem ser tomadas para repetir sucessos e evitar fracassos, o BA se concentra no uso de Inteligência Artificial para prever o futuro. Machine Learning é um dos recursos que dão ao Business Analytics o poder de prever o impacto das decisões nos rumos do negócio. 2.3.2 Data-driven A tendência de se utilizar dados para discernir entre as oportunidades e desafios enfrentados pelos negócios é referenciada pelo termo “direcionado por dados”, do inglês data-driven. São BI, Big Data e Business Analytics os grandes responsáveis por ela. Estima-se que 90% dos dados que existem em todo o mundo foram produzidos apenas nos últimos dois anos. Eles se tornaram maneiras de dimensionar o sucesso dos negócios e também de guiá-los para o caminho certo. Data driven é um adjetivo que qualifica processos orientados por dados, ou seja, embasados na coleta e análise de informações. No mundo dos negócios, significa colocar os dados no centro da tomada de decisão e do planejamento estratégico, buscando fontes confiáveis ao invés de gerir a empresa por intuição. O termo data driven pode ser traduzido para “orientado a dados” e tem origem no conceito de ciência de dados. Basicamente, essa ciência multidisciplinar usa métodos científicos, processos e algoritmos para extrair conhecimento de dados estruturados e não estruturados. A ideia é usar a análise computacional (analytics) de grandes volumes de dados (Big Data) para solucionar problemas e obter insights, valendo-se de tecnologias em inteligência artificial e machine learning. Obviamente, estamos falando de um universo de dados digitais, que podem ser coletados, combinados e interpretados para gerar informações valiosas. Ao transformar dados em respostas 25 para o sucesso do negócio, as organizações saem na frente da concorrência e crescem muito mais rápido, alinhadas à transformação digital. Segundo o relatório Insights-Driven Businesses Set The Pace For Global Growth, publicado em 2018 pela Forrester, as empresas data-driven crescem mais de 30% anualmente e devem faturar mais de US$ 1,8 trilhões até 2021. No estudo, essas organizações são descritas como obcecadas pelo consumidor e capazes de criar vantagem competitiva a partir da tecnologia. Em resumo, essa é a função do data driven nos negócios: usar o poder dos dados para tomar decisões assertivas e criar valor superior no mercado, 2.4 Diferença entre Business Analytics e Business Intelligence Os conceitos de BA e BI são bem parecidos. Por isso, um jeito simples de entender a diferença entre os dois é entendendo um como uma evolução do outro. O Business Analytics surgiu justamente do Business Intelligence, aprimorando e desenvolvendo as técnicas e métricas. No entanto, é importante frisar que isso não significa que o BI seja ultrapassado ou desnecessário para as empresas. São apenas metodologias distintas. O Business Intelligence, por exemplo, é muito útil para auxiliar os gestores no planejamento e na elaboração de estratégias, principalmente quando a empresa ainda não tem um ponto de partida.Já o BA é mais abrangente e envolve outros recursos de estatísticas. Então, de maneira simplificada, o Business Intelligence é uma ferramenta para estruturar um sistema de métricas e análise de dados, enquanto o Business Analytics é um recurso mais aprofundado que se baseia em informações para propor abordagens diferentes. 26 2.5 O que esperar da tomada de decisão com BA? O foco do Business Analytics é fomentar melhores decisões por meio da análise de projeções futuras, o que permite diminuir drasticamente problemas por conta de interpretações errôneas do mercado. Como todas essas projeções são baseadas em um histórico, construído ao longo dos anos e salvo em databases, sua precisão é muito grande, de modo que os gestores estarão sempre amparados por informações relevantes. A utilização de BA dentro das organizações já não é mais apenas um diferencial, mas, sim, uma necessidade, já que a alta competitividade atual não tem espaço para erros. Plataformas de BA podem gerar relatórios de projeção futura a qualquer momento, demonstrando, assim, os rumos que a empresa vem tomando e quais as demandas para maximizar oportunidades e diminuir riscos. Como o Business Analytics oferece não apenas uma análise de dados, mas também uma visão sobre o futuro, ele é cada vez mais importante para a tomada de decisão. Usado corretamente, ajuda negócios a crescerem e, principalmente, a se fortalecerem no mercado. 2.6 Data Analytics A definição simples de Data Analytics pode ser respondida como a ciência de examinar dados brutos para poder extrair conclusões e informações de valores a respeito daquele dado. Geralmente, envolve aplicar um algoritmo ou um processo de automação para extrair esses insights. A análise de dados sempre obtém suas conclusões, a partir de conhecimentos que o pesquisador possui, o que significa que seu foco é na inferência. Cientistas e pesquisadores, por exemplo, utilizam data analytics para verificar ou desacreditar modelos e hipóteses. Já empresas a utilizam para validar tomadas de decisões. O analista de dados pode utilizar ferramentas como SAS e R para extrair dados e procurar informações de valor, mas não é algo mandatório no dia a dia do 27 profissional. Seu trabalho envolve responder questões de rotina, geralmente, determinadas pela empresa. Para trabalhar com Data Analytics, não é fundamental conhecer linguagens de programação, como R e Python. No entanto, é essencial possuir facilidade com números e afinidade com estatística. Para analistas de dados, a habilidade de conseguir transformar os dados em algo que possa ser facilmente visualizado ou comunicar adequadamente as informações importantes faz toda a diferença no momento de apresentar resultados. Por isso, é fundamental que um analista não seja só focado na parte exata, mas também consiga exercer criatividade. O Data Analytics é a ciência de examinar dados brutos com o objetivo de encontrar padrões e tirar conclusões sobre essa informação, aplicando um processo algorítmico ou mecânico para obter informações. Segundo a Forbes, o grande mercado de análise de dados superará em breve $ 200 bilhões. O trabalho de um analista de dados reside na inferência, que é o processo de derivar conclusões que são unicamente baseadas no que o pesquisador já conhece; por exemplo, executando uma série de conjuntos de dados para procurar correlações significativas entre si. O Data Analytics é usado em várias indústriaspara permitir que as organizações tomem melhores decisões, bem como verifiquem e refutem teorias ou modelos existentes. 2.7 Algumas plataformas para Big Date Analytics A plataforma do Big Data é um ecossistema de serviços e tecnologias que precisam de funcionar análise de dados volumosos, complexos e dinâmicos. Visto que essa aumenta a escala da plataforma de hardware e torna iminente e escolhe as tecnologias de hardware. Seguem abaixo exemplos de tecnologias usadas no Big Data e Big Data Analytics. 28 2.7.1 Recursos e funções do Yarn Em uma arquitetura de cluster, o Apache Hadoop YARN fica entre o HDFS e os mecanismos de processamento usados para executar aplicativos. Ele combina um gerenciador de recursos central com contêineres , coordenadores de aplicativos e agentes de nível de nó que monitoram operações de processamento em nós de cluster individuais. O YARN pode alocar recursos dinamicamente para aplicativos conforme necessário, um recurso projetado para melhorar a utilização de recursos e o desempenho do aplicativo em comparação com a abordagem de alocação mais estática do MapReduce. 2.7.2 Haddop Hadoop é um dos termos que fazem parte do "vocabulário" das tecnologias emergentes. Mas afinal, o que é Hadoop? De forma simples, ele pode ser descrito como um conjunto de programas e procedimentos open source - disponíveis de graça para que todos usem e modifiquem, que servem como estrutura para operações de dados. A natureza flexível de um sistema Hadoop permite que as empresas possam adicionar ou modificar seu sistema de dados à medida que suas necessidades mudam, usando peças baratas e prontamente disponíveis de qualquer fornecedor de TI. Mais comumente, o Hadoop é usado para processar cargas de trabalho de big data por ser altamente escalável. Para aumentar a capacidade de processamento do cluster do Hadoop, é possível adicionar mais servidores com os recursos de CPU e memória necessários precisa para atender às necessidades. O Hadoop proporciona um alto nível de durabilidade e disponibilidade, enquanto continua processando em paralelo cargas de trabalho analíticas computacionais. A combinação de disponibilidade, durabilidade e escalabilidade de https://whatis.techtarget.com/definition/container-disambiguation https://whatis.techtarget.com/definition/software-agent 29 processamento torna o Hadoop a escolha ideal para cargas de trabalho de maior número de dados. Algumas vantagens do Hadoop são: Velocidade e agilidade maiores; Complexidade administrativa reduzida; Integração com outros serviços na nuvem; Disponibilidade e recuperação de desastres melhoradas; Capacidade flexível 2.7.3 Spark O Spark é um framework para processamento de Big Data construído com foco em velocidade, facilidade de uso e análises sofisticadas. Está sendo desenvolvido desde de 2009 pelo AMPLab da Universidade de Califórnia em Berkeley e em 2010 seu código foi aberto como projeto da fundação Apache. O Spark tem muitas vantagens se comparado as outras tecnologias de Big Data e do paradigma MapReduce, como o Hadoop e o Storm. O Spark armazenará a maior quantidade possível de dados na memória e, em seguida, irá persisti-los em disco. 2.8 O início da Ciência de Dados Alguns fatores culminaram na existência da ciência de dados. O principal deles é o aumento de dados não estruturados disponíveis, a partir da digitalização da informação. Esse grande volume de dados não estruturados também é conhecido como Big Data. O segundo fator importante foi o avanço na capacidade de processamento em nuvem, por meio de processamento horizontal com clusters. Sem esse aumento de capacidade de processamento a ciência de dados certamente não existiria. Isso ocorre porque o processamento vertical tradicional é caro e ineficiente para grandes quantidades de dados. https://spark.apache.org/ http://www.maximizasoftware.com.br/noticias/hora-da-revisao-dados-estruturados-e-nao-estruturados-na-nuvem/ https://pt.wikipedia.org/wiki/Cluster 30 Esse problema foi resolvido, principalmente, a partir da especialização de capacidade computacional disponibilizada por fornecedores de computação em nuvem, como Amazon (AWS), Google (GCP) e Microsoft (Azure). Com a possibilidade de locação de hardware sob demanda e a sua redistribuição para atingimento de máxima eficiência, muitos projetos passaram a ser viabilizados com a computação em nuvem. 2.9 Ciência de dados e seus pilares Hoje, a profissão de data science é a que mais cresce no mundo. Muito disso é causado a partir da necessidade que as empresas têm de tratar dados não estruturados e transformá-los em informações úteis. Segundo especialistas, estima-se que em torno de 90% dos dados armazenados na web tenham sido gerados somente nos últimos 2 anos. Além disso, no máximo 20% destes dados estão estruturados em linhas e colunas para serem analisados por ferramentas tradicionais. Um vídeo subido no Youtube, por exemplo, é considerado um dado não estruturado, pois é composto por imagem e áudio. Ou seja, não possui informações organizadas em categorias (etiquetadas). Data science é a coleta de dados de diversas fontes para analisar e subsidiar a tomada de decisões, de forma preditiva, em grandes quantidades e gerando insights. É importante lembrar que a predição não garante o futuro, é apenas uma ferramenta para melhorar o processo de decisão. Ou seja, o planejamento não é certeza, pois não está imune a falhas. Ciência de dados, como é conhecida em português, é o processo que extrai dados de diversas fontes, em diferentes velocidades, processando grandes quantidades (big data) e gerando valor. De modo algum pode ser entendida como uma ferramenta, mas sim como um conjunto de métodos, assim como big data e o business intelligence. Geralmente o processo de data science é composto por definição dos problemas ou questões, preparação, exploração, conclusão e comunicação. Veja o esquema abaixo: Questões > Preparação > Exploração > Conclusões > Comunicação 31 Entre os principais pilares da ciência de dados estão a matemática, a estatística, a área de negócios, a mineração e a visualização de dados, a programação e a computação. Embora essa área seja essencialmente multidisciplinar, a estatística e a matemática são a base da ciência de dados e o diferencial de métodos anteriores, pois é através delas que são construídos os modelos de análise de dados para predição futura, também conhecidos como algoritmos. 2.9.1 Aplicações de Data Science A ciência de dados possui diversas aplicações práticas. Algumas delas são a recomendação de produtos no varejo online, o reconhecimento de voz (deep learning), o tratamento de doenças a partir de correlações de dados e o reconhecimento facial. Hoje, diversos fabricantes de tecnologia estão investindo pesado em tecnologias de deep learning para reconhecimento de voz. Cortana (Microsoft), Siri (Apple) e Alexa (Amazon) são alguns exemplos de tecnologias conversacionais, que permitem que o usuário interaja com uma inteligência artificial por meio de comandos de voz. Essa tecnologia revela de forma bastante compreensiva como funciona a transformação entre dados não estruturados (voz) em informações úteis (comandos computacionais). 32 REFERÊNCIAS BIBLIOGRÁFICAS ESPINDOLA, A.M.S; ROTH, L. Big Data e Inteligência Estratégica: Um Estudo de Caso Sobre a Mineração de Dados como Alternativa de Análise. Revista Espacios, v. 37, n. 4, p. 16, out. 2015. Disponível em: <http://www.revistaespacios.com/a16v37n04/16370417.html>. Acesso em: 27 de Janeiro 2021. EVANS, J. R.; LINDNER, C. H. (2012). Business analytics: the next frontier for decision sciences. Decision Line, 43(2), pp. 4-6. FRANK, C. (2012). Improving Decision Making in the World of Big Data.Disponível em: <https://www.forbes.com/sites/christopherfrank/2012/03/25/improving-decision- making-in-the-world-of-big-data/#- 7641c6f11e85>. Acesso em: Acesso 28 de Janeito 2021. GUIMARÃES, Eliane Marina Palhares; ÉVORA, Yolanda Dora Martinez. Sistema de informação: instrumento para tomada de decisão no exercício da gerência. Ciência da Informação, Brasília, v. 33, n. 1, p. 72- 80, jan./abril 2004