Prévia do material em texto
1 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S 2 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S 3 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Núcleo de Educação a Distância GRUPO PROMINAS DE EDUCAÇÃO Diagramação: Rhanya Vitória M. R. Cupertino PRESIDENTE: Valdir Valério, Diretor Executivo: Dr. Willian Ferreira. O Grupo Educacional Prominas é uma referência no cenário educacional e com ações voltadas para a formação de profissionais capazes de se destacar no mercado de trabalho. O Grupo Prominas investe em tecnologia, inovação e conhecimento. Tudo isso é responsável por fomentar a expansão e consolidar a responsabilidade de promover a aprendizagem. 4 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Prezado(a) Pós-Graduando(a), Seja muito bem-vindo(a) ao nosso Grupo Educacional! Inicialmente, gostaríamos de agradecê-lo(a) pela confiança em nós depositada. Temos a convicção absoluta que você não irá se decepcionar pela sua escolha, pois nos comprometemos a superar as suas expectativas. A educação deve ser sempre o pilar para consolidação de uma nação soberana, democrática, crítica, reflexiva, acolhedora e integra- dora. Além disso, a educação é a maneira mais nobre de promover a ascensão social e econômica da população de um país. Durante o seu curso de graduação você teve a oportunida- de de conhecer e estudar uma grande diversidade de conteúdos. Foi um momento de consolidação e amadurecimento de suas escolhas pessoais e profissionais. Agora, na Pós-Graduação, as expectativas e objetivos são outros. É o momento de você complementar a sua formação acadêmi- ca, se atualizar, incorporar novas competências e técnicas, desenvolver um novo perfil profissional, objetivando o aprimoramento para sua atu- ação no concorrido mercado do trabalho. E, certamente, será um passo importante para quem deseja ingressar como docente no ensino supe- rior e se qualificar ainda mais para o magistério nos demais níveis de ensino. E o propósito do nosso Grupo Educacional é ajudá-lo(a) nessa jornada! Conte conosco, pois nós acreditamos em seu potencial. Vamos juntos nessa maravilhosa viagem que é a construção de novos conhecimentos. Um abraço, Grupo Prominas - Educação e Tecnologia 5 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S 6 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Olá, acadêmico(a) do ensino a distância do Grupo Prominas! É um prazer tê-lo em nossa instituição! Saiba que sua escolha é sinal de prestígio e consideração. Quero lhe parabenizar pela dispo- sição ao aprendizado e autodesenvolvimento. No ensino a distância é você quem administra o tempo de estudo. Por isso, ele exige perseve- rança, disciplina e organização. Este material, bem como as outras ferramentas do curso (como as aulas em vídeo, atividades, fóruns, etc.), foi projetado visando a sua preparação nessa jornada rumo ao sucesso profissional. Todo conteúdo foi elaborado para auxiliá-lo nessa tarefa, proporcionado um estudo de qualidade e com foco nas exigências do mercado de trabalho. Estude bastante e um grande abraço! Professora: Jéssica Laisa Dias da Silva 7 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S O texto abaixo das tags são informações de apoio para você ao longo dos seus estudos. Cada conteúdo é preprarado focando em téc- nicas de aprendizagem que contribuem no seu processo de busca pela conhecimento. Cada uma dessas tags, é focada especificadamente em partes importantes dos materiais aqui apresentados. Lembre-se que, cada in- formação obtida atráves do seu curso, será o ponto de partida rumo ao seu sucesso profisisional. 8 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S A cada dia, as tecnologias avançam se tornando cada vez mais acessíveis, não parando de produzir grandes massas de dados. Nesse contexto, surgiu algumas técnicas para tratar das complexas aplicações existentes nas diversidades de massa de dados como Ciências de Da- dos e o Big Data. Dessa forma, a combinação dessas duas soluções computacionais contribui no trabalho com grande massa de dados com o intuito de otimizar as informações a serem analisadas, gerando um processo eficiente de produzir informações e conhecimento. Neste mó- dulo, iremos estudar uma introdução e explanação para melhor enten- der a Ciências de Dados e o Big Data. Abordaremos, ainda, sobre o conceito desses recursos, a importância, as ferramentas e exemplos de setores que podem adotar esses recursos. Entenderemos, ainda, como essas soluções podem contribuir nos mais diversos setores na descoberta de conhecimento, de forma que elas vêm a cada dia possi- bilitando responder a problemas desde de cunho comercial, financeiro, científicos ou até problemas associados a detectar padrões de compor- tamento, como aqueles direcionados para a área de negócios. Big Data. Ciências de Dados. Solução e Dados. 9 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S CAPÍTULO 01 CONHECENDO BIG DATA Apresentação do Módulo ______________________________________ 11 12 33 19 Introdução a Big Data _________________________________________ Ciências de Dados e Big Data _________________________________ Impactos do Uso de Big Data ___________________________________ CAPÍTULO 02 CIÊNCIAS DE DADOS Introdução do Conceito e Escopos da Ciência de Dados _________ 29 25Recapitulando ________________________________________________ 21Framework para Processamento de Dados _____________________ 34Identificando o Papel do Cientista de Dados ____________________ Recapitulando _________________________________________________ 40 CAPÍTULO 03 APLICAÇÃO BIG DATA E CIÊNCIA DE DADOS Aplicabilidade da Ciência de Dados __________________________ 50 A Utilização das Tecnologias ___________________________________ 53 10 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Recapitulando __________________________________________________ 57 Considerações Finais ____________________________________________ 60 Fechando a Unidade ____________________________________________ 61 Referências _____________________________________________________ 64 11 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S É sabido que, a cada dia, as tecnologias avançam se tornando cada vez mais acessíveis e sendo responsáveis por produzir grandes massas de dados. Temos ascensão iniciando com a internet e crescendo através do tempo, com os sistemas mais complexos, aplicações pessoais e comerciais. Bem como, temos as redes sociais, portais, e-mails, sensores e computação em nuvem gerando dados a cada momento. Sendo assim, com toda a produção de dados e os avan- ços tecnológicos, surgiram soluções computacionais como o Big Data e a Ciências de Dados. Entenderemos um pouco mais sobre esses con- ceitos e as contribuições de cada um destes termos. O capítulo 1 abordará a introdução sobre o Big Data, levantan- do um breve histórico, contextualizandosua estrutura e característica. O capítulo 2 versará sobre a introdução do conceito e escopos da Ciência de Dados, abordando, ainda, os princípios e diferenças entre ela e o Big Data, como também, será apresentando o papel do cientista de dados. Por fim, o capítulo 3 abordará sobre onde podemos aplicar o Big Data, expondo sua importância em diversas áreas. No mais, boas-vindas ao presente módulo e que todos possam enriquecer seus conhecimentos com os assuntos que serão explanados. Bons estudos! 12 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S INTRODUÇÃO A BIG DATA Entendendo os avanços das tecnologias, temos, nos anos 90, apenas os setores digitalizáveis como a música e a mídia que se torna- ram digitais. No começo dos anos 2000, o mundo físico se aproximou mais da digitalização com a disseminação do comércio eletrônico e o Internet Banking. Atualmente, observamos de modo claro os sinais da hiperconec- tividade, por meio de recursos tecnológicos como computação em nuvem (cloud computing), a ascensão da mobilidade e a Internet das Coisas inseridas em nossa sociedade. Os hábitos das pessoas cada dia mais co- nectadas tornam-se diários, sejam conectados no âmbito profissional ou no pessoal (TAURION, 2013). Assim, com toda a disponibilidade ofereci- CONHECENDO BIG DATA E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S 12 13 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S da pela internet e o uso massivo das pessoas aos recursos tecnológicos, surge uma nova era de compartilhamento de informações em que é pro- duzido um grande volume de dados em curto espaço de tempo. Dessa forma, temos um grande volume de dados que é produzido diariamente pelas mais diversas aplicações existentes, proporcionando nesse con- texto a necessidade de tratamento de dados e extração de informações. É sabido que o dado é como o ponto inicial para a informação. Já a informação é limitada por um dado com relevância para o indivíduo que tenha interesse e esta informação pode ser transformada em conhecimento. Nesse sentido, desde do início do século XXI, ocorreram mo- dificações significativas no contexto das Tecnologias da Informação e Comunicação (TIC), nesse âmbito, pode-se enfatizar a computação em nuvem, Internet das Coisas e as redes sociais. A disponibilização e a utilização dessas tecnologias viabilizaram que a quantidade de dados aumentasse de um modo contínuo e a uma velocidade sem limites (CAI; ZHU, 2015). A figura 1 abaixo ilustra as pessoas e os diversos recursos tecnológicos na produção de dados. Conforme Sodré (2016) relata, aproximadamente 2,5 quin- tilhões de bytes de dados são produzidos diariamente desde de postagens em redes sociais até upload de arquivos, arquivamento de transações comerciais e variados tipos. É importante compreender que muito do aumento massivo do volume de dados se dar por algumas causas destacadas abaixo (LOH, 2014): - Os recursos de armazenamento de dados econômicos e acessíveis. - O aumento no uso de aplicações e tecnologias no contexto pessoal. - Aumento na disponibilidade de serviços e aplicações diversas 14 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S que são usadas para divulgar informações, como redes sociais, e-mail, portais, entre outros. Figura 1- A Diversidade de Tecnologias e e Produção de Dados. Fonte: (FREEPIK, 2020). Por conseguinte, essa era da informação é marcada pelo o surgi- mento da solução computacional Big Data, que surgiu com objetivo de ofe- recer novas temáticas para gerar, selecionar e manipular grandes volumes dados. Ademais o Big Data é utilizado para caracterizar os dados que ex- trapolam a capacidade de processamento em sistemas de banco de dados convencionais. Conforme Schneider (2012) relata, o Big Data representa um grande volume de dados, movendo-se rapidamente e não se adequa às restrições do modelo arquitetural de banco de dados. Outros autores tratam o Big Data como um processo de extração da informação com quali- dade através de uma ampla massa de informação (MAYER-SCHONBERG e CUKIER, 2013). Para entendermos melhor o termo Big Data, foram lista- das abaixo descrições de outros autores, segue a tabela: 15 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Tabela 1 - Conceitos do Big Data. Fonte: (Autor, 2020). Diante disso, podemos perceber, na tabela 1, que as definições sempre englobam o quesito da grande quantidade de dados. As organi- zações Decision Support Systems e McKinsey Global Institute adotam somente a dimensão de volume de dados em seus conceitos, ressal- tando que existe um desafio no que se refere à gestão e análise desses dados. Por outro lado, o Gartner Group relata no estudo idealizado pelo IDC que existem outras duas dimensões primordiais a considerar no Big Data: velocidade e variedade. Conforme Schonberguer-Mayer (2012) retrata, o Big Data representa trabalhos em grande escala de dados, bem como, cita a criação de novos modos de valor, com a finalidade de modificar os mercados e as organizações. O Big Data está direcionado há grande massas de dados gerados através de práticas tecnológicas, tais como mídia social, tecnologias operacionais, acessos à internet e fontes de informa- ções distribuídas. Esse também é um recurso que apresenta uma prática para novas oportunidades de negócios. 16 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Histórico: Big Data Ao estudar sobre Big Data, vale ressaltar que não existe um consenso sobre o período exato de seu surgimento pela comunidade acadêmica. Abaixo, temos o destaque de como alguns autores determi- nam o surgimento do Big Data: - 1990: Segundo Arrigoni (2013), a origem desse conceito se deu na década de 1990, na NASA, com o objetivo de delineamento de grandes massas de dados variados que implicava o desafio aos limites computacio- nais tradicionais de capturar, processar, analisar e armazenar informação. - 2000: Os autores Phelan (2012) e Arrigoni (2013) relatam que o Big Data surgiu para tratar de um grande volume de dados que foram gerados no decorrer dos anos 2000, além do que, não havia hardwares para armazená-los ou manipulá-los. Outro fator marcante deste ano é que a ascensão do Big Data no ambiente acadêmico se deu em meados dos anos 2000, com o relatório de Laney (2001), em que foram apresen- tados os resultados de estudos sobre os desafios que o incremento do e-commerce trouxe para o mercado de gestão de dados. - 2010: No ano de 2010, através de uma reportagem na revista The Economist, o termo Big Data foi utilizado para se direcionar à ter- ceira era da informação, a qual está relacionada à terceira Revolução Industrial que aconteceu em meados do século XX e obteve como prin- cipais impactos a globalização, o uso da informática e o desenvolvimen- to de novas tecnologias (NESELLO e FACHINELLI, 2014). Por mais que não exista um consenso do ano ao certo que surgiu este termo, um fator notório é que o mercado começou a aderir progressivamente a utilização do Big Data e de seus modelos evolutivos de análise de dados, de modo que tais modelos suportaram às novas demandas de análises rápidas dos dados oriundos de várias fontes e em maior quantidade (NOVO e NEVES, 2013). Os 5VS Segundo Taurion (2013) descreve, existem cinco característi- cas que formam o Big Data, sendo elas: volume, variedade, velocidade, veracidade e valor. Segue abaixo a figura 2 que representao Big Data e esses elementos. 17 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Figura 2 - Os 5Vs Fonte: VIANA J., 2017. Abaixo, temos o detalhamento de cada um desses pontos que compõem o Big Data: I) Volume: representa a grande capacidade de aquisição de da- dos disponíveis em registro, explicando o universo de informações dispo- níveis através das várias aplicações existentes, redes sociais, pesquisas no Google, upload, entre outros. O grande crescimento de dados pode ser ocasionado por diversas fontes, por exemplo: smartphones, tablets, com- putadores, sensores, equipamentos médicos, diversidade de aplicativos, entre outros que agrupam grandes quantidades de informação (SCHNEI- DER, 2012). Para que possamos ter um maior entendimento de tanto volu- me produzido, o autor Amaral (2016) apresentou em seu estudo números como: um smartphone atual ter maior capacidade que o melhor computa- dor de 1985, a existência de mais de seis bilhões de pessoas com telefo- nes celulares, mais de 1,7 bilhões de pessoas utilizando as redes sociais, quase três milhões de e-mails enviados por segundo, 100 horas de vídeos são carregados no YouTube por minuto. Vale constar que essa pesquisa se deu em 2016, então, podemos inferir que esses números só aumentam. II) Velocidade: este aspecto trata a dinâmica do crescimento e o processamento dos dados. O Big Data tem um desenvolvimento consecutivo de informações que não para de ser produzido, por isso, para que exigências das análises sejam realizadas em tempo real e que se atualizem de forma constante, isso implica dizer que a velocidade é importante. Diferentemente de análises de modo tradicional, o Big Data precisa satisfazer um fluxo contínuo de dados (DAVENPORT, 2014). III) Variedade: este aspecto é referente à diversidade de ori- gens, configurações e formatos dos dados, podendo apresentar os da- dos estruturados ou não, compreendendo os não estruturados como os originados de redes sociais, e-mails, pesquisas na internet, dentre outros meios. A variedade é importante por causa das fontes em geral 18 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S não estarem relacionadas. Contudo, quando combinados os dados de várias fontes, esses podem resultar em informações importantes para os gestores aderirem em suas decisões, e como realizarem predições mais precisas (TAURION, 2013). IV) Veracidade: este aspecto é referente à autenticidade, a fon- te de origem e a confiabilidade dos dados. É de extrema relevância que os dados coletados contenham, além da confiança que é colocada neles, a exatidão de tais dados. De modo que, quando verdadeiros, produzam maior qualidade e alto nível de segurança, onde, caso os da- dos não forem de uma qualidade satisfatória na ocasião em que forem integrados com outros dados, as informações podem acarretar em uma falsa correlação, podendo assim resultar em uma análise incorreta de alguma oportunidade de negócios de uma organização. V) Valor: este aspecto é referente ao conjunto de resultantes entre as ações de coletar, armazenar, processar e analisar o Big Data, isso impli- ca descrever que este é a junção de todos os outros 4 V’s descrito acima. Assim, este tem uma relação que quanto maior for a qualidade dos dados, maior o valor ela tem para o negócio (KAISLER et al., 2013). Salienta a relevâncias de extrair benefícios de várias naturezas através da utilização do Big Data, ou seja, agregar valor aos processos, produtos, serviços e negócios por meio dos dados confiáveis extraídos. Dessa forma, quanto maior a veracidade dos dados e sua riqueza, maior será a chance de a análise ser realizada de modo esclarecedor a gerar vantagens ao negócio. Além desses cinco aspectos que representam juntos o que é o Big Data e contribuem para melhor explicá-lo, o cerne de todos os conceitos de Big Data é o processo de dataficação, isto é, aquele que faz referência a todo tipo de coleta de informação, até as que possivel- mente, não eram vistas como relevantes antes do Big Data. A datafi- cação trata de que não haja geração de valor, alterações estratégicas e oportunidades de negócios sem a coleta dados e que, através dela, seja possível a análise e, então, as decisões estruturais que dela decorrem. Dataficar significa o processo sistemático de extração e transformação dos dados dispersos e aparentemente irrelevantes. Dessa forma, podemos entender que o datafication é como um re- gistro eletrônico de um fenômeno qualquer, podendo ser desde de movimento do celular, ao acionamento do freio de um veículo, uma 19 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S fotografia ou gravação de câmera de segurança (AMARAL, 2016). IMPACTOS DO USO DE BIG DATA O Big Data engloba a utilização de vários tipos de conceitos e tecnologias, como computação nas nuvens, virtualização, internet, es- tatística, infraestrutura, armazenamento, processamento, governança e gestão de projetos (AMARAL, 2016). Por isso, neste sentindo, quan- do trabalhamos com o Big Data, existe alguns impactos podendo ser positivo ou negativos, como qualquer outra tecnologia que possamos adotar. Do ponto de vista dos negócios, o Big Data possibilita inúmeras oportunidades, como: vantagem competitiva ou idealização de produtos e/ou serviços orientados a dados. Podemos exemplificar os impactos positivos no mercado, por exemplo, empresas como a Amazon, que durante uma expansão no seu modelo de negócios, adotou o uso do Big Data em seus recursos de re- comendações. De forma que, por meio dos dados e possível monitorar os usuários, desde o que eles compram ao que eles pesquisam, horário da navegação, endereço de entrega para determinar dados demográficos, comentários e opiniões registradas no site são coletados e analisados, bem como nos usuários do aplicativo também são coletados a localização pelo GPS e informações sobre aplicativos usados no celular. Assim, por meio dessa coleta e extração de dados, esses são tratados por meio da utilização do Big Data para contribuir no processo de negócio da empre- sa, melhorando o processo de satisfazer seus clientes. Outras empresas que utilizam os recursos do Big Data para suas tomadas de decisões e planejamentos estratégicos nas suas organizações são a Netflix, Google, Zara, NASA, IBM e HP, Amazon. Com isso, podemos compreender que o Big Data permite agregar valor para as empresas, pois possibilita buscar padrões e relação entre dados que antes estavam perdidos ou esqueci- dos sem uso (TAURION, 2013). Outro fator é que, através da aplicação do Big Data nas empresas, há possibilidade de ajuda no processo de to- mada de decisão dos gestores, visto que se obtém um ganho por meio de análises eficientes dos dados extraídos, como também, por meio desse processo, ajudam os gestores na capacidade de decisão, onde decisões deixam de ser baseadas apenas nas percepções humanas e contam com auxílio de algoritmos e técnicas computacionais, ganhando assim um im- portante diferencial frente à concorrência. Vale salientar que o Big Data pode ser combinado com outras técnicas, como ciências de dados, Bu- niness Intelligence e mineração de dados que estudaremos mais à frente. 20 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Diferente de outras técnicas computacionais, o Big Data acaba por permitir o uso do dado para tornar a empresa mais com- petitiva e eficiente, coletando e analisando dados que não estão somente direcionados ao seu negócio, mas oferece análise tanto dos dados internos das empresas como os externos. Inclusive, outra implicação positiva está relacionada aos própri-os elementos que o Big Data oferece, que são os volumes relativos às grandes massas de dados dos bancos de dados e a velocidade referen- te à manipulação e ao tratamento analítico direcionado à realização de modo eficiente em algumas situações, ocorrendo até mesmo em tempo real (TAURION,2013). Por outro lado, destacamos como um impacto crítico a exigência de se ter uma mão de obra qualificada para trabalhar com Big Data e realizar a sua implantação com o devido conhecimento necessário espe- rado desde de conhecimento em programação, ferramentas, matemática, estática e entre outros. Porém, esta necessidade de profissionais quali- ficados possibilitou surgir uma nova oportunidade de trabalho. Podemos destacar, uma matéria realizada, no ano de 2017, apresentada pelo jornal Extra com tema “Profissionais do Big Data estão entre os cinco mais con- tratados no Brasil”, que constatava o que os pesquisadores já previram, que as oportunidades na área em Big Data iriam possibilitar oportunidades a profissionais qualificados. De modo que, nesta reportagem, também foi reportado um levantamento de uma empresa de recrutamento - Michael Page - demonstrando que o cargo estava entre os cinco mais solicitados pelo mercado brasileiro naquele ano (ZUAZZO, 2017). Taurion (2013), descreve e resume os impactos do Big Data apresentados abaixo: - Substituindo/complementando decisões humanas com algo- ritmos automatizados. De modo que os algoritmos robustos, suportados por imensas massas de dados possibilitando automatização de várias funções, como gerenciamento de processos, de tráfego, por exemplo. - Criar novos modelos de negócio: O Big Data possibilita a ide- alização de novos modelos de negócio fundamentados no valor das informações armazenadas e analisadas. - Maior potencial de análises preditivas: Muitas organizações usam o Big data para coletar os dados e poderem aplicar técnicas de predição para prever padrões ou riscos futuros, por exemplo, prever pan- demias, mudanças climáticas e entres outras analyses, até mesmo uti- 21 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S lizando informações coletadas de redes sociais como Twitter e Google. Outro autor, Isaca (2013), descreve como o Big Data pode afe- tar a empresa em alguns pontos, como no quesito governança, geren- ciamento do planejamento, utilização, garantia e privacidade que se- rão reportados abaixo: - Governança: A governança está relacionada em assegurar que as requisições e necessidades dos envolvidos possam ser analisados para designar metas que devam ser supridas pelas empresas. Esse aspecto implica que o processo de governança adequado aos projetos do Big Data pode ocasionar a uma sequência de outros problemas, como dados errô- neos e imprevistos nos custos. Desse modo, temos um ponto crítico, que no processo de governança do Big Data, deve-se cuidar em categorizar, modelar e mapear os dados na forma que são capturados e armazenados. - Planejamento: Designa o processo de coleta e estruturação dos resultados produzidos pela análise dos dados. - Utilização: É designado ao uso do Big Data que pode se ade- quar à necessidade de cada empresa, ou seja, dependendo da estrutura que a empresa é composta, determina o tempo para implementar, pode ser adotada tanto em empresa menor ou maior, sendo muitas vezes ne- cessário desenvolver infraestrutura para suportar os novos processos relacionados à ferramenta e banco de dados. - Garantia: Este é um fator importante a ser primado para as empresas direcionando a garantia da qualidade dos dados, pois a infor- mação só é eficiente quando atende às necessidades do que necessita das informações, ou seja, quanto melhor a qualidade do dado, melhor será as decisões fundamentadas nos dados. - Privacidade: Esta é referente às leis que primam a privaci- dade dos sujeitos e todas as informações sobre eles, pois com toda as informações de fácil acesso nas redes sociais, faz-se necessário ga- rantir a autenticidade da informação coletada como a confidencialidade para evitar fraudes e golpes. Cada país sanciona as leis da informação, aqui no Brasil, podemos citar a Lei n° 13.709, conhecida como Lei Ge- ral de Proteção de Dados Pessoais (LGPD), foi sancionada por Michel Temer, em agosto de 2018, e entra em vigor em agosto de 2020. O objetivo é regulamentar o tratamento de dados pessoais de clientes e usuários por parte de empresas públicas e privadas (PLANALTO, 2018). Dessa forma, temos a segurança e privacidade que deve ser resguardada nas aplicações de Big Data, tendo em vista que os dados, após serem tratados, possuem um valor grande para as organizações. FRAMEWORK PARA PROCESSAMENTO DE DADOS 22 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Campos (2015) afirma que o conceito da tecnologia Big Data engloba em sua definição as soluções comerciais e a utilização de tec- nologias para o uso dos dados. Temos uma das tecnologias associadas ao Big Data e aos frameworks destinados à coleta e ao processamento de dados. Neste sentido, para realizar o processamento eficiente das grandes massas de dados, é preciso de um processamento paralelo extenso e também novos algoritmos de análise, de modo a obter e for- necer informação apropriada a tempo de ser tomada uma decisão. Isso se deve ao fato de grandes quantidades de dados implicar grandes cus- tos de tempo, fazendo-se assim ser necessário novas estruturas que possibilitem minimizar consideravelmente o tempo de processamento (KATAL et al., 2013). Assim, para entender melhor as ferramentas de processamento, é importante partimos do contexto de processamento de dados, que pode ter três tipos, conforme descrito abaixo: (DU, 2015) - Processamento em batch: é referente a processar dados em lotes, onde um conjunto de dados é instruído da fonte de dados, sendo depois processado e registrado na fonte de destino. Vale ressaltar que a grande maioria das tecnologias de processamento de dados foram desenvolvidas para este tipo de processamento (STREAMLIO, 2018). - Processamento em tempo real: versar em processar os da- dos e conseguir os resultados de forma quase imediata. - Processamento em stream: trata de processar dados conse- cutivamente e trabalhar sobre os dados em live stream para se obter os resultados. De modo que os dados são processados como artefatos isolados, ao invés de serem processados como um lote gradativo. Dando continuidade, seguem as sessões apresentado alguns exemplos de frameworks que trabalham com processamento de gran- des massas de dados. Hadoop O Hadoop é uma plataforma de software desenvolvida pela Apache Software Foundation, open source, implementando em Java, na qual permite o processamento de grandes massas de dados em clusters de computadores. Ele também é conhecido pela capacidade de armazenamento, mas pode ser usado como uma ferramenta para processamento por meio do MapReduce. O Hadoop contém dois com- ponentes bases: a estrutura de programação HDFS e MapReduce, que estão intensamente relacionados entre si (WHITE, 2015), abaixo segue uma descrição para melhor entendimento desses componentes: - HDFS (Hadoop Distributed File System): esse é um sistema 23 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S de arquivos distribuídos, criado para armazenar imensos volumes de dados de forma confiável e realizar a transmissão para os usuários. O HDFS possui características de tolerância a falhas e possibilita a ex- pansão de um único servidor para milhares de máquinas, cada uma possibilitando o armazenamento local. Inclui o trabalho em dois tipos de nós, o “Mestre” – gerenciando a hierarquia de sistemas, e diversos “Escravos” – nós de dados (SHVACHKO et. al. 2010).- MapReduce: refere-se a um modelo de programação que pos- sibilita o processamento e geração de grandes massas de dados úteis para tarefas do cotidiano. Esse contém as funções map (mapeamento) e reduce (redução), onde a função map é referente a par chave/valor (chave trata o identificador do registro e valor o seu conteúdo) como entrada, e gera pares chave/valor intermediários. Já a função reduce mescla todos os pares relacionados à mesma chave (intermediários), possibilitando a geração de uma saída (HASHEM, 2014). Storm O Apache Storm é um sistema de computação em tempo real distribuído e que trabalha no processamento de fluxos de dados ilimi- tados, de modo que faz para o processamento em tempo real, o que o Hadoop fez no processamento em lote. Este trabalha com modelos de streaming para processamento por meio da camada principal do Storm (STORM, 2020). Podemos destacar algumas vantagens do Storm que são: a facilidade em seu uso, o funcionamento como qualquer lingua- gem de programação, estabilidade e tolerância a falhas. Por outro lado, oferece também desvantagens com relação à confiabilidade, ao desem- penho, à eficiência e ao gerenciamento (YAQOOB et al., 2016). Spark O Spark é um framework para processamento de Big Data cria- do com objetivo de primar pela velocidade, facilidade de uso e análises aprimoradas. Este foi idealizado com intuito de garantir uma ampla gama de cargas de atividades, como aplicativos em lote, algoritmos iterativos, consultas interativas e streaming, possibilitando a tolerância a toda essa carga de trabalho e reduzindo a carga de gerenciamento da manutenção de ferramentas separadas (SPARK, 2020). Salienta-se que o principal elemento do Spark é a computação em cluster na memória, melhorando a velocidade de processamento de um aplicativo. Esse trata-se de um https://spark.apache.org/ https://spark.apache.org/ 24 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S framework padronizado e de simples entendimento para gerenciar e pro- cessar Big Data com uma variedade de massas de dados de naturezas e origens diversas (batch ou streaming de dados em tempo real). As características desse framework são os suportes a lingua- gens como: Python, Java e Scala, incluindo outros módulos para apren- dizado de máquina e inteligência artificial (PENCHIKALA, 2015). A base desse framework é o RDD (Resilient Distributed Datasets), pelo qual funciona como uma tabela do banco de dados que pode arquivar qual- quer tipo de dado. De forma que o Spark armazena os dados do RDD em partições diferentes, isso contribui para a reorganização computa- cional e a questão de otimizar o processamento dos dados (PENCHI- KALA, 2015). Segundo (PENCHIKALA, 2015), seguem outras caracte- rísticas apresentadas abaixo: - Dar suporte a mais e não somente as funções de Map e Reduce. - Otimização da utilização de operadores de grafos arbitrários. - Avaliação sob demanda de consultas de Big Data, favorecen- do a otimização do fluxo global do processamento de dados. - Apresenta shell interativo para Scala e Python. https://blog.geekhunter.com.br/o-java-ainda-faz-historia/ https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/ https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/ 25 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S QUESTÕES DE CONCURSOS QUESTÃO 1 Ano: 2018 Banca: IADES Órgão: APEX Brasil Prova: Analista - Prospecção de Projetos Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos va- riados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a: a) Um sistema de armazenamento e processamento de dados massiva- mente escalável – não é um banco de dados. b) Uma estratégia baseada em tecnologia que permite a coleta de insigh- ts mais profundos e relevantes dos clientes, parceiros e sobre o negócio. c) Um banco de dados com capacidade melhorada. d) Um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento. e) Um banco de dados com tecnologia de virtualização. QUESTÃO 2 Ano: 2018 Banca: IADES Órgão: APEX Brasil Prova: Analista - Prospecção de Projetos Assinale a alternativa que apresenta o conceito de Big Data. a) Conjuntos de dados de grande volume que se utilizam de ferramen- tas especiais de processamento, pesquisa e análise, e que podem ser aproveitados no tempo necessário, com precisão e grande velocidade. b) São bancos de dados de fácil acesso e rápida velocidade, operados como computadores pessoais. c) Manuseio de informações necessárias às empresas e aos negócios do mundo moderno, que podem ser armazenadas em computadores pessoais, utilizando-se a técnica de nuvem de dados. d) São apenas grandes volumes de dados que precisam ainda ser mais bem aproveitados pelo mundo corporativo. e) Refere-se a um grande número de computadores pessoais (PC) in- terligados entre si em uma grande rede de informação. QUESTÃO 3 Ano: 2017 Banca: FCC Órgão: DPE-RS Prova: Analista - Banco de Dados Os sistemas de Big Data costumam ser caracterizados pelos cha- mados 3 Vs, sendo que o V de: a) Veracidade corresponde à rapidez na geração e obtenção de dados. b) Valor corresponde à grande quantidade de dados acumulada. 26 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S c) Volume corresponde à rapidez na geração e obtenção de dados. d) Velocidade corresponde à confiança na geração e obtenção dos dados. e) Variedade corresponde ao grande número de tipos ou formas de dados. QUESTÃO 4 Ano: 2018 Banca: FCC Órgão: TCE-RS Provas: Auditor Público Ex- terno - Administração Pública ou de Empresas Um sistema de Big Data costuma ser caracterizado pelos chama- dos 3 Vs, ou seja, volume, variedade e velocidade. Por variedade, entende-se que: a) Há um grande número de tipos de dados suportados pelo sistema. b) Há um grande número de usuários distintos acessando o sistema. c) Os tempos de acesso ao sistema apresentam grande variação. d) Há um grande número de tipos de máquinas acessando o sistema. e) Os tamanhos das tabelas que compõem o sistema são muito variáveis. QUESTÃO 5 Ano: 2020 Banca: COMPERVE Órgão: TJ-RN Prova: Analista de Su- porte Pleno - Banco de Dados Embora o Big Data tenha diferentes definições, há um consenso sobre o modelo dos 3 V’s que correspondem a 3 características. Duas dessas características são: a) Volume e Velocity. b) Variety e Value. c) Viable e Vast. d) Valid e Verbose. QUESTÃO DISSERTATIVA – DISSERTANDO A UNIDADE Vale ressaltar que as empresas utilizam cada vez mais a tecnologia como meio e não como fim, usando os recursos do Big Data para ser um diferencial e uma vantagem no mercado, deixando-as à frente dos concorrentes. Dessa forma, disserte sobre a importância do Big Data para as organizações. TREINO INÉDITO A cada dia, o desafio de gerenciar grandes quantidades de dados é ainda mais importante e, com isso, ocasionou ao surgimento de soluções computacionais como Big Data, que é como um proces- so de extração da informação com qualidade através de um grande volume de informação. É sabido ainda que cinco características compõem o Big Data, uma dessas refere-se ao conjunto de resultados entre as ações de co- 27 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S letar, armazenar, processar e analisar o Big Data, ou seja, a junção de todos os outros “Vs”. Assinale a alternativa que corresponde à característica do Big Data descrita acima: a. Volume. b. Variedade. c. Velocidade. d. Veracidade. e. Valor. NA MÍDIA “Entender esses 5 Vsdo Big Data é apenas o início para extrair o máxi- mo de valor dos dados para a sua empresa”. Neste artigo, aborda-se os 5 Vs do Big Data e como eles podem influen- ciar os negócios. De modo que as possibilidades no gerenciamento e no uso das operações de dados são infinitas. Dessa forma, é abordado como os 5 Vs do Big Data podem mudar uma empresa. O volume é referente à quantidade de dados que é produzida diariamente e coletada. Assim, nos estágios de planejar de uma campa- nha de análise de Big Data, saiba que tipo de volume de dados espera e tome medidas para garantir que seu sistema possa lidar com tantos dados. Já a velocidade é um elemento importante dos dados, pois, de forma constante, são coletados para serem analisados. Fonte: TULIPAERP Data: 09/10/2019 Leia a notícia na íntegra: <https://tulipaerp.com.br/5-vs-do-big-data//> Acesso em: 04 de agosto de 2020. NA PRÁTICA Lendo o artigo cujo tema é: “Como usar o Big Data na prática? ”, que traz a importância de investir em bons profissionais, com perfil focado em análise, como a importância de buscar ferramentas, pois de nada adianta ter tecnologias de ponta se não possuirmos profissionais qua- lificados para tornar os dados relevantes e acionáveis. Bem como, traz as aplicações e exemplos, como o Big Data na prática de transformar dados em ações estratégicas. Acesse o link: https://www.ecommercebrasil.com.br/artigos/como-usar- -o-big-data-na-pratica/. PARA SABER MAIS Filmes sobre o assunto: O Homem que Mudou o Jogo - 2011 Acesse o link: Disponível em: https://www.youtube.com/watch?v=VIjqX3RhOmc. 28 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Sabemos que, com a produção de dados e os avanços tecno- lógicos, surgiram soluções computacionais como a Big data e a Ciên- cias de Dados. No capítulo anterior, estudamos com mais detalhe sobre Big Data e, neste, focaremos no estudo sobre a Ciências de Dados. O presente capítulo, em sua primeira parte, versará sobre o conceito e o escopo trabalhado em ciências de dados, bem como, tratará de descre- ver o seu surgimento, definição e contribuições. Por conseguinte, na segunda parte do capítulo, serão tratados como se dá o relacionamento entre o Big Data com a Ciências de Dados. Abordaremos ainda os princípios e diferenças desses termos e como esses são importantes no processo de de análise de dados. Ademais, estudare- mos sobre o papel do cientista do dado relatando habilidades e competên- cias desse profissional como veremos a importância desses profissionais. CIÊNCIAS DE DADOS 28 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S 29 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S INTRODUÇÃO DO CONCEITO E ESCOPOS DA CIÊNCIA DE DADOS Segundo Amaral (2016), o termo “Data Science” é oriundo dos anos 1960, a Ciência de Dados é uma ciência nova e devido a isto, muitas vezes gera controversas e entendimento confuso. Visto que uma ciência está relacionada a adquirir conhecimento e informação de modo sistemático, bem como estruturar e padronizar esse conhecimento. Do mesmo modo, a Ciência de Dados é referente ao estudo do dado em todo o seu ciclo de vida, desde da produção ao descarte. A Ciência de Dados é compreendida muitas vezes de modo er- rôneo, principalmente nos processos de análise dos dados, onde, com a utilização de estatística, aprendizado de máquina ou a simples apli- cação de um filtro, gera informação e conhecimento. Segundo reporta o autor Cao (2016), existem diferentes conceitos da Ciência de Dados direcionada à área cientifica, que promove a criação de métodos, te- orias, tecnologias e aplicativos importantes para dados, desde da co- leta, idealização, representação, armazenamento, pesquisa, compartil- hamento, privacidade, segurança, modelagem, análise, aprendizagem, apresentação e visualização, até a integração de recursos complexos, heterogêneos e interdependentes para a tomada de decisões em tempo real, colaboração, criação de valor e apoio à decisão. Outros autores, como Provost e Fawcett (2013), relatam que a Ciência de Dados tem como fundamentos tratar e direcionar a coleta de informações e conhecimento através dos dados. Essa área ainda englo- ba princípios como: métodos e processos para compreender fenômenos por meio da análise automática de dados. De modo sucinto, a Ciência de Dados aborda a transformação de dados brutos em informação, que são de grande valia para as empresas, proporcionado a solução de problemas ou vantagens competitivas. Deste modo, entendemos a Ciência de Dados como um procedimento sistemático em que indivíduos pesquisam e des- crevem ocorrências de um projeto específico que ocorrem no mundo real. E como ainda podemos descrevê-la, é uma ciência direcionada para des- cobrir conhecimento (knowledge discovery) através da análise de dados. É interessante que você entenda que a Ciência de Dados está relacionada como a metodologia para extrair informações através de complexas bases de dados (BUGNION et.al., 2017). https://blog.academiain1.com.br/como-transformar-dados-em-inteligencia-para-o-crescimento-empresarial/ 30 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Conforme Smith (2006), a Ciência de Dados se ampliou desde então para conter o estudo da captura, análise, metadados, recupera- ção, arquivamento, troca e mineração de dados, com a finalidade de encontrar conhecimento inesperado e relações de dados. A Era da Ciência dos Dados Segundo descreve Cao (2016), estamos na era do analytics, Ciên- cia de Dados e do Big Data. Esta era é determinada por transformações e alterações de paradigmas, onde podem ser apresentadas três indicadores: - Modificação de um modelo disciplinar para um modelo dire- cionado em dados. - A mudança tecnológica ou ascensão nela de dados de uma fase para outra. - Inovação através da criação de produtos de dados com apli- cação técnica e objetiva. Essa mudança de paradigma disciplinar pode ser vista quando observamos as seguintes transições: da analítica descritiva para a análise profunda e da análise de dados para a Ciência de Dados (CAO, 2016). Desse modo, quando analisamos a formação dessa era da Ciência de Dados, Ayankoya et. al (2014), reporta que a Datafification atua também como uma base primordial nessa era de Ciência de Da- dos. Como estudamos na unidade anterior, a Datafification refere-se à modificação de todos os quesitos da vida dos dados, que se trata além de conversão de informações analógicas existentes em formatos digitais. Fases do Projeto em Ciências de Dados Conforme vimos, a Data Science é um conceito geral para uma di- versidade de padrões e técnicas com objetivo de obter informações, o qual, a cada dia, torna-se uma área muito promissora, permitindo processar os dados gerados através de várias fontes. Vale ressaltar que, para começar um projeto direcionado ao conceito da ciência dos dados, é importante de- terminar o objetivo da aplicação e elaborar questões que necessitam ser respondidas por meio de um problema a ser solucionado. Em suma, po- demos resumir as fases de um projeto de Data Science (SOARES, 2019): - Identificar o problema da área de negócios. - Compreender o problema. - Extrair os conjuntos de dados. - Fazer a limpeza e transformação dos dados. 31 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S - Fazer entender a relação entre os dados. - Produzir de modelos que representem os relacionamentos. - Utilizar os modelos de predições. - Entregar o valor e o resultado. Deste modo, explanando melhor essa fasede projeto de Ciên- cias de Dados, temos que, após serem designadas as questões, buscar os dados que contribuirão nas respostas, ou seja, tendo os objetivos que se deseja analisar, torna-se preciso coletar os dados corretos para serem feitas a limpeza, exploração, criação e avaliação de um modelo, realizando a repetição do ciclo algumas vezes até que se esteja pronto para fornecer os resultados obtidos. Ciclo de Vida do Dado Amaral (2016), p.46, descreve que: [...] o ciclo de dados promove a boa gestão de dados quando disponibilizados em formatos como textos: MS Word; PDF; RTF, em formato numérico: Excel, em mul- timídia: JPEG, GIF, MPEG, etc.; em software; e quando disponibilizados em va- riedade de suportes: fitas, CDs, slides, modelos, mapas e arquivos de dados, etc. Com isso, podemos entender o ciclo de vida dos dados, atra- vés do começo de criação dos dados até o seu descarte, de forma que pode passar por algumas fases. Assim, determinadas fontes de dados podem obter transformação após sua produção, serem excluídas logo após a produção ou serem criadas para um armazenamento por tempo indeterminado. Destaca-se que as etapas dos dados tenham uma de- pendência quanto à natureza e ao seu fim (AMARAL, 2016). Conforme descreve Amaral (2016), um ciclo de vida mais generali- zado pode não se aplicar a todos dados, por isso é adaptável à maioria, onde destacamos um ciclo padronizado que envolve seis etapas: produção, ar- mazenamento, transformação, armazenamento analítico, análise e descarte. Ciência de Dados Termos Usados É importante, quando se estuda Ciência de Dados, que se tenha determinado conhecimento de alguns termos para que isso gere esclarecimento de modo objetivo a fim de, assim, ter capacidade escolher a solução computacional que melhor se encaixe ao seu problema. Por conseguinte, destacamos alguns dos conceitos mais utilizados e inseridos nesse universo, são eles: Business Intelligence, 32 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Data Mining, e Data Analytics. Abaixos iremos expor cada um: - Business Intelligence: Esta solução tecnológica trabalha com realização de análise de ocorrências que já tenha acontecido num de- terminado período, fundamentando-se em dados precisos que existam, não focando em obter predições em prazos afastados. No Business In- teligence, o intuito é tratar e analisar o que está acontecendo no mo- mento, evidenciando acontecimentos a médio e a curto prazo, possibi- litando uma tomada de decisão mais eficaz (CRUZ, 2018). Em síntese, o Business Intelligence tem como intuito permitir deixar disponível os dados históricos a administradores e analistas de negócios, possibili- tando a manipular esses dados e, assim, obter resultados valorosos para melhorar a tomada de decisões (TURBAN, et.al. 2009). Algumas contribuições das análises do BI são: - Identificar clientes que mais compram. - Analisar curvas de consumo. - Entender produtos que geram maior poder de venda. - Identificar o período (sazonal) mais eficaz para vendas. - Data Analytics: Esse termo também é conhecido como Aná- lises de Dados, que é designado para determinar o processo pelo qual busca análise, limpeza, transformação e modelagem de dados. Abordada muitas vezes como um elemento da Ciência de Dados, é usada para compreender como são os dados de uma empresa e é empregada a Data Analytics para resolver problemas (OLAVSRUD, 2018). A Ciência de Da- dos se atenta em analisar massas de dados brutos para apresentar insi- ghts. A Análise de Dados funciona melhor quando é focada, tendo claras as perguntas que precisam de respostas com base nos dados existen- tes. Embora as diferenças existam, a Ciência e a Análise de Dados são partes importantes do futuro do trabalho e dos dados. Um exemplo do Data Analytics é realizar estudos sobre o comportamento do consumidor e suas expectativas, além de observar as tendências de mercado. - Data Mining: A Mineração de Dados (Data Mining) é entendida como um processo com fases destinadas a extrair informação através de um grupo de dados e transformar em um padrão estruturado para a utili- zação posterior. De modo que, geralmente, está associado ao KDD, onde este processo pode ser usado de duas formas, uma isolada e uma em conjunto com outros processos ou técnicas (CRUZ, 2018). Para destacar melhor está técnica de mineração de dados, podemos exemplificar a uti- lização dela no campo das finanças, por exemplo, um projeto em que o intuito seja obter um modelo de classificação para ter características dos clientes, aqueles que pagam com fidelidade, clientes que são inadimplen- tes e clientes que não pagam seus créditos, de forma que um exemplo da aplicação usando data mining pode ser a criação de um modelo que 33 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S incorpora um sistema de apoio à decisão, que passa a ser utilizado na análise para solicitações novas de crédito recebidas por uma central de atendimento de uma financeira, onde usa informações como o histórico de pagamento de clientes (COMPUTERWORLD, 2012). Assim, vale salientar que a mineração de dados é estudada como parte também do processo de Descoberta de Conhecimento em Banco de Dado (KDD – Knowledge Discovery in Databases), que é referente à escolha de técnicas a serem utilizadas para buscar padrões nos dados. Por conseguinte, a descoberta desses padrões relevantes em uma forma específica de representação combinada com a busca da melhor parame- trização do algoritmo para a tarefa que for designada (TAN ET AL., 2009). CIÊNCIA DE DADOS E BIG DATA Como já vimos anteriormente, a Ciência de Dados é a ciên- cia responsável por realizar o agrupamento de múltiplos elementos da informação através de seus dados, de forma que contém uma equi- pe de profissionais multidisciplinar, como: estatística, programadores, analistas de dados e matemáticos. É sabido que a Ciência de Dados foi idealizada com objetivo de atender a necessidades computacionais, onde traz soluções e métodos através das fontes de dados diferenciadas. A sua capacidade de versatilidade possibilita a sua aplicação em vários campos, por exemplo: reconhecimento de imagem, Análise de Dados, inteligência artificial, Big Data, Machine Learning, Data Mining, robótica, negócios, entre outras (CRUZ, 2018). Dessa forma, quando estamos estudando sobre análise de da- dos, é de extrema importância estudar e entender sobre a Ciência de Dados e o Big Data. A combinação dessas duas soluções computacio- nais contribui no trabalho com o intuito de otimizar as informações a se- rem analisadas, gerando um processo eficiente de produzir informações e conhecimento. Por conseguinte, temos o Big Data como o recurso tecnológico que trabalha com diferentes conjuntos de dados, podendo ser esses grandes volumes ou de complexa estrutura, de modo que contribui no trato desses dados, onde caso fossem aplicados gerencia- mento tradicionais de dados, o processamento seria complicado devi- do à limitação computacional de outros recursos. Assim, entendemos que o Big Data surgiu como uma solução para contribuir nas análises de massas de dados grandes, complexas e variáveis (CIELEN et. al. 2016). Devemos enfatizar que Ciência de Dados e o uso de Big Data não é obrigatória, contudo, estas combinadas, promovem soluções mais satisfatórias, pois trabalham bem com grandes massas de dados, 34 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S possibilitando performances melhoradas. Percebe-se que o Big Data é um auxílio prático para Ciências de Dados trabalhar. Os volumes de dados que são extraídos e armazenados pelo Big Data e que passaram por uma análise posterior são usados para ajudar na interpretaçãoda análise com maior deta- lhe para gerar a idealização de estratégias de outros sistemas, como ela possibilita ajudar também no processo da Ciências de Dados, por exemplo. Destaca-se a diferença entre os profissionais de cada uma das áreas, de modo que o analista de Big Data é o profissional que utiliza as informações existentes no banco de dados para a descoberta de conhecimento e não conseguindo, produz uma solução de análise propriamente dita, entretanto, é preciso usar de técnicas da Ciências de Dados (SANTANA, 2019). Em contrapartida, o cientista de dado precisa de outros tipos de conhecimentos mais específicos, técnicos e analíticos frente a um analista de Big Data, por exemplo: programação, matemática, estatística, gestão, entre outras (SANTANA, 2019). Assim, podemos inferir que o uso do Big Data corrobora no quesito de que mui- tos dados obtidos retornam um resultado com um percentual mais alto em relação à precisão nas manipulações posteriores. Contudo, mesmo com todas as vantagens expostas, devemos frisar que o uso do Big Data, neste sentido, não se trata de regras obri- gatórias, permitindo assim, que a análise dos dados não se encaixe nas definições de Big Data como estudamos, mesmo que a fonte de consul- ta não seja tão assertiva quanto (CRUZ, 2018). IDENTIFICANDO O PAPEL DO CIENTISTA DE DADOS A Ciência de Dados quando emergiu, trouxe modificações por meio de toda a exploração e o tratamento com os dados e con- sequentemente surge a necessidade de profissionais com aptidões no tratamento de dados, como: o programador para análises e criação de algoritmos, ferramentas eficazes para exploração e características dos dados, como também, o profissional da informação com especialidade em dados, para proporcionarem eficácia na comunicação com os usu- ários e contribuírem as necessidades de captação de informações para as organizações (REIS, 2019). Estudamos que a Ciência de Dados gera as informações que as empresas podem usar para tomar decisões eficazes e ajudar a produzir serviços mais inovadores. É importante que os dados sejam a base de trabalho e vale destacar que o seu valor surge dos dados de informações que os cientistas podem retirar, analisar, usar e aplicar em um determina- 35 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S do campo. Percebemos assim, que existiu a necessidade de surgir pro- fissionais qualificados para trabalhar com a ciência de dados, surgindo o cientista de dados, na qual, este necessita ter diversas habilidades como um conjunto de aptidões integradas que abarcam a matemática, apren- dizagem de máquina, inteligência artificial, estatística, bases de dados e otimização, ao lado de uma intensa abrangência dos requisitos de elabo- ração e dos problemas para projetar resultados eficazes (PAIXÃO, 2015). Visto isso, o cientista de dados foi apresentado como uma das profissões mais proeminentes até 2020 pelo Fórum Econômico Mundial e publicada como a profissão mais atrativa do século XXI pela Harvard Business Review. A posição de cientista de dados teve sua terminologia determinada por Patil e Hammerbacher em 2008 e em seguida, esse termo passou a ser usado pelo LinkedIn e pelo Facebook em anúncios de vagas com interesses em profissionais para dar suporte ao grande conjunto de dados e tráfego de dados nas redes sociais (PATIL; DAVENPORTE, 2012). Os profissionais da Ciência de Dados necessitam ter co- nhecimento para trabalhar com os diferentes tipos dos dados, se- jam eles estruturados, semiestruturados e não estruturados. Formação e Atuação do Cientista de Dados Para entender melhor sobre a formação do cientista de dados, partimos apresentando um relatório britânico solicitado pela Joint In- formation Systems Committe (JISC) referente às habilidades, funções e carreira dos cientistas de dados. O relatório relata a dificuldade de um padrão quanto à formação desse profissional, contudo determina, no sentido geral, que essa formação trabalha onde as pesquisas são concluídas, de forma colaborativa com os pesquisadores ou grupos de cientistas em centros de dados e que está relacionado à investigação criativa e de análise de dados, proporcionado recursos tecnológicas para a manipular e usar os dados digitais (SWAN; BROWN, 2008). Segundo relata Provost (2016), a base fundamental do cientis- ta de dados são os dados e a capacidade de realizar a extração do co- nhecimento por meio deles, sendo essa análise um princípio ativo estra- tégico. Dessa forma, o autor aborda que uma boa equipe que trabalha com Ciências de Dados pode deter pouco valor, sem os devidos dados. 36 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Isso se deve pelo fato de que, algumas vezes, somente os dados corre- tos não bastam para melhorar as decisões sem aptidão adequada dos profissionais de ciências dos dados. O cientista de dados possui uma grande demanda na linha das ciências, indústria e governo. De modo que esse profissional tem uma expectativa de formação abrangente e consolidada em ciência da computação e aplicações, modelagem, estatística, analí- tica e matemática, bem como de conhecimento mínimo do domínio de aplicação (DAVENPORT; PATIL, 2012). Segundo Amaral (2016), a maioria dos especialistas apresen- tava o profissional como alguém com conhecimento técnico vertical em estatística, NoSQL, computação em nuvem, mineração de dados (data mining), álgebra relacional, modelagem multidimensional, ferramentas como MapReduce, virtualização, entre outros. Competências Relacionadas Conforme Amaral (2016), a ciência de dados e o Big Data são aplicadas por equipes multidisciplinares, cada um com uma especiali- zação em uma determinada áreas e lideradas pelo cientista de dados. Dessa forma, o autor listou essas especialidades da seguinte forma, como é apresentado abaixo: - Equipes de extração: Esta equipe se trata de uma importante função no projeto e é responsável por tomar uma grande parcela de tempo do projeto. Usualmente, esses métodos são implementados por usuários que podem atuar como DBAs (Administradores de Banco de Dados) e programadores. Algumas funções dessa equipe são: extrair os dados correspondentes à necessidade, se estão completos, alinhados e atualizados. Além do exposto, essa equipe é responsável por saber as regras e a legislação envolvidas nos projetos. - Coordenador de infraestrutura: Este tem a responsabilidade de se empenhar na formação da estrutura do projeto, determinando o ambiente de análise, instalação de sistemas, criação de usuários, per- missões de acesso, entre outras. - Estatístico e/ou minerador de dados: Este se encarrega na 37 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S criação de modelos de predição e técnicas de visualização. - Especialistas em ferramentas específicas: O encarregado de- sta especialidade deve cuidar dos requisitos dos vários projetos, como especialista em ferramentas características. Geralmente, em diferentes projetos e em suas etapas, é preciso de profissionais específicos. Ex- emplificado, a extração ou para técnicas de visualização, devido a isto, deve-se ter técnicos com essas capacidades ou oferecer a habilitação precisa a estes profissionais. - DBA (Database Administrator): Este tem habilidades de tra- balho em dados relacionais e multidimensionais, os DBAs (Administra- dores de Banco de Dados) têm as funções ampliadas para bancos de dados, como NoSQL e sistemas de arquivos distribuídos. Como eles podem ainda servir de contribuição na coleta de metadados, entendi- mento de estruturas, rotinas de replicação, integração, entre outras. - Programador: Este precisa ter capacidades em linguagens de programação especializadas em análisede dados, bem como, pode ser preciso ter a habilidade de implementar a análise, programando stored procedures de modo direto em gerenciadores de banco de dados. - Arquiteto: O arquiteto de solução é importante para o projeto, pois tem a habilidade de decidir a arquitetura que melhor se adequa ao pro- jeto, desde processadores a licenças de software, entre outras definições. - Analistas de negócios: Este tem o papel importante de escol- her os requisitos e determinar o escopo do projeto. Geralmente, pode trabalhar junto ao gerente do projeto. - Designer: Este tem um especialista em visualização de dados ou designer, escolhido para elaborar artefatos com qualidade visual otimizada. Habilidades do Cientista de Dados Podemos enfatizar a empresa LinkedIn que buscou algumas habilidades que formam o perfil que eles acreditam ser necessário para os cientistas de dados, listando as 10 habilidades mais encontradas nos profissionais que trabalham como cientistas de dados: comunicação, gestão de dados estruturados, matemática, gestão de projetos, Data Mi- ning e visualização, design de experimentos, gestão de dados, design e desenvolvimento de produtos, modelagem estatística e desenvolvimen- to de negócios (MATOS, 2019). Conforme Amaral (2016) enfatizou, quando Big Data se tornou um termo em evidência, emergiu junto à profissão do cientista de dados. O autor descreve que a maioria dos especialistas apresentam o profis- sional como o indivíduo com conhecimento técnico em estatística, NoS- 38 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S QL, computação em nuvem, mineração de dados, álgebra relacional, modelagem multidimensional, MapReduce, virtualização, entre outros. Os autores Davenporte e Patil (2012) publicaram na Harvard Business Review que as habilidades do cientista de dados estão sujeitas a fun- ções que mais técnicas ou mais direcionadas para a criação de produ- tos ou aplicativos de análise de dados. Inclusive, Davenport e Patil (2012) abordam que as habilidades precisas para se tornar um cientista de dados são: habilidades em lingua- gens de programação de análise de dados, comunicação, visualização de dados, mineração de dados, estatística, habilidades em infraestrutura que trabalham com Big Data, aprendizado de máquina, engenharia de software, álgebra linear e habilidade de resolução de problemas. Desta- ca-se outros elementos que ele julga como fundamentais para um cientis- ta de dado, o qual estão citados abaixo (DAVENPORT, 2014): - Habilidade de programação. - Habilidade de arquiteturas tecnológicas de Big Data. - Compreensão do processo de tomada de decisão. - Capacidade de improvisação. - Habilidade de comunicar-se e relaciona-se. - Habilidade de decisões e compressão dos processos decisórios. - Conhecimento em análise estatística. - Habilidade em técnicas de visualização. - Habilidade em aprendizado de máquina. - Análise de dados diferentes tipos. - Análise de como negócios funciona. - Aplicação de Analytics e o Big Data. Ainda, podemos enfatizar, outra fonte, que apresenta e que lista as habilidades para a profissão do cientista de dados, por Violino (2018), publicado no site CIO/EUA, o qual destaca algumas habilidades representadas na tabela 2 que veremos mais abaixo. Além destas, podemos destacar outras habilidades, como: co- municação, arquitetura, resolução de problema e análise de riscos (VIO- LINO, 2018). Em suma, percebemos que não existe o consenso sobre as habilidades da profissão cientista de dados, entretanto entende-se que, mesmo sem um padrão, existem habilidades iguais nas descrições, como a habilidade em estatística e computacionais para a programação e uso de sistemas com aptidão de processar grandes volumes de dados. https://hbr.org/ https://hbr.org/ 39 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Tabela 2 - Lista Habilidades e Funcionalidades. Fonte: Adaptada de Violino, 2018. 40 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S QUESTÕES DE CONCURSOS QUESTÃO 1 Ano: 2018 Banca: FCC Órgão: SEFAZ-SC Prova: Auditor-Fiscal da Receita Estadual - Tecnologia da Informação No âmbito da ciência de dados na definição de Big Data, utilizam- -se características ou atributos que alguns pesquisadores adotam como sendo os cinco Vs. Porém, a base necessária para o reco- nhecimento de Big Data é formada por três propriedades: a) Valor, velocidade e volume. b) Valor, veracidade e volume. c) Variedade, velocidade e volume. d) Variedade, valor e volume. e) Velocidade, veracidade e volume. QUESTÃO 2 Ano: 2018 Banca: INSTITUTO AOCP Órgão: PRODEB Prova: Espe- cialista de TIC - B.I A ciência dos dados é um campo emergente. A demanda é eleva- da, e encontrar pessoal qualificado é um dos principais desafios associados à análise de Big Data. Sobre conhecimento técnico em administração de dados, é correto afirmar que o cientista de dados agrega ao trabalho, EXCETO: a) Habilidade para integrar e preparar grandes e variados conjuntos de dados. b) Habilidades de comunicação para apresentar resultados. c) Conhecimento empresarial para aplicar um contexto. d) Conhecimento e habilidades para recrutamento e seleção de pes- soas por competências. e) Habilidade avançada de análise e modelagem para revelar e com- preender relacionamentos obscuros. QUESTÃO 3 Ano: 2018 Banca: FCC Órgão: MPE-PE Prova: Analista Ministerial - Informática Uma organização que lida com um grande volume de dados estru- turados e não estruturados objetiva organizar esses dados para encontrar insights necessários para o negócio usando técnicas de aprendizagem de máquina. Terá maiores chances de sucesso para atingir seus objetivos investindo na área de: a) Data Science. b) Business Intelligence. 41 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S c) Big Data. d) Governança de Dados. e) Qualidade de Dados. QUESTÃO 4 Ano: 2020 Banca: COMPERVE Órgão: TJ-RN Prova: Analista de Su- porte Pleno - Banco de Dados Big Data surgiu a partir da necessidade de manipular um grande volume de dados e, com isso, novos conceitos foram introduzidos, como o Data Lake, que: a) Pode ser considerado um repositório de dados relacionados, sendo, portanto, um armazém de dados orientado por assunto. b) Pode ser considerado um conjunto de bancos de dados relacionais e com relacionamentos entre tabelas de diferentes esquemas de bancos de dados. c) É o resultado de sucessivas operações de mineração de dados, sen- do um ambiente no qual é possível ter relatórios e dashboards de ma- neira amigável para os analistas de negócio. d) É projetado para armazenar dados de diversas fontes e formatos, não havendo a necessidade da definição de um esquema de dados para inserir novos itens. QUESTÃO 5 Ano: 2019 Banca: CESPE / CEBRASPE Órgão: TCE-RO Prova: Au- ditor de Controle Externo - Direito Com relação a fundamentos e conceitos de Big Data, julgue os itens a seguir. I - O volume de dados é uma característica importante de Big Data. II - Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os negócios. III - A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento. IV - A variedade dos dados não é característica intrínseca nos fun- damentos de Big Data. Estão certos apenas os itens: a) I e II. b) I e III. c) II e IV. d) I, III e IV. e) II, III e IV. QUESTÃO DISSERTATIVA – DISSERTANDO A UNIDADE 42 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Após os temas estudados neste capítulo, dissertesobre o papel do cientista de dado. TREINO INÉDITO As soluções são elaboradas a partir de dados do tipo transacional, correspondente a dados que são fornecidos durante o movimento de um caso de transação, por exemplo, os dados gerados duran- te uma venda e transferências de dinheiro entre contas bancárias (MATOS, 2019). Assinale alternativa que corresponde ao conceito descrito acima: a. Ciência de Dados. b. Bunissess Intelligence. c. Big Data. d. Anlytics. e. Predição. NA MÍDIA “BIG DATA E TOMADA DE DECISÃO: HÁ LIMITES PARA A CIÊNCIA DE DADOS? ” Neste artigo: “Big Data e tomada de decisão: há limites para a Ciência de Dados?”, em que trata de focar na disponibilidade de dados e de softwares que utilizam técnicas e métodos de analytics, como uma grande importân- cia para a tomasa de decisão em que, juntamente com as técnicas e com- plementando com a sua intuição e experiência nos seus objetivos, favorece a construção de modelos, estudando os comportamentos, gerando infor- mações interessantes e inovadoras para fomentar a tomada de decisão. Também, é abordado os papéis diversos no campo da Ciência de Da- dos, expondo algumas habilidades do cientista do dado como a espe- cialidade em visualização de dados, analista de dados, aprendizado de máquina entre outras. Data: 18 mar. 2019. Fonte: (Iforum, 2019). Disponível em: https://itforum.com.br/coluna/big- -data-e-tomada-de-decisao-ha-limites-para-a-ciencia-dos-dados. NA PRÁTICA “CIÊNCIA DE DADOS OU DATA SCIENCE: O QUE É, APLICAÇÕES E PERFIL PROFISSIONAL” Neste artigo, expõem-se a definição da ciência de dados que é a uti- lização de várias tecnologias, modelos e processos para coletar, ar- mazenar e processar informações, promovendo a geração de valor a um negócio. Apresenta também aplicações da ciências de dados como nas áreas de produção, bem como vendas, marketing, comunicação, https://fia.com.br/blog/gestao-de-negocios/ https://fia.com.br/blog/tecnicas-de-vendas/ https://fia.com.br/blog/o-que-e-marketing/ 43 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S financeiro e jurídico, por exemplo. É abordando, ainda, a importância da ciência de dados, explanando sobre como ela possibilita alcançar a melhor solução através de um conhecimento mais profundo em negócio. Onde por meio dos seus recursos acaba otimizado os processos de análise de dados, também é apresentando uma descrição de perfil profissional. Data: 26 set. 2019. Fonte: (FIA, 2019). Disponível em: https://fia.com.br/blog/ciencia-de-da- dos-data-science/. PARA SABER MAIS Filme sobre o assunto: Uma mente brilhante Disponível em: https://www.youtube.com/watch?v=q8vUMD1f0ss. 44 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S O presente capítulo, em sua primeira parte, versará sobre onde aplicar o Big Data e sua importância que não está voltada somente em torno do volume de dados disponíveis, mas, sim, com o que se pode fa- zer com todos esses dados. Através da utilização do Big Data é possível proporcionar uma redução nos custos, antecipar ações, criar estraté- gias, idealizar novos produtos e fazer ofertas melhores. Nesse sentindo, apresentaremos alguns campos onde pode aplicar o Big Data e as suas devidas contribuições. Dessa forma, na segunda parte, abordaremos sobre aplicabilida- de da Ciência de Dados, explanando sobre sua importância e contribuições proporcionadas devido à sua multidisciplinaridade e às equipes que traba- lham com ela, de modo que, a cada momento, promove grandes avanços e ganho em diversos setores, pois possibilita análises dos dados, a desco- APLICAÇÃO BIG DATA E CIÊNCIAS DE DADOS E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S 44 45 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S berta de conhecimento, fazer estáticas, previsões, entre outros recursos. Por fim, iremos fazer uma explanação sobre as tecnologias que utilizam os recursos da Ciência de Dados e o Big Data, apresentaremos sobre a computação em nuvem, Internet das Coisas, Bioinformática e BlockChain. Onde Aplicar Big Data? Como estudamos, o Big Data produz grandes contribuições, poderemos entender melhor ao longo desta seção os campos que ela pode ser aplicada, podemos iniciar destacado os setores de negócios onde as empresas que adotam o uso do Big Data se mantêm inova- doras em sua utilização e acabam ganhando vantagens competitivas contra seus concorrentes. Porém, é importante frisar que a diferença não está relacionada apenas à tecnologia escolhida, pois ela estará acessível a todas as empresas, incluindo as pequenas e médias, via computação em nuvem, possibilitando criar cenários de Big Data. O diferencial ganho estará na sofisticação e na organização da gestão da empresa (TAURION, 2013). As empresas, atualmente, procuram não só satisfazer seus clientes, bem como seus colaboradores, mas, visam ainda a obter recursos para sobressair seus concorrentes. Podemos citar algumas áreas que aplicação do Big Data vem se destacando ao longo do tempo, como na área eleitoral, onde os políticos, de forma geral, buscam entender quem são os leitores, as insatisfações, as características ou qualquer outra informação necessária para realizar suas campanhas ou projetos. No campo da educação, que a cada dia procura aperfeiçoar-se e promover recursos para proporcionar o aprendizado dos alunos e entendendo as necessidades e problemáticas na aprendizagem, como também atender e ajudar os professores no seu trabalho. Destacamos, ainda, o campo da saúde que, devido estar rela- cionada com diversos indivíduos, como pacientes, profissionais da saú- de, hospitais, laboratórios farmacêuticos, empresas de seguro saúde, governo, entre outros, armazena muitas informações geradas por estes vários envolvidos. Promovendo, assim, um campo que pode ser bastan- te explorado pelo Big Data, possibilitando de produzir todas essas in- formações, abrindo novas e surpreendentes perspectivas e aplicações de inovação (TAURION, 2013). Assim, com o advindo da era da infor- mação, as aplicações do Big Data em educação têm contribuído como grande aliada para trabalhar com estes grandes volumes de dados e é adotada para analisar os dados para fazer previsões, provendo auxílio em tomadas de decisões ou para compreender um problema. Diante de todo esse contexto das necessidades de cada um desses setores, 46 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S percebemos que várias áreas, como: empresarial, eleitoral, educação e saúde, acabam adotando o Big Data para produzir e prever problemas para suas áreas de atuação. Big Data na Educação Como vimos acima, o Big Data pode ser aplicado no campo educação, temos um grande exemplo o Programa Internacional de Avaliação de Alunos (Programm for International Student Assessment - PISA), que é idealizado pela Organização para a Cooperação e De- senvolvimento Econômico, no qual busca com esse teste proporcionar e realizar análises das habilidades dos estudantes no campo de mate- mática, ciências e leitura/interpretação, de forma que se possa permitir fazer comparação entre as capacidades que os jovens estão aprenden- do em diversos países (SCHLEICHER, 2013). O teste pisa possibilitou a geração de grandes conjuntos de dados, de modo que, ao aplicar os recursos do Big Data para análise dos resultados dos testes das escolas, geram contribuições. Essa uti- lização favorece a direcionar as políticas públicas na área da educação possibilitando por meio das análises disponibilizar informações escla- recidas e mais eficazessobre o rendimento dos alunos e das escolas, contribuindo, assim, no processo de tomada de decisão para os edu- cadores e os países que o adotam. Assim, permitindo que os governos possam analisar melhorias na oferta de conteúdos de diversas áreas da educação em seus respectivos países (SCHLEICHER, 2013). Ainda sobre os benefícios com uso do Big Data, pode-se agregar que a educação é a base para o desenvolvimento de algoritmos e aplica- ções que possibilitem criar deduções sobre o conhecimento que os estu- dantes possuem, prevendo problemas, interesses, bem como a criação de modelos de predições (MANYIKA et al, 2011). Temos também um campo que está avançando no uso do Big Data que é o de administração pública onde, conforme Taurion (2013), os governos passam a ter a opção de to- mar decisões fundamentadas em fases e trabalhar com muito mais eficiên- cia. Contudo, o primeiro passo não é tecnológico, mas a decisão política de quebrar silos entre departamentos e esferas diferentes de governo. Big Data Aplicado a Negócios Com existência de diversas fontes de dados que são gera- das por meio das análises do Big Data, são possibilitadas inovações 47 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S em tecnologias, produtos, na gestão e na estratégia das organizações (ZHANG; CHEN; LI, 2013). Salienta-se que o Big Data foi apresentado por Cearley (2013) como uma das 10 tendências de tecnologias estra- tégicas com a capacidade de favorecer a vida dos indivíduos e das em- presas. Essa lista foi baseada no potencial de cada tecnologia. Nesse contexto, existe a aplicação do Big Data para os negócios de empresas de vários segmentos, a International Data Corporation (IDC) (2014), teve uma iniciativa de fazer uma listagem de algumas oportunidades interessantes de negócios, como apresentadas abaixo: - Serviços financeiros: Este setor aplicando o Big Data pode realizar previsão e detectação de fraudes bancárias e de seguros. Por meio de análise preditiva, impedindo, assim, problemas nas indústrias de seguros, nas análises no campo de reclamações em seguros, cri- ando padrões, prevendo riscos de transações e integrando dados com finalidade de entender elementos de consumo como consumidores. Ex- emplificando, a utilização do Big Data em bancos pode ser o uso de dados obtidos pelas mídias sociais para compreender melhor quem é o cliente, o que ele espera e suas opiniões e preferências com relação à marca do banco (TAURION, 2013). - Telecomunicações: No campo de telecomunicações, o Big Data pode favorecer e otimizar as redes, prevendo fraudes e evasões de clientes, aperfeiçoando o processo de vendas e a identificação de padrões, por exemplo: a alocação de largura de banda. - Meios de comunicação: Aplicação do Big Data no campo de comunicação favorece na classificando dos clientes, e disponibiliza o crescimento de audiência, por exemplo. - Transporte: No âmbito de transporte, o Big Data pode pro- porcionar aperfeiçoamento de logística, como analisando os dados ge- ográficos referentes à localização usadas por meio dos dados de GPS. Exemplificado, a utilização dos sensores distribuídos em equipamentos móveis que possibilitam veículos fornecerem informações em tempo real, possibilitando que seja analisado o tráfego. Através dessas infor- mações, alinhando com alguns recursos independentes em alguns veí- culos, é possível que os condutores dirijam de forma mais segura e com menos engarrafamentos. (TECHAMERICA, 2012). - Serviços profissionais: Neste campo, o Big Data pode favore- cer aos profissionais um ganho no gerenciamento e direcionamento de campanhas e programas com a finalidade de atrair e manter clientes, incluindo a possibilidade de buscar por clientes que se identifiquem com produtos específicos. Ainda na área de segurança, o Big Data pode ser usado para prevenção de crimes e detectação de serviços de segurança. - Varejo e atacado: Neste campo, o Big Data pode promover 48 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S aperfeiçoamento das redes de fornecedores, análise de comportamento observando as preferências dos consumidores, fomentando o cruzamen- to de venda e a inferência de vendas em locais, viabilizar descontos ba- seados nos padrões de consumo dos clientes, análise de cesta baseada na demografia, otimização de merchandising, prevenção e identificação de fraudes e detecção de fraudes no comércio eletrônico. Podemos ex- emplificar a Nordstrom, uma empresa varejista de moda luxo dos Esta- dos Unidos, que é famosa e conhecida pela qualidade no atendimento e serviço ao consumidor, bem como no merchandising. Essa marca aderiu como marketing um projeto de Big Data, projetando um laboratório que o aplica para gerar insights por meio de tendências de comportamento de compra de seus clientes e, com isso, promove produtos específicos em canais direcionados para seus clientes (MACHADO, 2017). Figura 3- A Loja Varejista Nodstrom FONTE: (FORBES, 2020). Dessa forma, o Big Data pode ser utilizado em aplicações para en- tender problemas e detectar padrões. Observamos que, a cada dia, vem crescendo e sendo aplicado promovendo importantes impactos. Nisso, per- cebemos que a mudança que lidamos é de certo modo, superior as geradas por inovações importantes de modo drástico, expandindo o escopo e a es- cala das informações na sociedade (SCHONBERGER-MAYER et.al , 2013). O Big Data pode ser aplicado em vários setores e geram importantes recursos, bem como pode ser uma tecnologia que 49 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S contribuem e atua na prevenção de problemas do cotidiano. Big Data Aplicado na Saúde No campo da saúde, tem uma utilização crescente de informa- ções geradas por sensores que monitoram o paciente remotamente e temos também as informações disponibilizadas que os próprios pacien- tes deixam nas redes sociais, envolvidos aos sistemas administrativos, clínicos (equipamentos médicos computacionais). Dessa forma, os mé- dicos podem tratá-las com informações dos hábitos dos seus pacien- tes fora dos hospitais, no cotidiano. No quesito do desenvolvimento de medicamentos, o Big Data pode trazer grandes contribuições, devido às pesquisas, usualmente, fundamenta-se em conjuntos pequenos de dados, muitas vezes coletados depois que os medicamentos são intro- duzidos no mercado (TAURION, 2013). Nesse modo, o uso do Big Data vem crescendo bastante, pois existem vários elementos que disponibilizam os dados a serem tratados por meios de meios eletrônicos, como dispositivos móveis que registram e monitoram algumas ações dos pacientes, dados em tempo real, ar- mazenamento de dados do paciente, exames, entre outros (TAURION, 2013). Através das análises de dados, o Big Data possibilita benefícios ligadas ao uso de sistema de análise para poder gerar alertas persona- lizadas a cada paciente e como o médico corresponderá ao paciente. Com isso, esses sistemas, os elementos de sensores nos hospitais ou em residências podem realizar a monitoração frequente dos principais com marcadores bioquímicos possibilitando que seja realizado análises em tempo real dos dados, bem como, prever ocorrências que poderão acontecer ao paciente (TECHAMERICA, 2012). Por conseguinte, podemos destacar outras melhorias que po- dem ser a utilização de aplicações do Big Data, direcionada a saúde. Com a melhora na qualidade do serviço de cuidados, tem-se aperfei- çoado o processo de diagnóstico de doenças ainda no período inicial, possibilitando tratamentos personalizados. Em suma, percebemos que o Big Data é de vital importância para a saúde, uma vez que permite aplicações de tomada de decisão mais fundamentadas, bem como, re- alizações de previsões(CALDEIRA, 2016). Big Data Aplicado na Área Eleitoral A aplicação da Big Data na política pode favorecer processos 50 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S de eleição para os candidatos, auxiliando-os a pesquisarem melhor seus cidadãos e como realizar estudos que possam entender melhor os problemas de determinadas regiões, idealizando a construção de planos de governo. Continuando, temos os recursos sendo usado no cruzamento de dados geográficos ou demográficos por meio da coleta dos dados de redes sociais e de pesquisas por formulário on-line, as campanhas ganham valor em suas estratégias, obtendo, assim, infor- mações que ajudem no processo para tomadas decisões. Conforme Moraes (2012), exemplificando a aplicação do Big Data que foi usada nos Estados unidos, para apoiar a reeleição do candi- dato Barack Obama para presidência, esse uso foi importante para o dire- cionar de melhor modo a campanha, ajudando na angariação de fundos e na identificação de eleitores que podiam ser convencidos. Nesse contex- to, a aplicação do Big Data permitiu prever com 15 dias de antecedência que a atuação de Obama no primeiro debate não seria tão boa, oportu- nizando que a equipe elaborasse uma ação on-line que foi ao ar uma hora depois do programa de debates (MORAES, 2012). Outro exemplo, foi uma análise do The Guardian (2017) acerca da campanha de Obama que utilizou a capacidade do Facebook para guiar os eleitores, ou seja, identificando a rede social para buscar o perfil de potenciais eleitores. APLICABILIDADE DA CIÊNCIA DE DADOS Agora, vamos estudar as áreas que podem ser usadas a Ciên- cia de Dados, de modo que essa ajuda a melhorar técnicas, modelos e procedimentos computacionais, matemáticos e estatísticos que possam interagir com as ferramentas para a busca do conhecimento nas áreas que se pretendem ser aplicadas. Assim, para a obter resultados satisfa- tórios por meio dessa interação com as áreas de aplicação, partimos do princípio que é necessário identificar de modo conciso, qual o problema que se deseja resolver (PAIXÃO et. al. 2015). Partindo da descrição da importância de aplicar Ciências de Dados, é a questão de estarmos na era da informação com diversas fontes e recursos que produzem enormes massas de dados e nos mais variados setores. Do outro lado, temos a busca diária pelas empresas, bancos, pesquisadores e cientistas estarem sempre tentando resolver problemas, preencher lacunas e trazendo soluções inovadoras para seus setores. Tendo em vista a multidisciplinaridade da Ciência de Da- dos e as equipes que trabalham com ela, foi verificado grandes avanços e ganhos nesses setores, pois possibilita analisar os dados, descobrir conhecimento, fazer estáticas, previsões, entre outros recursos que só 51 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S a Ciência de Dados pode possibilitar. Assim, abaixo é apresentado nas seções exemplos de áreas que aplicam a Ciência de Dados. Ciências de Dados na Biologia A ciência dos dados pode ser aplicada no campo da Biologia, fa- vorecendo-a por meio dos processos estatísticos, o que possibilita a aná- lise de grandes massas de dados biológicos, sendo idealizados há anos na tentativa de detectar e predizer as funções dos genes e proteínas por eles codificados (WANG, 2003). Outro exemplo foram as soluções ad- quiridas por meio da análise in silico e aprovadas depois em laboratório, direcionando que é possível a identificação de uma família completa de genes, através de processos de Ciência de Dados tratando as informa- ções genéticas armazenadas em banco de dados abertos (SILVA, 2010). Ciências de Dados Aplicado na Saúde A ciência de dados aplicada no campo saúde, ainda conhecida em inglês como Health Data Science, refere-se à ciência que promo- ve resultados fundamentadas em dados por meio da compreensão em problemas reais da área de saúde, aplicando o conceito de pensamento crítico e a análise do dados para adquirir conhecimento. A sua aplicação na saúde só aumenta um domínio do conhecimento emergente, apare- cendo da interseção com outras áreas como bioestatística e ciência da computação e saúde (NETTO,2019). Vale destacar, aqui no Brasil, um dos exemplos de aplicação de ciências de dados na saúde na Fiocruz, no qual desenvolvem pesquisas nessa área e até favorecem cursos para atrair mais indivíduos, esta instituição tem uma plataforma direcionada à aplicação de Ciências de Dados e Big Data à saúde. A FIOCRUZ é um dos mais importantes centros de pesqui- sa no Brasil e, nele, você encontra uma plataforma disponível para usar ciências de dados e Big Data aplicada à saúde, você pode visitar o site e saber mais <https://bigdata.icict.fiocruz.br/> https://cbdrh.med.unsw.edu.au/what-health-data-science 52 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Essa plataforma foi idealizada e difundida em 2016, a PCDaS é um projeto do Laboratório de Informação em Saúde (LIS) e do Centro de Tecnologia da Informação e Comunicação em Saúde (CTIC), todos do Instituto de Comunicação e Informação Científica e Tecnológica em Saúde (ICICT) da Fundação Oswaldo Cruz (FIOCRUZ) em colaboração com o Laboratório Nacional de Computação Científica (LNCC). Essa plataforma idealizada pela colaborações desses labora- tórios têm como intuito primordial idealizar e disponibilizar Plataforma de Ciência de Dados aplicada à saúde (conceito de PaaS – Platform as a Service) pública e gratuita com uso de frameworks open source para armazenamento, gestão, análise e divulgação de grandes massas de dados de saúde e seus aspectos socioambientais para pesquisado- res, professores e alunos de instituições de ensino e pesquisa, como gestores governamentais (FIOCRUZ, 2020). Esses são apenas alguns exemplos de trabalhos da Ciência de Dados aplicado à saúde, porém é sabido que existem muitas outras inciativas. Ciências de Dados Aplicada ao Projeto Social No contexto, a Ciência de Dados aplicada no campo do projeto social vem crescendo no mundo e no Brasil, com o crescente surgi- mento de organizações institucionais, disponibilizando bases de dados abertos que podem ser analisados, e bases políticas como Bolsa Fa- mília, que armazena aproximadamente o cadastro de 100 milhões de brasileiros no CADSUS, vem ganhando força e possibilitando promover políticas públicas adequadas de acordo com as análises feitas por meio da utilização dos recursos da Ciência de Dados (BARRETO, 2019). Ciências de Dados Aplicada aos Negócios Já é sabido que os resultados mais melhorados de um negócio não dependem apenas do volume dos dados que uma empresa possui, mas sim sobre a forma como serão usadas essas informações. Nesse contexto, temos o cientista de dados como responsável por aplicar a ciências de dados para negócios, sendo que é necessária uma inclusão tanto no âmbito mais técnico, quanto direcionado aos negócios. Deste modo, temos o cientista de dado que é voltado para que se envolvam com setores como: Business Intelligence (BI), inteligência de merca- do, Tecnologia de Informação (TI) e Administração de Banco de Dados (DBA) (PRATES; HOPPEN, 2018). 53 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Salienta-se ainda que a ciências de dados vem beneficiando no campo dos negócios, nos aspectos de identificação de fenômenos reais analisando por meio do grande conjunto de dados. Com isso, mui- tas instituições investem em ciências de dados para aperfeiçoar os seus processos de tomada de decisão inovando e ganhando vantagens com- petitivas. De modo claro, aplicado a ciências de dados aos negócios, é possívelgerar para empresas, favorecimentos como: aumento de lucros, minimização de riscos financeiros, uso de processos de identificação de anomalia ou de fraude em tempo real. Podemos exemplificar: permitindo aperfeiçoar a eficiência de sistemas e processos, aumentando as taxas de vendas onde o cientista de dados pode analisar os dados verificando e propondo estratégias de fidelização do cliente ou de captação de clientes, entre outras vantagens (MATOS, 2019). Outro benefício é ajudar equipes de Vendas e Marketing a conhecerem mais seu público, para, assim, ide- alizar melhores experiências possíveis para seus clientes. Nesse contexto, temos um exemplo famoso que foi divulgado na revista Forbes em 2018, o caso de sucesso da Netflix que pretendia minimizar a rotatividade de clientes na ordem de 1 bilhão de dólares anual, por isso fez uso da Ciência de Dados, mesmo essa sendo uma aplicação de um processo de custo alto e demorado. Contudo, com ele, a empresa obteve uma redução na rotatividade de clientes na ordem de bilhão de dólares por ano. Portanto, a Netflix obteve e observou as grandes contribuições que desejava da Ciência de Dados (MJVINNO- VATION, 2020). Outro caso interessante são empresas de transporte como DHL e FedEx que adotaram a Ciência de Dados para buscarem melhores rotas e horários de entrega, como também aperfeiçoaram sua forma de transporte para remessas.Entretanto, é importante entender que as contribuições da ciência de dados mudam dependendo do intuito e necessidade de cada empresa e setor no qual ela for aplicada. A UTILIZAÇÃO DAS TECNOLOGIAS Tendo em vista a grande produção de dados e as novas tecno- logias que não param de ser criadas, as técnicas de Big Data e Ciências de Dados acabam sendo um grande auxílio e contribuição para os mais diversos segmentos, como estudamos anteriormente, favorecendo as- sim, avanços e inovações. Nesta seção, iremos explorar algumas tec- nologias que vêm ganhando com a utilização dessas duas soluções computacionais. É visto que muitos especialistas apresentam o Big Data Como um recurso que traz grandes mudanças no sentido econômico e social, bem como promove algumas tendências tecnológicas. Podemos 54 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S destacar algumas, conforme Paredes (2019): - Os sistemas de armazenamento distribuído NoSQL são os bancos de dados adotado em Big Data, que apresentam tendências de crescimento por causa da sua estrutura que é aplicada para grandes conjuntos de dados e infraestrutura, como para empresas como Goo- gle, Amazon e Facebook. - Os sistemas distribuídos proporcionam o processamento e análise de sinais e acontecimentos da internet das coisas em tempo real que permitem analisar um grande conjunto de dados de forma imediata. - Os chatbots permitem responder a consultas e executar ações práticas e de modo automatizado, por meio de uma linguagem natural. Bem como, por meio dele, consegue-se identificar e compreender clien- tes de uma empresa, por exemplo, conseguem-se agregar valor para os negócios, devido gerar dados cada vez mais precisos. Muitas das inovações importantes que o Big Data vem favore- cendo as suas aplicações é devido a sua potencialidade de tornar os pro- cessos produtivos mais eficientes, com custos minimizados, produtivida- de e intervalos de paradas não programadas menores (AMARAL, 2016). Assim, é percebido que muitas tecnologias novas adotam seus recursos. Computação em Nuvem e Big Data Objetivando aperfeiçoar o gerenciamento e minimizar os custos, as aplicações de Big Data têm utilizado os ambientes de Cloud Compu- ting ou Computação em Nuvem (AGRAWAL et al., 2011). De modo que este ambiente proporcione que empresas e pessoas aluguem capacida- de de computação e armazenamento sob demanda e com pagamento referente à base do uso, em vez de adotarem grandes investimentos de capital para a construção e instalação de equipamentos de computação em larga escala (SOUSA et al., 2009). Além do mais, a Computação em Nuvem favorece os ambientes que adotam o Big Data devido disponibi- lizar uma estrutura com ampla capacidade de armazenamento, escala- bilidade, elásticos, com alto desempenho, com elevada disponibilidade e com custo inferior comparado com que se fosse investir em equipa- mentos para realizar esse processamento. Temos a nuvem como uma opção mais viável para a idealização de aplicações de gestão e análise de grandes conjuntos de dados. Desse modo, cada dia mais as empre- sas e consumidores estão adotando a computação em Nuvem como um meio mais eficaz e econômico para gerenciar os dados, uma vez que ela é responsável por favorecer o acesso com maior velocidade e sempre 55 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S disponível aos dados, mesmo com grandes números de equipamentos com amplos níveis de inteligência esteja conectado com várias redes. Segundo Hashem (2014), a computação em nuvem e Big Data estão correlacionadas. Pois, o Big Data oferece aos usuários a capaci- dade de utilizar computação para processar e analisar um conjunto de dados em tempo rápido e a infraestrutura de computação em nuvem pode favorecer como uma plataforma eficiente para trabalhar com o armazenamento de dados precisos por fazer análise de Big Data. Con- tudo, Taurion (2013), relata que os custos da computação em nuvem são menores por causa da utilização de servidores virtuais, entretanto, esses podem gerar um aumento de custo com relação à grande massa de dados por redes de comunicação e para o provedor da nuvem. Por conseguinte, podemos destacar um exemplo do uso de Big Data em nuvem, o Etsy, um site de e-commerce especializado em produtos de artesanato e artigos de época que contém mais de onze milhões de usuários, resultando em 25 milhões de visitantes únicos e 1,1 bilhões de page views por mês (TAURION, 2013). Enfatiza-se ainda empresas como Amazon, Microsoft, Google, entre outras que adotam a utilização da computação e nuvem e do Big Data e Ciências de Dados. Internet das Coisas O termo Internet das coisas – IoT - corresponde como a tecno- logia que compreende uma taxa enorme de objetos sendo conectada à internet. Esses objetos são sensores, bancos de dados e outros equi- pamentos ou software, existindo muitos domínios nos quais a IoT ajuda e facilita a vida das pessoas de forma bastante relevante em tarefas, como a assistência médica, automação, transporte e respostas emer- gências a desastres naturais (RATHOREA, 2016). Nesse sentindo, os diversos sensores produzem diferentes tipos de características, exemplificando as tags que são aplicadas na identifi- cação por radiofrequência (RFID) e que disponibilizam a localização e tempo, os GPS’s, responsáveis por identificar a localização e marca pas- sos que extraem informações sobre o coração (O’LEARY, 2013). Assim, os objetos de IoT envolve em si uma interface de rede, possibilitando que as comunicações entre eles favoreçam vários serviços para os usuários (NIYATO, 2016). Vale ressaltar que há muitas oportunidades pela capaci- dade de analisar e utilizar grandes quantidades de dados de IoT, inclusive aplicativos em cidades inteligentes, sistemas inteligentes de transporte e de rede, medidores inteligentes de energia e dispositivos remotos de monitoramento de saúde do paciente (MARJANI, 2017). 56 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Big Social Data Outro recurso muito explorado é Big Data Social que correspon- de a explorar a diversidade dos dados das redes sociais como: Facebook, YouTube e Twitter, onde, através da conexão, as pessoas estão produzin- do exabytes de dados em suas interações. De modo que o volume, a ve- locidade e a capacidade deprocessar os dados de diversas fontes criam grandes desafios, dispersos ou combinados, a serem superados ligados ao armazenamento, processamento, visualização e análise dos dados. Por conseguinte, existe uma grande tendência de indivíduos se juntarem e formarem grupos, algo que é uma característica de qualquer sociedade. Esse comportamento pode ser replicado nos dias atuais por meio do avanço das mídias sociais e grupos on-line que destacam o poder de unir usuários ao redor de todo mundo. Tecnologia Blockchain Destacamos a utilização de uma nova tecnologia, o banco de dados de Blockchain. O BigchainDB corresponde a combinar as vanta- gens de bancos de dados distribuídos, por sua vez, o Blockchains se trata a trilhas descentralizadas e imutáveis de auditoria e troca de ati- vos. Essa tecnologia traz inovação no setor de transações financeiras, bem como, o Blockchain acaba trazendo oportunidades para aqueles que trabalham com soluções computacionais como Big Data, Ciências de Dados e Inteligência Artificial. O banco de dados Blockchain tem aspecto de escalabilidade e usa ambientes de Big Data. Esse tem a capacidade de liberar o potencial de aplicações altamente importantes em Big Data, onde favorece para o controle no compartilhado de infraestrutura, trilhas de auditoria em dados e permite a troca de dados universal. Podemos exemplificar, a utilização de Big Data e Blockchain, foi o consórcio de 47 bancos japoneses que se associaram a uma Startup de Blockchain conhecida como Ripple para auxiliar as transferências de dinheiro entre contas bancárias usando o próprio Blockchain, tendo em vista que os Blockchains proporcionam ris- co reduzidos quando comparados com as transações tradicionais. https://www.bigchaindb.com/ 57 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S QUESTÕES DE CONCURSOS QUESTÃO 1 Ano: 2018 Banca: Quadrix Órgão: CRQ 4ª Região-SP Prova: Técni- co em Informática No que se refere a banco de dados, julgue o item. No processo de criação de um banco de dados, de suas tabelas e das relações entre elas, são utilizados comandos DDL, por exem- plo, os comandos Drop, Create e Alter. ( ) Certo ( ) Errado QUESTÃO 2 No que se refere a banco de dados, julgue o item. São exemplos de Sistemas Gerenciadores de Bancos de Dados (SGBD) o MySQL e o Oracle, que utilizam a linguagem SQL. Ao ma- nipularem as tabelas de um banco de dados, é importante que elas não possuam tuplas duplicadas. ( ) Certo ( ) Errado QUESTÃO 3 No que se refere a banco de dados, julgue o item. Em um banco de dados relacional, todas as informações são arma- zenadas em tabelas, chamadas de entidades no modelo entidade‐ relacionamento. Como exemplo, considerando‐se a entidade ALU- NOS, com as informações de quem estuda em um colégio podem ser considerados como seus atributos as características nome, matrícula, telefone e sexo. ( ) Certo ( ) Errado QUESTÃO 4 Um Sistema de Gerenciamento de Banco de Dados (SGBD) é um conjunto de programas responsável pelo gerenciamento de uma base de dados. Qual das alternativas a seguir NÃO é considerada como um gerenciador de banco de dados? a) Oracle. b) DB2. c) HSQLDB. d) AstahSQL. e) PostgreSQL. https://www.qconcursos.com/questoes-de-concursos/bancas/quadrix https://www.qconcursos.com/questoes-de-concursos/institutos/crq-4-regiao-sp https://www.qconcursos.com/questoes-de-concursos/provas/quadrix-2018-crq-4-regiao-sp-tecnico-em-informatica https://www.qconcursos.com/questoes-de-concursos/provas/quadrix-2018-crq-4-regiao-sp-tecnico-em-informatica 58 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S wwAno: 2018 Banca: FAURGS Órgão: UFCSPA - RS Prova: Analista de Tecnologia da Informação - Sistema de Informação Sobre a Linguagem de Definição de Dados (DDL), é correto afirmar que: a) Grant é a instrução que revoga os privilégios dos usuários de bancos de dados. b) Rollback recusa dados com valores já inseridos em outros registros. c) Not null deve ser definida no nível da coluna. d) Check impõe a inserção obrigatória de dados na coluna. e) Savepoint especifica uma lista de valores que será usada para validar a inserção de um dado. QUESTÃO DISSERTATIVA – DISSERTANDO A UNIDADE Após os temas explanados neste capítulo, disserte sobre a importância do Big Data e Ciência de Dados para os negócios. TREINO INÉDITO Estudamos alguns exemplos de tecnologia que tem usado os recur- sos do Big Data e Ciência de Dados. Umas das tecnologias estudadas podem ser conceituadas como um modelo que possibilita acesso por demanda a um agrupamento de elementos computacionais que podem ser configuráveis, como CPU, armazenamento e memória. Assinale a alternativa que corresponde ao conceito descrito acima: a) Computação em nuvem. b) Blockchain. c) Internet das Coisas. d) Redes sociais. e) Banco de dados NoSql. NA MÍDIA “QUAL É O PAPEL DA CIÊNCIA DE DADOS NA PANDEMIA? ” Nesta reportagem da revista exame, apresenta-se uma aplicação da Ciência de Dados aplicada no campo da saúde, tendo em vista um pro- blema atual da pandemia do Covid-19. É apresentado que, com advindo do avanço na tecnologia e nos hardwares, impulsionou o crescimento da Ciência do Dados pois, antes, a área estava mais voltada para a estatística e o financeiro onde era usada para prever o grau de risco para oferecer empréstimos. Porém, agora, é usada por diversos setores como bancos, seguradoras, empresas farmacêuticas e governos. Durante a pandemia do novo coronavírus, a companhia americana SAS, uma das pioneiras do setor de ciência de dados, idealizou a tecnologia de predição de dados ao governo dos Estados Unidos para mensurar a quan- tidade de leitos de hospitais e de UTIs que seriam precisos. Além do que, https://www.qconcursos.com/questoes-de-concursos/bancas/faurgs https://www.qconcursos.com/questoes-de-concursos/institutos/ufcspa-rs https://www.qconcursos.com/questoes-de-concursos/provas/faurgs-2018-ufcspa-rs-analista-de-tecnologia-da-informacao-sistema-de-informacao https://www.qconcursos.com/questoes-de-concursos/provas/faurgs-2018-ufcspa-rs-analista-de-tecnologia-da-informacao-sistema-de-informacao 59 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S a ciência de dados também possibilitou a idealização de um painel que centraliza informações estruturadas, elaboradas e ordenadas em uma pla- nilha. Nesse sentindo, você poderá ver nesta reportagem um caso prático e as contribuições trazidas pelo uso dessa solução computacional. Data: 8 jul. 2020. Fonte: (EXAME, 2020). Disponível em: https://exame.com/academy/ qual-e-o-papel-da-ciencia-de-dados-na-pandemia. NA PRÁTICA “MEDICINA DE DADOS: AS PROMESSAS (E OS DESAFIOS) DO BIG DATA NA SAÚDE” O texto abordará sobre como os médicos e pesquisas da área da saúde usando termos como Big Data, machine learning e Data analytics. E toda essa tecnologia tem objetivo de aperfeiçoar o atendimento, realizar diagnósticos sem erros, fazer exames mais eficazes e a prevenção de acidentes são alguns deles. Ainda destaca no artigo sobre a inteligência artificial que se tornou uma grande aliada dos profissionais de saúde. “Sabemos que o tercei- ra maior motivo de morte [nos Estados Unidos] acontece por condutas erradas [dos médicos]. A utilização de computadores deve melhorar o modo como tomamos decisões”, afirma o médico Leo Anthony Celi, pes- quisador do Instituto de Tecnologia de Massachusetts (MIT), nos EUA, e um dos cientistas mais respeitados globalmente no campo de estudos sobre medicina e Big Data. Em suma, reportagem traz as contribuições do Big Data no campo da saúde. Fonte:<https://revistagalileu.globo.com/Ciencia/Saude/noticia/2019/11/me- dicina-de-dados-promessas-e-os-desafios-do-big-data-na-saude.html> Filme sobre o assunto:Blade Runner Ano: 2017 Acesse o link: Disponível em: <https://www.youtube.com/watch?v=qbRN3ZD8gI4> Acesso em: 13 de agosto 2020. 60 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S Finalizando o presente módulo, espera-se que o aluno tenha adquirido um conhecimento efetivo na área de Big Data e Ciência de Dados e possa ter a capacidade de entender seus princípios, ferramentas e benefícios. Vimos que essas duas soluções computacionais surgiram como recurso para ajudar a tratar a diversidade de massas de dados existentes, onde aplicadas às técnicas, geram informações de valor. Es- tudamos ainda a importância de usar a Ciências de Dados e Big Data expondo os setores onde elas podem ser aplicadas e exemplificando apli- cações. Entendemos como essas podem contribuir nos mais diversos se- tores na descoberta de conhecimento, de forma que elas estão a cada dia possibilitando responder problemas desde cunho comercial, financeiro, científicos ou até problemas associados a detectar padrões de comporta- mento, como aqueles direcionados para a área de negócios. Podemos destacar que algumas inovações que o Big Data e a Ciências de Dados fornecem com suas aplicações é a capacidade de tornarem os processos produtivos mais eficientes, com custos reduzi- dos, produtividade e intervalos de paradas não programadas menores. Em suma, almejamos que todos os temas explanados sejam de grande valia para o seu crescimento profissional, bem como pessoal, e que contribua como inspiração para viabilizar a garantia de um bom desem- penho, em uma carreira de sucesso. 61 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S GABARITOS CAPÍTULO 01 QUESTÕES DE CONCURSOS QUESTÃO DISSERTATIVA – DISSERTANDO A UNIDADE O Big Data tem grande importância sua utilização do ponto de vista dos negócios vimos que possibilita inúmeras oportunidades, como: vanta- gem competitiva ou idealização de produtos e/ou serviços orientados a dado. Estudamos exemplos como empresas Amazon, que durante uma expansão em seu modelo de negócios, adotou o uso do Big Data no seus recursos de recomendações. A aplicação do Big Data nas empresas ajuda no processo de tomada de decisão dos gestores, visto que se obtém um ganho por meio de análi- ses eficientes dos dados extraídos, como ainda, por meio desse proces- so, ajudam os gestores na capacidade de decisão, onde deixa apenas de ser baseada nas percepções humanas e passam a ser basear em algoritmos e técnicas computacionais ganhando, assim, um importante diferencial frente à concorrência. TREINO INÉDITO Gabarito: E 62 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S CAPÍTULO 02 QUESTÕES DE CONCURSOS QUESTÃO DISSERTATIVA – DISSERTANDO A UNIDADE A base fundamental do Cientista de Dados são os dados e a capacida- de de realizar a extração do conhecimento por meio deles, sendo esta análise um princípio ativo estratégico. Vimos que não existe o consenso sobre as habilidades dessa profissão, contudo, infere-se que mesmo sem um padrão, existem habilidades comuns nas descrições, como a habilidade em estatística e computacionais para a programação e utili- zação de sistemas com capacidades de processar grandes massas de dados como habilidade de explorar e extrair os dados. TREINO INÉDITO Gabarito: B 63 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S CAPÍTULO 03 QUESTÕES DE CONCURSOS QUESTÃO DISSERTATIVA – DISSERTANDO A UNIDADE Estudamos que o Big Data e a Ciências de Dados vêm fornecendo com suas aplicações e a capacidade de tornar os processos produtivos mais eficientes, com custos reduzidos, produtividade e intervalos de paradas não programadas menores. No setor da administração, o Big Data pos- sibilita um ganho no campo das fraudes, onde fornece a redução delas, reduz passivos judiciais e avalia o pagamento de impostos. Já a ciência de dados gera resultados mais melhorados de um negócio, não depen- dem apenas do volume dos dados que uma empresa possui, mas sim, sobre a forma como serão usadas essas informações. Essas soluções também podem ajudar a entender o comportamento dos seus clientes e a partir disso, fazer recomendações, por exemplo. TREINO INÉDITO Gabarito: A 64 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S AGRAWAL, D., Das, S., and El Abbadi, A. (2011). Big data and cloud computing: current state and future opportunities. In Proceedings of the 14th International Conference on Extending Database Technology, EDBT/ICDT ’11, pages 530–533, New York, NY, USA. ACM. AMARAL, Fernando. Introdução à Ciência de Dados .2016. Alta Books. ARRIGONI, Rodrigo. Uma entrevista didática sobreo Big Data. EXAME. Pos- tado em 25/07/2013. Disponível em:< https://exame.abril.com.br/tecnologia/ uma-entrevista-didatica-sobre-big-data/> Acesso em: 28 de julho 2020. AYANKOYA, K.; CALITZ, A.; GREYLING, J. Intrinsic relations between data science, big data, business analytics and datafification. In: ACM. Proceedings of the Southern African Institute for Computer Scientist and Information Technologists Annual Conference 2014 on SAICSIT 2014 Empowered by Technology. [S.l.], 2014. p. 192. BARRETO H. VICTOR. (2019). Ciência de dados e a importância de sua humanização. Disponível em:<https://medium.com/torustimelab/ ci%C3%AAncia-de-dados-e-a-import%C3%A2ncia-de-sua-humani- za%C3%A7%C3%A3o-6b3bd3ab30ba>. Acesso em: 04 de agosto. 2020. BUGNION, Pascal. (2017). Manivannan, Arun; Nicolas, Patrick R. Scala: Guide for Data Science Professionals. Birmingham: Packt Publishing. CAI, Li; ZHU, Yangyong. The Challenges of Data Quality and Data Quality Assessment in the Big Data Era. Data Science Journal, v. 14, n. 0, 2015, p. 2. Disponível em: <http://datascience.codata.org/arti- cle/10.5334/dsj-2015-002/>. Acesso em 01 de agosto 2020. CAMPOS, Fábio Rocha. A gestão da inovação em serviços intensivos em conhecimento: oportunidades e desafios do big data.2015. CAO, L. Data science: a comprehensive overview. ACM Computing Sur- veys (CSUR), ACM, v. 50, n. 3, p. 43, 2017. CAO, L. Data science: Nature and pitfalls. IEEE Intelligent Systems, IEEE, v. 31, n. 5, p. 66–75, 2016. CALDEIRA Helvio.”o Big Data e o seu uso na saúde”.2016. Disponível em :<https://cmtecnologia.com.br/blog/big-data-saúde/>. Acesso em: 09 de agosto de 2020. https://exame.abril.com.br/tecnologia/uma-entrevista-didatica-sobre-big-data/ https://exame.abril.com.br/tecnologia/uma-entrevista-didatica-sobre-big-data/ 65 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S CEARLEY, D; Claunch, C. (2013) The Top 10 Strategic Technology Trends for 2013. Gartner. CIELEN, Davy; MEYSMAN, Arno D. B.; ALI. (2016). Mohamed. Introduc- ing Data Science: Big Data, Machine Learning, and more using Python Tools, 1. pub. Shelter Island - Estados Unidos: Editor Manning Publication. CRUZ C. L.; Data Science: Desenvolvimento De Aplicação Para Análise De Dados. (2018). Instituto Municipal De Ensino Superior De Assis – Imesa. Assis-SP. COMPUTERWORLD. 2012. Disponível em: <https://computerworld. com.br/2012/05/25/big-data-volume-de-dados-no-mundo-crescera- -60-em-2012/>. Acesso em: 02 de agosto de 2020. DAVENPORT, Thomas H. Big Data no trabalho: derrubando mitos e descobrindo oportunidades. 1. ed. Rio de Janeiro: Elsevier, 2014. DEMIRKAN, H. & Delen, D. (2013). Leveraging the capabilities of ser- vice-oriented decision support systems: Putting analytics and big data in cloud. Decision Support Systems,55(1), 412–421. DU, D. (2015). Apache hive essentials. Birmingham: Packt Publ. Retrieved from http://cds.cern.ch/record/2010043.Acesso em: 02 de agosto de 2020. FEIJÓ, Bruno Vieira. A Revolução dos Dados. Revista Exame PME – Pequenas. FIOCRUZ. Disponível em:<https://bigdata.icict.fiocruz.br/>.Acesso em: 09 de agosto. 2020. FURLAN, Patricia Kuzmenko; LAURINDO, Fernando José Barbin. Agrupamen- tos epistemológicos de artigos publicados sobre big data analytics. Transinfor- mação, v. 29, n. 1, 2017, p. 91-100. Disponível em: <http://www.scielo.br/pdf/tinf/ v29n1/0103-3786-tinf-29-01- 00091.pdf>. Acesso em:01 de agosto 2020. FREEPIK. Disponível em: <https://br.freepik.com/vetores-gratis/ilustra- cao-do-sistema-de-analise-de-big-data_7439584.htm#page=3&query=- big+data&position=39. Acesso em 03 de julho de 2020. FORBES. (2020). Disponível em :<https://www.forbes.com/sites/richar- dkestenbaum/2020/01/31/the-future-of-resale-is-taking-shape-at-nords- trom-now/#61577a043abc.Acesso em:01 de agosto 2020. https://bigdata.icict.fiocruz.br/ 66 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S GARTNER IT GLOSSARY. 2012. Disponível em: <https://www.gartner.com/ en/information-technology/glossary/big-data> Acesso em 03 de julho de 2020. GOLDMAN A. et. Al. Apache Hadoop: conceito teóricos e práticos, evolu- ção e novas possibilidades. XXXI Jornadas de atualizações em informática. 2012. Disponível em: <https://edisciplinas.usp.br/pluginfile.php/97549/cou- rse/section/29436/JAI2012-Hadoop.pdf>.Acesso em 03 de julho de 2020. HASHEM, I. A. T. et al. (2014). The rise of “big data” on cloud computing: Review and open research issues. Information Systems 47: 98-115. ISACA. Big Data – Impactos e Benefícios. 2013. Disponível em: <http:// www.isaca.org/Knowledge-Center/Research/Documents/BigData_ whp_Por_0413.pdf. > Acesso em:01 de agosto 2020. International Data Corporation- IDC. (2014). Predictions Brazil 2014: Top trends presentation. Recuperado de <http://www.brasscom.org.br/brass- com/Portugues/download.php?cod=567>. Acesso em:01 de agosto 2020. KATAL, A., Wazid, M., & Goudar, R. H. (2013). Big data: Issues, chal- lenges, tools and Good practices. In Contemporary Computing (IC3), 2013 Sixth International Conference on (pp. 404–409). IEEE. KAISLER, Stephen et al. Big Data: Issues and Challenges Moving For- ward. In: XLVI HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES, 46., Maui, 2013. LANEY, D. 2001. 3D Data Management: Controlling Data Volume, Veloc- ity, and Variety, Meta Group. Disponível em:< https://blogs.gartner.com/ douglaney/files/2012/01/ad949-3D-Data-Management-Controlling-Data- -Volume-Velocityand-Variety.pdf >. Acesso em 04 de agosto de 2020. LOH, Stanley. BI na era do Big Data para cientistas de dados - indo além de cubos e dashboards na busca pelos porquês, explicações e padrões. Porto Alegre, 2014. PATIL, T. H.; DAVENPORT, D. J. (2012). Data Scientist: thes exiest job ofthe 21st century. Harvard Business Review, Brighton, MA, 2012. Dis- ponível em: Acesso em: 20 de maio. 2020. PLANALTO. Lei Geral de Proteção de Dados Pessoais (LGPD). Dispo- nível em: http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/ http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/L13709.htm 67 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S L13709.htm. Acesso em: 23 de julho 2020. MACHADO, M. A. D. A Percepção de Big Data do Varejo: Característi- cas e Desafios. (2017). Disponível em:<http://bibliotecadigital.fgv.br/ocs/ index.php/clav/clav2017/paper/view/6124>. Acesso 04 agostos de 2020. MANYIKA, James, CHUI Michael, Brown Brad, BUGHIN Jacques, DOBBS Richard, ROXBURGH Charles, BYERS Angela Hung; Big Data; McKinsey Global Institute. USA. 2011. MARJANI, M. et al. Big IoT Data Analytics: Architecture, Opportunities, and Open Opportunities, and Open, mar. 2017. MCAFEE, A.; BRYNJOLFSSON, E. Big Data: The management revolu- tion. Harvard Business Review, v. 90, n. 10, p. 60, 2012. MJVINNOVATION. Disponível em: <https://www.mjvinnovation.com/ pt-br/blog/ciencia-de-dados-defenda-essa-ideia-na-sua-empresa/>. Acesso em: 10 de agosto. 2020. MATOS D. (2019). As 10 Habilidades de um Cientista de Dados. Dis- ponível em:<https://www.cienciaedados.com/as-10-habilidades-de-um- -cientista-de-dados/>.Acesso em: 10 de agosto. 2020. MORAES, M. Big Brother Obama. InfoExame, edição de dezembro de 2012. NESELLO, Priscila; FACHINELLI, Ana Cristina. Big Data: o novo desafio para gestão. Revista Inteligência Competitiva, São Paulo, v. 4, n. 1, p. 18- 38, jan. 2014. Disponível em:<cin.ufpe.br/~processos/TAES3/Livro/00-LI- VRO/04-MDA-v8_CORRIGIDO.pdf>. Acesso em: 03 de agosto 2020. NETTO V. A. (2019). Quando a área de saúde encontra a ciência dos dados. Disponível em: https://www.linkedin.com/pulse/quando-%C3%A- 1rea-de-sa%C3%BAde-encontra-ci%C3%AAncia-dos-dados-antonio- -valerio-netto>. Acesso em: 03 de agosto 2020. NOVO Rafael; NEVES S. M. José. Inovação na inteligência analítica por meio do Big Data: características de diferenciação da abordagem tradicional. 2013. NIYATO, D. Market Model and Optimal Pricing Scheme of Big Data and Internet of Things (IoT). 2016. Disponível em: < https://ieeexplore.ieee. org/document/7510922>. Acesso em 10 agosto 2020. http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/L13709.htm 68 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S OLAVSRUD, Thor. Afinal o que é Ciência de Dados e o que isso tem a ver com a profissão do futuro. Disponível em:<http://idgnow.com.br/ carreira/2018/07/05/afinal-oque-e-ciencia-de-dados-e-o-que-isso-tem- -a-ver-com-as-profissoes-do-futuro/>. Acesso em: 04 de agosto. 2020. O’LEARY, D. E., ‘Big Data’, The ‘Internet of Things’ and The ‘Internet of Signs’. Intell. Sys. Acc. Fin. Mgmt. 20, 53–65, 2013. PATIL, T. H.; DAVENPORT, D. J. Data Scientist: thes exiest job ofthe 21st century. Harvard Business Review, Brighton, MA, 2012. Disponível em: Acesso em: 20 de maio. 2020. PAIXÃO A. de Oliveira, Silva V., Tanaka A. (2015). De Business Intelligence a Data Science: Um estudo comparativo entre áreas de conhecimento relacionadas. Dis- ponível em:<https://pdfs.semanticscholar.org/a335/91f5334b50aa8230754e85ae- 2c37d9a946a0.pdf> Acesso em: 03 de Agosto 2020. PAREDES A. Tendências Big Data 2019 para que o futuro não te pegue de surpresA, 2019. Disponível em:<https://www.iebschool.com/pt-br/ blog/software-de-gestao/big-data/tendencias-big-data-2019-para-que- -o-futuro-nao-te-pegue-de-surpresa/>. Acesso em: 19 de agosto 2020. PATIL, T. H.; DAVENPORT, D. J. Data Scientist: thes exiest job ofthe 21st century. Harvard Business Review, Brighton, MA, 2012. Disponível em: Acesso em: 20 de maio. 2020. PHELAN, Mike. The Death Of Big Data. Site da Forbes, 10 abril 2012. Disponível em: << http://www.forbes.com/sites/ciocentral/2012/10/04/ the-death-of-big-data/2/:>> Acesso em: 03 de Agosto 2020. PENCHIKALA S. (2015). Big Data com Apache Spark - Parte 1: Introdu- ção. Disponível em :<https://www.infoq.com/br/articles/apache-spark- -introduction/>. Acesso 3 de agosto de 2020. PISA. Disponível em:< http://portal.inep.gov.br/pisa>. Acesso em 01 de agosto 2020. PRATES R. Wlademi; HOPPEN Joni. (2018). O que Ciências de Da- dos e como aplicá-los nos negócios. Disponível em:<https://www.aqua- re.la/o-que-e-ciencia-de-dados-data-science-para-negocios/>. Acesso em: 10 de agosto. 2020. PROVOST, Foster e FAWCETT, Tom (2016) Data Science para negó- http://www.forbes.com/sites/ciocentral/2012/10/04/the-death-of-big-data/2/ http://www.forbes.com/sites/ciocentral/2012/10/04/the-death-of-big-data/2/ 69 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G RU P O P R O M IN A S cios: o que você precisa saber sobre mineração de dados e pensamen- to analítico de dados. Alta Books, Rio de Janeiro, RJ. PROVOST, Foster; Fawcett, Tom (2013). Data Scienceand its Relation-shipto Big Data and Data-Driven Decision Making Big Data, 1:1 (March2013) 51-59. RATHOREA, M. M. U., AHMAD, A., PAUL, A. Urban planning and build- ing smart cities based on the Internet of Things using Big Data analytics. Computer Networks, mar. 2016. REIS JESUS M. (2019). Ciência De Dados E Ciência Da Informação: Guia De Alfabetização De Dados para bibliotecários. Universidade Fe- deral de Sergipe. São Cristóvão-SE. SANTANA F. (2019). Big Data X Data Science: qual a diferença entre os dois conceitos? Disponível em: <https://minerandodados.com.br/big-data-x-data-scien- ce-qual-a-diferenca-entre-os-dois-conceitos/>. Acesso em: 02 de agosto de 2020. SMITH, F. Jack Data Science as an academic discipline. Data Science Journal, v.5, (2006) p. 163–164. SCHLEICHER, A. Big Data and PISA. (2013). Disponível em:<http:// www.huffingtonpost.com/andreas-schleicher/big-data-andpisa_>. Aces- so em: 02 de agosto de 2020. SCHNEIDER, R. D. Hadoop For Dummies, Special Edition. Mississau- ga, CAN: John Wiley & Sons Canada, 2012. 41 p. SHVACHKO, K., KUANG, H., RADIA, S. (2010). The Hadoop Distributed File System. Incline Village, NV, USA. Disponível em: < https://ieeexplore. ieee.org/abstract/document/5496972>. Acesso em: 02 de agosto de 2020. SCHONBERGER-MAYER, Viktor; CUKIER Kenneth. Tradução Paulo Pal- zonoff Junior. Big Data: como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana. Rio de Janeiro: Elsevier, 2013. SILVA, V.A. Determinação da estrutura organizacional das vias MAP KINA- SES em sorgo, Arabidopsis lyrata e cana-de-açucar por meio de análise de Bioinformática. Tese de Doutorado. UENF Darcy Ribeiro, Agosto 2010. SOARES D. R. (2019). Análise de Dados em Processos de Auditoria. Universidade Estadual de Campinas.Campinas-SP. 70 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S SOUSA F. R. C, Moreira L. O. e Machado Javam C. Computação em Nuvem: Conceitos, Tecnologias, Aplicações e Desafios .2009. Disponível em: <https:// www.researchgate.net/profile/Javam_Machado/publication/237644729_ Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/ links/56044f4308aea25fce3121f3.pdf>. Acesso em: 10 de agosto 2020. SODRÉ, L. Big Data Estratégico: Um Framework para Gestão Sistêmi- ca do Ecossistema Big Data. 125 f. Dissertação (Mestrado) - Programa de Pós-graduação em Engenharia de Produção, COPPE, Universidade Federal do Rio de Janeiro, abr. 2016. STREAMLIO. Understanding Batch, Microbatch, and Streaming. (2018). Disponível em: <https://dzone.com/articles/understanding-batch-micro- batch-and-stream-processi >. Acesso 02 de Agosto 2020. SWAN, A.; BROWN, S. The skills, role and career structureof data sci- entistsand curators: anassessment of currentpr actice and future needs. Reporttothe Joint Information Systems Committee (JISC). Truro: Key Perspectives for JISC, 2008. 34 p. STORM. Disponível em :<https://storm.apache.org/>. Acesso em: 04 de agosto. 2020. SPARK. Disponível em: <https://spark.apache.org/>. Acesso 01 de junho de 2020. YAQOOB et al. (2016). Big data: From beginning to future. Dispo- nível em:<https://www.sciencedirect.com/science/article/abs/pii/ S0268401216304753> Aacesso 02 de agosto 2020. TAN, Pang-ning; STEINBACH, Michael; KUMAR, Vipin. Introdução ao Data Mining: Mineração de Dado. São Paulo: ciências modernas, 2009. TAURION, Cezar. Big Data. Rio de Janeiro: Brasport, 2013. TECHAMERICA. TechAmerica Foundation Federal Big Data Commision. Demystifying big data: A Practical Guide to Transforming The Business of Government, 2012. Disponível em: Acesso em 14 agosto de 2020. THE GUARDIAN. Disponível em :<https://www.theguardian.com/tech- nology/2017/may/22/social-media-election-facebook-filter-bubbles.>. 2017. Acesso em 14 agosto de 2020. VIANA J. (2017). Disponível em :<https://code.likeagirl.io/big-data-o-fu- https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf 71 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S turo-%c3%a9-agora-594e756a8b02>. Acesso em 14 agosto de 2020. VIOLINO B. (2018).8 habilidades essenciais para cientistas de dados de alto desempenho. Disponível em :<https://cio.com.br/8-habilidades-essenciais-pa- ra-cientistas-de-dados-de-alto-desempenho/>. Acesso em: 22 de maio 2020. TURBAN, E.; SHARDA, R.; ARONSON, J.; KING, D. Business Intelli- gence: Um Enfoque Gerencial Para a Inteligência do Negócio. Porto Alegre: Bookman, 2009. WANG, D., Jeffrey F. Harper, and Michael Gribskov (2003) - Systemat- ic Trans-Genomic Comparison of Protein Kinases between Arabidopsis and Saccharomyces cerevisiaePlant Physiology, Vol. 132, Agosto 2003. WHITE, T. (2015). Hadoop: The Definitive Guide. 4ª Edição. O’Reilly Media, abr. ZHANG, J., Chen, Y., & Li, T. (2013). Opportunities of innovation under challenges of big data. Proceedings - 2013 10th International Conference on Fuzzy Systems and Knowledge Discovery, FSKD 2013, 669– 673. ZUAZZO P. (2017). Profissionais de Big Data estão entre os cinco mais con- tratados no Brasil. Disponível em: <https://extra.globo.com/noticias/educa- cao/profissoes-de-sucesso/profissionais-de-big-data-estao-entre-os-cinco- mais-contratados-no-brasil-22098050.html>. Acesso 22 de maio. 2020. 72 E ST U D O S IN TR O D U TÓ R IO S SO B R E B IG D A TA E C IÊ N C IA S D E D A D O S - G R U P O P R O M IN A S _Hlk39799078 _Hlk39604627 _Hlk39602145 _Hlk39602296 _Hlk39601976 _Hlk39602483 _Hlk39604396 _Hlk39802502 _Hlk39801957 _Hlk39802176 _Hlk39803944 _Hlk39803612 _Hlk45315349 _Hlk45057271