Prévia do material em texto
Fl
uê
nc
ia
em
d
ad
os
conceitos, atributos, métricas, transformação de Dados................................................................01
Análise de dados. Agrupamentos. Tendências. Projeções .............................................................08
Conceitos de Analytics ...................................................................................................................17
Aprendizado de Máquina................................................................................................................22
Inteligência Artificial ........................................................................................................................33
Processamento de Linguagem Natural ..........................................................................................40
Governança de Dados: conceito, tipos (centralizada, compartilhada e colegiada) ........................46
Ciência de dados: Importância da informação ...............................................................................50
Big Data. Big Data em relação a outras disciplinas........................................................................56
Ciência dos dados ..........................................................................................................................78
Ciclo de vida do processo de ciência de dados .............................................................................78
Papeis dos envolvidos em projetos de Ciência de dados e Big Data ............................................78
Computação em nuvens.................................................................................................................78
Arquitetura de Big Data ..................................................................................................................85
Modelos de entrega e distribuição de serviços de Big Data ..........................................................85
Plataformas de computação em nuvem para Big Data ..................................................................86
Linguagens de programação para ciência de dados: linguagem Python e R ................................86
Bancos de dados não relacionais: bancos de dados NoSQL; Modelos Nosql ............................103
Principais SGBD’s. .......................................................................................................................108
Soluções para Big Data ................................................................................................................115
Exercícios .....................................................................................................................................115
Gabarito ........................................................................................................................................126
Receita Federal do Brasil
Analista-Tributário
Fluência em dados
1741234 E-book gerado especialmente para MARCOS AURELIO
1
conceitos, atributos, métricas, transformação de Dados
CONCEITOS, ATRIBUTOS, MÉTRICAS, TRANSFORMAÇÃO DE DADOS
Dados
Os dados são tão importantes para Ciência de dados quanto a ciência é para facilitar nossa vida. Exis-
tem diversos tipos deles1.
Antes de falar sobre os tipos de dados, precisamos primeiro definir alguns termos que serão frequen-
temente usados posteriormente, um deles é o dataset. Um dataset, se traduzido literalmente é um con-
junto de dados, mas essa não é uma boa representação pois conjunto de dados passa uma ideia muito
mais abrangente, um dataset é sim um conjunto de dados, porém com uma estrutura bem definida e que
normalmente pode ser descrito em formato de tabela.
Dados Numéricos
Dados numéricos são dados representados por números como o nome sugere, estes dividem-se em
dois subgrupos: Discretos e Contínuos.
Os discretos representam valores inteiros, como “a quantidade de vezes que eu alunos que fecharam
uma prova” ou “quantos passos eu gasto pra chegar no IMD”, são valores aos quais não faz sentido ter
um valor quebrado/fração.
Enquanto os contínuos servem para representar esse outro universo em que as os valores podem ser
quebrados como “a velocidade média dos carros de fórmula um durante o GP do Brasil” ou “o K/D de um
jogador durante uma partida de rainbow six siege”.
Dados Categóricos
Dados categóricos são aqueles decorrentes de observações de variáveis categóricas, ou seja, que
identificam um caso para cada categoria. São divididos em dois tipos: nominais e ordinais.
ados nominais são uma subclasse de dados categóricos, ou seja, seus valores são divididos em cate-
gorias. Ao obtermos uma variável nominal, não podemos afirmar que ela possui relação de maior, menor
ou qualquer outra medida com outra variável.
Uma variável nominal é apenas igual ou diferente de outra. Assim, não possuímos nenhuma ordena-
ção entre categorias, viabilizando tratamento de campos que não são mensurados, como cor de cabelo,
tipo sanguíneo, gênero musical e outros.
1 LUCENA, W. Tipos de atributos e dados.
1741234 E-book gerado especialmente para MARCOS AURELIO
2
Já os dados ordinais são usados quando existe uma ordenação entre as categorias. Exemplos: esco-
laridade (1º, 2º, 3º graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janei-
ro, fevereiro,…, dezembro).
Entretanto, as distinções são menos rígidas do que a descrição acima insinua. Uma variável original-
mente quantitativa pode ser coletada de forma qualitativa.
Por exemplo é o peso dos lutadores de boxe, uma variável quantitativa (contínua) se trabalharmos
com o valor obtido na balança, mas qualitativa (ordinal) se o classificarmos nas categorias do boxe (pe-
so-pena, peso-leve, peso-pesado etc.).
Um outro ponto importante é que nem sempre uma variável representada por números é quantitativa.
O número do telefone de uma pessoa, o número da casa, o número de sua identidade. Às vezes o sexo
do indivíduo é registrado na planilha de dados como 1 se macho e 2 se fêmea, por exemplo. Isto não
significa que a variável sexo passou a ser quantitativa.
Dados Faltando ou Inválidos
E como nem sempre (na maioria das vezes, na verdade) nosso DataSet vem perfeito, é preciso então
encontrar esses dados que não estão presentes ou que não condizem com os padrões dos outros dados
da coluna e tratá-los. Esse processo inicial chamado de data wrangling — preparação dos dados — é de
extrema importância e vai definir o sucesso ou fracasso da nossa análise.
Atributos
Os atributos descrevem as propriedades das entidades2. A entidade pessoa pode ter como atributo o
nome, data de nascimento, idade, endereço. Como as entidades, também existem alguns tipos de atri-
butos, que são: os atributos simples, atributos compostos, atributos multivalorados, atributos derivados e
atributos chave.
As entidades representam um objeto do mundo real e que possuem uma existência independente,
como: pessoas, empresa, carro, casa, entre outras coisas que podem ser representadas por uma entida-
de.
Atributo Simples
Atributos simples são indivisíveis, ou seja, são atributos atômicos, um exemplo seria o atributo CPF,
ele não pode ser dividido em partes menores para formar outros atributos, ele é indivisível.
Atributo Composto
Atributos Compostos podem ser divididos em partes menores, que representam outros atributos, como
o atributo endereço, ele pode ser subdividido em atributos menores, como, por exemplo, cidade, estado,
rua, CEP.
Atributo Multivalorado
Um atributo Multivalorado pode ter um ou N (vários) valores associados a ele, como, por exemplo, o
atributo telefone de um cliente, ele pode ter um ou vários telefones.
2 OLIVEIRA, Danielle. MER e DER: Definições, Banco de Dados e Exemplos.
1741234 E-book gerado especialmente para MARCOS AURELIO
3
Atributo Derivado
Atributos derivados dependem de outro atributo ou até mesmo outra entidade para existir, como, por
exemplo, o atributo idade e o atributo data de nascimento, para descobrimosser aplicada em diversos setores, como na área científica, em que ela pode ser aplicada
para criar modelos de previsão do clima.
Aprendizado por Reforço
No método de aprendizado por reforço, o sistema tem a prerrogativa de interagir com o ambiente,
testando uma série de atitudes e decisões, em busca daquelas que entreguem os melhores resultados.
Desse modo, por meio da tentativa e erro, o software em questão se torna capaz de definir os meios
mais inteligentes para realizar uma tarefa.
1741234 E-book gerado especialmente para MARCOS AURELIO
29
Clusterização
A clusterização significa o agrupamento dos objetos em subconjuntos chamados clusters. Com eles,
você consegue ter um bom dimensionamento de como está a estrutura de seus dados, identificando pa-
drões de comportamento que possam ser similares entre eles.
Essa técnica está presente no aprendizado não supervisionado e não existe uma clusterização certa
ou errada conforme a análise que está sendo feita, pois, cada análise pode ter variáveis e resultados
diferentes entre elas.
Métricas de Avaliação em Machine Learning
Acurácia
A acurácia avalia o percentual de acertos de uma determinada análise. Seu cálculo é feito pela divisão
entre o total de acertos e o total de itens existentes. Por exemplo, se uma pessoa candidata acertar 7
questões de 10 em uma prova, sua acurácia será = 7 / 10 = 70%.
Sensibilidade
A sensibilidade, também chamada revocação, avalia a capacidade de detecção de resultados que pos-
sam ser classificados como positivos.
Precisão
A precisão avalia qual foi a quantia de verdadeiros positivos dentre a soma de todos os valores positi-
vos dentro de um conjunto.
Especificidade
A especificidade é o oposto da sensibilidade, pois, avalia a capacidade de detecção de resultados que
possam ser classificados como negativos.
F-score
Essa métrica utiliza a precisão e a revocação como base em seu cálculo. Ela é calculada pelo produto
entre a precisão e a sensibilidade dividido pela soma de ambas, multiplicada por 2:
Curva ROC
A curva ROC, em Inglês, representa: Receiver Operating Characteristic Curve ou Curva Característica
de Operação do Receptor, é um gráfico que deixa avaliarmos um classificador do tipo binário.
Ele é influenciado pelos valores da sensibilidade e especificidade. Com base nos pontos de corte, ele
permite analisar qual o melhor classificador dos que foram dispostos no gráfico.
1741234 E-book gerado especialmente para MARCOS AURELIO
30
Relação entre o Machine Learning e o Big Data
O Big Data se trata de como os dados e as informações são guardados, juntados, categorizados e, se
necessário, atualizados. Isso, em grande parte das vezes, ocasiona um volume muito grande de dados.
E, nesse caso, será que nós humanos conseguimos fazer revisões periódicas, processar, fazer análises,
com um volume e variedade de dados muito grande? Não. É aí que o machine learning entra na histó-
ria.
Como o machine learning aprende as regras de como funcionam os dados de forma autônoma, bus-
cando padrões neles, unindo Big Data com machine learning conseguimos coletar dados e guardá-los,
independentemente do tamanho, para logo em seguida analisá-los de forma rápida.
Diferenças entre Deep Learning, Machine Learning, Mineração de Dados e Inteligência Artificial?
Apesar desses conceitos serem bastante similares entre si, há algumas diferenças presentes neles.
Machine Learning
O objetivo do machine learning é o entendimento dos dados por partes das máquinas, para poderem
desempenhar suas respectivas funções. Esse aprendizado pode ser automatizado, devido às tarefas se
tornarem repetitivas caso sejam feitas por humanos.
Deep Learning
O Deep Learning utiliza tipos especiais de redes neurais para encontrar algum padrão em uma quanti-
dade de dados complexa e grande. Ela utiliza apenas algoritmos para realizar essa tarefa, sem a neces-
sidade de observação humana.
1741234 E-book gerado especialmente para MARCOS AURELIO
31
Mineração de Dados
Enquanto a mineração de dados é utilizada para obtenção de regras de dados, gerar insights deles,
o machine learning é responsável por ensinar regras ao computador e aprender com elas para executar
determinadas funções. Com a mineração de dados, podemos extrair dados de qualquer local, enquanto
machine learning seria a leitura do equipamento do software presente na aplicação.
Inteligência Artificial
Enquanto a inteligência artificial é responsável por ser capaz de realizar imitações das habilidades hu-
manas, o machine learning seria um ramo da inteligência artificial destinado ao treinamento de máquinas
para que elas aprendam a manipular dados.
Tendências do Machine Learning para o Futuro
A tendência é que o futuro da utilização do machine learning cresça cada vez mais e empresas invis-
tam nesse tipo de tecnologia. Em meados de 2022, cerca de 80% das empresas já utilizavam algum tipo
de solução que envolvia machine learning.
Ou seja, há uma movimentação para cada vez mais as tarefas serem automatizadas, sendo neces-
sário que as empresas fiquem atentas às principais tendências existentes no mercado, para terem um
diferencial a ser apresentado perante a sua concorrência.
Há a possibilidade de alguns eventos ocorrerem no futuro, tais como a presença do machine learning
na nuvem, ou ainda, o desenvolvimento de soluções mais robustas utilizando tanto machine learning
como deep learning.
Como o Machine Learning Pode Ser Usado?
Apenas observando a definição de cada modelo de machine learning pode ser difícil entender a fundo
o seu funcionamento. Por isso, preparamos três exemplos práticos para que esse conceito se torne mais
intuitivo. Acompanhe!
Cálculo de Frete
Embora não aparente, a tarefa de calcular o frete pode ser muito complexa. Afinal, ela deve ser feita
com base em uma série de fatores que podem variar, como o preço dos combustíveis, impostos, pedá-
gios e o pagamento dos responsáveis por transportar a mercadoria.
Por meio do aprendizado de máquina supervisionado, porém, um software pode analisar cada um
desses fatores, assim como os custos de fretes anteriores, para definir uma tabela de preços alinhada à
realidade do mercado.
Segmentação de Clientes e Otimização de Vendas
Para prestar a seus clientes um atendimento personalizado, uma empresa deve compreender seus
anseios e padrões de compra, o que abre espaço para que seu time de gestão crie estratégias mais efi-
cientes de venda e retenção.
1741234 E-book gerado especialmente para MARCOS AURELIO
32
Nesse cenário, um software que utiliza o aprendizado não supervisionado pode analisar todos os da-
dos relacionados à interação entre a empresa e seus clientes e, assim, identificar padrões que indiquem
grupos de clientes, por fatores como produtos comprados e a interação entre o cliente e a empresa. Com
isso, é possível fazer ofertas mais direcionadas e organizar processos de venda de um modo mais efi-
ciente.
Elaboração de Carteiras de Investimento
Em um mercado dinâmico, em que diversas variáveis podem afetar o preço de ações, o uso do apren-
dizado de máquina tem o potencial de tornar a realização de investimentos mais eficiente.
Por meio do aprendizado por reforço, por exemplo, o sistema é capaz de usar dados relacionados a
carteiras de ativos criadas anteriormente e, com base nos resultados, positivos e negativos, elaborar uma
carteira de acordo com as escolhas que entregaram resultados mais positivos. É válido ressaltar que
esse processo pode ser completado pelo aprendizado supervisionado e pelo não supervisionado.
Ao fazer uso do aprendizado supervisionado, o sistema pode considerar fatores que influenciaram de
forma clara o preço dos ativos, como a taxa de juros ou políticas do governo. O aprendizado não super-
visionado, por sua vez, pode filtrar dados cuja visualização é mais complexa, e assim gerar padrões que
antes não seriam considerados.
Petróleo e Gás
O machine learning, nesse caso, pode ser utilizado para prever possíveis falhas existentesnos senso-
res das refinarias. Além disso, pode realizar a análise de minerais existentes no solo, bem como tornar a
distribuição desse combustível mais eficiente e com redução de custos.
Serviços Financeiros
O machine learning, nesse caso, pode ser utilizado para prevenção de fraudes, como compras irre-
gulares em cartões de crédito. Além disso, também pode ser utilizado para identificar oportunidades de
investimento, para apontar qual o melhor momento para se investir na bolsa de valores, por exemplo.
Governo
O machine learning, nesse caso, também pode ser utilizado para prevenção de fraudes, como roubos
de identidade e vazamento de informações. Podemos também levantar oportunidades para aumentar a
eficiência e ter economia de dinheiro, baseado em sensores de diversos tipos.
Transportes
O machine learning, neste caso, auxilia na melhor rota a ser feita de um determinado local a outro,
quais serão os possíveis problemas que poderão ser encontrados. Aqui, a análise de dados é feita para
identificar possíveis padrões e tendências em comum, possibilitando o aumento dos lucros.
1741234 E-book gerado especialmente para MARCOS AURELIO
33
Inteligência Artificial
INTELIGÊNCIA ARTIFICIAL
Uma solução de IA envolve um agrupamento de várias tecnologias, como redes neurais artificiais,
algoritmos, sistemas de aprendizado, entre outros que conseguem simular capacidades humanas ligadas
à inteligência13. Por exemplo, o raciocínio, a percepção de ambiente e a habilidade de análise para a
tomada de decisão.
Podemos dizer que o conceito de IA está relacionado à capacidade de soluções tecnológicas realiza-
rem atividades de um modo considerado inteligente.
IAs também podem “aprender por si mesmas” graças a sistemas de aprendizado que analisam gran-
des volumes de dados, possibilitando a elas ampliarem seus conhecimentos.
A Inteligência Artificial (IA) também é um campo da ciência, cujo propósito é estudar, desenvolver e
empregar máquinas para realizarem atividades humanas de maneira autônoma.
Também está ligada à robótica, ao Machine Learning (Aprendizagem de Máquina), ao reconhecimento
de voz e de visão, entre outras tecnologias.
Tecnologias por Trás da Inteligência Artificial
Existem algumas tecnologias que despontam dentro do campo da Inteligência Artificial ou que contri-
buem para que ela evolua. Veja algumas das principais.
Machine Learning
O Aprendizado de Máquina envolve um método de avaliação de dados que automatiza o desenvolvi-
mento de padrões analíticos.
Tem como base a concepção de que sistemas tecnológicos podem aprender usando dados, de modo
a descobrir padrões, tomar decisões e se aperfeiçoar com pouca interferência humana. Dessa forma,
pode melhorar a realização de uma atividade ao longo do tempo.
Plataformas de Machine Learning são capazes de fornecer capacidade computacional, bem como
dados, algoritmos, APIs, entre outras soluções para se projetar, treinar e aplicar modelos da área em
máquinas, aplicativos, processos etc.
Deep Learning
O Deep Learning, ou aprendizagem profunda, é um tipo especial de aprendizado de máquina.
Envolve redes neurais artificiais com várias camadas de abstração, sendo aplicado para reconheci-
mento de padrões e aplicativos de classificação amparados por conjuntos de dados.
O processo de aprendizado ocorre entre suas camadas de neurônios matemáticos, em que a informa-
ção é transmitida através de cada camada. Nesse esquema, a saída da camada anterior é a entrada da
posterior.
O Deep Learning “treina” máquinas para executarem atividades como se fossem humanos.
13 EQUIPE TOTVS. Inteligência Artificial: o guia completo sobre o assunto!
1741234 E-book gerado especialmente para MARCOS AURELIO
34
Por exemplo, identificação de imagens e reconhecimento de fala. Também processa dados.
Processamento de Linguagem Natural (PLN)
O Processamento de Linguagem Natural visa ao estudo e à tentativa de se reproduzir processos de
desenvolvimento ligados ao funcionamento da linguagem humana. Para isso, emprega softwares, progra-
mação e outras soluções.
Por meio do PLN, as máquinas podem compreender melhor os textos — o que envolve reconhecimen-
to de contexto, extração de informações, desenvolvimento de resumos etc.
Também é possível compor textos partindo de dados obtidos por computadores.
O PLN pode ser usado em áreas como atendimento ao consumidor e na produção de relatórios corpo-
rativos.
Tipos de Inteligência Artificial
A Inteligência Artificial, basicamente, visa criar máquinas que simulam o pensamento humano. E sim,
essa é uma definição simplificada das coisas.
Afinal, na prática, a IA não funciona de uma única maneira.
Existem diferentes tipos de Inteligência Artificial, cada um com seus próprios objetivos e aborda-
gens.
Entre as principais categorias, podemos dividir em: Inteligência de Máquina, Inteligência Humanóide e
Inteligência Coletiva.
Inteligência de Máquina: tem o objetivo de criar máquinas capazes de realizar tarefas específicas
programadas para, por exemplo, reconhecer padrões, tomar decisões lógicas ou aprender a partir de
experiências anteriores. Sua aplicação tem como objetivo automatizar processos e simplificar tarefas
diárias.
Inteligência Humanoide: visa criar máquinas capazes de imitar o comportamento humano. Essas má-
quinas são programadas para se comportar de forma semelhante aos seres humanos, realizando tarefas
como conversar, reconhecer faces ou expressar emoções. Sua aplicação tem a ver com a criação de
interfaces digitais mais humanizadas e inteligentes em dispositivos.
Inteligência Coletiva: busca desenvolver redes complexas capazes de tomar decisões coletivas. Essas
redes são formadas por múltiplos agentes inteligentes interconectados, que trabalham juntos para solu-
cionar problemas. O intuito é criar sistemas complexos capazes de tomar decisões coletivas, como um
sistema financeiro inteligente.
Com os avanços tecnológicos, os limites da tecnologia estão sendo continuamente testados e expan-
didos, abrindo novas possibilidades para aplicações inovadoras e promissoras.
Agora, vale ressaltar que existem diferentes tipos de IA no que diz respeito às suas características
operacionais, incluindo:
IA Reativa: funciona com base em regras pré-programadas e não é capaz de aprender com a expe-
riência ou construir uma memória.
IA de Memória Limitada: pode se lembrar de experiências passadas e usá-las para informar as deci-
sões futuras.
1741234 E-book gerado especialmente para MARCOS AURELIO
35
IA de Teoria da Mente: é capaz de entender estados mentais tais como crenças, desejos e inten-
ções.
IA Autoconsciente: está ciente de seus próprios estados mentais e pode usar esta informação para
raciocinar sobre o mundo.
Principais Benefícios da Inteligência Artificial
A Inteligência Artificial é capaz de gerar vantagens para os negócios. Veja algumas das principais
adiante.
Melhora na Tomada de Decisão
A IA pode auxiliar na simplificação de processos de análise, especialmente uma empresa que preza
pela tomada de decisão baseada em dados (data-driven).
Isso porque ela é capaz de organizar e conferir maior clareza a dados “nebulosos” ou “confusos”, os
quais dificultam o estabelecimento de estratégias.
Um sistema de Inteligência Artificial pode desenvolver processos que envolvem correlações, regres-
sões, estruturação de análises dos dados gerados etc. que servem de base para executivos tomarem
decisões.
Principalmente se estiver vinculada a uma solução de big data, que é capaz de lidar com um gigantes-
co volume de dados não-estruturados.
Comodidade e Escalabilidade
Uma solução de IA virtual é capaz de empregar algoritmos para realizar segmentações mais precisas,
de modo a sugerir mercadorias sintonizadas com os perfis de consumidores analisados. Isso aumenta as
chances de se desenvolver boas estratégias comerciais.
A IA também tem alto nível de replicabilidade de processos, já que os sistemas que a compõem são
capazes de realizar as mesmas análises diversas vezes.Isso assegura que qualquer fluxo de trabalho se
torne escalável.
A obtenção de informações relevantes de relatórios também pode se tornar mais rápida. Isso porque
já há algoritmos de text mining (mineração de textos) capazes de analisar um documento e encontrar
informações nele.
Esses fatores geram comodidade, já que são feitos de maneira mais rápida e simplificada pela solução
de Inteligência Artificial.
Aumento da Automação
A IA contribui para automação de atividades lógicas, analíticas e cognitivas, gerando maior velocidade
no tratamento de informações. Isso serve como complemento à automação das tarefas físicas, especial-
mente da produção, que costuma ser propiciada por máquinas robóticas.
Redução de Erros, de Riscos e de Custos Operacionais
Uma solução de Inteligência Artificial pode ser empregada no monitoramento de máquinas e sistemas
computacionais da empresa.
1741234 E-book gerado especialmente para MARCOS AURELIO
36
No caso dos equipamentos, ela pode usar dados de sensores, de câmeras, de registros em softwares
de monitoramento, dentre outras fontes.
Em relação aos sistemas, suas informações são provenientes de bancos de dados, de relatórios, de
históricos etc.
Graças aos conteúdos obtidos, ela tem a capacidade de descobrir gargalos, falhas e outros pontos
fracos nos processos da empresa, diminuindo erros e aumentando a eficiência operacional. Isso reduz
custos e evita dificuldades para as equipes.
Aliás, dá até para realizar previsões sobre eventuais dificuldades, para que a empresa tome providên-
cias a tempo.
Tal fato se dá porque ela gera diagnósticos de diversos setores e processos, contribuindo para o ma-
peamento de riscos (e também de oportunidades).
Para tanto, ela pode checar frequentemente indicadores-chave de desempenho do negócio, com o
propósito de relatar possíveis empecilhos às equipes.
Outro ponto interessante é que seus processos de análise costumam apresentar baixo custo. Ela tam-
bém contribui para que haja maior nível de acerto nas estratégias definidas pelos gestores, que tiveram
por base os dados coletados e processados pela IA.
Atendimento Otimizado ao Público
A Inteligência Artificial pode otimizar o atendimento oferecido ao público em diferentes aspectos, como
na entrega de uma comunicação mais eficiente, no aumento da agilidade em transações e em uma per-
sonalização ampliada.
- De acordo com a Forrester, 89% dos chatbots são úteis ou muito úteis na personalização das intera-
ções com os clientes, impactando sua qualidade;
- Conforme a Gartner, os níveis de satisfação do cliente devem crescer 25% até 2023 nas organiza-
ções que usam IA.
Além disso, vale destacar que, anualmente, US$62 bilhões são perdidos por causa de um insatisfató-
rio serviço ao cliente oferecido pelas empresas, de acordo com dados da Forbes.
A Inteligência Artificial pode contribuir para a redução desta perda.
Aplicação da IA na Rotina das Organizações?
Existem muitas aplicações da Inteligência Artificial nas empresas, em diferentes segmentos. Adiante,
confira algumas das principais.
Financeiro
Devido a sua capacidade de análise e processamento de dados, a IA é muito útil na avaliação de indi-
cadores e no suporte à tomada de decisão, pois pode fornecer sugestões de medidas a serem aplicadas
no negócio.
Também pode atuar diretamente em processos gerenciais, como ao automatizar o cálculo de preço e a
avaliação sobre qual aplicação pode proporcionar melhor Retorno Sobre o Investimento (ROI).
Além disso, tem papel de destaque na prevenção a fraudes, pois automatiza e otimiza a análise de
concessão de seguros, de crédito e de risco.
1741234 E-book gerado especialmente para MARCOS AURELIO
37
Em entidades do setor financeiro, também pode conciliar transações em massa, durante a madruga-
da.
Graças aos dados obtidos pela interação com clientes, ela é capaz de fornecer uma compreensão
ampliada sobre suas demandas, suas expectativas e seus desejos.
Recursos Humanos (RH)
No RH, essa tecnologia poderá contribuir para redirecionar os colaboradores empregados em tarefas
repetitivas para atividades de maior valor agregado, já que ela mesma será capaz de executar operações
que necessitam de menos análise e raciocínio.
Outro ponto em que ela será importante é o gerenciamento de longos processos de ambientação de
profissionais recém-admitidos.
O surgimento do gerente de Inteligência Artificial também é uma possibilidade real. Esse profissional
trabalhará para aprimorar a implementação e o gerenciamento da IA na organização.
Marketing
A IA poderá colaborar no mapeamento de tendências, comportamentos e oportunidades com o públi-
co, além de antever demandas.
Como mencionado antes, ela tem o potencial de ajudar no atendimento ao público.
Aliás, podemos considerar os chatbots usados em caixas de mensagens de sites e redes sociais,
mensageiros instantâneos, salas virtuais de atendimento etc. como precursores dela, pois conseguem
interagir com consumidores, mas têm capacidade inferior.
As IAs também são capazes de otimizá-los, de modo que consigam responder melhor aos questiona-
mentos dos consumidores com base em análises feitas no conteúdo dos diálogos.
Outra atividade que a IA aprimora é a avaliação do comportamento do usuário. Isso porque ela é
capaz de analisar conteúdo digital e aplicar um algoritmo a fim de segmentar perfis, tendo por base os
hábitos do público.
Graças a esse fator, dá para recomendar produtos que os consumidores têm maior probabilidade de
comprar.
O processo de retargeting (impactar mais de uma vez o consumidor) é outro que se favorece. Por
conseguir identificar hábitos de compra e de navegação online de usuários, a IA ajuda a automatizar essa
estratégia.
Ela pode mandar uma oferta ou um alerta sobre a redução de preço de um item para aqueles que qua-
se o adquiriram antes, mas abandonaram o processo de compras.
De acordo com dados divulgados pela Thrive My Way, o uso de IA em CRMs vai crescer mais de
250% nos próximos anos. Além disso, conforme observou o Findstack, CRMs empoderados por IA impul-
sionaram as receitas em US$1,1 trilhão.
Nesse caso, organizações que a adotarem poderão incrementar seus resultados.
1741234 E-book gerado especialmente para MARCOS AURELIO
38
Operações ou Produção
A Inteligência Artificial é uma das tecnologias que encabeçam a chamada quarta revolução industrial
ou indústria 4.0, junto à realidade aumentada, à Internet das Coisas (IoT), à virtualização de elementos
físicos da fábrica para criação de cópias (gêmeos digitais), etc.
Aliás, é graças à IoT que a IA consegue obter dados não só de sistemas virtuais, como de dispositivos
físicos que não são de informática ou eletrônica. Por exemplo, máquinas industriais.
As aplicações da inteligência artificial na indústria são vastas, uma vez que ela pode ser empregada
tanto em atividades produtivas quanto gerenciais. Veja algumas de suas principais aplicações:
Monitoramento de robôs: a IA aliada à robótica tem o potencial de aprimorar processos fabris ao ma-
pear gargalos e reduzir erros gerados por robôs. Isso devido ao acompanhamento contínuo de sensores,
câmeras, equipamentos de telemetria, entre outros dispositivos de monitoramento;
Manutenção preditiva: ao analisar dados como temperatura, nível de ruído, pressão etc., a IA pode an-
tecipar a necessidade de manutenção antes que um problema afete algum equipamento. Também evita
manutenções desnecessárias, que podem paralisar a produção. Consequentemente, reduz custos com
esse processo;
Melhora nas simulações: a IA pode realizar testes em simulações virtuais do parque fabril (gêmeos di-
gitais) em busca de processos de maior performance, de disposição otimizada dos elementos da fábrica,
de eliminação de gargalos etc.
Por que a Inteligência Artificial tem se Tornado Tão Estratégica e Quais São seus Riscos?
Um dos principais fatos sobre a inteligência artificial é que ela não vem sem riscos e exigências. Um
deles é a necessidade de maior capital intelectual paralidar com suas exigências. Sem isso, a empresa
poderá subutilizá-la, perdendo dinheiro no processo.
Além disso, é preciso planejar bem a requalificação e o remanejamento de capital humano dentro da
empresa, para que possam exercer atividades que demandam criatividade e geram maior valor agrega-
do, bem como para preservar talentos.
Eles precisarão de treinamento para lidar com os sistemas de IA, a fim de maximizar essa relação.
Uma tendência é que muitas estruturas corporativas se tornem mais fluídas e enxutas, com equipes
menores e mais colaborativas. É preciso ficar preparado para isso, para que o funcionamento e os fluxos
de trabalho da empresa sejam adaptados e não fiquem comprometidos.
A IA é uma tecnologia capaz de reduzir custos, otimizar a produção e gerenciar atividades. Isso gera
vantagens competitivas aos negócios, tornando-a uma solução estratégica. Muitos líderes já começam a
ter essa percepção.
Uma pesquisa da PWC, feita com executivos de negócios e de Tecnologia da Informação (TI), apontou
que 54% deles fazem investimentos substanciais em IA.
Além disso, 72% acreditam que essa solução gerará vantagens significativas no futuro.
Desafios para a Implementação da Inteligência Artificial
Que a IA tem um enorme potencial de transformar negócios e rotinas já não há dúvidas. A proporcio-
nar inteligência às máquinas, simplificamos o dia a dia de todos. Porém, uma coisa é a IA na teoria, a
outra é a prática.
1741234 E-book gerado especialmente para MARCOS AURELIO
39
A implementação bem-sucedida da Inteligência Artificial pode ser bem desafiadora, já que falamos de
uma inovação que exige o maior estofo tecnológico possível.
Além disso, há um detalhe que deve ser lembrado: a IA, até onde conhecemos, não tem limite. Ou
seja, não é algo que pode se tornar datado daqui a alguns anos.
Pelo contrário, conforme crescemos, a IA cresce.
Mas hoje, sua implementação passa por alguns obstáculos em comum. Abaixo, veremos os princi-
pais.
Dados
Uma das principais preocupações com a Inteligência Artificial é a falta de dados.
Para que a IA funcione corretamente, é necessário ter informações para treinar e alimentar seus algo-
ritmos.
Acontece que, hoje, dados não são o problema — o desafio é justamente processá-los.
Processos de mineração de dados, modelagem de dados, data analytics, inteligência de dados, entre
tantos outros devem ser aprimorados.
Hardware
Outro desafio importante é o hardware.
A IA requer um grande poder de processamento para funcionar corretamente.
Portanto, é necessário ter um bom hardware, já que a plataforma no qual o sistema (ou os sistemas)
precisa lidar com o alto potencial de processamento.
Interfaces Homem-Máquina
Uma das preocupações mais comuns com a Inteligência Artificial é como as máquinas irão interagir
com os seres humanos.
As interfaces homem-máquina podem ser inadequadas ou confusas, o que pode levar à falha da IA.
Também é importante considerar que as máquinas podem não ser capazes de compreender o contex-
to em que as interações humanas acontecem.
Ou seja, há um caminho a se percorrer aí, refinando o funcionamento das soluções para que enten-
dam e se adaptem ao fator humano.
Custos
Não é novidade falar que a IA é cara.
Além disso, treinar um modelo AI pode ser caro e demorado, bem como todos os investimentos na
adequação das soluções inteligentes ao seu negócio.
Porém, cada vez mais, as desenvolvedoras e big techs trabalham em sistemas, plataformas e interfa-
ces mais acessíveis e capacitadas.
Por isso, é bom ficar de olho no que o mercado oferece.
1741234 E-book gerado especialmente para MARCOS AURELIO
40
Processamento de Linguagem Natural
PROCESSAMENTO DE LINGUAGEM NATURAL
A NLP — processamento de linguagem natural em português — é o ramo da inteligência artificial que
combina linguística computacional, uma modelagem baseada em regras da linguagem humana, e mode-
los estatísticos de machine learning e deep learning14.
Juntas, essas tecnologias permitem que os computadores processem a linguagem humana na forma
de texto ou dados de voz e “compreendam” seu significado completo, incluindo a intenção e o sentimento
do falante ou escritor.
A técnica conduz programas de computador que traduzem texto de um idioma para outro, respondem
a comandos falados e resumem grandes volumes de texto rapidamente — mesmo em tempo real.
Um bom exemplo de sua aplicação é na forma de sistemas GPS operados por voz, assistentes digi-
tais, software de fala para texto, chatbots de atendimento ao cliente e outras conveniências dos usuários
e consumidores.
A NLP também desempenha um papel crescente nas soluções corporativas que ajudam a otimizar as
operações de negócios, aumentando a produtividade dos funcionários e simplificando os processos de
negócios que envolvem decisões onde se usa a crítica para análises.
Importância Geral
A aplicabilidade é ampla, como veremos a seguir, mas o foco principal é acelerar resoluções antes
feitas somente por humanos, organizando, que demandam grandes períodos de tempo.
O processamento de linguagem natural ajuda os computadores a se comunicarem com humanos em
seu próprio idioma e dimensiona outras tarefas relacionadas ao idioma (falado e escrito).
Por exemplo, a NLP possibilita que computadores leiam texto, ouçam falas, interpretem, meçam senti-
mentos e determinem quais partes são importantes.
As máquinas, atualmente, podem analisar mais dados baseados em linguagem do que humanos, sem
fadiga e de maneira consistente e imparcial. Considerando a quantidade impressionante de dados não
estruturados que são gerados todos os dias, sejam registros médicos ou mídias sociais, a automação
será fundamental para analisar totalmente os dados de texto com eficiência.
Aplicabilidade Abrangente
Detecção de Spam
As melhores tecnologias de detecção de spam usam os recursos de classificação de texto do proces-
samento de linguagem natural para verificar e-mails em busca de palavras que geralmente indicam spam
ou phishing.
Esses indicadores podem incluir uso excessivo de termos financeiros, gramática ruim característica,
linguagem ameaçadora, urgência inadequada, nomes de empresas com erros ortográficos entre outras
características.
14 KOVACS, L. O que é processamento de linguagem natural? [NLP].
1741234 E-book gerado especialmente para MARCOS AURELIO
41
Tradução
O maior exemplo é o Google Tradutor que usa a NLP amplamente disponível no trabalho. A tradução
automática realmente útil envolve mais do que substituir palavras de um idioma por palavras de outro.
A tradução eficaz deve capturar com maior precisão o significado e o tom do idioma de entrada e
traduzi-lo em texto com o mesmo significado e impacto no idioma de saída. As ferramentas de tradução
automática estão fazendo um bom progresso em termos de precisão com a tecnologia.
Assistentes Virtuais e Chatbots
Independente de marcas, seja o da Apple, Amazon, Google, os assistentes virtuais usam o reconheci-
mento de fala para identificar padrões em comandos de voz e geração de linguagem natural para respon-
der com ação apropriada ou comentários úteis.
Os chatbots realizam a mesma função em resposta às entradas de texto digitadas. Os melhores po-
dem aprender a reconhecer pistas contextuais sobre solicitações humanas e usá-las para fornecer res-
postas ou opções ainda melhores ao longo do tempo.
O próximo aprimoramento para esses aplicativos seria dar respostas às perguntas, tendo a capacida-
de de responder às nossas perguntas com resultados relevantes e úteis em suas próprias palavras.
Resumo Textual
É basicamente uma sumarização de texto usando técnicas de processamento de linguagem natural
para digerir e resumir grandes volumes de texto. O resultado são resumos e sinopses para índices, ban-
cos de dados de pesquisa ou leitores ocupados que não têm tempo para ler o texto completo.
A inteligência artificial tem muitos ramos diferentes, mas que se complementam para um melhor en-
tendimento do mundo pelas máquinas, consequentemente,auxiliando os humanos a encontrar melhores
soluções.
Ao descobrirmos o que é processamento de linguagem natural e suas aplicações, ficamos mais próxi-
mos de entender um pouco mais sobre o futuro da humanidade.
Exemplos de NLPs
Existem sistemas de NLP que devem ser integrados ao sistema que você deseja usar para comunicar
máquina e usuário15.
No caso da implementação de um chatbot, você usa um dos sistemas de NLP em conjunto com a
plataforma de chatbot, para que ambos trabalhem para desenvolver seu bot e oferecer uma melhor expe-
riência para os usuários.
A seguir, dois exemplos de NLP:
DialogFlow (Google)
O DialogFlow é simples de usar e oferece uma experiência muito intuitiva para quem deseja adotar o
NLP para a criação de chatbots.
Você pode usar o sistema de machine learning para compreender o que os usuários querem dizer a
você por meio de seus canais digitais, bem como retransmitir a mensagem em resposta.
15 https://bit.ly/3W8ljjf
1741234 E-book gerado especialmente para MARCOS AURELIO
42
LUIS (Microsoft)
LUIS parece um nome de pessoa, mas na verdade é uma sigla para Language Understanding Intelli-
gent Service, ou, Serviço Inteligente de Compreensão de Linguagem.
Por definição, esse provedor de NLP chatbot facilita a comunicação entre seres humanos e máqui-
nas.
Para isso, ele busca reconhecer não apenas as palavras usadas em uma conversa, mas também reco-
nhecer a intenção de uma solicitação por meio de reconhecimento de voz.
O objetivo da Microsoft com o LUIS é possibilitar que mesmo pessoas sem formação e conhecimentos
avançados possam criar sistemas de inteligência virtual e aplicá-los em seus negócios.
Também é um serviço baseado em machine learning que permite a compreensão entre usuários e
máquinas, durante a troca de mensagens em variadas situações.
Como Funciona o Processo de Linguagem Natural?
Para a criação do PLN é preciso utilizar diferentes técnicas que visam interpretar a linguagem huma-
na, isso inclui métodos estatísticos, abordagem de algoritmos e machine learning16.
Mas para contemplar todos esses pontos, o processamento de linguagem natural é dividido em níveis
e em tipos de abordagem.
Níveis de Processamento
Os níveis de processamento são definidos com base nas diferentes análises que uma forma de lingua-
gem por ter.
Por isso, são divididos em 7 níveis distintos, organizados de acordo com a dificuldade de implementa-
ção. São eles:
- Fonologia;
- Morfologia;
- Léxico;
- Sintático;
- Semântico;
- Discurso;
- Pragmático.
Fonologia
Nível de processamento voltado para o desenvolvimento de aplicativos de voz, a fonologia tem como
objetivo entender e interpretar o som das palavras, considerando, inclusive, a maneira como são pronun-
ciadas.
16 SILVA, D. Processamento de linguagem natural: entenda como funciona, importância e aplicação
[Guia Completo].
1741234 E-book gerado especialmente para MARCOS AURELIO
43
Morfologia
Visa entender a composição das palavras, dividindo-as em morfemas que, ainda que sejam fragmen-
tos com significado, não representam, propriamente, uma palavra.
Léxico
Este nível de processamento tem como função interpretar o significado individual de cada palavra dita
em uma interação entre humano e máquina.
Sintático
O sintático, por sua vez, faz a análise completa de cada frase dita ou escrita na conversão.
Semântico
O processo semântico complementa o anterior, e busca compreender o significado da frase em ques-
tão.
Discurso
Já o discurso tem uma função mais ampla. Seu objetivo é fazer uma análise completa e encontrar o
significado do texto, seja ele falado ou escrito.
Pragmático
O último nível do funcionamento do processamento de linguagem natural interpreta a mensagem e
extrai informações e significados extras que podem não estar explícitos nas palavras.
Tipos de Abordagem
Os tipos de abordagem do PLN dizem respeito à maneira como os softwares vão tratar os níveis de
processamento que acabamos de mencionar.
Para isso, são divididos em 4 diferentes categorias, sendo elas:
- Simbólica;
- Estatística;
- Conexionista;
- Híbrida.
Simbólica
A abordagem simbólica tem como base regras bem definidas e estruturadas de linguística. Por não
terem ambiguidades, são criados algoritmos que possibilitam a realização de processamentos de lingua-
gem simples.
Estatística
Já a abordagem estatística se baseia no próprio texto ou fala para realizar as suas deduções de inter-
pretação. Para isso, são utilizados modelos matemáticos que dispensam o emprego das regras linguísti-
cas.
1741234 E-book gerado especialmente para MARCOS AURELIO
44
Conexionista
Similar à abordagem anterior, a conexionista também cria modelos genéricos para a criação e interpre-
tação das linguagens. Porém, mescla teorias de conhecimento com aprendizado estatístico para conse-
guir deduzir, transformar e manipular os textos.
Híbrida
A abordagem híbrida, por sua vez, reúne todas as anteriores. Sua utilização ajuda a tratar de maneira
mais profunda problemas relacionados ao processamento de linguagem natural, conferindo maior flexibi-
lidade a essa atividade.
Desafios do Processamento de Linguagem Natural
Os três que mais se destacam são:
- Se ajustar à evolução do idioma;
- Compreender o que há além das palavras;
- Evoluir dentro do seu próprio objetivo.
Se Ajustar à Evolução do Idioma
Você já deve ter ouvido que a língua portuguesa é um idioma vivo, não é? Isso acontece porque a
linguagem sofre uma série de influências, incluindo as mudanças e hábitos da sociedade.
Um bom exemplo disso é a palavra “você”. Em tempos passados, esse pronome de tratamento era
“vossa mercê”, que evolui para “vosmecê”, até chegar ao formato que utilizamos hoje, “você”.
No entanto, se considerarmos uma linguagem coloquial, ou seja, mais informal, esse pronome também
pode se resumir a “cê”, por exemplo, “Cê vai hoje de carro para o trabalho?”
Além disso, é preciso considerar que, em várias regiões do Brasil, o “você” não é tão utilizado, sendo
substituído pelo “tu” com a mesma finalidade.
Esse é só um exemplo de como o nosso idioma pode mudar com o passar do tempo e de acordo com
a região onde falado.
Por isso, um dos desafios do processamento de linguagem natural é garantir que os computadores e
dispositivos entendam todas essas mudanças e se adaptem a elas conforme evoluem.
Compreender o que Há Além das Palavras
Pontuações, tom de voz, erro de digitação, grafias incorretas, tom de voz etc. Essas são mais algumas
variações que as palavras e as frases podem sofrer e que afetam a interpretação e o entendimento das
soluções com tecnologia PLN.
Imagine a seguinte situação: um cliente entra em contato com uma empresa através do chat de supor-
te help desk e digita a seguinte frase: “Quero solicitar o concerto da minha máquina de lavar”.
Se o software interpretar o significado da palavra “concerto” isoladamente, é bem provável que não
consiga prosseguir com o atendimento adequadamente.
Há também a questão do significado das palavras, que pode variar bastante de região para região.
Por exemplo, um cliente pode solicitar o “reparo da sua calçada”, enquanto outro o “reparo do seu pas-
seio”.
1741234 E-book gerado especialmente para MARCOS AURELIO
45
Alguns podem acionar o seguro do carro via robô do WhatsApp e informar na mensagem como ponto
de referência o “semáforo da Rua 2”, já outros “o farol da Rua 2”, ou ainda “a sinaleira da Rua 2”.
Por isso, um dos desafios do processamento de linguagem natural é considerar todas essas variações
e possibilidades, de modo que a solução realmente consiga oferecer um atendimento rápido e preciso
aos usuários.
Evoluir Dentro do seu Próprio Objetivo
Um último obstáculo a ser superado pelo PLN é continuar a evolução dentro do seu próprio concei-
to.
O que queremos dizer é estar em constante aperfeiçoamento para aprimorar a compreensão da lin-
guagem humana e estabelecer uma comunicação cada vez mais natural e fluida.
Isso também é fundamental para atender às novas necessidadesdo mercado, que inclui as mudanças
de comportamento do consumidor e suas expectativas junto às marcas.
Métodos do Processamento de Linguagem Natural
Os principais são:
- Análise de texto;
- Descobertas com foco investigativo;
- Identificação de tendências;
- Análise de redes sociais.
Análise de Texto
O primeiro cenário de aplicação do PLN é fazer a análise de um texto falado ou escrito por um cliente.
Somente com essa base é possível entregar um bom atendimento.
Descobertas com Foco Investigativo
Outro método do processamento de linguagem natural que também pode ser utilizado tem como foco
identificar padrões de comportamento e, com isso, se antecipar a possíveis intenções de fraudes.
Identificação de Tendências
Anteriormente, dissemos que o PLN também extrai informações de uma conversação, se lembra? Isso
pode lhe ajudar a identificar tendências e, assim, criar ações com o objetivo de melhorar os seus proces-
sos.
Análise de Redes Sociais
O atendimento nas redes sociais tem se tornado cada vez mais comum para as empresas. Além disso,
são canais utilizados pelos clientes para falar sobre marcas, produtos e serviços, tanto positivamente
quanto negativamente.
O processamento de linguagem natural também ajuda a identificar o sentimento dos clientes sobre a
sua empresa, a encontrar tópicos específicos sobre a sua marca e até a localizar potenciais influenciado-
res.
1741234 E-book gerado especialmente para MARCOS AURELIO
46
Governança de Dados: conceito, tipos (centralizada, compartilhada e colegiada)
GOVERNANÇA DE DADOS
Ao pesquisar “definição de governança de dados”, você encontra várias explicações que, às vezes,
são confundidas com o gerenciamento de dados17. Segundo o Data Governance Institute (DGI), a go-
vernança de dados é “um sistema de direitos e responsabilidades para processos relacionados às infor-
mações, executado em concordância com modelos que descrevem quem pode realizar quais ações com
quais informações, quando, sob que circunstâncias, e usando quais métodos.”
A definição do Gartner é a seguinte: a governança de dados engloba uma coleção de processos,
funções, políticas, padrões e métricas que garantem o uso eficiente e eficaz das informações, permitindo
que uma organização alcance suas metas.
Estas definições de governança de dados indicam que uma governança robusta segue padrões e polí-
ticas que garantem o uso dos dados com integridade. Ela estabelece quem pode realizar quais ações em
quais situações, com quais dados e quais métodos.
À medida que novas leis e regulamentos de proteção de dados são aprovadas, o desenvolvimento, a
implementação e a observação de estruturas eticamente robustas de governança de dados se tornarão
cada vez mais essencial para as organizações. Uma estrutura concreta de governança de dados aborda
as funções operacionais e as responsabilidades, bem como os objetivos táticos e estratégicos.
Responsável pela Governança de Dados
Depois de explicar a definição da governança de dados, vamos entender quem é o responsável pela
sua implementação.
Uma governança de dados eficaz envolve toda a empresa. Grandes organizações geralmente formam
uma equipe de governança de dados que é responsável pelo estabelecimento de metas e prioridades,
desenvolvimento do modelo de governança, obtenção da aprovação do orçamento e a seleção das tec-
nologias adequadas a serem usadas.
Confira na lista abaixo as designações mais comuns da equipe de governança de dados.
Proprietários de Dados
Esta função deve ser atribuída a gerentes seniores que especificam as necessidades por dados e a
qualidade dos dados da organização. Eles precisam poder tomar a iniciativa e decisões para toda a or-
ganização. Sua função é voltada ao negócio. Os proprietários de dados se responsabilizam pelos dados
como um ativo.
Organizadores de Dados
É uma função técnica. Organizadores de dados, ou data stewards, também são chamados de arqui-
tetos de dados. Eles verificam se todos os padrões e políticas de dados estão sendo cumpridos dia-
riamente. Muitas vezes, eles fazem parte de uma equipe de gestão central ou departamento de TI, pois
precisam ser especialistas no assunto para uma entidade de dados ou/e um conjunto de atributos de
dados.
17 https://www.delphix.com/br/glossario/o-que-e-governanca-de-dados
1741234 E-book gerado especialmente para MARCOS AURELIO
47
Os organizadores de dados estabelecem definições e fórmulas padronizadas para os elementos dos
dados, além de identificar os detalhes do sistema de fonte e o fluxo de dados entre os sistemas. Eles
cuidam dos dados como um ativo ou oferecem consultoria sobre como fazer isso.
Operadores de Dados
Os operadores de dados, ou data custodians ou data operators, criam e mantém os dados usando
como base as normas de uma organização. Isso inclui a integração organizacional e técnica, as atualiza-
ções e a manutenção dos ativos de dados. Recomenda-se que as funções de operador de dados sejam
atribuídas a colaboradores em unidades de negócio estabelecidas, ou em combinação com funções de
apoio dedicadas, por exemplo, de serviços compartilhados.
Comitê de Governança de Dados
Os comitês de governança de dados aprovam as políticas e normas que tratam da governança de da-
dos. O comitê de governança também é responsável pela resolução de problemas de escala e pode ser
dividido em subcomitês caso sua organização seja de grande porte. Por exemplo, você pode ter subcomi-
tês específicos para clientes, fornecedores, produtos e colaboradores.
Estes comitês garantem que os requisitos, prioridades e problemas relacionados aos dados sejam
alinhados entre várias entidades. Além dos subcomitês, a maioria das organizações tem dois conselhos,
um para tratar de assuntos estratégicos relacionados ao gerenciamento de dados e outro para tratar de
questões táticas relacionadas ao gerenciamento de dados.
Em um cenário ideal, uma equipe de governança de dados deve incluir um gerente, um arquiteto de
soluções e governança de dados, um analista de dados, um estrategista de dados e um especialista em
compliance que devem combinar seu conhecimento especializado para tomar decisões fundamentadas e
em conformidade para a organização.
Importância da Governança de Dados
Com a governança de dados, as empresas têm mais clareza, se protegem contra o mau gerenciamen-
to de dados e garantem a conformidade. A IBM divulgou recentemente que só nos EUA, as organizações
perdem US$ 3,1 trilhões anualmente por causa da má qualidade dos dados.
Uma baixa qualidade dos dados afeta todos os aspectos de uma organização, desde as informações
para o marketing até o planejamento financeiro, impedindo a realização de KPIs importantes. É impos-
sível tomar decisões precisas ou assumir riscos calculados quando a qualidade dos dados é insatisfató-
ria.
Benefícios da Governança de Dados
Apesar de apresentar alguns desafios iniciais, a governança de dados permite às empresas que con-
tinuem ágeis em mercados saturados, sem deixar de manter a conformidade com a legislação que evolui
constantemente.
Garantia de Alta Qualidade
Um programa rigoroso de governança de dados mantém seus dados limpos. A responsabilidade com-
partilhada garante uma constante limpeza, atualização e remoção de dados. Lidar com dados dá traba-
lho, mas o processo pode ser menos desgastante se sua equipe de gerenciamento de dados mantém
tudo atualizado e relevante.
1741234 E-book gerado especialmente para MARCOS AURELIO
48
Uma política de dados eficaz permite às organizações encontrar e manter informações úteis e reduzir
informações ROT (redundantes, obsoletas e triviais). Por exemplo, ao lidar com vários pontos de entrada
de dados, alguns dados serão inevitavelmente repetidos e/ou incorretos. Sua política de dados deve per-
mitir à sua equipe eliminar tais erros e criar uma fonte única de dados confiáveis e de alta qualidade.
Melhor Tomada de Decisão e Planejamento Organizacional
Vivemos em uma época em que os dados se tornaram um fator críticopara as decisões organizacio-
nais. Uma boa governança de dados permite aos usuários autorizados acessar os mesmos dados, evi-
tando assim a criação de silos de dados na empresa. As equipes de TI, Vendas e Marketing trabalham
juntas, compartilham dados e insights, trocam conhecimento e economizam tempo e recursos. Os dados
são mais centralizados.
Processo de Compliance Mais Rápido
Ao tomar melhores decisões, a conformidade é alcançada com maior rapidez. As organizações podem
escolher entre uma abordagem com pouco código ou sem código, dependendo das suas necessidades
específicas, e ambas têm o benefício de agilizar o compliance. O software para a governança de dados
pode transformar o processo usando o mascaramento como técnica de proteção de dados, permitindo
assim que as organizações estejam em conformidade com maior rapidez. Com isso, o treinamento que
duraria meses ou anos não é mais necessário.
Melhor Compliance
Com a implementação de um sistema de governança de dados, fica mais fácil para sua organização
cumprir integralmente as leis de proteção mais recentes, inclusive o General Data Protection Regulation
(GDPR), da União Europeia, a lei de portabilidade e responsabilidade de provedores de saúde (HIPAA), o
Padrão de Segurança de Dados da Indústria de Cartões de Pagamento (PCI-DSS) e outras leis de prote-
ção de dados.
Entre todas as vantagens incentivadoras, a conformidade deve estar no topo da sua lista. A legislação
relacionada à proteção de dados continuará evoluindo, junto com a tecnologia. A adoção de um sistema
de compliance abrangente garante a aderência às leis e evita sanções ou multas por violação da legisla-
ção. Além disso, ao cumprir as normas regulatórias atuais, os dados da empresa ficam protegidos para
que não caiam em mãos erradas.
Desafios da Governança de Dados
Devido à falta de gerenciamento de dados, os usuários passam em média 1,8 hora por dia procurando
pelos dados corretos. Isso é um problema básico para as equipes de uma empresa.
Falta de Liderança
A governança de dados abrange vários departamentos dentro de uma organização e exige uma clara
liderança top-down. Um programa de governança de dados de sucesso precisa da colaboração multifun-
cional.
As tendências do setor indicam que os responsáveis pelos dados, os Chief Data Officers (CDO), pos-
suem agora o mesmo nível de importância que os responsáveis pela informação ou o Chief Information
Officer (CIO). Se uma organização não tiver um CIO, ela precisa ter alguém da alta administração que
1741234 E-book gerado especialmente para MARCOS AURELIO
49
tenha uma função com foco na política de dados e no alinhamento processual. Este profissional precisa
fazer uso da sua autoridade para defender o orçamento e a alocação de recursos e se empenhar para
manter uma boa governança de dados.
Falta de uma Equipe de Suporte
Organizações que não conseguem implementar uma boa governança de dados tendem a confiar de-
mais nos cientistas de dados, esperando que eles assumam quase toda a responsabilidade pelos dados.
A governança de dados contém vários componentes que não fazem parte das competências do cientista
de dados, como estabelecer os procedimentos das políticas. A governança de dados deve ser gerida por
um grupo de pessoas responsáveis por diferentes partes dos procedimentos operacionais e pelo cumpri-
mento das normas de compliance.
O Valor dos Dados
Muitas vezes, falta clareza em relação à propriedade, acesso, gerenciamento e uso dos dados, resul-
tando no armazenamento de dados em sistemas imprecisos. Isso pode gerar problemas de ROT e resul-
tar em uma má administração geral, causando prejuízos em várias áreas. Investimentos em tecnologia
não melhoram a qualidade e o valor dos dados existentes, pois os dados não podem se autogovernar e
precisam ser entendidos corretamente para serem usados de forma eficaz.
Mau Gerenciamento de Dados
O gerenciamento de dados não é o mesmo que a governança de dados. A governança estabelece po-
líticas e procedimentos que envolvem os dados. Já o gerenciamento aplica estas políticas e procedimen-
tos para coletar e usar os dados para tomar decisões. O mau gerenciamento de dados resulta em dados
desprotegidos, processos obscuros, silos de dados e falta de controle sobre os processos. Sem políticas
e processos de consolidação, as organizações correm sérios riscos de segurança e não conformidade.
Melhores Práticas de Governança de Dados
Os princípios fundamentais de uma boa governança de dados são:
- Uma organização deve definir uma equipe de governança de dados com descrições claras do cargo,
das responsabilidades e das obrigações. Isso inclui a definição de quem é responsável pelas decisões,
processos e controles multifuncionais relacionados aos dados.
- Os programas de governança de dados devem definir as responsabilidades, implementando um equi-
líbrio entre as equipes organizacionais e tecnológicas para garantir um trabalho eficaz em prol de uma
meta comum.
- As decisões, controles e processos relacionados aos dados devem ser auditáveis e acompanhadas
pela documentação que corrobora os requisitos de compliance. Além disso, a estrutura deve facilitar a
padronização da governança de dados da empresa.
- Todos na organização devem trabalhar com integridade ao lidar uns com os outros e com dados. As
pessoas devem ser honestas durante as discussões e ao darem seu feedback quando tomam decisões
relacionadas aos dados.
- Os processos da organização de dados exigem transparência para que todos os participantes e audi-
tores saibam quando e como as decisões e controles relacionados aos dados são integrados aos proces-
sos.
1741234 E-book gerado especialmente para MARCOS AURELIO
50
- E por fim, os programas eficazes de governança de dados devem promover mudanças proativas e
reativas implementadas pela gestão para garantir o tratamento correto dos processos relacionados aos
dados.
Ferramentas para a Governança de Dados
Uma vez que os dados e aplicações se tornaram cruciais para as organizações, as ferramentas de
governança de dados criadas para proteger a integridade dos ativos de dados se tornaram ainda mais
importantes.
A maioria das ferramentas de governança de dados conseguem:
- Melhorar a tomada de decisão.
- Aumentar a qualidade dos dados.
- Simplificar o gerenciamento dos dados.
- Aumentar a interoperabilidade dos dados.
- Melhorar a linhagem dos dados.
No momento de selecionar a melhor ferramenta para sua estrutura de governança de dados, lembre-
-se que as ferramentas não são o mais importante, mas sim as metas e objetivos da sua estratégia de
governança de dados.
Ciência de dados: Importância da informação
CIÊNCIA DE DADOS
A Ciência de Dados é a prática de mineração de grandes conjuntos de dados brutos, estruturados e
não estruturados, para identificar padrões e extrair insights acionáveis deles18. O termo surgiu em 1960
e era usado como sinônimo de ciência da computação. Porém, foi só a partir do surgimento do Big Data
que ele passou a ser usado como conhecemos hoje. A Ciência de Dados é interdisciplinar, pois incorpora
conhecimentos das áreas de estatística, matemática, data mining e análises preditivas.
Além disso, a sua principal função é, a partir das informações gerados pela empresa, criar previsões e
estimativas do negócio, auxiliando nas decisões de longo prazo.
Também chamada de Data Science, a Ciência de Dados está alicerçada no estudo disciplinado dos
dados e informações não focadas, que resultam de todas as tarefas executadas pelas organizações19.
Entre os pilares desse estudo estão:
- Matemática;
- Estatística;
- Mineração e visualização de dados;
- Área de negócios;
- Programação;
18 https://bit.ly/3BoMIFV
19 https://scalait.com/tendencias/data-science-o-que-e/
1741234 E-book gerado especialmente para MARCOS AURELIO
51
- Computação.
Apesar de essa área se caracterizar como multidisciplinar, a matemática e a estatística são cruciais
na aplicação de Data Science, vistoque possibilitam a construção de modelos de análise de dados para
realizar predição futura. Portanto, sua finalidade principal é gerar insights que ajudem os gestores e suas
equipes a compreender quais são os melhores caminhos a serem seguidos a partir das análises efetua-
das.
Uma maneira de entender a Ciência de Dados é interpretar o seu ciclo de vida.
O primeiro estágio do fluxo de trabalho da Ciência de Dados envolve a captura e aquisição de dados,
extraindo-os e inserindo-os no sistema. A próxima etapa é a manutenção, que inclui armazenamento de
dados, limpeza de dados, processamento de dados, preparação de dados e arquitetura de dados. O pro-
cessamento de dados segue e constitui um dos fundamentos da Ciência de Dados.
É durante a exploração e processamento de dados que os cientistas de dados aplicam técnicas de
mineração de dados, classificação e agrupamento de dados, modelagem de dados e resumo de insights
obtidos a partir dos dados.
Em seguida, vem a análise de dados, uma etapa igualmente crítica. Aqui, os cientistas de dados reali-
zam trabalhos exploratórios e confirmatórios, regressão, análise preditiva, análise qualitativa e mineração
de texto.
Durante a fase final, o cientista de dados comunica insights aos stakeholders. Isso envolve a visualiza-
ção de dados, relatórios de dados, o uso de várias ferramentas de inteligência de negócios e assistência
a empresas, formuladores de políticas e outros na tomada de decisões mais inteligentes.
Ciclo de Vida de Ciência de Dados.
Fonte: Requiredbrain.
1741234 E-book gerado especialmente para MARCOS AURELIO
52
Importância da Ciência de Dados
A evolução de processadores, gadgets, computadores e celulares na última década permitiu um
grande avanço do universo digital. Com isso, a internet tornou-se cada vez mais acessível e populada
e, assim, quantidades massivas de dados passaram a ser produzidas diariamente – o que conhecemos
como Big Data.
Esses dados, porém, não têm sentido até sua conversão em informações. E é neste cenário que
entende-se a importância da Ciência de Dados. Isso porque ela envolve a mineração desses grandes
conjuntos de dados e a interpretação deles para que possam ser lidos e entendidos por todos os sta-
keholders.
Assim, a Ciência de Dados tornou-se a responsável por estruturar planos de ações mais assertivos
possíveis, já que são fundamentados em uma base sólida de dados minerados, tratados e interpretados.
Desta maneira, Data Science passou a ser utilizada também em vários setores vitais na nossa socieda-
de, como saúde, finanças, bancos e política. Isso explica por que a Ciência de Dados é importante.
No setor empresarial, a Ciência de Dados também desempenha um papel importante em praticamente
todos os aspectos das operações e estratégias de negócios. Por exemplo, ele fornece informações sobre
clientes que ajudam as empresas a criar campanhas de marketing mais fortes e publicidade direcionada
para aumentar as vendas de produtos.
Ajuda no gerenciamento de riscos financeiros, na detecção de transações fraudulentas e na prevenção
de avarias de equipamentos em fábricas e outros ambientes industriais. Ela ajuda a bloquear ataques
cibernéticos e outras ameaças à segurança em sistemas de TI.
Do ponto de vista operacional, as iniciativas de Ciência de Dados podem otimizar o gerenciamento
de produtos, redes de distribuição e atendimento ao cliente. Em um nível mais ‘básico’, eles apontam o
caminho para o aumento da eficiência e redução de custos.
A Ciência de Dados também permite que as empresas criem planos e estratégias de negócios que são
baseados em análises informadas do comportamento do cliente, tendências de mercado e concorrência.
Sem ele, as empresas podem perder oportunidades e tomar decisões falhas.
A Ciência de Dados também é vital em áreas além das operações comerciais regulares. Na área da
saúde, seus usos incluem diagnóstico de condições médicas, análise de imagens, planejamento de trata-
mento e pesquisa médica.
Instituições acadêmicas usam Ciência de Dados para monitorar o desempenho dos alunos e melhorar
seu marketing para possíveis alunos. Equipes esportivas analisam o desempenho do jogador e planejam
estratégias de jogo por meio da Ciência de Dados. Agências governamentais e organizações de políticas
públicas também são grandes usuários.
Aplicações de Ciência de Dados
Ok. Já sabemos que modelagem preditiva, análise de sentimentos, bem como desenvolvimento de
tecnologias como mecanismos de recomendação, sistemas de personalização e ferramentas de inteli-
gência artificial (IA), como chatbots e veículos e máquinas autônomas, são aplicações que os cientistas
de dados executam em seu dia a dia nas empresas.
Abaixo montamos uma lista com três exemplos para explicar como elas funcionam na prática.
1741234 E-book gerado especialmente para MARCOS AURELIO
53
1. Filtragem de Spam de E-mail
O aumento no volume de e-mails indesejados, chamado spam, criou uma intensa necessidade de de-
senvolvimento de filtros mais confiáveis e robustos. Métodos de aprendizado de máquina recentes estão
sendo usados para detectar e filtrar com sucesso e-mails de spam.
A principal metodologia por trás da detecção se o e-mail fornecido é – spam ou não é – detecção de
padrões de e-mails e palavras falsas que geralmente são usados ao promover ou anunciar produtos para
clientes com descontos ou outras maneiras semelhantes.
A detecção avançada de spam também pode ser realizada usando técnicas como redes neurais ou
reconhecimento óptico de caracteres (OCR), que também é usado por empresas como o Gmail para
filtragem de spam.
A filtragem de Spam é um aplicação de Ciência de Dados.
Fonte: Unsplash.
2. Chatbots
Os chatbots são usados universalmente hoje em muitos sites para interagir com os usuários que che-
gam a sites específicos. Eles tentam fornecer uma comunicação eficaz e explicar aos usuários como a
empresa ou indústria funciona, fornecendo instruções detalhadas e guias com respostas espontâneas.
Chatbots são programas de computador baseados na análise de dados e no conceito de inteligência
artificial. Assim, eles são ferramentas que respondem automaticamente, sem a intervenção de agentes
reais, às mensagens enviadas pelos usuários, seja por meio de um site ou aplicativo. Essas respostas
são geradas com base em informações armazenadas em bancos de dados ou através de algoritmos, por
meio dos quais o chatbot é capaz de aprender e se aperfeiçoar com o tempo.
Um dos chatbots mais populares entre os brasileiros é o Lu, da Magazine Luiza.
1741234 E-book gerado especialmente para MARCOS AURELIO
54
Chatbot ‘Lu’, do Magazine Luiza.
Fonte: Reprodução Internet.
3. Bloqueio Facial Inteligente
O reconhecimento facial está na moda. Hoje, a maioria dos smartphones no mercado possui esse
recurso. Mas como ele funciona? Bem, ele é um processo de verificação da identidade de uma pessoa
usando seu rosto, com a detecção facial como uma etapa importante. A detecção facial distingue o rosto
humano do fundo e de outros obstáculos, o que é uma tarefa mais fácil.
Para realizar a detecção de faces e detectar com precisão várias faces no quadro, o Cientista de Da-
dos geralmente usa um arquivo XML usado com um módulo opencv para ler e detectar as faces. Redes
neurais profundas (DNNs) também podem ser usadas para reconhecimento facial e são conhecidas por
terem um bom desempenho.
Os modelos de reconhecimento facial são usados com sistemas de segurança, vigilância e aplicação
da lei, e muitas outras aplicações do mundo real.
Representação do bloqueio facial inteligente.
Fonte: Unsplash.
1741234 E-book gerado especialmente para MARCOS AURELIO
55
Papeis dos Envolvidos em Projetos de Ciência de Dados e Big Data
Big Data indica oportunidades não apenas para empresas, mas também para executivos20.
Se você busca uma carreira de gestor ou uma recolocação profissional, vale ficar ligado quanto ao
espaço que o mercado oferece e o que ele exige para se tornarum analista na área.
Para trabalhar no cargo, é preciso ter conhecimento técnico em programação e também entender de
negócios, é claro.
Além disso, o profissional precisa ter noção de matemática e estatística aplicada a dados.
O cientista ou analista de dados é responsável por atender às solicitações das áreas de planejamento
de uma organização.
Veja um resumo das competências e habilidades desejadas para se tornar um analista de Big Data:
- Habilidades analíticas para obter insights a partir da variedade de dados obtidos;
- Criatividade de produção de métodos novos para reunir, para interpretar e para analisar uma estraté-
gia de dados;
- Noções de matemática e habilidades estatísticas;
- Domínio do computador, uma vez que os programadores precisam constantemente criar algoritmos
de modo a transformar dados em insights;
- Competência empresarial e saber os objetivos de negócio em vigor e os processos que impulsionam
o crescimento da empresa e seu lucro.
Como um curso de graduação voltado especificamente para a formação de cientistas de dados ainda
é raro em todo o mundo, esses profissionais costumam vir de áreas que têm como base a matemática,
como Ciência da Computação, Engenharia e Estatística.
Mercado de Trabalho
Segundo a Michael Page, empresa de recrutamento, o cargo de especialista em Big Data está entre
os cinco mais procurados pelo mercado brasileiro.
Ela já havia chegado à mesma conclusão ao analisar o mercado português, atestando as boas oportu-
nidades na área.
Isso ocorre porque o volume de dados gerados diariamente chega a ser um desafio para as empre-
sas.
Em resposta, elas buscam profissionais para armazenar, entender e fazer bom uso das informa-
ções.
Um analista ou especialista em Big Data faz a gestão e a análise de dados, a fim de assegurar eficiên-
cia e rentabilidade para a empresa, além de propor ideias inovadoras para o negócio.
Interessante destacar ainda que a remuneração costuma ser atrativa, em especial quando o profissio-
nal evolui na carreira.
Outro aspecto interessante sobre essa carreira é que, como a profissão é relativamente nova, quem
se antecipar têm mais chances de se destacar e conseguir uma oportunidade em uma ótima empresa.
20 https://bit.ly/2QwWUCx
1741234 E-book gerado especialmente para MARCOS AURELIO
56
Big Data. Big Data em relação a outras disciplinas
BIG DATA
Big data é um termo que descreve o grande volume de dados que inunda uma empresa no dia a
dia21. Assim, o big data pode ser analisado em busca de insights que levam a melhores decisões e movi-
mentos estratégicos de negócios.
Em relação a esse volume total de dados, o que importa não é necessariamente a sua quantidade,
mas o que as organizações fazem com os dados.
O desafio que se apresenta para as empresas é sobre como processar a quantidade crescente de
conteúdos produzidos pelos clientes, mapeando comportamentos, tendências e oportunidades de negó-
cios.
A solução envolve big data. Uma ferramenta capaz de unir big data e inteligência analítica é capaz de
armazenar e trabalhar um grande volume de dados, gerando insights preciosos e cada vez mais certeiros
para as organizações.
Esse grande volume de dados que referenciamos como big data pode ser relativo a qualquer montante
de informações de uma empresa ou de um assunto específico (como “ERP”, por exemplo).
O importante é que os dados do big data devem ser acessíveis.
Não importa se são estruturados (planilhas, tabelas) ou não-estruturados (imagens, blocos de texto),
nem por onde são gerados.
Afinal, dados diversos podem compor o big data: desde suas informações de controle de estoque até
os dados de navegação do cliente no app do seu negócio.
Sejam números, nomes, histórico de acessos, mapas de utilização, dados geográficos, tudo.
Isso quer dizer que toda empresa “possui” um big data? Sim, mas é justamente aqui que há muita
confusão.
Naturalmente, quanto mais digitalizado for o negócio, mais dados ele terá à disposição no big data.
Mas multiplicar esses dados é uma missão árdua, que depende da modernização da empresa e tam-
bém dos seus produtos.
Um exemplo bem simples: Uma empresa que fabrica pneus não terá os mesmos dados que uma em-
presa que fabrica smartphones.
No entanto, essa empresa de pneus terá outras fontes para consulta, como seu Suporte, o Controle de
Qualidade e Pesquisas de Satisfação com consumidores.
E tudo isso vai depender, é claro, das ferramentas que ela terá para possibilitar a coleta, o armazena-
mento e o posterior processamento desses dados.
21 https://bit.ly/3FjZV3P
1741234 E-book gerado especialmente para MARCOS AURELIO
57
História do Big Data
O big data não é um conceito muito antigo. No entanto, suas origens datam de algumas décadas
atrás.
No caso, nos anos de 1960 e 1970, quando os primeiros bancos de dados foram construídos em al-
guns países, como Estados Unidos.
Em 2001, a Gartner criou a definição, que é muito aceita até hoje:
“Big data são ativos de informações de alto volume, alta velocidade e/ou alta variedade que exigem
formas inovadoras e econômicas de processamento de informações que permitem uma visão aprimora-
da, tomada de decisões e automação de processos.”
Na prática, o big data começou a ser mais palpável em meados de 2005, quando os profissionais e
gestores envolvidos com projetos de tecnologia — mais especificamente com serviços online, como Fa-
cebook e Youtube — viram a quantidade e especificidade de dados gerados.
A criação do Hadoop, uma estrutura open source designada para processamento de grandes volumes
de dados, naquele mesmo ano, também serviu de faísca.
Para que Serve o Big Data?
O big data é o combustível capaz de reformular modelos de negócio, produtos e estratégias de ges-
tão.
É tanto um recurso tecnológico, como um meio de conquistar significativa vantagem competitiva.
Não à toa, é uma das principais tecnologias listadas por empresas que buscam investir e aprimorar
sua Inteligência de Negócios, de acordo com a Forbes.
Afinal, sua principal função é gerar valor para a empresa.
O big data proporciona a possibilidade das organizações organizarem, lerem e interpretarem dados
qualificados sobre tudo que diz respeito ao seu processo ou ao seu produto/serviço.
E nesses dados, incluímos tanto os estruturados quanto os não-estruturados.
Isso faz toda a diferença, visto que são informações que apenas sistemas inteligentes podem proces-
sar.
Sendo assim, o big data serve para que a empresa aprimore suas estratégias de gestão.
A partir da leitura dos dados, ela pode entender de forma assertiva várias questões e pontos-críticos
do seu negócio.
Desde uma falha, que pode ser mapeada até sua raiz, até uma tendência futura, que a empresa pode
incorporar no seu produto.
Desse modo, seu impacto é geral: do backoffice ao front-office, do RH ao chão de fábrica.
Não à toa, o big data é utilizado igualmente em todos os setores do mercado — lembra do exemplo
sobre a empresa de pneus e a de smartphones?
1741234 E-book gerado especialmente para MARCOS AURELIO
58
Como Funciona o Big Data?
Antes de começar a utilizar os dados, é preciso entender como essa grande estrutura de informações
deve fluir dentro de uma empresa.
É preciso considerar que existe todo um ecossistema de fontes, sistemas e usuários a ser levado em
conta.
Em geral, há algumas etapas a serem seguidas, como:
- Definir uma estratégia de big data;
- Identificar fontes de big data;
- Acessar, gerenciar e armazenar os dados;
- Analisar os dados;
- Tomar decisões baseadas em dados.
São tarefas que podem ser condensadas em três principais responsabilidades: integrar dados, geren-
ciá-los e então analisá-los.
Integrar
Em um alto nível, uma estratégia de big data é um plano projetado para ajudar sua empresa a super-
visionar e melhorar a maneira como se adquire, armazena, gerencia, compartilha e usa dados dentro e
fora de sua organização.
Uma estratégia de big data prepara o terreno para o sucesso dos negócios em meio a uma abundân-cia de dados.
Ao desenvolver uma estratégia, é importante considerar as metas e iniciativas de negócios e de tecno-
logia existentes — e futuras.
Isso exige que o tratamento do big data seja como o de qualquer outro ativo comercial valioso, em vez
de apenas um subproduto ou subsetor. Ao contrário, ela deve ser parte integral do planejamento estraté-
gico da empresa.
E para isso, é preciso conhecer as fontes de dados da empresa. Só assim, é possível dar o primeiro
passo prático na estratégia: sua integração.
Há alguns tipos a serem levados em conta, como:
- Internet das Coisas (IoT) e outros dispositivos inteligentes que alimentam os sistemas de TI, como
wearables, carros inteligentes, dispositivos médicos, equipamentos industriais e muito mais.
- Mídias sociais, como Facebook, YouTube, Instagram. Isso inclui grandes quantidades de big data na
forma de imagens, vídeos, voz, texto e som — úteis para funções de marketing, vendas e suporte.
- Sistemas de gestão, como ERPs, CRMs e outros tipos de plataformas de serviços especializados no
gerenciamento de partes, setores ou realmente todo negócio.
- Outras fontes podem ser data lakes, dados em nuvem, fornecedores e clientes.
Gerenciar
Os sistemas de computação modernos fornecem a velocidade, a potência e a flexibilidade necessárias
para acessar rapidamente grandes quantidades e tipos de informações.
1741234 E-book gerado especialmente para MARCOS AURELIO
59
Junto com o acesso confiável, as empresas também precisam de métodos para integrar os dados,
garantindo a qualidade dos dados, fornecendo governança e armazenamento de dados e preparando os
dados para análise.
São os sistemas de gestão, que podem fazer essa ponte entre setores, dispositivos e equipamentos, e
centralizar os dados do negócio.
O armazenamento depende das condições e objetivos da empresa:
Hoje, as empresas costumam apostar mais nas soluções em nuvem, pela escalabilidade e economia
de custos.
Analisar
Com tecnologias poderosas ao seu lado, as organizações podem tanto analisar todos os dados, como
determinar antecipadamente quais dados são relevantes antes de analisá-los.
De qualquer forma, a análise do big data é como as empresas obtêm valor e percepções dos dados
que possuem.
A partir desse ponto, cabe à organização tomar decisões inteligentes.
Aqui, entra a importância de contar com o ecossistema adequado de soluções, tanto para promover a
organização do big data, como para processar o volume de informações.
Afinal, dados confiáveis e bem gerenciados levam a análises e tomada de decisões mais confiáveis.
Para se manterem competitivas, as empresas precisam aproveitar todo o valor do big data e operar de
maneira orientada por dados — tomando decisões com base nas evidências apresentadas pelo big data,
e não no instinto.
Esse é outro ponto essencial: o big data permite que a empresa faça movimentações analíticas no
mercado, o que permite uma gestão menos holística.
Os benefícios de ser orientado por dados são evidentes. As organizações têm melhor desempenho,
são operacionalmente mais previsíveis e são mais lucrativas.
Os V’s do Big Data
O conceito de big data envolve algumas características, conhecidas como “os 5 Vs”. São elas:
Volume
Como vimos até agora, big data significa um gigantesco volume de dados.
A grande quantidade de informações geradas a todo momento está intrinsecamente relacionada a
ele.
Esse “V” também diz respeito à variedade de fontes utilizadas.
Velocidade
Esse item tem a ver com a grande velocidade em que os dados são produzidos hoje em dia.
Além das mídias sociais, temos milhões de operações sendo realizadas constantemente.
Compras por cartões de crédito, por exemplo, requerem aprovação, bem como vendas e aquisições
de ações, análises de flutuações de câmbio de moedas internacionais etc.
1741234 E-book gerado especialmente para MARCOS AURELIO
60
Uma ferramenta CRM, por exemplo, é capaz de incorporar dados sobre os usuários.
Cada processo desses gera dados importantes, que podem ser trabalhados instantaneamente pelas
soluções de big data, sem que seja preciso armazená-los.
Variedade
O big data envolve uma grande variedade de informações.
Não estamos falando apenas de textos e dados convencionais, como os organizados em tabelas e
bancos de dados. É mais amplo que isso, pois engloba:
- Imagens, como fotos, ilustrações, prints de telas etc.;
- Dados de reconhecimentos faciais;
- Áudios;
- Vídeos,
- Dados produzidos por dispositivos via IoT.
Aqui, vale um adendo: para muitos, o conceito original de big data envolvia apenas os três “V’s” aci-
ma.
No entanto, conforme a tecnologia avançou, outros fatores foram incorporados a sua conceituação.
Assim, temos os dois “V’s” restantes:
Veracidade
A veracidade se refere à qualidade dos dados.
Como os dados vêm de muitas fontes diferentes, é difícil vincular, combinar, limpar e transformar da-
dos entre sistemas.
As empresas precisam conectar e correlacionar hierarquias e múltiplas ligações de dados.
Assim, com processos de validação e conferência de dados, ferramentas de big data podem entregar
dados mais confiáveis e verídicos, por meio de relatórios, estatísticas e análises, com base em grandes
volumes de informações.
Valor
As informações produzidas precisam ser relevantes para o negócio. Esse é um dos objetivos do big
data: gerar conteúdos que agreguem valor.
É por meio deles que os gestores poderão melhorar as suas decisões.
Os Diferentes Tipos de Dados
No meio de Inteligência de Negócios e Data Analytics, nem todos os dados são considerados os mes-
mos.
Primeiramente, há a diferença de formato: dados estruturados e não-estruturados.
No entanto, há outro nível de diferença a ser avaliado. Dizem respeito especialmente à fonte da qual
se originam:
- Social Data: a origem são as pessoas, evidenciam características de seu comportamento.
1741234 E-book gerado especialmente para MARCOS AURELIO
61
- Enterprise Data: a origem são as empresas, evidenciam seus processos, nível de produtividade,
entre outros detalhes.
- Data of Things: a origem são as informações coletadas em dispositivos IoT, sensores inteligentes e
outros equipamentos do tipo.
Importância do Big Data
Para mostrar a importância de uma solução de big data, separamos alguns de seus principais usos
nas empresas.
Seu impacto é amplo, vai do atendimento ao pós-venda e pode servir para uma revolução de proces-
sos dentro da empresa.
Possibilidade de Fazer uma Escuta Social
A tecnologia big data tem a capacidade de cruzar informações de diferentes fontes, como bancos de
dados, cadastros de consumidores, históricos de mensagens e de interações com os clientes.
O sistema pode monitorar, por exemplo, conversas em mídias sociais e os percursos realizados por
internautas nos e-commerces.
Graças a isso, é possível executar uma espécie de “escuta social” sobre como a marca é vista e com-
preendida em diferentes mídias e redes de usuários.
Com base nas informações geradas, é feita uma avaliação sobre reputação positiva ou se é preciso
trabalhar melhor a percepção do público.
Vale destacar que os dados costumam ser qualificados e facilmente compreensíveis, o que ajuda no
entendimento.
Isso inclui gráficos, estatísticas e outros recursos visuais.
Maior Facilidade para Segmentação de Público e Mercado
Com base nos resultados do monitoramento do público e das avaliações geradas, você compreende
melhor o comportamento de clientes e leads.
As técnicas de big data ajudam a descobrir exigências, desejos e outras demandas dos comprado-
res.
As oportunidades também envolvem a identificação de novos segmentos de negócios, o que permite
atender a nichos de mercado que não são cobertos pela concorrência.
Realizar Análises Comparativas para Precificação Inteligente
Dificuldades de comunicação entre os departamentos de vendas e de compras podem gerar proble-
mas de precificação de produtos.
Por exemplo, caso uma matéria-prima fique mais cara, o preço da mercadoria final normalmentea idade de uma pessoa
precisamos da sua data de nascimento, então, consideramos o atributo idade como derivado do atributo
data de nascimento.
Atributo Chave
O atributo chave é utilizado para identificar de forma única uma entidade, ou seja, os valores associa-
dos a esse atributo são distintos dentre o conjunto de entidades. Como exemplo, podemos utilizar o CPF
de uma pessoa, ele é único e pode ser utilizado como atributo chave, já que cada pessoa recebe um
número de CPF distinto.
Métricas
As métricas são dados que medem quantitativamente o sucesso da execução de uma atividade, aju-
dando a entender o que dá certo (ou não) no seu trabalho3. Elas precisam ser o ponto de partida para
qualquer estratégia de negócio.
Por isso, antes de iniciar qualquer plano, é preciso entender bem o que são métricas e qual a mais
adequada para determinada ação. As ferramentas de análise de dados possibilitam mensurar, monitorar
e avaliar seus processos estratégicos, de uma maneira simples, clara e objetiva.
Com o tempo, você vai conseguir avaliar melhor as métricas de desempenho das ações e fazer com-
parativos para tomar decisões mais assertivas. Mas, para escolher a métrica certa, você precisa definir
previamente o que você quer e o que medir.
Para você entender melhor o que são métricas, veja um exemplo de aplicação nas redes sociais:
O alcance representa o número de pessoas que entraram em contato com uma publicação. Mesmo
que alguém visualize um post por 3 vezes, por exemplo, ele será contabilizado como usuário único.
Já nas impressões, contabilizamos quantas vezes o post foi exibido para o usuário. Somam-se todos
os números, inclusive nos casos em que o mesmo usuário visualiza o conteúdo mais de uma vez.
Nos relatórios de análise das métricas, é possível verificar se as impressões são iguais, maiores ou
menores do que o número de pessoas alcançadas. A partir daí, você consegue direcionar melhor sua
estratégia de conteúdo.
Se precisar de dados sobre quantas pessoas realmente se engajaram com o conteúdo, basta usar a
métrica de engajamento. Uma auxilia a outra, tudo depende do seu objetivo final. Por isso, é importante
ter metas definidas antes de começar a mensurar.
Benefícios em Utilizar e Acompanhar Métricas
Um ditado importante e que consegue resumir bem a importância das métricas para as organizações
é: “se você não sabe para onde ir, qualquer caminho serve”4. A célebre frase foi dita pelo Gato Cheshire
à Alice, em Alice no País das Maravilhas e consegue resumir bem.
3 NASCIMENTO, R. O que são métricas e como implementá-las em sua empresa?
4 https://bit.ly/3Fz2Gi0
1741234 E-book gerado especialmente para MARCOS AURELIO
4
Isso porque as métricas são informações valiosas que vão mensurar os resultados do sucesso ou fra-
casso. Nesse caso, se os líderes não sabem quais são os números, eles não sabem, consequentemente,
qual caminho guiar os seus liderados para que os resultados melhorem.
Nesse caso, a visão do gestor fica totalmente à mercê do achismo e consequentemente cabível de
falhas e visões viciadas que podem prejudicar um olhar mais analítico.
Um time de marketing, por exemplo, pode fazer o uso do acompanhamento de informações-chave
para as campanhas de marketing, como: custo de aquisição, palavras-chave ranqueadas, número de
visitantes, taxas de conversão, aquisição por clientes dentre outras métricas.
Dessa forma, com o apoio do uso de uma ferramenta de CRM, os times de marketing e vendas conse-
guem ser muito mais eficazes em suas ações, pois têm dados concretos em mãos, por conta do acompa-
nhamento de métricas estratégicas.
Transformação de Dados
A transformação de dados é o processo de conversão de dados brutos de um formato para outro para
torná-los utilizáveis pelo sistema ou aplicativo de destino5. Inclui várias atividades, como “transformar”
seus dados, filtrando-os com base em certas regras e unindo diferentes campos para obter uma visão
consolidada. As ferramentas de transformação de dados ajudam a alcançar seu resultado final com facili-
dade.
A transformação é uma etapa intermediária importante na extração, transformação e carregamento
Processo (ETL) - um pré-requisito para o carregamento. A maioria Ferramentas ETL também vêm com
funções predefinidas que podem ser usadas para transformar seus dados de forma rápida e eficiente. As
empresas costumam enfrentar desafios de transformação devido à baixa qualidade dos dados.
Aqui estão algumas das etapas que estão envolvidas neste processo:
- Identifique a estrutura dos arquivos de origem e extraia dados deles;
- Em seguida, mapeie os dados do arquivo de origem para a ferramenta de transformação;
- Realize a transformação, ou seja, filtre, classifique, limpe ou agregue os dados;
- Finalmente, envie o arquivo transformado para o destino.
Por que a Transformação de Dados é Importante?
As empresas precisam transformar grandes volumes de dados por diversos motivos, como migração
de dados para a nuvem, consolidação de registros, exclusão de duplicatas, alteração de formatação
etc.
As transformações também são aplicadas para concatenar e validar dados, realizar pesquisas ou ro-
tear dados para diferentes destinos. É benéfico ter uma ferramenta de transformação de dados com uma
ampla gama de opções de transformação para poder manipular os dados da melhor maneira possível.
Vejamos um exemplo de transformação: suponha que um banco adquira uma seguradora que opera
na mesma região. Uma vez concluída a aquisição, é decidido que uma única folha de pagamento será
gerada para todos os funcionários. O processo de geração da folha de pagamento teria sido direto se
todos os dados dos funcionários estivessem armazenados em um sistema unificado, como um data wa-
rehouse ou banco de dados.
5 REHAN, A. O que é transformação de dados e como otimiza processos de negócios.
1741234 E-book gerado especialmente para MARCOS AURELIO
5
No entanto, neste caso, uma empresa armazenou os dados dos funcionários em um SQL Server e a
outra armazenou as informações da folha de pagamento em uma planilha do Excel. Para criar uma folha
de pagamento consolidada para os funcionários, os dados precisam ser transformados para atender aos
requisitos do sistema de destino, ou seja, arquivo Excel.
Dados da origem do SQL Server e Excel sendo transformados e mapeados para um arquivo de desti-
no do Excel.
Veja como o arquivo de destino cuida da transformação:
Visualização da folha de pagamento consolidada armazenada no arquivo do Excel
As transformações também podem ser usadas para extrair valores de diferentes tipos de dados. Em
vez de sobrecarregar seus sistemas com vários - muitas vezes desnecessários - registros, você pode
usar diferentes tipos de transformações de dados para filtrar dados irrelevantes.
Por exemplo, se você deseja gerar um relatório de todas as vendas realizadas em um determinado
país, digamos os EUA, aplicando o filtros A transformação evitará que o sistema de destino seja sobre-
carregado desnecessariamente, pois apenas os registros relevantes serão transmitidos.
Armazenar registros relevantes e comparativamente menores no sistema de destino significa menos
consumo de memória durante o processamento do pipeline de dados, o que reduzirá o tempo de execu-
ção.
1741234 E-book gerado especialmente para MARCOS AURELIO
6
Transformando Dados
Os dados podem ser transformados de várias maneiras, dependendo do seu objetivo e dos requisitos
do sistema de destino. O usuário deve estar ciente de certas regras e exemplos de transformação ao
usar o software. As transformações pré-criadas podem não apenas ser usadas para limpar, filtrar, dividir
e juntar dados, mas também para enriquecê-los. Aqui estão alguns tipos de transformações de dados:
Filtrando Dados
As empresas precisam processar vários registros para recuperar dados relevantes para um cenário
específico. Os dados podem ser filtrados com base em uma ou mais regras. Você pode usar esses dados
transformados para processamentodeve
ser reajustado para que a empresa continue adquirindo insumos para a fabricação sem prejudicar lucros
futuros.
Ele também pode precificar de forma adequada produtos e serviços ao considerar os valores pratica-
dos pela concorrência, potenciais demandas, cenários micro/macroeconômicos, entre outros fatores.
1741234 E-book gerado especialmente para MARCOS AURELIO
62
Efetuar Análises de Marketing
Além dos dados gerados em redes sociais, uma solução de big data pode avaliar históricos de vendas
e de campanhas publicitárias, períodos de sazonalidade, cadastros de clientes e outras fontes de dados
para estratégias de marketing.
As informações extraídas podem ser usadas, por exemplo, para conhecer comportamentos dos consu-
midores em tempo real.
Também contribuem para detectar indicadores, como taxa de cancelamento e conversão.
Com essas métricas em mãos, pode-se avaliar o que deu certo no passado para buscar inovações,
repetir as ações que tiveram êxito e definir estratégias de marketing mais eficazes.
Mensurar a Satisfação do Cliente
Uma das grandes vantagens do big data analytics é unir diferentes mídias e meios para entregar análi-
ses mais precisas.
Por mais que um cliente possa responder positivamente a uma pesquisa de satisfação, talvez ele não
esteja realmente satisfeito.
Isso pode ser percebido em comentários negativos sobre a empresa na web, abandono dos acessos
ao site etc.
Uma ferramenta que considera o que o cliente diz e como se comporta em relação ao negócio, pode
gerar um panorama mais claro sobre o que fazer para potencializar a relação com o público.
Como as Organizações Utilizam o Big Data
Em geral, a aplicação do big data é realizada por vários motivos. A modernização do negócio pode
trazer inúmeros benefícios.
Por exemplo, de acordo com um levantamento da Entrepreneur, empresas que utilizam big data regis-
traram uma redução geral de 10% em seus custos.
No entanto, no que isso se traduz no dia a dia das empresas? Afinal, um plano de redução de custos é
muito diferente em uma fábrica e em um varejo.
Abaixo, demonstramos alguns exemplos de sua aplicação e quais os possíveis retornos:
Manufatura
Na indústria, uma solução de big data contribui para aumentar a qualidade e a produção, enquanto
minimiza o desperdício.
Além disso, esse tipo de solução é uma das bases para o surgimento da indústria 4.0, em que a auto-
mação industrial é total.
Os programas e recursos também são integrados, há maior descentralização de processos e a planta
fabril conta com alta modularidade de sistemas.
Nesse caso, cada módulo consegue atuar na produção de acordo com as demandas existentes.
Cerca de 72% das organizações industriais acreditam que a análise de dados irá otimizar a relação
com consumidores e a inteligência na gestão de clientes, ao longo do ciclo de vida do produto.
1741234 E-book gerado especialmente para MARCOS AURELIO
63
Tudo isso segundo uma pesquisa da PwC feita com aproximadamente duas mil empresas, em 26 paí-
ses.
Varejo
Uma solução de big data analytics é muito útil para a construção de relacionamento com os clientes,
por meio dos dados.
Ela pode processar informações vindas de pesquisas de mercado, relatórios pós-interações com clien-
tes, programas de fidelidade etc.
Com base nessas informações, é possível descobrir as maiores necessidades dos consumidores e o
que pode ser realizado para melhorar o atendimento.
Para o varejista, isso pode ser mais simples do que parece, pois ele costuma atender um grande volu-
me de clientes diariamente.
Há, portanto, bastante material para se detectar padrões e pontos que contribuem para estreitar laços
com múltiplos perfis distintos.
Os dados gerados por uma ferramenta de big data podem ajudar a melhorar:
- Níveis de satisfação dos clientes;
- Programas de fidelidade, tornando-os mais condizentes com as expectativas dos consumidores;
- Estratégias de ofertas, promoções e descontos;
- Escolha de prêmios para clientes fiéis,
- Localização de menus e botões nos comércios eletrônicos, mapeando o percurso dos usuários nas
lojas virtuais.
Saúde
Soluções de monitoramento, aliadas às tecnologias que executam análises eficientes podem ser em-
pregadas na saúde.
Um exemplo ocorreu com o hospital Mt. Sinai Medical Center, de Nova York.
Ele conseguiu reduzir o período de espera dos pacientes do pronto-socorro em mais de 50%, graças a
esse tipo de solução.
A ferramenta utilizada faz o processamento de até 80 solicitações de leitos, além de acompanhar a
utilização de 1.200 deles.
Isso é feito por meio de equipamentos de reconhecimento de local em tempo real, como infraverme-
lho, etiquetas de identificação por radiofrequência e visão computacional.
Quinze fatores referentes às necessidades de pacientes são analisados, como ser posto perto de uma
área de enfermagem, para auxiliar no preenchimento das vagas de forma adequada.
Serviços Financeiros
Já vimos que é possível otimizar avaliações de crédito e processos de prevenção a fraudes.
Um sistema big data é capaz de analisar um grande volume de dados em busca de padrões que deno-
tem possíveis fraudes ou comportamentos suspeitos.
1741234 E-book gerado especialmente para MARCOS AURELIO
64
Construção
O setor de construção também pode se beneficiar do big data.
Um exemplo está na construção das cidades inteligentes, que integra também IoT. Nelas, essas tecno-
logias podem ser usadas para:
- Aprimorar a infraestrutura e os serviços usados pelos habitantes;
- Integração de metrô, ônibus, trem e outros transportes;
- Automatizar e monitorar redes de distribuição de energia em tempo real, podendo detectar ocorrên-
cias no fornecimento;
- Fornecer acesso às centenas de serviços de diversos órgãos governamentais em apenas um am-
biente virtual (site);
- Provisionar a demanda no sistema e prevenir eventuais interrupções no abastecimento etc.
Big Data Analytics
O big data analytics é o próximo passo dentro do estudo do grande volume de dados.
Ou seja, se o big data diz respeito às informações agregadas, o big data analytics se trata do processo
de extrair, organizar, processar e analisá-los.
Basicamente, a parte prática que segue a teórica.
A coleta de dados segue algumas etapas que, normalmente, são divididas em quatro partes.
Coleta
A primeira etapa envolve a coleta propriamente dita.
É quando a ferramenta busca dados e é alimentada com eles. É feito um trabalho analítico e inteligen-
te de um volume de dados, estejam eles estruturados ou não.
Além disso, há a combinação de conteúdos internos e externos, tudo isso em um curto período. As
fontes internas usadas podem envolver:
- Relatórios e históricos do empreendimento;
- Indicadores de desempenho dos setores da empresa;
- Documentos gerenciais, contábeis e financeiros;
- Pesquisas de satisfação;
- Estatísticas de processos, atividades e colaboradores;
- E-mails corporativos;
- Sistemas empresariais, como de business intelligence;
- Cadastros de clientes,
- Programas de benefícios e cartões.
As fontes externas à empresa podem englobar:
- Conteúdos de redes sociais;
1741234 E-book gerado especialmente para MARCOS AURELIO
65
- Conteúdos em data warehouses;
- Informativos e periódicos do setor que apontem tendências e informações relevantes;
- Bancos de dados compartilhados por terceiros, como fornecedores e distribuidores,
- Serviços de proteção ao crédito, entre outros tipos de parceiros.
Armazenamento
O armazenamento consiste na distribuição dos dados em servidores, dispositivos e sistemas distintos,
tanto físicos quanto na nuvem (cloud computing).
Isso assegura os backups para as informações armazenadas, especialmente as geradas após proces-
samentos de dados refinados.
Lembrando que o big data pode analisar dados em tempo real.
Organização
Essa etapa engloba o arranjo e a classificação dos dados estruturados, não estruturados ou semies-
truturados.
Isso para que possam ser mais facilmente acessados e analisados pelos gestores.
Análise
É a faseem que se avaliam os dados.
A avaliação pode ser em tempo real ou em cima dos dados armazenados nas etapas acima.
Ela envolve o processamento dos conteúdos reunidos, para a extração de informações úteis, relevan-
tes e estratégicas.
Os principais tipos de análises são:
- Descritiva: procura fazer uma “fotografia do presente”. Ela trabalha com histórico de dados e é útil
em análises de crédito, por exemplo, pois cruza diferentes informações para gerar um panorama mais
claro sobre as possibilidades e potencialidades dos clientes.
- Diagnóstica: é centrada nas causas e consequências de um determinado assunto ao longo do tem-
po. Por exemplo, para solucionar um alto volume de quebras nas entregas, é preciso diagnosticar suas
prováveis causas.
- Preditiva: avalia possibilidades futuras graças à identificação de padrões anteriores. Ela permite
identificar demandas, tendências e novas oportunidades.
- Prescritiva: tenta traçar previamente as possíveis consequências de determinadas ações. É parecida
com a preditiva, porém serve para se escolher qual opção é melhor em uma situação.
Relação entre a Ciência de Dados e o Big Data
O Big Data não existe sem a ciência de dados22. Isso é inegável.
Ela representa a importância de saber lidar de maneira científica com as informações coletadas, a fim
de garantir resultados confiáveis e que auxiliem na tomada de decisões com maior precisão.
22 https://bit.ly/2QwWUCx
1741234 E-book gerado especialmente para MARCOS AURELIO
66
Podemos dizer que a ciência de dados permite se antecipar ao futuro, direcionando os usuários a es-
colher determinados caminhos com base em recomendações, por exemplo.
Ela pode ser aplicada em setores diversos, como:
- E-commerce;
- Entretenimento;
- Marketing digital;
- Mídias sociais;
- Serviços financeiros;
- Energia;
- Saúde;
- Astronomia;
- Segurança da Informação.
Arquiteturas de Big Data
Dessa maneira, podemos dizer que a ciência de dados equivale a hipóteses, modelos matemáticos e
estatísticos aplicados à análise de informações para atestar a qualidade dos resultados atingidos23.
É onde o Big Data se encaixa, fazendo uso de ferramentas como as que iremos destacar adiante.
Uma arquitetura de Big Data foi projetada para lidar com ingestão, processamento e análise de dados
grandes ou complexos demais para sistemas de banco de dados tradicionais. O limite no qual as orga-
nizações ingressam no campo do Big Data é diferente, dependendo das capacidades dos usuários e
de suas ferramentas. Para alguns, isso pode significar centenas de gigabytes de dados, enquanto para
outros, centenas de terabytes. À medida que as ferramentas para o trabalho com conjuntos de Big Data
evoluem, na mesma proporção evolui o significado de Big Data. Cada vez mais, esse termo se relaciona
ao valor que é possível extrair dos conjuntos de dados por meio de análise avançada, em vez de estrita-
mente o tamanho dos dados, embora nesses casos, eles tendam a ser muito grandes.
Ao longo dos anos, o cenário dos dados vem mudando. Houve uma mudança no que você pode fazer
ou o que deve fazer, com os dados. O custo de armazenamento caiu drasticamente, enquanto os meios
pelos quais os dados são coletados continuam aumentando. Alguns dados são recebidos a um ritmo
rápido, constantemente exigindo sua coleta e observação. Outros dados são recebidos mais lentamente,
mas em partes muito grandes, geralmente na forma de décadas de dados históricos. Talvez você esteja
enfrentando um problema de análise avançada ou um problema que exija o aprendizado de máquina.
Esses são desafios que as arquiteturas de Big Data buscam resolver.
Soluções de Big Data normalmente envolvem um ou mais dos seguintes tipos de carga de trabalho:
- Processamento em lote de fontes Big Data em repouso.
- Processamento em tempo real de Big Data em movimento.
- Exploração interativa de Big Data.
- Análise preditiva e machine learning.
23 https://learn.microsoft.com/pt-br/azure/architecture/data-guide/big-data/
1741234 E-book gerado especialmente para MARCOS AURELIO
67
Considere o uso das arquiteturas de Big Data quando precisar:
- Armazenar e processar dados em volumes muito grandes para um banco de dados tradicional.
- Transformar dados não estruturados para análise e relatório.
- Capturar, processar e analisar fluxos não associados de dados em tempo real ou com baixa latên-
cia.
Componentes de uma Arquitetura de Big Data
O diagrama a seguir mostra os componentes lógicos que se inserem em uma arquitetura de Big Data.
As soluções individuais podem não conter todos os itens neste diagrama.
A maioria das arquiteturas de Big Data inclui alguns ou todos os seguintes componentes:
- Fontes de dados: todas as soluções de Big Data começam com uma ou mais fontes de dados. Os
exemplos incluem:
- Armazenamentos de dados de aplicativo, como bancos de dados relacionais.
- Arquivos estáticos produzidos por aplicativos, como arquivos de log do servidor Web.
- Fontes de dados em tempo real, como dispositivos IoT.
- Armazenamento de dados: os dados de operações de processamento em lotes normalmente são
armazenados em um repositório de arquivos distribuído que pode conter amplos volumes de arquivos
grandes em vários formatos. Esse tipo de repositório geralmente é chamado data lake. As opções para
implementar esse armazenamento incluem contêineres de blobs ou Azure Data Lake Store no Armazena-
mento do Azure.
- Processamento em lotes: como os conjuntos de dados são muito grandes, geralmente, uma solução
de Big Data precisa processar arquivos de dados usando trabalhos em lotes de execução longa para
filtrar, agregar e, de outro modo, preparar os dados para análise. Normalmente, esses trabalhos envol-
vem ler arquivos de origem, processá-los e gravar a saída para novos arquivos. Opções incluem executar
trabalhos de U-SQL no Azure Data Lake Analytics, usar trabalhos Hive, Pig ou de Mapear/Reduzir perso-
nalizados em um cluster HDInsight Hadoop ou usar programas de Java, Scala ou Python em um cluster
HDInsight Spark.
- Ingestão de mensagens em tempo real: se a solução inclui fontes em tempo real, a arquitetura preci-
sa incluir uma maneira de capturar e armazenar mensagens em tempo real para processamento de fluxo.
Isso pode ser um armazenamento de dados simples, em que as mensagens de entrada são removidas
para uma pasta para processamento. No entanto, muitas soluções precisam de um repositório de inges-
tão de mensagens para atuar como buffer de mensagens e dar suporte a processamento de expansão,
1741234 E-book gerado especialmente para MARCOS AURELIO
68
entrega confiável e outras semânticas de enfileiramento de mensagens. Essa parte de uma arquitetura
de streaming geralmente é conhecida como buffer de fluxo. Entre as opções estão os Hubs de Eventos
do Azure, o Hub IoT do Azure e o Kafka.
- Processamento de fluxo: depois de capturar mensagens em tempo real, a solução precisa processá-
-las filtrando, agregando e preparando os dados para análise. Os dados de fluxo processados são gra-
vados em um coletor de saída. O Azure Stream Analytics oferece um serviço de processamento de fluxo
gerenciado baseado em consultas SQL em execução perpétua que operam em fluxos não associados.
Você também pode usar tecnologias de streaming Apache de software livre, como Storm e Spark Strea-
ming em um cluster HDInsight.
- Armazenamento de dados analíticos: muitas soluções de Big Data preparam dados para análise e
então fornecem os dados processados em um formato estruturado que pode ser consultado com ferra-
mentas analíticas. O armazenamento de dados analíticos usado para atender a essas consultas pode ser
um data warehouse relacional estilo Kimball, como visto na maioria das soluções de BI (business intel-
ligence) tradicionais. Como alternativa, os dados podem ser apresentados por meio de uma tecnologia
NoSQL de baixa latência, como HBase ou um banco de dados Hive interativo que oferece uma abstra-
ção de metadados sobre arquivos de dados no armazenamentode dados distribuído. O Azure Synapse
Analytics fornece um serviço gerenciado para armazenamento de dados em larga escala baseado em
nuvem. O HDInsight dá suporte a Hive interativo, HBase e Spark SQL, que também pode ser usado para
veicular dados para análise.
- Análise e relatórios: a meta da maioria das soluções de Big Data é gerar insights sobre os dados por
meio de análise e relatórios. Para capacitar os usuários a analisar os dados, a arquitetura pode incluir
uma camada de modelagem de dados, como um cubo OLAP multidimensional ou um modelo de dados
tabular no Azure Analysis Services. Também pode dar suporte a business intelligence de autoatendimen-
to, usando as tecnologias de modelagem e visualização do Microsoft Power BI ou do Microsoft Excel.
Análise e relatórios também podem assumir a forma de exploração de dados interativos por cientistas
de dados ou analistas de dados. Para esses cenários, muitos serviços do Azure dão suporte a blocos de
anotações analíticos, como Jupyter, permitindo que esses usuários aproveitem suas habilidades existen-
tes com Python ou R. Para exploração de dados em larga escala, você pode usar o Microsoft R Server,
seja no modo autônomo ou com Spark.
- Orquestração: a maioria das soluções de Big Data consiste em operações de processamento de
dados repetidas, encapsuladas em fluxos de trabalho, que transformam dados de origem, movem dados
entre várias origens e coletores, carregam os dados processados em um armazenamento de dados ana-
líticos ou enviam os resultados por push diretamente para um relatório ou painel. Para automatizar esses
fluxos de trabalho, você pode usar uma tecnologia de orquestração, como Azure Data Factory ou Apache
Oozie e Sqoop.
Arquitetura Lambda
Ao trabalhar com conjuntos de dados muito grandes, pode levar muito tempo para executar a classifi-
cação de consultas de que os clientes precisam. Essas consultas não podem ser executadas em tempo
real e geralmente exigem algoritmos como MapReduce, que operam em paralelo em todo o conjunto de
dados. Os resultados são então armazenados separadamente dos dados brutos e usados para consul-
ta.
1741234 E-book gerado especialmente para MARCOS AURELIO
69
Uma desvantagem dessa abordagem é que ela introduz latências: se o processamento levar algumas
horas, uma consulta poderá retornar resultados de várias horas atrás. O ideal é que você obtenha alguns
resultados em tempo real (talvez com alguma perda de precisão) e combine esses resultados com os
resultados da análise de lote.
A arquitetura lambda, primeiramente proposta por Nathan Marz, resolve esse problema criando dois
caminhos para o fluxo de dados. Todos os dados recebidos pelo sistema passam por esses dois cami-
nhos:
- Uma camada de lote (caminho frio) armazena todos os dados de entrada em sua forma bruta e exe-
cuta o processamento em lotes nos dados. O resultado desse processamento é armazenado como uma
exibição de lote.
- Uma camada de velocidade (caminho quente) analisa os dados em tempo real. Essa camada foi pro-
jetada para baixa latência, em detrimento da precisão.
A camada de lote alimenta uma camada de serviço que indexa a exibição de lote para uma consulta
eficiente. A camada de velocidade atualiza a camada de serviço com atualizações incrementais de acor-
do com os dados mais recentes.
Os dados que fluem para o caminho quente são restritos por requisitos de latência impostos pela ca-
mada de velocidade, de modo que ela possa ser processada o mais rapidamente possível. Geralmente,
isso exige uma desvantagem de algum nível de precisão em favor dos dados que estão prontos o mais
rapidamente possível. Por exemplo, considere um cenário de IoT em que um grande número de sensores
de temperatura envia dados telemétricos. A camada de velocidade pode ser usada para processar uma
janela de tempo deslizante dos dados de entrada.
Os dados que fluem para o caminho frio, por outro lado, não estão sujeitos aos mesmos requisitos de
baixa latência. Isso permite uma computação de alta precisão em conjuntos de dados grandes, o que
pode ser muito demorado.
Em última análise, os caminhos quente e frio convergem no aplicativo cliente de análise. Se o cliente
precisar exibir dados em tempo hábil, mas potencialmente menos precisos em tempo real, ele adquirirá
seu resultado do caminho quente. Caso contrário, ele selecionará resultados do caminho frio para exibir
dados em menos tempo hábil, mas mais precisos. Em outras palavras, o caminho quente contém dados
para uma janela relativamente pequena de tempo, após o qual os resultados podem ser atualizados com
os dados mais precisos do caminho frio.
Os dados brutos armazenados na camada de lote são imutáveis. Os dados de entrada sempre são
acrescentados aos dados existentes e os dados anteriores nunca são substituídos. As alterações no va-
lor de um dado específico são armazenadas como um novo registro de evento com carimbo de data/hora.
1741234 E-book gerado especialmente para MARCOS AURELIO
70
Isso permite o recálculo em qualquer ponto no tempo no histórico dos dados coletados. A capacidade de
recalcular a exibição de lote dos dados brutos originais é importante, pois permite que novas exibições
sejam criadas conforme o sistema evolui.
Arquitetura Kappa
Uma desvantagem da arquitetura de lambda é sua complexidade. A lógica de processamento aparece
em dois lugares diferentes (os caminhos frio e crítico) usando estruturas diferentes. Isso leva a uma lógi-
ca de cálculo duplicada e a complexidade de gerenciar a arquitetura para os dois caminhos.
A arquitetura de kappa foi proposta por Jay Kreps como uma alternativa à arquitetura de lambda. Ela
tem as mesmas metas básicas da arquitetura de lambda, mas com uma diferença importante: todos os
dados fluem por um único caminho, usando um sistema de processamento de fluxo.
Há algumas semelhanças na camada de lote da arquitetura de lambda, em que os dados do evento
são imutáveis e todos eles são coletados, em vez de um subconjunto. Os dados são ingeridos como um
fluxo de eventos em um log unificado distribuído e tolerante a falhas. Esses eventos são ordenados e o
estado atual de um evento é alterado somente por um novo evento que está sendo acrescentado. Seme-
lhante à camada de velocidade da arquitetura de um lambda, todo o processamento de eventos é feito no
fluxo de entrada e persistido como uma exibição em tempo real.
Se você precisar recalcular todo o conjunto de dados (equivalente ao que a camada de lote faz no
lambda), basta reproduzir o fluxo, normalmente usando o paralelismo para concluir o cálculo em tempo
hábil.
Internet das Coisas (IoT)
Do ponto de vista prático, a IoT (Internet das Coisas) representa qualquer dispositivo conectado à
Internet. Isso inclui seu computador, telefone celular, relógio inteligente, termostato inteligente, refrigera-
dor inteligente, automóvel conectado, implantes de monitoramento cardíaco e qualquer outra coisa que
se conecta à Internet e envia ou recebe dados. O número de dispositivos conectados cresce diariamente,
assim como a quantidade de dados coletados deles. Em geral, esses dados são coletados em ambientes
altamente restritos, às vezes, de alta latência. Em outros casos, os dados são enviados de ambientes
de baixa latência por milhares ou milhões de dispositivos, que necessitam da capacidade de ingerir os
dados rapidamente e processá-lo de forma adequada. Portanto, um planejamento adequado é necessário
para lidar com essas restrições e esses requisitos exclusivos.
Arquiteturas orientadas por eventos são essenciais para soluções de IoT. O diagrama a seguir mostra
uma possível arquitetura lógica de IoT. O diagrama enfatiza os componentes da arquitetura do streaming
de eventos.
1741234 E-book gerado especialmente para MARCOS AURELIO
71
O gateway de nuvem consome eventos de dispositivo no limite da nuvem, usando um sistema de men-
sagens de latência baixa e confiável.
Os dispositivos podem enviar eventos diretamente para o gateway de nuvem, ou pormeio de um gate-
way de campo. Um gateway de campo é um software ou dispositivo especializado, geralmente colocado
com os dispositivos, que recebe eventos e os encaminha para o gateway de nuvem. O gateway de cam-
po também pode pré-processar os eventos de dispositivo brutos executando funções, como filtragem,
agregação ou transformação de protocolo.
Após a ingestão, os eventos passam por um ou mais processadores de fluxo que podem encaminhar
os dados (por exemplo, para armazenamento) ou executar análise e outros tipos de processamento.
A seguir estão alguns tipos comuns de processamento. (Esta lista certamente não é exaustiva.)
- Gravando os dados de evento para armazenamento menos acessado, para arquivamento ou análise
de processo em lote.
- Análise de caminho mais acessado, analisando o fluxo de eventos (quase) em tempo real, para
detectar anomalias, reconhecer padrões em janelas de tempo ou disparar alertas quando ocorre uma
condição específica no fluxo.
- Tratamento de tipos especiais de mensagens que não são de telemetria de dispositivos, como notifi-
cações e alarmes.
- Machine Learning.
As caixas destacadas em cinza mostram os componentes de um sistema de IoT que não estão direta-
mente relacionadas ao streaming de evento, mas são incluídos aqui para fins de integridade.
- O registro do dispositivo é um banco de dados dos dispositivos provisionados, incluindo os IDs de
dispositivo e metadados do dispositivo, como localização.
- A API de provisionamento é uma interface externa comum para provisionar e registrar dispositivos
novos.
- Algumas soluções IoT permitem que mensagens de comando e controle sejam enviadas aos disposi-
tivos.
Plataformas de Computação em Nuvem para Big Data
O aumento da computação em nuvem (Cloud Computing) tem sido um precursor e facilitador para o
surgimento do Big Data24. Embora o Big Data traga muitas oportunidades atraentes, as empresas tam-
bém enfrentam muitos desafios. Coleta dos dados, armazenamento, pesquisa, compartilhamento, análise
e visualização. Cada uma destas tarefas requer diferentes abordagens, diferentes níveis de segurança,
infraestrutura e profissionais capacitados. Nos últimos anos, um grande número de técnicas e tecnologias
24 https://bit.ly/3WbQpqi
1741234 E-book gerado especialmente para MARCOS AURELIO
72
de Big Data se desenvolveram para superar todos esses obstáculos. E o Cloud Computing tem sido o
suporte necessário para o crescimento na adoção de uma cultura data driven que permita as empresas
extrair do Big Data os insights necessários para a tomada de decisão mais consciente.
Existem vantagens significativas na adoção de Cloud Computing em relação às implantações físicas
tradicionais. No entanto, as plataformas em nuvem possuem várias estruturas e às vezes precisam ser
integradas com arquiteturas tradicionais, pois todos os serviços de computação em nuvem funcionam de
forma um pouco diferente, dependendo do provedor. O AWS (Amazon Web Service) continua sendo o
líder mundial no fornecimento de serviços em nuvem.
Isso leva a um dilema para os tomadores de decisão responsáveis por grandes projetos de dados.
Como e qual Provedor de Cloud Computing é a escolha ideal para as necessidades de computação, es-
pecialmente se a empresa está iniciando um projeto de Big Data? Esses projetos são sensíveis e se não
forem bem dimensionados podem levar a uma explosão da necessidade de armazenamento e proces-
samento, comprometendo seriamente o custo envolvido no projeto. Ao mesmo tempo, as partes interes-
sadas e áreas de negócio esperam por produtos rápidos, baratos e confiáveis e, claro, os resultados do
projeto.
Cloud Computing
De forma simplificada, a computação em nuvem (Cloud Computing) é a entrega de serviços de compu-
tação – servidores, armazenamento, bancos de dados, redes, software, análises – através da Internet (“a
nuvem”). As empresas que oferecem esses serviços de computação são chamadas de Cloud Providers e
normalmente cobram por serviços de computação em nuvem com base no uso, de maneira semelhante à
forma como você é cobrado por água ou eletricidade na sua casa.
Provavelmente você está usando computação em nuvem neste momento, mesmo sem perceber. Se
você usa um serviço online para enviar e-mail, editar documentos, assistir filmes online, ouvir música, jo-
gar ou armazenar fotos e outros arquivos, é provável que a computação em nuvem esteja nos bastidores
possibilitando tudo isso. Os primeiros serviços de computação em nuvem têm somente uma década, mas
diversas organizações – de pequenas startups a corporações globais, de agências do governo a empre-
sas sem fins lucrativos – estão adotando essa tecnologia por diversos motivos.
1741234 E-book gerado especialmente para MARCOS AURELIO
73
Benefícios da Computação em Nuvem
A computação em nuvem é uma grande mudança na forma tradicional que as empresas pensam em
recursos de TI, pois elimina o gasto capital de compra de hardware e software e instalação e execução
de datacenters locais – racks de servidores, eletricidade com disponibilidade permanente para energia e
resfriamento, segurança de acesso, backup, manutenção e atualização de software etc. Isso pode impul-
sionar os negócios da empresa, que pode então focar apenas em sua atividade fim.
A maior parte dos serviços de computação em nuvem é fornecida por autosserviço e sob demanda,
para que até grandes quantidades de recursos de computação possam ser provisionadas em minutos,
normalmente com apenas alguns cliques, fornecendo às empresas muita flexibilidade e aliviando a pres-
são do planejamento de capacidade. Os benefícios dos serviços de computação em nuvem incluem a ca-
pacidade de dimensionamento elástico. Em termos de nuvem, isso significa fornecer a quantidade correta
de recursos de TI, por exemplo, mais ou menos energia de computação, armazenamento e largura de
banda, quando necessário e no local geográfico correto. A computação em nuvem exclui a necessidade
de muitas dessas tarefas para que as equipes de TI possam usar o tempo delas para alcançar metas de
negócios mais importantes (como analisar dados por exemplo).
Os maiores serviços de computação em nuvem são executados em uma rede mundial de datacenters
seguros, que são atualizados regularmente com a mais recente geração de hardware, rápido e eficiente.
Isso oferece diversos benefícios em um único datacenter corporativo, incluindo latência de rede reduzida
para aplicativos e mais economia de escalonamento. A computação em nuvem facilita e reduz os custos
de backup de dados, recuperação de desastre e continuidade dos negócios, já que os dados podem ser
espelhados em diversos sites redundantes na rede do Cloud Provider.
Tipos de Serviços em Nuvem: IaaS, PaaS e SaaS
A maioria dos serviços de computação em nuvem se divide em três amplas categorias: IaaS (infraes-
trutura como serviço), PaaS (plataforma como serviço) e SaaS (software como serviço). Às vezes, eles
são denominados pilha de computação em nuvem, pois são disponibilizados um sobre o outro.
IaaS (Infraestrutura como Serviço)
A categoria mais básica de serviços de computação em nuvem. Com IaaS, você aluga infraestrutura
de TI, servidores e VMs (máquinas virtuais), armazenamento, redes e sistemas operacionais, de um pro-
vedor de nuvem em uma base pré-paga.
PaaS (Plataforma como Serviço)
O serviço PaaS se refere aos serviços de computação em nuvem que fornecem um ambiente sob
demanda para desenvolvimento, teste, fornecimento e gerenciamento de aplicativos de software. O PaaS
foi criado para facilitar aos desenvolvedores criarem aplicativos móveis ou Web rapidamente, sem se
preocupar com a configuração ou o gerenciamento de infraestrutura de servidores, armazenamento, rede
e bancos de dados necessários para desenvolvimento.
1741234 E-book gerado especialmente para MARCOS AURELIO
74
SaaS (Software como Serviço)
O SaaS é um método para fornecer aplicativos de software pela Internet, sob demanda e, normalmen-
te, em uma base de assinaturas.Com o SaaS, os provedores de nuvem hospedam e gerenciam o aplica-
tivo de software e a infraestrutura e fazem manutenções, como atualizações de software e aplicação de
patch de segurança. Os usuários conectam o aplicativo pela Internet, normalmente com um navegador
da Web em seu telefone, tablet ou PC.
BDaaS (Big Data como Serviço)
Pode não ser um termo familiar ainda, mas descreve adequadamente um rápido crescimento deste
novo mercado. Nos últimos anos, muitas empresas surgiram oferecendo serviços de Big Data baseados
em nuvem para ajudar outras empresas e organizações a resolver seus dilemas relacionados a dados.
Tipos de Implantação em Nuvem: Pública, Privada e Híbrida
Nem todas as nuvens são iguais. Há três maneiras diferentes de implantar recursos de computação
em nuvem: nuvem pública, nuvem privada e nuvem híbrida.
Nuvem Pública
Nuvens públicas são de propriedade de um provedor de serviços de nuvem e operadas por ele, que
por sua vez fornece recursos de computação, como servidores e armazenamento pela Internet. O Ama-
zon Web Service, Microsoft Azure e Google Cloud são exemplos de nuvem pública. Com uma nuvem
pública, todo o hardware, software e outras infraestruturas de suporte são de propriedade e gerencia-
das pelo provedor de nuvem. Você acessa esses serviços e gerencia sua conta usando um navegador
Web.
Nuvem Privada
Uma nuvem privada se refere aos recursos de computação em nuvem usados exclusivamente por
uma única empresa ou organização. Uma nuvem privada pode estar localizada fisicamente no datacenter
local da empresa. Algumas empresas também pagam provedores de serviço de terceiros para hospedar
sua nuvem privada. Uma nuvem privada é aquela em que os serviços e a infraestrutura são mantidos em
uma rede privada.
Nuvem Híbrida
Nuvens híbridas combinam nuvens públicas e privadas ligadas por uma tecnologia que permite que
dados e aplicativos sejam compartilhados entre elas. Ao permitir que dados e aplicativos sejam movidos
entre nuvens públicas e privadas, a nuvem híbrida dá aos negócios mais flexibilidade e mais opções de
implantação.
Big Data e Cloud Computing
Assim como plataformas em nuvem estão crescendo de forma acelerada, também percebemos uma
explosão na geração de dados. Nunca a humanidade gerou tantos dados como atualmente e o cresci-
mento do volume de dados é exponencial e constante. O Big Data traz um grande desafio para as empre-
sas. Como coletar, armazenar e analisar esses dados antes que se tornem obsoletos? Qual o custo de
armazenamento de um volume de dados que não para de crescer? Quais as implicações de segurança
de acesso a esses dados, uma vez armazenados na rede interna da empresa e suscetíveis a ataques,
roubos de informação e vírus? Como gerenciar e proteger a essência desses dados em vez de apenas
armazená-los?
1741234 E-book gerado especialmente para MARCOS AURELIO
75
Cloud Computing e Big Data são uma combinação ideal para resolver muitos desses problemas. Jun-
tos, eles fornecem uma solução que é escalável e adaptável para grandes conjuntos de dados e análise
de negócios. A vantagem da análise seria um grande benefício. Imagine todos os recursos de dados
tornando-se facilmente acessíveis e com custo reduzido para a empresa.
Desafios para Big Data na Computação em Nuvem
Assim como o Big Data forneceu às organizações terabytes de dados, também apresentou uma ques-
tão de gerenciar esses dados em uma estrutura tradicional. Como analisar a grande soma de dados para
tirar apenas os bits mais úteis? Analisar esses grandes volumes de dados muitas vezes se torna uma
tarefa muito difícil.
Na era de conectividade de alta velocidade, mover grandes conjuntos de dados e fornecer os detalhes
necessários para acessá-los também é um problema. Esses grandes conjuntos de dados geralmente
transportam informações confidenciais, como números de cartão de crédito/débito, endereços e outros
detalhes, aumentando as preocupações de segurança de dados. Problemas de segurança na nuvem são
uma grande preocupação para empresas e provedores. Mas as pesquisas mostram que um ambiente em
nuvem tende a ser mais seguro que uma rede corporativa.
Portanto, os principais desafios na adoção de Cloud Computing especialmente para projetos de Big
Data, incluem:
- Cultura da empresa que prefere manter os dados “em casa”;
- Falta de conhecimento ou profissionais capacitados para trabalhar com projetos em nuvem;
- Resistência da área de TI em “perder importância” dentro da organização (o que é um erro, pois a
computação em nuvem libera a TI para focar em outras atividades mais críticas para o negócio);
- Problemas com largura de banda para transferência de dados entre a rede da empresa e o Cloud
Provider.
Oportunidades para Big Data na Computação em Nuvem
Mas se existem desafios na adoção de Cloud Computing para projetos de Big Data, também existem
muitas oportunidades e benefícios. Vejamos alguns deles:
- Redução de custo com infraestrutura de TI para armazenamento de grandes conjuntos de dados;
- Redução no custo com licença e manutenção de software;
- Dados acessíveis de qualquer localidade;
- Acesso a infraestrutura de ponta usada pelos Cloud Providers;
- Segurança dos dados normalmente maior do que na rede corporativa;
- Não é necessário se preocupar com detalhes de Engenharia de um datacenter, como luz, energia,
resfriamento etc. (isso fica a cargo do Cloud Provider);
- Escalabilidade, com rápida expansão da infraestrutura para acomodar um novo projeto;
- Capacidade de dimensionamento elástico;
- Foco maior na análise de dados, ao invés de foco no armazenamento;
- Redução nos custos de backup de dados;
1741234 E-book gerado especialmente para MARCOS AURELIO
76
- Recuperação de desastre e continuidade dos negócios.
Soluções para Big Data
Listadas abaixo, temos 10 soluções de big data para fazer análise de dados25.
1) Análise Preditiva
Com esta tecnologia, você pode aprender com o passado, visualizar o presente e prever o futuro. Ela
ajuda a descobrir, avaliar, otimizar e implantar modelos preditivos por meio de inteligência artificial e ma-
chine learning com base em fontes de big data. Com isso, é possível melhorar o desempenho dos negó-
cios, reduzir os riscos e obter muito mais vantagem competitiva.
2) Banco De Dados NoSQL
Em comparação com os bancos de dados relacionais (RDBMS), os bancos de dados NoSQL estão
tendo um crescimento exponencial.
Esse tipo de banco de dados oferece um design com esquema dinâmico, além de ter maior potencial
para personalização e mais flexibilidade e escalabilidade, o que é muito necessário ao armazenar dados
de big data.
3) Ecossistema Hadoop
O Hadoop Framework foi desenvolvido para armazenar e processar dados em diferentes máquinas
com alta velocidade e baixo custo. Isso é possível porque essa ferramenta utiliza um modelo de progra-
mação simples em um ambiente de processamento de dados distribuído.
É importante lembrar que as empresas sempre adotaram o Hadoop como tecnologia de big data. E
ele continua a crescer, ou seja, as organizações que vão começar a explorar o Hadoop agora provavel-
mente verão rapidamente suas vantagens e aplicações.
4) Stream Analytics
A análise de streaming, também conhecida como processamento de fluxo de eventos, é a análise de
enormes pools de dados, em movimento constante e atualizados em tempo real, por meio do uso de con-
sultas contínuas, chamadas de fluxos de eventos.
Utilizando o stream analytics, você pode descobrir padrões ocultos, correlações e outros insights, além
de obter respostas quase imediatas. Com essa tecnologia, é possível fazer upsell, vendas cruzadas para
clientes com base no que as informações apresentam, entre outras ações ágeis.
5) Docker
O Docker é uma solução de big data que simplifica o desenvolvimento, a implantação e a execução de
aplicativos de contêiner. Ou seja, por funcionar em diversas plataformas, ele possibilita o gerenciamento
de contêineres em diferentes sistemas operacionais.
Por causa de suaperspectiva isolada dos sistemas operacionais, é a alternativa ideal para lançar to-
dos os aplicativos de que você precisa com um consumo mínimo de recursos, permitindo construir con-
têineres com apps, implementá-los, escaloná-los e executá-los rapidamente.
25 Lorenzi, L. 10 soluções de big data para uma análise de dados moderna.
1741234 E-book gerado especialmente para MARCOS AURELIO
77
6) Kubernetes
Kubernetes é uma das ferramentas de código aberto para big data desenvolvida pelo Google, que rea-
liza a orquestração de contêineres.
Além disso, oferece a liberdade de uma plataforma para a automação, implantação, escalonamento e
execução de sistemas de contêiner em seu próprio cluster local.
7) Data Lake
Data Lake é um repositório que armazena todos os formatos de dados, sejam eles estruturados, não
estruturados ou semiestruturados.
Os dados podem ser salvos antes de serem transformados, permitindo sua manipulação e análise,
desde o desenvolvimento de painéis de visualização até a transformação de dados em tempo real para
aplicação ágil nos negócios.
As empresas que utilizam data lakes no seu dia a dia conseguem manter-se à frente de seus concor-
rentes, visto que podem realizar diversas análises por meio de arquivos de log, dados de mídia social e
click-streaming.
É uma solução de big data que ajuda as empresas modernas a responderem melhor às oportunida-
des e tomarem decisões habituais mais rápido.
8) Integração de Dados
Para a integração de dados, precisamos de ferramentas que permitam a orquestração deles, como
Apache Hive, Apache Pig, Amazon Elastic Map Reduce (EMR), Hadoop, Couchebase, MongoDB, Apache
Spark etc.
9) Nuvem
São inúmeras as vantagens que as soluções de big data em nuvem oferecem. A internet das coisas
(IoT), por exemplo, talvez ocupe o primeiro lugar nas tecnologias que mais tiram proveito delas.
Aplicativos que envolvem IoT exigem soluções precisas e escaláveis para gerenciar os grandes volu-
mes de dados trocados no seu desenvolvimento e execução, e nada supera os serviços em nuvem para
esse objetivo.
10) Self-Service de Dados
Qualquer tecnologia que simplifique os processos de limpeza, preparação e exploração de dados ten-
de a crescer exponencialmente, e as soluções de self-service de dados estão entre elas.
Seu objetivo é capacitar equipes de negócios e tomadores de decisão em todos os níveis para usar os
dados disponíveis para realizar seus trabalhos de forma eficaz.
1741234 E-book gerado especialmente para MARCOS AURELIO
78
Ciência dos dados
Assunto abordado no tópico: CIÊNCIA DE DADOS: IMPORTÂNCIA DA INFORMAÇÃO.
Ciclo de vida do processo de ciência de dados
Assunto abordado no tópico: CIÊNCIA DE DADOS: IMPORTÂNCIA DA INFORMAÇÃO.
Papeis dos envolvidos em projetos de Ciência de dados e Big Data
Assunto abordado no tópico: CIÊNCIA DE DADOS: IMPORTÂNCIA DA INFORMAÇÃO.
Computação em nuvens
COMPUTAÇÃO EM NUVEM: ACESSO A DISTÂNCIA E TRANSFERÊNCIA DE INFORMAÇÃO
Acesso à Distância à Computadores
O acesso remoto, que é a mesma coisa que acesso à distância a computadores, conecta computado-
res que não estão interligados fisicamente, permitindo a troca de dados26.
A empresa tem um servidor privado e por meio dele consegue acessar o sistema da empresa. Esta
interligação pode ligar vários locais de trabalho.
Esta tecnologia facilita muito o trabalho, pois você pode acessar seu e-mail, arquivos da empresa,
acessar seu computador do trabalho de sua casa, dentre outras facilidades.
O acesso remoto funciona a partir de uma rede virtual conectando vários dispositivos a um servidor
que tem o acesso à rede da empresa.
Normalmente é feito por uma Virtual Private Network – VPN.
VPN: utilizando-se dos recursos físicos da internet podemos criar uma rede privada. A esse tipo de
rede chamamos de VPN (Virtual Private Network) que é uma rede privada virtual construída utilizando a
infraestrutura de uma rede pública como a internet. A VPN mantém os dados seguros enquanto trafegam
pela rede utilizando um protocolo SSL (Secure Sockets Layer), que permite a comunicação criptografada
entre um site e um navegador.
26 CARLOS, E. Acesso à distância a computadores, transferência de informação e arquivos, aplicati-
vos de áudio, vídeo e multimídia.
1741234 E-book gerado especialmente para MARCOS AURELIO
79
Fonte: https://www.techtudo.com.br/noticias/2013/10/o-que-e-acesso-remoto-entenda-tudo-sobre-
-conexao-distancia.ghtml
O acesso remoto tem muitas vantagens como:
- Melhorar a produtividade, pois pode-se fazer reuniões importantes com clientes, parceiros ou mesmo
com a equipe de trabalho que estão geograficamente bem distantes, com maior frequência e com maior
agilidade, pois recebem respostas mais rápidas.
- É mais eficiente, pois baixa o custo da empresa com viagens, estadias, alimentação dentre outros
custos.
Transferência de Informação e Arquivos
Os computadores quando se comunicam acontece uma troca de dados. Quando você acessa uma
página na internet através de seu navegador, você envia os dados para o servidor do site, com isso você
estará fazendo um “upload” e quando você recebe a informação você estará fazendo um “download”.
O termo “download” é muito mais utilizado quando você “baixa” conteúdos da internet como um jogo,
aplicativo, filmes ou músicas que está hospedado no servidor do site que você está acessando.
Já quando o site envia suas informações para seu servidor para ´que todos possam acessá-la pela
internet ele está fazendo um “upload”, ou seja, enviando os dados para o servidor do site.
Para se fazer uma transferência de arquivo utiliza-se o FTP (File Transfer Protocol) que em português
significa Protocolo de Transferência de Arquivos.
Com ele você pode receber e enviar arquivos para servidores remotos e o servidor poderá também
receber e enviar os arquivos.
Você também pode instalar um servidor de FTP em seu computador para você ou outra pessoa aces-
sar seu computador remotamente.
1741234 E-book gerado especialmente para MARCOS AURELIO
80
Fonte: https://br.freepik.com/vetores-premium/transferencia-de-arquivos-transferir-arquivo-de-dados-
-entre-dispositivos-transmissao-de-documentos-entre-dois-computadores-backup-de-informacoes-troca-
-de-dados-envio-de-documento-criptografia-de-dados-conexao-protegida_18453359.htm
Computação em Nuvem
A computação em nuvem é uma tecnologia que permite a distribuição dos seus serviços de computa-
ção e o acesso online a eles sem a necessidade de instalar programas27.
Justamente por não necessitar da instalação de programas, ou do armazenamento de dados, o con-
ceito originado do inglês cloud computing faz alusão à “nuvem”.
Com isso, seus serviços podem ser acessados de maneira remota, de qualquer lugar do mundo e a
hora que você e sua equipe desejarem.
A distribuição dos serviços é feita por meio de uma plataforma de serviços cloud via Internet com uma
definição de preço conforme o uso.
E tal distribuição é determinada pela computação em nuvem, sob demanda de poder computacional,
armazenamento de banco de dados, aplicações e outros recursos de TI da empresa.
De forma mais genérica e resumida, pode-se dizer que a computação em nuvem pode te proporcionar
inovações mais rápidas, recursos flexíveis e economia em escala.
Pagar apenas por aquilo que você usa ajuda a reduzir os custos operacionais, a executar seus proces-
sos com mais eficiência e a realizar mudanças conforme as necessidades da sua empresa evoluem.
Mas essa é apenas uma pequena introdução sobre o que se trata a computação em nuvem. Continue
lendo este post e veja mais sobre seu conceito, benefícios, importância e cuidados.
Como já dissemos, a computação em nuvem é a possibilidade de acessar arquivos e executar diferen-
tes tarefas pela Internet, sem a necessidade de instalar aplicativos no seu computador.
Fonte: https://www.estudopratico.com.br/o-que-e-computacao-em-nuvem/
O armazenamento de dados é feito através uma rede. Assim, para realizar alguma tarefa basta se
conectar ao serviçoonline e desfrutar das suas ferramentas disponíveis.
O trabalho ficará salvo e pronto para que você ou alguém da sua equipe o acesse de qualquer outro
lugar, desde que tenham acesso à Internet.
27 DURBANO, V. Computação em nuvem: tudo que você precisa saber sobre.
1741234 E-book gerado especialmente para MARCOS AURELIO
81
A partir de qualquer computador e em qualquer lugar, as informações, arquivos e programas estarão
disponíveis em um sistema único.
E graças à computação em nuvem, os seus dados não estarão mais salvos em um disco rígido, mas
sim disponíveis na web.
Ótimo exemplos de computação em nuvem são: Google Drive, OneDrive e o Dropbox.
Benefícios da Computação em Nuvem
Não é preciso uma máquina potente, já que todas as tarefas passam a serem executadas em servido-
res remotos.
Sendo assim, não é preciso realizar grandes investimentos iniciais em hardware para a empresa e
perder tempo nas atividades de manutenção e gerenciamento do mesmo.
Outras vantagens de grande importância como, agilidade e praticidade, serão abordadas adiante, pois
esse serviço oferece acesso rápido a recursos de TI flexíveis e de baixo custo.
A computação em nuvem é uma grande mudança na forma tradicional de pensamento adotada pelas
empresas sobre os recursos de TI.
Melhor custo-benefício
Esse é uma das primeiras questões que deve passar na sua mente ou nas de seus diretores quando o
assunto é um novo investimento.
No caso da computação em nuvem você precisa pensar nos gastos que serão deixados de lado. O
valor investido será apenas referente ao que for usado pela sua equipe.
A adoção de serviços cloud elimina gastos de capital com a compra de hardware e alguns softwares e
com a instalação e execução de datacenters locais.
Isso tudo inclui a economia com racks de servidores, disponibilidade constante de eletricidade para
energia e resfriamento.
Redução de tempo
A maior parte dos serviços de computação em nuvem é fornecida sob demanda, com o objetivo de que
até grandes quantidades de recursos possam ser provisionadas em questão de instantes.
Os serviços mais básicos de computação em nuvem, normalmente, com apenas alguns cliques você
adquire os recursos que necessita, aliviando a pressão do planejamento de capacidade da sua gestão de
TI.
Isso significa que o tempo necessário para disponibilizar os recursos aos seus desenvolvedores é
reduzido de semanas para apenas minutos.
O que resulta em um aumento dramático na agilidade da organização, pois, não apenas o custo, mas
o tempo necessário para desenvolvimento é substancialmente mais baixo.
Ação em escala global
Um dos mais incríveis benefícios proporcionados pela computação em nuvem é a capacidade de
dimensionamento elástico. Isto é, capacidade em fornecer a quantidade correta de recursos de TI neces-
sários.
1741234 E-book gerado especialmente para MARCOS AURELIO
82
Para esclarecer um pouco mais, digamos que a potência de computação, o armazenamento e a largu-
ra de banda podem aumentar ou diminuir conforme seja necessário, não importando a origem geográfi-
ca.
É possível implantar facilmente seu aplicativo em várias regiões através do mundo todo com apenas
alguns cliques.
Aumento de produtividade
Os datacenters locais exigem inúmeros equipamentos e implementações, como configuração de hard-
ware, correção de software e outras diversas tarefas de gerenciamento da TI que consomem seu tempo
e produtividade.
A computação em nuvem é capaz de remover a necessidade de muitas dessas tarefas.
Melhor desempenho
Os maiores serviços de computação em nuvem são executados em uma rede mundial de datacenters
seguros, os quais são atualizados regularmente com hardwares de grande velocidade e desempenho,
são de última geração.
E diversos são os benefícios obtidos através de um único datacenter corporativo oriundo da compu-
tação em nuvem, incluindo latência de rede reduzida para aplicativos e mais economia de escalonamen-
to.
Isso tudo faz com que você elimine as suposições ao determinar sua necessidade de capacidade de
infraestrutura.
Com isso, acessa-se aquilo que precisa o quanto for necessário, e pode-se determinar a intensidade
desejada apenas alguns minutos de antecedência.
Segurança
Muitos provedores de computação em nuvem oferecem um amplo conjunto de políticas, tecnologias e
controles que fortalecem sua postura geral de segurança.
E tudo isso te ajuda a proteger os dados, os aplicativos e a infraestrutura contra possíveis amea-
ças.
Tipos de Computação em Nuvem
Há três diferentes maneiras de implantar serviços de nuvem: nuvem pública, nuvem privada ou nuvem
híbrida.
Nuvem pública
Uma nuvem pública pertence a um provedor de serviços cloud terceirizado pelo qual é administra-
da. Esse provedor fornece recursos de computação em nuvem, como servidores e armazenamento via
web.
Com uma nuvem pública, todo o hardware, software e infraestruturas de suporte utilizados são de pro-
priedade e gerenciamento do provedor de nuvem contratado pela sua organização.
É possível acessar esses serviços e realizar o gerenciamento de sua conta utilizando apenas um na-
vegador de Internet.
1741234 E-book gerado especialmente para MARCOS AURELIO
83
Computação em nuvens
Nuvem privada
A nuvem privada, por sua vez, se refere aos recursos de computação em nuvem usados exclusiva-
mente por uma única empresa, podendo estar localizada fisicamente no datacenter local da empresa.
Ou seja, uma nuvem privada é aquela em que os serviços e a infraestrutura de computação em nuvem
utilizados pela empresa são mantidos em uma rede privada.
Algumas empresas podem também optar por realizar a contratação de provedores de serviços de
computação em nuvem terceirizados para hospedar sua nuvem privada
Nuvem híbrida
A nuvem híbrida trata-se da combinação entre a nuvem pública e a privada, que estão ligadas por uma
tecnologia que permite o compartilhamento de dados e aplicativos entre elas.
Esses dados e aplicativos compartilhados podem se mover entre as nuvens privadas e públicas, o que
oferece à sua empresa maior flexibilidade e mais opções de implantação.
O uso de nuvens híbridas na computação em nuvem ajuda também a otimizar a infraestrutura, segu-
rança e conformidade existentes dentro da empresa.
Tipos de Serviços de Nuvem
A maioria dos serviços de computação em nuvem se enquadra em quatro categorias amplas: IaaS
(infraestrutura como serviço), PaaS (plataforma como serviço), sem servidor e SaaS (software como ser-
viço).
Esses serviços podem ser chamados algumas vezes de pilha da computação em nuvem por um se
basear teoricamente sobre o outro.
IaaS (infraestrutura como serviço)
A IaaS é a categoria mais básica de computação em nuvem. Com ela, você aluga a infraestrutura de
TI de um provedor de serviços cloud, pagando somente pelo seu uso.
A contratação dos serviços de computação em nuvem IaaS (infraestrutura como serviço) envolve a
aquisição de servidores e máquinas virtuais, armazenamento (VMs), redes e sistemas operacionais.
PaaS (plataforma como serviço)
PaaS refere-se aos serviços de computação em nuvem que fornecem um ambiente sob demanda para
desenvolvimento, teste, fornecimento e gerenciamento de aplicativos de software.
A plataforma como serviço foi criada para facilitar aos desenvolvedores a criação de aplicativos mó-
veis ou web, tornando-a muito mais rápida.
Além de acabar com a preocupação quanto à configuração ou ao gerenciamento de infraestrutura sub-
jacente de servidores, armazenamento, rede e bancos de dados necessários para desenvolvimento.
Computação sem servidor
A computação sem servidor, assim como a PaaS, concentra-se na criação de aplicativos, sem perder
tempo com o gerenciamento contínuo dos servidores e da infraestrutura necessários para isso.
1741234 E-book gerado especialmente para MARCOS AURELIO
84
O provedor em nuvem cuida de toda a configuração, planejamento de capacidade e gerenciamento de
servidores para você e sua equipe.
As arquiteturas sem servidor são altamente escalonáveise controladas por eventos: utilizando recur-
sos apenas quando ocorre uma função ou um evento que desencadeia tal necessidade.
SaaS (software como serviço)
O SaaS é um método para a distribuição de aplicativos de software pela Internet sob demanda e, nor-
malmente, baseado em assinaturas.
Com o SaaS, os provedores de computação em nuvem hospedam e gerenciam o aplicativo de softwa-
re e a infraestrutura subjacente.
Além de realizarem manutenções, como atualizações de software e aplicação de patch de seguran-
ça.
Com o software como serviço, os usuários podem conectar o aplicativo pela Internet, normalmente
com um navegador da web em seu telefone, tablet ou PC.
Usos da Computação em Nuvem
Veja alguns exemplos do que é possível fazer hoje com os serviços de computação em nuvem e que
está levando tantas organizações a aderirem a técnica aos seus negócios.
Criar novos aplicativos e serviços
Crie, implante e dimensione aplicativos (web, dispositivos móveis e API), rapidamente, com a compu-
tação em nuvem na plataforma que você e sua equipe desejarem.
E, ainda, fica muito mais fácil acessar os recursos necessários para ajudar a atender aos requisitos de
desempenho, segurança e conformidade desejados pela sua empresa.
Testar e criar aplicativos
Com a computação em nuvem, reduz-se o custo e o tempo de desenvolvimento de aplicativos, ou
seja, testar e criar os aplicativos para a organização na qual você trabalha fica muito mais fácil.
E isso é possível através da infraestrutura cloud escolhida que pode ser ampliada ou reduzida com
facilidade de acordo com a necessidade.
Armazenar, fazer backup e recuperar dados
A proteção dos seus dados pode ser realizada de maneira mais econômica – e em grande escala –
quando você os transfere para um sistema de armazenamento cloud.
Precisa-se apenas adotar um sistema de computação em nuvem externo acessível a toda equipe, em
qualquer local e dispositivo.
Analisar os dados
Unificar os dados da sua empresa entre as diversas equipes, divisões e locais, nunca foi tão fácil do
que com a computação em nuvem.
É possível também usar os serviços de nuvem para aprendizado de máquina e inteligência artificial, a
fim de descobrir insights e tomar decisões melhores embasadas.
Transmitir áudio e vídeo
1741234 E-book gerado especialmente para MARCOS AURELIO
85
Conecte-se com o seu público em qualquer lugar e a qualquer hora, através de qualquer dispositivo
com vídeo e áudio de alta definição que possibilite distribuição global.
E o compartilhamento dos dados com o seu consumidor é tangível graças a serviços de computação
em nuvem devidamente escolhidos para o seu negócio.
Inserir inteligência
A computação em nuvem possibilita usar modelos inteligentes para ajudar a envolver os clientes e
fornecer insights importantes com base nos dados capturados.
Fornecer software sob demanda
O SaaS, mencionado anteriormente na seção de tipos de serviços em nuvem, permite oferecer as últi-
mas versões de software e atualizações para os clientes.
E, utilizando a computação em nuvem, o software sob demanda fornece aquilo que os seus consumi-
dores necessitam sempre que precisarem e onde quer que estejam.
Cuidados com a Computação em Nuvem
A computação em nuvem também possui as suas desvantagens. E uma delas diz respeito à seguran-
ça dos dados, que exige grandes cuidados por parte da sua gestão de TI.
Por isso, muitas pessoas não se sentem à vontade em utilizar a computação em nuvem para hospedar
suas informações, temendo que hackers invadam esses serviços cloud e roubem os dados.
Pensando nos cuidados que deve-se ter com a computação em nuvem para que mantenha seguro to-
dos os dados da empresa, as empresas fornecedoras dessa tecnologia investem bastante em segurança
para cloud.
Porém, é importante ressaltar que os fornecedores de computação em nuvem são responsáveis por
apenas uma parte da segurança, dependendo do tipo de nuvem que escolher (SaaS, IaaS e PaaS), e
isso não elimina a responsabilidade e necessidade de fazer a gestão da segurança da sua nuvem.
Outro cuidado muito importante é ter uma conexão estável e rápida para aproveitar melhor a tecnolo-
gia adotada, já que a necessidade de acessar servidores remotos é uma existência diária.
Arquitetura de Big Data
Assunto abordado no tópico: BIG DATA; BIG DATA EM RELAÇÃO A OUTRAS DISCIPLINAS;
Modelos de entrega e distribuição de serviços de Big Data
Assunto abordado no tópico: BIG DATA; BIG DATA EM RELAÇÃO A OUTRAS DISCIPLINAS;
1741234 E-book gerado especialmente para MARCOS AURELIO
86
Plataformas de computação em nuvem para Big Data
Assunto abordado no tópico: BIG DATA; BIG DATA EM RELAÇÃO A OUTRAS DISCIPLINAS;
Linguagens de programação para ciência de dados: linguagem Python e R
PYTHON
Ao longo dos anos, muitas linguagens de programação surgiram e desapareceram, mas uma delas
tem ganhado cada vez mais espaço na rotina de programadores e cientistas de dados: o Python28.
Relativamente simples de aprender, essa linguagem se tornou popular o suficiente para atrair uma
grande comunidade, passando a contar com imensidão de recursos disponíveis.
Caso você esteja cogitando aprender a programar com Python, saiba que esse pode ser o caminho
mais acessível para ingressar no mercado de Data Science.
O Python é uma linguagem de programação de alto nível amplamente utilizada no desenvolvimento
de aplicativos e softwares, assim como na análise e computação de dados numéricos e científicos.
Ele foi criado por Guido van Rossum e lançado oficialmente em fevereiro de 1991. Sua versatilidade,
em conjunto com a facilidade de uso para iniciantes, a tornou uma das linguagens de programação mais
usadas até os dias de hoje.
Por ser de uso geral, essa linguagem pode ser utilizada para criar uma infinidade de programas di-
ferentes. No contexto de Data Science, o Python serve para realizar análises de dados e recursos de
Machine Learning.
Muitos sites e aplicativos conhecidos, como Google, Dropbox, Instagram, Spotify e o próprio YouTube,
foram todos construídos com Python.
Além disso, uma enorme comunidade de código aberto (open source) cresceu em torno dessa lingua-
gem. Isso impulsionou uma série de ferramentas que ajudam os programadores a trabalhar com ele de
forma eficiente.
Até aqui, já deu para ter uma ideia do porquê o Python está entre os queridinhos dos programadores.
E isso tem a ver com vários motivos.
O primeiro deles é que essa linguagem de programação é relativamente simples de aprender, além de
utilizar um código limpo e fácil de compreender. Por esses e outros motivos, não é de surpreender que a
maioria dos programadores esteja familiarizada com ela.
O conhecimento de Python para Data Science ou Análise de Dados sem dúvida será uma vantagem
para qualquer um que esteja querendo ingressar em alguma dessas áreas.
28 https://bit.ly/3VYjXbk
1741234 E-book gerado especialmente para MARCOS AURELIO
87
Por que Utilizar Python para Data Science?
Nos últimos anos, muitas ferramentas foram desenvolvidas especificamente para Data Science, tor-
nando mais fácil do que nunca analisar dados com Python.
Desde seus primeiros dias como uma linguagem utilitária, o Python cresceu e se tornou uma força
importante em Inteligência Artificial (IA), Machine Learning (ML) e Big Data.
Uma das principais razões pelas quais essa linguagem é usada para Data Science é o fato de que ela
já provou repetidas vezes ser capaz de resolver problemas complexos com eficiência.
Embora outras linguagens de programação, como R e SQL , sejam altamente eficientes para uso no
campo da Ciência de Dados, o Python se tornou a linguagem preferida dos cientistas de dados.
Com a ajuda de bibliotecas focadas em dados (como NumPy e Pandas), qualquer pessoa familiari-
zada com as regras e a sintaxe do Python pode implantá-lo rapidamente como uma ferramenta robusta
para processar, manipular e visualizar dados.
Sempre que você fica “preso”, também é relativamente fácil resolver problemas relacionados aoPy-
thon devido à grande quantidade de documentação gratuita disponível.
Além disso, o apelo dessa linguagem vai além da engenharia de software, servindo também para
aqueles que trabalham em áreas não técnicas. Em outras palavras, ela torna a análise de dados acessí-
vel para equipes e áreas mais estratégicas, como de Negócios e Marketing.
Devido ao código limpo e lógico escrito em Python, outra vantagem é que os cientistas de dados estão
menos propensos a lidar com problemas de criptografia ou vazamentos de memória ao utilizar essa lin-
guagem.
Mesmo que você não trabalhe em IA, ML ou análise de dados, o Python ainda é vital, por exemplo,
para o desenvolvimento Web e o desenvolvimento de interfaces gráficas de usuário (GUIs).
Aprendendo Programação Python
Não podemos falar sobre como aprender Python para Data Science sem antes conhecer algumas
das estruturas de dados subjacentes disponíveis.
Eles podem ser descritos como um método de organização e armazenamento de dados de maneira
facilmente acessível e modificável.
Algumas das estruturas de dados que já estão incorporadas em Python incluem:
- Dicionários: são colocados entre chaves d = {“a”:1, “b”:2}
- Listas: estão entre colchetes l = [1, 2, “a”]
- Sets (ou conjuntos): também são colocados entre chaves s = {1, 2, 3}
- Tuples: são colocadas entre parênteses t = (1, 2, “a”)
- Strings: qualquer série de caracteres interpretada literalmente por um script. Por exemplo,
“hello world”
Listas, strings e tuples são sequências ordenadas de objetos. Tanto as listas quanto as tuples são
como arrays (em C++) e podem conter qualquer tipo de objeto, mas as strings podem conter apenas
caracteres.
1741234 E-book gerado especialmente para MARCOS AURELIO
88
As listas são contêineres heterogêneos para itens, mas elas são mutáveis e podem ser reduzidas ou
estendidas conforme necessário. Os tuples também são consideravelmente mais rápidos e exigem me-
nos memória.
Os Sets, por outro lado, são sequências mutáveis e não ordenadas de elementos únicos. Na verdade,
um set é muito parecido com um conjunto matemático, pois não contém valores duplicados.
Um dicionário em Python contém pares de valor-chave (Key–value), mas você não tem permissão
para usar um item que não pode ser compartilhado como chave. A principal diferença entre um dicionário
e um set é o fato de que ele contém pares de valores-chave em vez de valores únicos.
Todos os itens que vimos acima têm suas próprias vantagens e desvantagens. Sendo assim, você
precisa saber onde usá-los para obter os melhores resultados.
Ao lidar com grandes conjuntos de dados, você também terá que gastar uma quantidade considerável
de tempo “limpando” dados não estruturados.
Isso significa lidar com dados com valores ausentes ou com valores discrepantes e sem sentido, ou
até mesmo com uma formatação inconsistente.
Portanto, antes de se envolver na análise de dados propriamente dita, você precisa dividir os dados
em um formulário com o qual possa trabalhar. Isso pode ser alcançado facilmente aproveitando o NumPy
e o Pandas.
Como Dominar as Principais Ferramentas e Bibliotecas na Análise de Dados?
Vimos que o Python é uma linguagem extremamente versátil. Mas isso só é possível porque ele conta
com diferentes bibliotecas, entre as quais estão os chamados Python Web Frameworks — bibliotecas
Python usadas no desenvolvimento de aplicações web.
Esses frameworks são bastante úteis em Data Science, especialmente por permitirem a execução de
soluções de forma integrada com outras aplicações no servidor.
Ao trabalhar em um projeto do mundo real, você não pode prosseguir com o entendimento apenas do
python, mas com certeza vai precisar aprender alguns conceitos e bibliotecas Python específicas para
conseguir desenvolver uma aplicação.
As quatro bibliotecas Python mais importantes são:
1. NumPy: o uso dessa biblioteca possibilita uma variedade de operações matemáticas e estatísticas.
Ela é também a base para muitos recursos da biblioteca de Pandas.
2. Pandas: uma biblioteca Python criada especificamente para facilitar o trabalho com dados. Este é o
pão com manteiga de muito trabalho de ciência de dados Python.
3. Matplotlib: uma biblioteca de visualização que facilita e agiliza a geração de gráficos a partir de seus
dados.
4. Scikit-learn: a biblioteca mais popular para trabalho de aprendizado de máquina em Python.
Sendo assim, além do básico sobre Python e suas bibliotecas, você também precisa conhecer suas
finalidades e formas de uso. As principais delas incluem:
1741234 E-book gerado especialmente para MARCOS AURELIO
89
- Manipulação e limpeza de dados: a parte mais importante da ciência de dados é organizar os dados
e limpá-los, eliminar todos as discrepâncias indesejadas. Para esse processo, as bibliotecas Python que
você deve aprender são Numpy e Pandas;
- Visualização de dados: outro aspecto importante em Data Science é a visualização de dados. Esse
processo consiste basicamente em representar os dados na forma de gráficos, barras, histogramas etc.
Uma das bibliotecas Python que você precisa dominar para isso é o Matplotlib .
- Análise e Machine Learning: para encontrar um padrão a partir dos dados usando aprendizado de
máquina, é preciso aprender estruturas Python como Scikit-learn, Tensorflow.
Sintaxe da Linguagem
Python possui um conjunto de regras de escrita que definem como um algoritmo é interpretado, pos-
suindo um layout visual relativamente organizado e utilizando, com frequência, palavras em inglês29.
Python usa indentação como delimitação de blocos. A seguir, podemos ver dois exemplos de indenta-
ção, apresentando dois modos.
Modo errado de indentação:
Modo correto de indentação:
Se o bloco tem apenas um comando, pode-se escrever tudo em uma linha:
Para colocar comentários no código, utiliza-se hashtag (comentários de uma linha), aspas simples e
aspas duplas (comentários de várias linhas):
29 https://www.ufsm.br/app/uploads/sites/679/2019/08/Apostila_Python_v_1.pdf
1741234 E-book gerado especialmente para MARCOS AURELIO
90
Hello World
Como de costume na programação, a impressão da frase Hello World é utilizada como o primeiro
programa ao se iniciar numa nova linguagem. Isso é apenas um costume adotado por alguns programa-
dores, não sendo regra.
Contudo, para o fim a que se destina este material, essa impressão pode ser utilizada para se fazer
alguns apontamentos introdutórios sobre a linguagem Python.
Portanto, abaixo é representada a forma básica de como imprimir a frase Hello World em Python.
Como é possível observar, para a impressão da frase em questão, basta uma única linha de código.
Contudo, para que isso seja possível, é necessário o uso da função print(), a qual vem como padrão no
interpretador do Python. Com essa função, o programador pode apenas digitar qualquer caractere possí-
vel dentro do abre e fecha aspas, sendo que essas aspas podem ser tanto aspas simples (‘’) como aspas
duplas (“”).
Em Python, a instrução print() é uma função devido ao fato do uso dos parênteses. Contudo, em Py-
thon 2, essa instrução não é uma função pois não faz uso dos parênteses, como no exemplo abaixo:
Ambas as formas são parecidas, porém existe distinção entre uma função e uma instrução.
Variáveis
Variáveis podem ser entendidas como um dos assuntos mais básicos presentes em todas as lingua-
gens de programação. É necessário que a linguagem consiga entender qual o tipo de valor que o progra-
mador está utilizando, pois é dessa forma que ela pode executar o programa de forma correta.
Em Python, pode-se descobrir qual o tipo da variável através do interpretador utilizado. Para isso,
basta utilizar a função type() e a variável dentro dos parênteses desta função no prompt de comando do
interpretador ou na IDE utilizada, como segue no exemplo mostrado abaixo:
1741234 E-book gerado especialmente para MARCOS AURELIO
91
Como é possível observar, o número 1 corresponde ao tipo int, que significa uma variável inteira. Onúmero 1.1 corresponde ao tipo float, que significa uma variável com ponto flutuante. O número 1 + 1.1j
corresponde ao tipo complex, que representa uma variável complexa. A frase Minicurso corresponde ao
tipo str, que significa uma variável do tipo string. O último exemplo da utilização da função type() resultou
num tipo list, que é uma lista.
Para a declaração de uma variável, basta fazer sua atribuição. Devido ao alto nível da linguagem
Python, torna-se desnecessário se declarar uma variável do tipo int, float ou str, como se faz em outras
linguagens de programação, como C, por exemplo.
Porém, existem algumas restrições para nomes de variáveis. Para variáveis, não se pode iniciar seu
nome com um número e não se pode utilizar caracteres ilegais.
Além disso, não se podem utilizar palavras-chave do Python como variáveis. Na figura abaixo, são
listadas algumas palavras-chave do Python.
As variáveis são criadas aos serem atribuídas e são destruídas pelo coletor de lixo (garbage colector),
quando o interpretador entende que não há mais referências a ela.
Os tipos de variáveis podem ser classificados em mutáveis ou imutáveis. Os tipos mutáveis permitem
que as variáveis atribuídas a eles sejam alteradas, ao passo que as variáveis dos tipos imutáveis não
podem ser alteradas após sua atribuição.
Dessa forma, abaixo é demonstrado como se declarar alguns tipos de variáveis.
1741234 E-book gerado especialmente para MARCOS AURELIO
92
Destaca-se que, para variáveis do tipo mutáveis, sua alteração para outro tipo de variável é feita de
forma dinâmica, como no exemplo abaixo em que a variável d é um inteiro, depois é um número comple-
xo e por fim se torna uma lista.
Por fim, vale destacar que existem variáveis que podem assumir o tipo bool, representando valores
booleanos. Ou seja, são variáveis que podem assumir o resultado True quando verdadeiro, ou False
quando falso.
Expressões Aritméticas
Outro assunto de grande importância ao universo da programação são as expressões utilizadas em
cada linguagem. Em Python, as expressões aritméticas não fogem ao comum encontrado em outras lin-
guagens de programação e são de fácil entendimento.
Os operadores +, -, *, / e % executam, respectivamente, adição, subtração, multiplicação, divisão de
dois números e o último retorna o valor do resto da divisão entre dois números.
Desses operadores, estendem-se outras duas operações, que são, respectivamente, a operação de
exponenciação representada por **, e a operação de divisão que resulta na parte inteira da divisão re-
presentada por //. Destaca-se que a operação de divisão simples / sempre resulta num valor do tipo float.
Abaixo estão representadas essas operações:
1741234 E-book gerado especialmente para MARCOS AURELIO
93
Expressões Lógicas
Seguindo o raciocínio das expressões aritméticas, as expressões lógicas possuem demasiada re-
levância para a lógica da programação. Isso devido ao fato de serem utilizadas, em muitos casos, em
maior número do que as expressões aritméticas.
Seja em laços de repetição ou em comparações lógicas, as expressões lógicas, os operadores relacio-
nais e os operadores bitwise são muito relevantes.
Diante disso, destaca-se que em Python é possível a criação e a análise de intervalos. Ou seja, é
possível utilizar um intervalo como uma estrutura lógica. Um exemplo dessa utilização é mostrado na
abaixo.
Entrada e Saída de Dados
Em Python, a forma básica e geral de entrada de dados é através da função “input()”. Essa é a função
que permite ao usuário do programa inserir um dado, sendo que o mesmo pode ser endereçado a uma
variável previamente programada.
Essa função “input()”, converte tudo o que for inserido em uma variável do tipo string. Ou seja, para
que se possa inserir números (int, float ou complex), é necessário que sejam feitas as devidas conver-
sões. Para isso, basta utilizar a função do tipo de variável que se deseja converter com a função “input()”
dentro dos parênteses.
1741234 E-book gerado especialmente para MARCOS AURELIO
94
Operadores lógicos, relacionais e bitwise.
Para converter um número inserido pelo usuário em um número inteiro, basta escrever tipo_para_o_
qual_se_deseja_converter(input()). Por exemplo, para converter a leitura de um número para inteiro,
utiliza-se int(input()), se a conversão deve ser feita para um número com ponto flutuante, basta escrever
float(input()).
Além disso, a função input() permite ao programador escrever alguma mensagem a ser lida pelo usuá-
rio no momento da inserção do dado. Para isso, basta escrever a mensagem dentro dos parênteses da
função input(), estando contida dentro das aspas (simples ou normal).
O exemplo apresentado abaixo ilustra os casos mencionados anteriormente.
Para a conversão de variáveis entre os tipos possíveis, basta seguir o mesmo raciocínio acima. Isso
vale tanto para conversão de um tipo str para um tipo int, float ou complex, como para a conversão de um
tipo float, int ou complex para um tipo str.
Para a saída de dados em Python, a forma mais básica e geral é através do uso da função print().
Essa função permite ao programador imprimir na tela do usuário as informações desejadas.
O funcionamento dessa função é simples. Para se imprimir um texto, basta colocá-lo dentro de aspas
(simples ou normal). Para se imprimir os valores de variáveis, basta escrever o nome da variável deseja-
da. Caso a variável for diferente do tipo string, deve-se acrescentar uma vírgula para separá-la de outras
variáveis ou do texto dentro das aspas; caso a variável for do tipo string, então deve-se acrescentar o
operador +, que simbolizará a concatenação de strings. Abaixo é apresentado um exemplo de utilização
da função print().
1741234 E-book gerado especialmente para MARCOS AURELIO
95
Caso haja interesse e/ou necessidade, os valores (quaisquer) das variáveis a serem impressas atra-
vés da função print() podem ser convertidos ao tipo string e concatenados com o operador +.
A concatenação de strings é, de forma prática, a soma de uma string com outra. Por exemplo, a =
‘Um’, b = ‘ Dois’ e c = a + b. Se a variável c for printada, o resultado será “Um Dois”. Dessa forma, qual-
quer string também
pode ser repetida utilizando o comando n * string, onde n é o número (inteiro) de repetições e string é
a string a ser repetida. Abaixo é exemplificado este processo:
Uma outra forma de se utilizar a função print(), é através da interpolação das variáveis dentro do es-
paço destinado ao texto (dentro das aspas). Para isso, deve-se saber previamente qual o tipo de variável
e escrever a função com o operador % junto da letra que corresponde à variável a ser interpolada. Na
tabela abaixo estão indicados os símbolos usados na interpolação das variáveis.
1741234 E-book gerado especialmente para MARCOS AURELIO
96
Símbolos utilizados para interpolação de strings.
Abaixo é exemplificado o uso desses símbolos na interpolação de strings com a função print().
Atribuição
Em Python, assim como em uma ampla gama de linguagens de programação, as atribuições são feitas
através do operador =, sendo que o valor à esquerda do operador recebe o valor à direita desse. Dessa
forma, as variáveis são atribuídas, as listas, vetores e outras estruturas são iniciadas.
Um exemplo simples é mostrado abaixo.
Também é possível fazer novas atribuições à mesma variável, fazendo com que a mesma assuma
valores de tipos diferentes em momentos diferentes do programa. Isso é exemplificado abaixo:
1741234 E-book gerado especialmente para MARCOS AURELIO
97
LINGUAGEM R
R é uma linguagem versátil, desenvolvida por dois pesquisadores do departamento de Estatística da
Universidade Auckland, na Nova Zelândia30. Ela surgiu a partir da necessidade de um programa que
auxiliasse na manipulação, análise e visualização de dados.
Além disso, a linguagem conta com uma série de pacotes para fins estatísticos, que servem para o
desenvolvimento de algoritmos de séries temporais, análise de sobrevivência,adicional sem fazer o sistema de destino funcionar em registros irre-
levantes.
Dados de uma fonte de comprimento fixo sendo filtrados para exibir registros dos EUA.
No exemplo de transformação de dados acima, o filtros a transformação é aplicada em um documento
de origem Fixed Length para mostrar registros apenas dos EUA.
Definindo a expressão que será usada para filtrar os dados.
1741234 E-book gerado especialmente para MARCOS AURELIO
7
Classificação de Dados
As grandes empresas geralmente precisam classificar seus dados para torná-los mais gerenciáveis. o
tipo a transformação pode ser aplicada a qualquer campo para organizar a saída em ordem crescente ou
decrescente.
Aqui está um exemplo no qual a transformação Classificar é usada para exibir registros de ID do clien-
te em ordem decrescente:
A visualização dos dados do cliente armazenados no banco de dados SQL Server é classificada em
ordem decrescente de CustomerID
Isso foi feito selecionando o campo CódigoDoCliente e selecionando a ordem de classificação como
decrescente da seguinte maneira.
Propriedades da transformação Classificar
A caixa Retornar somente valores distintos também pode ser marcada para remover redundâncias e
exibir registros exclusivos.
Benefícios da Transformação de Dados
As ferramentas de transformação, quando usadas corretamente, podem melhorar significativamente
a qualidade dos dados e melhorar a eficiência do processo. Os dados transformados são mais fáceis de
usar, confiáveis e compatíveis com os sistemas e aplicativos finais. Os dados transformados de alta qua-
lidade garantem que o sistema de destino tenha apenas dados com o formato e a estrutura exigidos.
Aqui estão alguns outros benefícios das ferramentas de transformação de dados:
- Eles podem ajudar as empresas a colher o máximo valor de seus dados.
1741234 E-book gerado especialmente para MARCOS AURELIO
8
- A padronização de dados por meio de transformações pode melhorar o gerenciamento de dados.
- Os dados transformados podem ser utilizados por várias ferramentas para diferentes aplicativos,
como visualizações, relatórios, análises etc.
Análise de dados. Agrupamentos. Tendências. Projeções
FUNDAMENTOS SOBRE ANÁLISE DE DADOS
A análise de dados é um procedimento que visa transformar números e informações em insights para
a tomada de decisão6. Apesar de ser usada em diferentes áreas, é no universo corporativo que a técnica
ganha destaque.
Com a transformação digital e a internet, as empresas passaram a trabalhar com um grande volume
de dados, como contratos, informações financeiras dos clientes, perfil de compra dos consumidores, es-
tratégias de mercado e indicadores de desempenho.
O processo, então, surge como o responsável por transformar um banco de dados muito volumoso e
desestruturado, característico do Big Data, em oportunidades reais. Ou seja, fazer com que relatórios e
números possam ser usados a favor do desenvolvimento empresarial.
Tipos de Análise de Dados
Coletar as informações é apenas a primeira etapa do processo, sendo necessário usar boas táticas
para aproveitar todo o potencial que elas têm.
Portanto, é interessante conhecermos um pouco mais sobre os tipos de análise de dados.
Análise Preditiva
A análise preditiva utiliza fatos do passado para visualizar e prever eventos futuros. Exatamente por
isso, é uma das técnicas mais demandadas no dia a dia das empresas, ajudando-as a se protegerem dos
riscos e a aproveitarem melhor as oportunidades.
Para colocá-la em prática, é necessário coletar dados das mais diversas fontes para cruzamento de
informações que vão enriquecer a análise e trazer insights preditivos e inteligentes.
Análise Prescritiva
A análise prescritiva pode ser confundida com a preditiva, mas, apesar das semelhanças, seu objetivo
é diferente: ela não foca em prever o futuro, mas, sim, em determinar as consequências das decisões
tomadas.
Sua ideia central, portanto, é identificar as melhores estratégias, de acordo com os padrões existen-
tes. Desse modo, por meio de decisões mais assertivas, ela contribui para a melhoria do desempenho
empresarial.
Análise Descritiva
A análise descritiva faz uma mineração dos dados em tempo real, visando encontrar respostas rápidas
e seguras para as diversas questões existentes no dia a dia de uma empresa.
6 https://www.cortex-intelligence.com/
1741234 E-book gerado especialmente para MARCOS AURELIO
9
Perceba que o estudo é feito para embasar decisões no presente, e não no futuro.
Análise Diagnóstica
A análise diagnóstica tem como objetivo fazer uma verificação mais ampla e geral sobre determinada
situação.
Assim, enquanto a descritiva cuida da análise de crédito, ela foca em traçar um perfil de comporta-
mento do consumidor e melhorar suas ações de marketing e vendas, por exemplo.
Em outras palavras, esse procedimento usa os dados para ajudar no planejamento empresarial, já que
os diagnósticos feitos mostram padrões e informações gerais.
Como Funciona a Análise de Dados?
Conforme ficou demonstrado, entender o que é análise de dados e utilizá-la são processos de extrema
importância para as empresas.
Afinal, essa prática é a responsável pelo aproveitamento de todo o potencial das informações que uma
companhia tem, transformando-as em chances reais de crescimento.
Ainda assim, muitos gestores têm dúvidas sobre o uso do Big Data para negócios. Veja, abaixo, as
etapas que devem ser seguidas durante suas análises.
Qual é a Finalidade da Análise de Dados Automatizada?
Mas, afinal, para que serve a análise de dados? Como você viu, um negócio, por menor que seja, gera
muitas informações, e elas precisam ser analisadas por ferramentas específicas em uma prática automa-
tizada chamada Big Data Analytics.
Explorar todas as informações é uma atividade complexa e que, obviamente, não pode ser feita de
maneira manual — a menos que você esteja disposto a perder muito tempo do seu dia com essa tarefa.
É aí que entra a automação da análise de dados.
Essa técnica permite que empresários e gestores tenham acesso aos dados e consigam extrair infor-
mações relevantes. Sua função, portanto, é identificar riscos e oportunidades de negócio e facilitar as
tomadas de decisão.
1741234 E-book gerado especialmente para MARCOS AURELIO
10
Tudo isso de forma mais rápida e eficiente, sem a necessidade de desgastantes trabalhos manuais.
Benefícios da Análise e Interpretação de Dados?
É papel da gestão tomar decisões e conduzir a equipe no caminho correto. Entretanto, essas tarefas
são complexas e exigem muita estratégia e planejamento.
Nesse contexto, a análise de dados entra em cena para definir quais direções seguir de acordo com
o que é mais vantajoso para a empresa. Mas isso não é tudo. Abaixo, mais alguns pontos que provam a
sua relevância.
Visibilidade Sobre o Mercado
Para conquistar bons resultados, é preciso conhecer bem o mercado em que se atua ou deseja atuar.
Saber mais sobre a concorrência, fornecedores, colaboradores e clientes é algo que não pode ficar em
segundo plano.
É exatamente por isso que a análise de dados é essencial. Após uma pesquisa de mercado, o gestor
tem acesso a informações e consegue trabalhá-las para executar um planejamento estratégico mais
eficiente.
Compreensão das Necessidades do Cliente
O consumidor é a razão de existir de qualquer empresa, sendo imprescindível mantê-lo satisfeito. A
melhor maneira de fazer isso é usando dados confiáveis e atualizados.
Durante a jornada do cliente, ele deixa muitas pistas sobre aquilo de que gosta e precisa. A análise
de dados reúne essas informações e as transforma em oportunidades. Ou seja, você conhecerá melhor
seus compradores e poderá fazer um atendimento personalizado.
Formação de um Diferencial de Mercado
Encontrar um diferencial de mercado é fundamental para a sobrevivência das empresas. No entanto,
nem sempre isso é fácil de alcançar.
Acontece que a análise de dados favorece a inteligência de mercado, tornando o negócio muito maisaprendizado de máquina e
outros.
Nesse sentido, o R é multiplataforma, isto é, pode ser executado em diferentes sistemas operacionais,
como Windows, Linux e Macintosh, é dinamicamente tipado, orientado a objetos e possui código aber-
to31.
Pelo fato de a linguagem R ser amplamente utilizada na manipulação, análise e visualização de da-
dos, muitas vezes ela nem chega a ser considerada como linguagem de programação, mas sim como um
produto estatístico especializado.
Convém mencionar que além da linguagem R, existe também o ambiente para computação estatística
e gráficos R, que é um conjunto integrado de instalações de software. No entanto, neste conteúdo, falare-
mos especificamente da linguagem.
Para que Serve a Linguagem R?
O R é uma linguagem de programação estatística e gráfica. Por essa razão ela se tornou largamente
aplicada e utilizada na manipulação, análise e visualização de dados, sobretudo no Business Analyti-
cs.
Por isso, como veremos mais à frente, a linguagem R pode ser utilizada em todo o processo analítico
dos dados, como coleta, mineração, Machine Learning, interpretação e apresentação desses a partir de
gráficos.
Mas, além disso, essa também linguagem oferece uma diversidade de modelagens, análise de séries
temporais, clustering, testes estatísticos clássicos, entre outros.
30 SARAIVA, D. Linguagem R: o que é, para que usar e por que aprender?
31 https://bit.ly/3UZ9B9C
1741234 E-book gerado especialmente para MARCOS AURELIO
98
Assim, ela contribui amplamente para a pesquisa científica, o desenvolvimento de softwares, as ciên-
cias sociais, entre outras importantes áreas.
Convém mencionar que grandes empresas utilizam a linguagem R para recomendações e modelagem
de comportamentos dos usuários, como o FourSquare e o Facebook.
Por que Aprender a Linguagem R?
A linguagem R tornou-se popular graças a sua versatilidade na manipulação de dados. Nesse sentido,
a sua utilidade é aplicada em diferentes áreas de negócio, indústrias e até mesmo no poder público. Além
disso, é um concorrente de sistemas como o SAS, que apesar de oferecer um ótimo desempenho como
ferramenta estatística, por sua vez, é um sistema caro que limita os usuários que desejam iniciar os seus
projetos estatísticos.
Os exemplos abaixo mostram porque aprender a linguagem R é tão importante e quais são os seus
principais benefícios:
- Open Source, por ser uma linguagem de código aberto, R está sendo constantemente atualizada e
qualquer pessoa pode contribuir para o desenvolvimento da linguagem criando novos pacotes e funcio-
nalidades;
- 100% Gratuito. Com R você tem acesso a uma tecnologia de ponta e não precisa pagar nada por
isso;
- Fácil integração. O R é facilmente integrado com outras linguagens de programação como Java,
Python e C. Também é possível utilizar Latex e Markdown no R para a criação dos seus relatórios. Além
disso, é possível importar e exportar dados do Excel;
- Aumenta as oportunidades: a linguagem R está dominando o mercado de trabalho e cada vez mais é
importante saber a linguagem no meio corporativo. Nesse sentido, aprender R aumenta as suas oportuni-
dades em carreiras como Data Science.
Como Funciona a Linguagem R?
Para quem se pergunta como funciona a linguagem R, saiba que programar com ela é uma tarefa bem
simples, até mesmo para quem ainda não é programador.
Primeiramente, porque ela já vem com uma boa variedade de pacotes pré-instalados. Isso faz com
que seja necessária a instalação apenas daqueles mais específicos que, naturalmente, variam conforme
as necessidades e os objetivos de cada desenvolvedor.
Com ela, também é possível realizar atividades de forma simplificada com a passagem de uma ou
duas funções para contemplar as demandas matemáticas e processamentos de dados que são conside-
rados mais complexos e rebuscados.
Ainda com relação ao funcionamento da linguagem R, vale dizer que os seus scripts podem ser cria-
dos e empacotados como bibliotecas.
Além disso, essa linguagem tem a possibilidade de ser utilizada no ambiente R – o R Studio –, o que
torna muito mais fácil o seu funcionamento.
Isso porque esse IDE oferece teclas de atalho, interações gráficas, gerenciamento de janelas, entre
outros recursos que podem ser acionados para evitar os comandos mais complexos da programação.
1741234 E-book gerado especialmente para MARCOS AURELIO
99
Principais Características da Linguagem R?
Abaixo, listamos as principais, que podem interferir diretamente na rotina de um profissional de TI.
Dinamicamente Tipada
Como mencionamos no início deste conteúdo, a linguagem R é dinamicamente tipada. Isso significa
que é possível alterar os tipos de dados existentes nas variáveis em programas que já estejam em exe-
cução.
Nesse sentido, é possível ter maior fluidez na hora da programação, pois fica dispensada a realização
de conversões dos tipos de dados.
Recursos de Inteligência Artificial (IA)
Essa linguagem contém recursos que oferecem suporte à Inteligência Artificial (IA), como o Machine
Learning e o Deep Learning.
Isso quer dizer que essa importante característica é essencial para que o R desempenhe as suas
ações junto à inteligência de dados.
Integração com Outras Ferramentas
Para desempenhar mais funções e atender às demandas específicas do programador, a linguagem R
pode ser integrada a muitas outras soluções, como o GitHub, Python, Java, C, Excel e ferramentas para
criação de relatórios.
Assim, através da integração, ela consegue fornecer recursos diversos ao profissional sem que ele
precise recorrer a outros meios de forma segregada.
Suporte ao Big Data
Naturalmente, uma das mais importantes características da linguagem R é o seu exímio suporte ao
Big Data, isto é, à vasta quantidade de dados produzidos.
Como já falamos algumas vezes durante este artigo, o R possibilita a imersão no estudo dos dados,
identificando padrões, modelando, entre outras ações. Além disso, ele também facilita a visualização des-
sas informações em gráficos e relatórios.
Código Aberto e Comunidade Ativa
A linguagem R é um código aberto, isto é, ela pode ser desenvolvida por vários usuários espalhados
pelo mundo. Essa condição permite que ela apresente sempre melhorias e otimizações necessárias para
o bom trabalho dos profissionais.
Somado a isso, vale dizer que ela possui cerca de 2 milhões de usuários em sua comunidade ativa.
Isso, naturalmente, contribui para o compartilhamento de dicas e para que os profissionais, iniciantes ou
veteranos, possam tirar suas dúvidas mais complexas.
Exemplos de Aplicações da Linguagem R
As aplicações da linguagem R são diversas dentro da área de inteligência de dados, sendo as princi-
pais: Data Science, Machine Learning e Estatística Computacional.
1741234 E-book gerado especialmente para MARCOS AURELIO
100
Data Science
O Data Science (ciência de dados, em português), é uma área que vem se expandindo muito em ra-
zão da quantidade de dados existentes em ambiente digital. Inclusive, já falamos aqui no blog Remessa
Online sobre o cientista de dados, profissão muito promissora em razão desse contexto.
Nesse sentido, a linguagem R contribui consideravelmente para essa ciência e para os profissionais
da área, uma vez que auxilia na coleta, mineração, interpretação e visualização dos dados, algo muito
importante para a tomada de decisão nas organizações nos dias atuais.
Machine Learning
O Machine Learning (aprendizagem de máquinas, em português) é a área da IA baseada em algorit-
mos matemáticos e automação, na qual os computadores aprendem a desempenhar determinada tare-
fa.
Nesse sentido, a linguagem R contribui para a realização desse processo por meio do manuseio de
modelos de regressão linear e não linear, clusterização e outros pacotes direcionados para análises pre-
ditivas.
Estatística Computacional
Uma outra aplicação da linguagem R é no desenvolvimento de softwares de estatísticas. Inclusive,
muitos profissionais da área, como estatísticos e pesquisadores,utilizam-na para esse fim, sobretudo em
ambiente acadêmico.
Sendo assim, a estatística computacional também é servida por essa linguagem dinamicamente tipa-
da.
Habilidades Necessárias para Programar em R
Além de ter conhecimento da lógica de programação, obviamente, o desenvolvedor que deseja traba-
lhar com a linguagem R também precisa apresentar algumas outras importantes habilidades.
Princípios da Matemática e Estatística
Como você deve ter percebido até aqui, a matemática e a estatística são a base da linguagem R, não
é mesmo?
Sendo assim, o profissional precisa conhecer alguns conceitos nessas áreas para poder compreen-
der a lógica dessa programação e executá-la, sendo alguns deles: modelos estatísticos, álgebra linear e
regressão linear e múltipla.
Princípios da Ciência de Dados
Por ser uma linguagem totalmente orientada para as estatísticas, a linguagem R acaba sendo uma
importante aliada da ciência de dados. Por isso, conhecer os princípios dessa área é essencial.
Alguns exemplos do que é preciso conhecer são: Inteligência Artificial (IA), Machine Learning, Data
Mining, Big Data, visualização de dados, bancos de dados, entre outros segmentos que estejam relacio-
nados ao Data Science.
1741234 E-book gerado especialmente para MARCOS AURELIO
101
Capacidade Analítica
Ter capacidade analítica para aferir os problemas e as principais necessidades de um trabalho tam-
bém é essencial para que um programador consiga colocar nos códigos o que é esperado pelo cliente ou
pela empresa para a qual presta serviços.
Isso quer dizer que é preciso conseguir analisar os diferentes contextos e cenários para produzir e
desenvolver produtos que realmente atendam às demandas e que sejam eficientes naquilo a que se pro-
põem.
Criando o seu Primeiro Programa em R
Depois de instalar o R e o RStudio, já está tudo preparado para você começar a codar e criar os seus
primeiros programas em R. Assim, enfatizamos que a linguagem R possui uma gama de pacotes que per-
mite à pessoa programadora facilidade na hora de desenvolver os seus códigos. A exemplo disso, temos
o ggplot2 que é um pacote para visualização de dados.
1- No console do R digite e execute-o.
2- Após a instalação, carregue a biblioteca e já está pronto para utilização.
Essa biblioteca será muito útil para a criação e personalização de gráficos.
Agora, vamos simular um programa no R. Na própria base de instalação do R, nós também temos
vários pacotes que já vêm instalados e prontinhos para uso. Entre eles, o pacote “datasets”, que fornece
vários conjuntos de dados para você explorar e treinar as suas habilidades com análise de dados.
Assim, com poucas linhas de código, você já pode iniciar a análise exploratória dos seus dados.
Importaremos o conjunto de dados “women” que fornece as informações de peso e altura de mulheres
americanas de 30 a 39 anos. Ele foi retirado do livro “The World Almanac and Book of Facts, 1975” e já
vem no pacote “datasets “ do R pronto para uso.
1741234 E-book gerado especialmente para MARCOS AURELIO
102
Atenção: esse gráfico será exibido na seção direita do RStudio.
A primeira linha de código vai ler os dados do dataset women e importá-lo.
Traduzindo para o português a palavra “head” significa cabeça ou cabeçalho. Logo, quando chama-
mos essa função, ela exibirá na tela as principais informações do conjunto de dados women.
1741234 E-book gerado especialmente para MARCOS AURELIO
103
Criar gráficos é a melhor maneira de visualizar como os seus dados estão distribuídos. Aqui, a função
plot do próprio R nos auxilia nesse processo e só precisamos definir os parâmetros.
Esse é apenas um exemplo básico de como a linguagem R funciona. No seu dia a dia ela é uma ferra-
menta poderosa capaz de auxiliar na análise de grandes conjuntos de dados e em outras tarefas.
Bancos de dados não relacionais: bancos
de dados NoSQL; Modelos Nosql
BANCOS DE DADOS NoSQL
NoSQL significa “não relacional”32. Bancos NoSQL são comumente usados em áreas de conhecimen-
to como Data Science. As maior diferença entre bancos NoSQL e relacionais é que bancos relacionais
trabalham com tabelas, enquanto em Bancos NoSQL todos os dados constam no mesmo registro.
O termo “NoSQL” surgiu em 1998, mas foi em 2006, quando foi citado pelo Google, que o termo po-
pularizou-se. Era uma época em que os bancos relacionais não mais suportavam a massa de dados da
internet. Só a internet hoje armazena alguns terabytes de dados.
Os bancos de dados NoSQL são, basicamente, bancos de dados que não são relacionais (SQL). O
nome NoSQL já indica “Not Only SQL”. As NoSQL databases não precisam, necessariamente, ser pareci-
das entre si. São classificadas assim justamente por serem diferentes das relacionais.
O termo “NoSQL’’ é utilizado para designar os bancos de dados não relacionais e quase sempre é
relacionado com Big Data.
Isso porque, o Big Data está em ascensão e é matéria prima dos Bancos de Dados NoSQL. Para en-
tender os NoSQLs, é importante saber que a linguagem SQL sempre foi usada para tratamento de dados
em bancos relacionais, ao longo dos anos.
Mas por que NoSQL? Parece que estamos falando de bancos que invariavelmente não podem ser
tratados com a linguagem SQL, quando na verdade não é bem assim.
Na verdade, a nomenclatura NoSQL é só para fazer uma diferenciação entre bancos reconhecidamen-
te relacionais, como MySQL, PostgreSQL etc.
Em suma, a principal diferença entre os bancos de dados relacionais e NoSQL é que o segundo per-
mite maior velocidade, flexibilidade e escalabilidade ao armazenar e acessar dados não estruturados.
32 VICTÓRIA, P. Banco de dados NoSQL: um manual prático e didático.
1741234 E-book gerado especialmente para MARCOS AURELIO
104
NoSQL: Tipos de Bancos de Dados
Documentos
Forma como dados são armazenados em um banco de dados NoSQL baseado em documentos.
Fonte: digitalocean.com
Neste esquema, os dados são armazenados em “textos”33. Por exemplo, dados de clientes estarão
organizados de forma sequencial, como uma folha de formulário.
Tais textos podem ser altamente estruturados (ter campos bem definidos e comuns a todos os docu-
mentos, como CPF e nome de cada cliente) ou podem ser semiestruturados ou não estruturados (quando
não há padronização dos campos).
MongoDB, Elasticsearch e CouchDB são exemplos populares de bancos NoSQL baseados em docu-
mentos.
Chave-valor
33 https://bit.ly/3WfcXXc
1741234 E-book gerado especialmente para MARCOS AURELIO
105
Forma como dados são armazenados em um banco de dados NoSQL baseado em pares chave-valor.
Fonte: dev.to
Bancos NoSQL do tipo chave-valor são como “dicionários”. Eles permitem cadastrar uma chave (um
registro único e inconfundível) e associar quaisquer valores (informações) a essas chaves.
Isso permite muita flexibilidade e rapidez nas consultas. Podemos associar muitos campos de dados
diferentes a uma única chave, bastando acessar tal chave para recuperá-los.
Redis, Apache Ignite e Memcached são exemplos populares de bancos NoSQL que usam o esquema
chave-valor.
Grafo
Forma como dados são armazenados em um banco de dados NoSQL baseado em grafos.
Fonte: docs.aws.amazon.com
Um grafo é uma coleção de nós ligados por arestas. Em bancos de dados do tipo, os dados são os
nós e os relacionamentos entre eles, as arestas. Neles, podemos relacionar facilmente clientes aos pro-
dutos que mais compram, por exemplo.
Tanto que são muito usados para mecanismos de recomendação (indicar um produto que o cliente
pode gostar, com base em suas preferências) e para detecção de fraude (comparar se o número de car-
tão de crédito usado por ele é sempre o mesmo).
São exemplos populares de bancos NoSQL baseados em grafos: Neo4J, OrientDB, AllegroGraph,
entre outros.
Colunas
1741234 E-book gerado especialmente para MARCOS AURELIO
106
Forma como dados são armazenados em um banco de dados NoSQL baseado em colunas.
Fonte: scylladb.com
Questões técnicas são os maiores trunfos de bancos de dados NoSQL baseados em colunas.Eles
reduzem a necessidade de leitura em disco durante consultas aos dados e utilizam menos memória para
exibir as informações.
São usados principalmente em aplicativos analíticos, que precisam realizar muito cálculos com extre-
ma rapidez, e em data warehouses (“armazéns de dados”), grandes repositórios de dados usados por
empresas.
Amazon DynamoDB, Bigtable, Cassandra, Hbase, Google Cloud Datastore, entre outros, são exem-
plos populares de bancos NoSQL colunares.
Como Usar Bancos de Dados NoSQL?
Cada software de banco de dados NoSQL tem suas características. Por isso, é necessário conhecer
aquele que melhor se adequa às suas necessidades ou às de sua empresa para aprofundar-se neles.
O interessante é que muitos já possuem ótima documentação e permitem usar a linguagem de progra-
mação de sua preferência para operá-los.
MongoDB, um banco NoSQL baseado em documentos, por exemplo, é muito utilizado por startups,
por meio da linguagem Javascript e da tecnologia Node.js, para publicar sites e sistemas web escaláveis
rapidamente. No curso de Programação Back-End da Awari, você tem uma introdução ao assunto.
Já bancos de dados colunares, como Hbase, Cassandra e DynamoDB, são comuns no dia a dia da
Engenharia de Dados ou até, em alguns casos, na etapa de obtenção de dados da Ciência de Dados.
Exemplos de Bancos de Dados NoSQL
MongoDB
Quando falamos em MongoDB estamos falando de um líder de mercado dos bancos de dados NoS-
QL.
O MongoDB também possui features bem legais para produção. São eles: replicação, indexação, ba-
lanceamento de carga.
Para armazenar dados, o MongoDB utiliza alguns documentos muito similares ao formato JSON*. O
melhor de tudo – e talvez a razão de ser líder de mercado – é o que o MongoDB é open source, o que
contribui muito para a evolução da sua tecnologia.
Amazon DynamoDB
Mais um produto excelente da AWS (Amazon Web Services). O banco de dados DynamoDB é total-
mente cloud e viabiliza um desempenho confiável e em escala.
Um ponto bem importante: a Amazon confirma que a latência é consistência e fica abaixo de 10 milis-
segundos. Além disso, tem recursos valiosos de segurança, baseados em cache de memória, backup e
restauração de dados.
O DynamoDB também funciona por meio de vários mestres.
1741234 E-book gerado especialmente para MARCOS AURELIO
107
Este banco de dados já é amplamente utilizado, assim como o MongoDB e pode ser utilizado para
criação de datastore, jogos, ad tech e aplicativos web sem servidor.
Cassandra
Muitas pessoas não sabem, mas o Cassandra foi desenvolvido no Facebook. Hoje em dia, o Cassan-
dra – assim como o HBase – são mantidos pela Apache Foundation.
Isso até faz sentido, considerando a quantidade de dados que a rede social gera a cada milissegun-
do.
Mas, afinal, por que Cassandra é tão popular para trabalhar com Big Data?
O fato é que Cassandra é muito otimizado para clusters, especialmente por funcionar sem mestres. O
fato de ter mecanismos distribuídos também otimiza bastante a operação com os clusters.
Um outro ponto forte do Cassandra é o conceito de orientação por coluna, o que torna a latência bem
menor em algumas pesquisas.
Redis
O Redis é um modelo de armazenamento de dados, que é open source e foi lançado em 2009. Os
dados são armazenados na forma de chave-valor e na memória do Redis, o que o torna rápido e flexível.
Trata-se do Banco NoSQL mais famoso do tipo chave-valor.
Assim como os dois primeiros, o Redis possui baixíssima latência. O Redis é também fácil de usar e
muito rápido.
HBase
O HBase é um banco de dados open source, orientado a colunas e distribuído. Atualmente, Spotify e
Facebook são algumas das grandes corporações que utilizam esse modelo de armazenamento.
O HBase foi formatado a partir do BigTable do Google e também é escrito em Java. É justamente por
isso que tem fácil integração com o MapReduce.
Para quem não sabe o MapReduce é uma ferramenta do framework Apache Hadoop, uma das princi-
pais plataformas para tratamento de big data.
Por fazer parte do Projeto Apache, diretamente ligado à ciência de dados, o HBase é outro modelo de
armazenamento bem famoso.
Um dos seus pontos fortes é a pesquisa de dados que oferece uma resposta rápida. Transforma tera-
bytes em milissegundos.
1741234 E-book gerado especialmente para MARCOS AURELIO
108
NoSQL vs SQL
Bancos de Dados NoSQL são extremamente úteis quando assunto é grande volume de dados. Se esti-
vermos falando de uma corporação pequena, que não aprofunda tanto assim a análise e tratamento de
dados, o banco relacional funciona muito bem.
E não, o banco de dados NoSQL não veio para substituir o relacional. Veio para ser uma alternativa,
em meio a um mundo onde pouquíssimos dados ainda são usados para inteligência.
Principais SGBD’s.
Sistema de Banco de Dados
A expressão “Sistema de Banco de Dados” costuma remeter a marcas de softwares gratuitos ou co-
merciais, que nos permitem armazenar e gerir dados34. Exemplos: MySQL, PostgreSQL, Oracle, Mongo-
DB, Elasticsearch, Redis, entre outros.
Tecnicamente, porém, o conceito refere-se a coisas diferentes com nomes parecidos:
Banco de dados: qualquer conjunto de dados e metadados inter-relacionados. Formam bancos de
dados desde uma lista de contatos simples ou o acervo de uma biblioteca até os registros de movimenta-
ções financeiras de uma empresa.
Sistema de Banco de Dados: é a interação entre dados, humanos, hardware e software, o que permite
dar “sentido” e tornar os dados acessíveis, compreensíveis e utilizáveis.
Sistema de Gerenciamento de Banco de Dados (SGBD): é um software ou conjunto de softwares que
permite manipular os dados nos dispositivos onde são armazenados, como memórias ou discos rígi-
dos.
34 https://bit.ly/3BCQawS
1741234 E-book gerado especialmente para MARCOS AURELIO
109
Componentes de um SGDB
Um SGDB é formado por diferentes partes, com nomes bem técnicos. Quando usamos um SGDB
como programador, engenheiro ou cientista de dados, normalmente interagimos com essas partes, mas
raramente precisamos entender essa “maquinaria interna” a fundo:
Storage engine: é o “motor” do banco de dados, o que vai determinar como o banco de dados organiza
seus dados, a eficiência dessa organização, consumo de recursos, entre outros fatores.
Query language: “linguagem de consulta”, em português, é a linguagem de programação que o SGBD
fornece para consultarmos e manipularmos os dados. SQL (Structure Query Language) é uma das query
languages mais populares.
Query processor: é um software de “bastidor”, que transforma as instruções da query language em
operações no banco de dados.
Optimization engine: outro software de “bastidor”, que tem como função encontrar a maneira mais efi-
ciente de executar uma ação no banco de dados.
Metadata catalog: metadados (metadata) são dados que descrevem outros dados; assim, metadata
catalog ou “catálogo de metadados” é um mecanismo que o banco de dados usa para traduzir e entender
dados armazenados.
Log manager: gerenciador de eventos que ocorrem no banco de dados, os quais permitem entender
ocorrências como erros ou falhas em transação de dados.
Reporting and monitoring tools: ferramentas de monitoramento do desempenho do próprio banco de
dados, como volume e frequência de transações.
Data utilities: ferramentas que permitem realizar modificações na organização dos dados em um banco
de dados.
Funções de um SGBD
Entre as principais funções de um SGDB, estão:
- Criar, ler, alterar e excluir dados armazenados — essas quatro operações formam uma sigla muito
popular na área, chamada CRUD (de create, read, update e delete);
1741234 E-book gerado especialmente para MARCOS AURELIO
110
- Criar, alterar e excluir formas de organizar e armazenar os dados, como tabelas;
- Alterar as estruturas das tabelas e outros meios de organizar e armazenar dados;
- Manipular relações entre diferentes tabelas ou outros meios;
- Extrair relatórios dos dados armazenados;
- Criar, conceder e retirar permissões paraque usuários (programadores, data scientists etc.) possam
acessar e realizar operações no banco de dados.
Principais SGBDs do Mercado
Como há centenas de SGBDs disponíveis, qualquer ranking sem base seria arbitrário. Então, vamos
nos basear em um ranking popular, que todos os meses classifica SGBDs mais usados no mundo.
O ranking se chama db-engines.com. Os SGBDs que comentaremos abaixo são os 10 sistemas mais
usados em julho de 2022. Se você acessar o ranking em outro momento, a lista poderá ser diferente.
Oracle
Fonte: https://videohub.oracle.com/media/Criando+uma+Inst%C3%A2ncia+de+Banco+de+Dados+-
no+OCI+Classic/1_waus1mre
A Oracle é uma grande corporação de tecnologia que hoje oferece diversos serviços em nuvem, desde
Inteligência Artificial até Analytics e BI. Porém, começou e ficou famosa por causa do Oracle Autonomous
Database ou apenas Oracle Database, o banco de dados mais usado do mundo.
Lançado em 1979 e em aprimoramento até a atualidade, é um banco de dados que cresceu e é muito
utilizado em conjunto com a linguagem de programação Java, para aplicações robustas, como bancárias
e financeiras.
É um banco de dados relacional em sua origem (baseado em tabelas)mas que hoje já é multi-modelo.
Utiliza uma linguagem chamada PL/SQL (linguagem procedural projetada para incluir instruções SQL
em sua sintaxe) como linguagem de consulta e manipulação de dados.
MySQL
Fonte: https://medium.com/@ashiqgiga07/working-with-mysql-dae8f149aa57
1741234 E-book gerado especialmente para MARCOS AURELIO
111
MySQL é um SGBD muito famoso e usado por causa de sua integração fácil com a linguagem de pro-
gramação PHP por esta dupla, MySQL e PHP, estar na origem do WordPress, o sistema de gerenciamen-
to de conteúdo mais popular do mundo.
É um banco de dados relacional gratuito e fácil de usar, que usa SQL, porém com um ótima capaci-
dade e desempenho para muitas aplicações de websites e webapps. MySQL nasceu como uma solução
de código aberto e que hoje também pertence à Oracle.
Um “fork” ou desdobramento seu deu origem a outro banco de dados parecido e popular, chamado
MariaDB.
Microsoft SQL Server
Fonte: https://www.commvault.com/supported-technologies/microsoft/sql
Microsoft SQL Server é um banco de dados lançado em 1989 e que se ramificou em diversas versões,
as quais atendem diversos públicos. Há desde versões para pequenas aplicações até outras para aplica-
ções escaláveis de Internet das Coisas (IoT), por meio da Azure, a nuvem da Microsoft.
O SGBD usa um dialeto da linguagem SQL, chamado T-SQL. Por ser uma solução corporativa e paga,
como o Oracle Database, oferece uma gama de benefícios a empresas, como maior segurança.
PostgreSQL
Fonte: https://www.ovhcloud.com/pt/public-cloud/postgresql/
PostgreSQL é um banco de dados de código aberto e gratuito, mas bastante poderoso. É um banco
de dados de modelo objeto-relacional com características como confiabilidade, robustez e desempenho
eficiente.
1741234 E-book gerado especialmente para MARCOS AURELIO
112
O SGBD tem mais de 30 anos e surgiu na Universidade da Califórnia, Berkeley. Usa SQL como lingua-
gem de consulta e é o banco de dados padrão do macOS Server. É versátil e robusto tanto para aplica-
ções pequenas como para aquelas que requerem acessos massivos a dados.
MongoDB
Fonte: https://www.ambientelivre.com.br/treinamento/banco-de-dados/mongodb.html
MongoDB é o banco de dados do tipo NoSQL mais usado no mundo. É NoSQL porque não se baseia
no conceito de tabelas para armazenar dados, mas, sim, no modelo de documentos (armazena dados em
forma de textos). É de código aberto, gratuito e multiplataforma.
Mais do que isso, MongoDB usa a linguagem de programação Javascript para consultas, a mais
utilizada para construir aplicações web. Isso torna MongoDB uma escolha natural, veloz e versátil para
aplicativos e sites com acessos massivos, principalmente voltados a conteúdos, como redes sociais, pla-
taformas educacionais, entre outros.
Redis
Fonte: https://br.wordpress.org/plugins/redis-cache/
Redis é outro banco de dados NoSQL no ranking do db-engines.com. É o banco de dados de modelo
chave-valor mais usado atualmente.
Bancos de dados desse tipo funcionam como dicionários, em que há uma chave e uma série de outros
dados (valores) associados a ela. Isso permite muita eficiência na recuperação das informações.
Redis funciona de maneira distribuída (em várias máquinas) e armazena os dados em memória e não
em disco, o que o torna extremamente veloz.
1741234 E-book gerado especialmente para MARCOS AURELIO
113
IBM DB2
Fonte: https://medium.com/mozilla-firefox-club/accessing-ibm-db2-database-using-python-
-c356a4a76bf3
Outro SGBD corporativo, o IBM DB2 é uma família de produtos de gerenciamento de dados da IBM,
outra gigante do setor. O DB2 iniciou como um banco de dados relacional, mas hoje incorpora soluções
de outros modelos, como objeto-relacional e NoSQL.
Também tem como diferenciais escalabilidade, segurança, flexibilidade, entre outros atributos. É uma
solução paga, normalmente usada por grandes empresas.
Elasticsearch
Fonte: https://www.datanami.com/2019/03/12/search-war-unfolding-for-control-of-elasticsearch/
Elasticsearch é um dos “bancos de dados” mais diferentes entre todos os já vistos. Na verdade, não
é como um banco de dados no sentido tradicional, mas um mecanismo de pesquisa de texto completo e
em tempo real. Por isso, também é classificado como um SGBD.
Tem uma grande capacidade de indexar quaisquer tipos de textos, quebrá-los em partes menores cha-
madas tokens e permitir buscas inteligentes e rápidas neles (como a busca do Google, por exemplo).
É a solução mais usada do tipo no mundo e oferecida como uma API (Application Interface Program-
ming), um software que pode ser usado em conjunto com outros bancos de dados, por exemplo.
1741234 E-book gerado especialmente para MARCOS AURELIO
114
Microsoft Access
Fonte: https://pt.wizcase.com/download/microsoft-access/
Muita gente não consideraria o Microsoft Access um SGDB “de verdade”. No entanto, ele continua
sendo uma solução muito utilizada.
O Access, como é popularmente conhecido, é um aplicativo da família Office, da Microsoft, muito
acessível a pessoas de negócios e a leigos, que não precisam saber programar e podem usar a interface
gráfica do Office para operá-lo. É por isso que ele é tão popular.
Apesar de não garantir todas as funcionalidades de SGDBs robustos, Access permite criar bancos de
dados para pequenas aplicações, úteis para uso interno em times de negócio.
SQLite
Fonte: https://www.trustradius.com/products/sqlite/reviews#product-details
SQLite, como o próprio nome revela, é um SGBD simples, enxuto e fácil de usar. É útil para sites e
aplicativos leves, sem muitos recursos ou usuários. Também usa SQL para consultas. Uma dica: é um
ótimo SGBD para treinos e para aprendizado em programação e na área de dados.
SGDBs na Programação e em Dados
A pergunta que fica é: como programadores, data engineers, profissionais de data analytics e data
scientists usam todos esses SGDBs? A resposta é um grande “depende”. A escolha e uso de um SGDB
dependerá da empresa e dos projetos em que o profissional atuará.
Grosso modo, porém, cabe aos desenvolvedores de software saberem como conectar e se comunicar
com os bancos de dados por meio dos programas que criam. Isso, normalmente, envolve conhecer a
linguagem de consulta do banco de dados, como SQL, por exemplo.
1741234 E-book gerado especialmente para MARCOS AURELIO
115
Já engenheiros de dados atuam conectando diferentes bancos de dados em data warehouses (“ar-
mazéns de dados”), a fim de fornecerem informações mais otimizadas a ferramentas analíticas, como
dashboards e painéis de Business Intelligence (BI).
Para cientistas de dados, a atuação pode ser um pouco diferente. Em grandes corporações, os profis-
sionais já costumam receber dados prontos e tratados de data warehouses, por exemplo.
Em startups e empresas menores, porém, pode serque o data scientist tenha de acessar bancos de
dados diretamente para análises. Nesse caso, conhecer as ferramentas e a linguagem de consulta, como
SQL, será um diferencial e uma necessidade.
Dominar tudo isso envolve muito estudo, muita prática e atualização constante sobre as ferramentas
utilizadas no mercado.
Soluções para Big Data
Assunto abordado no tópico: BIG DATA; BIG DATA EM RELAÇÃO A OUTRAS DISCIPLINAS.
Exercícios
01. (SERPRO - Analista - CESPE/CEBRASPE/2021) O gerenciamento de qualidade de dados inclui a
definição de padrões e métricas sobre os dados, porém dispensa o gerenciamento do ciclo de vida des-
ses dados.
( ) Certo ( ) Errado
02. (TJ/PA - Analista Judiciário - CESPE/CEBRASPE/2020) Assinale a opção que indica um processo
de extração e transformação de dados em um data warehouse.
(A) Big Data
(B) OLAP
(C) OLTP
(D) ETL
(E) machine learning
03. (SERPRO - Analista - CESPE/CEBRASPE/2021) Nos agrupamentos hierárquicos, um dendro-
grama é uma árvore que controla quando os clusters são criados e que determina qual é a métrica das
distâncias.
( ) Certo ( ) Errado
04. (Prefeitura de Ilhabela/SP - Engenheiro Elétrico - VUNESP/2020) A manutenção preditiva, também
conhecida como manutenção baseada nas condições operativas, utiliza sofisticadas técnicas de análise
de dados históricos para definir o estado futuro de um equipamento e/ou sistema. O conceito de manu-
tenção preditiva
1741234 E-book gerado especialmente para MARCOS AURELIO
116
(A) inclui a manutenção planejada e sistemática, que envolve programas de inspeção, reformas,
reparos, entre outros, com a parada do equipamento e/ou sistema, mesmo quando não há indícios de
falhas.
(B) inclui a manutenção planejada após a falha em um equipamento e/ou sistema, a fim de evitar a
sua progressão para um problema ainda maior.
(C) exclui as técnicas de análise de dados coletados por meio de medições em campo, tais como tem-
peraturas, vibrações, termografias etc., que permitem um diagnóstico preciso.
(D) baseia-se em técnicas de processamento sensorial para o desenvolvimento cognitivo das equipes
de manutenção, a fim de que essas possam conjecturar sobre o estado operativo do equipamento e/ou
sistema.
(E) é caracterizado pela capacidade de identificação de falhas que podem ocorrer, por meio do monito-
ramento de parâmetros de interesse, com o equipamento e/ou sistema em funcionamento.
05. (TCE/MG - Analista de Controle Externo - CESPE/CEBRASPE) Um dos desdobramentos de big
data é o big data analytics, que se refere aos softwares capazes de tratar dados para transformá-los em
informações úteis às organizações. O big data analytics difere do business intelligence por
(A) priorizar o ambiente de negócios em detrimento de outras áreas.
(B) analisar dúvidas já conhecidas para as quais se deseje obter resposta.
(C) analisar o que já existe e o que está por vir, apontando novos caminhos.
(D) dar enfoque à coleta, à transformação e à disponibilização dos dados.
(E) analisar o que já existe, definindo as melhores hipóteses.
06. (PRODEB - Especialista de TIC - B.I - INSTITUTO AOCP) As soluções analíticas contribuem para
uma maior confiança na tomada de decisão através da implementação de modelos de análise que dis-
seminam boas práticas e elevam os padrões de gestão. É correto afirmar, sobre Business Analytics, que
essa solução
(A) é uma padronização que identifica e conceitua processos, áreas de conhecimento, ferramentas e
técnicas.
(B) trata-se de uma ferramenta corporativa capaz de controlar todas as informações de uma empresa,
integrando e gerenciando dados, recursos e processos.
(C) refere-se a um conjunto de práticas, estratégias de negócio e tecnologias focadas no cliente, des-
de pequenas empresas e startups até médias e grandes organizações.
(D) é um processo de criar uma representação de algo baseada em software (ou virtual), em vez de
uma estrutura física.
(E) cria padrões de análise que impulsionam o alinhamento organizacional, mediante a definição de
análises corporativas e departamentais estruturadas e partilhadas por toda a organização.
07. (AGERGS - Técnico Superior Engenheiro de Dados - FUNDATEC/2022) Sobre os modelos de
aprendizagem de máquina supervisionada, analise as assertivas abaixo e assinale a alternativa corre-
ta.
1741234 E-book gerado especialmente para MARCOS AURELIO
117
I. Em modelos de aprendizado de máquina do tipo classificação a ideia é prever variáveis categóricas,
e numéricas.
II. Um exemplo básico de aprendizado de máquina supervisionado por classificação é o uso da regres-
são logística.
III. Os modelos de regressão não buscam encontrar como uma variável se comporta na medida em
que outra variável sofre oscilações.
IV. Nos modelos de aprendizagem de máquina supervisionado, não temos uma variável específica a
ser respondida, pois estamos apenas buscando encontrar os indivíduos, itens ou elementos semelhan-
tes.
(A) Todas estão corretas.
(B) Todas estão incorretas.
(C) Apenas II está correta.
(D) Apenas I e II estão corretas.
(E) Apenas III e IV estão corretas.
08. (Polícia Federal - Escrivão de Polícia Federal - CESPE/CEBRASPE/2021) Acerca dos conceitos de
mineração de dados, aprendizado de máquina e big data, julgue o próximo item.
A análise de clustering é uma tarefa que consiste em agrupar um conjunto de objetos de tal forma que
estes, juntos no mesmo grupo, sejam mais semelhantes entre si que em outros grupos.
( ) Certo ( ) Errado
09. (BANESE - Técnico Bancário I - CESPE/CEBRASPE/2021) Com relação a modelagem de proces-
sos de negócio, julgue o item a seguir.
Automatização de processos se refere à incorporação de técnicas de inteligência artificial e aprendiza-
do de máquina à gestão de processos.
( ) Certo ( ) Errado
10. (CRT-04 - Assistente de Tecnologia da Informação - Quadrix/2022) Julgue o item, referentes às
novas tecnologias.
O conceito de inteligência artificial (IA) refere-se, unicamente, a duas grandes áreas do conhecimento:
ciência da computação e matemática.
( ) Certo ( ) Errado
11. (CRT-04 - Assistente de Tecnologia da Informação - Quadrix/2022) Julgue o item, referentes às
novas tecnologias.
Em uma visão ampla, a IA pode ser dividida em duas categorias principais: machine learning e deep
learning.
( ) Certo ( ) Errado
1741234 E-book gerado especialmente para MARCOS AURELIO
118
12. (SEFAZ/CE - Auditor Fiscal de Tecnologia da Informação da Receita Estadual - CESPE/CEBRAS-
PE/2021) A respeito de inteligência artificial, julgue o item seguinte.
Aplicações de reconhecimento de voz fazem a transcrição de um áudio para texto diretamente, sem a
necessidade de nenhum modelo intermediário.
( ) Certo ( ) Errado
13. (SEFAZ/CE - Auditor Fiscal de Tecnologia da Informação da Receita Estadual - CESPE/CEBRAS-
PE/2021) A respeito de inteligência artificial, julgue o item seguinte.
Um dos desafios do processamento de linguagem natural (PLN) é a polissemia, ou seja, a característi-
ca de palavras e frases poderem ter mais de um significado.
( ) Certo ( ) Errado
14. (TRF - 4ª REGIÃO - Analista Judiciário - FCC) Um Analista necessita desenvolver uma aplicação
chatbot que simula um ser humano na conversação com as pessoas. Para isso o Analista deve usar pes-
quisa em Processamento de Linguagem Natural – PLN que envolve três aspectos da comunicação, quais
sejam,
(A) Som, ligado à fonologia, Estrutura que consiste em análises morfológica e sintática e Significado
que consiste em análises semântica e pragmática.
(B) Áudio, ligado à fonologia, Estrutura que consiste em análises de línguas estrangeiras e Significado
que consiste em análises semântica e pragmática.
(C) Conversação, ligado à tecnologia de chatbot, Semântica que consiste em análises de línguas es-
trangeiras e Arquitetura Spelling que realiza as análises sintática e pragmática.
(D) Business Intelligence, ligado à tecnologia OLAP, Mining que consiste em análises de línguas em
geral e Spellingque realiza as funções de chatbot.
(E) Áudio, ligado à fonologia, Estrutura que consiste em análises semântica e pragmática e Significado
que consiste em análise das línguas em geral.
15. (UFRGS - Técnico de Tecnologia da Informação - FAURGS) Uma nuvem de palavras é um recurso
gráfico (usado principalmente na internet) para descrever os termos mais frequentes de um determinado
texto. O tamanho da fonte em que a palavra é apresentada é uma função da frequência da palavra no
texto: palavras mais frequentes são desenhadas em fontes de tamanho maior, palavras menos frequen-
tes são desenhadas em fontes de tamanho menor.
Qual é a técnica de análise de dados descrita pelo texto acima?
(A) Processamento de Linguagem Natural.
(B) Agrupamento.
(C) Classificação.
(D) Redes Neurais.
(E) Regressão Linear.
16. (ADASA - Regulador de Serviços Públicos - IADES/2022) Acerca de governança de dados, assina-
le a alternativa correta.
1741234 E-book gerado especialmente para MARCOS AURELIO
119
(A) Catálogo de dados é necessário apenas em data lakes e não tem grande utilidade em data wa-
rehouses.
(B) Metadados e catálogo de dados são dois termos sinônimos.
(C) Governança de dados é uma área que deve ser observada apenas pela equipe de tecnologia da
informação.
(D) Tags identificadoras de time responsável de cada tabela, nomes e tipos das colunas e colunas de
partição das tabelas são exemplos de metadados.
(E) Boas práticas de governança de dados são recomendadas apenas para empresas de grande por-
te.
17. (CGU - Auditor Federal de Finanças e Controle - FGV/2022) No âmbito do DAMA-DMBOK, com
referência à Governança de Dados, a figura dos Data Stewards caracteriza-se como:
(A) etapas de testes de conformidade dos dados;
(B) instâncias de aprovação da arquitetura de dados;
(C) instâncias de unidades organizacionais responsáveis pela estratégia de dados;
(D) responsáveis, dentro da área de negócios, pelo controle e uso dos dados;
(E) usuários que consomem dados dentro de uma organização.
18. (MPE/PE - Analista Ministerial - FCC) Uma organização que lida com um grande volume de dados
estruturados e não estruturados objetiva organizar esses dados para encontrar insights necessários para
o negócio usando técnicas de aprendizagem de máquina. Terá maiores chances de sucesso para atingir
seus objetivos investindo na área de
(A) Data Science.
(B) Business Intelligence.
(C) Big Data.
(D) Governança de Dados.
(E) Qualidade de Dados.
19. (PRODEB - Especialista de TIC - INSTITUTO AOCP) A ciência dos dados é um campo emergente.
A demanda é elevada, e encontrar pessoal qualificado é um dos principais desafios associados à análise
de Big Data. Sobre conhecimento técnico em administração de dados, é correto afirmar que o cientista
de dados agrega ao trabalho, EXCETO
(A) habilidade para integrar e preparar grandes e variados conjuntos de dados.
(B) habilidades de comunicação para apresentar resultados.
(C) conhecimento empresarial para aplicar um contexto.
(D) conhecimento e habilidades para recrutamento e seleção de pessoas por competências.
(E) habilidade avançada de análise e modelagem para revelar e compreender relacionamentos obscu-
ros.
1741234 E-book gerado especialmente para MARCOS AURELIO
120
20. (SEFAZ/AM - Analista de Tecnologia da Informação da Fazenda Estadual - FGV/2022) Leia o frag-
mento a seguir.
“Atualmente, no contexto do Big Data e Data Analytics, faz-se referência às características enuncia-
das por pesquisadores e produtores de soluções como sendo um conjunto de cinco Vs. Originalmente,
a definição clássica de Big Data fez referência a três Vs fundamentais: _____, _____ e _____ de dados
que demandam formas inovadoras e rentáveis de processamento da informação, para melhor percepção
e tomada de decisão.”
Assinale a opção cujos itens completam corretamente as lacunas do fragmento acima, na ordem apre-
sentada.
(A) valor – variança – veracidade.
(B) validade – velocidade – vocabulário.
(C) valor – variabilidade – viscosidade.
(D) variedade – velocidade – volume.
(E) valor – volatilidade – volume.
21. (TCE/RO - Auditor de Controle Externo - CESPE/CEBRASPE) Com relação a fundamentos e con-
ceitos de Big Data, julgue os itens a seguir.
I O volume de dados é uma característica importante de Big Data.
II Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não
impacta os negócios.
III A característica de velocidade de entrada dos dados impacta o modelo de processamento e arma-
zenamento.
IV A variedade dos dados não é característica intrínseca nos fundamentos de Big Data.
Estão certos apenas os itens
(A) I e II.
(B) I e III.
(C) II e IV.
(D) I, III e IV.
(E) II, III e IV.
22. (TCE/PE - Auditor de Controle Externo - CESPE/CEBRASPE) Com relação a Big Data, julgue o
item subsequente.
Além de estar relacionado à grande quantidade de informações a serem analisadas, o Big Data consi-
dera o volume, a velocidade e a variedade dos dados estruturados — dos quais se conhece a estrutura
de armazenamento — bem como dos não estruturados, como imagens, vídeos, áudios e documentos.
( ) Certo ( ) Errado
23. (ABIN - Oficial de Inteligência - CESPE/CEBRASPE) Acerca de inteligência cibernética, julgue o
item a seguir.
1741234 E-book gerado especialmente para MARCOS AURELIO
121
O registro e a análise de conjuntos de dados referentes a eventos de segurança da informação são
úteis para a identificação de anomalias; esse tipo de recurso pode ser provido com uma solução de big
data.
( ) Certo ( ) Errado
24. (Polícia Federal - Escrivão de Polícia Federal - CESPE/CEBRASPE) Em um big data, alimen-
tado com os dados de um sítio de comércio eletrônico, são armazenadas informações diversificadas,
que consideram a navegação dos usuários, os produtos comprados e outras preferências que o usuário
demonstre nos seus acessos.
Tendo como referência as informações apresentadas, julgue o item seguinte.
O big data consiste de um grande depósito de dados estruturados, ao passo que os dados não estru-
turados são considerados data files.
( ) Certo ( ) Errado
25. (CRMV/DF - Agente de Fiscalização - Ibest/2022) o que diz respeito ao programa de navegação
Google Chrome, em sua versão mais recente, à computação em nuvem e às noções de vírus, worms e
pragas virtuais, julgue o item.
A computação em nuvem exige como requisito mínimo que, para o usuário utilizar os seus serviços, há
necessidade de que os equipamentos computacionais tenham acesso à Internet.
( ) Certo ( ) Errado
26. (POLITEC/RO - Perito Criminal - CESPE/CEBRASPE/2022) Uma característica própria dos servi-
ços de armazenamento de dados em nuvem (cloud storage) é a
(A) garantia de espaço ilimitado.
(B) execução de aplicações remotas.
(C) garantia de gratuidade.
(D) mobilidade facilitada para o usuário.
(E) codificação de linguagens de programação.
27. (IPREB/MG - Assistente Administrativo - COTEC/2022) Em 2001, a computação em nuvem des-
pontou no cenário das tecnologias de informação, ganhando vigor em 2008 e grande amplitude em 2012.
Com experiência de uma década, as empresas gradativamente estão adotando a computação em nuvem,
pois pode-se criar aplicativos nativos da nuvem, testar e criar arquivos, armazenar, fazer backup e recu-
perar dados, transmitir áudio e vídeo. Além disso, fornece software sob demanda, gerando a inteligência
dos negócios. Há vários modelos de implantação da computação em nuvem. Quais são os principais
modelos de implantação de computação em nuvem?
(A) Nuvens Públicas, nuvens organizacionais, nuvens híbridas.
(B) Nuvens governamentais, nuvens privadas, nuvens sociais.
(C) Nuvens públicas, nuvens privadas, nuvens híbridas.
(D) Infraestrutura como serviço (laaS), plataforma como serviço (PaaS), software como serviço
(SaaS).
1741234 E-book gerado especialmente para MARCOS AURELIO
122
(E) Serviço de infraestrutura, serviço de plataforma, serviço de software.
28. (CAU/MT - Assistente Administrativo- IADES) A computação em nuvem é uma área recente da
computação e trabalha com a transferência de informação e o acesso de arquivos a distância. Acerca da
computação em nuvem, assinale a alternativa correta.
(A) A computação em nuvem permite que a preocupação com segurança deixe de existir.
(B) Existem empresas especializadas em disponibilizar serviços em nuvem.
(C) A computação em nuvem permite o armazenamento de dados com capacidade infinita, sem alterar
o valor cobrado pelo serviço.
(D) A qualidade de serviços de computação em nuvem não depende da qualidade da conexão.
(E) Não existem softwares para serem instalados localmente, tendo em vista que a computação em
nuvem visa à descentralização geográfica.
29. (SEED/PR - Professor - CESPE / CEBRASPE/2021) Na linguagem de programação Python, exis-
tem 3 estruturas para armazenar dados indexados. A estrutura cujos valores são imutáveis depois de sua
criação é conhecida como
(A) lista.
(B) operador.
(C) tupla.
(D) classe.
(E) dicionário.
30. (UNIRIO - Analista de Tecnologia da Informação - CESGRANRIO) Considere-se uma lista L, criada
em Python, da seguinte forma:
L=[-20,-10,0,10,20,30]
O comando print(L[-1::-2]) apresentará o resultado
(A) [30, 10, -10]
(B) [30, 20]
(C) [-20, 10]
(D) [30]
(E) [20]
31. (IFB - Professor - Informática/ Desenvolvimento de Sistemas - IFB) Com relação a Algoritmos e
Estrutura de Dados, dadas as afirmações abaixo, segundo Farrer (1999), assinale a alternativa CORRE-
TA:
(A) Python é uma linguagem compilável, a qual, após esse processo, gera um arquivo executável, do
tipo binário.
(B) A declaração de variáveis é algo obrigatório em Python.
(C) Python é uma linguagem procedural a qual não contempla orientação a objetos.
1741234 E-book gerado especialmente para MARCOS AURELIO
123
(D) Listas, em Python, são conjuntos de valores, os quais só podem ser do mesmo tipo, acessados
por um índice numérico que inicia em 0 (zero).
(E) Em comandos condicionais ou de repetição, a separação de blocos de código em Phyton é feita
utilizando a indentação.
32. (MJSP - Analista de Governança de Dados - INSTITUTO AOCP/2020) Um analista do MJSP ne-
cessita apresentar um gráfico para seus usuários. Para tanto, ele irá utilizar a linguagem R. Assinale a
alternativa que apresenta corretamente o nome da função que o analista deve utilizar para gerar o gráfico
em linguagem R.
(A) Graph.
(B) Draw.
(C) Plot.
(D) Picture.
(E) Trace.
33. (MJSP - Cientista de Dados - INSTITUTO AOCP/2020) A linguagem R é uma poderosa linguagem
para se trabalhar com dados. Assinale a alternativa que apresenta somente funções da Linguagem R.
(A) input(), output(), floor(), avg().
(B) mean(), summary(), quantile( ), var().
(C) sum(), avarage(), clean(), goto().
(D) class(), vetor(), sum(), min().
(E) for(), loop(), data(), math().
34. (MJSP - Cientista de Dados - INSTITUTO AOCP/2020) Assinale a alternativa que apresenta o co-
mando que informa à Linguagem R em qual pasta ela deve ler os arquivos de dados.
(A) filter().
(B) select().
(C) read_fwf().
(D) setwd().
(E) library().
35. (Prefeitura de Jaru/RO - Técnico em Informática - IBADE) Ultimamente há um movimento que
propõe novas estruturas de bancos de dados “não relacionais”, chamado NoSql. O banco que pode ser
considerado NoSql é:
(A) Mysql.
(B) Postgree.
(C) Oracle.
(D) MongoDB.
(E) DB 2.
1741234 E-book gerado especialmente para MARCOS AURELIO
124
36. (INSTITUTO AOCP - Especialista de TIC - PRODEB) Com base nos sistemas de banco de dados
NoSQL, assinale a alternativa que correlaciona corretamente os SGBD`s no NoSQL e seus modelos es-
truturais.
(A) MongoDB: Modelo Orientado a Colunas – Cassandra: Modelo Baseado em Grafos – Neo4J: Mode-
lo Orientado a Documentos – Redis: Modelo Chave-Valor.
(B) Cassandra: Modelo Orientado a Colunas – Neo4J: Modelo Baseado em Grafos – Redis: Modelo
Orientado a Documentos – MongoDB: Modelo Chave-Valor.
(C) Redis: Modelo Orientado a Colunas – Cassandra: Modelo Baseado em Grafos – MongoDB: Mode-
lo Orientado a Documentos – Neo4J: Modelo Chave-Valor.
(D) Neo4J: Modelo Orientado a Colunas – Cassandra: Modelo Baseado em Grafos – MongoDB: Mode-
lo Orientado a Documentos – Redis: Modelo Chave-Valor.
(E) Cassandra: Modelo Orientado a Colunas – Neo4J: Modelo Baseado em Grafos – MongoDB: Mode-
lo Orientado a Documentos – Redis: Modelo Chave-Valor.
37. (Prefeitura de Descanso/SC - Técnico em Informática - AMEOSC/2022) “Um Sistema Gerenciador
de Banco de Dados (SGBD) é muito importante para as aplicações nos dias de hoje. Banco de dados são
conjuntos de dados estruturados que organizam informação. Para manipular as informações que estão
contidas nesse banco de dados, é utilizado um SGBD, que é responsável pelo gerenciamento dos da-
dos”. (ELMASRI, 2005)
As principais características de um SGBD são:
(A) Controle de redundância, restrição a acesso não autorizado, garantia de armazenamento persis-
tente, garantia de armazenamento de estruturas para o processamento eficiente de consultas, compar-
tilhamento de dados, fornecimento de múltiplas interfaces, representação de relacionamento complexo
entre dados, backup e restauração, restrições de integridade.
(B) Controle de redundância, restrição a acesso não autorizado, garantia de armazenamento persis-
tente, garantia de armazenamento de estruturas para o processamento eficiente de consultas, comparti-
lhamento de dados, fornecimento de múltiplas interfaces, fontes diferenciadas de suporte, restrições de
integridade.
(C) Controle de redundância, restrição a acesso não autorizado, garantia de armazenamento persis-
tente, garantia de armazenamento de estruturas para o processamento eficiente de consultas, compar-
tilhamento de dados, fornecimento de múltiplas interfaces, representação de relacionamento complexo
entre dados, backup e restauração, distribuição livre.
(D) Controle de redundância, restrição a acesso não autorizado, garantia de armazenamento persis-
tente, garantia de armazenamento de estruturas para o processamento eficiente de consultas, abertura
do código-fonte, fornecimento de múltiplas interfaces, distribuição livre, backup e restauração, restrições
de integridade.
38. (Prefeitura de Santa Fé de Minas/MG - Técnico em Informática - COTEC/202) Um Sistema Ge-
renciador de Bancos de Dados (SGBD) é uma coleção de programas que permite aos usuários criar e
manter um banco de dados. Quanto às vantagens e desvantagens do uso de um SGBD, considere as
afirmativas abaixo:
1741234 E-book gerado especialmente para MARCOS AURELIO
125
I - O SGBD pode restringir o acesso não autorizado aos dados armazenados em um banco de da-
dos.
II - O uso de um SGBD pode favorecer o compartilhamento dos dados de forma correta.
III - O controle de redundância é considerado uma das principais desvantagens do uso de um
SGBD.
IV - O SGBD pode fornecer visões diferentes dos dados, para cada usuário, através de consultas ar-
mazenadas.
V - O investimento inicial para o uso de um SGBD pode incluir hardware, software e treinamento.
As afirmativas CORRETAS são:
(A) I, II, IV e V, apenas.
(B) I, III, IV e V, apenas.
(C) II, III, IV e V, apenas.
(D) I, II, III e IV, apenas.
(E) I, II, III e V, apenas.
39. (UEAP - Analista de Tecnologia da Informação - CS-UFG) Sistema Gerenciador de Banco de
Dados (SGBD) é um software de propósito geral, voltado para a definição, construção e manipulação de
bancos de dados. São exemplos de SGBD:
(A) ORACLE Forms, DB2 e MARIADB.
(B) SQL, PHP e BD2.
(C) SQL Server, ORACLE e MySQL.
(D) ORACLE, SQL Server e PLSQL.
1741234 E-book gerado especialmente para MARCOS AURELIO
126
GABARITO
1 ERRADO
2 D
3 CERTO
4 E
5 C
6 E
7 C
8 CERTO
9 ERRADO
10 ERRADO
11 CERTO
12 ERRADO
13 CERTO
14 A
15 A
16 D
17 D
18 A
19 D
20 D
21 B
22 CERTO
23 CERTO
24 ERRADO
25 CERTO
26 D
27 C
28 B
29 C
30 A
31 E
32 C
33 B
34 D
35 D
36 E
37 A
38 A
39 C
1741234 E-book gerado especialmente para MARCOS AURELIOcompetitivo ao reunir dados sobre o setor e o cliente. Com esses insumos você poderá identificar garga-
los e oportunidades e se tornar uma referência em sua área de atuação.
Tomada de Decisão: Mais Precisão e Menos Riscos
O maior benefício da análise de dados é, sem dúvidas, a tomada de decisão estratégica mais precisa.
Afinal, com boas informações em mãos, é possível avaliar a situação de forma mais aprofundada, pre-
vendo as consequências e escolhendo a direção mais favorável.
Redução de Custos
Por conta da qualificação da tomada de decisão, a análise de dados também acaba ajudando a reduzir
custos.
Em síntese, quanto mais planejada e analítica é a ação empresarial, menor será o desperdício de
recursos. Ou seja, a organização consegue investir naquilo que realmente importa, reduzindo erros e
despesas desnecessárias.
1741234 E-book gerado especialmente para MARCOS AURELIO
11
Melhor Aproveitamento do Capital Humano
Quando o gestor toma as decisões corretas, consegue aproveitar melhor seu capital humano, usando
todo o seu potencial a favor do desenvolvimento empresarial. Na prática, isso significa mais produtivida-
de, engajamento e motivação.
Dicas para Fazer uma Análise de Dados Eficiente
Abaixo, dicas e boas práticas que elevam a análise de dados ao seu mais alto nível e contribuem para
resultados mais satisfatórios.
1. Defina o seu Objetivo
Toda análise de dados é feita por um motivo. Assim, sua primeira providência é definir qual pergunta
irá responder — ela deve ser clara, mensurável e relevante para a empresa.
Fazendo isso, você evita o desperdício de tempo e dinheiro e amplia a eficiência de suas decisões.
Uma boa maneira de definir os objetivos é conversar com os colaboradores e observar os problemas e
desafios enfrentados pela sua equipe.
2. Escolha as Métricas que Serão Usadas
Trabalhar com métricas é a maneira mais eficaz de determinar os eventos que contribuem positiva-
mente e negativamente para o crescimento da empresa.
Como o processo de análise de dados pode assumir diversas abordagens e revelar inúmeras informa-
ções, a definição de bons indicadores melhora a qualidade de suas análises.
3. Selecione a Ferramenta Ideal
A contratação de uma boa ferramenta de análise de dados é uma virada de jogo para a redução dos
esforços para coletar e interpretar esses insumos. Afinal, como vimos, fazer isso de forma manual é ex-
tremamente trabalhoso e passível de erros.
Sendo assim, pesquise e invista em soluções escaláveis e eficientes. Quanto maior a capacidade da
ferramenta, menos problemas você enfrentará durante os estudos e melhores serão os resultados alcan-
çados.
4. Escolha as Fontes de Dados
Nem toda informação é capaz de gerar oportunidades para sua empresa. Sendo assim, você precisa
definir de onde virão os dados que serão usados durante o processo com segurança.
Lembre-se de que existem fontes externas, como bancos de dados públicos e APIs de redes sociais, e
internas, como o histórico de vendas e os cadastros dos clientes.
5. Aposte na Integração das Equipes
Uma boa análise de dados depende de colaboração entre os envolvidos — caso contrário, você pode
perder tempo com retrabalhos.
Isso significa que a integração entre equipes é um elemento indispensável para o sucesso de suas
estratégias. A comunicação efetiva e unificada garante que todos trabalhem em prol do mesmo objetivo,
aumentando consideravelmente as chances de êxito.
1741234 E-book gerado especialmente para MARCOS AURELIO
12
O conceito de smarketing surgiu justamente da importância de conectar a equipe de vendas a de mar-
keting com o mesmo alinhamento estratégico.
Análise de Agrupamentos
Imagina uma lista digital com milhares de nomes de clientes de uma empresa, mas produzida aleato-
riamente, sem nenhuma lógica por trás desta lista7. Isso seria pouco produtivo do ponto de vista estraté-
gico comercial.
Agora se agruparmos esses nomes de forma a colocar homens em um grupo e mulheres em outro,
jovens em um grupo, e mais maduros em outro etc. Se você entendeu a ideia que permeia este exemplo
você conseguirá entender com mais facilidade a Análise de Cluster.
A Análise de Cluster é um método ao qual permite agrupar sujeitos ou variáveis em grupos com uma
ou mais características comuns, não sendo necessário ter informações já dadas sobre a composição
desses grupos. Muitas vezes temos conjunto de dados e uma necessidade de agrupar esse conjunto
de dados por algum critério de similaridade em vista a algum tipo de conhecimento que a gente deseje
aplicar.
Um exemplo é queremos agrupar fotos de acordo com alguma similaridade, seja com fotos da mesma
pessoa, ou fotos de pessoas de um grupo étnico, ou fotos de pessoas de um gênero. As possibilidades
são variadas e as funções que elas podem exercer também.
Para realizar esta análise é necessário medir a semelhança, dissemelhança dos sujeitos e variáveis, a
partir daí, agrupar. Os conglomerados obtidos a partir disso devem apresentar tanto uma homogeneidade
interna (dentro de cada conglomerado), como uma grande heterogeneidade externa (entre conglomera-
dos).
A Análise de Cluster acaba por incluir vários procedimentos estatísticos que podem ser utilizados para
classificar objetos sem preconceitos, ou seja, somente com base nas semelhanças ou não que eles pos-
suem entre si. Isso sem definir previamente critérios de inclusão em qualquer agrupamento.
Assim, ela traz como possibilidade de uso a identificação de uma estrutura presente nos dados, além
de impor uma estrutura num conjunto de dados mais ou menos homogêneos que têm de ser separa-
dos.
Agrupamento Hierárquico
No processo de análise de cluster um dos conhecimentos necessários para termos uma ideia mais
clara sobre o tema é o conhecimento de agrupamento hierárquico. É nele que é criada uma estrutura em
formato de árvore que vai indicar o número de clusters.
Vamos imaginar então essa árvore hierárquica. Inicia-se esse processo com cada objeto em uma clas-
se por si só e aos poucos os diferentes objetos ou variáveis vão se agrupando, criando nós que são ou
dispõem de características mais semelhantes entre si.
Podemos perceber que enquanto os elementos se agrupam eles se tornam aglomerados cada vez
maiores e, sobretudo, passam a conter elementos cada vez mais diferenciados, até que, no último mo-
mento os objetos estão unidos em conjunto.
7 https://bityli.com/kRQ1w
1741234 E-book gerado especialmente para MARCOS AURELIO
13
Quando esses dados finais contém uma estrutura, digamos assim, clara em termos de grupos de ob-
jetos que são similares uns aos outros, então essa estrutura se reflete na árvore hierárquica como ramos
distintos.
Dendrograma
Para visualizar como os agrupamentos são formados em cada passo e para avaliar os níveis de
similaridade (ou distância) dos agrupamentos que são formados é utilizado o dendrograma, diagrama
que lembra a estrutura de árvore (daí o nome) que serve para exibir os níveis de similaridade (ou distân-
cia).
Funções da Análise de Agrupamentos
A análise de agrupamentos pode ser realizada para uma série de uso, tais como:
- Classificar pessoas de acordo com a personalidade de cada uma delas.
- Segmentar o cliente de acordo com seus hábitos de consumo, criando assim estratégias comerciais
para aumentar o lucro.
- Classificar cidades de acordo com seus aspectos físicos, demográficos, econômicos e humanos para
assim criar um mapa mais abrangente daquele estado.
- Identificar grupos de investimento de acordo com perfis de risco.
- Identificar grupos de alunos mais propensos à evasão escolar.
- Segmentar empresas com base em indicadores financeiros (rentabilidade, liquidez, margem).
Métodos Hierárquicos
Os métodos de agrupamento de dados podem ser divididos em duas categorias cada uma delas agre-
gando diferentes tipos de algoritmos.
- Métodos hierárquicos (Algoritmos aglomerativos ou divisivos).
Métodos particionais (Algoritmos exclusivos ou não exclusivos).
Os métodos hierárquicos são técnicassimples de análise, onde os dados são particionados de forma
sucessiva, produzindo uma representação hierárquica dos agrupamentos.
- Algoritmos Aglomerativos
O método hierárquico aglomerativo visa formar os clusters com a mínima distância interna possível,
iniciando com cada padrão formando seu próprio agrupamento e de forma gradual os grupos são unidos
até que um único agrupamento contendo todos os dados gerados.
São desvantagens desse método:
1741234 E-book gerado especialmente para MARCOS AURELIO
14
- Os agrupamentos não podem ser corrigidos, ou seja, os padrões de um determinado agrupamento
até o final da execução do algoritmo.
- Requerem espaço de memória e tempo de processamento.
- Algoritmos Divisivos
Estes são menos comuns entre os métodos hierárquicos, por conta de sua ineficiência e também por
exigir uma capacidade do computador muito maior que os métodos hierárquicos aglomerativos.
Nesse método busca achar a partição que minimize a matriz de similaridades. Explicando melhor, ele
começa com um único agrupamento formado por todos os padrões e de modo gradual vai diminuindo os
agrupamentos em agrupamentos menores até que seja finalizado com um agrupamento padrão.
Métodos Não Hierárquicos
Enquanto no método hierárquico o algoritmo estabelece uma relação de hierarquia entre os sujeitos e
os grupos, no método não hierárquico isso não acontece.
Os procedimentos não hierárquicos são utilizados basicamente para agrupar indivíduos - e não variá-
veis - cujo número inicial de clusters é definido pelo pesquisador.
A probabilidade de acontecerem classificações erradas nos agrupamentos é menor nos métodos não
hierárquicos, mas em contrapartida, há uma dificuldade maior em estabelecer o número de clusters de
partida. Uma alternativa consiste em utilizar o método hierárquico como técnica exploratória e após utili-
zar o número de clusters no método não hierárquico.
Outros exemplos de aplicação da Análise de Cluster:
- Marketing: no marketing, a Análise de Cluster pode ser aplicada para proceder à segmentação de
mercados a partir das características geográficas e demográficas, e até mesmo com base em perfis
psicológicos dos consumidores, para assim identificar mercados potenciais para determinados produtos,
determinar mercados idênticos em países diferentes ou encontrar grupos de consumidores que possam
servir de referência na previsão de vendas.
- Na medicina: uma das áreas que mais tem benefícios da aplicação da Análise de Cluster é a Medi-
cina, bem como na Psicologia, na Psiquiatria. Nessas áreas, a classificação obtida de uma análise de
clusters pode permitir identificar as causas das doenças, os sintomas, e consequentemente criar/ melho-
rar os seus tratamentos.
- Nas Ciências Sociais: nas Ciências Sociais, os métodos de análise de clusters podem ser usados
pelos antropólogos para definirem áreas culturais homogêneas para assim pensarem em políticas espe-
cíficas para tais segmentos.
Tendências e Projeções
Abaixo, tendências que vão ditar rumos da análise de dados8:
Mineração de Colaboração
Diante da pandemia, a colaboração e a inteligência de negócios se tornaram inseparáveis, uma vez
que a incorporação de aplicativos de fluxos de trabalho no home office ampliou as possibilidades de cola-
boração com partes externas.
8 https://cryptoid.com.br/criptografia-identificacao-digital-id-biometria/conheca-as-10-tendencias-
-que-vao-ditar-os-rumos-da-analise-de-dados-em-2022/
1741234 E-book gerado especialmente para MARCOS AURELIO
15
Já não basta a colaboração chegar ao final da cadeia, após a descoberta dos insights. Ela precisa
chegar antes, quando os dados derivados são gerados.
Vida Longa ao ‘Dashboard’
Embora muito tenha sido falado sobre o fim do dashboard, a ferramenta ainda deve permanecer por
um bom tempo.
Mais do que simples monitoramento de KPIs, o dashboard evolui para oferecer análises investigativas
profundas, embasadas por aplicativos de análises avançadas e interativas.
De acordo com pesquisa da IDC, apenas 33% dos executivos se sentem à vontade para questionar os
KPIs e as métricas utilizadas nas empresas onde trabalham.
“Business Intelligence” Compreensível
Na medida em que os dados ficam mais distribuídos e fragmentados, dentro e fora das organizações,
os analistas também têm mais dificuldade para explicá-los por trás de métricas, KPIs ou cálculos.
Nesse cenário, a linhagem de dados passa a ser essencial para triangulá-los, explicá-los e aumentar a
confiança dos usuários para reagir aos insights gerados por esses dados.
Foco nos Custos
Conforme foram modernizados e amplamente adotados, os Data Warehouses e Data Lakes possibi-
litaram consultar grande quantidade de dados, em tempo real. No entanto, isso pode causar a falta de
controle em relação aos custos da computação em nuvem.
Por isso, é importante adotar uma abordagem de gerenciamento de dados e analytics com base em
frequência e latência, para identificar quando a atualização em tempo real é necessária.
Nuvens Distribuídas
A maioria das empresas não busca mais uma solução de TI única e universal. Elas optam por um con-
junto de ferramentas que atenda às exigências de custo, desempenho e governança de diversas cargas
de trabalho.
Nesse contexto, ter uma infraestrutura distribuída em nuvem reforça a capacidade da empresa de
acessar e compartilhar dados entrelaçados com confiança.
“Insights” Incorporados
Para criar uma abordagem colaborativa, de fora para dentro, a empresa deve abrir o analytics para
todo o ecossistema, o que inclui parceiros e clientes – todos precisam se beneficiar, inclusive o cliente do
cliente.
Os insights precisam surgir para cada usuário e processos de negócios. À medida que os micros in-
sights contextualizados forem mais difundidos, a confiança no sistema aumentará.
Automação de Aplicativos
Com a economia da API, novas formas de entrelaçamento em iniciativas conjuntas são abertas para
empresas, parceiros, clientes e até concorrentes.
1741234 E-book gerado especialmente para MARCOS AURELIO
16
Nesse contexto, a automação de aplicativos é considerada uma nova área forte, porque elimina a
necessidade de escrever códigos dessas integrações, o que torna a oportunidade muito mais acessível
para um maior número de atores.
Ampliação da Capacidade de Todos
Com os dados amplamente disponíveis e os usuários de negócios podendo criar os próprios aplicati-
vos, a alfabetização de dados segue fundamental.
Embora ainda seja vista como pouco acessível, a ciência de dados – ao ser sobreposta ao analytics –
ampliará a capacidade de todos e o que é feito nos laboratórios poderá ganhar escala.
De acordo com levantamento da Gartner, até 2025, a escassez de cientistas de dados não atrapalhará
mais a adoção da ciência de dados e aprendizagem de máquina nas empresas.
Alta Prioridade para Segurança
Em 2021, as equipes de segurança e compliance precisaram se atualizar com a acelerada digitali-
zação, provocada pela pandemia. Com isso, a segurança passou a ocupar a liderança na intenção de
investimentos dos CIOs, de acordo com a pesquisa anual da Gartner.
Novos métodos estão surgindo para permitir mais interoperabilidade com confiabilidade, como o uso
dos padrões abertos.
“Data Mesh” para Dados Distribuídos
A necessidade de acessar rapidamente dados em cenários cada vez mais distribuídos tem demandado
das empresas uma gestão integrada. Cada vez mais os dados serão tratados como produto para acelerar
a integração de clientes e fornecedores e melhorar o gerenciamento do inventário.
Contar com uma arquitetura capaz de lidar com esse rápido crescimento de dados – em vez de uma
plataforma de dados centralizados – possibilitará que tanto a empresa quanto o ecossistema se tornem
mais ágeis e robustos.
1741234 E-book gerado especialmente para MARCOS AURELIO
17
Conceitos de Analytics
ANALYTICS
Inteligência analítica (em inglês, analytics) é um campo abrangente e multidimensional que se utiliza
de técnicas matemáticas, estatísticas,de modelagem preditiva e machine learning para encontrar pa-
drões e conhecimento significativos em dados9.
Inteligência analítica (em inglês, analytics) é um campo abrangente e multidimensional que se utiliza
de técnicas matemáticas, estatísticas, de modelagem preditiva e machine learning para encontrar pa-
drões e conhecimento significativos em dados.
Importância do Analytics
Desde o primeiro censo populacional conhecido, realizado pelo governo sueco em 1749, até Florence
Nightingale registrando e analisando dados de mortalidade na década de 1850, ao estudo do acadêmi-
co britânico Richard Doll sobre a relação entre tabaco e câncer de pulmão nos anos 1950, a análise de
dados tem estimulado a produção de conhecimento por centenas de anos.
Cada um dos cenários acima exigiu uma resposta a uma pergunta que ainda não havia sido soluciona-
da. No século XVIII, os suecos queriam saber a distribuição geográfica de sua população para aprender
a melhor maneira de sustentar uma força militar apropriada. Nightingale queria saber a influência que a
higiene e a enfermagem desempenhavam sobre as taxas de mortalidade. Doll queria saber se as pes-
soas que fumavam eram mais propensas a sofrer de câncer de pulmão.
Cada um desses pioneiros sabia que o instinto não era suficiente. A análise de dados pode revelar cor-
relações e padrões. Há menos necessidade de confiar em suposições ou na intuição. E isso pode ajudar
a responder a perguntas como:
- O que aconteceu?
- Como ou por que aconteceu?
- O que está acontecendo agora?
- O que provavelmente irá acontecer em seguida?
Com computadores mais rápidos e poderosos, a oportunidade para o uso de análises e big data é
abundante. Seja determinando riscos de crédito, desenvolvendo novos medicamentos, encontrando
maneiras mais eficientes de fornecer produtos e serviços, prevenindo fraudes, descobrindo ameaças ci-
bernéticas ou retendo os clientes mais valiosos, a inteligência analítica pode ajudar você a entender sua
organização – e o mundo ao seu redor.
Métodos Analíticos Populares
Existem três tipos predominantes de analytics em uso hoje:
9 https://www.sas.com/pt_br/insights/analytics/analytics.html#:~:text=Intelig%C3%AAncia%20
anal%C3%ADtica%20(em%20ingl%C3%AAs%2C%20analytics,e%20conhecimento%20significativos%20
em%20dados.
1741234 E-book gerado especialmente para MARCOS AURELIO
18
- Estatística descritiva: a estatística descritiva é o tipo mais antigo de analytics. Lembra dos suecos em
1749? Tabular a contagem da população foi uma primeira investida de análise descritiva – o resumo dos
pontos de dados coletados. Esses são os modelos que ajudarão você a entender o que aconteceu e por
que. Ainda existem diversas análises descritivas em uso hoje – desde quantos cliques uma página rece-
be à razão entre quantas unidades são produzidas sobre o número de unidades vendidas.
- Análise preditiva: a análise preditiva tem ganhado popularidade. O desejo de prever o comporta-
mento do consumidor tem sido um dos seus principais impulsionadores. O crescente poder computa-
cional com capacidade de executar centenas ou milhares de modelos rapidamente – e a ampla adoção
de técnicas preditivas, como máquinas de vetores de suporte, redes neurais e florestas aleatórias – es-
tão levando a análise preditiva para dentro de muitas organizações. Esses modelos usam dados histó-
ricos e algoritmos preditivos para ajudá-lo a determinar a probabilidade do que acontecerá em seguida.
- Análise prescritiva: a análise prescritiva é a grande novidade. Saber o que vai acontecer e saber o
que fazer são duas coisas diferentes. A análise prescritiva responde à segunda pergunta, fornecendo
informações sobre decisões ideais com base nos cenários futuros previstos. O segredo para a análise
prescritiva é usar big data, dados contextuais e muita capacidade computacional para produzir respos-
tas em tempo real.
Que Transformações o Analytics Está Promovendo nos Negócios?
Com a forte presença de Analytics no mercado nos últimos anos, verdadeiras transformações estão
sendo realizadas no interior das companhias10. A seguir, conheça alguns pontos que estão sendo pro-
fundamente impactados.
Uso Estratégico de Dados
Os dados cada vez mais ganham relevância nas empresas, tendo em vista que são muito úteis para a
tomada de decisões com base em análises, como as que explicamos anteriormente. Por isso, cada vez
mais as companhias se preocupam em coletar e minerar informações de seus clientes, fornecedores e
funcionários.
É interessante destacar, no entanto, que alguns cuidados devem ser tomados nesse sentido. Entre
outras coisas, as empresas precisam seguir à risca a nova Lei Geral de Proteção de Dados (LGPD), le-
gislação que entra em vigor em agosto de 2020 e que dará mais poder aos indivíduos no que diz respeito
ao uso de dados pessoais.
Desenvolvimento Inteligente
A transformação digital tem feito com que as companhias se desenvolvam com inteligência, basea-
das em números reais, e não em meros achismos. Isso é fundamental para que os negócios cresçam de
maneira sadia.
Com uma estratégia de dados, é possível verificar como a empresa se comporta no momento atual,
quais são as projeções de cenários para o futuro etc. Assim, o desenvolvimento ocorre de modo racional
e com os passos dados no tempo certo.
Mudança dos Processos Internos
As estratégias de Analytics também estão trazendo mudanças nos processos internos das compa-
nhias, tendo em vista que tudo é monitorado e acompanhado, para que os resultados sejam os mais
eficientes possíveis.
10 https://bityli.com/7TwLC
1741234 E-book gerado especialmente para MARCOS AURELIO
19
Novas tecnologias são utilizadas com frequência, sempre revolucionando a maneira como os pro-
cessos são realizados. Exemplo disso é o uso do Speech Analytics, um tipo de software que armazena
dados de voz, transcreve e faz análises das interações que ocorrem entre os clientes e as empresas.
Otimização de Cibersegurança
Também ocorre a otimização de cibersegurança. Isso acontece porque as empresas entendem a
necessidade de proteger os seus dados, para que eles não sejam perdidos, roubados ou acessados por
pessoas não autorizadas.
Cabe lembrar que a otimização de cibersegurança é uma das medidas que devem ser tomadas para
cumprir a LGPD à risca. De tal maneira, convém fazer o investimento em softwares criptografados, por
exemplo.
Aumento da Competitividade
Com o uso das ferramentas de Analytics, as empresas se tornam bem mais competitivas. Isso aconte-
ce porque elas fazem projeções de mercado, avaliam diferentes cenários e desenvolvem as atividades da
melhor maneira possível.
As companhias que não desenvolvem ações de Analytics não conseguem se manter fortes diante das
concorrentes que usam os dados para nortear as suas ações.
Tendências de Analytics
O uso de Analytics nas empresas não para de evoluir. Por isso, é importante também estar atento às
tendências dessa área. Na sequência, apresentaremos algumas delas.
Análise de Relacionamento
Algo que tende a ser cada vez mais monitorado é o relacionamento das empresas com os seus mais
diversos públicos. Com a tecnologia, a execução ganha mais qualidade, por meio do uso de softwares
diversos.
Plataformas de atendimento para contact centers, por exemplo, nas quais os clientes se comunicam
com a empresa via mensagens de texto, possibilitam que determinadas palavras-chave ou solicitações
tenham as suas frequências de aparecimento monitoradas.
Assim, é possível verificar quais são as principais queixas e aprimorar o atendimento nesse sentido.
Os dados também podem ser utilizados para conhecer as preferências de cada grupo de interesse da
empresa, por exemplo.
Cultura Digital
A cultura das empresas necessita ser mais digital e as estratégias de Analytics também se perpetuam
nesse sentido. A ideia é que as tarefas sejam menos operacionais e mais estratégicas. Isto é, os proces-
sos burocráticos e o serviço “braçal” são automatizados e as pessoas passam a se preocuparmais com
o desenvolvimento de estratégias de negócios.
É uma tendência que as companhias utilizem o Analytics para automatizarem os seus processos.
Em estratégias de e-mail marketing, por exemplo, pode-se acionar comandos para que sejam enviadas
mensagens a todos os clientes ou leads que tiverem determinado comportamento. Para descobrir isso,
os sistemas de disparo precisam analisar dados automaticamente.
1741234 E-book gerado especialmente para MARCOS AURELIO
20
Inteligência de Decisão
Essa também é uma tendência para as empresas que utilizam ferramentas de Analytics. Afinal, o uso
de indicadores reais, que retratam exatamente a companhia, fazem com que as atitudes da empresa
tragam resultados mais positivos.
De tal maneira, as decisões tomadas com base em suposições, crenças pessoais, entre outros méto-
dos, são deixadas de lado. Tudo passa a ser feito com inteligência e os resultados coletados são os mais
positivos possíveis.
Operacionalização e Escalonamento
Escalonamento nada mais é do que uma disposição em degraus. Ou seja, os processos empresariais
funcionam como quando precisamos subir uma escada, dando um passo de cada vez.
A operacionalização e o escalonamento também são tendências para quando se utiliza o Analytics nas
empresas. Isso porque, com base em dados e indicadores, se sabe o exato momento em que se pode
dar o próximo passo, sem assumir riscos que as empresas não podem cumprir.
Papel do Analytics no Setor Comercial das Empresas
Quando falamos exatamente sobre o time de vendas, o Analytics pode ajudar no desenvolvimento de
diversas atividades. Confira, a seguir, as principais delas.
Segmentação da Carteira
O uso de dados analíticos e análises diversas, como as que explicamos anteriormente, facilitam o
trabalho de segmentar a carteira de clientes das empresas. Os indicadores podem demonstrar classifica-
ções úteis para atender determinados grupos com exclusividade.
Imagine, por exemplo, uma empresa do ramo calçadista. Ela pode produzir tanto sapatos sociais como
tênis para práticas esportivas. Ambas as modalidades, porém, são destinadas para públicos distintos.
Por isso, ao fazer uma segmentação da carteira, é possível direcionar as ações comerciais de maneira
mais acertada para os públicos almejados.
Identificação do Perfil do Cliente Ideal
As análises de dados também podem indicar o perfil do cliente ideal, ou seja, aquela pessoa que mais
traz lucro para a companhia. Para isso, são analisadas questões como o perfil e a frequência de com-
pra.
Isso pode indicar quais são os clientes que devem ser priorizados em estratégias de fidelização, con-
duzindo o setor comercial a atingir e elevar as metas de vendas.
Agilidade na Prospecção de Leads
A prospecção de leads é outra atividade do setor comercial que é facilitada com o uso de Analytics.
Com o uso de estatísticas de acesso em estratégias de inbound marketing, os vendedores conseguem
traçar orientações para contactar as pessoas que mais se interessam pelos produtos ou serviços ofereci-
dos pela empresa.
Isso tudo faz com que as estratégias de prospecção de leads sejam mais qualificadas, com andamen-
to mais rápido para o fluxo do funil de vendas.
1741234 E-book gerado especialmente para MARCOS AURELIO
21
Precisão na Qualificação de Leads Gerados
Os dados analíticos também garantem que haja uma boa qualificação dos leads gerados. Isso aconte-
ce porque as estratégias serão baseadas nos gostos das pessoas que estão sendo prospectadas, curan-
do suas dores ou suprindo necessidades que possam apresentar.
Tal ação faz com que a nutrição dos leads seja mais completa. E prospects qualificados normalmente
proporcionam melhorias de conversões em vendas.
Avaliação em Tempo Real da Estratégia
O setor comercial das empresas também é beneficiado com as técnicas de Analytics, pelo fato de as
estratégias serem monitoradas em tempo real. Isso é muito interessante, principalmente porque os ajus-
tes e providências possam ser tomados com agilidade, evitando números negativos nos resultados da
companhia.
Como Aplicar Analytics em Prol do Marketing e do Atendimento na Empresa?
Marketing e Analytics são conceitos que andam juntos, principalmente quando falamos em ações
no meio digital. As tecnologias possibilitam que os dados das ações de inbound sejam monitoradas, de
modo que as estratégias possam ser direcionadas a resultados mais satisfatórios.
São diversas as métricas de marketing disponíveis para acompanhamento por meio das ferramentas
de Analytics. Em atividades feitas nas redes sociais, por exemplo, temos como mensurar o número de
cliques em uma publicação e a localização, a idade e o gênero das pessoas. Informações como essas
permitem que se conheça mais o público-alvo e sejam definidas estratégias alinhadas com o modelo de
negócio.
A mesma relevância é encontrada no setor de atendimento, que deve acompanhar dados analíticos
para alcançar a excelência nas interações com os clientes. Nesse sentido, uma das táticas que pode ser
adotada é a de Interaction Analytics.
O Interaction Analytics é uma atividade em que se realiza a coleta de dados brutos de todas as inte-
rações que os clientes têm com a empresa, via redes sociais, chat online, telefone e outros pontos de
contact center.
Com base nesses dados, são gerados relatórios que visam identificar gargalos e propor soluções para
os problemas.
Vantagens do Analytics para as Campanhas de Performance de Vendas
Agora vamos falar sobre as vantagens que o Analytics traz para as campanhas de performance de
vendas. Listamos uma série de benefícios.
Melhoria na Gestão do Budget
O budget, ou seja, o orçamento das empresas para as campanhas de vendas, é beneficiado por uma
melhor gestão quando existe a cultura de Analytics. Isso se explica porque os indicadores demonstrarão
quais setores e ações precisam de investimento.
Definição Correta da Buyer Persona
A buyer persona é a representação fictícia de um cliente real das empresas. Logo, usar Analytics é
uma escolha inteligente para compilar informações valiosas sobre os clientes e leads da companhia.
1741234 E-book gerado especialmente para MARCOS AURELIO
22
São essas informações que tornarão mais fácil a criação de uma buyer persona que seja fidedigna à
realidade do negócio.
Identificação de Novas Oportunidades
Muitas vezes, as oportunidades de venda existem e as empresas nem mesmo conseguem enxergá-
-las. Isso acontece porque faltam indicadores que demonstrem boas maneiras de acompanhar oportuni-
dades e tendências.
Mais uma vez, o monitoramento de dados analíticos é útil. Esse conjunto de informações demonstra
comportamentos dos clientes que podem oferecer diretrizes para o investimento em novos negócios.
Nutrição de Leads Personalizada
Como explicamos, os recursos de Analytics possibilitam o acompanhamento das reações das pessoas
em estratégias de marketing e também a jornada do cliente.
Isso faz com que a nutrição de leads seja personalizada, de acordo com o que for apontado nos rela-
tórios. E a tendência desse cuidado é a melhoria na performance de vendas da companhia.
Soluções de Analytics
As soluções de Analytics são as mais diversas possíveis e variam de acordo com o tipo de estratégia
que se deseja desenvolver. Os dados acompanhados no marketing nem sempre são úteis para o setor de
atendimento ou vice-versa. É por isso que deve ser realizado um acompanhamento dos processos.
O Google Analytics, por exemplo, é uma ferramenta que pode ser muito utilizada em ações de marke-
ting digital. Já as redes sociais, como o Facebook e o Instagram, geram relatórios analíticos próprios. O
mesmo acontece com muitos softwares de gestão.
Aprendizado de Máquina
APRENDIZADO DE MÁQUINA (MACHINE LEARNING)
Talvez ao ouvir o termo aprendizado de máquina (em inglês machine learning) você imagine algo com
uma complexidade muito grande11. É verdade que existem alguns assuntos complexos nesse ramo, mas
o entendimento básico é muito simples, e a utilização da tecnologiatambém.
Vamos iniciar prestando atenção no nome “machine learning”, ou seja, uma máquina que aprende.
O ato de aprender significa que o computador não receberá uma lista de instruções do que fazer em
cada situação, ele receberá apenas algumas informações iniciais e terá que aprender o restante por con-
ta própria.
Machine Learning é uma das maiores áreas dentro da Inteligência Artificial e também da Ciência de
Dados. Então vamos entender melhor o que é isso.
11 https://didatica.tech/o-que-e-machine-learning-aprendizado-de-maquina/
1741234 E-book gerado especialmente para MARCOS AURELIO
23
Diferença entre Aprendizado e Lista de Instruções
Imagine que uma pessoa esteja aprendendo a andar de bicicleta. Não seria muito útil passar uma lista
de instruções como “incline o corpo nessa direção”, “vire nesse sentido quando a bicicleta estiver nessa
posição”, etc.
O ser humano, nesse caso, aprende melhor com a tentativa e erro. A pessoa pedala e cai, pedala no-
vamente e cai novamente, agora para o lado contrário do primeiro tombo, pois ela entendeu que precisa
tentar se equilibrar, e mais do que entender teoricamente, ela começou a praticar.
Após algumas (ou muitas) quedas, ela enfim saberá andar de bicicleta, sem nunca precisar seguir um
“manual de instruções” gigantesco.
Esse é o principal conceito que você precisa entender sobre o aprendizado de máquina, pois a ideia
é muito semelhante a este exemplo que acabamos de citar. Vamos agora apresentar uma situação real
de aprendizado de máquina para você compreender como isso se aplica no mundo da programação de
computadores
Computadores que Aprendem São Superiores
Antes do machine learning ser aplicado ao xadrez, em 1997, um programa de computador conseguiu
vencer uma partida de xadrez contra o melhor jogador humano da época.
Por ser um jogo de grande complexidade, com muitas possibilidades, o conjunto de instruções neces-
sárias é gigantesco e o programa em questão possuía essas instruções em sua memória, que atreladas
a um grande poder de processamento possibilitava a simulação de muitas jogadas a frente em um curto
espaço de tempo, levando o computador a vitória.
Nos dias atuais, não há mais comparação entre os melhores jogadores de xadrez e os melhores pro-
gramas, pois os programas conseguem jogar muito melhor.
O computador consegue vencer mesmo iniciando o jogo com algumas peças a menos.
Estamos falando aqui de um computador que segue uma lista gigante de instruções sobre o que fazer
em cada situação. Esse computador sabe as regras de xadrez, as estratégias, os conceitos, possui mi-
lhares de partidas armazenadas na memória, análises de posição etc.
Mas em 2017, a empresa DeeDeep Mind (do Google) desenvolveu um programa para jogar xadrez uti-
lizando machine learning. Este programa não recebeu nenhuma instrução sobre estratégias ou melhores
jogadas.
A única informação que o programa recebeu foram as regras do jogo, nada mais.
Sabendo as regras do jogo, o programa jogou contra si mesmo inúmeras vezes, e a cada nova partida
ele aprendia com os erros e acertos da partida anterior.
Desta forma, sem que o programa conhecesse estratégias desenvolvidas pelo homem, ele aprendeu a
jogar sozinho e desenvolver suas próprias estratégias.
O resultado deste aprendizado não poderia exemplificar melhor o poder do aprendizado de máquina:
ao jogar contra o melhor programa de computador atual, as vitórias do computador que utilizou aprendi-
zado de máquina foram avassaladoras.
Um marco na Ciência da Computação, evidenciando a superioridade do aprendizado de máquina x
instruções pré-estabelecidas.
1741234 E-book gerado especialmente para MARCOS AURELIO
24
Isso é muito empolgante, mas para explicar o processo do machine learning é melhor retroceder um
pouco.
Importância do Aprendizado de Máquina
Um dos pontos mais interessantes a respeito do machine learning é o fato de que essa tecnologia tem
um potencial ilimitado e pode ser aplicada em diversas áreas12. Por exemplo, uma empresa interessada
em desenvolver produtos e serviços mais personalizados pode fazer uso do aprendizado de máquina
para compreender mais a fundo as demandas e interesses de clientes.
Além disso, é válido ressaltar que a tecnologia também pode ser usada em prol da ciência, realizando
tarefas como auxiliar médicos a fazer diagnósticos e até mesmo no estudo de doenças.
Para se ter uma ideia, em 2020, a organização OpenAI, apresentou ao mercado a tecnologia GPT-3,
que consegue, por exemplo ter habilidade da escrita, nas mais variáveis línguas.
Portanto, não é um exagero dizer que o machine learning é uma tecnologia que rompe barreiras,
afinal, ela abre espaço para que diversas áreas e atividades úteis sejam otimizadas, o que beneficia a
sociedade como um todo.
Conceito de Algoritmo
Algoritmos, entre outras palavras, são passos que você precisa executar para a realização de uma
tarefa ou solução de um problema. Ou seja, o algoritmo é o caminho que deve ser seguido para que um
problema seja solucionado.
Aplicando esse conceito em nosso cotidiano, para fazermos um suco de laranja, precisamos seguir
uma série de passos, tais como:
- Comprar as laranjas em uma quitanda ou mercado;
- Descascar as laranjas com uma faca;
- Espremer as laranjas manualmente ou utilizando um espremedor;
- Adicionar água para diluir o caldo da laranja;
- Adoçar o suco com açúcar ou adoçante de sua preferência.
Observe que precisamos realizar uma série de passos para chegar ao nosso objetivo, que era de to-
mar um suco de laranja. No caso, esses passos seriam o que chamamos de algoritmo.
Como a Máquina Aprende?
Vamos entender como isso funciona com um exemplo mais simples. Imagine que você é um médico e
está interessado em classificar seus pacientes como “saudáveis” ou “doentes”.
Para cada paciente, você possui um conjunto de dados (informações) como: altura, peso, pressão
arterial, nível de colesterol, percentual de gordura, entre outros.
Você já possui um histórico muito grande de pacientes com seus respectivos dados e classificações
como saudáveis ou doentes, e quer utilizar um algoritmo de machine learning para aprender com esses
dados de maneira que, quando você receber os dados de um novo paciente, o algoritmo possa dizer se
ele está saudável ou doente.
12 NOLETO, C. Aprendizado de máquina: 8 exemplos para entender as aplicações.
1741234 E-book gerado especialmente para MARCOS AURELIO
25
Então como isso vai funcionar? Você irá alimentar o algoritmo de machine learning com os dados
históricos já classificados (entenda que estamos interessados aqui na classificação entre saudável ou
doente).
A partir destes dados, o algoritmo de machine learning irá aprender quais condições são necessárias
para o paciente ser classificado como saudável e quais condições classificam o paciente como doente.
Essa etapa o algoritmo irá fazer sozinho, você não precisa fazer nada além de alimentar os dados no
programa e colocar a função para rodar (essas funções de algoritmos de machine learning já estão pron-
tas e você pode solicitá-las com comandos simples de programação).
Existem diferentes algoritmos de machine learning que poderiam resolver esse problema, mas não
vamos nos prender a esses detalhes agora. A figura abaixo ilustra bem esse processo:
Repare que agora, como saída desse processo, temos um modelo já treinado. Em outras palavras,
temos um modelo que já aprendeu a relação dos dados (quais características classificam um paciente
como doente ou saudável).
Então já podemos utilizar esse modelo para realizar previsões sobre novos dados. Podemos alimen-
tar o modelo treinado com as informações de novos pacientes e o modelo irá prever se cada um desses
pacientes é saudável ou doente:
Mas como saberemos se essas previsões que o algoritmo irá fazer estão corretas ou não? Podemos
testar o modelo antes para saber o quão confiável ele é.
Dados de Treino e Dados de Teste
Imagine que, em vez de utilizar todos os nossos dados históricos para treinaro modelo, utilizamos
apenas 80% desses dados e separamos os outros 20% para servirem como teste depois (esses 20% são
dados o modelo não irá receber para treinar).
A lógica é a seguinte: se o modelo conseguir fazer previsões corretas sobre os dados de teste, signifi-
ca que o modelo está funcionando bem.
Esses dados de teste também são dados históricos, ou seja, já estão classificados, então basta com-
parar as previsões do modelo com as respectivas classificações para ver se ele acertou ou errou nas
suas previsões:
1741234 E-book gerado especialmente para MARCOS AURELIO
26
Basicamente, esse é o importante conceito de dados de treino e dados de teste.
Problemas de Classificação e de Regressão
Acabamos de utilizar aqui um exemplo de classificação, pois o resultado final é a previsão de uma
classe. Outros exemplos de problemas de classificação poderiam ser: classificação dos alunos entre
aprovados ou reprovados, classificação de clientes em categorias (A, B, C, D), classificação de cogume-
los como comestíveis ou não comestíveis etc.
Problemas de regressão, por outro lado, não preveem uma classe e sim um resultado numérico. Por
exemplo: previsão do preço de imóveis, previsão da densidade dos materiais, previsão da quantidade de
gols que um time de futebol irá fazer em uma partida etc.
Um cientista de dados precisa primeiro reconhecer se o problema se trata de classificação ou de re-
gressão, para depois tomar a decisão de qual algoritmo de machine learning utilizar.
Aprendizado Supervisionado ou Não Supervisionado
O aprendizado supervisionado ocorre quando o modelo aprende a partir de resultados pré-definidos.
Em nosso exemplo do médico, os resultados eram as classes e o modelo precisava aprender a relação
dos dados para fazer uma correta classificação.
O mesmo poderia ter ocorrido com problemas de regressão, onde o modelo iria aprender a partir de
resultados numéricos para fazer depois previsões de novos resultados numéricos. Isso tudo é conside-
rado aprendizado supervisionado, pois o modelo possui uma referência daquilo que está certo e daquilo
que está errado.
Aprendizado não supervisionado ocorre quando não existem resultados pré-definidos para o modelo
utilizar como referência para aprender. Por exemplo, você apresenta para o modelo um conjunto de da-
dos com várias informações sobre plantas (como comprimento do caule, cor da folha, espessura da raiz
etc.) e pede para o modelo separar esses dados em 5 categorias.
Nesse caso, você não especificou para o modelo o que caracteriza cada categoria, o modelo irá so-
zinho tentar encontrar semelhanças e diferenças entre os dados de maneira que essa separação em 5
categorias seja a melhor possível.
Como não há uma referência (ou critério específico) para o modelo seguir, define-se que esse aprendi-
zado é não supervisionado.
1741234 E-book gerado especialmente para MARCOS AURELIO
27
Conseguimos entender até aqui o que é o aprendizado de máquina e vimos também alguns conceitos
básicos. Se você está se perguntando como fazer isso na prática utilizando programação, saiba que é
mais simples do que parece.
Como Programar Machine Learning
Podemos utilizar Python, Linguagem R, ou outras linguagens de programação para trabalhar com ma-
chine learning.
Na maior parte das vezes, você utilizará bibliotecas e frameworks prontos para utilizar os algoritmos
de aprendizado de máquina, então a programação será bastante facilitada.
Relação entre Python e Machine Learning
Toda interação existente nas máquinas, para que elas tenham comportamentos corretos, é necessá-
ria uma pessoa desenvolvedora para escrever os códigos em uma linguagem de programação. No caso,
essa linguagem é responsável por passar comandos para a máquina sobre como ela deve funcionar e
executar suas funções.
Uma dessas linguagens é a linguagem Python, muito utilizada para esse fim devido a sua simplicidade
e a presença de várias bibliotecas para auxiliar os desenvolvedores e desenvolvedoras a terem maior
produtividade e economia de tempo.
Machine Learning Iterativo
É o processo que independe de ação humana para associação de dados. Em grande quantidade, as
associações feitas pelos humanos poderiam resultar em erros, ou seja, o processo interativo seria uma
melhoria entre as associações que ocorrem entre os elementos e os dados.
Na primeira etapa do processo de machine learning, quando ele é implementado, o processo é obser-
vado por pessoas, para, depois disso, serem automatizados. Com o tempo, elas geram cada vez mais
precisão na geração dos resultados das associações entre os dados.
Vantagens do Machine Learning
As vantagens do machine learning são as seguintes:
- Automatização de processos: tarefas repetitivas para nós, seres humanos, podem ser adaptadas
para serem feitas de forma automática por meio de robôs, gerando alto ganho de produtividade;
- Redução de custos: além de gerar economia com possíveis desperdícios de recursos na produção,
também há um aprimoramento na mão de obra para ser utilizada;
- Melhor gerenciamento das informações: como as empresas fazem a manipulação de uma carga alta
de dados, o armazenamento destes pode ser difícil de ser realizado. Utilizando machine learning, você
terá garantia que os dados estão sendo bem gerenciados;
- Soluções diversas: para diversas áreas, além de existirem soluções prontas para serem utilizadas
em determinado problema, também há a prevenção de riscos, podendo antecipar uma perda antes mes-
mo dela ocorrer.
- Experiência do usuário: com a utilização do machine learning, podemos fornecer uma experiência do
usuário valiosa, com a personalização de resultados, por exemplo.
1741234 E-book gerado especialmente para MARCOS AURELIO
28
Desvantagem do Machine Learning
O principal efeito colateral que essa técnica pode apresentar é ela não ser utilizada da forma correta,
comprometendo as informações ou causando danos na produção de dados. Contudo, se por trás dessa
manipulação existirem pessoas profissionais qualificadas para o software ou aplicação em questão, os
resultados serão positivos.
Tipos de Aprendizados de Máquina
Como pudemos notar, o machine learning é uma tecnologia que permite a softwares e a aplicativos
aprender por conta própria, identificando assim o modo mais eficiente para realizarem determinadas tare-
fas. Esse aprendizado pode ser feito de modos diferentes.
Aprendizado Supervisionado
Como o próprio nome sugere, o aprendizado supervisionado trata-se de uma modalidade do machi-
ne learning em que o aprendizado de máquina e supervisionado pelas pessoas responsáveis pelo seu
desenvolvimento.
Nesse tipo da tecnologia, o time de desenvolvimento apresenta ao sistema uma série de eventos com
seus respectivos resultados. Cabe ao sistema compreender os fatores que contribuíram para que os re-
sultados, que lhe foram apresentados, fossem alcançados e então utilizar esse conhecimento para prever
resultados de eventos parecidos.
Aprendizado Semi Supervisionado
No aprendizado semi supervisionado, somente alguns dados de uma grande quantidade são supervi-
sionados. Esse tipo de aprendizado tem como meta a realização do treinamento de categorias de classi-
ficação em situações que existam um pequeno conjunto de dados rotulados com um conjunto grande de
dados não rotulados.
Assim, uma das motivações para o aprendizado semi supervisionado é o caso de um dado não rotu-
lado ser coletado de forma automática, sem necessitar de um filtro de classificação. Já para coletar um
dado rotulado, é necessário fazer uma análise mais complexa, que pode ter um custo alto com pessoas
profissionais especializadas.
Aprendizado Não Supervisionado
No aprendizado não supervisionado, o time de desenvolvimento não informa ao sistema resultados
previamente estabelecidos. Nessa modalidade do aprendizado da máquina, é fornecido apenas o acesso
a uma série de dados.
Nesse caso, a missão do software é identificar padrões nos dados e obter indicadores úteis. Essa
tecnologia pode