Prévia do material em texto
Aula 02
Business Intelligence para Concursos - Curso Regular
Professor: Thiago Rodrigues Cavalcanti
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 1 de 58
AULA 02: OLAP E DATA MINING
Sumário
1. Recuperação de dados ................................................................................................... 1
OLAP ...................................................................................................................................................... 1
2. Conceitos básicos ............................................................................................................. 2
3. OLAP x OLTP ....................................................................................................................... 2
4. Operações OLAP ................................................................................................................ 4
5. Arquitetura de servidores OLAP ................................................................................ 10
6. Critérios de avaliação de produtos OLAP .............................................................. 14
Data mining ...................................................................................................................................... 16
7. Conceitos básicos ........................................................................................................... 16
7.1. Processo de mineração ............................................................................................ 18
7.2. Tarefas de mineração ............................................................................................... 22
7.2.1. Regras de associação ............................................................................................ 22
7.2.2. Classificação ............................................................................................................. 24
7.2.3. Agrupamento (Clustering) .................................................................................. 26
7.2.4. Abordagem para outros problemas de mineração .................................... 27
7.3. Conceitos Complementares .................................................................................... 28
Visualização e análise exploratória de dados ...................................................................... 30
Questões ........................................................................................................................................ 32
Questões extras .......................................................................................................................... 45
Considerações Finais ..................................................................................................................... 58
1. Recuperação de dados
Nesta aula, nosso objetivo é apresentar as diferentes técnicas e
ferramentas que fazem acesso ao Data Warehouse (DW). É preciso entender que
cada uma delas atende a uma necessidade específica de usuários e clientes.
Vamos mostrar como recuperar as informações e como visualizar esses
dados após a execução de diferentes algoritmos ou consultas sobre o DW.
Dividimos nossa aula em quatro partes. Falaremos de OLAP ou processamento
analítico on-line, data mining ou mineração de dados e, em seguida,
mostraremos as possibilidades de visualização por meio dos painéis e
dashboards.
OLAP
O termo On-Line Analitical Processing – OLAP foi proposto por E.F. Codd, o
pai do modelo relacional. O modelo relacional põe os dados em tabelas,
enquanto o OLAP usa a representação de arrays multidimensionais. Essa
representação de dados já existia previamente na estatística e em outras áreas.
Existe um grande número de operações de analise de dados e exploração de
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 2 de 58
dados que são facilitadas como esse modelo de representação. Vamos entender
o conceito por trás desse modelo.
2. Conceitos básicos
Começamos tentando responder a uma pergunta básica: O que é OLAP?
Trata-se de um processamento de dados dedicado ao suporte a decisão. Essa
analise é feita por meio da visualização de dados agregados ao longo de várias
dimensões analíticas do modelo de dados dimensional (ex.: tempo, espaço,
categoria de produto, quantidade vendida, preço).
Esse processamento é feito sobre dados armazenados em Banco de Dados
especializadas. Eles seguem um modelo lógico de dados multidimensional e são
chamados de Data Warehouse, Data Mart ou BD multidimensionais. Falamos
sobre eles na aula anterior. Sabemos inclusive que os dados são estruturados de
forma hierarquizada em diferentes níveis de granularidade.
Outra definição possível para OLAP seria um recurso que permite
manipular e analisar grandes volumes de dados sobe múltiplas
perspectivas. Ou ainda, um software que permite ao usuário interagir com um
grande banco de dados on-line (data warehouse) e solicitar e receber
praticamente qualquer relatório no formato desejado.
Partindo dos três conceitos vistos até agora, passaremos para uma
sistematização do conhecimento dentro do assunto. Os conceitos de OLAP, mais
precisamente quando tratamos de questões para concursos, podem ser
classificados da seguinte forma: 1. OLAP x OLTP, 2. Operações OLAP e 3.
Taxonomias de servidores OLAP.
3. OLAP x OLTP
On-Line Analytical Processing (OLAP) é muito diferente do tradicional On-
Line Transaction Processing (OLTP). Quando utilizamos OLTP, o foco é sobre as
transações individuais. Considere, por exemplo, um sistema OLTP simples usado
por um vendedor de livros para manter a par dos livros em estoque. Quando
uma cópia de um determinado livro B é vendida, o sistema diminui o número
que mostra quantas cópias de B estão em estoque.
Da mesma forma, o número é aumenta quando mais cópias são entregues
a partir do editor. O sistema só mantém o controle dos dados mais atual, isto é,
o que está atualmente no estoque. Detalhes sobre vendas individuais não são
armazenados em um formato fácil de analisar. O varejista pode até saber quem
é o cliente, mas esta informação não é mantida com a finalidade de análise
posterior. O sistema armazena suas informações em um banco de dados
relacional que é normalizada para evitar anomalias de atualização. Este tipo de
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 3 de 58
sistema é conhecido como OLTP. Ele é otimizado para recuperação e/ou
atualização de uma pequena quantidade de tuplas.
Em contraste, um sistema OLAP para o varejista de livros mantém o
controle de cada venda individual. Isso também inclui informações específicas
sobre a venda, como a cidade onde a venda ocorreu, a data da venda, o
vendedor que vendeu o livro, e informações sobre o banco de dados
multidimensional. Ele é usado para o armazenamento de tais dados. Desta
forma é mais fácil achar, por exemplo, o livro de receitas mais vendido e o
número médio de livros infantis vendidos antes de uma operação de vendas. O
OLAP geralmente não apaga nem atualiza seus dados; apenas adições de novos
dados ocorrerão no sistema periodicamente. O OLAP é assim otimizado para
recuperar (e sumarizar) grandes quantidades de dados.
A comparação entre OLAP e OLTP passa por diversos critérios individuais.
Cada autor valoriza critérios diferentes, ou seja, se você observar algumas
características são comparadas em um livro e não em outro. Vamos começar
exibindo uma primeira tabela que faz algumas distinções entre os dois modelos:A ideia fundamental por trás da programação de matriz ou array é de que
as operações se aplicam de uma vez para todo um conjunto de valores. Isto o
torna um modelo de programação de alto nível, uma vez que permite ao
programador pensar e operar sobre os agregados inteiros de dados, sem ter de
recorrer às linhas explícitas de operações escalares individuais.
A base da programação por array e do seu pensamento é encontrar e
explorar as propriedades de dados onde os elementos individuais são
semelhantes e/ou adjacente. Ao contrário da orientação a objetos que
implicitamente quebra de dados para suas partes constituintes (ou quantidades
escalares), a orientação serial olha para um grupo de dados e aplica um
tratamento uniforme.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 4 de 58
A comparação continua com outros autores. Carlos Barbieri faz uso da
seguinte lista em seu livro:
Resumindo quando pensamos em OLTP temos as seguintes características:
Ele é usado para acesso à dados em tempo real, baseado em transação, os
dados podem existir em mais do que uma tabela. Eles são otimizados para
transações mais rápidas e incluem operações de inserir, atualizar e excluir. Não
são construídos para a execução de consultas complexas. Bancos de dados de
sistemas Line-of-Business (LOB) e Enterprise-Resource-Planning (ERP) usam
este modelo. A ferramenta da Microsoft que gerencia este modelo é o SQL
Server Management Studio (SSMS). Segue as regras de normalização de banco
de dados (DB) e usa banco de dados relacional. Armazena dados da chave. Usa
menos índices e mais junção. E faz consultas de várias tabelas.
Quando nosso foco é OLAP temos: O uso de dados on-line ou históricos.
Usado para análise e navegação sobre os dados. Os dados podem existir em
mais do que uma tabela. Otimizado para desempenho analítico dos dados. Banco
de dados apenas de leitura. Construído para executar consultas complexas.
Bancos de dados analíticos, como Cognos, a Business Objects, e assim por
diante utilizam este modelo. A ferramenta da Microsoft para esse tipo de modelo
é o SQL Server Analysis Services (SSAS). Relaxa as regras de normalização de
banco de dados. Utiliza banco de dados relacional ou multidimensional.
Armazenam dados agregados em relação à chave. Comparado com OLTP usa
relativamente mais índices e menos junção. Consulta pode ser executada em
menos tabelas.
4. Operações OLAP
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 5 de 58
Passamos agora para as operações OLAP. Conhecida também como
funcionalidades. Aqui estão as funções que podem ser aplicadas sobre os dados
disponíveis nos cubos ou nos DW. Antes de tratarmos das funções vamos
relembrar o conceito de granularidade.
A granularidade diz respeito ao nível de detalhe ou de resumo nas unidades
de dados no DW. Quanto maior o nível de detalhes, menor o nível de
granularidade. O nível de granularidade afeta diretamente o volume de dados
armazenado no DW e, ao mesmo tempo, o tipo de consulta que pode ser
respondida.
OLAP oferece recursos de modelagem analítica, incluindo um mecanismo de
cálculo para desvio padrão, variância, entre outros; e processamento de
medidas em múltiplas dimensões. Os recursos também permitem gerar
sumarizações, agregações e hierarquias em cada nível de granularidade e em
cada cruzamento de dimensão. Ele ainda suporta modelos funcionais para
previsão, análise de tendências e análise estatística.
Neste contexto, um motor OLAP é uma ferramenta poderosa a análise de
dados. Que tal darmos uma olhada nas operações de OLAP? Certamente, você já
ouviu falar de “Drill Down”, “Drill up”, “Roll up”, “Drill across”, “Pivot”, “Slice and
Dice”. Pois bem, que tal detalhar cada uma delas?
Em modelos multidimensionais, como próprio nome sugere, os dados são
organizados em múltiplas dimensões. Cada uma delas contém múltiplos níveis
de abstração. Esses níveis são, ainda, definidos pelo conceito de hierarquia.
Essa organização provê ao usuário uma flexibilidade para observar os dados a
partir de diferentes perspectivas e em diferentes níveis de detalhe.
Graficamente, esses modelos podem ser representados por meio de um
cubo. As operações sobre um cubo de dados nos permitem materializar
diferentes perspectivas (também conhecidas como visões), permitem consultas
e análises interativas sobre dados armazenados. Vamos, então, entender as
peculiaridades de cada uma dessas operações de OLAP.
Roll-up: também conhecida como drill-up, aplica uma agregação sobre o
cubo de dados. Ou ainda, aumentar o nível de granularidade dentro de uma
dimensão, reduzindo o detalhamento da informação. É, basicamente, subir na
hierarquia. A figura abaixo, retirada do livro Data Mining: Concepts and
Techniques[1], mostra o resultado da operação de roll-up aplicada no cubo
central subindo na hierarquia de location. Basicamente, essa hierarquia é
definida na seguinte ordem: street < city < province_or_state < country. Essa
agregação mostra uma ascensão na hierarquia de location do nível de city para o
nível de country.
Drill-down: É o inverso da operação de roll-up. É uma forma de navegar
de um dado com menor nível de detalhe para um dado com maior nível de
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 6 de 58
detalhe. Essa operação pode ser realizada tanto descendo em uma hierarquia de
uma dimensão quanto introduzindo dimensões adicionais. A figura abaixo exibe
o resultado de uma operação de drill-down sobre o cubo central, basicamente,
descendo sobre a hierarquia de tempo (day < month < quater < year). A
operação desce do nível de semestre (quater) para mês (month).
Outra forma de executar o drill-down seria adicionando uma nova dimensão
ao cubo. Por exemplo, imagine, a partir do cubo central, uma operação de drill-
down que introduz uma dimensão adicional. Por exemplo,
grupo_de_consumidores.
Slice and dice: A operação de slice executa uma seleção sobre uma das
dimensões de um determinado cubo, resultando em um subcubo. A figura
mostra um exemplo da operação de slice que seleciona as vendas por cidade em
um determinado semestre (nestre caso, quarter = Q1). A operação
de dice define um “subcubo” através de umaseleção sobre duas ou mais
dimensões. A figura também mostra uma operação de dice que envolve três
dimensões seguindo os seguintes critérios (location = “Toronto” ou “Vancouver”
|| time = “Q1” ou “Q2” || item = “home entertainment” ou “computer”).
Pivot: Também conhecida como rotate ou rotação, é uma operação de
visualização que rotaciona os eixos de um determinado cubo, provendo uma
visão alternativa dos dados. A figura mostra uma operação de pivot sobre o
resultado da operação de slice. Neste caso, observamos uma rotação em duas
dimensões. Contudo o mesmo pode ser feito, também, em um cubo 3-D.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 7 de 58
Até aqui vimos as mais simples operações de OLAP, que podem, inclusive,
ser consideradas operações básicas. Contudo, ainda não tratamos das famosas
Drill-across e Drill-through. Vamos agora definir cada um deles:
Sobre a operação de drill-across encontramos na literatura uma
divergência entre os principais autores. Vejam algumas definições
abaixo:
Drill-across: Executa uma consulta envolvendo mais de uma tabela fato!
Essa operação exige queos dois cubos tenham pelo menos uma das dimensões
em comum. A ideia é você conseguir consultar as múltiplas tabelas fato e colocar
o resultado em um único data set. Esta é a visão de Kimball (você pode ver um
exemplo aqui).
Para entender como efetuar essa operação, que tal mostrarmos um
exemplo prático? Imagine que uma determinada livraria tenha duas formas de
venda de produtos: nas suas lojas físicas ou pela Internet. Para cada um desses
processos de venda temos um cubo. No primeiro caso o cubo é montado com as
hierarquias de livros, tempo e localização geográfica. Na internet, não existe a
dimensão geográfica. Desta forma, esta foi substituída pela dimensão cliente.
Suponha que um gerente deseja fazer uma consulta para saber qual livro
foi o mais vendido nos anos de 2008 e 2009. Para fazer o drill-across, nós
atendemos à primeira premissa segundo Kimball: trata-se de uma operação
sobre dois cubos. Os dados nos dois cubos são combinados nas dimensões
comuns aos mesmos. Nesse caso, livros e tempo. O analista vai, então, utilizar
uma medida derivada para somar as vendas dos dois cubos e dessa forma obter
o livro com maior quantidade de vendas. Veja que o drill-across abre um novo
caminho para que você possa analisar os dados. A figura abaixo ilustra esse
exemplo:
Drill-across: Significa mudar de uma classificação em uma dimensão para
outra em uma dimensão diferente.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 8 de 58
Drill-across: É uma técnica similar ao drill-down. A diferença é que
o drilling ser feito horizontalmente, ao invés de verticalmente. Por exemplo,
depois de inicialmente exibir o resultado das vendas anuais, o drill-acrosspode
ser usado para exibir as vendas em cada mês.
Dentre as definições acima eu ficaria com a primeira. Contudo acho
que é importante ver as demais para ter um entendimento mais amplo a
respeito do assunto. Vamos agora tratar de drill-through.
Drill-through: Essa operação pode se utilizar das facilidades de SQL para,
a partir do cubo de dados, penetrar (drill through) até as tabelas relacionais
de back-end. Ela visa o entendimento das informações (registros) a partir dos
quais o cubo é derivado. Assim, permite a movimentação de um dado, em um
determinado nível do cubo para dados de nível operacional. Pode ser usado, por
exemplo, se você está tentando determinar a razão de um ponto fora da curva
(outlier) dentro do cubo de dados.
Drill-Through: As tabelas de drill-through permitem que você exiba, em
tempo de consulta, os detalhes dos dados não sumarizados a partir dos quais
uma célula de uma tabela ou uma seleção de células é sumarizada. A capacidade
de drill-through permite as empresa acesso aos dados que não estão
armazenados no servidor OLAP, fazendo-as acessíveis para os usuários finais
das aplicações OLAP. Esses dados podem vir tanto do DW quanto das bases
transacionais.
Drill-Through to Detail Level: Permite uma transição suave de uma base
multidimensional e agregada para o nível de detalhamento de registro nas fontes
de dados do repositório de DW.
Vejam que, ao contrário das definições de drill-across que divergem
entre si, as definições de drill-through são complementares. O objetivo,
nesse caso, é mergulhar na hierarquia dos dados para observa-los no
maior nível de detalhamento, chegando, às vezes, a consultar as bases
de dados transacionais que deram origem aos dados agregados do DW.
Além das definições de drill-across e drill-throught vistas acima, existe
outra bastante difundida na Internet, esta é uma definição equivocada, mas
utilizada por algumas bancas, como a FCC. (Espero que isso mude um dia!)
Drill-Across: ocorre quando o usuário pula um nível intermediário dentro
de uma mesma dimensão. Por exemplo, a dimensão tempo é composta por ano,
semestre, trimestre, mês e dia. A operação drill-across é executada quando o
usuário passa de ano direto para trimestre ou mês. Por essa definição podemos
representar a operação de drill-across conforme a figura abaixo:
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 9 de 58
Drill-Throught: ocorre quando o usuário passa de uma informação contida
em uma dimensão para outra. Por exemplo, inicia na dimensão do tempo e no
próximo passo analisa a informação por região. Mais uma vez, podemos
visualizar essa definição no cubo abaixo.
Até aqui falamos das principais operações de OLAP, outras que às vezes
aparecem na literatura são listadas abaixo com suas respectivas definições:
Drill-within: É a passagem de uma classificação para outra classificação
diferente dentro da mesma dimensão.
Para entendermos um pouco melhor que os autores quiseram dizer com
isso, precisamos voltar ao conceito de hierarquia e classificação. Em uma
determinada dimensão é possível que exista diferentes classificações. Vamos
pensar em um exemplo de produto. Produto pode ter uma classificação grupo de
produto que pode ser dividido em categorias e essas por sua vez divididas em
setores. Veja que essa é uma classificação de produto e possui uma hierarquia
dentro dela. Contudo a dimensão produto pode ter outras classificações como,
por exemplo, marca (Brand), VideoSystem e AudioSistem. A operação de drill-
within é basicamente passar de uma classificação para outra dentro da mesma
dimensão. Veja a figura a seguir:
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 10 de 58
Rank: Ordena os membros de uma dimensão de acordo com algum
critério. Essa operação é basicamente cria um ranking os n maiores
ou n menores itens em uma lista, é possível ainda calcular as médias móveis, o
crescimento dos índices, a taxa de retorno interno, depreciação e funções
estatísticas. Os resultados dessas operações são tipicamente visualizados em
uma forma de tabela cruzada (cross-tabular).
Nest-unnest: Redução das dimensões.
Slipt: Planificação das faces do cubo
Push/Pull: Junção de valores
Algumas operações podem ser efetuadas entre cubos e que são baseadas
na teoria dos conjuntos, são elas: Junção, União, Intersecção e Diferença.
Vejamos o exemplo da operação cross-join (produto cartesiano) abaixo:
Cross-join – É usado para gerar um produto cartesiano entre os conjuntos
passados como parâmetro.
5. Arquitetura de servidores OLAP
Logicamente, servidores OLAP apresentam aos usuários de negócio os
dados multidimensionais de um Data Mart ou de um Data Warehouse, sem a
preocupação de mostrar como e onde os dados são de fato armazenados.
Todavia, a arquitetura física e a implementação de servidores OLAP devem
considerar aspectos de armazenamento.
A implementação de um DW para processamento OLAP pode ser feita das
seguintes formas: ROLAP, MOLAP, HOLAP, DOLAP e WOLAP. Vamos agora
analisar as peculiaridades de cada uma dessas estruturas.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 11 de 58
Os dados são transferidos das fontes e copiados dentro do servidor OLAP,
lá eles são organizados e preparados para prover dados de consulta de forma
rápida. Essa estrutura está dividida nos seguintes componentes:
Data Sources. São as fontes que provem dados para serem analisados.
Dependendo do produto OLAP pode ser um DW, um banco de dados legado,
uma coleção de spreadsheets, ou ainda, uma combinação de todos. A habilidade
do produto OLAP em trabalhar com várias fontes diferentesé importante.
OLAP Server. Considerado o back-end de um sistema OLAP. É ele que
faz todo o trabalho de processamento (dependendo do modelo do sistema), é
nele que os dados efetivamente acessados são armazenados. Diferentes
filosofias governam a arquitetura dos servidores. Em particular a grandes
características de um produto OLAP é se o servidor usa um banco de dados
multidimensional ou um banco de dados relacional para armazenar os dados.
OLAP Customer. São aqueles que fornecem aplicações de mineração de
dados, mas também suportam a geração de resultados (graphs, reports, etc.).
A figura abaixo mostra a arquitetura de sistemas OLAP, que variam
dependendo da forma como o armazenamento e o processamento de dados
ocorrem, mas geralmente podemos identificar três níveis de dados: as fontes de
dados, o servidor OLAP e a apresentação dos dados ou usuário interface.
Quanto maior a necessidades de cálculos para produzir um conjunto de
informação, maior será o tempo de resposta. Pedaços de informação que são
frequentemente acessados devem ser pré-agregados. São, portanto, pré-
calculados e armazenados como um novo dado dentro da base. Por exemplo:
Vendas por mês. Vamos agora analisar cada uma das categorias de servidores
OLAP.
MOLAP
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 12 de 58
O Multidimensional On-Line Analytical Processing ou MOLAP refere-se aos
servidores que usam um MDDB para armazenar dados. Estratégia pela qual são
usados gerenciadores de banco de dados proprietários, com características de
armazenamento especiais e ferramentas para tratamento dimensional de dados.
Esse modelo dispõe de propriedades especiais de armazenamento como
matrizes esparsas, operações com array e indexações de bitmap. Porém não
oferece toda a gama de recursos encontrada num SGBDR, como debug,
paralelismo, log, otimizadores e monitoração.
Exige a migração dos dados do SGBD relacional para o armazenamento
multidimensional e a sua constante atualização. Pode ser limitada na sua
capacidade máxima de armazenamento, mas por ser voltada exclusivamente
para essas aplicações pode apresentar, em tese, melhor desempenho do que as
alternativas relacionais.
Pode ser entendida como uma planilha multidimensional, e algumas
oferecem a opção de memória RAM-MD, permitindo a manipulação dos dados
diretamente em memória. No caso de MOLAP, tanto as estruturas básicas (maior
granularidade) quanto às estruturas agregadas/cubos são armazenadas nesse
formato.
Um conceito que faz parte dos modelos MOLAP é a explosão dos dados. É
difícil determinar condições para a explosão de dados, ou para prever se uma
configuração particular vai explodir. Uma abordagem que parece ajudar a
resolver o problema é a manipulação de dados esparsos dinamicamente.
Manipulação de dados esparsos de forma dinâmica permite que um banco de
dados analise seus padrões de armazenamento próprios e aperfeiçoe-os para
evitar a explosão de dados.
ROLAP
O termo ROLAP especifica que o servidor OLAP se baseia numa base de
dados relacional: Relational On-Line Analytical Processing. Os dados de origem
são inseridos em um banco de dados relacional, geralmente em um esquema
estrela ou esquema floco de neve, o que ajuda em tempos de recuperação mais
rápidos. O servidor fornece um modelo multidimensional dos dados, através de
consultas SQL otimizadas.
Um dos motivos para escolher pelo uso do ROLAP está no fato de RDBs
são uma tecnologia bem estabelecida que tem muitas oportunidades para
otimização. Suporta maior quantidade de dados que uma MDDB.
O Servidor ROLAP é um servidor intermediário que fica entra a base de
dados relacional de back-end e as ferramentas de front-end. Eles usam SGBDs
relacionais ou relacionais estendidos para gravar e gerenciar os dados do DW, e
um middleware OLAP para dar suporte às funcionalidades faltantes.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 13 de 58
Nessa estratégia são usados os próprios sistemas de banco de dados
relacionais, com as tabelas sendo implementadas como estruturas relacionais
clássicas. Oferece todas as vantagens de um SGBDR, porém exige um projeto
cuidadoso do ponto de vista de desempenho, em que o excesso de tabelas
normalizadas poderá comprometer a performance das buscas.
É importante lembrar-se dos conceitos de esquema estrela e floco de neve
discutidos anteriormente. As tabelas básicas e os agregados (visões ou cubos)
são armazenados nesse formato. O modelo relacional poderá ser usado tanto
para desenhar o projeto físico do data warehouse, considerando a abordagem
top-down, em que o DW será construído primeiramente, a partir dos arquivos
fontes, quanto na abordagem de data marts integrados, em que os data marts,
na forma ROLAP são estruturados.
Resumindo os pontos positivos e negativos do uso da abordagem
relacional em sistemas OLAP:
Antes de falarmos sobre as outras classificações de servidores OLAP,
vejam na figura abaixo uma comparação entre os dois tipos de servidores:
MOLAP e ROLAP.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 14 de 58
HOLAP e DOLAP
O Hybrid OLAP Server representa uma abordagem de uso misto das
duas estratégias anteriores, em que as estruturas relacionais são normalmente
utilizadas para os dados de menor granularidade e as estruturas dimensionais
nativas são dedicadas ao armazenamento de agregados (maior granularidade).
O Desktop Olap Server representa uma abordagem na qual as
estruturas dimensionais ou relacionais são transferidas do DW/DM para as
estações cliente. São armazenadas com o objetivo de facilitar o desempenho de
certas análises, minimizando o tráfego de informações entre o ambiente cliente
e o ambiente servidor.
6. Critérios de avaliação de produtos OLAP
Uma estrutura arquitetural era necessária dentro da qual as funções
poderiam aparecer e se tornariam parte dos produtos habituais do analista de
dados ou usuário final. Esta estrutura tornou-se uma medida significativa da
eficácia do produto para análise de dados multidimensional em si, e, na verdade,
representou o primeiro critério de avaliação de produtos de OLAP. Ela se baseia
em 12 regras de avalição que são listadas de descritas de forma sucinta a
seguir.
1. Visão conceitual multidimensional – Já falamos sobre a visão
multidimensional na aula anterior. De certa forma ela se aproxima da
perspectiva que um usuário ou analista tem sobre os dados. Sendo assim, temos
que nos preocupas em criamos um modelo com essa estrutura. Ela facilita a
execução de operação de Slice and Dice, Pivot and rotate tornando a
manipulação dos dados mais simples.
2. Transparência - OLAP deve ser fornecido dentro do contexto de uma
verdadeira arquitetura de sistemas aberta, permitindo que a ferramenta analítica
possa ser incorporada em qualquer necessidade do analista/usuário, sem afetar
negativamente a funcionalidade das ferramentas do host.
3. Acessibilidade - O sistema OLAP deve acessar apenas os dados
realmente necessários para realizar a análise solicitada e não tomar a "pia da
cozinha" abordagem comum que traz dados desnecessários.
4. Desempenho consistente na geração de relatórios - É imperativo que o
componente do servidor de ferramentas OLAP seja suficientemente inteligente
de tal forma que vários clientes possam ser conectados com o mínimo de esforço
e programação de integração.
5. Arquitetura cliente-servidor - A maioria dos dados que atualmente
exigem o processamento analítico on-line é armazenadaem sistemas de
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 15 de 58
mainframe e eles são acessados através de computadores pessoais. Por
conseguinte, é obrigatório que os produtos OLAP sejam capazes de funcionar
num ambiente cliente-servidor. Para este fim, é imperativo que o componente
servidor das ferramentas OLAP seja suficientemente inteligente de tal forma que
vários clientes possam ser conectados com o mínimo esforço e programação de
integração.
6. Dimensionalidade genérica - Cada dimensão dos dados deve ser
equivalente em suas estruturas e capacidades operacionais. Capacidades
operacionais adicionais podem ser concedidas a dimensões selecionadas, mas
desde que as dimensões sejam simétricas, uma determinada função adicional
pode ser concedida a qualquer dimensão. A estrutura básica de dados, fórmulas
e formatos de relatórios não deve ser inclinada para uma dimensão específica
dos dados.
7. Manuseio dinâmico de matriz esparsa - Esta é disponibilizada através de
uma tecnologia de servidor poderosa que pode ser intimamente ligada com o
banco de dados da empresa. Ela pode ajustar o seu esquema físico para o
máximo desempenho com base na densidade dos dados de entrada da empresa
e na distribuição real dos valores dos dados.
8. Suporte a multiusuários - Esta função é fornecida pelo produto de
software, mas pode ser limitada pelo número de clientes que podem ser
suportados pela plataforma de hardware do servidor. Além disso, ela permite o
acesso multiusuário para um modelo analítico comum e controla o acesso e
permissões para o nível de células individuais através de uma "concessão" e
"revogar" de esquemas baseada nos menus.
9. Operações irrestritas de cruzamento de dimensões - Quaisquer duas (ou
mais) células, independentemente da dimensão em que aparecem dentro de um
determinado modelo de análise, podem ser utilizadas em qualquer fórmula. As
fórmulas não estão restritas a uma dimensão por vez. Qualquer termo em uma
fórmula pode ser ainda modificado através da inclusão de atributos a partir de
qualquer dimensão. Em outras palavras, qualquer célula de dados ou intervalo
no modelo de dados pode ser acessada por meio de cálculos em qualquer
momento.
10. Manipulação de dados intuitiva - A maior parte de toda a criação do
modelo, manipulação e tarefas de animação ocorrem por meio de cliques no
mouse diretamente associados com os dados em análise.
11. Relatório flexível – relata que capacidade vai significativamente além
dos front-ends disponíveis para os produtos de RDBMS comerciais. Consultas e
relatórios que normalmente requerem SQL significativos e sofisticados (e esforço
de codificação processual talvez associado) podem ser criados facilmente com e
processados significativamente mais rápido. Analistas são capazes de apresentar
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 16 de 58
dados em qualquer formato, de acordo com qualquer trajetória de consolidação,
abrangendo qualquer número de dimensões de dados.
12. Dimensões e agregação de níveis ilimitados - Permite a especificação e
manipulação de um número ilimitado de dimensões de dados dentro de um
determinado modelo.
Data mining
Existe geralmente informação “escondida” nos dados que não são tão
evidentes no momento da leitura. Um analista humano pode levar semanas para
descobrir essa informação útil. A maioria dos dados de fato nunca é analisada.
Com o crescimento da capacidade de processamento e armazenamento surgem
perguntas sobre como identificar padrões (“X” acontece se...), exceções (isto é
diferente de... por causa de...), tendências (ao longo do tempo, “Y” deve
acontecer...) e correlações (se “M” acontece, “N” também deve acontecer).
Para ajudar a resolver esses questionamentos surge um conjunto de
conceitos relacionados à Data Mining. Veremos a estrutura teórica da matéria
nesta parte da aula. Vem comigo!
7. Conceitos básicos
Começamos os conceitos tentando responder ao seguinte
questionamento: O que é mineração de dados? Vários autores propuseram
definições semelhantes para o termo, vejamos algumas delas:
• Eduardo Gimenes: É o processo de extrair informação válida,
previamente desconhecida e de máxima abrangência a partir de grandes
bases de dados, usando-as para efetuar de decisões cruciais.
• Laudon&Laudon: Análise de grandes quantidades de dados a fim de
encontrar padrões e regras que possam ser usadas para orientar a
tomada de decisões e prever o comportamento futuro.
• Mineração de dados, ou data mining, é o processo de análise de conjuntos
de dados que tem por objetivo a descoberta de padrões interessantes e
que possam representar informações úteis.
Como o nome indica data mining se refere à mineração ou a descoberta
de novas informações em função de padrões ou regras em grandes quantidades
de dados. Para ser útil, na prática, a mineração de dados precisa ser realizada
eficientemente em grandes arquivos e banco de dados.
Vejamos outras definições possíveis para o termo. “A mineração de dados
é a aplicação de algoritmos específicos para extração de padrões a partir dos
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 17 de 58
dados” de FAYYAD. “A mineração de dados se refere à extração, ou mineração,
de conhecimento a partir de grandes quantidades de dados” de HAN e KAMBER.
As técnicas tradicionais poderiam não se ajustar a enorme quantidade de
dados, alta dimensionalidade dos dados e heterogeneidade e natureza
distribuídas dos dados. Data Mining surge para completar essa lacuna. Sua base
teórica é uma mistura de diferentes disciplinas: Estatística, Aprendizado de
máquina, Banco de dados e Visualização.
Ok! Então, antes de começarmos a descrever o que mais faz parte da
mineração de dados, vamos tratar do que alguns autores conhecem como
falácias de Data Mining. São basicamente quatros:
• Data Mining é automático: é um processo, é iterativo, requer
supervisão.
• Investimentos são recuperados rapidamente: depende de muitos
fatores!
• Software são intuitivos e simples: é mais importante conhecer os
conceitos dos algoritmos e o negócio em si!
• Data Mining pode identificar problemas no negocio: DM pode
encontrar padrões e fenômenos, identificar causa deve ser feito por
especialistas.
Podemos concluir então que existe um processo iterativo, que requer
supervisão e depende de vários fatores para uma implementação de sucesso. É
importante entender os algoritmos, as tarefas e o negócio. Assim, é possível
encontrar os padrões e fenômenos sobre a massa de dados.
O uso da mineração de dados é, portanto, potencializada, por alguns
fatores: o volume de dados disponível atualmente é enorme, o fato dos dados
estarem mais organizados, os recursos computacionais estão cada vez mais
potentes, a competição empresarial exige técnicas mais modernas de decisão e
os programas comerciais de mineração de dados já podem ser adquiridos.
Para executarmos qualquer análise sobre os dados é necessário que
tenhamos em mente qual a tarefa que estamos realizando. Uma tarefa de
mineração de dados consiste na especificação do que queremos buscar nos
dados. Podemos buscar por algum tipo de regularidade ou categoria de padrões
temos interesse em encontrar ou ainda padrões que poderiam nos surpreender
(por exemplo, um gasto exagerado de um cliente de cartão de crédito, fora dos
padrões usuais de seus gastos).
A classificação das tarefas pode ser feita de acordo com alguns critérios. O
primeiro divide as tarefas emdescritivas e preditivas. As descritivas
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 18 de 58
caracterizam as propriedades gerais dos dados em um banco de dados. Estão
focadas em achar padrões reconhecidos por seres humanos para descrever os
dados. As preditivas, por outro lado, realizam uma inferência sobre os dados
atuais para fazer previsões futuras sobre os mesmos. Usa variáveis para prever
valores futuros ou desconhecidos de outras variáveis.
Outra taxonomia divide as tarefas em top-down e botton-up. Algumas
tarefas são abordadas de forma top-down chamado teste de hipóteses. Em
testes de hipóteses, um comportamento armazenado no banco de
dados passado é utilizado para verificar ou refutar notações preconcebidas,
ideias e palpites referentes às relações nos dados.
Outras tarefas são melhor abordadas de forma bottom-up chamado de
descoberta de conhecimento (Knowledge discorvery). Na descoberta de
conhecimento a analise sobre os dados é feita sem suposições prévias. Os dados
são autorizados a falar por si.
As tarefas adequadas para mineração de dados (não é limitado a essas)
são: Classificação (Preditiva), Clustering (Descritiva), Regra de Associação
(Descritiva), Regressão (Preditiva) e Detecção de desvios (Preditiva).
Outro ponto importante dentro do assunto são as técnicas de mineração
que consistem na especificação de métodos que nos garantam como descobrir
os padrões que nos interessam. Dentre as principais técnicas utilizadas em
mineração de dados, temos: técnicas estatísticas, técnicas de aprendizado de
máquina e técnicas baseadas em crescimento-poda-validação.
Por fim, temos três características que são aplicadas a muitos conjuntos
de dados e que possuem um impacto significativo sobre as técnicas de
mineração de dados: dimensão, dispersão e resolução. A dimensão refere-
se à quantidade de atributos de um conjunto de dados. A resolução está
relacionada à granularidade dos dados. Um conjunto de dados é
muito disperso quando para um atributo relevante, a maioria dos valores é NULL
ou um valor padrão. Esse conceito está relacionado à dispersão.
Um último conceito que já foi cobrado em provas de concurso diz respeito
aos métodos para identificar padrões em dados, que são basicamente três:
- Modelos simples (consultas baseadas em SQL, OLAP, raciocínio
humano)
- Modelos intermediários (regressão, árvores de decisão, agrupamento)
- Modelos complexos (redes neurais, indução de regras)
7.1. Processo de mineração
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 19 de 58
Antes de falar do processo de mineração propriamente dito vamos
examinar a figura abaixo que trata do processo de BI.
Baseado na figura é possível listar as etapas do processo:
1. Limpeza dos dados: etapa onde são eliminados ruídos e dados
inconsistentes.
2. Integração dos dados: etapa onde diferentes fontes de dados podem
ser combinadas produzindo um único repositório de dados.
3. Seleção: etapa onde são selecionados os atributos que interessam ao
usuário. Por exemplo, o usuário pode decidir que informações como endereço e
telefone não são de relevantes para decidir se um cliente é um bom comprador
ou não.
4. Transformação dos dados: etapa onde os dados são transformados
num formato apropriado para aplicação de algoritmos de mineração (por
exemplo, através de operações de agregação).
5. Mineração: etapa essencial do processo consistindo na aplicação de
técnicas inteligentes a fim de se extrair os padrões de interesse.
O processo de mineração de dados se assemelha um pouco ao processo
de BI descrito acima. Propõe uma visão geral do ciclo de vida de um projeto
de mineração de dados. Vejam a figura abaixo:
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 20 de 58
Em 1996, um conjunto de três empresas especializadas no então jovem e
imaturo mercado de data mining, desenvolveram um modelo de processos
genéricos, com o intuito de padronizar as etapas do processo de mineração de
dados, dando início ao denominado projeto CRISP-DM (CRoss Industry Standard
Process for Data Mining) [The CRISP-DM Consortium, 2000].
Na figura acima é mostrado o ciclo de vida de um projeto de mineração de
dados, que consiste de seis fases. A sequência de fases não é obrigatória,
ocorrendo a transição para diferentes fases, dependendo do resultado de cada
fase, e que etapa particular de cada fase precisa ser executada em seguida. As
setas indicam as mais importantes e mais frequentes dependências entre as
fases.
O ciclo externo na figura simboliza o ciclo natural da mineração de dados.
Um processo de mineração de dados continua após a solução ter sido
desenvolvida. As lições aprendidas durante o processo podem provocar
perguntas novas, frequentemente mais pertinentes ao negócio. Processos
subsequentes se beneficiarão das experiências de processos anteriores.
O entendimento do negócio (Business Understanding) foca no
entendimento do negócio que visa obter conhecimento sobre os objetivos do
negócio e seus requisitos.
Uma vez definido o domínio sobre o qual se pretende executar o processo
de descoberta, o próximo passo é selecionar e coletar o conjunto de dados ou
variáveis necessárias. Consiste no entendimento dos dados utilizando-se de
conjuntos de dados "modelo".
Essa fase se inicia com uma coleta inicial de dados, e com
procedimentos e atividades visando à familiarização com os dados, para
identificar possíveis problemas de qualidade, ou detectar subconjuntos
interessantes para formar hipóteses.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 21 de 58
A próxima etapa é a limpeza dos dados (Data Preparation) que consiste
na preparação dos dados que visa à limpeza, transformação, integração e
formatação dos dados da etapa anterior.
É a atividade pela qual os ruídos, dados estranhos ou inconsistentes são
tratados. Esta fase abrange todas as atividades para construir o conjunto de
dados final (dados que serão alimentados nas ferramentas de mineração), a
partir do conjunto de dados inicial.
A utilização de Data Warehouses facilita em muito esta etapa do processo
de mineração de dados, que costuma ser a fase que exige mais esforço,
correspondendo geralmente a mais de 50% do trabalho. Por isso, é muito
importante para uma organização, que ela possua em seus processos habituais
boas práticas da administração de dados, como o Data Cleansing, que é uma
parte fundamental da cadeia da administração da informação, responsável pelas
etapas de detecção, validação e correção de erros em bases de dados.
A próxima fase é a Modelagem dos Dados (Modeling). Nessa fase, várias
técnicas de modelagem são selecionadas e aplicadas, e seus parâmetros são
calibrados para se obter valores otimizados. Geralmente, existem várias técnicas
para o mesmo tipo de problema de mineração.
Algumas técnicas possuem requerimentos específicos na forma dos dados.
Consequentemente, voltar para a etapa de preparação de dados é
frequentemente necessário. A maioria das técnicas de mineração de dados é
baseada em conceitos de aprendizagem de máquina, reconhecimento de
padrões, estatística.
Seguindo o fluxo temos a Avaliação do processo (Evaluation). Neste
momento visamos garantir que o modelo gerado atenda às expectativas da
organização. Os resultados do processo de descoberta do conhecimentopodem
ser mostrados de diversas formas.
Porém, estas formas devem possibilitar uma análise criteriosa para
identificar a necessidade de retornar a qualquer um dos estágios anteriores do
processo de mineração. Nesta etapa se construiu um modelo que parece de alta
qualidade, de uma perspectiva da análise de dados.
Antes de prosseguir, é importante avaliar mais detalhadamente o modelo,
e rever as etapas executadas para construir o modelo, para se certificar de que
ele conseguirá alcançar os objetivos de negócio. Deve se determinar se houve
algum importante objetivo do negócio que não foi suficientemente alcançado. No
fim desta fase, uma decisão sobre o uso dos resultados da mineração deve ser
tomada.
A execução (Deployment) consiste na definição das fases de implantação
do projeto de Mineração de Dados. A criação do modelo não é o fim do projeto.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 22 de 58
Mesmo se a finalidade do modelo for apenas aumentar o conhecimento dos
dados, o conhecimento ganho necessitará ser organizado e apresentado em uma
maneira que o cliente possa usar.
Dependendo das exigências, a fase de execução pode ser tão simples
quanto a geração de um relatório, ou tão complexo quanto executar processos
de mineração de dados repetidamente. Em muitos casos será o cliente, não o
analista dos dados, que realizará as etapas da execução. Entretanto, mesmo se
o analista não se encarregar da execução é importante que ele faça o cliente
compreender que medidas deverão ser tomadas a fim de empregar efetivamente
os modelos criados.
Com isso terminamos nossa rápida explicação sobre o processo de
mineração de dado descrito pelo CRISP-DM. Vamos agora tratar das tarefas de
mineração.
7.2. Tarefas de mineração
Vamos falar agora das tarefas de mineração começando pela regra de
associação.
7.2.1. Regras de associação
As regras de associação relacionam a presença de um conjunto de itens
com outra faixa de valores de outro conjunto de variáveis. Podemos pensar nos
seguintes exemplos: 1. Quando uma mulher compra uma bolsa em uma loja, ela
está propensa a comprar sapatos (na mesma loja) e 2. Uma imagem de raio X
contendo as características a e b provavelmente exibirá também a característica
c (o mesmo raio-x). Veja as figuras abaixo que ilustram esses exemplos:
Uma regra de associação é um padrão da forma X Y, onde X e Y são
conjuntos de valores. O seguinte padrão “clientes que compram pão também
compram leite” representa uma regra de associação que reflete um padrão de
comportamento dos clientes do supermercado. Descobrir regras de associação
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 23 de 58
entre produtos comprados por clientes numa mesma compra pode ser útil para
melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do
usuário ou induzi-lo a comprar mais.
Os autores definem os conceitos de lado da mão direita e lado da mão
esquerda para ilustrar essa ideia de compra casada. É como se eu estivesse
propenso a consumir os dois produtos. A união entre o lado da mão esquerda e
o lado da mão direita gera outra definição conhecida como conjunto-item (o
conjunto de todos os itens comprados pelos clientes). Observe a figura abaixo
com o conjunto-item formado por picanha (Friboi é claro!) e carvão!
Para que uma regra de associação seja do interesse de um pesquisador de
dados, a regra precisa satisfazer algumas medidas. O suporte que define quão
frequente a regra acontece no banco de dados e a confiança que é a força da
regra. Vamos detalhar um pouco mais essas definições.
O Suporte é uma medida objetiva para avaliar o interesse de uma
regra de associação. Representa a porcentagem de transações (%) de um
banco de dados de transações onde a regra se verifica.
A Confiança é outra medida objetiva para regras de associação que
mede o grau de certeza de uma associação. Em termos estatísticos, trata-se
simplesmente da probabilidade condicional P (Y | X), isto é, a porcentagem
de transações contendo os itens de X que também contém os itens de Y.
O problema de regras de associação pode ser decomposto em três passos
principais:
1. Gerar todas as combinações de itens;
2. Descobrir conjuntos de itens: Este passo consiste em gerar um
conjunto com todas as combinações de itens obedecendo a um limiar, chamado
suporte mínimo. As combinações que satisfazem esta condição são chamadas
de conjunto de itens grandes, enquanto que os que não satisfazem, são
chamados de conjunto de itens pequenos;
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 24 de 58
3. Gerar as regras de associação para a base de dados: Após o conjunto
de itens finais ter sido produzido, deve-se gerar as regras de associação de um
conjunto de itens Y = I1,I2,,...,Ik, sendo k ≥ 2. O antecedente da regra será um
conjunto X de Y tal que, X possua k-1 itens, e o consequente seja Y – X. Para
verificar a validade de uma regra, a confiança da regra (suporte(Y) / suporte(X))
deve satisfazer o valor mínimo de confiança informado.
Uma pergunta pode ser relevante neste momento: como descobri todos
os conjuntos de itens grandes?
Temos que verificar duas propriedades: 1. Fechamento por baixo, ou
seja, um itemset grande também deve ser grande (desta forma cada
subconjunto de um itemset excede o suporte mínimo exigido). 2.
Antimonotonicidade um superconjunto de um itemset pequeno também é
pequeno (implicando que ele não tem suporte suficiente). Sendo assim quando
se descobre um itemset pequeno, então qualquer extensão deste itemset será
pequeno.
7.2.2. Classificação
Parece ser um imperativo humano. A fim de compreender e
comunicar sobre o mundo que estamos constantemente a classificar,
categorizar e classificar. Dividimos as coisas vivas em filos, espécies
e gênero; matéria em elementos; cães em raças, as pessoas em raças. Os
objetos a serem classificados são geralmente representados por registros em
um banco de dados ou um arquivo, e o ato de classificação consiste em
adicionar uma nova coluna com um código de classe de algum tipo.
Uma das tarefas mais comuns dentro de mineração de dados. Consiste
em examinar as características de um objeto recém apresentados e atribuí-lo
a um dos conjuntos predefinidos de classes. A tarefa de classificação é
caracterizada por uma definição das classes (1), e conjunto dados para
aprendizado (2) pré-classificados.
Uma definição mais formal para a classificação é a tarefa de aprendizado
de uma função alvo f que mapeia cada atributo de um conjunto x para um rótulo
de classe predefinido y. Essa descrição foi dada por Tan em seu livro de
mineração e pode ser observada na figura abaixo:
O modelo construído baseia-se na análise prévia de um conjunto de
dados de amostragem ou dados de treinamento, contendo objetos corretamente
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 25 de 58
classificados. Por exemplo, suponha que o gerente do supermercado está
interessado em descobrir que tipo de características classificam seus clientes em
“bom comprador” ou “mau comprador”. Um modelo de classificação poderia
incluir a seguinte regra: “Clientes da faixa econômica B, com idade entre 50 e 60
são maus compradores”.
São técnicas usualmente empregadas em tarefas de classificação árvores
de decisão eredes neurais. Boa parte dos métodos de classificação utilizam
técnicas estatísticas e de aprendizado de máquina. Segundo o Navathe,
classificação é o processo de encontrar um conjunto de modelos (funções) que
descrevem e distinguem classes ou conceitos.
Tem o propósito de utilizar o modelo para predizer a classe de objetos que
ainda não foram classificados. Utiliza um aprendizado supervisionado para
separa classes em grupos distintos. Vejam um exemplo na figura abaixo:
Na classificação o objetivo é a construção de um modelo que possa ser
aplicado a dados não classificados e classificá-los. São exemplos de tarefas de
classificação que foram abordados através de técnicas de mineração de dados:
classificação de pedido de crédito como baixo, médio ou alto risco,
escolher conteúdo a ser exibido em uma página Web, determinar quais os
números de telefone correspondem a máquinas de fax,
descobrir sinistros fraudulentos e atribuir códigos da indústria e
denominações de emprego com base nas descrições de texto livre.
Em todos os exemplos, há um número limitado de classes, e espera-
se ser capaz de atribuir qualquer registo em um ou outra. As árvores de
decisão e técnicas semelhantes são bem adaptadas para a classificação. Rede
neural e análise de links também são úteis para a classificação de certas
circunstâncias. Vejam na figura a seguir um fluxo que mostra o funcionamento
de um algoritmo de classificação:
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 26 de 58
7.2.3. Agrupamento (Clustering)
Diferentemente da classificação e predição onde os dados de treinamento
estão devidamente classificados e as etiquetas das classes são conhecidas, a
análise de clusters trabalha sobre dados onde as etiquetas das classes não estão
definidas.
A técnica consiste em identificar agrupamentos de objetos, estes que
identificam uma classe. Trabalha sobre dados onde as etiquetas das classes
não estão definidas. Conhecido também por aprendizado não
supervisionado e, às vezes, chamado de classificação por estatísticos e de
segmentação por pessoas de marketing.
Queremos achar grupos naturais nos dados onde dados em um mesmo
grupo são semelhantes entre si e dados de grupos diferentes são diferentes
entre si. Mas como medir essa semelhança. Existem algumas métricas para
calcular as distâncias e dissimilaridades entre os itens de dados.
As medidas de distância podem ser calculadas entre dois objetos. Sejam
O1 e O2 dois objetos de um universo de possíveis objetos. A distância
(dissimilaridade) entre O1 e O2 é um número real denotado por D (O1,O2).
Observem a figura abaixo para entender melhor o conceito:
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 27 de 58
Algumas propriedades podem ser analisadas nas medidas de distância. A
simetria (D (A,B) = D (B,A)), caso contrário você poderia afirmar que “Alex
parece com Bob, mas Bob não parece com Alex”. A constância de auto
simetria (D (A,A) = 0), caso contrário você poderia afirmar que “Alex parece
mais com Bob, do que o próprio Bob”. A positividade (D(A,B) = 0 A = B)
caso contrário existiriam objetos no seu mundo que são diferentes, mas você
não consegue diferenciá-los. E a desigualdade triangular (D (A,B) ≤ D(A,C) +
D (B,C)) caso contrário você poderia afirmar que “Alex é parecido com Bob, e
Alex é parecido com Carl, mas Bob não se parece com Carl”.
Podemos usar alguns tipos de algoritmos para agrupamentos. Algoritmos
particionais que objetivam construir diversas partições e avaliá-las com algum
critério. Algoritmos hierárquicos que criam uma decomposição hierárquica de
um conjunto de objetos utilizando algum critério. Vejam o exemplo abaixo:
Por exemplo, poderíamos aplicar análise de clusters sobre o banco de
dados de um supermercado a fim de identificar grupos homogêneos de clientes.
Clientes residentes em determinados pontos da cidade costumam vir ao
supermercado aos domingos. Enquanto clientes residentes em outros pontos da
cidade costumam fazer suas compras às segundas-feiras.
7.2.4. Abordagem para outros
problemas de mineração
Análise de padrões sequenciais - Um padrão sequencial é uma
expressão da forma < i1;.....; in >, onde cada i é um conjunto de itens. A
ordem em que estão alinhados estes conjuntos reflete a ordem cronológica em
que aconteceram os fatos representados por estes conjuntos. Assim, por
exemplo, a sequência < {carro}, {pneu, toca-fitas} > representa o padrão
“Clientes que compram carro, tempos depois compram pneu e toca-fitas de
carro”. Descobrir tais padrões sequenciais em dados temporais pode ser útil em
campanhas de marketing, por exemplo.
Análise de Padrões em Séries Temporais - O preço de fechamento de
uma ação ou de um fundo de investimentos é um evento que ocorre a cada dia
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 28 de 58
da semana para cada fundo ou ação. Sequencias desses valores são exemplos
de uma serie temporal. Séries temporais são sequencias de eventos, cada
evento pode ser um tipo fixo dado uma transação.
Uma série temporal é uma coleção de observações feitas sequencialmente
ao longo do tempo. Em séries temporais a ordem dos dados é fundamental. Uma
característica muito importante deste tipo de dados é que as observações
vizinhas são dependentes e o interesse é analisar e modelar esta dependência.
Predição – Consultando o dicionário encontramos a seguinte definição:
dizer antecipadamente o que vai acontecer, seja por meio de regras certas,
pretensa adivinhação ou conjetura. Em algumas aplicações, o usuário está mais
interessado em predizer alguns valores ausentes em seus dados, em vez de
descobrir classes de objetos. Isto ocorre, sobretudo, quando os valores que
faltam são numéricos. Neste caso, a tarefa de mineração é denominada
Predição.
Análise de Outliers - Um banco de dados pode conter dados que não
apresentam o mesmo comportamento padrão da maioria. Estes dados são
denominados outliers (exceções). Muitos métodos de mineração descartam estes
outliers como sendo ruído indesejado. Entretanto, em algumas aplicações, tais
como detecção de fraudes, estes eventos raros podem ser mais interessantes do
que eventos que ocorrem regularmente. Por exemplo, podemos detectar o uso
fraudulento de cartões de crédito ao descobrir que certos clientes efetuaram
compras de valor extremamente alto, fora de seu padrão habitual de gastos.
Veja que você pode descobri fraudes por analise de outleirs ou
classificação. No primeiro você conhece o padrão dos dados ou transações
comuns ao banco de dados e algo que não se adapte a esse padrão é um ponto
fora da curva. No segundo você treina um modelo para que ele reconheça
padrões de fraude.
Regressão - Regressão é uma aplicação especial da regra de
classificação. Se uma regra de classificação é considerada uma função sobre
variáveis que as mapeia em uma classe destino, a regra é chamada regressão.
Uma aplicação de regressão ocorre quando, em vez de mapear uma tupla de
dados de uma relação para uma classe específica, o valor da variável é previsto
baseado naquela tupla.
Quando: Y = f(x1, x2, ..., xn). Uma função f é linear no domínio das
variáveis xi, o processo de derivar f de um dado conjunto de tuplas para <x1,
x2, ... Xn, y> é chamado regressão linear.
7.3. Conceitos Complementares
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br29 de 58
Para concluirmos o conteúdo de Data Mining vamos tratar de alguns
termos complementares presentes da literatura especializada que ainda não
foram vistos ao longo da nossa aula.
Alguns autores classificação mineração de dados de acordo com a forma.
Essa classificação possui três categorias: Preditivo, Textual e Espacial. Veja a
definição de cada um deles abaixo:
• Preditivo - A data mining pode mostrar como certos atributos dos dados
irão se comportar no futuro
• Textual - Processo de obtenção de informação utilizando fontes de dados
textuais. Aplicações em classificação automática de textos e busca de
agrupamentos.
• Espacial - Processo de descoberta de padrões utilizando bancos de dados
espaciais populados por mapas.
A mineração de dados apoia o conhecimento indutivo, que descobre novas
regras e padrões nos dados fornecidos. O conhecimento pode ser representado
de muitas formas:
1. Quando não estruturado, pode ser representado por regras ou por
lógica proposicional.
2. Em uma forma estruturada, podem ser representados por árvores
de decisão, redes semânticas, redes neurais ou hierarquias de
classes ou frames.
OLAP x Data Mining
O termo para processamento analítico on-line representa a característica
de trabalhar os dados com operadores dimensionais. OLAP possibilita uma forma
múltipla e combinada de análise.
Data Mining está mais relacionado com os processos de análise de
inferência do que com a análise dimensional de dados. Representa uma forma
de busca de informação baseada em algoritmos que objetivam o reconhecimento
de padrões escondidos nos dados. Esses padrões não são necessariamente
revelados pelas outras abordagens analíticas, como o OLAP.
Para finalizar vamos apresentar uma última definição de data mining: “A
mineração de dados é um campo interdisciplinar que reúne técnicas
de aprendizado de máquina, reconhecimento de padrões,
estatísticas, banco de dados e visualização para abordar a questão da
extração de informações a partir de grandes bases de dados”.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 30 de 58
Visualização e análise exploratória de dados
Esta é a parte do assunto que permite exibir os resultados de uma análise
de dados. A visualização é estudada dentro do contexto procurando entender as
diferentes formas de exibição do conteúdo produzido a partir dos dados
armazenados. Como é possível exibir os dados? Quem são os interessados?
Veremos isso nas próximas linhas.
Devido à forma como o cérebro humano processa as informações, é mais
rápido para as pessoas compreenderem o significado das diferentes perspectivas
sobre os dados quando eles são exibidos em tabelas e/ou gráficos, em vez de
debruçado sobre pilhas de folhas de cálculo ou páginas de leitura e de relatórios.
Visualização de dados trata da forma de apresentação dos dados em um
formato pictórico (por meio de desenhos) ou gráfica. Durante séculos, as
pessoas têm dependido de representações visuais, como gráficos e mapas para
compreender a informação mais fácil e rapidamente.
À medida que mais e mais dados são coletados e analisados, os tomadores
de decisão, em todos os níveis, devem utilizar software de visualização de dados
que lhes permitam ver os resultados analíticos visualmente. Com essas
ferramentas podemos encontrar relevância entre as milhões de variáveis,
comunicar conceitos e hipóteses aos outros, e até mesmo, prever o futuro.
Visualização interativa – A visualização de dados interativa vai um passo
além – fornecendo algo mais do que a exibição de gráficos estáticos e planilhas.
Faz uso de computadores e dispositivos móveis para penetrar em tabelas e
gráficos visando obter mais detalhes, e de forma interativa (e em tempo real)
mudar os dados que você vê ou até como eles são processados.
E como é entendida a visualização no contexto de Big Data? Estudos
mostram que o cérebro processa imagens 60 mil vezes mais rápido do que
texto. A etapa final no seu fluxo de trabalho para análise em Big Data, a
visualização de dados analíticos é uma representação visual dos conhecimentos
adquiridos. Em alguns softwares, a sua visualização está ligada à sua análise,
portanto, a qualquer tempo alterações de dados, são incorporadas a sua
visualização que será atualizada automaticamente com os resultados mais
novos.
A visualização de dados está por toda parte. Desde a criação de uma
representação visual com pontos de dados para impressionar potenciais
investidores, ao relatório sobre os progressos de um determinado projeto, ou
até mesmo a visualização de conceitos para segmentos de clientes, a
visualização de dados é uma ferramenta valiosa e aparece no mercado em uma
variedade de configurações.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 31 de 58
As interfaces com os usuários são as ferramentas de visualização que
apresentam as informações de uma maneira compreensível aos usuários. Estas
podem ser dashboards (fornecem uma visão abrangente e amigável dos
indicadores chaves de desempenho e suas tendências e exceções), cubo
multidimensional de dados e, até mesmo, realidade virtual.
Os Dashboard e Scorecards fornecem displays visuais de informações
importantes que são consolidadas e dispostas em uma única tela. Desta forma a
informação pode ser digerida em um único olhar e facilmente explorada. Os
painéis permitem uma exibição visual que é utilizada para monitorar o
desempenho operacional. Os scorecards trazem uma exibição visual que é
utilizada para traçar o progresso em relação às metas e objetivos estratégicos e
táticos.
No dashboard é possível termos um conjunto ou um grupo de visões
analíticas relacionado com tabelas de indicadores, relatórios, planilhas, gráficos e
demais componentes de análise de informação. É uma coleção de vários itens
podendo ser composto por várias páginas ou abas, contendo diversas análises. O
essencial para obter um excelente dashboard não está apenas na exposição dos
dados, mas em fornecer ao usuário um elevado nível de interação. Abaixo um
exemplo de dashboard.
Análise exploratória de dados (AED)
Em estatística, análise exploratória de dados (AED) é uma abordagem para
analisar conjuntos de dados visando resumir as suas principais características,
muitas vezes com métodos visuais. Um modelo estatístico pode ser usado ou
não, mas principalmente AED serve para observados o que os dados podem nos
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 32 de 58
dizer para além da modelagem formal ou hipótese em testes. Análise
exploratória de dados foi promovida por John Tukey para incentivar os
estatísticos a explorar os dados e, eventualmente, formular hipóteses que
poderiam levar a nova coleta de dados e experimentos. AED é diferente de
análise de dados inicial (ADI), que se concentra mais estreitamente na
verificação de suposições necessárias para o modelo e as hipóteses, fazendo
manipulação de valores faltantes e transformações de variáveis conforme
necessário. AED abrange IDA.
Segundo Tukey, os objetivos da AED são os seguintes:
1. Sugerir hipóteses sobre as causas dos fenômenos observados.
2. Avaliar os pressupostos sobre os quais a inferência estatística será
baseada.
3. Apoiar a seleção de ferramentas e técnicas estatísticas adequadas.
4. Fornecer uma base para uma futura coleta de dados através de
pesquisas ou experimentos.
Questões
Apresentamos abaixo um conjunto de questões sobre o assunto que
aprendemos nesta aula. Esperamosque elas ajudem na fixação da matéria.
Qualquer dúvida, estamos às ordens!
1. ESAF - 2008 - Cargo: ANALISTA DE FINANÇAS E CONTROLE -
Secretaria do Tesouro Nacional - STN - TECNOLOGIA DA
INFORMAÇÃO/ INFRA-ESTRUTURA DE TI
13- Com respeito à mineração de dados, assinale a opção correta, após avaliar
as seguintes afirmações:
I. A mineração de dados pode ser usada em conjunto com um datawarehouse,
para auxiliar tomada de decisão.
II. A mineração de dados permite a descoberta de regras de associação entre
hierarquias.
III. A mineração de dados compreende todo o processo de descoberta de
conhecimento em bancos de dados.
a) Apenas as afirmações I e II são corretas.
b) Apenas as afirmações I e III são corretas.
c) Apenas as afirmações II e III são corretas.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 33 de 58
d) As afirmações I, II e III são corretas.
e) As afirmações I, II e III são incorretas.
Comentários: Vamos comentar cada uma das alternativas acima
I. Exatamente, ambas fazem parte do processo de descoberta de conhecimento.
Em um primeiro momento é formado o Data Warehouse com a base de dados
que agrega informações de diferentes fontes. Após passar por uma limpeza
(para retirar dados inconsistentes, ex.: uma data sem o ano 12/02) esses dados
são integrados de forma a compor um DW com informações de todos os setores
da organização. Num segundo momento o um algoritmo de mineração de dados
toma uma parte dos dados do DW e procura encontrar regras ou padrões úteis.
II. Verdadeiro. Uma das tarefas de Data Mining é a descoberta de regras de
associação entre dados. Outras tarefas que podemos listar são:
– Classificação
– Clustering
– Estimativa
– Previsão
– Agrupamento por afinidade
III. Na realidade é o oposto do que está dito na alternativa. A mineração de
dados que faz parte do processo de descoberta do conhecimento.
Para entender melhor, veja a figura abaixo:
Gabarito: A
2. ESAF 2013 – Secretária do Tesouro Nacional – Analista de sistemas
8 - A Mineração de Dados requer uma adequação prévia dos dados através de
técnicas de pré-processamento. Entre elas estão as seguintes técnicas:
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 34 de 58
a) Agrupamento. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de recursos. Recursos pontuais. Polarização. Redução de variáveis.
b) Agregação. Classificação. Redução de faixas de valores. Seleção de
subconjuntos de recursos. Redução de recursos. Terceirização e discretização.
Transformação de variáveis.
c) Agrupamento. Classificação. Redução de dimensionalidade. Seleção de
subconjuntos de usuários. Criação de recursos. Binarização e discretização.
Transformação de conjuntos.
d) Agregação. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de usuários. Criação de recursos. Polarização. Transformação de
conjuntos.
e) Agregação. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de recursos. Criação de recursos. Binarização e discretização.
Transformação de variáveis.
Comentários: Essa questão não mede o grau conhecimento do candidato e sim
a sua capacidade de decorar uma lista, que cada dia cresce mais, de técnicas de
data mining, mas precisamente das técnicas de pré-processamento. A lista foi
retirada do livro do TAN. Veja abaixo a lista em inglês, uma tradução ao pé da
letra encontra-se na alternativa E, na mesma ordem apresentada.
Aggregation
Sampling
Dimensionality Reduction
Feature subset selection
Feature creation
Discretization and Binarization
Attribute Transformation
Gabarito: E
3. ESAF 2013 – Secretária do Tesouro Nacional – Analista de sistemas
Uma técnica de classificação em Mineração de Dados é uma abordagem
sistemática para
a) construção de controles de ordenação a partir de um conjunto de acessos.
b) construção de modelos de classificação a partir de um conjunto de dados de
entrada.
c) construção de modelos de dados a partir de um conjunto de algoritmos.
d) construção de controles de ordenação independentes dos dados de entrada.
e) construção de modelos de sistemas de acesso a partir de um conjunto de
algoritmos.
Comentários: Essa questão trata de classificação, uma tarefa de data mining. A
classificação pode ser entendida como o processo de encontrar um conjunto de
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 35 de 58
modelos (funções) que descrevem e distinguem classes ou conceitos, com o
propósito de utilizar o modelo para predizer a classe de objetos que ainda não
foram classificados. Segundo o TAN, a definição também pode ser a tarefa de
aprender uma função alvo f que mapeie cada conjunto de atributos x para um
dos rótulos de classes y pré-determinados. Com a ajuda das duas definições
acima podemos chegar à resposta na letra B. Abaixo temos uma figura do livro
do TAN que apresenta graficamente a definição de classificação.
Gabarito: B
4. ESAF - 2013 - DNIT - Analista Administrativo - Tecnologia da
Informação
São regras de avaliação de produtos OLAP:
(a) Transferência ao usuário. Desempenho consistente na geração de relatórios.
Dimensionalidade cumulativa. Operações irrestritas com dimensões cruzadas.
(b) Visão conceitual multidimensional para restringir consultas. Transparência ao
usuário. Dimensionalidade genérica. Manipulação dedutiva dos dados.
(c) Visão conceitual multidimensional para formular consultas. Desempenho
consistente na geração de relatórios. Dimensionalidade genérica. Manipulação
intuitiva dos dados.
(d) Visão conceitual multidimensional para formular consultas. Dimensionalidade
genérica. Manipulação segmentada dos dados. Operações irrestritas com
dimensões alternadas.
(e) Extensão conceitual dos dados. Transparência ao dispositivo de acesso.
Manipulação intuitiva dos dados. Operações irrestritas com indicações cruzadas.
Comentários: Os produtos OLAP podem ser avaliados com o uso das regras de
avaliação citadas por Codd. Portanto, um bom produto OLAP deve possuir:
i) visão conceitual multidimensional;
ii) transparência;
iii) acessibilidade;
iv) desempenho consistente do relatório;
v) arquitetura cliente-servidor;
vi) dimensionalidade genérica;
vii) manuseio dinâmico da estrutura da matriz;
viii) apoioa multi-usuários;
ix) operações irrestritas de cruzamento de dimensões;
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 36 de 58
x) manipulação de dados intuitiva;
xi) relatório flexível;
xii) dimensões e agregação de níveis ilimitados.
Gabarito: C
5. ESAF - 2012 - CGU - Analista de Finanças e Controle - prova 3 -
Auditoria e Fiscalização - Geral .
São características gerais de conjuntos de dados:
(a) disposição, dispersão e renderização.
(b) dimensão, posicionamento e homogeneidade.
(c) compatibilidade, dispersão e interação.
(d) dimensão, dispersão e resolução.
(e) portabilidade, concentração e resolução.
Comentários: Questão retirada de TAN et. al (2009, p. 35), que destaca três
características aplicadas a muitos conjuntos de dados e que possuem um
impacto significativo sobre as técnicas de mineração de dados: dimensão,
dispersão e resolução.
A dimensão refere-se à quantidade de atributos de um conjunto de dados;
A resolução está relacionada à granularidade dos dados.
Um conjuntode dados é muito disperso quando para um atributo relevante, a
maioria dos valores é NULL ou um valor padrão, e esse conceito está relacionado
à dispersão.
Gabarito: D
6. ESAF - 2012 - Receita Federal - Analista Tributário da RF - Prova 2 -
Área Informática
Um data mining inteligente descobre informações em data warehouses onde
consultas e relatórios não conseguem revela-las. Ferramentas dedata
mining encontram padrões em dados e podem até deduzir regras a partir deles.
Os métodos usados para identificar padrões em dados são:
(a) modelos simples, modelos intermediários e modelos complexos.
(b) modelos simples, modelos físicos e modelos integrados.
(c) modelos híbridos, modelos top-down e modelos bottom-up.
(d) modelos lógicos, modelos físicos e modelos interativos.
(e) modelos básicos, modelos genéricos e modelos complementares.
Comentários: De acordo com TURBAN são usados três métodos para identificar
padrões em dados:
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 37 de 58
Modelos simples (consultas baseadas em SQL, OLAP, raciocínio humano)
Modelos intermediários (regressão, árvores de decisão, agrupamento)
Modelos complexos (redes neurais, outra indução de regras)
Gabarito: A
7. ESAF - 2012 - CGU - Analista de Finanças e Controle - prova 3 -
Auditoria e Fiscalização - Geral
São aspectos motivadores da Mineração de Dados:
(a) Escalabilidade. Dimensionalidade moderada. Dados homogêneos.
Propriedade e centralização dos dados.
(b) Extensibilidade. Alta paridade. Dados complexos e heterogêneos.
Concorrência e distribuição dos dados.
(c) Escalabilidade. Alta dimensionalidade. Dados complexos e heterogêneos.
Propriedade e distribuição de dados.
(d) Escalabilidade. Dimensionalidade variável. Dados compatíveis e acoplados.
Adequação da distribuição de dados.
(e) Especialidade. Alta dimensionalidade de verificação. Dados complexos e
complementares. Propriedade e consistência de dados.
Comentários: A banca retirou os aspectos de TAN e todos os que foram listados
na assertiva C estão corretos. Um aspecto abordado no livro e não mencionado
na questão é o de “Análises não tradicionais”.
Gabarito: C
8. ESAF - 2012 - CGU - Analista de Finanças e Controle - prova 3 -
Auditoria e Fiscalização - Geral
Classificação é
(a) a tarefa de atualizar uma função focal f que permeia cada conjunto de
variáveis x para um dos blocos de classes y discretos.
(b) o mapeamento de uma função objetivo f à qual são atribuídos
valores x fixados por categorias de rótulos de classes z pré-determinados.
(c) a função alvo f que mapeie cada classificação de atributos x para um dos
eixos de classes y pré-determinados.
(d) a tarefa de aprender uma função alvo f que mapeie cada conjunto de
atributos x para um dos rótulos de classes y pré-determinados.
(e) a tarefa de ordenar funções de mapeamento para cada categoria de
atributos x para um dos rótulos de variáveis y controladas.
Comentários: Como vimos ao longo da nossa aula a classificação é a tarefa de
aprendizado de uma função alvo f que mapeia cada atributo de um conjunto x
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 38 de 58
para um rótulo de classe predefinido y. Essa definição foi retirada do livro do
TAN que inclusive possui o arquivo em pdf do capitulo de classificação disponível
na web.
Gabarito: D
9. ESAF - 2012 - CGU - Analista de Finanças e Controle - prova 3 -
Auditoria e Fiscalização - Geral
A Mineração de Dados é
(a) o processo de desenvolvimento de soluções automáticas de acesso a
informações úteis em depósitos de dados.
(b) a transformação automática de dados existentes em grandes depósitos de
dados em informações quantificáveis.
(c) a automação da recuperação de informações caracterizadas por registros
com grande quantidade de atributos.
(d) a descoberta de relações significativas entre dados e informações passíveis
de atualização automática.
(e) o processo de descoberta automática de informações úteis em grandes
depósitos de dados.
Comentários: Essa questão peca por falta de preciosismo do examinador.
Sabemos que o processo de mineração de dados requer supervisão. Ele não é
totalmente automático, embora várias etapas desse processo sejam
automatizáveis. Mas, se analisarmos cada uma das alternativas acima, podemos
observar que aquela que mais e aproxima de todas as definições que vimos até
aqui é a presente na alternativa E.
Gabarito: E
10. ESAF – CVM 2010 - Sistemas .
53- Mineração de Dados é
a) o processo de atualizar de maneira semiautomática grandes bancos de dados
para encontrar versões úteis.
b) o processo de analisar de maneira semiautomática grandes bancos de dados
para encontrar padrões úteis.
c) o processo de segmentar de maneira semiautomática bancos de dados
qualitativos e corrigir padrões de especificação.
d) o programa que depura de maneira automática bancos de dados corporativos
para mostrar padrões de análise.
e) o processo de automatizar a definição de bancos de dados de médio porte de
maior utilidade para os usuários externos de rotinas de mineração.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 39 de 58
Comentários: Vejam que está questão, quando contrastada com a anterior, nos
leva a uma visão mais precisa do conceito de mineração de dados. Em ambos os
casos, o objetivo final é descobrir informações úteis, mas no caso desta questão
o examinador se preocupou em deixar claro que é um processo semiautomático.
Gabarito: B
11. ANO: 2015 BANCA: CESPE ÓRGÃO: MEC PROVA: TÉCNICO DE
NÍVEL SUPERIOR - ADMINISTRADOR DE DADOS
No que se refere a bancos de dados transacionais (OLTP) e a banco de dados
analíticos (OLAP), julgue os itens que se seguem.
[1] Em ambientes corporativos, o uso de ambientes OLTP visa eliminar ao
máximo a redundância de forma que a transação promova mudanças de estado
o mais pontualmente possível, ao passo que o uso de ambientes OLAP objetiva
prover uma visão dos dados orientados à análise com uma navegação rápida de
dados agregados.
[2] OLAP é uma interface com o usuário que pode se utilizar de diversos
modelos de armazenamento para apresentar as informações. As diversas formas
de armazenamento e acesso a dados permitem classificar OLAP em diferentes
categorias, como por exemplo, o ROLAP, em que os dados são armazenados de
forma relacional, e o MOLAP, em que os dados são armazenados em estruturas
multidimensionais.
[3] Diferentemente dos modelos OLTP fundamentados nas operações de álgebra
relacional, os servidores OLAP suportam um conjunto de operações, como por
exemplo, o drill-down, que implica examinar dados com maior nível de detalhe
dentro da hierarquia de cada dimensão do modelo multidimensional.
Comentários: Vejamos cada uma das alternativas.
[1] A primeira trata de uma das principais diferenças entre um sistema OLAP e
um sistema OLTP. O primeiro está relacionado com processamento analítico, o
segundo está preocupado com o contexto transacional e operacional. Vejam que
a alternativa esta correta.
[2] Nesta segunda alternativa o contexto teórico é as arquiteturas OLAP. Neste
caso, é feita uma distinção entre ROLAP e MOLAP corretamente.
[3] Esse conjunto de operações é conhecido por operações OLAP. Trazem uma
capacidade de análise dos dados muito maior aos SGBDs. A alternativa está
correta.
Gabarito: C C C
12. ANO: 2015 BANCA: CESPE ÓRGÃO: MEC PROVA: TÉCNICO DE
NÍVEL SUPERIOR - ANALISTA DE SISTEMAS
16712855225Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 40 de 58
Com relação a bancos de dados transacionais e analíticos, julgue os seguintes
itens.
[1] As operações slice and dice dos sistemas OLAP permitem selecionar e
modificar a posição de uma informação, a troca de linhas por colunas e o giro do
cubo multidimensional. Entretanto, não é permitido combiná-las com as
operações drill down ou roll up.
[2] Nos sistemas OLAP, os usuários têm permissão para leitura, inserção,
modificação e exclusão dos dados armazenados, e podem analisá-los sob
diversos ângulos.
Comentários: Mais uma vez, vamos comentar cada uma das afirmações acima
e verificar se estão corretas.
[1] Dizer que não é possível combinar operações OLAP é um equívoco! Não
podemos fazer análises mais apuradas se não conseguimos compor as operações
dentro de uma mesma consulta. Sendo assim, a alternativa está incorreta.
[2] Sistemas OLAP tem a característica de serem não-voláteis. A consequência
disso é que os dados são carregados no DW ou na base de dados de análise e
não devem ser alterados. Desta forma, não há sentido algum os usuários
fazerem alterações sobre os dados armazenados. Eles podem sim, fazer análise
sob diversos ângulos. Mesmo assim, a alternativa continua incorreta.
Gabarito: E E
13. ANO: 2015 BANCA: CESPE ÓRGÃO: MEC PROVA: GESTÃO -
GERENTE DE PROJETOS
Acerca dos conceitos de banco de dados transacionais (OLTP) e analíticos
(OLAP), julgue os itens que se seguem.
[1] O ROLAP, sistema que se baseia na manipulação dos dados armazenados na
base de dado relacional, apresenta a desvantagem de não lidar com grandes
quantidades de dados.
[2] Na pivotagem, que é uma agregação de sistemas OLAP, utiliza-se uma
tabulação cruzada bidimensional, como um pivô de duas dimensões.
Comentários: Vamos comentar cada uma das assertivas acima:
[1] O ROLAP armazena os dados numa base de dados relacional. No ROLAP
existe uma boa padronização das tecnologias de banco de dados. Podem
manipular grandes quantidades de dados. Pode ter as funcionalidades de uma
base de dados relacional e como acessa diretamente é mais fácil adicionar novas
dimensões. Os dados estão sempre disponíveis. Permite pedidos ad hoc
eficazmente.
A performance pode ser mais lenta e é limitada pelas funcionalidades SQL. Para
ter acesso aos dados visando realizar operações de drill down em tempo real é
necessário muito poder de processamento e, consequentemente, hardware caro.
O MOLAP armazena os dados num cubo multidimensional. O MOLAP permite
uma boa performance nas operações slicing and dicing, tendo um bom tempo de
resposta para consultas OLAP. Permite cálculos complexos. É limitado quanto a
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 41 de 58
quantidade de dados que se deseja manipular. Não existe uma padronização das
tecnologias de banco de dados. Realizar alterações como adicionar novas
dimensões é complicado devido à falta de flexibilidade. Não permite pedidos ad
hoc eficazes.
Vejam que pelo exposto nossa assertiva está incorreta.
[2] O termo dado para a movimentação de dados entre eixos é chamado de
pivotagem. Usando esta técnica, você pode reorganizar os seus dados para
revelar as relações que podem não ser aparente. Para muitas pessoas,
pivotagem é também conhecida como "dicing". Vejam, portanto, que a
alternativa está correta.
Gabarito: E C
14. ANO: 2015 BANCA: CESPE ÓRGÃO: TCU PROVA: AUDITOR FEDERAL
DE CONTROLE EXTERNO – ANÁLISE DE INFORMAÇÕES.
No que concerne a data mining (mineração de dados) e big data, julgue os
seguintes itens.
[82] O uso prático de data mining envolve o emprego de processos,
ferramentas, técnicas e métodos oriundos da matemática, da estatística e da
computação, inclusive de inteligência artificial.
[83] Quem utiliza o data mining tem como objetivo descobrir, explorar ou
minerar relacionamentos, padrões e vínculos significativos presentes em grandes
massas documentais registradas em arquivos físicos (analógicos) e arquivos
lógicos (digitais).
[84] A finalidade do uso do data mining em uma organização é subsidiar a
produção de afirmações conclusivas acerca do padrão de comportamento exibido
por agentes de interesse dessa organização.
[85] No ambiente organizacional, devido à grande quantidade de dados, não é
recomendado o emprego de data mining para atividades ligadas a marketing.
Comentários: Vamos analisar cada uma das assertivas acima a respeito de
mineração de dados.
[82] Se analisarmos qualquer definição formal de Data Mining, por exemplo:
“Mineração de dados, ou data mining, é o processo de análise de conjuntos de
dados que tem por objetivo a descoberta de padrões interessantes e que possam
representar informações úteis”.
Segundo a teoria Data Mining é uma mistura de diferentes disciplinas:
Estatística, Aprendizado de máquina e Banco de dados. Podemos então verificar
que os termos listados na questão se enquadram perfeitamente dentro do
contexto e das definições existentes. Portanto, alternativa correta.
[83] Vamos analisar mais uma definição de Data Mining para chegarmos a uma
conclusão definitiva a respeito desta questão. “A mineração de dados é um
campo interdisciplinar que reúne técnicas de aprendizado de máquina,
reconhecimento de padrões, estatísticas, banco de dados e visualização para
abordar a questão da extração de informações a partir de grandes bases de
dados”. Vejam que em todas as definições as análises são feitas sobre base de
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 42 de 58
dados digitais. Usar tecnologia para otimizar e ampliar o horizonte e descobrir
padrões ou informações relevantes. Sendo assim a alternativa está incorreta
pois afirma que é possível fazer análise em arquivos físicos (analógicos).
[84] A princípio você pode ser levado a acreditar que a questão está falsa, pois
Data Mining não vai produzir afirmações conclusivas. Veja, porém, que o
examinador usou a palavra “subsidiar” a produção. Esse é justamente a grande
característica que está descrita no detalhamento da última falácia acima.
Resposta da alternativa 84 é correta.
[85] Observem que o examinador colocou uma afirmação incorreta. Dizer que
não é possível usar DM para atividades ligadas a marketing. O caso mais clássico
conhecido é justamente o das “fraudas próximas das cervejas”. Uma das
maiores redes de varejo dos Estados Unidos descobriu em seu gigantesco
armazém de dados que a venda de fraldas descartáveis estava associada à de
cerveja. Em geral, os compradores eram homens, que saíam à noite para
comprar fraldas e aproveitavam para levar algumas latinhas para casa.
Gabarito: C E C E
15. ANO: 2015 BANCA: CESPE ÓRGÃO: TCU PROVA: AUDITOR FEDERAL
DE CONTROLE EXTERNO - TECNOLOGIA DA INFORMAÇÃO
Julgue os itens subsequentes, a respeito de modelagem dimensional e análise de
requisitos para sistemas analíticos.
[1] Na análise dos dados de um sistema com o apoio de uma ferramenta OLAP,
quando uma informação passa de uma dimensão para outra, inexistindo
hierarquia entre elas, ocorre uma operação drill through.
[2] Entre os requisitos de análise de uma aplicação OLAP inclui-se a capacidade
de tratar dinamicamente a esparsidade das informações para restringir o
cruzamento dimensional de matrizes com células de valor zero.
Comentário: Vamos comentar cada uma das alternativas acima.
[1] Quando tratamos das definições de drill through encontramos na literatura
duas definições:
Drill Throught - ocorre quandoo usuário passa de uma informação contida em
uma dimensão para uma outra. Por exemplo: Inicia na dimensão do tempo e no
próximo passo analisa a informação por região
Drill Throught – a operação de drill-through permite que você exiba, em tempo
de consulta, os detalhes dos dados não sumarizados. A partir dos quais uma
célula de uma tabela ou uma seleção de células é sumarizada. Permite as
empresas acesso aos dados que não estão armazenados no servidor OLAP,
fazendo-as acessíveis para os usuários finais das aplicações OLAP. Esses dados
podem vir tanto do DW quanto das bases transacionais.
Vejam que a alternativa apresenta em seu texto uma definição muito
semelhante a primeira definição. A ideia do drill throught é navegar pelo cubo
como ilustrado na figura abaixo. Alternativa correta.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 43 de 58
[2] Primeiramente precisamos ter em mente as 12 regras para avaliar
ferramentas ou produtos OLAP.
Duas dessas regras aparecem dentro do texto apresentado pela questão o
tratamento dinâmico de matrizes esparsas (7) e operação de cruzamento
dimensional irrestrito (9).
Manipulação dinâmica de matriz esparsa - A estrutura física servidores
OLAP deve ter um tratamento ótimo para matriz esparsa. Uma matriz esparsa é
aquele em que nem todos os blocos, ou de células, na matriz contém dados.
Quando confrontado com uma matriz esparsa, o sistema deve ser capaz de
deduzir a distribuição dos dados e como armazená-la de forma mais
eficientemente. A estrutura de dados das ferramentas OLAP deve ser, portanto,
configurável.
Operações de cruzamento dimensional irrestrito – Na análise de dados
multidimensional, todas as dimensões são criadas e tratadas igualmente. Por
exemplo, um usuário pode executar as mesmas ações sobre as dimensões
tempo e produto. As ferramentas OLAP devem lidar com os cálculos nas
associações entre as dimensões e não exigir que o usuário defina como este
cálculo deve ser feito.
Vejam, portanto, que a ideia de tratar as matrizes esparsas é basicamente
reduzir a necessidade de processamento, evitando uma possível explosão dos
dados. Essa métrica de avaliação não visa em nenhum momento restringir os
cruzamentos entre as dimensões. Sendo assim podemos afirmar que a
alternativas está incorreta.
Gabarito: C E
16. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 12ª REGIÃO (SC) PROVA:
ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
O banco de dados Oracle possui características especiais para trabalhar com
Data Warehouse. A cláusula ...... permite que sejam especificadas fórmulas
complexas ao mesmo tempo que traz a facilidade de não serem necessárias a
utilização de múltiplas cláusulas JOIN e UNION. Ela suporta queries OLAP, como
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 44 de 58
compartilhamento de períodos de comparação e também provê blocos de
construção para orçamentos, previsões e aplicações estatísticas.
A lacuna é preenchida corretamente com
A UPSERT
B MODEL
C REGION
D CUBE
E PARTITION
Comentários:
UPSERT - UPSERT é um alias utilizado para referenciar operações de UPDATE e
INSERT ao mesmo tempo. No Oracle existe a cláusula MERGE que faz
exatamente isto: se o registro já existir na tabela-alvo então ele será atualizado;
caso contrário, um novo registro será inserido.
PARTITION - Partições são utilizadas para melhorar o desempenho de consultas.
Podem ser realizadas sobre tabelas ou índices.
CUBE - CUBE é uma cláusula que aparece em conjunto com a GROUP BY e é
utilizada para criar subtotais para todas as combinações possíveis de colunas
presentes na cláusula. Em termos de análise multidimensional, CUBE gera todos
os subtotais que podem ser calculados em um cubo de dados para dimensões
específicas. Se especificarmos CUBE(time, region, department), o resultado irá
incluir todos os valores que seriam incluídos em um equivalente ROLLUP.
MODEL - A cláusula MODEL permite que sejam especificadas fórmulas complexas
ao mesmo tempo em que traz a facilidade de não serem necessárias a utilização
de múltiplas cláusulas JOIN e UNION. Ela suporta queries OLAP, como
compartilhamento de períodos de comparação e também provê blocos de
construção para orçamentos, previsões e aplicações estatísticas. Enfim, MODEL é
uma cláusula que permite criar arrays multidimensionais dando mais poder e
flexibilidade para os cálculos de valores.
Gabarito: B
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 45 de 58
Questões extras
17. ANO: 2015 BANCA: FCC ÓRGÃO: TRT - 3ª REGIÃO (MG) PROVA:
ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
No modelo de dados multidimensional existem as operações suportadas pelas
ferramentas OLAP para permitir a análise dos dados. Com relação a estas
operações, considere os dados abaixo.
Para movimentar a visão dos dados ao longo de níveis hierárquicos da dimensão
tempo, saindo do que consta na Tabela 2 para o que consta na Tabela 1, um
analista de TI deve utilizar a operação OLAP
A drill throught.
B drill down.
C drill across.
D pivot.
E roll up.
Gabarito: E
18. ANO: 2014 BANCA: FCC ÓRGÃO: TCE-RS PROVA: AUDITOR
PÚBLICO EXTERNO - TÉCNICO EM PROCESSAMENTO DE DADOS
Os cubos de dados que armazenam os dados multidimensionais, podem ter
modelos de armazenamento que variam conforme a solução OLAP − On-Line
Analytical Processing utilizada. Nesse sentido considere os seguintes modelos:
I. Armazena os dados de detalhe (fatos) e as agregações em um modelo
multidimensional. Não faz uso da base de dados relacional para acessar os
dados dos cubos. Necessita de um processamento constante do cubo, embora
apresente melhor desempenho.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 46 de 58
II. Lê os dados de detalhe (fatos) diretamente de fonte de dados relacional.
Caso existam agregações, estas serão geradas no modelo relacional. Pode ser
usado quando há problemas para armazenamento de uma estrutura
multidimensional.
III. Lê os dados de detalhe (fatos) diretamente da fonte de dados relacional.
Grava as agregações em formato multidimensional. Os dados que não possuem
agregações são consultados no modelo relacional. Mantém os benefícios do
modelo multidimensional sem ocupar tanto espaço em disco.
I, II e III referem-se, respectivamente, aos modelos
A HOLAP − MOLAP − ROLAP.
B MOLAP − ROLAP − HOLAP.
C HOLAP − DOLAP − ROLAP.
D DOLAP − HOLAP − MOLAP.
E ROLAP − HOLAP − DOLAP.
Gabarito: B
19. ANO: 2014 BANCA: FCC ÓRGÃO: TJ-AP PROVA: ANALISTA
JUDICIÁRIO - BANCO DE DADOS - DBA
Nas ferramentas de navegação OLAP (On-Line Analytical Processing), é possível
navegar entre diferentes níveis de detalhamento de um cubo de dados.
Supondo-se que um relatório esteja consolidado por Estados de um país, o
processo que possibilita que os dados passem a ser apresentados por cidades e
bairros, é denominado
A drill down.
B data mining.
C botton-up.
D drill up.
E top-down.
Gabarito: A
20. ANO: 2010 BANCA: FCC ÓRGÃO: TCE-SP PROVA: AGENTE DA
FISCALIZAÇÃO FINANCEIRA - PRODUÇÃO E BANCO DE DADOS
No modelo multidimensional, significa, de forma simplificada, a redução do
escopo dos dados em análise, além de mudar a ordem da dimensões, mudando,
desta forma, a orientação segundo a qual os dados são visualizados.
16712855225
Conceitosde OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 47 de 58
Trata-se de
A slice and dice.
B joint.
C grant.
D split.
E tuning.
Gabarito: A
21. ANO: 2010 BANCA: FCC ÓRGÃO: TCE-SP PROVA: AGENTE DA
FISCALIZAÇÃO FINANCEIRA - PRODUÇÃO E BANCO DE DADOS
Quando, em um modelo multimensional, o usuário pular de uma informação
contida em uma dimensão para outra como por exemplo, da dimensão tempo
para a dimensão região, a operação executada corresponde a
A roll trought.
B select.
C drill trought.
D roll up.
E join.
Gabarito: C
22. ANO: 2010 BANCA: FCC ÓRGÃO: TCE-SP PROVA: AGENTE DA
FISCALIZAÇÃO FINANCEIRA - PRODUÇÃO E BANCO DE DADOS
Quando, em um modelo multimensional, o usuário pular um nível intermediário
dentro de uma mesma dimensão, como por exemplo, sendo a dimensão tempo
composta por ano, semestre, trimestre, mês e dia e o usuário pular de ano para
mês, a operação executada corresponde a
A tracking.
B hashing.
C drill down.
D drill across.
E union.
Gabarito: D
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 48 de 58
23. ANO: 2010 BANCA: FCC ÓRGÃO: TCE-SP PROVA: AGENTE DA
FISCALIZAÇÃO FINANCEIRA - PRODUÇÃO E BANCO DE DADOS
A mudança de uma hierarquia (orientação) dimensional para outra tem sua
realização facilitada em um cubo de dados por meio de uma técnica chamada
A roteamento.
B pivoteamento.
C ROLAP.
D OLTP.
E MOLAP.
Gabarito: B
24. ANO: 2014 BANCA: FCC ÓRGÃO: TCE-GO PROVA: ANALISTA DE
CONTROLE EXTERNO - TECNOLOGIA DA INFORMAÇÃO
As ferramentas OLAP permitem efetuar a exploração dos dados de um Data
Warehouse (DW). Em relação a este tema, é correto afirmar:
A A análise multidimensional representa os dados como tabelas, de forma
semelhante aos bancos de dados relacionais.
B Combinando as dimensões, o usuário tem uma visão dos dados de um DW,
podendo efetuar operações básicas como slice and dice, drill down e roll up.
C O resultado das operações OLAP não permite a descoberta de tendências e
cenários; isso é conseguido com sistemas ERP, capazes de transformar dados do
DW em informações estratégicas.
D As operações slice and dice realizam a alteração nos dados do DW modificando
o nível de granularidade da consulta.
E Para navegar nas dimensões do DW são utilizadas as operações drill, que não
afetam o nível de granularidade da consulta.
Gabarito: B
25. ANO: 2014 BANCA: FCC ÓRGÃO: TRF 4ª REGIÃO (SUL) PROVA:
ANALISTA JUDICIÁRIO - INFORMÁTICA
Um sistema OLAP é um sistema interativo que permite que um analista veja
diferentes resumos de dados multidimensionais. Sobre estes sistemas,
considere:
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 49 de 58
I. A generalização de uma tabulação cruzada bidimensional para n dimensões
pode ser visualizada como um cubo n-dimensional, chamado cubo de dados.
II. Pode-se obter uma tabulação cruzada sobre os atributos x e y, para um valor
variável de z em uma relação R. Esta operação é chamada de slicing (corte em
pequenos cubos) ou dicing (corte em fatias), particularmente quando os valores
para várias dimensões não são fixos.
II. A operação de mudar as dimensões usadas em uma tabulação cruzada é
chamada de pivoting (pivoteamento).
IV. A operação de passar de dados com detalhamento maior para um
detalhamento menor é chamada de drill down. A operação contrária é chamada
de rollup.
Está correto o que consta APENAS em
A II e IV.
B I e III.
C II e III.
D I e II.
E III e IV.
Gabarito: B
26. ANO: 2014 BANCA: FCC ÓRGÃO: TRF 3ª REGIÃO (SP MS) PROVA:
ANALISTA JUDICIÁRIO - INFORMÁTICA (BANCO DE DADOS)
A tecnologia de Data Warehouse oferece suporte às ferramentas OLAP, que
apresentam visões multidimensionais de dados permitindo a análise das
operações de negócio para facilitar a tomada de decisões. Estas ferramentas
suportam algumas operações de maneira a dar aos analistas o poder de
observar os dados de várias maneiras em níveis diferentes. Considere duas
destas operações mostradas nas figuras abaixo.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 50 de 58
As operações mostradas na Figura 1 e na Figura 2, respectivamente, são
A drill-down e ROLAP.
B rotação e drill-down.
C ROLAP e drill-through.
D rotação e roll-up.
E roll-up e rotação.
Gabarito: B
27. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 9ª REGIÃO (PR) PROVA:
ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
As ferramentas OLAP são as aplicações às quais os usuários finais têm acesso
para extrair os dados de suas bases e construir os relatórios capazes de
responder às suas questões gerenciais. As operações realizadas abaixo navegam
nos dados, modificando o nível de granularidade da consulta.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 51 de 58
A primeira e a segunda operações são, respectivamente,
A roll up e drill down.
B drill across e slice and dice.
C slice and dice e dill throught.
D dill throught e roll up.
E drill down e roll up.
Gabarito: A
28. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 12ª REGIÃO (SC) PROVA:
ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
Dentre as diferenças cruciais entre o modelo tradicional de uso de bancos de
dados OLTP (Online Transaction Processing) e o modelo voltado para Data
Warehousing (DW) está
A o nível de armazenamento de dados, muito mais sumarizado no caso de DW.
B a quantidade de cláusulas JOIN, utilizadas em maior número para DW.
C a necessidade de normalização para as bases OLAP, o que não é necessário
em OLTP.
D a utilização de dados derivados e agregados em OLTP, o que não ocorre no
ambiente de DW.
E o número de índices necessários, muito maior no caso de DW.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 52 de 58
Gabarito: E
29. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 15ª REGIÃO (CAMPINAS-
SP) PROVA: ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
Considere
I. A fonte de dados de todos os cubos OLAP do Service Manager são os data
marts do Operations Manager, enquanto o Configuration Manager fornece dados
em Big Data e CSV, não sendo compatíveis com OLAP.
II. As informações de autenticação sobre a fonte de dados devem ser
armazenadas no SSAS (SQL Server Analysis Services) para se estabelecer o
nível correto de permissões.
III. Os cubos OLAP podem exibir e somar grandes volumes de dados, embora
não forneçam aos usuários acesso pes- quisável a quaisquer pontos de dados,
quando os dados precisam ser acumulados, decompostos e analisados, conforme
a necessidade para tratar da maior variedade de questões relevantes à área de
interesse do usuário.
Está correto APENAS o que se afirma em
A III
B II e III
C I e III
D I e II
E II
Gabarito: E
30. ANO: 2015 BANCA: FCC ÓRGÃO: CNMP PROVA: ANALISTA DO
CNMP - DESENVOLVIMENTO DE SISTEMAS
Em relação às ferramentas de Data Discovery e os fundamentos de Data Mining,
é correto afirmar:
A Data Mining é o processo de descobrir conhecimento em banco de dados, que
envolve váriasetapas. O KDD – Knowledge Discovery in Database é uma destas
etapas, portanto, a mineração de dados é um conceito que abrange o KDD.
B A etapa de KDD do Data Mining consiste em aplicar técnicas que auxiliem na
busca de relações entre os dados. De forma geral, existem três tipos de
técnicas: Estatísticas, Exploratórias e Intuitivas. Todas são devidamente
experimentadas e validadas para o processo de mineração.
C Os dados podem ser não estruturados (bancos de dados, CRM, ERP),
estruturados (texto, documentos, arquivos, mídias sociais, cloud) ou uma
mistura de ambos (emails, SOA/web services, RSS). As ferramentas de Data
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 53 de 58
Discovery mais completas possuem conectividade para todas essas origens de
dados de forma segura e controlada.
D Estima-se que, atualmente, em média, 80% de todos os dados disponíveis são
do tipo estruturado. Existem diversas ferramentas open source e comerciais de
Data Discovery. Dentre as open source está a InfoSphere Data Explorer e entre
as comerciais está a Vivisimo da IBM.
E As ferramentas de Data Mining permitem ao usuário avaliar tendências e
padrões não conhecidos entre os dados. Esses tipos de ferramentas podem
utilizar técnicas avançadas de computação como redes neurais, algoritmos
genéticos e lógica nebulosa, dentre outras.
Gabarito: E
31. ANO: 2014 BANCA: FCC ÓRGÃO: TCE-RS PROVA: AUDITOR
PÚBLICO EXTERNO - TÉCNICO EM PROCESSAMENTO DE DADOS
A revista da CGU − Controladoria Geral da União, em sua 8a edição, publicou
um artigo que relata que foram aplicadas técnicas de exploração de dados,
visando a descoberta de conhecimento útil para auditoria, em uma base de
licitações extraída do sistema ComprasNet, em que são realizados os pregões
eletrônicos do Governo Federal. Dentre as técnicas preditivas e descritivas
utilizadas, estão a classificação, clusterização e regras de associação. Como
resultado, grupos de empresas foram detectados em que a média de
participações juntas e as vitórias em licitações levavam a indícios de conluio.
As técnicas aplicadas referem-se a
A Customer Churn Trend Analysis.
B On-Line Analytical Processing.
C Data Mining.
D Business Process Management.
E Extraction, Transformation and Load.
Gabarito: C
32. ANO: 2014 BANCA: FCC ÓRGÃO: TRF 3ª REGIÃO (SP MS) PROVA:
ANALISTA JUDICIÁRIO - INFORMÁTICA (BANCO DE DADOS)
Mineração de dados é a investigação de relações e padrões globais que existem
em grandes bancos de dados, mas que estão ocultos no grande volume de
dados. Com base nas funções que executam, há diferentes técnicas para a
mineração de dados, dentre as quais estão:
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 54 de 58
I. identificar afinidades existentes entre um conjunto de itens em um dado grupo
de registros. Por exemplo: 75% dos envolvidos em processos judiciais ligados a
ataques maliciosos a servidores de dados também estão envolvidos em
processos ligados a roubo de dados sigilosos.
II. identificar sequências que ocorrem em determinados registros. Por exemplo:
32% de pessoas do sexo feminino após ajuizarem uma causa contra o INSS
solicitando nova perícia médica ajuízam uma causa contra o INSS solicitando
ressarcimento monetário.
III. as categorias são definidas antes da análise dos dados. Pode ser utilizada
para identificar os atributos de um determinado grupo que fazem a
discriminação entre 3 tipos diferentes, por exemplo, os tipos de processos
judiciais podem ser categorizados como infrequentes, ocasionais e frequentes.
Os tipos de técnicas referenciados em I, II e III, respectivamente, são:
A Padrões sequenciais - Redes Neurais - Árvore de decisão
B Redes Neurais - Árvore de decisão - Padrões sequenciais
C Associação - Padrões sequenciais - Classificação
D Classificação - Associação - Previsão
E Árvore de decisão - Classificação – Associação
Gabarito: C
33. ANO: 2013 BANCA: FCC ÓRGÃO: MPE-MA PROVA: ANALISTA
JUDICIÁRIO - BANCO DE DADOS
Uma das funções desempenhadas pelas técnicas de mineração de dados consiste
em determinar que itens de um conjunto de dados ocorrem de forma
simultânea. Essa função recebe a denominação de
A análise de afinidade.
B estimativa.
C previsão.
D seleção adaptativa.
E análise de variância.
Gabarito: A
34. ANO: 2010 BANCA: FCC ÓRGÃO: TCE-SP PROVA: AGENTE DA
FISCALIZAÇÃO FINANCEIRA - PRODUÇÃO E BANCO DE DADOS
NÃO é um objetivo da mineração de dados (mining), na visão dos diversos
autores,
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 55 de 58
A garantir a não redundância nos bancos transacionais.
B conhecer o comportamento de certos atributos no futuro.
C possibilitar a análise de determinados padrões de eventos.
D categorizar perfis individuais ou coletivos de interesse comercial.
E apoiar a otimização do uso de recursos limitados e/ou maximizar variáveis de
resultado para a empresa.
Gabarito: A
35. ANO: 2010 BANCA: FCC ÓRGÃO: TCE-SP PROVA: AGENTE DA
FISCALIZAÇÃO FINANCEIRA - PRODUÇÃO E BANCO DE DADOS
A data mining apoia o conhecimento indutivo que pode ser representado por
I. Lógica proposicional.
II. Árvores de decisão.
III. Redes neurais.
IV. Redes semânticas.
Está correto o que consta em
A I e III, apenas.
B II e III, apenas.
C II, III e IV, apenas.
D I, II e IV, apenas.
E I, II, III e IV.
Gabarito: E
36. ANO: 2010 BANCA: FCC ÓRGÃO: TCE-SP PROVA: AGENTE DA
FISCALIZAÇÃO FINANCEIRA - PRODUÇÃO E BANCO DE DADOS
No âmbito dos algoritmos associados ao mining, se houver um banco de dados
com um número potencial pequeno de conjuntos de itens grandes, isto é, uns
poucos milhares, então o suporte para todos eles pode ser testado em uma
passagem usando a técnica específica de
A hierarquização.
B partição.
C amostragem.
D árvore de padrão frequente.
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 56 de 58
E séries temporais.
Gabarito: B
37. ANO: 2010 BANCA: FCC ÓRGÃO: TCE-SP PROVA: AGENTE DA
FISCALIZAÇÃO FINANCEIRA - PRODUÇÃO E BANCO DE DADOS
Uma das abordagens de mining define que, se uma regra de classificação é
considerada uma função sobre variáveis que as mapeia em uma classe destino,
a regra é chamada
A categorização.
B Apriori.
C algoritmo genético.
D regressão.
E minimização.
Gabarito: D
38. ANO: 2010 BANCA: FCC ÓRGÃO: TCE-SP PROVA: AGENTE DA
FISCALIZAÇÃO FINANCEIRA - PRODUÇÃO E BANCO DE DADOS
Considere uma dada população de eventos ou novos itens que podem ser
particionados (segmentados) em conjuntos de elementos similares, tal como,
por exemplo, uma população de dados sobre uma doença que pode ser dividida
em grupos baseados na similaridade dos efeitos colaterias produzidos. Como um
dos modos de descrever o conhecimento descoberto durante a data mining este
é chamado de
A associação.
B otimização.
C classificação.
D clustering.
E temporização.
Gabarito: D
39. ANO: 2015 BANCA: FGV ÓRGÃO: TJ-SC PROVA: ANALISTA
JUDICIÁRIO - ANALISTA DE SISTEMAS
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 57 de 58
João trabalha nosetor de BI da empresa e recebeu a tarefa de identificar
agrupamentos de alunos de uma escola segundo seu desempenho acadêmico. A
partir das notas obtidas, João deve formar grupos tal que integrantes de um
grupo tenham desempenho similar, e que integrantes de grupos distintos sejam
dissimilares. O algoritmo mais apropriado para essa tarefa é:
A Apriori;
B decision tree;
C PageRank;
D CART;
E k-means.
Gabarito: E
40. CESPE - DEPEN - 2015 - Agente Penitenciário Federal - Tecnologia
da Informação (Médio)
Acerca de datawarehouse e datamining, julgue os itens subsequentes.
[116] Os objetivos do datamining incluem identificar os tipos de relacionamentos
que se estabelecem entre informações armazenadas em um grande repositório.
[117] Datamart é a denominação atribuída a um sistema de dataware que
atende a áreas específicas de negócios de organizações e que representa um
subconjunto lógico do datawarehouse.
[118] O datawarehouse possibilita a análise de grandes volumes de dados, que,
por sua vez, permitem a realização de uma melhor análise de eventos futuros.
Gabarito: C C E
16712855225
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti ʹ Aula 02
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 58 de 58
Considerações Finais
Chegamos ao final da nossa aula que abordou os assuntos relacionados a
OLAP, Data Mining e Visualização. Essa aula faz parte de um conjunto de aulas
que cobrem o assunto de BI.
Esperamos que você tenha gostado e aprendido bastante sobre o assunto.
Até a próxima!
Thiago Cavalcanti
16712855225