Prévia do material em texto
Modelagem e arquitetura do DW (Data Warehouse) Professor(a): Anderson da Silva Marcolino (Doutorado) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! A mineração de dados é comumente classificada pela sua capacidade em realizar tarefas para diferentes domínios. A literatura indica que não existe um consenso de denominação quanto à classificação, funcionalidades, tarefas, métodos ou técnicas de mineração de dados. Contudo, Fayyad et al. (1996) apresentam alguns métodos de mineração de dados que têm como objetivo a predição ou descrição dos resultados: (FAYYAD, U.M. et al. Advances in knowledge discovery and data mining. California: AAAI Press, 1996). Sobre as técnicas de Data Mining, julgue os itens a seguir, indicando “V” para o item verdadeiro e “F” para o item falso: �. ( ) Regressão: usa-se para associar ou classificar um item a uma ou a várias categorias pré-definidas, derivando uma regra que possa ser usada para classificar uma observação, referente a um conjunto de dados identificados que são categorizados por um assunto. �. ( ) Análise de Séries Temporais: refere-se a tarefa similar à classificação, porém é usada quando os dados são identificados por predição de valores numéricos, considerados variáveis independentes ou exploratórias, e não pela categorização dos itens analisados, sendo possível verificar o eventual relacionamento funcional que possa existir entre duas ou mais variáveis quantitativas. �. ( ) Agrupamentos (Clusters): refere-se à tarefa de segmentar um conjunto de dados em grupos diferentes, cujos itens são semelhantes, ou seja, subdivide o conjunto de dados em um conjunto menor, sendo similar no comportamento dos atributos de segmentação, descobrindo grupos diferentes entre o conjunto de dados selecionado. �. ( ) Sumarização: refere-se à tarefa de descrever padrões e tendências que são reveladas por subconjuntos de dados compactados, a partir de um subconjunto de dados com características similares, demostrando as relações funcionais entre as variáveis definidas para a análise exploratória do subconjunto de dados �. ( ) Análise de Séries Temporais: refere-se a tarefa similar à regra de associação com objetivo de aplicar algum tipo de padrão (tendências, variações sazonais, variações cíclicas e variações irregulares) no conjunto de dados, para determinar que tipos de sequências podem ocorrer em um determinado período. Assinale a alternativa que indica a sequência correta: Alternativas: F – F – V – V – V. CORRETO V – V – F – V – F. F – F – F – F – F. V – V – V – V – V F – V – F – V – F. Código da questão: 42615 Uma característica importante que deve estar presente em ferramentas OLAP é a capacidade de efetuar operações sobre um conjunto de dados multidimensional que retorna uma apresentação ou sumarização diferente de informações. Existem diversos operadores OLAP que permitem acessar os dados em esquemas multidimensionais. As principais operações são do tipo Drill (Drill Down, Drill Up, Drill Across e Drill Throught) e as do tipo Slice and Dice. Sobre os tipos de operações, julgue os itens a seguir, indicando “V” para o item verdadeiro e “F” para o item falso: �. ( ) O tipo de operação Drill Down ocorre quando o usuário aumenta o nível de detalhe da informação, diminuindo a granularidade, ou seja, navega verticalmente, descendo a hierarquia no sentido mais específico. �. ( ) O tipo de operação Drill Up ocorre quando o usuário aumenta o nível de granularidade, diminuindo o nível de detalhamento da informação. Resolução comentada: o Item 1 é falso, porque refere-se ao método classificação usado para associar ou classificar um item a uma ou a várias categorias pré-definidas, derivando uma regra que possa ser usada para classificar uma observação, referente a um conjunto de dados identificados que são categorizados por um assunto. O item 2 é falso, porque descreve o método de Regressão que se refere a tarefa similar à classificação, porém é usada quando os dados são identificados por predição de valores numéricos, considerados variáveis independentes ou exploratórias, e não pela categorização dos itens analisados, sendo possível verificar o eventual relacionamento funcional que possa existir entre duas ou mais variáveis quantitativas. Avaliação enviada com sucesso 3) 4) �. ( ) O tipo de operação Drill Across permite navegar transversalmente no eixo da árvore hierárquica, inserindo ou retirando posições da dimensão. �. ( ) O tipo de operação Slice and Dice ocorre quando o usuário navega de uma informação contida em uma dimensão para uma outra dimensão. �. ( ) O tipo de operação Drill Throught significa a redução do escopo dos dados em análise, além de mudar a ordem das dimensões, mudando, assim, a orientação segundo a qual os dados são visualizados. Assinale a alternativa correta Alternativas: F – F – F – F – F. F – F – F – V – V. V – V – V – F – F. CORRETO V – F – V – F – V. V – V – V – V – V. Código da questão: 42608 O banco de dados analítico é diferente do banco de dados operacional, transacional ou OLTP (Online Transaction Processing), usado para processar as transações. Embora os bancos de dados transacionais possam ser usados para suportar o armazenamento de dados e as aplicações de BI, não se recomenda seu uso por questões de integridade e escalabilidade. I. O banco de dados convencional deve ser preservado, e o banco de dados analíticos deve estar em outro schema. PORQUE II. Um banco de dados analítico tem uma estrutura baseada em coluna, tornando os cálculos individuais muito rápidos. Já os bancos de dados transacionais dependem de armazenamento de dados baseado em linha, impróprio para operar com grandes volumes de dados. Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas: Alternativas: A primeira e a segunda asserções estão corretas, e a segunda complementa a primeira. CORRETO A primeira e a segunda asserções estão incorretas. A primeira e a segunda asserções estão corretas, mas a segunda não tem relação com a primeira. A primeira asserção está incorreta e a segunda está correta A primeira asserção está correta e a segunda está incorreta. Código da questão: 50534 Ferramentas de mineração de dados (Data Mining) são utilizadas nos diferentes segmentos do mercado para sustentar e consolidar estratégias que auxiliem no processo de tomada de decisão, a partir da geração das informações em conhecimento potencialmente útil. Sobre o conceito de Data Mining, assinale a alternativa correta Alternativas: Resolução comentada: o item 4 é falso, porque o tipo de operação Slice and Dice que significa a redução do escopo dos dados em análise, além de alterar a ordem das dimensões, altera, também, a orientação segundo a qual os dados são visualizados. Segundo Machado (2013), Slice é a operação que corta o cubo, mas mantém a mesma perspectiva de visualização dos dados. Dice, por sua vez, é a mudança de perspectiva da visão, ou seja, é a extração de um subcubo ou a interseção de vários Slices. O item 5 é falso, porque o tipo de operação Drill Throught ocorre quando o usuário navega de uma informação contida em uma dimensão para uma outra dimensão. Por exemplo, quando o usuário está na dimensão de tempo e no próximo passo começa a analisar a informação por região. Resolução comentada: Os bancos de dados transacionais são bancos baseados em armazenamento por linha, o que impossibilita o desempenho quando submetido a cálculos em processos analíticos. Isto deteriora o desempenho para a finalidade base ao qual foi projetado, que é armazenar, acessar, incluir e excluir os registros ali depositados.Portanto, para projetos que envolvam cálculos analíticos outro banco com processo de armazenamento por coluna é mais eficiente, como os bancos de dados analíticos, pois os registros ficam livres para serem submetidos aos cálculos volumétricos, essenciais para BI e Big Data. Avaliação enviada com sucesso 5) 6) Refere-se à utilização de banco de dados com características multidimensionais, permitindo a navegação com níveis de detalhamento em tempo real, a partir da combinação das dimensões do cubo, proporcionando análises sofisticadas com ótimo desempenho. Refere-se à abordagem de uso combinado de banco de dados relacional com banco de dados orientado a objetos, onde as estruturas relacionais são utilizadas para os dados com maior granularidade e as estruturas orientadas a objetos são utilizadas para dados com menor granularidade. Refere-se à descrição de padrões e tendências que são reveladas por subconjuntos de dados compactados de diferentes bases de dados, a partir de um subconjunto de dados com características idênticas, demostrando as relações funcionais entre as variáveis definidas. Refere-se às atividades que analisam grande volume de dados, descobrem problemas e oportunidades ocultas em seus relacionamentos, formam modelos computacionais com base nessas descobertas e, então, utilizam esses modelos para prever o comportamento do negócio. CORRETO Refere-se a um pequeno subconjunto de um Data Warehouse, sobre um único assunto, que fornece suporte às decisões para um grupo de pessoas, podendo ser criado a partir de dados extraídos de um DW maior, com o objetivo específico de dar suporte a acessos mais rápido para determinado grupo ou função. Código da questão: 42609 A abordagem analítica requer uma arquitetura de dados especializada, complemente a sentença a seguir. As necessidades analíticas sobre os dados provocaram mudanças na arquitetura da base de dados. Os _____________________ são os dados brutos. Os dados resumidos, agregados, sumarizados ou calculados são os dados ____________. Assinale a alternativa que completa adequadamente as lacunas acima: Alternativas: Segmentados; Transacionais Segmentados; Matemáticos. Dados das operações; Segmentados. Dados das operações; Amostrados. Dados das operações; Derivados. CORRETO Código da questão: 42576 Considerando a temporalidade, conforme referido no material didático, a informação é a combinação de dados e o tratamento inserido nela. Esse tratamento é uma sentença associada, gerando um conceito, um conhecimento, uma afirmação sobre os dados armazenados. Cada sentença permite a criação das bases de informação para realizar as análises. Considerando uma empresa de atacado, em que um DW possibilita a realização de análises, aponte a alternativa que exemplifica pelo menos três tipos de análises geradas. Alternativas: Segmentação de clientes, indicadores da campanha de marketing, performance das vendas. CORRETO Vendas dos produtos, quantidades do estoque, segmentação de clientes. Listagem de matéria-prima, relação de clientes, endereço dos clientes. Contratos de qualquer natureza, contas a pagar, performance de vendas. Indicadores climáticos, contratos de qualquer natureza, vendas de produtos. Resolução comentada: Segundo Rob e Coronel (2011, p. 580), a mineração de dados refere-se às atividades que analisam os dados, descobrem problemas e oportunidades ocultas em seus relacionamentos, formam modelos computacionais com base nessas descobertas e, então, utilizam esses modelos para prever o comportamento do negócio – exigindo a mínima intervenção do usuário final. Resolução comentada: Inmon (1997) destaca a mudança na abordagem em relação aos dados brutos, que no início dos registros de dados não havia a experiência que pudesse prever arranjos diferentes para suportar análises. O objetivo de arquiteturas básicas para banco de dados eram armazenar os registros, sem a robustez necessária para suportar necessidades futuras. As necessidades analíticas sobre os dados provocaram mudanças na arquitetura, surgindo demandas provenientes de dados derivados. Os dados do dia a dia, das operações, in natura, são os dados brutos. Os dados resumidos, agregados, sumarizados ou calculados são os dados derivados. Avaliação enviada com sucesso 7) 8) Código da questão: 42575 As fontes de dados são armazenadas segundo um modelo de banco de dados, em geral organizados de acordo com uma estrutura lógica. Essas fontes de dados, além de serem mantidas em repositórios organizados, também incluem características determinantes quanto ao armazenamento e acesso. Aponte a alternativa que estabelece essas características. Alternativas: As características associadas às fontes de dados são somente os relacionamentos entre os dados. Somente as restrições são associadas às fontes de dados. As características associadas às fontes de dados são os relacionamentos, os índices de armazenamento e as tabelas dos repositórios. As características associadas às fontes de dados são os relacionamentos, os tipos e as restrições desses dados. CORRETO As fontes de dados podem ser armazenadas e acessadas sem a necessidade de caracterização quanto ao tipo de dados. Código da questão: 42570 Em um processo de tomada de decisões, a disponibilidade e o fácil acesso às informações organizacionais contribuem para uma decisão de sucesso. Assim, a extração eficaz de informações de um ambiente de Data Warehouse (DW) para gerar conhecimento é proporcionada por ferramentas que disponibilizam recursos avançados para suportar operações sobre o conjunto de dados multidimensional. Pela maior popularidade do uso das ferramentas de acesso a um DW, destaca-se as ferramentas __________________________. Assinale a alternativa correta que indica o termo que preenche a lacuna acima: Alternativas: Online Transaction Processing (OLTP). Online Analytical Processing (OLAP). CORRETO Staging Area. Business Inteligence (BI). Operational Data Store (ODS). Código da questão: 42605 Resolução comentada: na alternativa a), a viabilização de um DW pode-se encontrar o detalhamento de um repositório ou armazém de dados deve possuir um DW em que se realizem análises como os exemplos a seguir: Segmentação de clientes. Indicadores da campanha de marketing. Performance das vendas. Análise da fidelização dos clientes. Mensuração do atendimento ao cliente. Status da lucratividade. Comportamento das oscilações dos negócios. Resolução comentada: Toda fonte de dados que será armazenada e acessada em um banco de dados deve manter a integridade do conteúdo. A exemplo, como um dado de número de RG, deve estar relacionado à pessoa a qual pertence esse documento, o dado precisa ter consistência quanto ao tipo, se numérico ou texto, para viabilizar cálculos ou buscas, e as restrições, dado em determinado campo não pode ser nulo. Resolução comentada: Machado (2013) descreve que as ferramentas OLAP surgiram com os sistemas de apoio à decisão para fazerem a consulta e análise dos dados dos DW, sendo às aplicações às quais os usuários têm acesso para extrair os dados de suas bases e construir os relatórios com recursos que atendem os gestores. Avaliação enviada com sucesso 9) 10) Na concepção de Poe, Klauer, Brobst (1998), o Esquema Estrela possui uma estrutura simples com poucas tabelas e associações bem definidas, aproximando do contexto do modelo de negócio e facilitando a geração de consultas complexas de forma intuitiva e interativa, por meio dos vários parâmetros de consultas. Neste esquema, o assunto principal fica ao centro do esquema, representada pela tabela de Fatos, e suas características, as dimensões, representadas por tabelas de Dimensões, ficam posicionadas ao seu redor, permitindo a leitura e compreensão até mesmo de usuários finais que não estão adaptados com estruturas de banco de dados. (POE V.; KLAUER P.; BROBST S. Building a data warehouse for decision support. New Jersey: Prentice Hall PTR, 1998). Sobre as principaisvantagens do Esquema Estrela, julgue os itens a seguir, indicando “V” para o item verdadeiro e “F” para o item falso: 1. ( ) A estrutura padronizada e regular do esquema é bastante simples, faciliatando a apresentação, o desempenho das consultas geradas e a compreensão até mesmo de usuários finais que não estão adaptados com estruturas de banco de dados. 2. ( ) As consultas ocorrem inicialmente nas tabelas de Dimensões e depois nas tabelas de Fatos, assegurando a consistência dos dados por meio de uma estrutura de chaves que garante o acesso aos dados com melhor desempenho. 3. ( ) A aplicação da técnica de normalização nas tabelas de Dimensões aumenta o número de dimensões, consequentemente diminuindo a performance das consultas dinâmicas. 4. ( ) A facilidade e a flexibilidade da inclusão de novos elementos de dados, a partir do relacionamento da tabela de Fatos com uma nova tabela de Dimensão, bem como o acréscimo de novas colunas às mesmas tabelas de Dimensões. 5. O suporte para transformar e proceder à carga dos dados, para recuperar, analisar e extrair os dados dos sistemas transacionais. Assinale a alternativa correta: Alternativas: F – V – F – V – F. V – V – F – V – F. CORRETO V – V – V – V – V. F – F – V – F – V. F – F – F – F – F. Código da questão: 42602 Em um banco de dados relacional, a granularidade é baixa, mas é muito importante, o que significa que ela é inversamente proporcional ao detalhe do dado armazenado lá. Para se obter granularidade alta, a importância do detalhe não pode ser considerada. Marque a alternativa que relaciona a granularidade em diferentes níveis e a disponibilidade de detalhamento dos dados. Alternativas: Tabela Fato. Sumarização. CORRETO Dimensão. Relacionamento. Entidade. Código da questão: 42585 Resolução comentada: o item 3 é falso, porque é o Esquema Floco de Neve que separa as hierarquias das dimensões em tabelas diferentes, especificando variantes da dimensão principal. Considera-se que a aplicação da técnica de normalização nas tabelas de Dimensões aumenta consideravelmente o número de dimensões e, consequentemente, diminuindo a performance das consultas dinâmicas. O item 5 é falso, porque o processo de transformar e proceder à carga dos dados, para recuperar, analisar e extrair os dados dos sistemas transacionais refere-se a uma etapa do processo de criação de um Data Warehouse, conhecido como ETL. Resolução comentada: um DW tem níveis de granularidade elevados por conta da necessidade de sumarizações para refletir a realidade dos dados do negócio. As sumarizações são necessárias, pois refletem medidas resumidas ou condessadas, com alguma transformação dos dados originais. Sem essa técnica, seria impraticável obter respostas que refletem o comportamento de um conjunto de dados. Sumarizações podem ser somas, médias, medianas, quartis, etc. Arquivos e Links Avaliação enviada com sucesso