Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

TEMA 1 – OUTRAS TECNOLOGIAS
Q: Quais são algumas tecnologias relevantes além do Hadoop no ecossistema Big Data?
E:
· Impala: motor SQL de baixa latência que consulta dados direto do HDFS/HBase sem transformação.
· Accumulo: baseado em BigTable, chave-valor, com segurança em nível de célula e iteradores para modificar dados.
· Redis: banco em memória, rápido, versátil, usado como cache, broker, armazenamento; suporta TTL.
· Ignite: banco em memória distribuído com suporte a SQL e ACID; atua como cache ou armazenamento.
· NiFi: sistema de fluxo de dados com interface web, baseado em grafos, altamente configurável (FlowFiles, Processors etc.).
· Ambari: interface web para monitorar e gerenciar clusters Hadoop (componentes Core, Essential e Support).
C: Além das tecnologias já abordadas, a aula apresentou ferramentas úteis como o Impala (consultas SQL rápidas), Accumulo (segurança em célula e transformação com iteradores), Redis e Ignite (armazenamento em memória), NiFi (gestão de fluxos com interface web) e Ambari (monitoramento e gerenciamento de clusters Hadoop).
TEMA 2 – DATA LAKE
Q: O que é um data lake e como ele se diferencia de data warehouses?
E:
· Armazena dados em estado natural (estruturados, semiestruturados ou não estruturados).
· Não exige transformação antes de armazenar → transformação só acontece na análise.
· Data lakes são mais flexíveis e escaláveis que warehouses/marts.
· Risco: sem governança, viram "data swamp" (pântano de dados inúteis).
· Solução: governança via metadados (técnicos, operacionais e de negócio).
C: Data lakes armazenam dados de diversas fontes em seu formato bruto, ao contrário dos warehouses que exigem estruturação. Isso os torna ideais para Big Data, mas exigem governança rigorosa para não virarem "data swamps". A chave está nos metadados, que organizam e tornam os dados pesquisáveis.
Q: Quais são os estágios de maturidade de um data lake?
E:
· Data puddle: poça isolada de dados para um time ou projeto.
· Data pond: várias puddles → estrutura desorganizada, como um warehouse mal feito.
· Data lake: estrutura central com busca e análise self-service.
· Data ocean: visão corporativa integrada de todos os dados da organização.
C: Os data lakes evoluem em maturidade desde pequenos conjuntos isolados (puddles), passando por agrupamentos desorganizados (ponds), até se tornarem plataformas corporativas com acesso self-service (lake) e totalmente integradas (data ocean).
TEMA 3 – SISTEMAS DE RECOMENDAÇÃO
Q: O que são sistemas de recomendação e qual é sua motivação principal?
E:
· Personalizam a experiência do usuário sugerindo itens prováveis de interesse.
· Fundamentados no fenômeno da cauda longa → muitos produtos têm poucas vendas.
· Online, catálogos são imensos → necessidade de filtros inteligentes.
· Utilizados em e-commerce, redes sociais, buscadores.
C: Sistemas de recomendação ajudam usuários a encontrar conteúdo relevante em grandes catálogos, usando comportamento ou características dos itens/usuários. São comuns em plataformas digitais e visam resolver o problema da sobrecarga de escolha.
Q: Quais os principais tipos de recomendadores?
E:
· Editoriais: criados manualmente, sem considerar o usuário.
· Agregações simples: baseados em métricas globais (Top 10, mais vistos etc.).
· Individualizados: personalizam recomendações com base em perfis de usuários e itens.
C: Recomendadores podem ser simples ou personalizados. Os individualizados são os mais sofisticados e úteis em Big Data, pois aprendem com perfis e interações dos usuários.
Q: Como funciona a recomendação baseada em conteúdo?
E:
· Compara características dos itens com os itens que o usuário já avaliou.
· Cria perfis de item (vetores) e de usuário (soma ponderada dos itens avaliados).
· Recomendação = similaridade entre perfis.
C: Esse tipo de recomendação sugere itens semelhantes aos que o usuário gostou, baseando-se nas características dos produtos. É independente de outros usuários, mas sofre com falta de diversidade e dificuldade de identificar boas características.
Q: O que é filtragem colaborativa e como ela funciona?
E:
· Compara usuários com perfis de avaliação semelhantes (ou itens semelhantes).
· Previsão de avaliação = média ponderada de avaliações dos mais parecidos.
· Métrica comum: correlação de Pearson (normaliza avaliações).
C: A filtragem colaborativa usa o comportamento de usuários parecidos para prever preferências. Pode ser baseada em usuário-usuário ou item-item. É eficaz mesmo sem conhecer os itens, mas sofre com dados escassos e viés de popularidade.
Q: O que são métodos híbridos e como se combinam?
E:
· Misturam content-based e collaborative.
· Ex: usar perfis de item para novos itens na filtragem colaborativa.
· Usam modelos lineares ou demográficos para novos usuários.
C: Os métodos híbridos combinam forças das abordagens anteriores, sendo mais flexíveis e eficazes, especialmente para lidar com novos usuários e itens.
Q: Como avaliar a performance de um sistema de recomendação?
E:
· Remoção de parte dos dados → modelo prediz → comparação com valor real.
· Métrica comum: RMSE (root mean squared error).
C: A performance de um recomendador pode ser medida prevendo avaliações e comparando com valores reais, usando métricas como o RMSE, que avalia a precisão dos resultados.
TEMA 4 – COMPUTAÇÃO EM NUVEM (Cloud Computing)
Q: Por que a computação em nuvem é importante para projetos de Big Data?
E:
· Reduz custos de infraestrutura, licenciamento e manutenção.
· Permite escalabilidade e acesso sob demanda.
· Viabiliza adoção de Big Data por pequenas e médias empresas.
C: A computação em nuvem torna o uso de tecnologias de Big Data acessível a empresas menores, oferecendo elasticidade, redução de custos e ambiente para testes e experimentação de novas soluções.
Q: Quais são os modelos de serviço em cloud computing?
E:
· IaaS: infraestrutura (servidores, rede, storage).
· PaaS: plataforma para desenvolvimento de aplicações.
· SaaS: softwares prontos e acessíveis via web.
C: Os serviços de nuvem são divididos em três camadas: infraestrutura (IaaS), plataformas de desenvolvimento (PaaS) e softwares prontos (SaaS). Cada nível oferece diferentes graus de controle e responsabilidade.
Q: O que é Big Data as a Service (BDaaS) e quem são os principais fornecedores?
E:
· BDaaS pode englobar IaaS, PaaS e SaaS.
· Exemplos:
· Amazon EMR: baseado em Hadoop e Spark, usa S3 no lugar do HDFS.
· Google Cloud Dataproc: integração com BigQuery e outros serviços GCP.
· Azure HDInsight: suporte a Hadoop, Spark, containers, funções, etc.
C: BDaaS são serviços em nuvem que oferecem infraestrutura e ferramentas para Big Data. Grandes players como Amazon, Google e Microsoft oferecem plataformas robustas para armazenamento, processamento e análise.
TEMA 5 – DESIGN DE ARQUITETURA BIG DATA
Q: Quais são os principais desafios no desenvolvimento de aplicações Big Data?
E:
· Selecionar tecnologias certas.
· Integrar com sistemas legados.
· Evitar desperdícios e atender necessidades reais dos usuários.
C: O desenvolvimento de soluções de Big Data é complexo, pois exige decisões bem alinhadas com os usuários e integração com sistemas existentes. Muitos projetos falham por não escolher as tecnologias mais adequadas.
Q: O que é a abordagem Working Backwards e como ela ajuda em projetos Big Data?
E:
· Criada pela Amazon: começa com o anúncio do produto (press release).
· Envolve pensar como o usuário desde o início → define requisitos antes de projetar.
· Melhora o alinhamento entre o que é feito e o que é necessário.
C: O método Working Backwards ajuda a garantir que o projeto atenda às necessidades reais do usuário, começando pela definição clara de objetivos antes do desenvolvimento técnico.
Q: Quais são os principais requisitos que devem ser considerados em uma aplicação Big Data?
E:
· Volume de dados, experiência da equipe, formas de ingestão.
· Políticas de retenção e expurgo de dados.
· Requisitos de segurança e regulamentações.
· Tempo de resposta(latência), frequência de atualização.
· Escolha baseada no Teorema CAP: consistência, disponibilidade ou tolerância à partição.
C: Projetos de Big Data devem ser planejados considerando desde a experiência da equipe e volume de dados até a segurança, latência e requisitos legais. Tudo isso guiado pelo que o usuário realmente precisa, sem superestimar a complexidade necessária.

Mais conteúdos dessa disciplina