Prévia do material em texto
Anotação gênica Você vai compreender como os dados biológicos são gerados, processados e acessados em bancos confiáveis, conhecimento indispensável para interpretar informações científicas. Profa. Melise Chaves Silveira 1. Itens iniciais Propósito O estudo das ciências ômicas oferece uma visão atualizada e abrangente, conectando os avanços em biologia molecular e genômica às práticas de pesquisa. Conhecer os processos pelos quais os dados biológicos passam e onde é possível acessá-los é essencial para a ampla compreensão das informações biológicas e para a consulta de fontes confiáveis de pesquisa. Além disso, a partir do estudo das ciências micas, você estará se atualizando em relação aos avanços científicos nesta área. Objetivos Reconhecer bancos de dados biológicos para anotação genômica. Reconhecer os conceitos e aplicações das ciências ômicas. Introdução No desenvolvimento de artigos científicos ou durante seus estudos, você frequentemente encontrará informações biológicas detalhadas, como as sequências de aminoácidos ― cadeias que formam as proteínas―, funcionando de maneira semelhante a um alfabeto químico, em que cada aminoácido é como uma letra, cuja sequência determina a função da proteína no organismo. Além disso, é possível lidar com as estruturas tridimensionais das proteínas, ou seja, às formas que essas moléculas assumem quando se dobram de maneira específica. Essas formas são importantes porque determinam como a proteína interage com outras moléculas, funcionando como uma chave que encaixa em uma fechadura. Outro exemplo são os esquemas de vias metabólicas, os quais podem ser entendidos como mapas que mostram como as células realizam reações químicas essenciais para o funcionamento do corpo, como transformar açúcar em energia. Para acessar e trabalhar com essas informações, foram criados os bancos de dados biológicos, que funcionam como bibliotecas digitais, armazenando informações confiáveis sobre genes, proteínas, reações químicas e doenças. Eles possibilitam aos pesquisadores comparar dados, fazer novas descobertas e desenvolver soluções como medicamentos ou tratamentos. Um dos processos que fazem uso desses bancos de dados é a anotação genômica, que consiste em identificar e explicar as sequências do DNA, ajudando a localizar genes, entender suas funções e como eles se conectam. Esse processo é imprescindível para transformar informações genéticas brutas em conhecimento prático. Com os avanços tecnológicos, a ciência biológica tem evoluído rapidamente, gerando grandes volumes de dados em alta velocidade. Tecnologias como o sequenciamento de DNA permitem, por exemplo, que o genoma completo de uma bactéria seja analisado em poucos dias e compartilhado em bancos de dados públicos. Esses avanços aprimoram os diagnósticos e tratamentos personalizados e ainda contribuem para melhorar a qualidade de vida, possibilitando previsões mais precisas sobre doenças genéticas. Assim, este conteúdo visa apresentar como acessar e interpretar essas informações em bancos de dados e explorar as tendências mais modernas que estão transformando áreas como a medicina, o diagnóstico e a biotecnologia. • • 1. Banco de dados e anotação genômica Banco de dados Neste vídeo, vamos abordar a importância dos bancos de dados na bioinformática, explicando como armazenam e organizam dados biológicos. Veja exemplos práticos de organização tabular, as inovações de Margaret Dayhoff e os impactos dessa tecnologia na ciência atual. Assista! Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Vivemos em uma sociedade que produz uma quantidade gigantesca de dados. O número dos seus documentos, suas fotos em redes sociais, seus e-mails, as palavras que você procura em aplicativos de busca e as músicas que você escuta são exemplos de dados. Profissionais conhecidos como cientistas de dados são especializados em “cuidar” desses registros, desde o armazenamento, passando pela obtenção de informação, pelo conhecimento, pela visualização, até o descarte. Provavelmente você já utilizou algum aplicativo de streaming ― tecnologia de transmissão de dados pela internet, principalmente áudio e vídeo, sem a necessidade de baixar o conteúdo para seu computador ou celular. Esses aplicativos armazenam e reproduzem dados, além de utilizarem das análises realizadas pelos cientistas de dados para, por exemplo, sugerir a você um filme que provavelmente irá agradá-lo ou indicar qual estilo de música que você mais escutou em um respectivo ano. Dados são fatos coletados que podem ser armazenados. A informação é o dado que estava armazenado e foi recuperado de acordo com algum interesse. Por fim, o conhecimento é gerado quando a informação é interpretada, quando novas conexões são feitas a partir de uma informação que já existia. Exemplo Imagine uma sequência de aminoácidos de uma nova proteína e você quer descobrir a estrutura tridimensional (3D) que ela irá assumir. Uma solução é encontrar uma proteína com a estrutura 3D já descrita que seja bem parecida com a minha nova proteína. A estrutura dessa proteína “antiga” é um dado que estava armazenado. A partir do meu interesse eu recuperei esse dado específico, e agora ele passa a ser a informação na qual irei me embasar para desvendar a estrutura da nova proteína, gerando conhecimento, algo novo. Em bioinformática, os principais tipos de dados produzidos são: Sequências de nucleotídeos e aminoácidos. Coordenadas de estrutura de proteínas. • • Anotações sobre a função biológica de moléculas. Uma vez que os dados são produzidos, eles precisam ser armazenados para serem revisitados quando necessários. Logo, bancos de dados são arquivos de computador que armazenam e organizam dados para que possam ser recuperados facilmente de acordo com diferentes critérios de busca. Exemplo Vamos pensar em um banco de dados de sequências nucleotídicas. Cada sequência nesse banco possui informações vinculadas, como sua descrição, um número de identificação próprio, o organismo do qual o DNA foi extraído, o tamanho da sequência em pares de bases, a ordem das bases nitrogenadas, dentre outras. Para gerar um banco de dados com todos esses registros são usados programas de computador. Uma maneira comum de organizar os dados de DNA é usando tabelas em arquivos de computador, como em uma planilha. Cada tabela guarda informações diferentes sobre as sequências, mas elas estão conectadas entre si. Exemplo Uma tabela pode ter o número de identificação (ID) e a descrição de cada sequência. Outra tabela pode ter o mesmo número de identificação (ID) com o organismo de onde veio a sequência. As tabelas funcionam como partes de um quebra-cabeça. O número de identificação é a peça que conecta as tabelas, permitindo relacionar informações. Em cada tabela, as informações ficam em campos específicos, como colunas, e têm uma posição ou índice, que ajuda o programa a localizar os dados rapidamente. Assim, tudo fica organizado e fácil de acessar. Os programas de computador, portanto, podem lidar com os dados de forma rápida e eficiente. Por meio deles você consegue, em segundos, acessar e visualizar todas as informações sobre determinada sequência que estão armazenadas em diferentes tabelas. Pode ser usado como critério de busca qualquer um dos campos relacionados a essa sequência, como seu número de identificação. Veja o exemplo a seguir. Exemplo da organização de um banco de dados de forma tabular. • Os dados pertencentes a um banco de dados podem ser organizados em tabelas que se conectam umas às outras. Cada tabela representa um grupo de informações relacionadas, e elas estão ligadas por IDs, que funcionam como chaves para conectar os dados. Veja o que cada tabela representa a seguir. Livro Armazena informações sobre os livros, como título, preço, categoria e editora responsável (identificada pelo ID_Editora). Editora Contém detalhes sobre as editoras, como nome, razão social, endereço e telefone. Está conectada à tabelapara entendermos o estado da célula. Transcriptoma e proteoma não são redundantes, mas oferecem tipos diferentes de informações. Os RNAs podem ser editados por splicing alternativo e, por modificações pós-transcricionais, as proteínas também podem sofrer modificações logo após serem traduzidas, além da possibilidade de interagirem com outras proteínas. Só com o RNA não é possível prever as proteínas que serão produzidas pela célula. Portanto, é preciso detectar diretamente o proteoma. Um estudo do conjunto de proteínas presentes no sangue de pacientes com covid-19 verificou que a proteína OAS1 está presente em grandes quantidades em pacientes com a forma mais branda da doença. Os pesquisadores do Canadá que desenvolveram essa pesquisa e a publicaram em 2021 sugerem que essa proteína tenha um efeito protetor contra a doença. Estudo da covid-19. A partir dos resultados dessa análise proteômica, os cientistas propõem que drogas que impulsionem a produção de OAS1 devem ser testadas como tratamento da covid-19. Já existem moléculas em fase de testes clínicos que aumentam os níveis de uma proteína bem parecida, a OAS151. Essas moléculas poderiam ser otimizadas, por exemplo. Atenção A vacinação é muitíssimo importante como medida preventiva, mas a busca por formas de tratamento de pacientes já doentes também é essencial para diminuir ainda mais a mortalidade dessa doença pelo mundo. Estudos proteômicos tornam possível responder perguntas sobre “como, onde, quando e por que” proteínas são produzidas. São análises amplas, envolvendo a identificação e quantificação das proteínas, a sua localização celular e a determinação de modificações, interações e funções. Considerando o caso apresentado, explique como a proteômica pode contribuir para a melhoria de tratamentos médicos, exemplificando sua aplicação no estudo da covid-19. Em sua resposta, discuta o impacto da análise de proteínas em estudos clínicos e tratamentos futuros. Chave de resposta A proteômica analisa diretamente as proteínas produzidas pelas células, permitindo compreender suas funções, localizações e interações. No contexto da covid-19, estudos proteômicos identificaram a proteína OAS1 como um possível fator protetor, presente em maior quantidade em pacientes com formas leves da doença. Essa descoberta abriu caminho para o desenvolvimento de tratamentos baseados no aumento da produção de OAS1 com drogas que já estão em fase de testes clínicos. Assim, a proteômica ajuda a responder questões críticas sobre como e por que determinadas proteínas são produzidas, impactando diretamente o desenvolvimento de tratamentos personalizados e as estratégias clínicas mais eficazes. Caso 4 A metabolômica, área ômica que estuda todo conjunto de metabólitos produzidos pelas células, permitiu constatar que exercícios físicos aeróbicos podem prevenir o aparecimento da doença de Alzheimer em adultos de meia-idade. Pesquisadores dos EUA, em trabalho publicado em 2021, usaram amostras de sangue de adultos sem sintomas de Alzheimer, mas com risco familiar e genético. Os voluntários realizaram 26 semanas de exercício supervisionado, divididos em dois grupos: atividade física usual e atividade física intensificada. Comparando as amostras de sangue antes e ao final do período de atividades, os níveis do biomarcador de memória catepsina mioquina B (CTSB) aumentaram no grupo de voluntários sob atividade intensa. Além disso, analisando a função cognitiva desses voluntários, o aumento de CTSB estava associado ao aumento dessa habilidade. Outro resultado importante foi que o exercício físico alterou positivamente metabólitos lipídicos associados a doença de Alzheimer, o que pode oferecer um efeito protetor aos neurônios. Esse estudo mostra como a metabolômica pode auxiliar na identificação de moléculas que ajudem a acompanhar o estado de saúde dos indivíduos. Essa área ômica é uma ferramenta fundamental no diagnóstico, prognóstico e tratamento de doenças e na compreensão de outras condições específicas do organismo. Agora responda como a metabolômica pode contribuir para a compreensão e a prevenção de doenças neurodegenerativas, como o Alzheimer? Relacione essa ciência à pesquisa sobre exercícios físicos e biomarcadores apresentada no caso. Chave de resposta A metabolômica permite estudar os metabólitos produzidos pelas células e entender como eles influenciam funções biológicas. No caso apresentado, a análise metabolômica identificou o aumento do biomarcador CTSB em voluntários que realizaram exercícios físicos intensificados, associando esse aumento a melhorias na memória e na função cognitiva. Isso demonstra como a metabolômica ajuda a revelar biomoléculas relacionadas à saúde cerebral, possibilitando a criação de estratégias preventivas, como a recomendação de exercícios físicos. Essa ciência, portanto, é essencial para identificar biomarcadores que possam prever ou prevenir doenças neurodegenerativas, oferecendo bases para intervenções personalizadas e estratégias de saúde pública. Neste vídeo, vamos abordar como proteômica e metabolômica oferecem avanços na saúde. Veja o papel da proteína OAS1 na proteção contra covid-19 e como exercícios físicos intensos podem prevenir Alzheimer, com base em análises de metabólitos e biomarcadores. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Fala, mestre! No vídeo, Alice Ornelas explica a atividade prática 2 da disciplina de bioinformática, focada na anotação gênica de sequências biológicas e no uso do BLAST. A primeira prática envolveu o desenho de primers e alinhamento global de sequências do novo coronavírus. Na segunda atividade, o objetivo é utilizar softwares para predição gênica e busca de sequências similares em bancos de dados biológicos. As ferramentas empregadas são Dinmark S e BLAST do NCBI para predizer genes e determinar a função das proteínas codificadas. A metodologia inclui acessar o banco de dados GenBank, baixar a sequência genômica do SARS- CoV-2 de um paciente australiano, realizar a predição gênica no Dinmark S, copiar as sequências de proteínas preditas e usá-las no BLAST para encontrar proteínas similares. A atividade visa diferenciar a predição gênica da anotação funcional, útil no estudo de novos vírus, vacinas e alvos terapêuticos. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Atividade 4 Com base nos casos apresentados, como as ciências ômicas, como a proteômica e a metabolômica, contribuem para avanços na saúde humana? A Apenas identificam proteínas e metabólitos em diferentes organismos. B Fornecem dados que podem guiar intervenções personalizadas e preventivas. C Limitam-se ao estudo de modificações genéticas em células específicas. D Avaliam a eficácia de vacinas como principal abordagem de prevenção. E Focam exclusivamente diagnósticos baseados na sequência de DNA. A alternativa B está correta. As ciências ômicas, como a proteômica e a metabolômica, são fundamentais em fornecer dados que podem orientar intervenções personalizadas e medidas preventivas. No Caso 3, a análise proteômica identificou a proteína OAS1 como potencialmente protetora contra a covid-19, indicando possibilidades de novos tratamentos. No Caso 4, a metabolômica demonstrou como exercícios físicos intensos podem prevenir o Alzheimer, associando o aumento do biomarcador CTSB à melhora cognitiva. As demais alternativas não são adequadas: A reduz o papel das ciências ômicas à identificação, desconsiderando aplicações práticas; C limita sua atuação a modificações genéticas, sem abordar proteínas e metabólitos; D foca exclusivamente a vacinação, ignorando outras intervenções; e, E trata apenas da análise de DNA, que é específica da genômica e não inclui o alcance mais amplo da proteômica e da metabolômica. 3. Conclusão Considerações finais O que você aprendeu neste conteúdo? Importância das ciências ômicas: são essenciais no entendimento de processos biológicos complexos, investigando genomas, transcriptomas, proteomas e metabolomas deforma integrada e abrangente. Avanço na medicina personalizada: análises genômicas, como no caso dos gêmeos Noah e Alexis, destacam a relevância dessas técnicas para diagnósticos precisos e tratamentos personalizados em doenças genéticas. Prevenção e diagnóstico precoce: a transcriptômica mostrou-se promissora na identificação de moléculas reguladoras de metástase, como Myc, ajudando a prevenir o avanço do câncer antes que ele se estabeleça. Desenvolvimento de tratamentos inovadores: estudos proteômicos, como o caso da proteína OAS1 em pacientes com covid-19, abrem caminho para o desenvolvimento de novos medicamentos que potencializam mecanismos protetores naturais. Promoção da saúde preventiva: a metabolômica destacou o impacto positivo de exercícios físicos no aumento de biomarcadores associados à memória, sugerindo estratégias preventivas contra Alzheimer. Integração dos dados biológicos: bancos de dados, como GenBank e PDB, são indispensáveis para a organização e a análise das informações biológicas, conectando dados de diferentes fontes para gerar conhecimento aplicado. Relevância da curadoria humana: a curadoria manual de bancos de dados, como o Swiss-Prot, assegura a qualidade das informações, reduzindo erros automáticos e aumentando a confiabilidade dos dados para aplicações científicas. Impacto na pesquisa científica: ferramentas como KEGG e UniProtKB possibilitam análises detalhadas de vias metabólicas, proteínas e genes, oferecendo suporte a descobertas científicas e aplicações terapêuticas. Acessibilidade global aos dados: o acesso livre a bancos de dados primários e secundários permite a disseminação de informações biológicas de forma democrática, promovendo colaborações científicas internacionais. Perspectivas futuras: o avanço contínuo das ciências ômicas promete revolucionar áreas como farmacogenômica, toxicogenômica e saúde preventiva, trazendo benefícios tangíveis à sociedade por meio de diagnósticos precoces e tratamentos personalizados. Podcast Ouça agora um bate-papo trazendo exemplos reais de novas áreas ômicas e suas contribuições. Conteúdo interativo Acesse a versão digital para ouvir o áudio. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Explore + Saiba mais sobre busca em bancos de dados assistindo ao vídeo Aula 4 - Coletando biodados públicos, no canal DataSciBR, YouTube. Convidamos você a fazer um teste usando seu computador ou smartphone e ver quanta coisa é possível saber sobre uma proteína acessando o UniProtKB. Além disso, não deixe de visitar os outros bancos de dados que abordamos ao longo do conteúdo. Referências BARDIN, L. Análise de conteúdo. Lisboa: Edições 70, 2010. BRASIL. Banco Nacional de Perfis Genéticos atinge a marca de 100 mil perfis cadastrados. 2021. Consultado na internet em: 27 ago. 2021. CANUTO, G. et al. Metabolômica: definições, estado-da-arte e aplicações representativas. Química Nova, v. 41, n. 1, 2018. DAYHOFF, M. O. et al. Atlas of protein sequence and structure. Washington D.C.:The National Biomedical Research Foundation, 1972. GAITÁN J.M. et al. Effects of Aerobic Exercise Training on Systemic Biomarkers and Cognition in Late Middle- Aged Adults at Risk for Alzheimer’s Disease. Front Endocrinol (Lausanne), 2021. GENBANK. GenBank Overview: what is genbank? Genbank, 2021. HAYDEN, E. C. Genome study solves twins' mystery condition. Nature, 15 jul. 2011. McNEILL L. How Margaret Dayhoff Brought Modern Computing to Biology. Smithsonian magazine, 2019. MOUNT, D. W. Bioinformatics: sequence and genome analysis. Huntington: Cold Spring Harbor Laboratory Press, 2004. SHANI, O. et al. Evolution of fibroblasts in the lung metastatic microenvironment is driven by stage-specific transcriptional plasticity. eLife, v. 25, 2021. SIRUI, Z. et al. A Neanderthal OAS1 isoform protects individuals of European ancestry against COVID-19 susceptibility and severity. Nature Medicine, v. 27, p. 659-667, 2021. SILVA, S. A.; NOTARI, D. L.; DALL’ALBA, G. Bioinformática: contexto computacional e aplicações. Caxias do Sul: Educs, 2020. XIONG J. Essential Bioinformatics. 1. ed. Cambridge: Cambridge University Press, 2006. Anotação gênica 1. Itens iniciais Propósito Objetivos Introdução 1. Banco de dados e anotação genômica Banco de dados Conteúdo interativo Exemplo Exemplo Exemplo Livro Editora Cliente Venda Pedido Conteúdo interativo Atividade 1 Classificação dos bancos de dados Conteúdo interativo Acesso Acesso restrito Acesso livre Conteúdo Bancos primários Bancos secundários Bancos de dados especializados Qualidade Bancos primários (não curado) Bancos secundários e especializados (curado) Atenção Primários Secundários Específicos Não curados Curados Conteúdo interativo Atividade 2 Bancos de dados primários Conteúdo interativo Atenção Exemplo Exemplo Formato EMBL Formato FASTA Formato GenBank Atenção Atividade 3 Bancos de dados secundários Conteúdo interativo UniProtKB TrEMBL Swiss-Prot KEGG Vias metabólicas Genes ortólogos Identificação de enzimas (EC numbers) Outras informações Conteúdo interativo Atividade 4 Anotação genômica Conteúdo interativo Predição gênica Anotação funcional Predição gênica Procariotos Eucariotos Organização gênica de procariotos Organização gênica de eucariotos Anotação funcional Atenção Predição gênica Anotação funcional Conteúdo interativo Atividade 5 2. Conceitos e aplicações das ciências ômicas Introdução às ciências ômicas Conteúdo interativo Genômica Transcriptômica Proteômica Metabolômica Principais conceitos das ciências ômicas Genômica Transcriptômica Proteômica Metabolômica Farmacogenômica Lipidômica Toxicogenômica Atividade 1 Técnicas utilizadas Conteúdo interativo Exemplo Potencial isoelétrico Massa molecular Atenção Resumindo Genômica Transcriptômica Proteômica Metabolômica Atividade 2 Aplicações das ciências ômicas Caso 1 Caso 2 Conteúdo interativo Atividade 3 Mais aplicações das ciências ômicas Caso 3 Atenção Caso 4 Conteúdo interativo Fala, mestre! Conteúdo interativo Atividade 4 3. Conclusão Considerações finais O que você aprendeu neste conteúdo? Podcast Conteúdo interativo Explore + Referênciasde Livro pelo campo ID_Editora. Cliente Guarda informações dos clientes, como nome, RG, CPF e endereço. Venda Registra informações de vendas, como ID do pedido, ID do cliente, data da venda, descontos aplicados e valor bruto. Pedido Lista os pedidos realizados, vinculando o ID do livro e a quantidade comprada (Qtd_Pedido). As conexões entre essas tabelas funcionam assim: Um livro está associado a uma editora. Um pedido inclui um ou mais livros. Um cliente realiza uma ou mais vendas. As vendas conectam os pedidos e os clientes. O nome disso é banco de dados relacional, porque os dados em diferentes tabelas estão relacionados por chaves, como ID_Livro, ID_Editora, ID_Pedido, e assim por diante. O primeiro banco de dados biológico foi criado por Margaret Dayhoff e por seus colaboradores. Ela é considerada uma das criadoras da bioinformática. Dayhoff foi PhD em química quântica pela Universidade de Columbia, nos EUA, onde surgiu um dos primeiros laboratórios de computação do país. Combinando seus conhecimentos em química com as ferramentas computacionais disponíveis, ela liderou um projeto no qual usava programas de computador para comparar sequências parciais de peptídeos e, assim, tentar montar proteínas completas. Após publicar as sequências de algumas proteínas e as suas relações, Margaret quis reunir todas as sequências disponíveis a fim de que os pesquisadores pudessem ter acesso a esses dados mais facilmente. • • • • Ela começou a vasculhar registros em papel e a conferir as sequências que outros colegas já haviam descrito, contando com a ajuda de um computador para realizar essas verificações. Após reunir a sequência de 65 proteínas em um computador, Dayhoff publicou a versão impressa desses dados no Atlas of Protein Sequence and Structure (Atlas de sequência e estrutura de proteínas), em 1965, como observado a seguir. Essa iniciativa deu início a uma revolução científica, que impulsionou a criação dos bancos de dados biológicos Protein Data Bank e GenBank em 1971 e em 1982, respectivamente, muito utilizados até os dias atuais e sobre os quais falaremos com detalhes mais adiante. Registro da sequência de aminoácidos da proteína citocromo c, feita por Margaret Dayhoff em seu Atlas. Assista ao vídeo e conheça mais sobre os bancos de dados. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Atividade 1 Os bancos de dados biológicos são ferramentas essenciais na bioinformática, permitindo o armazenamento e a recuperação de informações para o estudo de moléculas biológicas e suas funções. Qual das seguintes alternativas descreve corretamente o papel de um banco de dados na bioinformática? A Organizar e conectar informações biológicas para facilitar análises e descobertas científicas. B Substituir completamente a pesquisa experimental em laboratório por estudos teóricos. C Automatizar todas as etapas do processo científico, eliminando o papel do pesquisador. D Limitar a busca de dados a critérios predeterminados, sem opções de personalização. E Reunir apenas dados genéticos, excluindo informações sobre proteínas e moléculas. A alternativa A está correta. O papel fundamental de um banco de dados na bioinformática é organizar e conectar informações biológicas para facilitar a análise, a interpretação e a descoberta científica. Ele permite que os pesquisadores armazenem dados, como sequências nucleotídicas ou estruturas de proteínas, e os recuperem de forma rápida e eficiente, baseando-se em diferentes critérios de busca, como números de identificação ou organismos de origem. As outras alternativas apresentam funções limitadas ou incorretas, como exclusão de dados de proteínas ou substituição total da pesquisa experimental. Classificação dos bancos de dados Entenda, neste vídeo, a classificação dos bancos de dados biológicos com base em acesso, conteúdo e qualidade. Será destacado o papel da curadoria humana e computacional, a relevância desses bancos para a ciência e exemplos como GenBank e bancos genéticos. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Atualmente, existem muitos bancos de dados biológicos disponíveis e podemos diferenciá-los usando critérios como: disponibilidade de acesso, conteúdo armazenado e qualidade dos dados. Vamos falar sobre cada um deles? Acesso O acesso a um banco de dados on-line é a permissão de uso ou distribuição dos dados oferecida a qualquer pessoa com internet. Quanto a essa caraterística, os bancos podem ser classificados como: Acesso restrito Bancos de dados de acesso restrito limitam a capacidade do usuário de utilizar seus dados. Essas restrições podem ocorrer por diferentes motivos. Dentre eles estão a natureza da instituição responsável pelo banco (pública/privada) e a confidencialidade dos dados. O Banco Nacional de Perfis Genéticos, criado em 2013 e coordenado pelo Ministério da Justiça e Segurança Pública do Brasil, é um exemplo de banco de dados com acesso restrito. É uma importante ferramenta que auxilia em investigações criminais, pois contém sequências de DNA relacionadas ao cometimento de crimes violentos e de abuso sexual, coletadas diretamente de condenados ou a partir de vestígios recuperados dos locais dos crimes. Em virtude de sua confidencialidade, apenas pessoas autorizadas podem ter acesso aos dados disponíveis nesse banco. Acesso livre Um dos princípios fundamentais da ciência é que os cientistas devem mostrar em detalhes os resultados de suas pesquisas e como chegaram a eles. Essa premissa de compartilhar informações permite o avanço mais rápido da ciência. Quanto mais dados disponíveis, maior será a chance de novas descobertas serem feitas. Considerando isso, os bancos mais relevantes para nós e que serão exemplificados ao longo deste estudo serão os bancos de dados biológicos de acesso livre, que não impõe restrições quanto ao uso e à distribuição dos dados armazenados. O GenBank é como uma biblioteca digital de DNA mantida pelo NIH, equivalente ao Ministério da Saúde no Brasil. Ele permite que qualquer pessoa com acesso à internet visualize informações sobre sequências de DNA e use ferramentas, como o BLAST, para analisá-las. Por exemplo, você pode comparar a sequência de DNA que está estudando com outras já conhecidas para encontrar semelhanças. Além disso, é possível baixar essas informações para usá-las em suas pesquisas. É uma ferramenta aberta e essencial para a comunidade científica. Conteúdo Considerando o conteúdo armazenado, os bancos de dados biológicos podem ser classificados em: Bancos primários Guardam dados brutos, que foram produzidos diretamente por experimentos em laboratório, na bancada. Esses dados são depositados diretamente pelos cientistas, e são fruto do sequenciamento de DNA ou de experimentos para identificar a estrutura 3D de moléculas biológicas. Bancos secundários Contêm dados originados de algum tipo de processamento de dados brutos. Esse processo pode ter sido feito por programas de computador ou por profissionais especializados. Programas de computador podem ser usados, por exemplo, para traduzir sequências de nucleotídeos em sequências de aminoácidos, além de sugerir uma função para proteínas. Em outros casos, cientistas podem revisar manualmente dados brutos, e indicar aqueles mais confiáveis. Bancos que armazenam os dados produzidos por esses dois exemplos ― programas de computador ou profissionais especializados ― são considerados secundários. Bancos de dados especializados São aqueles focados em um determinado interesse de pesquisa. Imagine que um banco só armazene dados biológicos relacionados ao vírus HIV. Pesquisadores que trabalham no desenvolvimento de vacinas, na busca por tratamentos, no entendimento da relação do vírus com o sistema imune, dentre outros muitos temas que envolvem o HIV, podem acessar esse banco para obter informações e gerar conhecimento. Qualidade A qualidade dos dados biológicos varia entre os diferentes bancos. Podem ser classificados como: Bancos primários(não curado) São considerados não curados, pois contêm dados brutos, não passaram por uma inspeção de especialistas na área capazes de realizar a curadoria dos dados. “Pela etimologia, o termo curadoria, a partir de sua origem no latim curare, significa cuidar, zelar, tratar” (Bardin, 2010, p. 138). Bancos secundários e especializados (curado) São considerados curados, pois contêm dados que passaram por algum processo de curadoria, o que agregou valor ao conteúdo disponibilizado. Alguns exemplos de “valores” agregados a dados primários pela curadoria incluem: Descrição da função biológica, como o papel de uma determinada proteína na célula. Localização do dado em relação a um processo mais complexo, por exemplo, dizendo em qual via metabólica uma determinada enzima participa. Exclusão de dados redundantes, aqueles que trazem exatamente o mesmo tipo de informação. Integração entre diferentes tipos de dados, disponibilizando sequência de nucleotídeos e de aminoácidos correspondentes, por exemplo. Adição de informações obtidas a partir dos artigos em que os dados foram publicados e descritos. A curadoria dos dados biológicos pode ser feita apenas por meio de computador ou de interferência humana. Existem programas de computador capazes de identificar o início e o fim de um gene dentro de uma longa sequência de nucleotídeos. Outros comparam a sequência do gene recém-encontrado com outras já conhecidas e sugerem uma função. Porém, quando acontecem situações inesperadas para as quais o computador não foi treinado para lidar e identificar, a curadoria feita por máquinas gera erros. A curadoria computacional ainda não substitui aquela feita por profissionais especialistas. A mente humana é a única capaz de ler artigos e de extrair os conhecimentos necessários; de inspecionar e corrigir erros e inconsistências gerados automaticamente pelas ferramentas computacionais; de interagir com pesquisadores e de ajudar no momento da submissão de dados ao banco, dentre muitas outras capacidades. Atenção A qualidade dos dados em bancos de dados varia bastante, e a escolha do banco certo depende do que você precisa. Se estiver criando um método ou testando uma ideia, é melhor usar poucos dados, mas que sejam confiáveis e bem verificados. Em contrapartida, se estiver procurando informações raras ou quiser ter uma visão geral sobre um tema, pode usar bancos maiores, que tenham sido organizados de forma mais simples. Tudo depende do objetivo da pesquisa! Portanto, os bancos de dados biológicos são ferramentas que armazenam e organizam informações sobre DNA, proteínas e outros dados biológicos, sendo importantes para a pesquisa científica. Eles podem ser de acesso restrito, como o Banco Nacional de Perfis Genéticos, usado em investigações criminais, ou de acesso livre, como o GenBank, disponível para todos os cientistas. • • • • • Lembrando que existem três tipos principais de bancos. Confira! Primários Guardam dados brutos diretamente de experimentos (ex.: sequenciamento de DNA). Secundários Contêm dados processados ou revisados (ex.: funções de proteínas). Específicos Focam temas específicos, como HIV. A qualidade dos dados também varia. Veja! Não curados Dados brutos, sem revisão. Curados Dados revisados por humanos ou computadores, que incluem descrições mais completas, exclusão de redundâncias e integração com outras informações. A curadoria humana é essencial para garantir a confiabilidade dos dados, já que os computadores podem cometer erros em situações inesperadas. Você pode encontrar diferentes classificações dos bancos de dados biológicos em outras referências bibliográficas, mas de forma geral elas vão sempre abordar os critérios que acabamos de ver: acesso, conteúdo e qualidade dos dados. A seguir, discutiremos exemplos, a fim de que os conceitos apresentados até aqui façam mais sentido para você. Agora, assista ao vídeo e conheça as formas de classificação dos bancos de dados biológicos: acesso, conteúdo e qualidade. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Atividade 2 Bancos de dados biológicos são ferramentas essenciais para a pesquisa científica, e suas características podem variar dependendo de critérios como acesso, conteúdo e qualidade dos dados. Qual é a principal vantagem de bancos de dados biológicos curados em relação aos não curados? A Limitam o acesso aos dados, garantindo maior segurança. B Contêm exclusivamente dados relacionados a sequências de nucleotídeos. C Dependem apenas de curadoria computacional, eliminando interferências humanas. D Possuem dados revisados e integrados, facilitando análises mais confiáveis. E Focam temas específicos, como doenças raras ou vírus. A alternativa D está correta. A principal vantagem de bancos de dados curados é que seus dados passaram por processos de revisão, seja por profissionais especializados ou por ferramentas computacionais, agregando valor como exclusão de redundâncias, integração entre diferentes tipos de dados e descrições detalhadas. Isso garante maior confiabilidade e eficiência nas análises científicas, algo que os bancos não curados, com dados brutos, não oferecem. As outras alternativas não refletem as principais diferenças entre os bancos curados e os não curados. Bancos de dados primários Veja, neste vídeo, os principais bancos de dados biológicos primários e como armazenam sequências de nucleotídeos e estruturas 3D de moléculas. Conheça os formatos FASTA e PDB, métodos de busca, e a importância de estruturas 3D para entender interações e funções biológicas. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Podemos dividir o conteúdo dos bancos biológicos brutos em dois tipos principais: Sequências de nucleotídeos Estruturas tridimensionais Todos os exemplos de bancos dos quais falaremos agora passaram por uma curadoria mínima, feita apenas por programas de computador de forma automatizada. Em todos eles o acesso aos dados é completamente livre, o usuário pode ler as informações, baixar para seu próprio computador e analisá-la da melhor forma para atender ao seu interesse específico. • • Atenção É importante lembrar que esses bancos são “alimentados” por pesquisadores do mundo todo. Os bancos em si não se responsabilizam por avaliar situações de patentes, direitos autorais ou outros direitos de propriedade intelectual dos dados que foram enviados. Portanto, no portal dos bancos você não vai encontrar comentários ou permissão irrestrita com relação ao uso, à cópia ou à distribuição das informações que eles contêm. Chegou a hora de dar nome aos bancos! Os principais bancos de sequências de nucleotídeos com o perfil apresentado nessa seção são os bancos de sequência mantidos pelo: National Center for Biotechnology Information (NCBI) European Nucleotide Archive (ENA) e European Molecular Biology Laboratory (EMBL) DNA Data Bank of Japan (DDBJ) Os bancos de dados biológicos trabalham juntos, mesmo sendo administrados por organizações diferentes, e formam uma parceria chamada Colaboração Internacional de Bancos de Dados de Sequências de Nucleotídeos (INSDC). Isso significa que, ao buscar uma sequência em qualquer um desses bancos, você terá acesso às mesmas informações, já que eles compartilham os dados entre si. É como se fossem bibliotecas conectadas, nas quais você encontra o mesmo livro, independentemente de qual delas visite. Para fazer sua pesquisa, basta acessar um site de busca, como o Google, e digitar a sigla do banco de dados (GenBank, NCBI, ENA, EMBL ou DDBJ). Um dos primeiros resultados já é o hiperlink que o direcionará para o portal do banco. Uma das formas de encontrar a sequência de nucleotídeos que você deseja é por meio do emprego de palavras-chave que estariam presentes na descrição da sequência. Você pode precisar acessar esses bancos de dados, por exemplo, durante uma pesquisa para um trabalho acadêmico ou um projeto de iniciação científica. Exemplo Suponha que você estejaestudando uma proteína específica ligada a uma doença, como a proteína spike do vírus SARS-CoV-2. Você pode acessar o GenBank ou outro banco semelhante, digitar palavras- chave como SARS-CoV-2 spike protein gene, e encontrar as sequências de nucleotídeos relacionadas. Esses dados podem ser usados para análises como comparação de sequências ou planejamento de experimentos no laboratório. O GenBank é como uma grande biblioteca digital para a qual cientistas do mundo todo enviam sequências de DNA. Essas sequências passam por uma análise automatizada e ganham um número único de identificação. Para buscar uma sequência, você só precisa acessar o site do GenBank, digitar palavras ou termos • • • relacionados ao que está pesquisando (como o nome de um gene ou organismo), e clicar em Search (Procurar). Os resultados aparecerão na tela com as informações que você precisa! Os bancos de dados que fazem parte do INSDC usam formatos específicos para organizar e registrar as sequências de DNA. O formato FASTA é o mais comum e está sempre disponível, sendo como uma linguagem universal para armazenar sequências de nucleotídeos. Além disso, cada banco pode ter o próprio formato exclusivo. Por exemplo, o formato GenBank é usado pelo banco NCBI, e o formato EMBL é exclusivo do banco EMBL. Esses formatos definem como os dados serão exibidos e organizados, mas todos contêm as informações essenciais sobre as sequências. Isso ajuda a adaptar os dados às necessidades do usuário ou do programa que irá analisá-los. Exemplo Pense nos bancos de dados do INSDC como lojas de livros que vendem o mesmo conteúdo. O formato FASTA é como a embalagem padrão, tipo uma caixa simples que todas as lojas usam para facilitar o transporte. Já os formatos exclusivos, como o GenBank ou o EMBL, são como embalagens personalizadas de cada loja: uma pode usar uma caixa colorida, outra pode usar uma bolsa com o logo da loja. Apesar das diferenças na aparência, o que importa é que o “livro” dentro da embalagem (as informações sobre a sequência de DNA) é o mesmo. Isso ajuda a atender às diferentes preferências ou necessidades, mas o conteúdo essencial sempre está lá! Veja exemplo dos formatos a seguir. Formato EMBL Formato FASTA Formato GenBank Vamos falar agora sobre dados brutos da estrutura tridimensional (3D) de moléculas biológicas. A estrutura 3D é o formato que uma molécula assume, depois que seus átomos estão interagindo entre si, de acordo com propriedades físicas e químicas. Esse tipo de dado primário é obtido a partir de técnicas como cristalografia de raio-X, espectroscopia por RMN (ressonância magnética nuclear) e microscopia eletrônica 3D. Podem passar por esse processo, principalmente, moléculas de proteínas, além de DNA e RNA. Estrutura 3D da proteína hemoglobina. Atenção O Protein Data Bank (PDB) é como o “Google das estruturas 3D de moléculas biológicas”. Ele reúne informações sobre proteínas, DNA e RNA, mas é mais especializado em proteínas, que dominam o banco de dados. Em agosto de 2021, por exemplo, havia mais de 158 mil proteínas cadastradas, enquanto estruturas de DNA e RNA eram bem menos comuns, com pouco mais de 2 mil e 1,5 mil registros, respectivamente. Esse banco é gerenciado por uma organização chamada RCSB (Pesquisa Colaborativa para Bioinformática), que assegura a centralização e a acessibilidade das informações à comunidade científica. Conhecer a estrutura 3D de uma molécula biológica é importante para entender com o que ela pode interagir e sua possível localização na célula. Essas características permitem compreender a sua função biológica. A proteína hemoglobina, por exemplo, presente nas hemácias e responsável pelo transporte de oxigênio pelo corpo, regula a ligação e liberação dessa molécula de acordo com mudanças na sua estrutura. As informações estruturais também são muito úteis nas pesquisas sobre a evolução. Você pode estudar duas proteínas que possuem uma história evolutiva em comum e não conseguir detectar esse “parentesco” pela comparação das sequências primárias de aminoácidos. No entanto, a estrutura ainda irá preservar semelhanças que comprovam a proximidade entre elas. Para acessar os dados da estrutura 3D de moléculas biológicas, basta usar um portal de busca, como o Google, e digitar “PDB RCSB”. Um dos primeiros hiperlinks o levará para o portal do banco de dados. Na página inicial, você encontrará uma barra na parte superior, como mostrado na imagem a seguir, a qual você deverá preencher usando algum termo de pesquisa relacionado ao seu interesse. Uma opção é usar o nome da proteína, preferencialmente o termo em inglês. Página inicial do PDB. Por exemplo, você pode digitar collagen (colágeno) e em seguida clicar no símbolo da lupa. A página que se abre contém hiperlinks que vão levar para a página de diferentes estruturas dessa proteína. Para cada estrutura, você tem acesso a informações como: hiperlink para o artigo no qual foi publicada e detalhes sobre a metodologia usada para obter a estrutura, entre outras. O principal dado é o arquivo com a localização de cada átomo relativo aos demais na molécula: na parte superior existe a opção Download Files (Baixar Arquivos), ao clicar nela você deve escolher o formato PDB (PDB Format), como mostra a imagem a seguir. Informações sobre a estrutura de um registro da proteína colágeno. O nome do formato desse arquivo (PDB) é o mesmo nome do banco de dados. Dentre outras informações, nele encontramos: O nome da proteína. O nome do autor que realizou a submissão. Os detalhes do experimento. A estrutura secundária. Os cofatores. As coordenadas dos átomos. • • • • • • Coordenadas atômicas são como um mapa 3D que mostra onde cada átomo de uma molécula está localizado no espaço. Em um arquivo no formato PDB, essas coordenadas são listadas em números que indicam as posições exatas de cada átomo em três dimensões (X, Y e Z). Esses números ajudam a construir uma imagem 3D da molécula, mostrando como os átomos estão conectados para formar proteínas, DNA ou outras moléculas. Com essas coordenadas, cientistas podem visualizar e analisar as estruturas das moléculas usando softwares específicos, como se estivessem olhando para uma peça em um modelo tridimensional. Veja, a seguir, um exemplo de arquivo em formato PDB das coordenadas atômicas. Coordenadas atômicas de um arquivo no formato PDB. Atividade 3 Bancos de dados biológicos são usados para armazenar informações como sequências de nucleotídeos e estruturas tridimensionais, com formatos específicos que facilitam o acesso e a análise dos dados. Qual é a principal vantagem de acessar bancos de dados como o PDB para estudar moléculas biológicas? A Ter acesso a dados sobre a sequência genética de todas as espécies conhecidas. B Poder explorar a estrutura 3D para compreender interações e funções biológicas. C Ter a garantia da comparação automática de sequências de proteínas e DNA em tempo real. D Ter acesso limitado às informações para proteger direitos de propriedade intelectual. E Ter acesso apenas a dados processados e curados por profissionais humanos. A alternativa B está correta. A principal vantagem de acessar bancos de dados como o PDB é a possibilidade de explorar a estrutura tridimensional de moléculas biológicas, o que ajuda a entender com quais outras moléculas elas interagem, sua função biológica, e até sua localização na célula. Essas informações são fundamentais em estudos sobre evolução molecular e no desenvolvimento de medicamentos. As outras alternativas não refletem corretamente a principal utilidade do PDB. Bancos de dados secundários Neste vídeo, você conhecerá os principais bancos de dados secundários: o UniProtKB, destacando TrEMBL e Swiss-Prot, e o KEGG, com suas vias metabólicas, genes ortólogos e identificação de enzimas. Serão explicadas suas funcionalidades além de como acessar e interpretar informações para pesquisas científicas. Conteúdo interativo Acesse a versão digital para assistirao vídeo. Quando começamos a falar sobre bancos de dados, diferenciamos dados, informação e conhecimento. A função dos bancos secundários é justamente agregar informação aos dados presentes nos bancos primários e assim gerar conhecimentos biológicos mais aprofundados. A diferença entre os bancos secundários é o quanto os dados foram processados por programas de computadores e se houve presença do olhar clínico de um especialista validando essas informações. As organizações que mantêm esses bancos podem restringir algum tipo de informação processada, exigindo o pagamento de uma licença para o acesso integral aos dados, por exemplo. Vamos estudar agora dois desses bancos. UniProtKB O UniProtKB é como um guia completo de proteínas, no qual cientistas podem encontrar informações sobre as sequências de aminoácidos e as funções dessas moléculas na célula. Ele é dividido em duas partes: TrEMBL Dados gerados automaticamente por programas de computador, sem revisão humana. Aqui, as proteínas são traduzidas a partir de sequências de DNA e têm sua provável função sugerida. Swiss-Prot Dados revisados por especialistas, combinando informações obtidas de experimentos e da literatura científica, garantindo maior confiabilidade. Para usá-lo, basta buscar UniProtKB no Google e acessar o site. Você pode procurar proteínas digitando termos na barra de busca ou usar a ferramenta BLAST para comparar sequências e encontrar proteínas semelhantes no banco de dados. É uma ferramenta essencial para explorar informações sobre proteínas e suas funções. Página inicial do UniProt. Caso você tenha optado pela busca textual e digitado, por exemplo, “collagen”, o resultado será uma tabela com várias proteínas colágeno depositadas nesse banco, cada uma recebendo um código de identificação próprio (Entry). As informações sobre proteínas armazenadas no Swiss-Prot são mais confiáveis, visto que esse banco é revisado manualmente, mas se a busca for feita em todo o UniProtKB, aparecerá resultados tanto do Swiss- Prot quanto do TrEMBL. Resultado da busca por no UniProtKB. Ao clicar em um desses códigos de identificação, será aberta uma página com muitas informações sobre aquela proteína, como: Função. Nomenclatura usada. Localização na célula. Associação com doenças. Modificações pós-traducionais pelas quais a proteína possa passar. Hiperlinks para estruturas 3D associadas. KEGG • • • • • • O KEGG é como um grande mapa interativo que ajuda os cientistas a entenderem como diferentes peças do corpo, como genes, proteínas e moléculas, trabalham juntas. Ele é mais conhecido por mostrar vias metabólicas, que são como rotas que explicam os processos químicos que acontecem dentro das células. Página inicial do KEGG. Confira o que você pode explorar no KEGG. Acompanhe! Vias metabólicas São como um diagrama que mostra o passo a passo de como o corpo usa ou transforma moléculas, como a galactose (um tipo de açúcar). Genes ortólogos São genes parecidos que fazem o mesmo trabalho em espécies diferentes, como se fossem primos que herdaram a mesma função. Identificação de enzimas (EC numbers) São números que funcionam como um RG das enzimas, mostrando as reações químicas que elas realizam. Outras informações São dados sobre doenças, medicamentos e pequenas moléculas usadas no corpo. O KEGG também tem ferramentas como o KEGG Mapper, que ajuda você a ver onde uma proteína específica está em uma via metabólica. Por exemplo, se você pesquisar lactase, verá informações sobre onde essa proteína está, como funciona e como se conecta com outras moléculas. Para acessar, é simples: busque KEGG no Google, entre no site, digite o que você quer estudar, e explore todas as informações de maneira clara e organizada. Veja, neste vídeo, os principais bancos de dados primários e secundários, suas funções e utilizações. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Atividade 4 Bancos de dados secundários processam informações a partir de dados brutos de bancos primários, acrescentando conhecimento e aprofundando a compreensão biológica, com variações no nível de validação por especialistas. Assim, qual é a principal vantagem dos bancos de dados secundários para a pesquisa científica? A Substituem completamente os bancos primários no armazenamento de dados. B Garantem acesso gratuito a todas as informações sem restrições. C Eliminaram a necessidade do trabalho manual de especialistas. D Contêm exclusivamente dados genéticos de organismos específicos. E Integram e validam informações, permitindo análises biológicas mais detalhadas. A alternativa E está correta. A principal vantagem dos bancos de dados secundários é que eles processam os dados brutos dos bancos primários, adicionando informações validadas e organizadas, muitas vezes com o auxílio de especialistas. Isso permite análises biológicas mais detalhadas e a geração de novos conhecimentos. As outras alternativas apresentam limitações ou não refletem o papel principal desses bancos. Anotação genômica Neste vídeo, vamos mostrar as etapas de anotação genômica, utilizando bancos secundários na etapa de anotação funcional. Assista! Conteúdo interativo Acesse a versão digital para assistir ao vídeo. A anotação de genomas identifica regiões funcionais ou de relevância biológica, agregando informações ao DNA sequenciado. Esse processo é realizado depois que a ordem dos nucleotídeos a partir do sequenciamento total do DNA de um organismo já foi determinada. As características biológicas que podem ser identificadas em um genoma pelo processo de anotação são principalmente genes, mas também é possível encontrar as regiões regulatórias, a origem de replicação do DNA, os promotores, dentre outras estruturas. Imagine a anotação do genoma como a leitura de um texto em um idioma que você não conhece. A cada palavra você vai precisar usar um dicionário para descobrir seu significado em português. Feito isso, é provável que você faça pequenas anotações sobre os significados em um papel durante a leitura. Da próxima vez que você ou qualquer outra pessoa utilizar esse papel para a leitura do texto, vai compreendê-lo sem precisar refazer as traduções. A anotação genômica pode ser dividida em duas etapas: Predição gênica É a etapa na qual se busca onde estão os genes ao longo da sequência do DNA total. Anotação funcional Visa descrever a função biológica da proteína codificada por aquele determinado gene. No exemplo do texto em outro idioma, você já sabia o início e o fim de cada palavra, pois existia um espaço entre elas. O genoma sequenciado é como um “texto corrido”, sem espaço entre as bases nitrogenadas. Por isso, é necessária a etapa de predição de genes, antes de entender o que eles “significam” para o organismo estudado. Predição gênica Prever um gene é encontrar as bases nitrogenadas que marcam o início e o fim dessa região do DNA. É importante recordarmos que a sequência de bases nitrogenadas de um gene guarda informações para: RNAs mensageiros RNAs transportadores RNAs ribossômicos Pequenos RNAs regulatórios Vamos entender como podemos predizer genes que determinam a sequência de aminoácidos em uma proteína (genes para RNAs mensageiros), também chamados de sequências codificadoras de proteínas (CDS, CoDing Sequence). Existem diferentes programas de computador usados para a predição de genes ao longo de uma sequência de DNA. As estratégias usadas por essas ferramentas são variadas, e iremos apresentar alguns exemplos. A forma mais intuitiva de encontrar um gene codificador de proteína é localizar os códons de início e de parada. Se você estudou a tradução de proteínas, deve ter aprendido o que é código genético: um conjunto de códons, formados por três bases nitrogenadas, que correspondem a aminoácidos específicos. Dentre esses códons existem dois tipos especiais: • • • • Tabela do código genético com as bases nitrogenadas do DNA. Os cientistas criaram ferramentas que funcionamcomo detectores de genes em sequências de DNA. Esses programas procuram segmentos que começam com o códon de início (ATG) e terminam com um dos códons de parada (TAA, TAG ou ATA). Esses segmentos, chamados de fases de leitura aberta (ORFs ― open reading frames), são regiões do DNA que provavelmente codificam proteínas. Se houver sobreposição de ORFs (quando dois possíveis genes compartilham partes da sequência), o programa escolhe sempre a mais longa, pois é mais provável que ela seja funcional. Essa estratégia ajuda a identificar genes com maior precisão. Genoma total do vírus SARS-CoV-2. As barras marrons representam os genes preditos (ORFs). O código genético é como um manual universal que funciona em todos os seres vivos. Por isso, programas que identificam genes em procariotos e eucariotos podem usar os mesmos sinais básicos: o códon de início (ATG) e os códons de parada (TAA, TAG, ATA). Mas há uma diferença importante: os sinais extras que ajudam a localizar onde os ribossomos, que produzem proteínas, conectam-se ao RNA mensageiro. Veja! Códon de início É sempre o primeiro códon a ser traduzido. Códons de parada (stop) Determinam o fim do processo de tradução. Procariotos Usam a sequência de Shine-Dalgarno ou RBS (ribosome binding site), que geralmente contém o padrão AGGAGGT no DNA. Eucariotos Usam a sequência de Kozak, que inclui o padrão CCGCCATGG no DNA. Os sinais extras ajudam os programas a identificarem genes de forma mais precisa em cada grupo de organismos. Existem várias diferenças importantes na forma como os genes estão organizados em procariotos e eucariotos. Conheça-as! Procariotos Um único RNA mensageiro (RNAm) pode conter informações para vários genes diferentes, o que é chamado de RNAm policistrônico. É como se várias instruções fossem escritas em uma única linha. Eucariotos Os genes possuem íntrons, que são pedaços de DNA que precisam ser retirados (processo chamado de splicing) antes de formar o RNA mensageiro final. Além disso, estão mais “distantes” uns dos outros no DNA, enquanto, nos procariotos, eles estão mais próximos e compactos. As diferenças entre procariotos e eucariotos afetam como os programas de predição de genes identificam e analisam o DNA nesses dois grupos. Por isso, existem programas de computador que são específicos para predição de procariotos ou de eucariotos. Nas imagens a seguir, vemos as diferenças entre a organização gênica de procariotos e eucariotos. Organização gênica de procariotos Organização gênica de eucariotos Anotação funcional É como dar um nome e uma profissão para os genes. Depois que os programas identificam os genes no DNA e as proteínas que eles podem produzir, a próxima etapa é descobrir o que essas proteínas fazem. Para isso, os cientistas comparam as sequências desses genes e proteínas com as de bancos de dados biológicos. Se encontrarem algo parecido, podem prever a função com base no que já é conhecido. É como procurar uma peça de quebra-cabeça e ver onde ela se encaixa usando um guia! Voltando para a analogia de comparar a anotação funcional à busca pelo significado de uma palavra desconhecida, você só vai realmente saber o que a palavra significa se encontrar no dicionário exatamente a mesma palavra, comparando letra por letra. A etapa de anotação funcional pode confirmar os resultados da predição gênica. Caso você encontre no banco de dados uma sequência de referência bastante similar à sua sequência de interesse, é possível descrever a função do seu gene com base na função descrita para a referência. Você se lembra dos bancos de dados secundários que discutimos agora há pouco? Eles são muito usados na etapa de anotação funcional. Os bancos de dados como o UniProtKB/Swiss-Prot e o KEGG são como enciclopédias confiáveis para estudar genes. Você pode usar as informações curadas (revisadas por especialistas) desses bancos para entender a função dos genes, como as proteínas que eles produzem, suas funções biológicas, vias metabólicas onde estão envolvidos e onde atuam na célula. Essas informações ajudam a ter uma visão geral das características químicas e funcionais de uma espécie e como elas se relacionam com suas características visíveis, como traços específicos. Suponha que você está estudando um organismo com genoma recém-sequenciado. A partir do alinhamento de sequência no UniProtKB/Swiss-Prot, a tradução de um dos seus genes é 99% idêntica à uma proteína com a função de "transferência fotossintética de elétrons C". No KEGG, é possível observar que essa função está inserida no metabolismo da fotossíntese, e assim você pode sugerir que seu organismo de interesse é autotrófico, isto é, capaz de transformar gás carbônico em glicose e oxigênio. Atenção Um critério comumente adotado para que possa ocorrer a “cópia” da função da proteína do banco de dados para a sua proteína de interesse é o valor de similaridade igual ou maior que 70%. É possível que ao realizar a busca por sequências similares você não encontre nenhum resultado aceitável segundo esse critério. Se isso acontecer, você irá anotar sua proteína como hipotética ou predita. Uma proteína hipotética é aquela cuja respectiva sequência tem todas as características de uma região codificadora, detectada na etapa de predição gênica. Porém, nenhuma referência suficientemente similar foi encontrada no banco de dados durante a anotação funcional. Nesse caso, a segunda etapa da anotação genômica não confirma o que foi encontrado na primeira. Observe o seguinte fluxo de informação. Fluxo de ideias da anotação genômica. As informações obtidas durante a anotação funcional podem ser guardadas em arquivos com formatos específicos. Um exemplo de arquivo que contém informações da anotação genômica é o GenBank (mesmo nome do banco de dados presente no NCBI), como observado na imagem a seguir. Parte de um arquivo no formato GenBank, gerado pela plataforma NCBI. No arquivo GenBank, encontramos as coordenadas de cada uma das características anotadas ao longo da sequência de DNA. Portanto, a anotação genômica é o processo de identificar e entender as partes importantes de um DNA sequenciado, como os genes e suas funções. É como traduzir um texto em um idioma desconhecido e anotar o que cada palavra significa para facilitar futuras leituras. Ela acontece em duas etapas. Veja! 1 Predição gênica Localiza onde os genes estão no DNA, identificando o início (códon ATG) e o fim (códons TAA, TAG ou ATA). Também pode prever genes que codificam proteínas, RNAs mensageiros, ribossômicos e outros. 2 Anotação funcional Descobre o que esses genes fazem, comparando suas sequências com informações de bancos de dados, como o UniProtKB/Swiss-Prot ou KEGG. Isso ajuda a entender as funções das proteínas, em quais processos metabólicos estão envolvidas e onde atuam na célula. Se o gene encontrado for muito semelhante (70% ou mais) a um gene já conhecido, sua função pode ser atribuída. Caso contrário, ele será classificado como hipotético, significando que sua existência foi detectada, mas sua função ainda não é conhecida. Os resultados são organizados em arquivos, como no formato GenBank, que registram as coordenadas e as informações de cada gene, como seu papel e localização. Esses dados são fundamentais para estudar as características biológicas e metabólicas de um organismo, por exemplo, se ele é autotrófico ou resistente a antibióticos. Assista ao vídeo e saiba mais sobre anotação gênomica. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Atividade 5 Na genômica funcional, qual é o principal objetivo da anotação de genomas na compreensão do genoma de um organismo? A Determinar a sequência total de nucleotídeos do DNA. B Identificar os genes e atribuir funções biológicas às proteínas codificadas. C Acelerar o processo de replicação do DNA. D Determinar o número total de genes em um organismo. E Analisar a estrutura tridimensional do DNA. A alternativa B está correta. O principal objetivoda anotação de genomas é identificar os genes presentes no DNA sequenciado e atribuir funções biológicas às proteínas que esses genes codificam. Esse processo é essencial para entender como o genoma de um organismo influencia suas funções biológicas e processos celulares. 2. Conceitos e aplicações das ciências ômicas Introdução às ciências ômicas Explore, neste vídeo, as ciências ômicas e seu papel na análise global de moléculas biológicas. Veja o impacto do Projeto Genoma Humano, questões sobre diversidade celular e genética, e exemplos como farmacogenômica e lipidômica, mostrando a integração dessas áreas na biologia moderna. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. As ciências ômicas são áreas da biologia que estudam grandes conjuntos de dados relacionados a moléculas dentro dos organismos, como genes, proteínas e metabólitos. Elas ajudam a entender como essas moléculas funcionam juntas para manter a vida. Pense nas ciências ômicas como mapas detalhados de diferentes partes do corpo. Veja! Genômica Estuda o DNA completo (todo o material genético de um organismo). Transcriptômica Foca os RNAs, que são as mensagens do DNA usadas para fazer proteínas. Proteômica Analisa todas as proteínas de um organismo, as quais executam funções importantes. Metabolômica Estuda os metabólitos, como açúcares e gorduras, que são produtos das reações químicas no corpo. Juntas, as ciências ômicas ajudam a entender como tudo está conectado no organismo e a encontrar soluções para problemas de saúde ou melhorar processos biológicos. A matéria-prima do trabalho da bioinformática são os dados biológicos. Em relação a esses dados, os esforços dos profissionais especializados nessa área são voltados para: organizar, armazenar, analisar, visualizar, interpretar. Um grande avanço da bioinformática aconteceu durante a execução do Projeto Genoma Humano, que durou mais de 10 anos e teve como objetivo principal determinar a ordem dos nucleotídeos de todo genoma da nossa espécie. Essa empreitada científica estimulou o aprimoramento de computadores e de programas para lidar com a grande quantidade de dados que começou a ser gerada. Ter acesso às sequências de nucleotídeos de todo o DNA de um organismo é fantástico e estudá-las trouxe respostas para questões importantes. Atualmente, conhecemos a “cartilha” que as células seguem para gerar todas as características de um indivíduo. No entanto, essa “cartilha” deixa no ar perguntas que surgiram a partir dos estudos do genoma. O que diferencia a célula da pele e o neurônio de um mesmo indivíduo se a sequência do DNA é igual? Como o homem e o chimpanzé são fenotipicamente tão distintos se 99% de seu DNA são idênticos? Por que gêmeos univitelinos, formados a partir do mesmo zigoto, manifestam características físicas diferentes? A resposta para essas perguntas está nas outras moléculas biológicas presentes na célula, como RNAs, proteínas e metabólitos. Vivemos a chamada “era pós-genômica”, com o desenvolvimento e o aperfeiçoamento de técnicas e de programas que nos permitem estudar outras ciências ômicas. Principais conceitos das ciências ômicas O termo “ômica” se refere à análise global de um determinado tipo de informação biológica. Veja a seguir alguns exemplos de ciências ômicas: Genômica A análise completa de todo o DNA de um organismo, também chamado de genoma. Essa mesma lógica segue para os demais tipos de informação, e daí surgiram termos como transcriptômica, proteômica e metabolômica. Transcriptômica Após compreender que o DNA guarda todas as informações hereditárias de um organismo, é importante lembrar que a expressão dessa informação é regulada pelas condições do meio onde a célula está inserida. O produto da expressão dos genes no DNA são os transcritos, moléculas de RNAs. A transcriptômica tem como alvo o conjunto de RNAs produzidos por uma célula sob determinadas condições. Na prática, o RNA mensageiro é o tipo de RNA mais estudado aqui. Proteômica Quando desejamos uma abordagem mais direta para compreender as funções celulares é indicado estudar o conjunto de proteínas. São elas que efetivamente “trabalham duro” na célula, realizando transporte de moléculas, catalisando reações químicas, recebendo mensagens, formando estruturas e desempenhando muitas outras funções. A proteômica é o estudo do conjunto de proteínas produzidos por uma célula em um dado momento. • • • Metabolômica Os produtos intermediários ou finais das reações químicas que acontecem em uma célula são chamados de metabólitos. Em geral, quando falamos do metaboloma, estamos nos referindo a moléculas pequenas, de baixa massa molecular, como aminoácidos, nucleotídeos, ácidos biliares, ácidos graxos e hormônios. O termo metabolômica abrange o estudo dos metabólitos de uma célula sob determinadas perturbações. Veja na imagem a seguir a relação entre as ciências. Relação entre as ciências ômicas. Novas áreas ômicas surgem a todo momento, com o aumento da especificidade dos estudos biomédicos. Já existe, por exemplo: Farmacogenômica Determina alterações genéticas responsáveis pela resposta dos pacientes a medicamentos. Lipidômica Avalia o perfil de lipídeos da célula. Toxicogenômica Estuda a resposta do organismo a determinadas substâncias. Atividade 1 As ciências ômicas investigam diferentes tipos de moléculas biológicas, como DNA, RNA, proteínas e metabólitos, utilizando abordagens que analisam esses elementos de forma global em organismos vivos. Assim, qual é o principal objetivo das ciências ômicas no contexto da biologia moderna? A Compreender como diferentes tipos de moléculas interagem em sistemas biológicos. B Determinar apenas a sequência completa do DNA de um organismo. C Desenvolver medicamentos sem estudar a relação com moléculas biológicas. D Focar exclusivamente o estudo das proteínas em células humanas. E Criar teorias sobre organismos sem o uso de dados computacionais. A alternativa A está correta. As ciências ômicas têm como objetivo principal entender de que forma diferentes moléculas biológicas, como DNA, RNA, proteínas e metabólitos, interagem e influenciam os processos biológicos nos organismos. Isso vai além do simples sequenciamento do DNA ou do estudo isolado de moléculas, promovendo uma visão integrada. As outras alternativas não refletem a abordagem ampla e integrada dessas áreas. Técnicas utilizadas Neste vídeo, vamos abordar técnicas-chave usadas em genômica, transcriptômica, proteômica e metabolômica. Saiba como essas ferramentas permitem analisar DNA, RNA, proteínas e metabólitos para entender processos biológicos complexos. Assista! Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Os dados brutos processados pelos programas de computador são obtidos a partir de técnicas experimentais. Cada área ômica foca um tipo de dado. Portanto, as técnicas usadas não serão as mesmas. Dados genômicos são obtidos a partir do sequenciamento de DNA. A primeira técnica amplamente utilizada para esse propósito foi o sequenciamento de Sanger. Essa estratégia permite que regiões do DNA, em torno de 1.000 pares de bases, sejam sequenciadas. É possível sequenciar o genoma total de um organismo a partir do sequenciamento de Sanger, porém o processo é muito trabalhoso e envolve outras técnicas, como clonagem usando plasmídeos bacterianos. Método de sequenciamento de Sanger. A genômica evoluiu muito mais rápido com o surgimento dos sequenciadores de nova geração. Esses aparelhos permitem fazer a leitura da ordem dos nucleotídeos de vários fragmentos de DNA ao mesmo tempo. No final do processo, o resultado é um arquivo com todas as leituras da sua amostra. Existem diferentes tecnologias de sequenciamento de nova geração, que buscam a precisão dos resultados e o barateamento do custo total. Exemplo Imagine uma versão gratuita e outra paga de um aplicativo que faça tradução de textos. Na versão gratuita, você só pode traduzir uma página por dia, mas na paga você podecolocar o livro inteiro de uma vez e ele vai devolver todas as páginas traduzidas em um único dia. Nessa analogia, o sequenciamento de Sanger seria a versão gratuita, e os sequenciadores de nova geração, a versão paga. Para estudar o conjunto de transcritos de uma célula podemos usar as mesmas técnicas de sequenciamento de DNA. No entanto, é necessário um passo muito importante antes de iniciar o sequenciamento: transformar as moléculas de RNA em seu DNA complementar (cDNA). Como esse procedimento de transformar as moléculas de RNA em seu DNA complementar seria realizado? Para transformar o RNA em DNA complementar (cDNA), usamos uma enzima chamada transcriptase reversa, muito famosa na biologia molecular. Ela lê a sequência do RNA e cria uma cópia em DNA, seguindo a regra de pareamento das bases nitrogenadas: se o RNA tem a sequência AUGA, o DNA complementar será TACT. Esse processo é importante porque o RNA é frágil e instável, dificultando seu estudo direto. Por isso, ele é transformado em cDNA, que é mais estável e fácil de manipular. Além disso, o cDNA é usado em técnicas como o microarranjo, que ajuda a estudar quais genes estão sendo ativados em um determinado momento. A ideia geral do microarranjo é usar uma lâmina de vidro com pequenos segmentos de DNA aderidos, chamados de sondas. Também é necessário que os cDNAs da amostra a ser estudada estejam marcados com corantes fluorescentes. O profissional que estiver “montando” a lâmina deverá saber exatamente a sequência das sondas de DNAs, que vão funcionar como um “ímã”, atraindo sequências de cDNA correspondentes. Por exemplo, se uma sonda tem a sequência TGAG, o cDNA que se ligará a ela será ACTC. No final, um aparelho detecta as posições fluorescentes da lâmina, e o profissional descobre para quais sondas os cDNA foram complementares. Veja a seguir o esquema da análise de microarranjo. Esquema da análise de microarranjo. Até aqui estávamos falando da análise de ácidos nucleicos: DNA e RNA. Para estudar o proteoma, precisamos de outra abordagem, uma vez que ácidos nucleicos são constituídos de nucleotídeos, enquanto proteínas são formadas pela união de aminoácidos. A primeira técnica que vamos comentar é a eletroforese bidimensional em gel de poliacrilamida (2D-PAGE). Nessa abordagem, as proteínas purificadas a partir de uma amostra são separadas de acordo com duas propriedades químicas: Potencial isoelétrico Massa molecular Por isso, o gel é bidimensional, pois o movimento das proteínas é estimulado em duas direções. Milhares de proteínas podem ser separadas simultaneamente por essa técnica. Isso é possível, pois ― desde que as proteínas tenham potenciais isoelétricos e/ou tamanhos diferentes ― elas estarão localizadas em posições diferentes do gel no final do experimento. A foto final do gel pode ser analisada por programas de computador capazes de detectar a “mancha” de cada proteína, quantificá-la de acordo com suas dimensões, além de comparar diferentes géis e armazená-los em bancos de dados de 2D-PAGE. Dessa forma, é possível, por exemplo, identificar alterações na produção de proteínas entre duas ou mais condições experimentais diferentes. Atenção Se nessa comparação alguma “mancha” específica chamar sua atenção, podendo ser uma proteína- chave para sua pesquisa proteômica, você pode caracterizá-la com mais detalhes. É possível cortar essa “mancha” no gel e depois digeri-la com uma enzima específica, que quebra a proteína em pedaços menores. A mistura de peptídeos (pequenas sequências de aminoácidos) pode ser analisada por espectrometria de massas (MS), como mostrado na imagem a seguir. Ela é utilizada para obter a massa molecular dos peptídeos gerados pela digestão enzimática. Esquema da espectrometria de massas. Resumindo Primeiro os fragmentos proteicos são carregados com íons positivos, e depois são “empurrados” para um tubo com campo magnético. Peptídeos menores sofrem maiores desvios se comparados aos maiores, e assim pode ser determinada a massa de cada um. Os valores obtidos podem, então, ser comparados em um banco de dados específico para essa técnica, e assim determinar qual é a sua proteína de interesse. Existem muito mais bancos de dados biológicos do que você imagina! Falando resumidamente de proteômica citamos dois tipos. A comparação do resultado final do 2D-PAGE e da MS contra registros em bancos de dados exemplifica como a bioinformática está inserida nas análises proteômicas. A diversidade química dos metabólitos é milhares de vezes maior que a de DNAs, RNAs ou proteínas. Ácidos nucleicos são formados apenas por nucleotídeos, e proteínas são sequências de aminoácidos. Quando estamos falando de metabólitos, o estudo se torna mais desafiador. A complexidade dos metabólitos produzidos por uma célula sob determinada condição é muito grande, uma vez que eles possuem uma grande diversidade química e estão em concentrações diferentes. O preparo da amostra depende do seu tipo e de que técnicas serão usadas para análise. As amostras podem ter consistência diferentes (sólida, semissólida ou líquida); é possível realizar uma análise global ou focada em um grupo específico de metabólitos (só lipídeos, por exemplo); e as técnicas utilizadas podem ser, principalmente, variações da espectrometria de massas e ressonância magnética nuclear. Análises metabolômicas geram grande quantidade e complexidade de dados. Variadas ferramentas computacionais e estatísticas são necessárias para produzir informação e conhecimento nesse campo. Nosso próximo passo agora será discutir que tipo de resultado todo esse trabalho de análises ômicas pode gerar. As ciências ômicas usam diferentes técnicas para estudar as moléculas biológicas de acordo com o foco de cada área. Confira! Genômica Estuda o DNA usando o sequenciamento de Sanger (sequencia pequenas partes, mas é lento) e os sequenciadores de nova geração (NGS), mais rápidos e analisam muitos fragmentos de uma vez. Transcriptômica Analisa o RNA transformando-o em cDNA com a enzima transcriptase reversa (porque o RNA é instável). Usa o microarranjo, uma técnica que identifica quais genes estão ativos. Proteômica Examina proteínas. Usa o 2D-PAGE, que separa proteínas por peso e carga elétrica, e a espectrometria de massas, que fragmenta proteínas e identifica quais estão presentes. Metabolômica Estuda metabólitos (pequenas moléculas). As principais técnicas são a espectrometria de massas, que mede a massa dos metabólitos, e a ressonância magnética nuclear, que analisa sua estrutura. As técnicas utilizadas nas ciências ômicas permitem estudar moléculas biológicas e entender funções celulares. Atividade 2 As técnicas experimentais usadas em ciências ômicas variam conforme o tipo de molécula biológica analisada, como DNA, RNA, proteínas ou metabólitos. Como as técnicas em ciências ômicas adaptam-se ao estudo de diferentes moléculas biológicas? A Usando apenas técnicas genéricas que se aplicam a todas as moléculas. B Aplicando técnicas específicas, mas sem variação entre os tipos de moléculas. C Focando somente as moléculas grandes, como proteínas e ácidos nucleicos. D Priorizando moléculas mais abundantes, como DNA, ignorando metabólitos. E Ajustando-se às características químicas específicas de cada molécula. A alternativa E está correta. As técnicas em ciências ômicas são adaptadas de acordo com a composição química das moléculas analisadas. Por exemplo, o DNA é estudado com sequenciamento; as proteínas, com espectrometria de massas; e, os metabólitos, com variações dessa técnica e ressonância magnética nuclear. A flexibilidade das abordagens permite a análise de cada molécula de maneira eficiente. Aplicações das ciências ômicas Agora, veja quatro exemplos reais de contribuição efetiva das ciências ômicas para melhorar sua compreensão sobre as aplicações dessas ciências. Caso 1 O primeiro deles é o caso dos gêmeos Noah e Alexis Beery. Com 13 anos de idade Alexis Beery desenvolveu um problema respiratório muito preocupante.Ela tossia tão forte que chegava a vomitar, e era necessário administrar adrenalina para que ela conseguisse continuar respirando. Quando tinham 5 anos, os gêmeos foram diagnosticados com um distúrbio genético chamado “distonia responsiva à dopamina”, que causava movimentos anormais como dificuldade de andar e tremor postural que varia durante o dia. Eles tomavam precursores de dopamina e reagiam bem ao tratamento, por isso quando Alexis manifestou os problemas respiratórios os médicos não suspeitaram que poderia ter alguma relação. O pai dos gêmeos trabalhava em uma empresa de tecnologia naquele período, por volta de 2011. Com os conhecimentos prévios que a família tinha, eles insistiram para que o genoma total dos filhos fosse sequenciado. Foi a partir dos resultados do sequenciamento total, usando um sequenciador de nova geração, que uma mutação específica no gene SPR foi identificada. Esse gene codifica a enzima sepiapterina redutase, uma enzima que participa na biossíntese de um cofator importante para atividade da enzima que sintetiza os neurotransmissores dopamina e serotonina. A mutação no gene impede a produção desses neurotransmissores e leva ao desenvolvimento da doença. Assim, como eles já tomavam o precursor da dopamina, após esse resultado os médicos administraram o precursor da serotonina. Um mês após o início do tratamento os sintomas respiratórios de Alexis desapareceram! Além da detecção de mutações associadas a doenças genéticas raras, as análises genômicas possibilitam determinar marcadores genéticos que diferenciem indivíduos ou populações, descobrir genes exclusivos de determinadas espécies, sugerir relações de ancestralidade entre genes, dentre outras importantes contribuições. Com base no caso estudado, explique como o sequenciamento genômico aplicado ao caso dos gêmeos Noah e Alexis Beery exemplifica as contribuições das ciências ômicas na medicina personalizada. Chave de resposta O sequenciamento genômico no caso de Noah e Alexis Beery destacou como as ciências ômicas podem revolucionar a medicina personalizada. Ao identificar uma mutação no gene SPR, os médicos compreenderam a relação entre a distonia responsiva à dopamina e os sintomas respiratórios de Alexis. Essa descoberta possibilitou a inclusão do precursor da serotonina no tratamento, aliviando os sintomas em um mês. Esse exemplo ilustra como o diagnóstico preciso baseado em dados genômicos permite intervenções terapêuticas específicas, impactando positivamente a qualidade de vida dos pacientes. Além disso, evidencia o potencial das análises genômicas para identificar doenças raras e sugerir tratamentos inovadores. Caso 2 As análises transcriptômicas dizem respeito ao estado da célula em um determinado momento, sob certas condições. Isso é possível devido ao fato de muitos genes terem sua expressão controlada. A célula possui mecanismos para “ligar” ou “desligar” os genes: quando estão ligados, RNAs são transcritos a partir deles, mas, quando desligados, não ocorre produção dos RNAs correspondentes. A maior parte das mortes entre pacientes que desenvolvem câncer de mama ocorre devido à metástase, sendo os pulmões um dos principais sítios desse processo. Cientes disso, pesquisadores da Universidade de Tel Aviv, em Israel, começaram a buscar por moléculas biológicas que pudessem indicar muito precocemente a metástase do câncer de mama no tecido pulmonar, para que ela pudesse ser evitada. A estratégia usada foi o estudo do transcriptoma. As células-alvo foram os fibroblastos do pulmão de camundongos, e as amostras foram divididas em grupos: Fibroblastos de camundongos saudáveis. Fibroblastos de camundongos com micrometástase (pequeno conjunto de células do tumor que se espalham pelo organismo). Fibroblastos com grandes metástases. Camundongos de laboratório. O conjunto de todo RNAm dessas células foi obtido, transformado em cDNA e em seguida sequenciado por tecnologias de nova geração. As análises comparativas do transcriptoma de cada grupo de fibroblastos identificaram Myc como um regulador central da reconfiguração de fibroblastos em situação de metástase. Descobriu-se que o aumento da transcrição desse gene está associado ao avanço da doença. Os resultados dessa pesquisa foram divulgados em 2021, e os pesquisadores esperam usar suas descobertas para auxiliar no diagnóstico do processo metastático de câncer de mama humano, antes mesmo que as células metastáticas se estabeleçam nos órgãos-alvo. Com a detecção precoce, medidas profiláticas poderiam ser tomadas a tempo de evitar a metástase. Torcemos para que essa descoberta possa em breve salvar a vida de milhares de pessoas no mundo todo, não é mesmo? Após conferir o caso, explique como o estudo do transcriptoma no caso do câncer de mama em camundongos demonstra o papel das ciências ômicas na detecção precoce e no desenvolvimento de estratégias preventivas contra a metástase. Reflita sobre como essas análises podem impactar o diagnóstico e o tratamento de doenças complexas. Chave de resposta O estudo do transcriptoma no câncer de mama exemplifica como as ciências ômicas contribuem para a detecção precoce de processos metastáticos, identificando moléculas-chave como o gene Myc, associado ao avanço da doença. Essa análise permitiu diferenciar padrões de expressão gênica em fibroblastos de camundongos com micrometástases e grandes metástases. A detecção precoce viabiliza medidas profiláticas para prevenir a disseminação do câncer. Esse caso reflete o potencial das ciências ômicas em fornecer informações precisas sobre o estado da célula, auxiliando o desenvolvimento de diagnósticos mais eficazes e intervenções personalizadas, impactando de forma significativa a qualidade de vida dos pacientes e os índices de sobrevivência. • • • Explore, neste vídeo, como a genômica e a transcriptômica transformam a saúde. Vamos analisar o caso dos gêmeos Beery que mostra como a análise genômica pode diagnosticar doenças raras e guiar tratamentos personalizados e o estudo do transcriptoma, que destaca avanços na detecção precoce de metástases no câncer de mama, mostrando o impacto no diagnóstico e prevenção. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Atividade 3 Com base nos casos apresentados, como as ciências ômicas contribuem para a identificação e o tratamento de condições de saúde em humanos? A Permitem apenas a detecção de alterações genéticas raras, sem impacto direto no tratamento. B Analisam apenas o transcriptoma para prever padrões de expressão gênica em doenças. C Identificam alterações genômicas e transcriptômicas, fornecendo dados para diagnósticos e tratamentos personalizados. D Limitam-se a estudar os genes de uma célula, sem considerar as interações entre eles. E Concentram-se exclusivamente em doenças raras, não abrangendo doenças comuns como o câncer. A alternativa C está correta. Os casos apresentados demonstram como as ciências ômicas impactam diretamente diagnósticos e tratamentos. No Caso 1, a análise genômica identificou a mutação no gene SPR, permitindo um tratamento específico que solucionou os sintomas respiratórios de Alexis. No Caso 2, o estudo do transcriptoma revelou o papel do gene Myc como marcador precoce de metástase em câncer de mama, ajudando a prevenção e o manejo da doença. As outras alternativas estão incorretas porque subestimam ou limitam o alcance das ciências ômicas. A alternativa A erra ao afirmar que as ciências ômicas não têm impacto direto no tratamento, o que foi refutado pelos exemplos. A B reduz a atuação apenas ao transcriptoma, ignorando o papel de outras áreas, como a genômica. A D incorretamente sugere que as ciências ômicas não consideram interações entre genes, o que vai contra a natureza abrangente dessas análises. Por fim, a E restringe a aplicação das ciências ômicas a doenças raras, ignorando que também contribuem em condições comuns, como o câncer. Mais aplicações das ciências ômicas Caso 3 O estudo da proteômica contribui ainda mais