Logo Passei Direto
Buscar

Anotações genicas

Ferramentas de estudo

Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Anotação gênica
Você vai compreender como os dados biológicos são gerados, processados e acessados em bancos
confiáveis, conhecimento indispensável para interpretar informações científicas.
Profa. Melise Chaves Silveira
1. Itens iniciais
Propósito
O estudo das ciências ômicas oferece uma visão atualizada e abrangente, conectando os avanços em biologia
molecular e genômica às práticas de pesquisa. Conhecer os processos pelos quais os dados biológicos
passam e onde é possível acessá-los é essencial para a ampla compreensão das informações biológicas e
para a consulta de fontes confiáveis de pesquisa. Além disso, a partir do estudo das ciências micas, você
estará se atualizando em relação aos avanços científicos nesta área.
Objetivos
Reconhecer bancos de dados biológicos para anotação genômica.
 
Reconhecer os conceitos e aplicações das ciências ômicas.
Introdução
No desenvolvimento de artigos científicos ou durante seus estudos, você frequentemente encontrará
informações biológicas detalhadas, como as sequências de aminoácidos ― cadeias que formam as
proteínas―, funcionando de maneira semelhante a um alfabeto químico, em que cada aminoácido é como uma
letra, cuja sequência determina a função da proteína no organismo. 
 
Além disso, é possível lidar com as estruturas tridimensionais das proteínas, ou seja, às formas que essas
moléculas assumem quando se dobram de maneira específica. Essas formas são importantes porque
determinam como a proteína interage com outras moléculas, funcionando como uma chave que encaixa em
uma fechadura. Outro exemplo são os esquemas de vias metabólicas, os quais podem ser entendidos como
mapas que mostram como as células realizam reações químicas essenciais para o funcionamento do corpo,
como transformar açúcar em energia.
 
Para acessar e trabalhar com essas informações, foram criados os bancos de dados biológicos, que
funcionam como bibliotecas digitais, armazenando informações confiáveis sobre genes, proteínas, reações
químicas e doenças. Eles possibilitam aos pesquisadores comparar dados, fazer novas descobertas e
desenvolver soluções como medicamentos ou tratamentos. 
 
Um dos processos que fazem uso desses bancos de dados é a anotação genômica, que consiste em
identificar e explicar as sequências do DNA, ajudando a localizar genes, entender suas funções e como eles
se conectam. Esse processo é imprescindível para transformar informações genéticas brutas em
conhecimento prático.
 
Com os avanços tecnológicos, a ciência biológica tem evoluído rapidamente, gerando grandes volumes de
dados em alta velocidade. Tecnologias como o sequenciamento de DNA permitem, por exemplo, que o
genoma completo de uma bactéria seja analisado em poucos dias e compartilhado em bancos de dados
públicos. 
 
Esses avanços aprimoram os diagnósticos e tratamentos personalizados e ainda contribuem para melhorar a
qualidade de vida, possibilitando previsões mais precisas sobre doenças genéticas. Assim, este conteúdo visa
apresentar como acessar e interpretar essas informações em bancos de dados e explorar as tendências mais
modernas que estão transformando áreas como a medicina, o diagnóstico e a biotecnologia.
• 
• 
1. Banco de dados e anotação genômica 
Banco de dados
Neste vídeo, vamos abordar a importância dos bancos de dados na bioinformática, explicando como
armazenam e organizam dados biológicos. Veja exemplos práticos de organização tabular, as inovações de
Margaret Dayhoff e os impactos dessa tecnologia na ciência atual. Assista!
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Vivemos em uma sociedade que produz uma quantidade gigantesca de dados. O número dos seus
documentos, suas fotos em redes sociais, seus e-mails, as palavras que você procura em aplicativos de busca
e as músicas que você escuta são exemplos de dados. Profissionais conhecidos como cientistas de dados são
especializados em “cuidar” desses registros, desde o armazenamento, passando pela obtenção de
informação, pelo conhecimento, pela visualização, até o descarte.
Provavelmente você já utilizou
algum aplicativo de streaming
― tecnologia de transmissão
de dados pela internet,
principalmente áudio e vídeo,
sem a necessidade de baixar o
conteúdo para seu computador
ou celular.
 
Esses aplicativos armazenam e
reproduzem dados, além de utilizarem
das análises realizadas pelos cientistas
de dados para, por exemplo, sugerir a
você um filme que provavelmente irá
agradá-lo ou indicar qual estilo de
música que você mais escutou em um
respectivo ano.
Dados são fatos coletados que podem ser armazenados. A informação é o dado que estava armazenado e foi
recuperado de acordo com algum interesse. Por fim, o conhecimento é gerado quando a informação é
interpretada, quando novas conexões são feitas a partir de uma informação que já existia. 
Exemplo
Imagine uma sequência de aminoácidos de uma nova proteína e você quer descobrir a estrutura
tridimensional (3D) que ela irá assumir. Uma solução é encontrar uma proteína com a estrutura 3D já
descrita que seja bem parecida com a minha nova proteína. A estrutura dessa proteína “antiga” é um
dado que estava armazenado. A partir do meu interesse eu recuperei esse dado específico, e agora ele
passa a ser a informação na qual irei me embasar para desvendar a estrutura da nova proteína, gerando
conhecimento, algo novo. 
Em bioinformática, os principais tipos de dados produzidos são: 
Sequências de nucleotídeos e aminoácidos.
 
Coordenadas de estrutura de proteínas.
 
• 
• 
Anotações sobre a função biológica de moléculas.
Uma vez que os dados são produzidos, eles precisam ser armazenados para serem revisitados quando
necessários. Logo, bancos de dados são arquivos de computador que armazenam e organizam dados para
que possam ser recuperados facilmente de acordo com diferentes critérios de busca. 
Exemplo
Vamos pensar em um banco de dados de sequências nucleotídicas. Cada sequência nesse banco possui
informações vinculadas, como sua descrição, um número de identificação próprio, o organismo do qual o
DNA foi extraído, o tamanho da sequência em pares de bases, a ordem das bases nitrogenadas, dentre
outras. Para gerar um banco de dados com todos esses registros são usados programas de computador. 
Uma maneira comum de organizar os dados de DNA é usando tabelas em arquivos de computador, como em
uma planilha. Cada tabela guarda informações diferentes sobre as sequências, mas elas estão conectadas
entre si. 
Exemplo
Uma tabela pode ter o número de identificação (ID) e a descrição de cada sequência. Outra tabela pode
ter o mesmo número de identificação (ID) com o organismo de onde veio a sequência. 
As tabelas funcionam como partes de um quebra-cabeça. O número de identificação é a peça que conecta as
tabelas, permitindo relacionar informações. Em cada tabela, as informações ficam em campos específicos,
como colunas, e têm uma posição ou índice, que ajuda o programa a localizar os dados rapidamente. Assim,
tudo fica organizado e fácil de acessar.
Os programas de computador, portanto, podem lidar com os dados de forma rápida e eficiente. Por meio deles
você consegue, em segundos, acessar e visualizar todas as informações sobre determinada sequência que
estão armazenadas em diferentes tabelas. Pode ser usado como critério de busca qualquer um dos campos
relacionados a essa sequência, como seu número de identificação. Veja o exemplo a seguir. 
Exemplo da organização de um banco de dados de forma tabular.
• 
Os dados pertencentes a um banco de dados podem ser organizados em tabelas que se conectam umas às
outras. Cada tabela representa um grupo de informações relacionadas, e elas estão ligadas por IDs, que
funcionam como chaves para conectar os dados. Veja o que cada tabela representa a seguir.
Livro
Armazena informações sobre os livros, como título, preço, categoria e editora responsável
(identificada pelo ID_Editora).
Editora
Contém detalhes sobre as editoras, como nome, razão social, endereço e telefone. Está conectada à
tabelapara entendermos o estado da célula. Transcriptoma e proteoma
não são redundantes, mas oferecem tipos diferentes de informações. Os RNAs podem ser editados por 
splicing alternativo e, por modificações pós-transcricionais, as proteínas também podem sofrer modificações
logo após serem traduzidas, além da possibilidade de interagirem com outras proteínas. Só com o RNA não é
possível prever as proteínas que serão produzidas pela célula. Portanto, é preciso detectar diretamente o
proteoma. 
Um estudo do conjunto de proteínas presentes no sangue de pacientes
com covid-19 verificou que a proteína OAS1 está presente em grandes
quantidades em pacientes com a forma mais branda da doença. Os
pesquisadores do Canadá que desenvolveram essa pesquisa e a
publicaram em 2021 sugerem que essa proteína tenha um efeito
protetor contra a doença.
Estudo da covid-19.
A partir dos resultados dessa análise proteômica, os cientistas
propõem que drogas que impulsionem a produção de OAS1 devem ser
testadas como tratamento da covid-19. Já existem moléculas em fase
de testes clínicos que aumentam os níveis de uma proteína bem
parecida, a OAS151. Essas moléculas poderiam ser otimizadas, por
exemplo.
Atenção
A vacinação é muitíssimo importante como medida preventiva, mas a busca por formas de tratamento de
pacientes já doentes também é essencial para diminuir ainda mais a mortalidade dessa doença pelo
mundo. 
Estudos proteômicos tornam possível responder perguntas sobre “como, onde, quando e por que” proteínas
são produzidas. São análises amplas, envolvendo a identificação e quantificação das proteínas, a sua
localização celular e a determinação de modificações, interações e funções. 
Considerando o caso apresentado, explique como a proteômica pode contribuir para a melhoria de
tratamentos médicos, exemplificando sua aplicação no estudo da covid-19. Em sua resposta, discuta o
impacto da análise de proteínas em estudos clínicos e tratamentos futuros.
Chave de resposta
A proteômica analisa diretamente as proteínas produzidas pelas células, permitindo compreender suas
funções, localizações e interações. No contexto da covid-19, estudos proteômicos identificaram a proteína
OAS1 como um possível fator protetor, presente em maior quantidade em pacientes com formas leves da
doença. Essa descoberta abriu caminho para o desenvolvimento de tratamentos baseados no aumento da
produção de OAS1 com drogas que já estão em fase de testes clínicos. 
Assim, a proteômica ajuda a responder questões críticas sobre como e por que determinadas proteínas são
produzidas, impactando diretamente o desenvolvimento de tratamentos personalizados e as estratégias
clínicas mais eficazes.
Caso 4
A metabolômica, área ômica que estuda todo conjunto de metabólitos produzidos pelas células, permitiu
constatar que exercícios físicos aeróbicos podem prevenir o aparecimento da doença de Alzheimer em adultos
de meia-idade. 
Pesquisadores dos EUA, em trabalho publicado em 2021, usaram
amostras de sangue de adultos sem sintomas de Alzheimer, mas com
risco familiar e genético. Os voluntários realizaram 26 semanas de
exercício supervisionado, divididos em dois grupos: atividade física
usual e atividade física intensificada.
Comparando as amostras de sangue antes e ao final do período de
atividades, os níveis do biomarcador de memória catepsina mioquina B
(CTSB) aumentaram no grupo de voluntários sob atividade intensa.
Além disso, analisando a função cognitiva desses voluntários, o
aumento de CTSB estava associado ao aumento dessa habilidade.
Outro resultado importante foi que o exercício físico alterou positivamente metabólitos lipídicos associados a
doença de Alzheimer, o que pode oferecer um efeito protetor aos neurônios. Esse estudo mostra como a
metabolômica pode auxiliar na identificação de moléculas que ajudem a acompanhar o estado de saúde dos
indivíduos. Essa área ômica é uma ferramenta fundamental no diagnóstico, prognóstico e tratamento de
doenças e na compreensão de outras condições específicas do organismo.
Agora responda como a metabolômica pode contribuir para a compreensão e a prevenção de doenças
neurodegenerativas, como o Alzheimer? Relacione essa ciência à pesquisa sobre exercícios físicos e
biomarcadores apresentada no caso.
Chave de resposta
A metabolômica permite estudar os metabólitos produzidos pelas células e entender como eles influenciam
funções biológicas. No caso apresentado, a análise metabolômica identificou o aumento do biomarcador
CTSB em voluntários que realizaram exercícios físicos intensificados, associando esse aumento a
melhorias na memória e na função cognitiva. 
Isso demonstra como a metabolômica ajuda a revelar biomoléculas relacionadas à saúde cerebral,
possibilitando a criação de estratégias preventivas, como a recomendação de exercícios físicos. Essa
ciência, portanto, é essencial para identificar biomarcadores que possam prever ou prevenir doenças
neurodegenerativas, oferecendo bases para intervenções personalizadas e estratégias de saúde pública.
Neste vídeo, vamos abordar como proteômica e metabolômica oferecem avanços na saúde. Veja o papel da
proteína OAS1 na proteção contra covid-19 e como exercícios físicos intensos podem prevenir Alzheimer, com
base em análises de metabólitos e biomarcadores. 
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Fala, mestre!
No vídeo, Alice Ornelas explica a atividade prática 2 da disciplina de bioinformática, focada na anotação
gênica de sequências biológicas e no uso do BLAST. A primeira prática envolveu o desenho de primers e
alinhamento global de sequências do novo coronavírus. Na segunda atividade, o objetivo é utilizar softwares
para predição gênica e busca de sequências similares em bancos de dados biológicos. As ferramentas
empregadas são Dinmark S e BLAST do NCBI para predizer genes e determinar a função das proteínas
codificadas. A metodologia inclui acessar o banco de dados GenBank, baixar a sequência genômica do SARS-
CoV-2 de um paciente australiano, realizar a predição gênica no Dinmark S, copiar as sequências de proteínas
preditas e usá-las no BLAST para encontrar proteínas similares. A atividade visa diferenciar a predição gênica
da anotação funcional, útil no estudo de novos vírus, vacinas e alvos terapêuticos.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atividade 4
Com base nos casos apresentados, como as ciências ômicas, como a proteômica e a metabolômica,
contribuem para avanços na saúde humana?
A Apenas identificam proteínas e metabólitos em diferentes organismos.
B Fornecem dados que podem guiar intervenções personalizadas e preventivas.
C Limitam-se ao estudo de modificações genéticas em células específicas.
D Avaliam a eficácia de vacinas como principal abordagem de prevenção.
E Focam exclusivamente diagnósticos baseados na sequência de DNA.
A alternativa B está correta.
As ciências ômicas, como a proteômica e a metabolômica, são fundamentais em fornecer dados que
podem orientar intervenções personalizadas e medidas preventivas. No Caso 3, a análise proteômica
identificou a proteína OAS1 como potencialmente protetora contra a covid-19, indicando possibilidades de
novos tratamentos. No Caso 4, a metabolômica demonstrou como exercícios físicos intensos podem
prevenir o Alzheimer, associando o aumento do biomarcador CTSB à melhora cognitiva. 
As demais alternativas não são adequadas: A reduz o papel das ciências ômicas à identificação,
desconsiderando aplicações práticas; C limita sua atuação a modificações genéticas, sem abordar
proteínas e metabólitos; D foca exclusivamente a vacinação, ignorando outras intervenções; e, E trata
apenas da análise de DNA, que é específica da genômica e não inclui o alcance mais amplo da proteômica
e da metabolômica.
3. Conclusão
Considerações finais
O que você aprendeu neste conteúdo?
Importância das ciências ômicas: são essenciais no entendimento de processos biológicos complexos,
investigando genomas, transcriptomas, proteomas e metabolomas deforma integrada e abrangente.
 
Avanço na medicina personalizada: análises genômicas, como no caso dos gêmeos Noah e Alexis,
destacam a relevância dessas técnicas para diagnósticos precisos e tratamentos personalizados em
doenças genéticas.
 
Prevenção e diagnóstico precoce: a transcriptômica mostrou-se promissora na identificação de
moléculas reguladoras de metástase, como Myc, ajudando a prevenir o avanço do câncer antes que ele
se estabeleça.
 
Desenvolvimento de tratamentos inovadores: estudos proteômicos, como o caso da proteína OAS1 em
pacientes com covid-19, abrem caminho para o desenvolvimento de novos medicamentos que
potencializam mecanismos protetores naturais.
 
Promoção da saúde preventiva: a metabolômica destacou o impacto positivo de exercícios físicos no
aumento de biomarcadores associados à memória, sugerindo estratégias preventivas contra Alzheimer.
 
Integração dos dados biológicos: bancos de dados, como GenBank e PDB, são indispensáveis para a
organização e a análise das informações biológicas, conectando dados de diferentes fontes para gerar
conhecimento aplicado.
 
Relevância da curadoria humana: a curadoria manual de bancos de dados, como o Swiss-Prot,
assegura a qualidade das informações, reduzindo erros automáticos e aumentando a confiabilidade
dos dados para aplicações científicas.
 
Impacto na pesquisa científica: ferramentas como KEGG e UniProtKB possibilitam análises detalhadas
de vias metabólicas, proteínas e genes, oferecendo suporte a descobertas científicas e aplicações
terapêuticas.
 
Acessibilidade global aos dados: o acesso livre a bancos de dados primários e secundários permite a
disseminação de informações biológicas de forma democrática, promovendo colaborações científicas
internacionais.
 
Perspectivas futuras: o avanço contínuo das ciências ômicas promete revolucionar áreas como
farmacogenômica, toxicogenômica e saúde preventiva, trazendo benefícios tangíveis à sociedade por
meio de diagnósticos precoces e tratamentos personalizados.
Podcast
Ouça agora um bate-papo trazendo exemplos reais de novas áreas ômicas e suas contribuições.
Conteúdo interativo
Acesse a versão digital para ouvir o áudio.
1. 
2. 
3. 
4. 
5. 
6. 
7. 
8. 
9. 
10. 
Explore +
Saiba mais sobre busca em bancos de dados assistindo ao vídeo Aula 4 - Coletando biodados públicos, no
canal DataSciBR, YouTube.
 
Convidamos você a fazer um teste usando seu computador ou smartphone e ver quanta coisa é possível
saber sobre uma proteína acessando o UniProtKB. Além disso, não deixe de visitar os outros bancos de dados
que abordamos ao longo do conteúdo.
Referências
BARDIN, L. Análise de conteúdo. Lisboa: Edições 70, 2010.
 
BRASIL. Banco Nacional de Perfis Genéticos atinge a marca de 100 mil perfis cadastrados. 2021. Consultado
na internet em: 27 ago. 2021.
 
CANUTO, G. et al. Metabolômica: definições, estado-da-arte e aplicações representativas. Química Nova, v.
41, n. 1, 2018.
 
DAYHOFF, M. O. et al. Atlas of protein sequence and structure. Washington D.C.:The National Biomedical
Research Foundation, 1972.
 
GAITÁN J.M. et al. Effects of Aerobic Exercise Training on Systemic Biomarkers and Cognition in Late Middle-
Aged Adults at Risk for Alzheimer’s Disease. Front Endocrinol (Lausanne), 2021. 
 
GENBANK. GenBank Overview: what is genbank? Genbank, 2021.
 
HAYDEN, E. C. Genome study solves twins' mystery condition. Nature, 15 jul. 2011. 
 
McNEILL L. How Margaret Dayhoff Brought Modern Computing to Biology. Smithsonian magazine, 2019. 
 
MOUNT, D. W. Bioinformatics: sequence and genome analysis. Huntington: Cold Spring Harbor Laboratory
Press, 2004.
 
SHANI, O. et al. Evolution of fibroblasts in the lung metastatic microenvironment is driven by stage-specific
transcriptional plasticity. eLife, v. 25, 2021.
 
SIRUI, Z. et al. A Neanderthal OAS1 isoform protects individuals of European ancestry against COVID-19
susceptibility and severity. Nature Medicine, v. 27, p. 659-667, 2021.
 
SILVA, S. A.; NOTARI, D. L.; DALL’ALBA, G. Bioinformática: contexto computacional e aplicações. Caxias do Sul:
Educs, 2020.
 
XIONG J. Essential Bioinformatics. 1. ed. Cambridge: Cambridge University Press, 2006.
	Anotação gênica
	1. Itens iniciais
	Propósito
	Objetivos
	Introdução
	1. Banco de dados e anotação genômica
	Banco de dados
	Conteúdo interativo
	Exemplo
	Exemplo
	Exemplo
	Livro
	Editora
	Cliente
	Venda
	Pedido
	Conteúdo interativo
	Atividade 1
	Classificação dos bancos de dados
	Conteúdo interativo
	Acesso
	Acesso restrito
	Acesso livre
	Conteúdo
	Bancos primários
	Bancos secundários
	Bancos de dados especializados
	Qualidade
	Bancos primários (não curado)
	Bancos secundários e especializados (curado)
	Atenção
	Primários
	Secundários
	Específicos
	Não curados
	Curados
	Conteúdo interativo
	Atividade 2
	Bancos de dados primários
	Conteúdo interativo
	Atenção
	Exemplo
	Exemplo
	Formato EMBL
	Formato FASTA
	Formato GenBank
	Atenção
	Atividade 3
	Bancos de dados secundários
	Conteúdo interativo
	UniProtKB
	TrEMBL
	Swiss-Prot
	KEGG
	Vias metabólicas
	Genes ortólogos
	Identificação de enzimas (EC numbers)
	Outras informações
	Conteúdo interativo
	Atividade 4
	Anotação genômica
	Conteúdo interativo
	Predição gênica
	Anotação funcional
	Predição gênica
	Procariotos
	Eucariotos
	Organização gênica de procariotos
	Organização gênica de eucariotos
	Anotação funcional
	Atenção
	Predição gênica
	Anotação funcional
	Conteúdo interativo
	Atividade 5
	2. Conceitos e aplicações das ciências ômicas
	Introdução às ciências ômicas
	Conteúdo interativo
	Genômica
	Transcriptômica
	Proteômica
	Metabolômica
	Principais conceitos das ciências ômicas
	Genômica
	Transcriptômica
	Proteômica
	Metabolômica
	Farmacogenômica
	Lipidômica
	Toxicogenômica
	Atividade 1
	Técnicas utilizadas
	Conteúdo interativo
	Exemplo
	Potencial isoelétrico
	Massa molecular
	Atenção
	Resumindo
	Genômica
	Transcriptômica
	Proteômica
	Metabolômica
	Atividade 2
	Aplicações das ciências ômicas
	Caso 1
	Caso 2
	Conteúdo interativo
	Atividade 3
	Mais aplicações das ciências ômicas
	Caso 3
	Atenção
	Caso 4
	Conteúdo interativo
	Fala, mestre!
	Conteúdo interativo
	Atividade 4
	3. Conclusão
	Considerações finais
	O que você aprendeu neste conteúdo?
	Podcast
	Conteúdo interativo
	Explore +
	Referênciasde Livro pelo campo ID_Editora.
Cliente
Guarda informações dos clientes, como nome, RG, CPF e endereço.
Venda
Registra informações de vendas, como ID do pedido, ID do cliente, data da venda, descontos
aplicados e valor bruto.
Pedido
Lista os pedidos realizados, vinculando o ID do livro e a quantidade comprada (Qtd_Pedido).
As conexões entre essas tabelas funcionam assim:
Um livro está associado a uma editora.
 
Um pedido inclui um ou mais livros.
 
Um cliente realiza uma ou mais vendas.
 
As vendas conectam os pedidos e os clientes.
O nome disso é banco de dados relacional, porque os dados em diferentes tabelas estão relacionados por
chaves, como ID_Livro, ID_Editora, ID_Pedido, e assim por diante.
 
O primeiro banco de dados biológico foi criado por Margaret Dayhoff e por seus colaboradores. Ela é
considerada uma das criadoras da bioinformática. Dayhoff foi PhD em química quântica pela Universidade de
Columbia, nos EUA, onde surgiu um dos primeiros laboratórios de computação do país. Combinando seus
conhecimentos em química com as ferramentas computacionais disponíveis, ela liderou um projeto no qual
usava programas de computador para comparar sequências parciais de peptídeos e, assim, tentar montar
proteínas completas.
Após publicar as sequências de algumas proteínas e as suas relações, Margaret quis reunir todas as
sequências disponíveis a fim de que os pesquisadores pudessem ter acesso a esses dados mais facilmente.
• 
• 
• 
• 
Ela começou a vasculhar registros em papel e a conferir as sequências que outros colegas já haviam descrito,
contando com a ajuda de um computador para realizar essas verificações. 
Após reunir a sequência de 65 proteínas em um computador, Dayhoff publicou a versão impressa desses
dados no Atlas of Protein Sequence and Structure (Atlas de sequência e estrutura de proteínas), em 1965,
como observado a seguir. Essa iniciativa deu início a uma revolução científica, que impulsionou a criação dos
bancos de dados biológicos Protein Data Bank e GenBank em 1971 e em 1982, respectivamente, muito
utilizados até os dias atuais e sobre os quais falaremos com detalhes mais adiante. 
Registro da sequência de aminoácidos da proteína citocromo c, feita por Margaret
Dayhoff em seu Atlas.
Assista ao vídeo e conheça mais sobre os bancos de dados.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atividade 1
Os bancos de dados biológicos são ferramentas essenciais na bioinformática, permitindo o armazenamento e
a recuperação de informações para o estudo de moléculas biológicas e suas funções.
 
Qual das seguintes alternativas descreve corretamente o papel de um banco de dados na bioinformática?
A Organizar e conectar informações biológicas para facilitar análises e descobertas científicas.
B Substituir completamente a pesquisa experimental em laboratório por estudos teóricos.
C Automatizar todas as etapas do processo científico, eliminando o papel do pesquisador.
D Limitar a busca de dados a critérios predeterminados, sem opções de personalização.
E Reunir apenas dados genéticos, excluindo informações sobre proteínas e moléculas.
A alternativa A está correta.
O papel fundamental de um banco de dados na bioinformática é organizar e conectar informações
biológicas para facilitar a análise, a interpretação e a descoberta científica. Ele permite que os
pesquisadores armazenem dados, como sequências nucleotídicas ou estruturas de proteínas, e os
recuperem de forma rápida e eficiente, baseando-se em diferentes critérios de busca, como números de
identificação ou organismos de origem. 
As outras alternativas apresentam funções limitadas ou incorretas, como exclusão de dados de proteínas
ou substituição total da pesquisa experimental.
Classificação dos bancos de dados
Entenda, neste vídeo, a classificação dos bancos de dados biológicos com base em acesso, conteúdo e
qualidade. Será destacado o papel da curadoria humana e computacional, a relevância desses bancos para a
ciência e exemplos como GenBank e bancos genéticos.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atualmente, existem muitos bancos de dados biológicos disponíveis e podemos diferenciá-los usando critérios
como: disponibilidade de acesso, conteúdo armazenado e qualidade dos dados.
Vamos falar sobre cada um deles? 
Acesso
O acesso a um banco de dados on-line é a permissão de uso ou distribuição dos dados oferecida a qualquer
pessoa com internet. Quanto a essa caraterística, os bancos podem ser classificados como: 
Acesso restrito
Bancos de dados de acesso restrito limitam a capacidade do usuário de utilizar seus dados. Essas
restrições podem ocorrer por diferentes motivos. Dentre eles estão a natureza da instituição
responsável pelo banco (pública/privada) e a confidencialidade dos dados.
O Banco Nacional de Perfis Genéticos, criado em 2013 e coordenado pelo Ministério da Justiça e
Segurança Pública do Brasil, é um exemplo de banco de dados com acesso restrito. É uma importante
ferramenta que auxilia em investigações criminais, pois contém sequências de DNA relacionadas ao
cometimento de crimes violentos e de abuso sexual, coletadas diretamente de condenados ou a
partir de vestígios recuperados dos locais dos crimes. Em virtude de sua confidencialidade, apenas
pessoas autorizadas podem ter acesso aos dados disponíveis nesse banco.
Acesso livre
Um dos princípios fundamentais da ciência é que os cientistas devem mostrar em detalhes os
resultados de suas pesquisas e como chegaram a eles. Essa premissa de compartilhar informações
permite o avanço mais rápido da ciência. Quanto mais dados disponíveis, maior será a chance de
novas descobertas serem feitas. Considerando isso, os bancos mais relevantes para nós e que serão
exemplificados ao longo deste estudo serão os bancos de dados biológicos de acesso livre, que não
impõe restrições quanto ao uso e à distribuição dos dados armazenados.
O GenBank é como uma biblioteca digital de DNA mantida pelo NIH, equivalente ao Ministério da
Saúde no Brasil. Ele permite que qualquer pessoa com acesso à internet visualize informações sobre
sequências de DNA e use ferramentas, como o BLAST, para analisá-las. Por exemplo, você pode
comparar a sequência de DNA que está estudando com outras já conhecidas para encontrar
semelhanças. Além disso, é possível baixar essas informações para usá-las em suas pesquisas. É uma
ferramenta aberta e essencial para a comunidade científica.
Conteúdo
Considerando o conteúdo armazenado, os bancos de dados biológicos podem ser classificados em:
Bancos primários
Guardam dados brutos, que foram produzidos diretamente por experimentos em laboratório, na
bancada. Esses dados são depositados diretamente pelos cientistas, e são fruto do sequenciamento
de DNA ou de experimentos para identificar a estrutura 3D de moléculas biológicas.
Bancos secundários
Contêm dados originados de algum tipo de processamento de dados brutos. Esse processo pode ter
sido feito por programas de computador ou por profissionais especializados. Programas de
computador podem ser usados, por exemplo, para traduzir sequências de nucleotídeos em
sequências de aminoácidos, além de sugerir uma função para proteínas. Em outros casos, cientistas
podem revisar manualmente dados brutos, e indicar aqueles mais confiáveis. Bancos que armazenam
os dados produzidos por esses dois exemplos ― programas de computador ou profissionais
especializados ― são considerados secundários.
Bancos de dados especializados
São aqueles focados em um determinado interesse de pesquisa. Imagine que um banco só armazene
dados biológicos relacionados ao vírus HIV. Pesquisadores que trabalham no desenvolvimento de
vacinas, na busca por tratamentos, no entendimento da relação do vírus com o sistema imune, dentre
outros muitos temas que envolvem o HIV, podem acessar esse banco para obter informações e gerar
conhecimento.
Qualidade
A qualidade dos dados biológicos varia entre os diferentes bancos. Podem ser classificados como:
Bancos primários(não curado)
São considerados não curados, pois contêm dados brutos, não passaram por uma inspeção de
especialistas na área capazes de realizar a curadoria dos dados. “Pela etimologia, o termo curadoria,
a partir de sua origem no latim curare, significa cuidar, zelar, tratar” (Bardin, 2010, p. 138).
Bancos secundários e especializados (curado)
São considerados curados, pois contêm dados que passaram por algum processo de curadoria, o que
agregou valor ao conteúdo disponibilizado. Alguns exemplos de “valores” agregados a dados
primários pela curadoria incluem:
Descrição da função biológica, como o papel de uma determinada proteína na célula.
Localização do dado em relação a um processo mais complexo, por exemplo, dizendo em qual
via metabólica uma determinada enzima participa.
Exclusão de dados redundantes, aqueles que trazem exatamente o mesmo tipo de informação.
Integração entre diferentes tipos de dados, disponibilizando sequência de nucleotídeos e de
aminoácidos correspondentes, por exemplo.
Adição de informações obtidas a partir dos artigos em que os dados foram publicados e
descritos.
A curadoria dos dados biológicos pode ser feita apenas por meio de computador ou de interferência humana.
Existem programas de computador capazes de identificar o início e o fim de um gene dentro de uma longa
sequência de nucleotídeos. 
Outros comparam a sequência do gene recém-encontrado com outras
já conhecidas e sugerem uma função. Porém, quando acontecem
situações inesperadas para as quais o computador não foi treinado
para lidar e identificar, a curadoria feita por máquinas gera erros.
A curadoria computacional ainda não substitui aquela feita por
profissionais especialistas. A mente humana é a única capaz de ler
artigos e de extrair os conhecimentos necessários; de inspecionar e
corrigir erros e inconsistências gerados automaticamente pelas
ferramentas computacionais; de interagir com pesquisadores e de
ajudar no momento da submissão de dados ao banco, dentre muitas
outras capacidades.
Atenção
A qualidade dos dados em bancos de dados varia bastante, e a escolha do banco certo depende do que
você precisa. Se estiver criando um método ou testando uma ideia, é melhor usar poucos dados, mas
que sejam confiáveis e bem verificados. Em contrapartida, se estiver procurando informações raras ou
quiser ter uma visão geral sobre um tema, pode usar bancos maiores, que tenham sido organizados de
forma mais simples. Tudo depende do objetivo da pesquisa! 
Portanto, os bancos de dados biológicos são ferramentas que armazenam e organizam informações sobre
DNA, proteínas e outros dados biológicos, sendo importantes para a pesquisa científica. Eles podem ser de 
acesso restrito, como o Banco Nacional de Perfis Genéticos, usado em investigações criminais, ou de acesso
livre, como o GenBank, disponível para todos os cientistas.
• 
• 
• 
• 
• 
 
Lembrando que existem três tipos principais de bancos. Confira!
Primários
Guardam dados brutos diretamente de experimentos (ex.: sequenciamento de DNA).
Secundários
Contêm dados processados ou revisados (ex.: funções de proteínas).
Específicos
Focam temas específicos, como HIV.
A qualidade dos dados também varia. Veja!
Não curados
Dados brutos, sem revisão.
Curados
Dados revisados por humanos ou computadores, que incluem descrições mais completas, exclusão
de redundâncias e integração com outras informações.
A curadoria humana é essencial para garantir a confiabilidade dos dados, já que os computadores podem
cometer erros em situações inesperadas.
 
Você pode encontrar diferentes classificações dos bancos de dados biológicos em outras referências
bibliográficas, mas de forma geral elas vão sempre abordar os critérios que acabamos de ver: acesso,
conteúdo e qualidade dos dados. A seguir, discutiremos exemplos, a fim de que os conceitos apresentados
até aqui façam mais sentido para você.
 
Agora, assista ao vídeo e conheça as formas de classificação dos bancos de dados biológicos: acesso,
conteúdo e qualidade.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atividade 2
Bancos de dados biológicos são ferramentas essenciais para a pesquisa científica, e suas características
podem variar dependendo de critérios como acesso, conteúdo e qualidade dos dados.
 
Qual é a principal vantagem de bancos de dados biológicos curados em relação aos não curados?
A Limitam o acesso aos dados, garantindo maior segurança.
B Contêm exclusivamente dados relacionados a sequências de nucleotídeos.
C Dependem apenas de curadoria computacional, eliminando interferências humanas.
D Possuem dados revisados e integrados, facilitando análises mais confiáveis.
E Focam temas específicos, como doenças raras ou vírus.
A alternativa D está correta.
A principal vantagem de bancos de dados curados é que seus dados passaram por processos de revisão,
seja por profissionais especializados ou por ferramentas computacionais, agregando valor como exclusão
de redundâncias, integração entre diferentes tipos de dados e descrições detalhadas. Isso garante maior
confiabilidade e eficiência nas análises científicas, algo que os bancos não curados, com dados brutos, não
oferecem. As outras alternativas não refletem as principais diferenças entre os bancos curados e os não
curados.
Bancos de dados primários
Veja, neste vídeo, os principais bancos de dados biológicos primários e como armazenam sequências de
nucleotídeos e estruturas 3D de moléculas. Conheça os formatos FASTA e PDB, métodos de busca, e a
importância de estruturas 3D para entender interações e funções biológicas.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Podemos dividir o conteúdo dos bancos biológicos brutos em dois tipos principais: 
Sequências de nucleotídeos
 
Estruturas tridimensionais
Todos os exemplos de bancos dos quais falaremos agora passaram por uma curadoria mínima, feita apenas
por programas de computador de forma automatizada. Em todos eles o acesso aos dados é completamente
livre, o usuário pode ler as informações, baixar para seu próprio computador e analisá-la da melhor forma para
atender ao seu interesse específico. 
• 
• 
Atenção
É importante lembrar que esses bancos são “alimentados” por pesquisadores do mundo todo. Os bancos
em si não se responsabilizam por avaliar situações de patentes, direitos autorais ou outros direitos de
propriedade intelectual dos dados que foram enviados. Portanto, no portal dos bancos você não vai
encontrar comentários ou permissão irrestrita com relação ao uso, à cópia ou à distribuição das
informações que eles contêm. 
Chegou a hora de dar nome aos bancos! 
Os principais bancos de sequências de nucleotídeos com o perfil apresentado nessa seção são os bancos de
sequência mantidos pelo: 
National Center for Biotechnology Information (NCBI)
 
European Nucleotide Archive (ENA) e European Molecular Biology Laboratory (EMBL)
 
DNA Data Bank of Japan (DDBJ)
Os bancos de dados biológicos trabalham juntos, mesmo sendo administrados por organizações diferentes, e
formam uma parceria chamada Colaboração Internacional de Bancos de Dados de Sequências de
Nucleotídeos (INSDC). Isso significa que, ao buscar uma sequência em qualquer um desses bancos, você terá
acesso às mesmas informações, já que eles compartilham os dados entre si. É como se fossem bibliotecas
conectadas, nas quais você encontra o mesmo livro, independentemente de qual delas visite.
Para fazer sua pesquisa, basta acessar um site de
busca, como o Google, e digitar a sigla do banco de
dados (GenBank, NCBI, ENA, EMBL ou DDBJ). Um
dos primeiros resultados já é o hiperlink que o
direcionará para o portal do banco. Uma das
formas de encontrar a sequência de nucleotídeos
que você deseja é por meio do emprego de
palavras-chave que estariam presentes na
descrição da sequência.
 Você pode precisar
acessar esses
bancos de dados,
por exemplo,
durante uma
pesquisa para um
trabalho acadêmico
ou um projeto de
iniciação científica. 
Exemplo
Suponha que você estejaestudando uma proteína específica ligada a uma doença, como a proteína
spike do vírus SARS-CoV-2. Você pode acessar o GenBank ou outro banco semelhante, digitar palavras-
chave como SARS-CoV-2 spike protein gene, e encontrar as sequências de nucleotídeos relacionadas.
Esses dados podem ser usados para análises como comparação de sequências ou planejamento de
experimentos no laboratório. 
O GenBank é como uma grande biblioteca digital para a qual cientistas do mundo todo enviam sequências de
DNA. Essas sequências passam por uma análise automatizada e ganham um número único de identificação.
Para buscar uma sequência, você só precisa acessar o site do GenBank, digitar palavras ou termos
• 
• 
• 
relacionados ao que está pesquisando (como o nome de um gene ou organismo), e clicar em Search
(Procurar). Os resultados aparecerão na tela com as informações que você precisa!
 
Os bancos de dados que fazem parte do INSDC usam formatos específicos para organizar e registrar as
sequências de DNA. O formato FASTA é o mais comum e está sempre disponível, sendo como uma linguagem
universal para armazenar sequências de nucleotídeos. Além disso, cada banco pode ter o próprio formato
exclusivo. Por exemplo, o formato GenBank é usado pelo banco NCBI, e o formato EMBL é exclusivo do banco
EMBL. 
 
Esses formatos definem como os dados serão exibidos e organizados, mas todos contêm as informações
essenciais sobre as sequências. Isso ajuda a adaptar os dados às necessidades do usuário ou do programa
que irá analisá-los.
Exemplo
Pense nos bancos de dados do INSDC como lojas de livros que vendem o mesmo conteúdo. O formato
FASTA é como a embalagem padrão, tipo uma caixa simples que todas as lojas usam para facilitar o
transporte. Já os formatos exclusivos, como o GenBank ou o EMBL, são como embalagens
personalizadas de cada loja: uma pode usar uma caixa colorida, outra pode usar uma bolsa com o logo
da loja. Apesar das diferenças na aparência, o que importa é que o “livro” dentro da embalagem (as
informações sobre a sequência de DNA) é o mesmo. Isso ajuda a atender às diferentes preferências ou
necessidades, mas o conteúdo essencial sempre está lá! 
Veja exemplo dos formatos a seguir.
Formato EMBL
Formato FASTA
Formato GenBank
Vamos falar agora sobre dados
brutos da estrutura tridimensional
(3D) de moléculas biológicas. A
estrutura 3D é o formato que uma
molécula assume, depois que
seus átomos estão interagindo
entre si, de acordo com
propriedades físicas e químicas.
 Esse tipo de dado primário é obtido
a partir de técnicas como
cristalografia de raio-X,
espectroscopia por RMN
(ressonância magnética nuclear) e
microscopia eletrônica 3D. Podem
passar por esse processo,
principalmente, moléculas de
proteínas, além de DNA e RNA.
Estrutura 3D da proteína hemoglobina.
Atenção
O Protein Data Bank (PDB) é como o “Google das estruturas 3D de moléculas biológicas”. Ele reúne
informações sobre proteínas, DNA e RNA, mas é mais especializado em proteínas, que dominam o banco
de dados. Em agosto de 2021, por exemplo, havia mais de 158 mil proteínas cadastradas, enquanto
estruturas de DNA e RNA eram bem menos comuns, com pouco mais de 2 mil e 1,5 mil registros,
respectivamente. Esse banco é gerenciado por uma organização chamada RCSB (Pesquisa Colaborativa
para Bioinformática), que assegura a centralização e a acessibilidade das informações à comunidade
científica. 
Conhecer a estrutura 3D de uma molécula biológica é importante para entender com o que ela pode interagir
e sua possível localização na célula. Essas características permitem compreender a sua função biológica. 
A proteína hemoglobina, por exemplo, presente nas hemácias e responsável pelo transporte de oxigênio pelo
corpo, regula a ligação e liberação dessa molécula de acordo com mudanças na sua estrutura. 
As informações estruturais também são muito úteis nas pesquisas
sobre a evolução. Você pode estudar duas proteínas que possuem uma
história evolutiva em comum e não conseguir detectar esse
“parentesco” pela comparação das sequências primárias de
aminoácidos. No entanto, a estrutura ainda irá preservar semelhanças
que comprovam a proximidade entre elas.
Para acessar os dados da estrutura 3D de moléculas biológicas, basta usar um portal de busca, como o
Google, e digitar “PDB RCSB”. Um dos primeiros hiperlinks o levará para o portal do banco de dados. Na
página inicial, você encontrará uma barra na parte superior, como mostrado na imagem a seguir, a qual você
deverá preencher usando algum termo de pesquisa relacionado ao seu interesse. Uma opção é usar o nome
da proteína, preferencialmente o termo em inglês. 
Página inicial do PDB.
Por exemplo, você pode digitar collagen (colágeno) e em seguida clicar no símbolo da lupa. A página que se
abre contém hiperlinks que vão levar para a página de diferentes estruturas dessa proteína. Para cada
estrutura, você tem acesso a informações como: hiperlink para o artigo no qual foi publicada e detalhes sobre
a metodologia usada para obter a estrutura, entre outras. O principal dado é o arquivo com a localização de
cada átomo relativo aos demais na molécula: na parte superior existe a opção Download Files (Baixar
Arquivos), ao clicar nela você deve escolher o formato PDB (PDB Format), como mostra a imagem a seguir.
Informações sobre a estrutura de um registro da proteína colágeno.
O nome do formato desse arquivo (PDB) é o mesmo nome do banco de dados. Dentre outras informações,
nele encontramos: 
O nome da proteína.
 
O nome do autor que realizou a submissão.
 
Os detalhes do experimento.
 
A estrutura secundária.
 
Os cofatores.
 
As coordenadas dos átomos.
• 
• 
• 
• 
• 
• 
Coordenadas atômicas são como um mapa 3D que mostra onde cada átomo de uma molécula está localizado
no espaço. Em um arquivo no formato PDB, essas coordenadas são listadas em números que indicam as
posições exatas de cada átomo em três dimensões (X, Y e Z). Esses números ajudam a construir uma imagem
3D da molécula, mostrando como os átomos estão conectados para formar proteínas, DNA ou outras
moléculas. 
 
Com essas coordenadas, cientistas podem visualizar e analisar as estruturas das moléculas usando softwares
específicos, como se estivessem olhando para uma peça em um modelo tridimensional. Veja, a seguir, um
exemplo de arquivo em formato PDB das coordenadas atômicas.
Coordenadas atômicas de um arquivo no formato PDB.
Atividade 3
Bancos de dados biológicos são usados para armazenar informações como sequências de nucleotídeos e
estruturas tridimensionais, com formatos específicos que facilitam o acesso e a análise dos dados.
 
Qual é a principal vantagem de acessar bancos de dados como o PDB para estudar moléculas biológicas?
A Ter acesso a dados sobre a sequência genética de todas as espécies conhecidas.
B Poder explorar a estrutura 3D para compreender interações e funções biológicas.
C Ter a garantia da comparação automática de sequências de proteínas e DNA em tempo real.
D Ter acesso limitado às informações para proteger direitos de propriedade intelectual.
E Ter acesso apenas a dados processados e curados por profissionais humanos.
A alternativa B está correta.
A principal vantagem de acessar bancos de dados como o PDB é a possibilidade de explorar a estrutura
tridimensional de moléculas biológicas, o que ajuda a entender com quais outras moléculas elas interagem,
sua função biológica, e até sua localização na célula. Essas informações são fundamentais em estudos
sobre evolução molecular e no desenvolvimento de medicamentos. As outras alternativas não refletem
corretamente a principal utilidade do PDB.
Bancos de dados secundários
Neste vídeo, você conhecerá os principais bancos de dados secundários: o UniProtKB, destacando TrEMBL e
Swiss-Prot, e o KEGG, com suas vias metabólicas, genes ortólogos e identificação de enzimas. Serão
explicadas suas funcionalidades além de como acessar e interpretar informações para pesquisas científicas.
Conteúdo interativo
Acesse a versão digital para assistirao vídeo.
Quando começamos a falar sobre bancos de dados, diferenciamos dados, informação e conhecimento. A
função dos bancos secundários é justamente agregar informação aos dados presentes nos bancos primários e
assim gerar conhecimentos biológicos mais aprofundados. 
A diferença entre os bancos secundários é o quanto os dados foram processados por programas de
computadores e se houve presença do olhar clínico de um especialista validando essas informações. As
organizações que mantêm esses bancos podem restringir algum tipo de informação processada, exigindo o
pagamento de uma licença para o acesso integral aos dados, por exemplo. Vamos estudar agora dois desses
bancos. 
UniProtKB
O UniProtKB é como um guia completo de proteínas, no qual cientistas podem encontrar informações sobre as
sequências de aminoácidos e as funções dessas moléculas na célula. Ele é dividido em duas partes:
TrEMBL
Dados gerados automaticamente por
programas de computador, sem revisão
humana. Aqui, as proteínas são traduzidas a
partir de sequências de DNA e têm sua provável
função sugerida.
Swiss-Prot
Dados revisados por especialistas, combinando
informações obtidas de experimentos e da
literatura científica, garantindo maior
confiabilidade.
Para usá-lo, basta buscar UniProtKB no Google e acessar o site. Você pode procurar proteínas digitando
termos na barra de busca ou usar a ferramenta BLAST para comparar sequências e encontrar proteínas
semelhantes no banco de dados. É uma ferramenta essencial para explorar informações sobre proteínas e
suas funções.
Página inicial do UniProt.
Caso você tenha optado pela busca textual e digitado, por exemplo, “collagen”, o resultado será uma tabela
com várias proteínas colágeno depositadas nesse banco, cada uma recebendo um código de identificação
próprio (Entry). 
 
As informações sobre proteínas armazenadas no Swiss-Prot são mais confiáveis, visto que esse banco é
revisado manualmente, mas se a busca for feita em todo o UniProtKB, aparecerá resultados tanto do Swiss-
Prot quanto do TrEMBL.
Resultado da busca por no UniProtKB.
Ao clicar em um desses códigos de identificação, será aberta uma página com muitas informações sobre
aquela proteína, como: 
Função.
 
Nomenclatura usada.
 
Localização na célula.
 
Associação com doenças.
 
Modificações pós-traducionais pelas quais a proteína possa passar.
 
Hiperlinks para estruturas 3D associadas.
KEGG
• 
• 
• 
• 
• 
• 
O KEGG é como um grande mapa interativo que ajuda os cientistas a entenderem como diferentes peças do
corpo, como genes, proteínas e moléculas, trabalham juntas. Ele é mais conhecido por mostrar vias
metabólicas, que são como rotas que explicam os processos químicos que acontecem dentro das células.
Página inicial do KEGG.
Confira o que você pode explorar no KEGG. Acompanhe!
Vias metabólicas
São como um diagrama que mostra o passo a passo de como o corpo usa ou transforma moléculas,
como a galactose (um tipo de açúcar).
Genes ortólogos
São genes parecidos que fazem o mesmo trabalho em espécies diferentes, como se fossem primos
que herdaram a mesma função.
Identificação de enzimas (EC numbers)
São números que funcionam como um RG das enzimas, mostrando as reações químicas que elas
realizam.
Outras informações
São dados sobre doenças, medicamentos e pequenas moléculas usadas no corpo.
O KEGG também tem ferramentas como o KEGG Mapper, que ajuda você a ver onde uma proteína específica
está em uma via metabólica. Por exemplo, se você pesquisar lactase, verá informações sobre onde essa
proteína está, como funciona e como se conecta com outras moléculas. Para acessar, é simples: busque KEGG
no Google, entre no site, digite o que você quer estudar, e explore todas as informações de maneira clara e
organizada.
 
Veja, neste vídeo, os principais bancos de dados primários e secundários, suas funções e utilizações.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atividade 4
Bancos de dados secundários processam informações a partir de dados brutos de bancos primários,
acrescentando conhecimento e aprofundando a compreensão biológica, com variações no nível de validação
por especialistas.
 
Assim, qual é a principal vantagem dos bancos de dados secundários para a pesquisa científica?
A Substituem completamente os bancos primários no armazenamento de dados.
B Garantem acesso gratuito a todas as informações sem restrições.
C Eliminaram a necessidade do trabalho manual de especialistas.
D Contêm exclusivamente dados genéticos de organismos específicos.
E Integram e validam informações, permitindo análises biológicas mais detalhadas.
A alternativa E está correta.
A principal vantagem dos bancos de dados secundários é que eles processam os dados brutos dos bancos
primários, adicionando informações validadas e organizadas, muitas vezes com o auxílio de especialistas.
Isso permite análises biológicas mais detalhadas e a geração de novos conhecimentos. As outras
alternativas apresentam limitações ou não refletem o papel principal desses bancos.
Anotação genômica
Neste vídeo, vamos mostrar as etapas de anotação genômica, utilizando bancos secundários na etapa de
anotação funcional. Assista! 
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
A anotação de genomas identifica
regiões funcionais ou de relevância
biológica, agregando informações
ao DNA sequenciado. Esse
processo é realizado depois que a
ordem dos nucleotídeos a partir do
sequenciamento total do DNA de
um organismo já foi determinada.
 As características biológicas que
podem ser identificadas em um
genoma pelo processo de
anotação são principalmente
genes, mas também é possível
encontrar as regiões regulatórias,
a origem de replicação do DNA, os
promotores, dentre outras
estruturas.
Imagine a anotação do genoma como a leitura de um texto em um idioma que você não conhece. A cada
palavra você vai precisar usar um dicionário para descobrir seu significado em português. Feito isso, é
provável que você faça pequenas anotações sobre os significados em um papel durante a leitura. Da próxima
vez que você ou qualquer outra pessoa utilizar esse papel para a leitura do texto, vai compreendê-lo sem
precisar refazer as traduções. A anotação genômica pode ser dividida em duas etapas: 
Predição gênica
É a etapa na qual se busca onde estão os genes
ao longo da sequência do DNA total.
Anotação funcional
Visa descrever a função biológica da proteína
codificada por aquele determinado gene.
No exemplo do texto em outro idioma, você já sabia o início e o fim de cada palavra, pois existia um espaço
entre elas. O genoma sequenciado é como um “texto corrido”, sem espaço entre as bases nitrogenadas. Por
isso, é necessária a etapa de predição de genes, antes de entender o que eles “significam” para o organismo
estudado.
Predição gênica
Prever um gene é encontrar as bases nitrogenadas que marcam o início e o fim dessa região do DNA. É
importante recordarmos que a sequência de bases nitrogenadas de um gene guarda informações para:
RNAs mensageiros
 
RNAs transportadores
 
RNAs ribossômicos
 
Pequenos RNAs regulatórios
Vamos entender como podemos predizer genes que determinam a sequência de aminoácidos em uma
proteína (genes para RNAs mensageiros), também chamados de sequências codificadoras de proteínas (CDS, 
CoDing Sequence).
Existem diferentes programas de computador usados para a predição de genes ao longo de uma sequência de
DNA. As estratégias usadas por essas ferramentas são variadas, e iremos apresentar alguns exemplos. 
A forma mais intuitiva de encontrar um gene codificador de proteína é localizar os códons de início e de
parada. Se você estudou a tradução de proteínas, deve ter aprendido o que é código genético: um conjunto
de códons, formados por três bases nitrogenadas, que correspondem a aminoácidos específicos. Dentre
esses códons existem dois tipos especiais:
• 
• 
• 
• 
Tabela do código genético com as bases nitrogenadas do DNA.
Os cientistas criaram ferramentas que funcionamcomo detectores de genes em sequências de DNA. Esses
programas procuram segmentos que começam com o códon de início (ATG) e terminam com um dos códons
de parada (TAA, TAG ou ATA). Esses segmentos, chamados de fases de leitura aberta (ORFs ― open reading
frames), são regiões do DNA que provavelmente codificam proteínas.
 
Se houver sobreposição de ORFs (quando dois possíveis genes compartilham partes da sequência), o
programa escolhe sempre a mais longa, pois é mais provável que ela seja funcional. Essa estratégia ajuda a
identificar genes com maior precisão.
Genoma total do vírus SARS-CoV-2. As barras marrons representam os genes
preditos (ORFs).
O código genético é como um manual universal que funciona em todos os seres vivos. Por isso, programas
que identificam genes em procariotos e eucariotos podem usar os mesmos sinais básicos: o códon de início
(ATG) e os códons de parada (TAA, TAG, ATA).
 
Mas há uma diferença importante: os sinais extras que ajudam a localizar onde os ribossomos, que produzem
proteínas, conectam-se ao RNA mensageiro. Veja!
Códon de início 
É sempre o primeiro códon a ser
traduzido.
Códons de parada (stop) 
Determinam o fim do processo de
tradução.
Procariotos 
Usam a sequência de Shine-Dalgarno ou 
RBS (ribosome binding site), que
geralmente contém o padrão AGGAGGT no
DNA.
Eucariotos 
Usam a sequência de Kozak, que
inclui o padrão CCGCCATGG no DNA.
Os sinais extras ajudam os programas a identificarem genes de forma mais precisa em cada grupo de
organismos.
 
Existem várias diferenças importantes na forma como os genes estão organizados em procariotos e
eucariotos. Conheça-as!
Procariotos
Um único RNA mensageiro (RNAm) pode conter informações para vários genes diferentes, o que é
chamado de RNAm policistrônico. É como se várias instruções fossem escritas em uma única linha.
Eucariotos
Os genes possuem íntrons, que são pedaços de DNA que precisam ser retirados (processo chamado
de splicing) antes de formar o RNA mensageiro final. Além disso, estão mais “distantes” uns dos
outros no DNA, enquanto, nos procariotos, eles estão mais próximos e compactos.
As diferenças entre procariotos e eucariotos afetam como os programas de predição de genes identificam e
analisam o DNA nesses dois grupos.
 
Por isso, existem programas de computador que são específicos para predição de procariotos ou de
eucariotos. Nas imagens a seguir, vemos as diferenças entre a organização gênica de procariotos e
eucariotos.
Organização gênica de procariotos
Organização gênica de eucariotos
Anotação funcional
É como dar um nome e uma profissão para os genes. Depois que os
programas identificam os genes no DNA e as proteínas que eles podem
produzir, a próxima etapa é descobrir o que essas proteínas fazem.
Para isso, os cientistas comparam as sequências desses genes e
proteínas com as de bancos de dados biológicos. Se encontrarem algo
parecido, podem prever a função com base no que já é conhecido. É
como procurar uma peça de quebra-cabeça e ver onde ela se encaixa
usando um guia!
Voltando para a analogia de comparar a anotação funcional à busca pelo significado de uma palavra
desconhecida, você só vai realmente saber o que a palavra significa se encontrar no dicionário exatamente a
mesma palavra, comparando letra por letra. 
A etapa de anotação funcional pode confirmar os resultados da predição gênica. Caso você encontre no
banco de dados uma sequência de referência bastante similar à sua sequência de interesse, é possível
descrever a função do seu gene com base na função descrita para a referência. 
Você se lembra dos bancos de dados secundários que discutimos agora há pouco? 
Eles são muito usados na etapa de anotação funcional. Os bancos de dados como o UniProtKB/Swiss-Prot e o
KEGG são como enciclopédias confiáveis para estudar genes. Você pode usar as informações curadas
(revisadas por especialistas) desses bancos para entender a função dos genes, como as proteínas que eles
produzem, suas funções biológicas, vias metabólicas onde estão envolvidos e onde atuam na célula. Essas
informações ajudam a ter uma visão geral das características químicas e funcionais de uma espécie e como
elas se relacionam com suas características visíveis, como traços específicos.
 
Suponha que você está estudando um organismo com genoma recém-sequenciado. A partir do alinhamento
de sequência no UniProtKB/Swiss-Prot, a tradução de um dos seus genes é 99% idêntica à uma proteína com
a função de "transferência fotossintética de elétrons C". No KEGG, é possível observar que essa função está
inserida no metabolismo da fotossíntese, e assim você pode sugerir que seu organismo de interesse é
autotrófico, isto é, capaz de transformar gás carbônico em glicose e oxigênio.
Atenção
Um critério comumente adotado para que possa ocorrer a “cópia” da função da proteína do banco de
dados para a sua proteína de interesse é o valor de similaridade igual ou maior que 70%. É possível que
ao realizar a busca por sequências similares você não encontre nenhum resultado aceitável segundo
esse critério. Se isso acontecer, você irá anotar sua proteína como hipotética ou predita. 
Uma proteína hipotética é aquela cuja respectiva sequência tem todas as características de uma região
codificadora, detectada na etapa de predição gênica. Porém, nenhuma referência suficientemente similar foi
encontrada no banco de dados durante a anotação funcional. Nesse caso, a segunda etapa da anotação
genômica não confirma o que foi encontrado na primeira. 
Observe o seguinte fluxo de informação.
Fluxo de ideias da anotação genômica.
As informações obtidas durante a anotação funcional podem ser guardadas em arquivos com formatos
específicos. Um exemplo de arquivo que contém informações da anotação genômica é o GenBank (mesmo
nome do banco de dados presente no NCBI), como observado na imagem a seguir. 
Parte de um arquivo no formato GenBank, gerado pela plataforma NCBI.
No arquivo GenBank, encontramos as coordenadas de cada uma das características anotadas ao longo da
sequência de DNA.
 
Portanto, a anotação genômica é o processo de identificar e entender as partes importantes de um DNA
sequenciado, como os genes e suas funções. É como traduzir um texto em um idioma desconhecido e anotar
o que cada palavra significa para facilitar futuras leituras. Ela acontece em duas etapas. Veja!
1
Predição gênica
Localiza onde os genes estão no DNA, identificando o início (códon ATG) e o fim (códons TAA, TAG
ou ATA). Também pode prever genes que codificam proteínas, RNAs mensageiros, ribossômicos e
outros.
2
Anotação funcional
Descobre o que esses genes fazem, comparando suas sequências com informações de bancos de
dados, como o UniProtKB/Swiss-Prot ou KEGG. Isso ajuda a entender as funções das proteínas, em
quais processos metabólicos estão envolvidas e onde atuam na célula.
Se o gene encontrado for muito semelhante (70% ou mais) a um gene já conhecido, sua função pode ser
atribuída. Caso contrário, ele será classificado como hipotético, significando que sua existência foi detectada,
mas sua função ainda não é conhecida.
 
Os resultados são organizados em arquivos, como no formato GenBank, que registram as coordenadas e as
informações de cada gene, como seu papel e localização. Esses dados são fundamentais para estudar as
características biológicas e metabólicas de um organismo, por exemplo, se ele é autotrófico ou resistente a
antibióticos.
 
Assista ao vídeo e saiba mais sobre anotação gênomica.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atividade 5
Na genômica funcional, qual é o principal objetivo da anotação de genomas na compreensão do genoma de
um organismo?
A Determinar a sequência total de nucleotídeos do DNA.
B Identificar os genes e atribuir funções biológicas às proteínas codificadas.
C Acelerar o processo de replicação do DNA.
D Determinar o número total de genes em um organismo.
E Analisar a estrutura tridimensional do DNA.
A alternativa B está correta.
O principal objetivoda anotação de genomas é identificar os genes presentes no DNA sequenciado e
atribuir funções biológicas às proteínas que esses genes codificam. Esse processo é essencial para
entender como o genoma de um organismo influencia suas funções biológicas e processos celulares.
2. Conceitos e aplicações das ciências ômicas 
Introdução às ciências ômicas
Explore, neste vídeo, as ciências ômicas e seu papel na análise global de moléculas biológicas. Veja o impacto
do Projeto Genoma Humano, questões sobre diversidade celular e genética, e exemplos como
farmacogenômica e lipidômica, mostrando a integração dessas áreas na biologia moderna.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
As ciências ômicas são áreas da biologia que estudam grandes conjuntos de dados relacionados a moléculas
dentro dos organismos, como genes, proteínas e metabólitos. Elas ajudam a entender como essas moléculas
funcionam juntas para manter a vida.
 
Pense nas ciências ômicas como mapas detalhados de diferentes partes do corpo. Veja!
Genômica
Estuda o DNA completo (todo o material genético de um organismo).
Transcriptômica
Foca os RNAs, que são as mensagens do DNA usadas para fazer proteínas.
Proteômica
Analisa todas as proteínas de um organismo, as quais executam funções importantes.
Metabolômica
Estuda os metabólitos, como açúcares e gorduras, que são produtos das reações químicas no corpo.
Juntas, as ciências ômicas ajudam a entender como tudo está conectado no organismo e a encontrar
soluções para problemas de saúde ou melhorar processos biológicos.
 
A matéria-prima do trabalho da bioinformática são os dados biológicos. Em relação a esses dados, os
esforços dos profissionais especializados nessa área são voltados para: organizar, armazenar, analisar,
visualizar, interpretar.
Um grande avanço da bioinformática aconteceu durante a execução do
Projeto Genoma Humano, que durou mais de 10 anos e teve como
objetivo principal determinar a ordem dos nucleotídeos de todo
genoma da nossa espécie. Essa empreitada científica estimulou o
aprimoramento de computadores e de programas para lidar com a
grande quantidade de dados que começou a ser gerada.
Ter acesso às sequências de nucleotídeos de todo o DNA de um organismo é fantástico e estudá-las trouxe
respostas para questões importantes. Atualmente, conhecemos a “cartilha” que as células seguem para gerar
todas as características de um indivíduo. No entanto, essa “cartilha” deixa no ar perguntas que surgiram a
partir dos estudos do genoma.
O que diferencia a célula da pele e o neurônio de um mesmo indivíduo se a sequência do DNA é igual?
 
Como o homem e o chimpanzé são fenotipicamente tão distintos se 99% de seu DNA são idênticos?
 
Por que gêmeos univitelinos, formados a partir do mesmo zigoto, manifestam características físicas
diferentes?
A resposta para essas perguntas está nas outras moléculas biológicas presentes na célula, como RNAs,
proteínas e metabólitos. Vivemos a chamada “era pós-genômica”, com o desenvolvimento e o
aperfeiçoamento de técnicas e de programas que nos permitem estudar outras ciências ômicas.
Principais conceitos das ciências ômicas
O termo “ômica” se refere à análise global de um determinado tipo de informação biológica. Veja a seguir
alguns exemplos de ciências ômicas:
Genômica
A análise completa de todo o DNA de um organismo, também chamado de genoma. Essa mesma
lógica segue para os demais tipos de informação, e daí surgiram termos como transcriptômica,
proteômica e metabolômica.
Transcriptômica
Após compreender que o DNA guarda todas as informações hereditárias de um organismo, é
importante lembrar que a expressão dessa informação é regulada pelas condições do meio onde a
célula está inserida. O produto da expressão dos genes no DNA são os transcritos, moléculas de
RNAs. A transcriptômica tem como alvo o conjunto de RNAs produzidos por uma célula sob
determinadas condições. Na prática, o RNA mensageiro é o tipo de RNA mais estudado aqui.
Proteômica
Quando desejamos uma abordagem mais direta para compreender as funções celulares é indicado
estudar o conjunto de proteínas. São elas que efetivamente “trabalham duro” na célula, realizando
transporte de moléculas, catalisando reações químicas, recebendo mensagens, formando estruturas
e desempenhando muitas outras funções. A proteômica é o estudo do conjunto de proteínas
produzidos por uma célula em um dado momento. 
• 
• 
• 
Metabolômica
Os produtos intermediários ou finais das reações químicas que acontecem em uma célula são
chamados de metabólitos. Em geral, quando falamos do metaboloma, estamos nos referindo a
moléculas pequenas, de baixa massa molecular, como aminoácidos, nucleotídeos, ácidos biliares,
ácidos graxos e hormônios. O termo metabolômica abrange o estudo dos metabólitos de uma célula
sob determinadas perturbações. 
Veja na imagem a seguir a relação entre as ciências.
Relação entre as ciências ômicas.
Novas áreas ômicas surgem a todo momento, com o aumento da especificidade dos estudos biomédicos. Já
existe, por exemplo:
Farmacogenômica
Determina alterações genéticas responsáveis pela resposta dos pacientes a medicamentos.
Lipidômica
Avalia o perfil de lipídeos da célula.
Toxicogenômica
Estuda a resposta do organismo a determinadas substâncias.
Atividade 1
As ciências ômicas investigam diferentes tipos de moléculas biológicas, como DNA, RNA, proteínas e
metabólitos, utilizando abordagens que analisam esses elementos de forma global em organismos vivos.
 
Assim, qual é o principal objetivo das ciências ômicas no contexto da biologia moderna?
A Compreender como diferentes tipos de moléculas interagem em sistemas biológicos.
B Determinar apenas a sequência completa do DNA de um organismo.
C Desenvolver medicamentos sem estudar a relação com moléculas biológicas.
D Focar exclusivamente o estudo das proteínas em células humanas.
E Criar teorias sobre organismos sem o uso de dados computacionais.
A alternativa A está correta.
As ciências ômicas têm como objetivo principal entender de que forma diferentes moléculas biológicas,
como DNA, RNA, proteínas e metabólitos, interagem e influenciam os processos biológicos nos organismos.
Isso vai além do simples sequenciamento do DNA ou do estudo isolado de moléculas, promovendo uma
visão integrada. As outras alternativas não refletem a abordagem ampla e integrada dessas áreas.
Técnicas utilizadas
Neste vídeo, vamos abordar técnicas-chave usadas em genômica, transcriptômica, proteômica e
metabolômica. Saiba como essas ferramentas permitem analisar DNA, RNA, proteínas e metabólitos para
entender processos biológicos complexos. Assista!
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Os dados brutos processados pelos programas de computador são obtidos a partir de técnicas experimentais.
Cada área ômica foca um tipo de dado. Portanto, as técnicas usadas não serão as mesmas. 
Dados genômicos são obtidos a partir do sequenciamento de DNA. A primeira técnica amplamente utilizada
para esse propósito foi o sequenciamento de Sanger. Essa estratégia permite que regiões do DNA, em torno
de 1.000 pares de bases, sejam sequenciadas. É possível sequenciar o genoma total de um organismo a partir
do sequenciamento de Sanger, porém o processo é muito trabalhoso e envolve outras técnicas, como
clonagem usando plasmídeos bacterianos.
Método de sequenciamento de Sanger.
A genômica evoluiu muito mais rápido com o surgimento dos sequenciadores de nova geração. Esses
aparelhos permitem fazer a leitura da ordem dos nucleotídeos de vários fragmentos de DNA ao mesmo tempo.
No final do processo, o resultado é um arquivo com todas as leituras da sua amostra. 
 
Existem diferentes tecnologias de sequenciamento de nova geração, que buscam a precisão dos resultados e
o barateamento do custo total.
Exemplo
Imagine uma versão gratuita e outra paga de um aplicativo que faça tradução de textos. Na versão
gratuita, você só pode traduzir uma página por dia, mas na paga você podecolocar o livro inteiro de uma
vez e ele vai devolver todas as páginas traduzidas em um único dia. Nessa analogia, o sequenciamento
de Sanger seria a versão gratuita, e os sequenciadores de nova geração, a versão paga. 
Para estudar o conjunto de transcritos de uma célula podemos usar as mesmas técnicas de sequenciamento
de DNA. No entanto, é necessário um passo muito importante antes de iniciar o sequenciamento: transformar
as moléculas de RNA em seu DNA complementar (cDNA).
Como esse procedimento de transformar as moléculas de RNA em seu DNA complementar seria
realizado? 
Para transformar o RNA em DNA complementar (cDNA), usamos uma enzima chamada transcriptase reversa,
muito famosa na biologia molecular. Ela lê a sequência do RNA e cria uma cópia em DNA, seguindo a regra de
pareamento das bases nitrogenadas: se o RNA tem a sequência AUGA, o DNA complementar será TACT.
 
Esse processo é importante porque o RNA é frágil e instável, dificultando seu estudo direto. Por isso, ele é
transformado em cDNA, que é mais estável e fácil de manipular. Além disso, o cDNA é usado em técnicas
como o microarranjo, que ajuda a estudar quais genes estão sendo ativados em um determinado momento.
 
A ideia geral do microarranjo é usar uma lâmina de vidro com pequenos segmentos de DNA aderidos,
chamados de sondas. Também é necessário que os cDNAs da amostra a ser estudada estejam marcados com
corantes fluorescentes. 
 
O profissional que estiver “montando” a lâmina deverá saber exatamente a sequência das sondas de DNAs,
que vão funcionar como um “ímã”, atraindo sequências de cDNA correspondentes. Por exemplo, se uma sonda
tem a sequência TGAG, o cDNA que se ligará a ela será ACTC. No final, um aparelho detecta as posições
fluorescentes da lâmina, e o profissional descobre para quais sondas os cDNA foram complementares. Veja a
seguir o esquema da análise de microarranjo.
Esquema da análise de microarranjo.
Até aqui estávamos falando da análise de ácidos nucleicos: DNA e RNA. Para estudar o proteoma, precisamos
de outra abordagem, uma vez que ácidos nucleicos são constituídos de nucleotídeos, enquanto proteínas são
formadas pela união de aminoácidos. 
A primeira técnica que vamos comentar é a eletroforese bidimensional em gel de poliacrilamida (2D-PAGE).
Nessa abordagem, as proteínas purificadas a partir de uma amostra são separadas de acordo com duas
propriedades químicas: 
Potencial isoelétrico Massa molecular
Por isso, o gel é bidimensional, pois o movimento das proteínas é estimulado em duas direções.
 
Milhares de proteínas podem ser separadas simultaneamente por essa técnica. Isso é possível, pois ― desde
que as proteínas tenham potenciais isoelétricos e/ou tamanhos diferentes ― elas estarão localizadas em
posições diferentes do gel no final do experimento.
A foto final do gel pode ser analisada por programas de computador capazes de detectar a “mancha” de cada
proteína, quantificá-la de acordo com suas dimensões, além de comparar diferentes géis e armazená-los em
bancos de dados de 2D-PAGE. Dessa forma, é possível, por exemplo, identificar alterações na produção de
proteínas entre duas ou mais condições experimentais diferentes.
Atenção
Se nessa comparação alguma “mancha” específica chamar sua atenção, podendo ser uma proteína-
chave para sua pesquisa proteômica, você pode caracterizá-la com mais detalhes. É possível cortar essa
“mancha” no gel e depois digeri-la com uma enzima específica, que quebra a proteína em pedaços
menores. 
A mistura de peptídeos (pequenas sequências de aminoácidos) pode ser analisada por espectrometria de
massas (MS), como mostrado na imagem a seguir. Ela é utilizada para obter a massa molecular dos peptídeos
gerados pela digestão enzimática.
Esquema da espectrometria de massas.
Resumindo
Primeiro os fragmentos proteicos são carregados com íons positivos, e depois são “empurrados” para
um tubo com campo magnético. Peptídeos menores sofrem maiores desvios se comparados aos
maiores, e assim pode ser determinada a massa de cada um. Os valores obtidos podem, então, ser
comparados em um banco de dados específico para essa técnica, e assim determinar qual é a sua
proteína de interesse. 
Existem muito mais bancos de
dados biológicos do que você
imagina! Falando resumidamente de
proteômica citamos dois tipos. A
comparação do resultado final do
2D-PAGE e da MS contra registros
em bancos de dados exemplifica
como a bioinformática está inserida
nas análises proteômicas.
 A diversidade química dos
metabólitos é milhares de vezes
maior que a de DNAs, RNAs ou
proteínas. Ácidos nucleicos são
formados apenas por
nucleotídeos, e proteínas são
sequências de aminoácidos.
Quando estamos falando de
metabólitos, o estudo se torna
mais desafiador.
A complexidade dos metabólitos produzidos por uma célula sob determinada condição é muito grande, uma
vez que eles possuem uma grande diversidade química e estão em concentrações diferentes. O preparo da
amostra depende do seu tipo e de que técnicas serão usadas para análise. 
As amostras podem ter
consistência diferentes (sólida,
semissólida ou líquida); é possível
realizar uma análise global ou
focada em um grupo específico de
metabólitos (só lipídeos, por
exemplo); e as técnicas utilizadas
podem ser, principalmente,
variações da espectrometria de
massas e ressonância magnética
nuclear.
 Análises metabolômicas geram
grande quantidade e complexidade
de dados. Variadas ferramentas
computacionais e estatísticas são
necessárias para produzir
informação e conhecimento nesse
campo. Nosso próximo passo agora
será discutir que tipo de resultado
todo esse trabalho de análises
ômicas pode gerar.
As ciências ômicas usam diferentes técnicas para estudar as moléculas biológicas de acordo com o foco de
cada área. Confira!
Genômica
Estuda o DNA usando o sequenciamento de Sanger (sequencia pequenas partes, mas é lento) e os 
sequenciadores de nova geração (NGS), mais rápidos e analisam muitos fragmentos de uma vez.
Transcriptômica
Analisa o RNA transformando-o em cDNA com a enzima transcriptase reversa (porque o RNA é
instável). Usa o microarranjo, uma técnica que identifica quais genes estão ativos.
Proteômica
Examina proteínas. Usa o 2D-PAGE, que separa proteínas por peso e carga elétrica, e a 
espectrometria de massas, que fragmenta proteínas e identifica quais estão presentes.
Metabolômica
Estuda metabólitos (pequenas moléculas). As principais técnicas são a espectrometria de massas,
que mede a massa dos metabólitos, e a ressonância magnética nuclear, que analisa sua estrutura.
As técnicas utilizadas nas ciências ômicas permitem estudar moléculas biológicas e entender funções
celulares.
Atividade 2
As técnicas experimentais usadas em ciências ômicas variam conforme o tipo de molécula biológica analisada,
como DNA, RNA, proteínas ou metabólitos.
 
Como as técnicas em ciências ômicas adaptam-se ao estudo de diferentes moléculas biológicas?
A Usando apenas técnicas genéricas que se aplicam a todas as moléculas.
B Aplicando técnicas específicas, mas sem variação entre os tipos de moléculas.
C Focando somente as moléculas grandes, como proteínas e ácidos nucleicos.
D Priorizando moléculas mais abundantes, como DNA, ignorando metabólitos.
E Ajustando-se às características químicas específicas de cada molécula.
A alternativa E está correta.
As técnicas em ciências ômicas são adaptadas de acordo com a composição química das moléculas
analisadas. Por exemplo, o DNA é estudado com sequenciamento; as proteínas, com espectrometria de
massas; e, os metabólitos, com variações dessa técnica e ressonância magnética nuclear. A flexibilidade
das abordagens permite a análise de cada molécula de maneira eficiente.
Aplicações das ciências ômicas
Agora, veja quatro exemplos reais de contribuição efetiva das ciências ômicas para melhorar sua
compreensão sobre as aplicações dessas ciências.
Caso 1
O primeiro
deles é o
caso dos
gêmeos
Noah e
Alexis Beery.
Com 13 anos
de idade
Alexis Beery
desenvolveu
um problema
respiratório
muito
preocupante.Ela tossia
tão forte que
chegava a
vomitar, e
era
necessário
administrar
adrenalina
para que ela
conseguisse
continuar
respirando.
 Quando tinham 5
anos, os gêmeos
foram
diagnosticados
com um distúrbio
genético chamado
“distonia
responsiva à
dopamina”, que
causava
movimentos
anormais como
dificuldade de
andar e tremor
postural que varia
durante o dia. Eles
tomavam
precursores de
dopamina e
reagiam bem ao
tratamento, por
isso quando Alexis
manifestou os
problemas
respiratórios os
médicos não
suspeitaram que
poderia ter alguma
relação. 
 O pai dos
gêmeos
trabalhava em
uma empresa
de tecnologia
naquele
período, por
volta de 2011.
Com os
conhecimentos
prévios que a
família tinha,
eles insistiram
para que o
genoma total
dos filhos fosse
sequenciado.
Foi a partir dos
resultados do
sequenciamento
total, usando
um 
sequenciador
de nova
geração, que
uma mutação
específica no
gene SPR foi
identificada. 
 Esse gene codifica a
enzima sepiapterina
redutase, uma enzima
que participa na
biossíntese de um
cofator importante
para atividade da
enzima que sintetiza os
neurotransmissores
dopamina e serotonina.
A mutação no gene
impede a produção
desses
neurotransmissores e
leva ao
desenvolvimento da
doença. Assim, como
eles já tomavam o
precursor da
dopamina, após esse
resultado os médicos
administraram o
precursor da
serotonina. Um mês
após o início do
tratamento os
sintomas respiratórios
de Alexis
desapareceram!
Além da detecção de mutações associadas a doenças genéticas raras,
as análises genômicas possibilitam determinar marcadores genéticos
que diferenciem indivíduos ou populações, descobrir genes exclusivos
de determinadas espécies, sugerir relações de ancestralidade entre
genes, dentre outras importantes contribuições.
Com base no caso estudado, explique como o sequenciamento genômico aplicado ao caso dos gêmeos Noah
e Alexis Beery exemplifica as contribuições das ciências ômicas na medicina personalizada.
Chave de resposta
O sequenciamento genômico no caso de Noah e Alexis Beery destacou como as ciências ômicas podem
revolucionar a medicina personalizada. Ao identificar uma mutação no gene SPR, os médicos
compreenderam a relação entre a distonia responsiva à dopamina e os sintomas respiratórios de Alexis.
Essa descoberta possibilitou a inclusão do precursor da serotonina no tratamento, aliviando os sintomas
em um mês. 
Esse exemplo ilustra como o diagnóstico preciso baseado em dados genômicos permite intervenções
terapêuticas específicas, impactando positivamente a qualidade de vida dos pacientes. Além disso,
evidencia o potencial das análises genômicas para identificar doenças raras e sugerir tratamentos
inovadores.
Caso 2
As análises transcriptômicas dizem respeito ao estado da célula em um determinado momento, sob certas
condições. Isso é possível devido ao fato de muitos genes terem sua expressão controlada. A célula possui
mecanismos para “ligar” ou “desligar” os genes: quando estão ligados, RNAs são transcritos a partir deles,
mas, quando desligados, não ocorre produção dos RNAs correspondentes.
 
A maior parte das mortes entre pacientes que desenvolvem câncer de mama ocorre devido à metástase,
sendo os pulmões um dos principais sítios desse processo. Cientes disso, pesquisadores da Universidade de
Tel Aviv, em Israel, começaram a buscar por moléculas biológicas que pudessem indicar muito precocemente
a metástase do câncer de mama no tecido pulmonar, para que ela pudesse ser evitada.
A estratégia usada foi o estudo do
transcriptoma. As células-alvo foram
os fibroblastos do pulmão de
camundongos, e as amostras foram
divididas em grupos:
 Fibroblastos de
camundongos saudáveis.
Fibroblastos de
camundongos com
micrometástase
(pequeno conjunto de
células do tumor que se
espalham pelo
organismo).
Fibroblastos com
grandes metástases.
Camundongos de laboratório.
O conjunto de todo RNAm dessas células foi obtido, transformado em cDNA e em seguida sequenciado por
tecnologias de nova geração. As análises comparativas do transcriptoma de cada grupo de fibroblastos
identificaram Myc como um regulador central da reconfiguração de fibroblastos em situação de metástase.
Descobriu-se que o aumento da transcrição desse gene está associado ao avanço da doença.
 
Os resultados dessa pesquisa foram divulgados em 2021, e os pesquisadores esperam usar suas descobertas
para auxiliar no diagnóstico do processo metastático de câncer de mama humano, antes mesmo que as
células metastáticas se estabeleçam nos órgãos-alvo. Com a detecção precoce, medidas profiláticas
poderiam ser tomadas a tempo de evitar a metástase. Torcemos para que essa descoberta possa em breve
salvar a vida de milhares de pessoas no mundo todo, não é mesmo?
Após conferir o caso, explique como o estudo do transcriptoma no caso do câncer de mama em camundongos
demonstra o papel das ciências ômicas na detecção precoce e no desenvolvimento de estratégias preventivas
contra a metástase. Reflita sobre como essas análises podem impactar o diagnóstico e o tratamento de
doenças complexas.
Chave de resposta
O estudo do transcriptoma no câncer de mama exemplifica como as ciências ômicas contribuem para a
detecção precoce de processos metastáticos, identificando moléculas-chave como o gene Myc, associado
ao avanço da doença. Essa análise permitiu diferenciar padrões de expressão gênica em fibroblastos de
camundongos com micrometástases e grandes metástases. A detecção precoce viabiliza medidas
profiláticas para prevenir a disseminação do câncer. 
Esse caso reflete o potencial das ciências ômicas em fornecer informações precisas sobre o estado da
célula, auxiliando o desenvolvimento de diagnósticos mais eficazes e intervenções personalizadas,
impactando de forma significativa a qualidade de vida dos pacientes e os índices de sobrevivência.
• 
• 
• 
Explore, neste vídeo, como a genômica e a transcriptômica transformam a saúde. Vamos analisar o caso dos
gêmeos Beery que mostra como a análise genômica pode diagnosticar doenças raras e guiar tratamentos
personalizados e o estudo do transcriptoma, que destaca avanços na detecção precoce de metástases no
câncer de mama, mostrando o impacto no diagnóstico e prevenção.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atividade 3
Com base nos casos apresentados, como as ciências ômicas contribuem para a identificação e o tratamento
de condições de saúde em humanos?
A Permitem apenas a detecção de alterações genéticas raras, sem impacto direto no tratamento.
B Analisam apenas o transcriptoma para prever padrões de expressão gênica em doenças.
C Identificam alterações genômicas e transcriptômicas, fornecendo dados para diagnósticos e
tratamentos personalizados.
D Limitam-se a estudar os genes de uma célula, sem considerar as interações entre eles.
E Concentram-se exclusivamente em doenças raras, não abrangendo doenças comuns como o câncer.
A alternativa C está correta.
Os casos apresentados demonstram como as ciências ômicas impactam diretamente diagnósticos e
tratamentos. No Caso 1, a análise genômica identificou a mutação no gene SPR, permitindo um tratamento
específico que solucionou os sintomas respiratórios de Alexis. No Caso 2, o estudo do transcriptoma
revelou o papel do gene Myc como marcador precoce de metástase em câncer de mama, ajudando a
prevenção e o manejo da doença. 
As outras alternativas estão incorretas porque subestimam ou limitam o alcance das ciências ômicas. A
alternativa A erra ao afirmar que as ciências ômicas não têm impacto direto no tratamento, o que foi
refutado pelos exemplos. A B reduz a atuação apenas ao transcriptoma, ignorando o papel de outras áreas,
como a genômica. A D incorretamente sugere que as ciências ômicas não consideram interações entre
genes, o que vai contra a natureza abrangente dessas análises. Por fim, a E restringe a aplicação das
ciências ômicas a doenças raras, ignorando que também contribuem em condições comuns, como o
câncer.
Mais aplicações das ciências ômicas
Caso 3
O estudo da proteômica contribui ainda mais

Mais conteúdos dessa disciplina