Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

CURSO ON LINE 
 
 
INTRODUÇÃO À 
BIOINFORMÁTICA 
 
 
 
 
 
 
 
Prof. Dr. Francisco Prosdocimi 
 
 
2007 
 
 
ÍNDICE 
 Pág. 
CAPÍTULO 1 UMA VISÃO GLOBAL DA BIOINFORMÁTICA 3 
 1.1. O que é a bioinformática? 3 
 1.2. O surgimento da bioinformática 3 
 1.3. O que preciso saber para ser um bom bioinformata? 5 
 1.4. Cursos de pós-graduação em bioinformática no Brasil 6 
 1.5. Conversando sobre bioinformática – BIOCHAT 6 
 1.6. Referências Bibliográficas e textos complementares 12 
 1.7. bRAINsTORM 12 
CAPÍTULO 2 GENOMA, BIOLOGIA MOLECULAR E COMPUTAÇÃO 13 
 2.1. Introdução 13 
 2.2. Sequenciamento do DNA 13 
 2.3. Genômica 14 
 2.4. As ômicas: integrando a bioinformação 15 
 2.5. O PERL e outras linguagens de programação 15 
 2.6. Referências Bibliográficas e textos complementares 17 
 2.7. bRAINsTORM 17 
CAPÍTULO 3 ALINHAMENTO DE SEQÜÊNCIAS 18 
 3.1. Introdução 18 
 3.2. Alinhamento Global 18 
 3.3. Alinhamento Local 19 
 3.4. Alinhamentos ótimos e heurísticos 20 
 3.5. Alinhamentos simples e múltiplos 21 
 3.6. Matrizes de comparação 22 
 3.7. Exemplos reais de alinhamentos 23 
 3.8. Referências Bibliográficas 28 
 3.9. bRAINsTORM 28 
CAPÍTULO 4 MONTANDO UM GENOMA 29 
 4.1. Sobre genomas eucarióticos e procarióticos 29 
 4.2. Base-calling 30 
 4.3. Cross-match 31 
 4.4. Agrupamento de seqüências 32 
 4.5. Sobre a cobertura dos genomas 34 
 4.6. Referências Bibliográficas 35 
 4.7. bRAINsTORM 35 
CAPÍTULO 5 ANÁLISE DE TRANSCRIPTOMAS 36 
 5.1. As ESTs 36 
 5.2. Histórico das ESTs 37 
 5.3. Agrupamento de ESTs 38 
 5.4. O genoma e o transcriptoma 39 
 5.5. SAGE – Serial Analysis of Gene Expression 40 
 5.6. Microarrays 40 
 5.7. Referências Bibliográficas 41 
 5.8. bRAINsTORM 41 
CAPÍTULO 6 BANCOS DE DADOS EM BIOLOGIA MOLECULAR 42 
 6.1. Histórico 42 
 6.2. Bancos primários e secundários 43 
 6.3. GenBank e GenPept 43 
 6.4. RefSeq – O banco de dados de seqüências de referência 44 
 6.5. SWISSPROT – O maior banco de dados secundário de seqüências de proteínas 45 
 6.6. Gene Ontology – Sistema de classificação de genes de acordo com suas características 46 
 6.7. Referências Bibliográficas 46 
 6.8. bRAINsTORM 47 
CAPÍTULO 7 ANOTAÇÃO DE GENOMAS 49 
 7.1. Introdução 49 
 7.2. Anotação de Nucleotídeos 49 
 7.3. Anotação de Proteínas 50 
 7.4. Anotação de Processos 50 
 7.5. A realização da Anotação Genômica (Sociologia da Anotação) 51 
 7.6. Referências Bibliográficas 52 
 7.7. bRAINsTORM 53 
CAPÍTULO 8 BIOINFORMÁTICA EVOLUTIVA E GENOMAS COMPLETOS 54 
 8.1. Homologia, Ortologia e Paralogia 54 
 8.2. COG 56 
 8.3. Trabalhando com genomas completos 56 
 8.4. Referências Bibliográficas 57 
 8.5. bRAINsTORM 58 
CAPÍTULO 9 BIOINFORMÁTICA ESTRUTURAL 59 
 9.1. Sobre a estrutura das proteínas 59 
 9.2. Protein Data Bank: o banco de dados de estruturas de proteínas 60 
 9.3. Modelagem molecular por homologia 61 
 9.4. Alguns programas de modelagem molecular 63 
 9.5. Threading 63 
 9.6. CASP – Critical Assessment of Structure Prediction 63 
 9.7. Estrutura de um arquivo no formato PDB 64 
 9.8. Referências Bibliográficas 67 
 9.9. bRAINsTORM 68 
CAPÍTULO 10 CONCLUSÕES E PENSAMENTOS FILOSÓFICOS SOBRE A BIOINFORMÁTICA 69 
 10.1. Sobre bioinformática, genoma e ciência 69 
 10.2. Introdução 69 
 10.3. Genoma e o método científico 70 
 10.4. Um conceito de bioinformática 71 
 10.5. Princípios paradigmáticos em bioinformática 72 
 10.6. Conclusão 74 
 10.7. bRAINsTORM 74 
PREFÁCIO 
 
Quando em 2002 realizei, concomitantemente ao meu mestrado em genética pela 
UFMG, o excelente curso de especialização em Bioinformática do LNCC, ministrado por 
muitos dos maiores especialistas em genômica e bioinformática de nosso país, tive o 
privilégio de ser um dos organizadores (e o primeiro autor) de um trabalho entitulado 
“Bioinformática: manual do usuário” em que todos os cerca de 20 alunos do curso 
se organizaram com o objetivo de gerar uma publicação básica sobre a área de 
pesquisa à qual nos estamos aprofundando e formando. Esta publicação foi finalmente 
publicada na revista Biotecnologia Ciência e Desenvolvimento alguns meses depois. 
 
Tendo mantido meu contato com a editora da revista Biotecnologia, enquanto 
terminava meus estudos de doutoramento em bioinformática, recebi um convite para 
elaborar um curso on line a ser ministrado através do portal biotecnologia da 
Internet (http://www.biotecnologia.com.br). Este documento que agora vos apresento 
gratuitamente pela Internet (http://biotec.icb.ufmg.br/chicopros/Prosdocimi07_Curso 
Bioinfo.pdf) consiste exatamente neste curso, produzido em 2006 e ministrado em 
2007 para uma turma de 40 alunos. Ainda que navegando por problemas técnicos, 
acredito que o curso foi bastante proveitoso e produtivo, sendo que a grande maioria 
dos alunos saiu do mesmo tendo adquirido conteúdo e aprendido a compreender muito 
sobre a lógica e o pensamento em bioinformática. 
 
Hoje, passados quase 4 anos que ministrei este curso pela Internet, vejo este 
documento arquivado entre meus arquivos do período jurássico e tenho pena de deixar 
este conhecimento perdido nos meandros digitais do meu disco rígido. Assim, contatei 
recentemente a editora da revista que lendo o contrato que fizemos à época e dizendo 
serem meus os direitos autorais desta apostila ou “esboço de livro”, informou-me que 
tenho o direito de publicar o presente documento na Internet para que se torne 
acessível a qualquer indivíduo interessado em aprender a arte e a ciência da 
bioinformática. Recomendou-me ainda que eu atualizasse as informações aqui 
presentes e publicasse um livro de verdade, a ser vendido nas livrarias. Tenho sim 
planos de fazê-lo, mas sei que precisaria reestruturar boa parte do que está aqui 
contido e, por falta de tempo para tanto, decido publicar esta versão gratuitamente 
pela Internet. Assim, caso haja interesse de leitores, estudantes ou editores, estarei 
disposto a atualizar estas informações e produzir uma segunda edição mais completa e 
atualizada sobre presentes assuntos. 
 
Brasília, numa quarta-feira de cinzas. 
17/02/2010 
 
Chico Prosdocimi 
http://biotec.icb.ufmg.br/chicopros 
http://chicopros.blogspot.com 
 
 
 
 
 
Aos meus pais 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
3 
CAPÍTULO 1 
Uma visão global da bioinformática 
 
Iniciando nossa Interação 
 
Nesta primeiro capítulo apresentaremos uma visão geral da bioinformática, 
vamos conversar sobre as necessidades e oportunidades de capacitação para quem 
deseja atuar nessa área. 
 
 
1.1. O que é a bioinformática? 
 
Podemos considerar a bioinformática como uma linha de pesquisa que envolve 
aspectos multidisciplinares e que surgiu a partir do momento em que se iniciou a 
utilização de ferramentas computacionais para a análise de dados genéticos, 
bioquímicos e de biologia molecular. A bioinformática envolve a união de diversas 
linhas de conhecimento – a ciência da computação, a engenharia de softwares, a 
matemática, a estatística e a biologia molecular – e tem como finalidade principal 
desvendar a grande quantidade de dados que vem sendo obtida através de seqüências 
de DNA e proteínas. Para o desenvolvimento de genomas completos, a informática é 
imprescindível e a biologia molecular moderna não estaria tão avançada hoje, não 
fossem os recursos computacionais existentes. 
 
 
1.2. O surgimento da bioinformática 
 
A bioinformática, apesar de ser uma ciência nova e em desenvolvimento, já 
apresenta uma figura clássica que freqüentemente é mostrada em qualquer palestra 
ou curso que se vá sobre a área. Essa figura, mostrando o crescimento exponencial do 
GenBank nos últimos anos, tenta mostrar que, mais do que uma abstração possível, a 
bioinformáticaé hoje uma necessidade para a análise de dados em biologia molecular. 
Desde que os seqüenciadores capilares de DNA em larga escala surgiram, no 
fim da década de 90, a quantidade de dados biológicos produzidas simplesmente 
alcançou níveis que fizeram com que análises manuais de seqüências de DNA se 
tornassem simplesmente alternativas absurdas para o estudo de dados de genoma e 
transcriptoma. 
 Dois desenvolvimentos foram importantes para permitir tanto o surgimento da 
bionformática quanto o rápido desenvolvimento da produção de seqüências de DNA. O 
primeiro deles foi o sequenciamento capilar. Enquanto no passado as seqüências eram 
produzidas em placas enormes que deveriam ser corridas de forma uniforme e com um 
grande cuidado, com o desenvolvimento da tecnologia de sequenciamento capilar, a 
eletroforese ocorria dentro de tubos com a espessura de um cabelo humano, contendo 
uma solução polimérica por onde o DNA deveria passar guiado por uma corrente 
elétrica, como uma eletroforese normal. O outro grande desenvolvimento foi a 
marcação dos didesoxinucleotídeos necessários para o sequenciamento do DNA com 
moléculas fluorescentes. Enquanto as reações tradicionais eram realizadas com 
marcadores radioativos, que tornavam a metodologia um tanto quanto trabalhosa e 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
4 
até mesmo perigosa, os marcadores fluorescentes permitiam maior segurança e ainda 
um novo avanço. Enquanto era preciso correr diferentes reações para cada nucleotídeo 
na marcação radioativa, a técnica de marcação fluorescente permitia que cada base 
fosse marcada com um diferente fluorocromo que era capaz de emitir luz em um 
diferente comprimento de onda se excitado por um laser. Essa luz, lida por um 
detector, informava ao sistema qual nucleotídeo passava em diferentes momentos da 
eletroforese. E foi exatamente a reunião desses dois desenvolvimentos num só 
aparelho que produziu o equipamento que posteriormente ficaria conhecido como “o 
seqüenciador que criou a bioinformática”. O primeiro desses aparelhos foi produzido 
pela empresa Applied Biosystems e foi chamado de ABI Prism 3700. Apresentava 96 
colunas (ou capilares para a eletroforese) e permitia o sequenciamento de cerca de 
550 bases em cada coluna, sendo oito vezes mais rápida do que a melhor concorrente 
da época e possibilitando o sequenciamento de até 1 milhão de pares de bases por dia. 
Além de permitir o rápido desenvolvimento da bioinformática, esse seqüenciador ainda 
geraria brigas políticas sobre quem é que deveria sequenciar todo o genoma humano, 
uma empresa particular ou o consórcio público, mas isso é outra história. 
 
 
Figura 1.1. Crescimento do Genbank. Crescimento exponencial do número de 
seqüências contidas no GenBank ao longo das duas últimas décadas. Obtido em 
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html. 
 
 O que importa é que, desde 1998, quando o ABI Prism foi lançado, outras 
empresas desenvolveram também seus seqüenciadores capilares de larga escala e o 
custo dessas máquinas – que antes chegava a trezentos mil dólares – foi aos poucos 
caindo e permitindo que mais e mais laboratórios pudessem ter seus próprios 
seqüenciadores. Cada vez mais dessas máquinas são vendidas ainda hoje e o número 
de seqüências de DNA produzidas vem aumentando exponencialmente até o presente 
momento. 
 
Leitura complementar: 
http://nextisnowbr.blogspot.com/2009/12/next-generation-sequencing-estado-da.html 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
5 
1.3. O que preciso saber para ser um bom bioinformata? 
 
O profissional em bioinformática é raro no mercado, já que ele necessita saber 
e ser familiar a, pelo menos, três áreas distintas do conhecimento: a biologia 
molecular, a ciência da computação e a bioinformática per se. Além disso, 
conhecimentos em estatística e matemática são altamente recomendáveis. Imagine 
um biólogo que não tenha conhecimento de computação: ele será capaz de bolar uma 
infinidade de possíveis experimentos em bioinformática que gostaria que fossem 
gerados, mas será incapaz de colocá-los em prática. Do outro lado, um cientista da 
computação sem conhecimento em biologia e com sua característica ânsia de analisar 
dados, será capaz de pegar uma infinidade de dados biológicos e fazer uma grande 
quantidade de análises computacionais sem qualquer propósito, gerando resultados de 
difícil interpretação, por vezes ininterpretáveis ou sem qualquer sentido biológico. O 
trabalho em equipe, para a produção de projetos em bioinformática, pode ser 
interessante, desde que os profissionais trabalhem juntos todo o tempo. Reuniões 
apenas esporádicas normalmente fazem com que as idéias do trabalho do biólogo e do 
cientista da computação se afastem dos ideais iniciais da pesquisa. Isso no caso 
médio. É claro que é possível conseguir bons resultados em casos isolados. 
 Considerando isso, torna-se necessário o desenvolvimento de um novo 
profissional, o bioinformata. Um biólogo que tenha tido uma formação parcial como 
cientista da computação ou vice-versa. Além disso, é preciso que tal profissional tenha 
ainda uma formação em bioinformática e que conheça profundamente as diferenças e 
as boas e más qualidades dos principais bancos de dados públicos sobre seqüências e 
estruturas de biomoléculas. Como não temos a intenção de ensinar biologia molecular 
ou ciência da computação, no presente curso daremos ênfase exatamente a esta 
última parte, que consiste na formação do bioinformata per si, que deve conhecer pelo 
menos o básico com relação à análise de genomas e as ferramentas e bancos de dados 
disponíveis na internet para o estudo dessa nova ciência. 
 Com relação aos requisitos computacionais que serão apresentados apenas de 
passagem no presente curso, um profissional em bioinformática deve ter um bom 
conhecimento algum sistema operacional baseado em UNIX, sem qualquer sombra de 
dúvida. Quase todos os algoritmos utilizados para a pesquisa em bioinformática 
apresentam código aberto e são, freqüentemente, disponíveis apenas para sistema 
operacionais como o LINUX e o Solaris. Os programas de código aberto são aqueles 
nos quais os programadores disponibilizam todo o código fonte do programa para o 
usuário, que pode alterá-lo de acordo com a sua aplicação de interesse. E esse é 
também um dos motivos pelos quais os bioinformatas devem ser familiarizados com 
linguagens de programação. Um bioinformata que não sabe programar em uma 
linguagem qualquer tem dificuldades para se desenvolver e, portanto, o profissional 
deve estar ao menos apto a aprender alguma linguagem de programação. 
 Outro conhecimento que gera um salto qualitativo na atividade do bioinformata 
é o conhecimento de bancos de dados e linguagem SQL. A linguagem SQL é a mais 
comumente utilizada em uma diversidade de bancos de dados e muitos sites 
disponibilizam informações armazenas em tabelas e bancos de dados inteiros. Devido à 
sua gratuidade e eficiência, o banco de dados mais utilizado em bioinformática é o 
MySQL, mas quaisquer outros podem ser utilizados sem demais inconvenientes. Mas 
mais importante ainda do que ser capaz de obter os bancos de dados públicos é o 
bioinformata ser capaz de criar seus próprios bancos de dados, organizando as 
informações de seu projeto e permitindo tanto um bom armazenamento quanto 
organização e fácil acesso aos dados. Além disso, o conhecimento de plataformas para 
disponibilizar dados para os pesquisadores é interessante e o bioinformata deve ter 
algum conhecimento de linguagem HTML e, de preferência alguma linguagem de 
 
 
© Francisco Prosdocimi, 2007. Todos os direitosreservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
6 
programação para a internet, como o CGI ou o PHP, sendo que esse último ainda 
apresenta a vantagem de permitir fácil conexão com bancos de dados. 
 É claro que a gama de conhecimento necessária para exercer bem uma 
profissão qualquer tende a ser infinita, mas é indispensável ao menos que o 
bioinformata seja proficiente em uma linguagem de programação e tenha bons 
conhecimentos de biologia molecular, dos bancos de dados e das ferramentas a serem 
utilizadas em cada caso. Aqui, iremos passar apenas de leve em programação e 
biologia molecular na próxima aula e depois passaremos direto para a parte que 
explica e mostra quais são as principais ferramentas utilizadas em análises genômicas 
e os principais bancos de dados que devem ser consultados em diferentes aplicações. 
 
 
1.4. Cursos de pós-graduação em bioinformática no Brasil 
 
Até o presente momento parecem existir apenas três cursos de pós-graduação 
em bioinformática no Brasil. O primeiro e mais tradicional deles é o curso de pós-
graduação Lato Sensu em Bioinformática do LNCC, cuja página oficial pode ser vista 
em http://www.lncc.br/~biologia/. Três turmas de alunos já graduados de todo o país 
já foram formadas por esta pós-graduação, inclusive o presente autor desse curso on-
line, quem vos escreve. Consiste num ótimo curso de especialização, no qual os 
maiores expoentes do país na área são chamados para ministrar diferentes aulas nos 
campos da genômica, transcriptômica e proteômica. Além desse curso de pós-
graduação, que dura cerca de três meses e meio, o LNCC também oferece cursos 
esporádicos com duração entre duas semanas e um mês e recomenda-se visitar a 
página do LNCC para mais informações (http://www.lncc.br). 
Logo a CAPES percebeu a importância de se abrirem cursos nessa área 
estratégica e propôs um edital para a formação de cursos de doutorado em 
bioinformática. A partir daí dois novos cursos de doutorado em bioinformática foram 
criados, um na USP (setembro de 2002) e outro na UFMG (abril de 2003). Para mais 
informações, visite o site dos programas http://www.ime.usp.br/posbioinfo/ e 
http://www.bioinfo.dout.ufmg.br/. 
 
 
1.5. Conversando sobre bioinformática – BIOCHAT 
 
A revista biotecnologia promove esporadicamente o chamado biochat, que 
consiste em uma conversa com um pesquisador experimente de uma determinada 
área do conhecimento. Abaixo transcrevo um dos biochats realizado com o autor do 
presente curso, onde várias dúvidas básicas sobre o assunto podem ser sanadas. 
 
Assunto do Biochat: Conceitos e Paradigmas em Bioinformática 
Pesquisador entrevistado: Francisco Prosdocimi 
Há uma grande confusão com relação ao que seja a bioinformática, sendo que 
muitos ainda acreditam que qualquer aplicação da computação à biologia possa ser 
referenciada como "bioinformática". Ao observarmos os trabalhos recentemente 
publicados na área, podemos dividí-los em três correntes básicas ou princípios 
paradigmáticos, chamados metaforicamente de "o tijolo", "a peneira" e "a lupa". Tais 
princípios serão apresentados e discutidos durante o BIOCHAT. Além disso, é 
interessante discutirmos quais seriam os pré-requisitos básicos para formar um 
bioinformata, tanto na área computacional quanto na área biológica. Do que, afinal, é 
feito um bioinformata e o que ele precisa conhecer é tema recorrente entre os curiosos 
sobre a área.O conceito da bioinformática, seus princípios paradigmáticos e a formação 
do bioinformata serão, portanto, os temas a serem discutidos neste BIOCHAT. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
7 
 
Dr. Francisco 
Prosdocimi 
Boa noite a todos! Está aberto nosso biochat sobre bioinformática. Por 
favor, enviem suas dúvidas para que possamos discutir e trocar idéias 
a respeito do assunto. 
Vanderson: Grande Francisco... Afinal, qual o conceito mais aceito para Bioinformática? 
Dr. Francisco 
Prosdocimi 
Olá Vanderson. Fico agradecido pela sua presença. Na verdade existem 
vários conceitos para bioinformática e muita confusão é feita sobre o 
tema. Na minha opinião a bioinformática surgiu com o boom dos 
sequenciadores automáticos de DNA e ainda hoje está ligada a análises 
de seqüências de biomoléculas. 
Adonis: Biologia computadorizada? Ouvi este termo e queria saber qual é a 
diferença disso para Bioinformática? 
Dr. Francisco 
Prosdocimi 
Pois é, meu prezado Adonis. A biologia computacional diz respeito a 
qualquer aplicação da computação na área biológica, enquanto a 
bioinformática está freqüentemente associada a analise de seqüências 
de genoma, transcriptoma e proteoma. Esses conceitos entretanto são 
bastante maleáveis e modificam-se todos os anos. 
Pedro: 
Boa noite Dr. Francisco. Sou estudante do curso Bacharelado em 
Bioquímica, na Universidade Federal de Viçosa e tenho direcionado a 
minha formação acadêmica para me tornar... 
Dr. Francisco 
Prosdocimi 
Com relação aos cursos específicos para bioinformática, eles existem 
no Brasil apenas em nível de pós-graduação. Sendo que um deles é o 
curso de especialização lato sensu do LNCC, no qual acontece a 
formação de especialistas em bioinformática. Na USP e na UFMG 
existem cursos de doutorado em bioinformática, onde tais profissionais 
são formados. Eu, a propósito, fui aluno do LNCC e fui também o 
primeiro aluno a defender o doutorado em bioinformática na UFMG. 
Francisco: Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesma dúvida... 
Dr. Francisco 
Prosdocimi 
Com relação a cursos de graduação, meu prezado xará, ainda não 
existem na área e recomendo que vc faça um curso de biologia ou de 
computação, se pretende seguir carreira em bioinfo. 
Adonis: então bioinfo está dentro da biologia computacional? 
Dr. Francisco 
Prosdocimi 
Concordo, Adonis. Na minha opinião a bioinformática é, sim, uma parte 
da biologia computacional, sendo essa última uma área bastante ampla 
e não necessariamente relacionada com biologia molecular. Embora, 
repito, esses conceitos são maleáveis e modificam-se com o 
desenvolver das ciências. 
Pedro: 
Qual a sua experiência com a Bioinformática? O senhor trabalha mais 
no meio acadêmico ou se relaciona diretamente com o mercado de 
trabalho? 
Dr. Francisco 
Prosdocimi 
Trabalho com bioinformática desde 2000, tendo tido anteriormente 
uma formação como biólogo molecular em bancada. Fiz minha 
monografia de bacharelado, minha dissertação de mestrado (em 
genética) com análises de transcriptomas do verme Schistosoma 
mansoni e fui o primeiro aluno a defender o doutorado em 
bioinformática na UFMG trabalhando com análises de qualidade de 
seqüências de DNA e genômica comparativa. Sempre trabalhei mais 
voltado para o meio acadêmico, mas já fiz também alguns trabalhos 
em parceria com uma empresa de Belo Horizonte na área de 
bioinformática. A empresa se chama vetta technologies. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
8 
Vanderson: Pegando a deixa do Pedro, você acha que há mercado de trabalho para 
bioinformatas no Brasil... além das instituições públicas e da Alellyx? 
Dr. Francisco 
Prosdocimi 
Infelizmente, meu amigo Vanderson, não acredito que haja ainda 
mercado de trabalho para bioinformática fora das universidades, 
embora o campo na área de biotecnologia tenha crescido e venha 
crescendo. A existência de algumas empresas trabalhando em 
biotecnologia é muito pequena ainda no Brasil e apenas a Alellyx e a 
Scylla têm alguma representatividade no mercado. Ou seja, a 
bioinformáticaainda é matéria para cientistas financiados pelo 
governo. 
Adonis: Qual seria a dica para trabalhar com bioinfo em um lugar onde não se faça molecular? 
Dr. Francisco 
Prosdocimi 
A dica é estar em parceria com pesquisadores que tenham perguntas 
que só possam ser respondidas através de análise computacional. Eu 
mesmo tenho várias colaborações com diferentes laboratórios e produzi 
um software recentemente, o TGFinder, que surgiu como uma 
necessidade de um pesquisador de encontrar genes controlados por 
fatores de transcrição. Além disso, o GenBank possui tantas seqüências 
depositadas e tanta informação a ser mineirada que nem todos os 
cientistas do mundo seriam capazes de tudo analisar. É claro que a 
pesquisa de ponta é normalmente aquele onde se produz e se analisa 
um novo dado em biologia molecular, mas há muito ouro a ser 
peneirado nos bancos de dados públicos. 
Paulo: Olá Dr. mas como é aplicada a computação ou informática, na 
biologia,neste sequenciadores automáticos de DNA? 
Dr. Francisco 
Prosdocimi 
A computação é aplicada, principalmente, na análise e identificação das 
seqüências de DNA que saem dos sequenciadores automáticos. A 
seqüência sai de lá como um monte de A, C, T e G... que não querem 
dizer nada. O que significa para você isso aqui: 
ACATAGGGACATTACAGAGCATTCAGA? Somente com a bioinformática 
conseguimos atrelar a informação codificada em informação biológica, 
associando A, C, T e G a algum nome de gene com alguma função 
especifica... 
Pedro: Aprofundando mais a discussão, a iniciativa privada na bioinformática está... 
Dr. Francisco 
Prosdocimi 
O grande problema, Pedro, é que acredito que dificilmente a 
bioinformática per se pode dar algum lucro. Por exemplo, a empresa 
Alellyx tem, além de um grande know how em bioinfo, um grande 
know how em biologia molecular e em genômica. A descoberta de 
novos genes 'apenas' por bioinfo é muito difícil e é preciso estar 
sempre sequenciando novos organismos. E um sequenciador de DNA é 
muito caro para que pequenos empresários possam comprar, o capital 
inicial de uma empresa de biotecnologia apresentando bioinformática é 
muito alto. 
Marx: E fora do Brasil, como estão as perspectivas? 
Dr. Francisco 
Prosdocimi 
Fora do Brasil eu acredito que haja bastante espaço, sim, para 
bioinformatas. Assino uma lista de jobs em bioinformática e 
freqüentemente vejo pedidos para profissionais da área... o único 
problema é que normalmente exige-se grande experiência prévia, o 
que não temos ainda no Brasil -- profissionais qualificados. 
Adonis: Dr. Francisco Prosdocimi, fale um pouco sobre mineração de dados já 
que esta é o etapa seguinte depois da geração das seqs. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
9 
Dr. Francisco 
Prosdocimi 
Bem, caro Adonis, isso me remete aos princípios paradigmáticos da 
bioinformática que apresentei no texto introdutório. Acredito que os 
trabalhos atuais em bioinformática podem ser divididos em três 
correntes principais, os trabalhos de tijolo -- onde ferramentas de 
bioinformática são produzidas para construir os edifícios genômicos, os 
trabalhos de peneira -- onde a mineração da grande massa de dados 
em genômica são analisados mais especificamente em vários contextos 
-- e os trabalhos de lupa, onde a genômica encontra a ciência e o 
método científico de observação, hipótese, experimentação e 
resultados são novamente retomados. Escrevi um trabalho sobre isso 
para a revista ciência hoje que foi publicado em 2004. 
Pedro: 
Trabalho atualmente no BIOAGRO-UFV (Instituto de Biotecnologia 
Aplicada à Agropecuária) no Laboratório de Bioinformática, 
desenvolvendo softwares de análise populacionais (genética de 
populações). Você considera válido esse tipo de iniciativa ou seria 
melhor eu estar trabalhando mais especificamente com a biologia 
molecular? 
Dr. Francisco 
Prosdocimi 
Considero muito válido seu trabalho. Mas também já tentei produzir 
algo relacionado a genética de populações e acho muito difícil produzir 
algo melhor do que os já conhecidos programas PAUP, PHYLIP, MEGA, 
dentre outros. Boa sorte! 
Paulo: 
Poderíamos ou podemos, descobrir qual a seqüência para uma 
determinada proteína ou característica. Ou para identificar estes pares, 
para saber qual proteína ela vai produzir, seria isto? 
Dr. Francisco 
Prosdocimi 
Podemos sim, saber qual a seqüência de DNA é relativa a uma 
determinada proteína e, muitas vezes, uma característica. Existe até 
mesmo um projeto conhecido como FENOMA, que tenta identificar os 
genes responsáveis por algum fenótipo (característica). O que 
acontece, entretanto, é que grande parte das características são 
geradas através de um grande número de genes que interagem entre 
si e fazem da análise algo complicadíssimo! 
Vanderson: 
Tenho uma opinião a expressar... Um grande problema que eu percebo 
na maioria dessas ferramentas de bioinformática é o total descaso com 
usuários 
Dr. Francisco 
Prosdocimi 
Concordo plenamente, Vanderson. Biólogos não estão interessados em 
utilizar sistemas linux, linhas de comando e outros artifícios 
computacionais de start-up razoavelmente complexo. Interfaces 
gráficas e fáceis, de preferência via web e bastante user-friendly são 
altamente recomendáveis. Mas é preciso dizer que há também 
programas com manuais completos e simples, mas o usuário parece ter 
preguiça de lê-los, o que definitivamente é preciso fazer. 
Carla: Por acaso já se pode analisar um gene pelo computador? 
Dr. Francisco 
Prosdocimi 
É claro, Carla, os genes são formados por seqüências de nucleotídeos 
que são representadas por A, C, G e T, transformando as seqüências 
dos genes em letrinhas que são analisadas e comparadas entre 
diferentes espécies animais. 
Adonis: 
É real a migração de perl para java? ou isso só tá ocorrendo no meio 
privado? Essa migração seria um preocupação com uma interface mais 
amigável? 
Dr. Francisco 
Prosdocimi 
Caro Adonis, acredito que a migração de PERL para JAVA está 
relacionada ao fato de que a linguagem JAVA é multiplataforma, além 
de ser nativamente orientada a objetos, o que facilita a criação de 
programas mais complexos e de grande porte. Acredito que os scripts 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
10 
freqüentemente utilizados em trabalhos de bioinformática devem 
continuar sendo produzidos em PERL, que é uma linguagem onde a 
expressão regular é nativa e rápida, sendo mais apropriada para tais 
trabalhos. Sim, a migração também pode estar relaciona com uma 
interface mais amigável, já pronta em vários objetos JAVA. 
Carla: Como o Brasil está em relação a outros paises, nesse desenvolvimento? 
O nosso país valoriza a bioinformática? 
Dr. Francisco 
Prosdocimi 
O Brasil anda atrás dos países desenvolvidos quando o assunto é 
bioinformática e, apesar de que recentes iniciativas da CAPES e do 
CNPq vêm tentando buscar equiparação internacional, a bioinformática 
brasileira ainda está em seu berço (esplêndido). 
Macedo: 
Boa noite Dr. Gostaria de saber sobre o cenário de Software Livre x 
Software Proprietário em bioinformática. O Sr. acredita que a adoção 
do software livre pode ajudar na redução de gastos em pesquisa e 
desenvolvimento e que isso possibilitará o estudo de doenças 
negligenciadas? Ou o segmento acadêmico enxerga o software livre 
apenas como ª... 
Dr. Francisco 
Prosdocimi 
No caso da bioinformática posso assegurar que mais de 95% dos 
softwares são livres ou de livre acesso (pelo menos para o meio 
acadêmico) e cerca de 50% são de livre acesso para todos. Porisso, a 
bioinformática exige um custo inicial para pesquisa bem baixo e esse é 
mais um dos motivos pelos quais essa ciência deveria ser mais 
incentivada em nosso país. Com um computador razoável e boas idéias 
é possível fazer boa bioinformática!!! 
Pedro: 
Uma empresa privada que prestasse suporte em bioinformática 
(desenvolvendo softwares sequenciadores para organismos específicos 
ou que atendessem alguma demanda de determinada pesquisa, com 
uma interface mais amigável com o usuário final) poderia dar certo? 
Dr. Francisco 
Prosdocimi 
Não estou bem certo, Pedro. O problema é que a idéia para elaboração 
de softwares teria de vir da academia e não sei o pessoal das 
universidades estaria disposto a dar a idéia para que vc fizesse o 
software para eles comprarem, entende? Eles prefeririam pedir no 
departamento de computação para ver se algum outro aluno faria o 
mesmo software de graça, gerando um trabalho publicável em 
conjunto. A menos que vcs produzissem um pacote grande, para uma 
ampla gama de aplicações... aí vc poderia dar certo com sua 
empresa... 
Dani: 
Um profissional em bioinformática deve saber tanto trabalhar com os 
softwares de análises de seqüências quanto desenvolver novos 
programas? Quais são as linguagens de programação mais utilizadas 
para este fim? 
Dr. Francisco 
Prosdocimi 
Ótima pergunta, Dani. É imprescindível para o profissional de 
bioinformática, na minha opinião, ter quatro conhecimentos básicos: 
(1) Ele deve entender bem biologia molecular, (2) saber trabalhar com 
os bancos de dados disponíveis na internet, (3) saber BEM uma 
linguagem de programação e (4) saber manipular bancos de dados. 
Estes, na minha opinião, são os principais requisitos para formar um 
bioinformata. 
Pedro: 
Você contrataria uma empresa dessa natureza para dar suporte às suas 
pesquisas ou prefere, você mesmo, desenvolver os aplicativos com que 
trabalha? 
Dr. Francisco 
Prosdocimi 
Depende do quanto de trabalho fosse necessário. Se fosse pouco 
trabalho, eu mesmo desenvolveria. Se necessitasse de um software 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
11 
amplo, talvez preferisse pagar... mas dependeria de financiamento 
governamental para isso... e o governo não gosta muito do assunto 
'comprar softwares de empresas privadas para trabalhos científicos'. No 
último edital do CNPq para bioinfo, enviamos um projeto tentando 
comprar um software e o projeto não foi aprovado... possivelmente por 
este único motivo. 
Fabio: 
Boa Noite Dr. Francisco, participei da primeira turma de especialização 
em bioinformática do LNCC, atualmente estou fazendo doutorado em 
microbiologia na UFRJ. Gostaria de saber na sua opinião quais são as 
principais diferenças dos cursos de doutorado em Bioinformatica da 
USP e da UFMG? 
Dr. Francisco 
Prosdocimi 
Fala, Fábio. É com receber companheiros por aqui... fui seu sucessor no 
LNCC, participando da segunda turma. Não posso dizer muito do curso 
de doutorado na USP, o qual conheço pouco. Mas ao que me parece o 
curso da USP é muito voltado para as ciências exatas, tendo uma alta 
carga de disciplinas de matemática e estatística. Aqui na UFMG a carga 
de disciplinas é bem balanceada e leve, de forma que o aluno possa se 
preocupar mais com seu projeto de tese. 
Pedro: A quantas anda o desenvolvimento das pesquisas em bioinformática 
aqui no estado de Minas Gerais? 
Dr. Francisco 
Prosdocimi 
Aqui em Minas temos alguns grupos de bioinformática montados. Não 
posso dizer que conheço todos eles, mas aqui na UFMG temos ao 
menos uns três grupos de bioinformática, trabalhando com genoma de 
'Schistosoma mansoni', genômica comparativa e genômica evolutiva, 
mas as coisas ainda são um pouco precárias e a infra-estrutura não é 
das melhores. 
Dani: 
Sou bióloga, especialista em biotecnologia - trabalho com saneamento 
- área ambiental - - mas tenho grande interesse em bioinformática. 
Quais são os conhecimentos básicos de informática que um biólogo 
deve ter para iniciar um mestrado em bioinformática? 
Dr. Francisco 
Prosdocimi 
Bem, não conheço nenhum mestrado em bioinformática e acho que -- 
se houvesse algum -- o aluno deveria conhecer o básico de sistemas 
linux e linguagens de programação. Mas dependendo, se o mestrado 
for para biólogos ou para “computólogos”, os conhecimentos a serem 
exigidos são diferentes. Se for um mestrado para biólogos é possível 
que não seja necessário nenhum conhecimento de informática e todo o 
conhecimento pode ser adquirido quando da realização do curso. 
Dani: 
Qual é campo de trabalho para um pós-graduado em bioinformática, 
além do desenvolvimento de pesquisas em universidades, fundações de 
pesquisa Federais,Estaduais e a Licenciatura? 
Dr. Francisco 
Prosdocimi 
Bem, essa pergunta é um tanto quanto capciosa. Se uma pessoa 
formou em bioinformática, imagino que ela queira fazer pesquisa ou 
dar aulas. É claro que ela pode também trabalhar em alguma empresa 
de biotecnologia ou de bioinformática per si... mas acredito que aí ela 
teria que ir pra fora do Brasil... 
Ricardo: Quais são os trabalhos que vc está fazendo ultimamente na área? 
Dr. Francisco 
Prosdocimi 
Olá, Ricardo. Ultimamente tenho trabalhado com análises do software 
PHRED, com a montagem de um programa para simular a evolução em 
locos de microsatélites, trabalho também com a diferença na utilização 
de aminoácidos por proteínas de diferentes organismos, com a origem 
do código genético, com famílias de proteínas dedos de zinco, dentre 
diversas outras coisas. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
12 
Pedro: 
Então, estarei entrando em contato com o senhor (pois estou na 
organização do evento). Mais uma pergunta, ainda é muito cedo para 
pensarmos em cursos de graduação em bioinformática no Brasil? 
Dr. Francisco 
Prosdocimi 
Ok. Acho que um curso de graduação em bioinformática poderia ser 
bastante interessante sim, mas acho que é cedo para isso. Ainda não 
há, só pra vc ter uma idéia, um conceito amplo do que seja 
bioinformática e é preciso que esta disciplina fique mais madura ao 
longo dos anos para que esse conceito brote claramente. Acho que os 
biólogos moleculares atualmente são os principais candidatos a se 
tornarem bioinformatas e não há nem cursos de graduação em biologia 
molecular... pelo menos desconheço... 
Pedro: 
A título de informação: foi criada na grade curricular do Bacharelado 
em Bioquímica-UFV a BQI460 (Bioinformática), onde serão abordados 
os principais aspectos dessa nova área do conhecimento. 
Dr. Francisco 
Prosdocimi 
Bem, aqui na UFMG o prof. Miguel Ortega já ministra à mais de dois 
anos uma matéria de tópicos em bioquímica e biologia molecular cujo 
assunto é a bionformática. É bastante interessante que a universidade 
de Viçosa tenha proposto uma disciplina específica sobre o assunto e 
mostra como está atualizada com relação aos novos avanços da 
biologia molecular. 
Pedro: O que você considera como maior desafio para a consolidação da 
Bioinformática no Brasil? 
Dr. Francisco 
Prosdocimi 
Considero o maior desafio a formação dos profissionais e a montagem 
de infra-estrutura adequada e de computadores de alto-desempenho 
para as análises mais elaboradas na área. 
 
 
1.6. Referências Bibliográficas e textos complementares 
 
1 Davies, K. (2001). Decifrando o genoma. Companhia das letras. 
2. NCBI: A Science Primer - http://www.ncbi.nlm.nih.gov/About/primer/index.html 
3. NCBI: A Science Primer – Bioinformatics - 
http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html4. Chico On Line – Bioinformática - http://www.icb.ufmg.br/~franc/cool 
5. GenBank Stats - http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html 
 
 
1.7 Brainstorm 
 
1. Dê sua opinião sobre o que entende por bioinformática e qual a importância da 
área. 
2. Vá ao site do NCBI (National Center for Biotechnology Information, o centro 
americano para informação biotecnológica, http://www.ncbi.nlm.nih.gov), leia e 
navegue um pouco. Encontre algum serviço interessante e reporte sua experiência. 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
13 
CAPÍTULO 2 
Genoma, biologia molecular e computação 
 
 
 
2.1. Introdução 
 
Como já foi dito, o presente curso não tem como função explicar genômica, 
biologia molecular ou computação. Ainda assim, alguns conceitos se tornam 
importantes para que possamos seguir o curso e neste capítulo estaremos nos 
dedicando a eles. 
 
 
2.2. Sequenciamento do DNA 
 
 
Figura 2.1. O dogma central da biologia molecular. Da análise de DNA temos os 
projetos genoma, da análise do conteúdo de RNAs mensageiros de uma célula 
produzimos estudos de transcriptoma e a partir da análise de conteúdo protéico 
geramos os projetos proteoma. 
 
A bioinformática surgiu a partir da biologia molecular e dela ainda é inseparável 
(figura 2.1). No capítulo anterior, aprendemos que a bioinformática se desenvolveu 
principalmente depois do surgimento dos seqüenciadores de DNA em larga escala, 
como o ABI Prism 3700. A reação de sequenciamento de DNA consiste basicamente 
em um processo de amplificação da molécula de DNA de interesse. Entretanto, durante 
essa amplificação, são utilizados tanto os nucleotídeos normais de DNA, conhecidos 
como desoxiribonucleotídeos quanto alguns nucleotídeos especiais, conhecidos como 
di-desoxiribonucleotídeos. A diferença entre eles é que os didesoxinucleotídeos 
apresentam, como o nome diz, uma molécula de oxigênio a menos, eles não contém 
uma extremidade 3’OH livre. Assim, se lembrarmos como é formado o esqueleto de 
uma cadeia de DNA, veremos que os nucleotídeos adjacentes são ligados entre si 
através de uma ligação com um grupamento fosfato exatamente na posição do 
carbono 3’. Isso significa que, um nucleotídeo que não apresente um grupamento OH 
nesta posição (chamado di-desoxiribonucleotídeo ou simplesmente di-
desoxinucleotídeo) impede a ligação de um nucleotídeo em seguida, o que interrompe 
a cadeia de DNA naquela posição. Assim, durante a amplificação em que consiste a 
reação de sequenciamento do DNA, são produzidas moléculas de diferentes tamanhos, 
sendo que cada uma delas possui, na sua extremidade, um didesoxinucleotídeo que 
impede a ligação de outros nucleotídeos a seguir. Além disso, dependendo de qual 
base ele carrega, cada um desses nucleotídeos sem a extremidade 3’OH livre 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
14 
apresenta um pigmento fluorescente diferente adicionado. Após a reação de 
sequenciamento – que é realizada num termociclador, assim como um PCR --, as 
moléculas resultantes são submetidas a uma eletroforese. Nesse procedimento, o DNA 
resultante da amplificação é submetido a um gradiente elétrico dentro de uma matriz 
de gel, que permite uma mobilidade diferencial das moléculas. As moléculas pequenas 
de DNA movem mais rapidamente para o pólo positivo durante essa eletroforese. 
Essas moléculas pequenas foram aquelas que incorporaram didesoxinucleotídeos mais 
precocemente do que as outras. E assim, elas vão se movendo na matriz gelatinosa 
mais rapidamente, indo em direção ao pólo positivo. Quando chegam próximo ao pólo, 
um laser incide sobre essa molécula e, dependendo de qual didesoxinucleotídeo foi 
incorporado em sua extremidade final, o laser promove a incidência da fluorescência 
num receptor que capta, afinal, qual foi o comprimento de onda daquele fluoróforo 
excitado. Assim, conseguimos descobrir qual foi a última base daquela molécula já que 
diferentes didesoxinucleotídeos -- com diferentes bases nitrogenadas (A, C, G ou T) --, 
produzem fluorescência diferente a ser captada pelo laser e, dessa forma, sabemos se 
a última base daquela molécula é uma adenina, uma guanina, uma citosina ou uma 
timina. E à medida que as moléculas vão passando pelo gel, cada uma contendo a 
diferença de um único nucleotídeo marcado de acordo com sua base, o computador vai 
gerando um perfil de fluorescências que posteriormente serão transformadas nas letras 
que representam a seqüência de bases da molécula original por algoritmos específicos, 
que trataremos posteriormente neste curso. 
Não é tarefa fácil explicar na forma de texto como é realizado o 
sequenciamento do DNA e, por isso, recomendo aos alunos acessarem o seguinte site 
para entenderem melhor como o seqüenciamento do DNA é realizado, passo a passo: 
http://www.dnalc.org/shockwave/cycseq.html. Outras animações interessantes em 
biologia molecular (como a da técnica de PCR de amplificação do DNA ou técnicas 
forenses baseadas em DNA) podem ser obtidas no mesmo site. É preciso, entretanto, 
fazer o download gratuito do programa macromedia shockwave. 
 
 
2.3. Genômica 
 
Um genoma consiste no conjunto haplóide de informações presentes no DNA de 
um determinado organismo. O conjunto é haplóide porque, na verdade, um organismo 
diplóide apresenta uma dupla cópia de um mesmo segmento de DNA, presente nos 
cromossomos homólogos. Assim, não faz sentido ter essa redundância de informação 
e, por isso, considera-se o genoma como sendo o conjunto haplóide de informação 
genética. Para obter uma seqüência genômica devemos pegar as células de um 
determinado organismo, purificarmos seu DNA e realizarmos a construção da chamada 
biblioteca de DNA genômico. Para tal, o DNA do organismo deve ser picotado em 
pequenos pedacinhos e ligado nos chamados vetores de clonagem -- que podem ser 
plasmídeos, cosmídeos ou vetores que permitem a inserção de segmentos grandes de 
DNA, como os BACs ou YACs que são, respectivamente, os cromossomos artificiais de 
bactérias e leveduras. A partir desses vetores é que são, freqüentemente, 
seqüenciados os segmentos de DNA e cada reação de sequenciamento produz 
moléculas apresentando algo entre trezentos e mil pares de bases. Como os genomas 
são muito maiores do que esse tamanho, mostra-se necessária a montagem do 
genoma utilizando algoritmos de sobreposição de seqüências, que serão apresentados 
em aula posterior. 
 E se o genoma consiste no sequenciamento da molécula de DNA de uma 
determinada célula, o transcriptoma consiste no sequenciamento do conteúdo de RNA 
mensageiro (mRNA) produzido em uma determinada célula sujeita a determinada 
condição. Enquanto uma célula apresenta apenas um genoma estático e imutável, a 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
15 
mesma pode apresentar milhares de diferentes conteúdos de transcriptoma, já que a 
expressão de genes depende de diversos fatores, como o grau de maturação da célula, 
a temperatura à qual ela está sujeita, os nutrientes presentes no meio, a presença de 
algum agente mutagênico específico e mais milhares de outros fatores. Assim, os 
estudos de transcriptoma podem mostrar a adaptação da célula a determinada 
condição e podemos estudar os genes que ficam ativos quando dessa condição. Na 
produção de um projeto transcriptoma (ou de genômica funcional, como também é 
freqüentemente chamado) deve-se purificar o conteúdo de mRNA da célula da 
condição desejada. Como o RNA é uma molécula muito instável, realiza-se sua 
transcriçãoreversa, transformando este RNA numa molécula conhecida como cDNA, 
que representa o DNA complementar à seqüência daquele mRNA. Esse cDNA é então 
clonado em vetores de clonagem para a produção da biblioteca de cDNA que contém 
uma amostra fiel dos mRNAs que foram produzidos pela célula naquela condição. Vale 
notar que, enquanto no genoma observa-se normalmente apenas uma cópia de cada 
gene, nas análises de transcriptoma, cada um dos genes pode estar amostrado 
dezenas de vezes, pois a célula pode estar precisando do mesmo para realizar algum 
tipo de processo e ele pode ter sido transcrito centenas de vezes em moléculas de 
mRNA. 
 
 
2.4. As ômicas: integrando a bioinformação 
 
Veja o artigo publicado na edição 32 da revista biotecnologia: 
http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf. 
 
O pesquisador da Embrapa Soja, Eliseu Binneck, apresenta o status atual da 
genômica no mundo e ainda vários conceitos importantes de biologia molecular e 
genômica. 
 
Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-
37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf 
 
 
2.5. O PERL e outras linguagens de programação 
 
No capítulo anterior discutimos sobre os conhecimentos relevantes para um 
profissional na área de bioinformática. Nesse momento, portanto, gostaria de falar 
mais um pouco sobre a informática utilizada para a análise de seqüências. É 
extremamente importante que qualquer pessoa trabalhando na área de bioinformática 
conheça alguma linguagem de programação. E a principal linguagem utilizada por 
profissionais da bioinformática é o PERL. O PERL é uma linguagem de script que foi 
criada em 1987 por um cientista da computação chamado Larry Wall e é uma sigla 
para Practical Extraction and Report Language ou, em português, Linguagem Prática 
de Extração e Relatório. Segundo a wikipedia (http://pt.wikipedia.org/), a origem do 
PERL remonta ao shell scripting, que é a programação em linhas de comando, ao awk, 
uma outra linguagem bem simples de programação shell e à linguagem C, uma das 
mais utilizadas pelos programadores. Essa linguagem é disponível para praticamente 
todos os sistemas operacionais, mas é utilizada mais freqüentemente em sistemas 
Unix e compatíveis. E o PERL é freqüentemente utilizado pelos bioinformatas porque é 
uma linguagem montada para trabalhar facilmente com o processamento de cadeias 
de caracteres (chamadas de strings pelos informatas), permitindo ainda uma fácil 
manipulação de arquivos texto e a utilização das chamadas expressões regulares, 
muito úteis para se realizar busca em seqüências de caracteres. Como tanto o DNA 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
16 
quanto o RNA e as proteínas podem ser facilmente representados por seqüências de 
caracteres – nucleotídeos ou aminoácidos, representados por seqüências de uma letra 
--, o PERL acabou por permitir, intrinsecamente, uma fácil manipulação dos dados de 
biologia molecular. 
Um exemplo simples de programa em PERL é apresentado abaixo para 
transformar uma seqüência de DNA de entrada em uma nova seqüência de RNA. O 
programa considera que a fita de DNA de entrada é a fita codificadora e, portanto, o 
programa apenas transforma as letras T, de timina, do DNA em letras U, de uracila, 
representando as bases do RNA. 
 
Pequeno script PERL para obter uma fita de RNA a partir de uma fita de DNA. 
 
#!/usr/bin/perl 
 
# Seqüência que se deseja utilizar 
$meuDNA= “TTCCGAGCCAATTGTATCAGTTGCCAATAG”; 
 
# Faz com que a seqüência de RNA receba a mesma seqüência do DNA 
$meuRNA = $meuDNA; 
 
# Troca as bases produzindo a fita complementar 
$meuRNA =~ tr/T/U/; 
print “Minha seqüência de RNA é: \n $meuRNA”; 
 
A primeira linha é obrigatória e diz ao programa o caminho onde se encontra o 
interpretador PERL para que o programa possa encontrá-lo na hora de sua execução. 
Normalmente o PERL está disponível no diretório /usr/bin das distribuições Unix. Vale 
notar que, ao contrário da grande maioria das outras linguagens de programação 
normalmente utilizadas, um programa PERL não é compilado de forma a gerar um 
executável em linguagem de máquina. O script PERL necessita, portanto, de que exista 
um interpretador PERL instalado em alguma pasta de trabalho dentro do computador e 
é exatamente a pasta onde esse interpretador está localizado que deve aparecer nesta 
primeira linha de código. As linhas do script que se começam com o sinal “#” 
representam linhas de comentário e servem apenas para facilitar o entendimento do 
código, não sendo realmente lidas pelo interpretador. Todas as variáveis em 
programação PERL são precedidas do sinal de dólar “$”, elas não têm um tipo pré-
definido (como inteiro, booleano, real, etc.) e não precisam ser declaradas 
anteriormente, cabe ao programador saber como e em que contexto devem ser 
utilizadas. Há também as variáveis do tipo array, que são precedidas do sinal de “@” e 
as variáveis do tipo hash, que devem ser precedidas do sinal de “%”. Todos os 
comandos terminam sempre com um sinal de ponto-e-vírgula. Neste exemplo, a linha 
que realmente faz a tradução de uma seqüência de DNA para uma seqüência de RNA é 
a que apresenta o sinal “=~”. Esse sinal está relacionado à utilização de uma 
expressão regular que, no caso, faz a tradução de todos as letras T de uma seqüência 
de caracteres, transformando-as em letras U. 
 No fundo, a bioinformática – e, num sentido mais amplo, todo software -- pode 
ser desenvolvido utilizando-se qualquer linguagem de programação e há os que ainda 
preferem utilizar a linguagem C ou Java para produzir qualquer tipo de programa. No 
fundo, essa é uma opção pessoal e por mais que uma ou outra linguagem seja mais 
adaptada ou mais rápida para determinado problema, é possível fazer quase qualquer 
coisa com quase qualquer linguagem. Entretanto, mesmo essa simples tradução que 
fizemos de DNA para RNA com apenas uma linha de código, pode se tornar mais árdua 
quando realizada em diferentes linguagens e é exatamente por isso que o PERL é mais 
utilizado na área; por facilitar a programação. Para sistemas mais complexos, no 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
17 
entanto, parece ser consenso que a utilização de uma linguagem de programação 
multi-plataforma, como é o caso do Java, seja mais adequada. 
 
2.6. Referências Bibliográficas e textos complementares 
 
1. Dolan DNA Learning Center - Biology Animation Library - 
http://www.dnalc.org/resources/BiologyAnimationLibrary.htm 
2. Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-37. 
http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf 
3. Perl, Wikipedia. http://pt.wikipedia.org/wiki/Perl 
 
 
2.7. Brainstorm 
 
1. Você viu a animação sobre como é feito o sequenciamento do DNA, descreva agora 
as etapas através das quais é realizada esta técnica. 
2. Descreva como são feitos projetos genoma e transcriptoma. 
3. Perguntas sobre o texto escrito por Binneck. 
a. Apesar de apresentarem um número de genes bastante similar a outros 
organismos, diz-se que os seres humanos apresentam uma diversidade de 
proteínas muito maior do que eles. A que se deve tal diversidade? 
b. Qual a porcentagem do genoma humano que é responsável pela produção 
de genes/proteínas? E o resto, qual seria o motivo – se é que há algum – para 
haver tanto DNA não codificante no genoma? 
c. Você acredita que genes que alteram seus padrões de expressão em 
conjunto possam ter funções parecidas? Por quê? 
d. Escolha duas das ciências “ômicas” e descreva-as 
e. Discorra sobre o papel da bioinformática na agregaçãode dados em biologia 
4. Com relação a linguagens de programação, por que o PERL é conhecido como a 
linguagem dos bioinformatas? Os dados em bioinformática podem ser tratados com 
outras linguagens de programação? Cite outra linguagem possível. 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
18 
CAPÍTULO 3 
Alinhamento de Seqüências 
 
 
3.1. Introdução 
 
O alinhamento de seqüências consiste no processo de comparar duas 
seqüências (de nucleotídeos ou proteínas) de forma a se observar seu nível de 
identidade. Essa técnica de comparação de seqüências é implementada segundo um 
conceito de desenvolvimento de programas conhecido como um algoritmo guloso e é 
um dos pilares de toda a bioinformática. Existem centenas de aplicações do 
alinhamento de seqüências, tanto na identificação de genes e proteínas desconhecidas, 
quanto na comparação da ordem de genes em genomas de organismos proximamente 
relacionados (sintenia), no mapeamento de seqüências expressas dentro de um 
genoma para identificação de genes, na montagem de genomas e em diversas outras 
aplicações. 
Por exemplo, podemos alinhar duas seqüências para descobrirmos o grau de 
similaridade entre as seqüências de forma que possamos inferir (ou não) a uma delas, 
alguma propriedade já conhecida da outra (Prosdocimi et al., 2003). O alinhamento 
entre duas seqüências pode ser feito de forma global ou local (Figura 3.1.). 
 
Figura 3.1. Alinhamento global e local. À esquerda vemos um exemplo de como é 
feito um alinhamento global das seqüências e à direita vemos um exemplo da 
realização de um alinhamento local. Retirado de Prosdocimi et al., 2003. 
 
 
3.2. Alinhamento Global 
 
O alinhamento global é feito quando comparamos uma seqüência de 
aminoácidos ou nucleotídeos com outra, ao longo de toda sua extensão 
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O algoritmo 
Needleman-Wunsch é o mais conhecido para realizar esse tipo de alinhamento, 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
19 
embora outros programas, como o MULTALIN 
(http://prodes.toulouse.inra.fr/multalin/multalin.html) também o façam (Corpet, 
1988). Nesse caso são dados valores em uma matriz de comparação para as 
similaridades (matches), diferenças (mismatches) e falhas (gaps) encontrados durante 
o alinhamento das seqüências. As somas dos valores do alinhamento, de acordo com 
essa matriz de comparação, resulta num valor, que é um escore de similaridade entre 
as seqüências (Figura 3.2.). No MULTALIN não é dado escore de similaridade (já que ele 
permite o alinhamento de várias seqüências ao mesmo tempo), e a semelhança entre 
as seqüências deve ser medida através de inspeção visual. 
 
 
3.3. Alinhamento Local 
 
O alinhamento local acontece quando a comparação entre duas seqüências não 
é feita ao longo de toda sua extensão, mas sim através de pequenas regiões destas 
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). 
O principal programa utilizado para o alinhamento local de seqüências é o 
BLAST (Basic Local Alignment Search Tool ou Ferramenta Básica de Procura por 
Alinhamento Local), encontrado em http://www.ncbi.nlm.nih.gov/BLAST/. Esse 
software compreende um conjunto de algoritmos de comparação de seqüências 
montado de forma a explorar toda a informação contida em bases de dados de DNA e 
proteínas (http://www.ncbi.nlm. nih.gov/BLAST/blast_overview.html). Os programas 
BLAST foram desenvolvidos de modo a aumentar ao máximo a velocidade da busca 
por similaridade -- já que as bases de dados são grandes e vêm crescendo 
exponencialmente --, mesmo correndo o risco de perder um pouco na sensibilidade do 
resultado (Altschul et al., 1997). A rapidez da busca deve-se ao fato de que o 
programa utiliza uma heurística que quebra as seqüências de entrada e das bases de 
dados em fragmentos – as palavras (words) – e procura, inicialmente, similaridades 
entre elas. A busca é então feita com palavras de tamanho W que devem apresentar 
pelo menos um escore T de alinhamento entre si, dado de acordo com uma matriz de 
valores. Assim, as palavras que apresentam esse escore T (maior responsável pela 
velocidade e sensibilidade da busca) (Altschul et al., 1997) são estendidas em ambas 
as direções para ver se geram um alinhamento com um escore maior do que S. Uma 
outra vantagem de se utilizar o alinhamento local feito pelo BLAST é que, dessa forma, 
é possível identificar relações entre seqüências que apresentam apenas regiões 
isoladas de similaridade 
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html). 
 
 
Figura 3.2. Alinhamento de seqüências. O alinhamento de seqüências de DNA é feito 
através da procura de uma região de similaridade entre duas seqüências utilizando um 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
20 
algoritmo guloso. Quando essa região é encontrada são dados pontos para 
similaridades (match), diferenças (mismatches), abertura de falhas (gap opening) e 
extensão de falhas (gap extension) que possam ser encontradas no seu alinhamento. 
A somatória dos pontos desse alinhamento é chamado de escore do alinhamento e, no 
exemplo mostrado, o escore do alinhamento é 3. Tais escores são contabilizados tanto 
nos alinhamentos globais quanto locais. 
 
 
Os resultados do BLAST são então apresentados de acordo com dois 
parâmetros: o valor do escore (Score bits) e o valor E (e-value). O valor de escore 
depende do tamanho do alinhamento, do número de matches/mismatches/gaps e da 
matriz de comparação de seqüências utilizada e é normalizado através de variáveis 
estatísticas (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html). Já 
o valor E representa o número de alinhamentos com escores iguais ou melhores que 
“S” que seria de se esperar que ocorressem ao acaso numa base de dados do tamanho 
da utilizada. Assim, quanto menor o valor E, melhor o alinhamento, de forma que 
(num banco de dados de grandes proporções) um valor de E igual a zero significa que 
não há chance de que um alinhamento entre as duas seqüências tenha ocorrido por 
mero acaso (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). 
O BLAST apresenta diferentes subprogramas que devem ser utilizados de 
acordo com o tipo de seqüência de entrada e os bancos de dados que se deseja 
pesquisar. A TABELA 3.1 apresenta as possibilidades de entrada, bancos de dados e 
programa a ser utilizado. 
 
Formato da 
Seqüência de 
Entrada 
Banco de dados 
Formato da 
seqüência que é 
comparado 
Programa 
BLAST 
adequado 
Nucleotídeos Nucleotídeos Nucleotídeos BLASTn 
Proteínas Proteínas Proteínas BLASTp 
Nucleotídeos Proteínas Proteínas BLASTx 
Proteínas Nucleotídeos Proteínas TBLASTn 
Nucleotídeos Nucleotídeos Proteínas TBLASTtx 
Tabela 3.1: Programas BLAST utilizados de acordo com o formato de entrada de 
seqüência e banco de dados desejados. Adaptada de 
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html. 
 
 
3.4. Alinhamentos ótimos e heurísticos 
 
 Algo que deve ser levado em consideração sempre que se deseja fazer 
alinhamentos de seqüências é o fato de que o alinhamento desejado seja o melhor 
possível de ser obtido através de ferramentas computacionais ou se desejamos apenas 
uma aproximação válida desse melhor resultado. É evidente que, em condições 
normais, desejaríamos sempre obter o melhor resultado de alinhamento possível e, 
portanto, utilizaríamos os algoritmos que produzem resultados ótimos. Entretanto, 
algumas vezesprecisamos obter uma maior rapidez de busca e, portanto, aceitamos 
que o resultado obtido não seja “o melhor possível” e, assim, utilizamos algoritmos 
que apresentam algum tipo de heurística. E essa heurística, no caso, normalmente 
consiste em uma forma qualquer que o programador utiliza para acelerar a produção 
dos resultados, em detrimento da obtenção do melhor resultado possível. Assim 
obtém-se um resultado aproximado, mas rápido. A tabela 3.2 apresenta os principais 
algoritmos utilizados em bioinformática para o alinhamento de seqüências. 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
21 
 
 
Programa Tipo de 
Alinhamento 
Precisão do 
Alinhamento 
Número de seqüências 
a serem alinhadas 
BLAST2Sequences Local Heurístico 2 
SWAT (Smith-Waterman) Local Ótimo 2 
ClustalW Global Heurístico N 
Multalin Global Heurístico N 
Needleman-Wunsch Global Ótimo 2 
Tabela 3.2:Principais programas de alinhamento de seqüências e suas características. 
 
 As ferramentas de alinhamento ótimo são aquelas que nos dão como resultado 
o melhor alinhamento possível de acordo com a metodologia algorítmica de 
comparação de seqüências. Via de regra, a execução desses algoritmos é mais lenta 
do que a daqueles algoritmos que não geram o resultado perfeito e, como vimos na 
tabela 4.2., existem ferramentas de alinhamento ótimo locais e globais. O maior 
problema em utilizar os programas de alinhamento ótimo consiste nos casos onde são 
alinhadas múltiplas seqüências entre si. Nesses casos, o alinhamento ótimo pode se 
tornar simplesmente impossível de ser feito, pois gastaria uma quantidade de tempo 
quase infinita para alinhar otimamente uma quantidade seqüências não muito grande. 
Nos outros casos, entretanto, deve-se preferir a utilização de algoritmos que produzam 
o alinhamento ótimo em detrimento dos algoritmos de pesquisa heurística. 
 Algoritmos heurísticos são aqueles que não realizam o alinhamento ótimo entre 
seqüências. Esses algoritmos freqüentemente utilizam alguma técnica alternativa para 
acelerar o resultado da busca por seqüências similares, no caso. O BLAST, por 
exemplo, como vimos no item anterior, parte a seqüência em pedaços para acelerar a 
busca e outros algoritmos realizam diferentes maneiras de gerar um resultado que 
seja o mais próximo possível do resultado ótimo. Como já comentado, são 
principalmente utilizados em alinhamentos múltiplos, onde os algoritmos ótimos 
demoram um tempo muito grande para gerar os resultados. São freqüentemente 
utilizados também quando da comparação de seqüências contra grandes bancos de 
dados, exatamente como faz o BLAST, que procura a similaridade de uma seqüência 
de entrada contra milhões de outras presentes em seu banco de dados. 
 Muitas vezes, os resultados obtidos com programas heurísticos devem ser 
confirmados por programas de alinhamento ótimo antes de serem publicados em 
revistas especializadas. Entretanto algumas vezes tal procedimento não é necessário e 
tudo vai depender do tipo de trabalho que está sendo realizado. 
 
 
3.5. Alinhamentos simples e múltiplos 
 
 Como também já foi comentado na seção anterior, existem dois tipos principais 
de alinhamentos de seqüências no que concerne ao número de seqüências que são 
comparadas durante o alinhamento. Quando apenas duas seqüências são comparadas 
entre si, diz-se que o alinhamento é simples. E, nesses casos, normalmente prefere-se 
utilizar alinhamentos ótimos para gerarem os resultados, exceto nos casos onde 
milhares de alinhamentos simples devem ser realizados. 
 De forma contrária, considera-se um alinhamento múltiplo quando três ou mais 
seqüências devem ser alinhadas entre si. No fundo, o alinhamento múltiplo é montado 
a partir do alinhamento par a par de cada uma das seqüências com todas as outras, 
seguido por um outro procedimento que irá gerar o resultado final do alinhamento de 
todas contra todas. Assim, se 10 seqüências são comparadas entre si, serão 
necessárias 10! (fatorial de 10) comparações de seqüências, o que representam 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
22 
3.628.800 comparações. E é exatamente por isso que os programas heurísticos são 
preferidos para gerar esse tipo de resultado. 
 
 
3.6. Matrizes de comparação 
 
 Outra coisa de suma importância quando da realização de qualquer alinhamento 
de seqüências é a matriz de substituição que é utilizada. Na figura 3.2. é mostrado um 
alinhamento e o número de “pontos” dados para coincidências (matches), divergências 
(mismatches), abertura de gaps (gap opening) e extensão de gaps (gap extension). 
Entretanto, ao utilizarmos matrizes de substituição podemos dar valores diferentes 
para coincidências de diferentes nucleotídeos ou aminoácidos. Vale notar que o 
resultado de um alinhamento de seqüências pode ser completamente diferente 
dependendo da matriz de substituição utilizada. 
 As matrizes de comparação são principalmente utilizadas durante o alinhamento 
de seqüências de proteínas e isso se deve ao fato de que existem aminoácidos que são 
mais (ou menos) parecidos entre si do que outros. Há aminoácidos com cargas 
polares, apolares ou sem carga e a mudança, em uma proteína, de um aminoácido 
apresentando uma determinada característica para outro da mesma característica é 
menos drástica do que uma mudança para um aminoácido apresentando característica 
diferente. Portanto, as matrizes de substituição são extremamente utilizadas no 
alinhamento de seqüências protéicas. 
Mesmo no caso de seqüências de nucleotídeos são mais comuns as mutações 
conhecidas como transições do que as transversões. Nas transições, a mutação ocorre 
entre bases do mesmo tipo, purina para purina (A para G ou G para A) ou pirimidina 
para pirimidina (C para T ou T para C), enquanto nas transversões ocorre a mudança 
de uma purina para uma pirimidina ou o contrário. Dessa forma, ao utilizarmos 
matrizes de substituição, podemos dar mais pesos para as transversões do que para as 
transições, o que faria com que o resultado fosse mais relevante e pudesse estar mais 
relacionado com a evolução, por exemplo. 
As matrizes de substituição mais comuns para seqüências nucleotídicas são a 
mat50 e a mat70, enquanto para seqüências protéicas as mais conhecidas são as 
matrizes PAM e BLOSUM. As matrizes BLOSUM (Blocks Substitution Matrix), por 
exemplo, são baseadas na observação das freqüências de substituição em blocos de 
alinhamentos locais de proteínas relacionadas. Existem várias matrizes BLOSUM e elas 
devem ser utilizadas para comparar proteínas contendo um determinado valor de 
identidade, por exemplo, a matriz mais utilizada pelos programas é a BLOSUM62, que 
foi montada para comparar proteínas que apresentem 62% de aminoácidos idênticos. 
 Abaixo vemos as matrizes de substituição de nucleotídeos mat50 e mat70. 
Podemos perceber que a matriz mat70 apresenta valores menores para algumas 
substituições. Isso faz com que o valor final do alinhamento entre duas seqüências de 
DNA seja menor e, portanto, a matriz mat70 gera um resultado de alinhamento local 
de um menor número de bases do que a matriz mat50, que estende o alinhamento um 
pouco mais. 
 
Bases A C G T Y R N 
A 2 -2 0 -2 -2 1 0 
C -2 2 -2 0 1 -2 0 
G 0 -2 2 -2 -2 1 0 
T -2 0 -2 2 1 -2 0 
Y -2 1 -2 1 1 -2 0 
R 1 -2 1 -2 -2 1 0 
N 0 0 0 0 0 0 0 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
23 
Tabela 3.3: Matriz de substituição de nucleotídeos mat50. O valor dado para cada 
troca pode ser visto nas interseções. O Y representapirimidinas, o R representa 
purinas e o N representa qualquer nucleotídeo. 
 
Bases A C G T Y R N 
A 2 -2 -1 -2 -2 0 0 
C -2 2 -2 -1 0 -2 0 
G -1 -2 2 -2 -2 0 0 
T -2 -1 -2 2 0 -2 0 
Y -2 0 -2 0 0 -2 0 
R 0 -2 0 -2 -2 0 0 
N 0 0 0 0 0 0 0 
Tabela 3.4: Matriz de substituição de nucleotídeos mat70. O valor dado para cada 
troca pode ser visto nas interseções. O Y representa pirimidinas, o R representa 
purinas e o N representa qualquer nucleotídeo. 
 
 
3.7. Exemplos reais de alinhamentos 
 
a) Alinhamento global simples entre seqüências de DNA, usando o algoritmo 
Needleman-Wunsch. 
######################################## 
# Program: needle 
# Rundate: Fri Nov 19 15:57:40 2004 
# Align_format: srspair 
# Report_file: 1x2.needle 
######################################## 
#======================================= 
# 
# Aligned_sequences: 2 
# 1: Seq1 
# 2: Seq2 
# Matrix: EDNAFULL 
# Gap_penalty: 10.0 
# Extend_penalty: 0.5 
# 
# Length: 736 
# Identity: 464/736 (63.0%) 
# Similarity: 464/736 (63.0%) 
# Gaps: 272/736 (37.0%) 
# Score: 2261.0 
# 
# 
#======================================= 
 
Seq1 1 0 
 
Seq2 1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC 50 
 
Seq1 1 0 
 
Seq2 51 TGGAATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGAC 100 
 
Seq1 1 CTTTCAAGATGAACG 15 
 ||||||||||||||| 
Seq2 101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG 150 
 
Seq1 16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 65 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
24 
Seq2 151 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 200 
 
Seq1 66 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 115 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 201 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 250 
 
Seq1 116 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 165 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 251 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 300 
 
Seq1 166 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 215 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 301 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 350 
 
Seq1 216 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 265 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 351 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 400 
 
Seq1 266 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 315 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 401 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 450 
 
Seq1 316 CAGTCCATAA---------------------------------------- 325 
 |||||||||| 
Seq2 451 CAGTCCATAAAGGTCAGATTCTGTTAATGTAAACAGTTTTTGTATATACA 500 
 
Seq1 326 -------------------------------------------------- 325 
 
Seq2 501 GCGTTCCTATCTTTGTTTTTCTTCAATACTTACCTGTTAGGGTTTTTGGT 550 
 
Seq1 326 ---------AGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 366 
 ||||||||||||||||||||||||||||||||||||||||| 
Seq2 551 CATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 600 
 
Seq1 367 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 416 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 601 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 650 
 
Seq1 417 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA 464 
 |||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 651 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATC 700 
 
Seq1 465 464 
 
Seq2 701 CAGCCTTAAACGACACATAGAAAGCATTCACGAAAG 736 
 
 
#--------------------------------------- 
#--------------------------------------- 
 
b) Alinhamento local simples entre as mesmas seqüências de DNA, usando o 
algoritmo BLAST. 
BLASTN 2.2.8 [Jan-05-2004] 
 
 
Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, 
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), 
"Gapped BLAST and PSI-BLAST: a new generation of protein database search 
programs", Nucleic Acids Res. 25:3389-3402. 
 
Query= Seq1 
 (464 letters) 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
25 
Database: seq2 
 1 sequences; 736 total letters 
 
Searching.done 
 
 Score E 
Sequences producing significant alignments: (bits) Value 
 
Seq2 652 0.0 
 
>Seq2 
 Length = 736 
 
 Score = 652 bits (329), Expect = 0.0 
 Identities = 329/329 (100%) 
 Strand = Plus / Plus 
 
 
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 
 
 
Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 
 
 
Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 
 
 
Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375 
 
 
Query: 241 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 300 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 376 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 435 
 
 
Query: 301 acacacatatcaaagcagtccataaaggt 329 
 ||||||||||||||||||||||||||||| 
Sbjct: 436 acacacatatcaaagcagtccataaaggt 464 
 
 
 
 Score = 276 bits (139), Expect = 3e-78 
 Identities = 139/139 (100%) 
 Strand = Plus / PlusQuery: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 
 
 
Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
26 
 
Query: 446 gcgaaacttctctcagaaa 464 
 ||||||||||||||||||| 
Sbjct: 680 gcgaaacttctctcagaaa 698 
 
 
 Database: seq2 
 Posted date: Nov 19, 2004 3:58 PM 
 Number of letters in database: 736 
 Number of sequences in database: 1 
 
Lambda K H 
 1.37 0.711 1.31 
 
Gapped 
Lambda K H 
 1.37 0.711 1.31 
 
 
Matrix: blastn matrix:1 -3 
Gap Penalties: Existence: 5, Extension: 2 
Number of Hits to DB: 2 
Number of Sequences: 1 
Number of extensions: 2 
Number of successful extensions: 2 
Number of sequences better than 10.0: 1 
Number of HSP's better than 10.0 without gapping: 1 
Number of HSP's successfully gapped in prelim test: 0 
Number of HSP's that attempted gapping in prelim test: 0 
Number of HSP's gapped (non-prelim): 2 
length of query: 464 
length of database: 736 
effective HSP length: 9 
effective length of query: 455 
effective length of database: 727 
effective search space: 330785 
effective search space used: 330785 
T: 0 
A: 0 
X1: 6 (11.9 bits) 
X2: 15 (29.7 bits) 
S1: 12 (24.3 bits) 
S2: 8 (16.4 bits) 
 
c) Alinhamento global múltiplo entre as mesmas seqüências de DNA (e outras 
duas mais), usando o algoritmo CLUSTALW. 
 
CLUSTAL W (1.81) multiple sequence alignment 
 
 
Seq1 ------------------------------------------------------------ 
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA 
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA 
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA 
 
 
Seq1 ------------------------------------------------------------ 
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA 
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA 
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
27 
Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT 
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT 
Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT 
Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT 
 *************************************** 
 
Seq1 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT 
Seq4 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT 
Seq2 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT 
Seq3 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT 
 ************************************************************ 
 
Seq1 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG 
Seq4 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG 
Seq2 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG 
Seq3 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG 
 ************************************************************ 
 
Seq1 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA 
Seq4 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA 
Seq2 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA 
Seq3 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA 
 ************************************************************ 
 
Seq1 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT 
Seq4 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT 
Seq2 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT 
Seq3 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT 
 ************************************************************ 
 
Seq1 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------- 
Seq4 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGTCAGATTCTGT 
Seq2 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------- 
Seq3 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------- 
 ************************************************** 
 
Seq1 ------------------------------------------------------------ 
Seq4 TAATGTAAACAGTTTTTGTATATACAGCGTTCCTATCTTTGTTTTTCTTCAATACTTACC 
Seq2 ------------------------------------------------------------ 
Seq3 ------------------------------------------------------------ 
 
 
Seq1 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA 
Seq4 TGTTAGGGTTTTTGGTCATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATA 
Seq2 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA 
Seq3 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA 
 ******************************* 
 
Seq1 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA 
Seq4 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA 
Seq2 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA 
Seq3 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACANAGGTCTCA 
 *************************************************** ******** 
 
Seq1 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA--------------- 
Seq4 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTTAAACGA 
Seq2 AGCCTTTCCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTAAAACGA 
Seq3 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTANAACGA 
 ******** ************************************ 
 
Seq1 ------------------------------------------------------------ 
Seq4 CACATAGAAAGCATTCACGAAAG------------------------------------- 
Seq2 CACATAGAAGCAATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGATTGTATAAT 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
28 
Seq3 CACATAGAAAGCATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGAT-GTATAAT 
 
 
Seq1 ------------------------------------------------------- 
Seq4 ------------------------------------------------------- 
Seq2 CCTCTCCAATTTTCATATGATTTCATGTTCAAAAATATACATTTATTATTCTTTC 
Seq3 CCTCTCCAATTT-CATATGATTNCATGNTCANAA-TATACATTTATTATTCTTTC 
 
 
3.8. Referências Bibliográficas1 NCBI Glossário --http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html 
2. BLAST -- http://www.ncbi.nlm.nih.gov/BLAST/ 
3. BLAST Overview -- http://www.ncbi.nlm.nih.gov/BLAST/blast_overview.html 
4. BLAST Guide: Deciphering the Output 
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html 
5. BLAST Query Tutorial 
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html 
6. NCBI Similarity Page 
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html 
7. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos 
ACF; Nhani-Júnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; 
Camargo LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and 
Folgueras-Flatschart AV. Bioinformática: manual do usuário. Biotec. Ci. Des. 
29: 18-31, 2002. 
 
 
3.9. Brainstorm 
 
1 Cite duas possíveis utilidades do alinhamento de seqüências no campo da 
bioinformática. 
2 Qual a diferença entre alinhamento global e local? Cite o nome de ferramentas que 
fazer um ou outro alinhamento. Você é capaz de perceber as diferenças entre os 
resultados do alinhamento de duas seqüências idênticas através de diferentes 
ferramentas de alinhamento? Explique as diferenças nos resultados mostrados nos 
itens 4.7. a) e b) 
3 É possível realizar alinhamentos utilizando uma seqüência de DNA e outra de 
proteína? Como você acha que isso poderia ser feito? O BLAST implementa esse 
tipo de ferramenta? Qual o(s) programa(s) do BLAST fazem isso? 
4 Qual a diferença entre alinhamentos simples e múltiplos? Quais são as ferramentas 
de alinhamento (ótimo ou heurístico) mais indicadas para trabalhar com cada um 
desses tipos de alinhamento? Por quê? 
5 Cite as principais aplicações das ferramentas que utilizam heurística para produzir 
um alinhamento de seqüências. 
6 Entre no site do NCBI, Nucleotide e obtenha as seqüências de número de acesso 
AF117710 e AF181832 (da mesma forma que na aula anterior). Acesse o site do 
programa BLAST2Sequences (http://www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2. 
cgi). Copie a sequencia do primeiro gene na região apropriada, assim como a 
sequencia do segundo gene e clique em Align. Classifique o tipo de alinhamento 
realizado em todos os aspectos que conseguir? Quais foram as posições que 
mostraram diferenças entre as duas seqüências? Houve diferenças na região que 
codifica a proteína? 
7 O que são as matrizes de substituição e qual a relevância delas no alinhamento de 
seqüências? 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
29 
CAPÍTULO 4 
Montando um genoma 
 
“Seqüenciar o DNA é agora uma das tarefas mais fáceis de realizar, além de servir 
hambúrgueres.” Karry Mullis, prêmio Nobel 
 
 
Iniciando nossa Interação 
 
Nos dias de hoje, a arte de seqüenciar um DNA e até mesmo de montar um 
genoma de uma bactéria são tarefas relativamente técnicas. É claro, análise deste 
genoma e o entendimento da relação do genoma com as características e a forma 
como um organismo vive são tarefas altamente complexas e que exigem um grande 
esforço cientifico a ser realizado pelos maiores especialistas em todo o mundo. 
 
 
4.1. Sobre genomas eucarióticos e procarióticos 
 
Nos dias de hoje, a arte de seqüenciar um DNA e até mesmo de montar um 
genoma de uma bactéria são tarefas relativamente técnicas. É claro, análise deste 
genoma e o entendimento da relação do genoma com as características e a forma 
como um organismo vive são tarefas altamente complexas e que exigem um grande 
esforço cientifico a ser realizado pelos maiores especialistas em todo o mundo. 
A montagem de genomas de organismos procariotos (bactérias e 
arqueobactérias) consiste num trabalho muito mais simples do que a montagem de 
genomas de organismos eucarióticos (protozoários, fungos, plantas e animais). E isso 
se deve a várias características freqüentemente comuns aos genomas bacterianos. 
Estes são comumente pequenos -- apresentado apenas alguns milhões de pares de 
bases --, circulares e contém uma baixa taxa de seqüências repetitivas. Já os genomas 
de organismos eucarióticos são grades, normalmente na ordem de bilhões de pares de 
bases, apresentam disposição do genoma em diversos cromossomos, que devem ser 
montados separadamente e, ainda, apresentam uma grande quantidade de seqüências 
repetitivas. Se considerássemos o genoma como um quebra cabeça, os genomas 
bacterianos teriam apenas poucas peças e todas seriam facilmente encaixáveis. De 
forma contrária, os genomas eucarióticos poderiam ser considerados um conjunto de 
diversos quebra-cabeças (representando diferentes cromossomos) com centenas ou 
milhares de peças, com todas elas embaralhadas entre os quebra-cabeças e onde 
determinadas peças parecessem muito com outras, tanto dentro de um mesmo 
quebra-cabeça quanto entre quebra-cabeças diferentes, dificultando de forma drástica 
a montagem. Por isso, os genomas eucarióticos são montados aos poucos, sendo que 
primeiramente são identificadas as partes mais fáceis, não repetitivas, e assim é 
montado um chamado scaffold, ou esqueleto, do genoma. Assim, os genomas 
eucarióticos normalmente são montados por equipes bem maiores e mais bem 
equipadas de cientistas, apresentando ainda uma plataforma de bioinformática mais 
complexa e organizada. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
30 
 Dessa forma, são utilizadas diferentes técnicas de seqüenciamento para se 
obter seqüências de um genoma eucarioto ou procarioto. Em bactérias, normalmente 
todo o DNA é quebrado em pedacinhos minúsculos em uma técnica conhecida como 
shotgun ou whole genome shotgun. Esses pequenos pedacinhos de genoma (contendo 
aproximadamente 2.000 pares de bases) são ligados em vetores de clonagem 
bacterianos, os plasmídeos. Assim, cada plasmídeo é seqüenciado uma vez a partir de 
cada uma de suas extremidades (direita e esquerda) e as seqüências de DNA 
produzidas são posteriormente concatenadas para que o genoma seja montado por 
inteiro. 
Já no caso dos grandes genomas de organismos eucarióticos, os fragmentos 
genômicos são primeiro divididos em grandes vetores de clonagem como BACs 
(Bacterial Artifical Chromosome ou, em português, cromossomo artificial de bactéria) 
ou YACs (Yeast Artificial Chromosome ou cromossomo artificial de levedura), que 
podem abrigar seqüências de DNA de centenas de milhares de bases. No chamado 
shotgun hierárquico, essas seqüências presentes nos BACs ou YACs é que são alvo 
do chamado shotgun onde, agora sim, essas seqüências são quebradas em outras 
contendo aproximadamente 2.000 pares de bases e ligadas em plasmídeos bacterianos 
cujas extremidades serão seqüenciadas. Dessa forma, os BACs e YACs são montados 
separadamente e, posteriormente, é realizada a montagem do genoma através da 
sobreposição das seqüências destes grandes vetores. 
 
 
 
Figura 4.1. a) Na estratégia de shotgun, todo o DNA genômico de um organismo é 
fragmentado em pequenos pedaços (1), que são clonados em vetores de pequeno 
porte, como plasmídeos, para o posterior seqüenciamento. b) Na estratégia de shotgun 
hierárquico, normalmente utilizada para grandes genomas, realizam-se dois passos. 
(1) Primeiramente fragmenta-se o genoma em grandes pedaços, que são clonados em 
vetores de grande porte, como BACs ou YACs. (2) Posteriormente realiza-se uma 
segunda etapa de shotgun, onde as seqüências contidas nesses vetores são 
fragmentadas em pequenos pedaços e clonadas em vetores de pequeno porte, que 
serão seqüenciados. Retirado de Prosdocimi et al., 2003. 
 
 
4.2. Base-calling 
 
Uma frase clássica do meu co-orientador de doutorado, o Prof.Miguel Ortega, é 
que um mito da genômica é o de que os seqüenciadores de DNA é que seriam 
responsáveis por gerar a seqüência de bases da molécula desejada. Conforme vimos 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
31 
na animação apresentada na segunda aula, o seqüenciador apenas é responsável pela 
leitura das moléculas marcadas com cada um dos fluoróforos durante a eletroforese. 
Na verdade, é necessário um programa de computador para pegar esses dados sobre 
qual fluoróforo passou a cada instante e transformar esse dado num conjunto de letras 
que represente a seqüência de bases do DNA. E um programa que faça isso é 
conhecido como um nomeador de bases ou base-caller. Além de gerar a seqüência de 
bases que representa a molécula de DNA seqüenciada, o base-caller produz também 
um valor de qualidade associado a cada uma das bases. Assim, é possível saber quais 
foram as regiões seqüenciadas com maior ou menor qualidade. O algoritmo mais 
conhecido e utilizado para realizar a nomeação das bases (ou base-calling) é o PHRED. 
O PHRED utiliza um algoritmo baseado na análise de Fourier para reconhecer os dados 
brutos gerados pelo seqüenciador e produzir tanto a seqüência de bases quanto a 
qualidade de cada uma delas. A qualidade das bases é dada com relação à 
probabilidade logarítmica da base estar incorreta e a fórmula utilizada pelo PHRED 
para chegar a esta qualidade é dada pela seguinte fórmula: 
 
 
QUALIDADE PHRED = -10 * log10 (Probabilidade de Erro) 
 
 
 Assim, com os dados brutos do seqüenciador, o PHRED atribui a cada base uma 
chance desta estar incorreta e, utilizando a fórmula acima, associa um valor de 
qualidade à cada uma delas. Um valor de qualidade de PHRED (ou simplesmente valor 
de PHRED, valor de qualidade ou qualidade da base) igual a 10, representa que aquela 
base tem uma chance em dez de estar incorreta (10%). Como o valor está em escala 
logarítmica, um valor de PHRED 20, significa que aquela base tem uma chance em cem 
de estar incorreta (1%) e um valor de 30 representa uma chance em mil (0,1%). 
 Freqüentemente, aceita-se que um valor de PHRED igual a 20 é suficiente para 
aceitar uma base como real ou utiliza-se para aceitar uma região de boa qualidade. 
Entretanto, trabalhos recentes têm mostrado que podemos confiar em valores 
relativamente mais baixos (Prosdocimi et al., 2004). 
 
Exemplos de arquivos produzidos pelos programas de base-calling: (a) Arquivo de 
seqüência no formato FASTA e (b) arquivo .QUAL apresentando a qualidade das bases. 
 
a) 
> Seq1 
ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTC 
TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC 
b) 
> Qual1 
10 12 15 15 15 18 20 22 25 18 13 8 5 5 8 10 7 12 18 
25 30 30 22 13 12 12 12 11 9 9 10 15 20 20 22 6 6 5 
 
 
4.3. Cross-match 
 
Como foi dito no primeiro item desta aula, as seqüências de DNA geradas em 
projetos genoma são primeiramente clonadas em moléculas de DNA plasmidial. Dessa 
forma, algumas vezes pedaços de seqüências dessa molécula bacteriana acabam 
sendo produzidas em conjunto com as moléculas do DNA que se deseja produzir. 
Como as moléculas dos vetores de clonagem não representam o genoma que se 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
32 
deseja montar, é preciso mascará-las antes de se realizar a montagem do genoma. E, 
para isso, utiliza-se um software conhecido como Cross-match. O cross-match é 
basicamente um algoritmo que realiza um alinhamento local entre duas seqüências de 
nucleotídeos quaisquer e permite a formatação do resultado de diversas maneiras 
diferentes. 
Normalmente, executa-se o cross-match utilizando dois arquivos de entrada e a 
opção –screen. O primeiro arquivo deve apresentar as seqüências geradas no projeto 
que se deseja retirar as partes relacionadas às seqüências bacterianas e o segundo 
arquivo deve conter uma ou mais seqüências de vetores de clonagem (como 
plasmídeos) que se deseja procurar no primeiro arquivo. Basicamente, o cross-match 
realiza o alinhamento entre todas as seqüências do primeiro e do segundo arquivo 
utilizando o algoritmo SWAT (veja aula 4). Ele apresenta ainda um valor limite para 
considerar o alinhamento entre as seqüências como válido. Se o alinhamento entre 
uma seqüência do primeiro arquivo e uma outra do segundo arquivo for válido, o 
programa mascara a região do primeiro arquivo onde ela foi similar com a do segundo, 
colocando letras Xs no local. Isso evita que essas regiões sejam utilizadas para o 
agrupamento das seqüências, como será mostrado a seguir. 
 
Exemplo de seqüência que apresentava região inicial contendo partes de vetor de 
clonagem. Uma seqüência desse tipo pode ser encontrada no arquivo –screen, obtido 
como resultado do algoritmo cross-match: 
 
> Seq1.screen 
XXXXXXXXXXXXXXXXXXXXXXXXXXAATATCAGCACCATCTCGAATCTC 
TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC 
 
 
4.4. Agrupamento de seqüências 
 
O agrupamento de seqüências (ou sequence assembly) é o procedimento que 
gera, realmente, os contigs genômicos e permite a montagem do genoma per si. A 
montagem do genoma é importante porque ainda não existe nenhuma técnica que 
permita o seqüenciamento de moléculas de DNA de mais de mil pares de bases. Em 
uma corrida normal de seqüenciamento, gerada em um seqüenciador em larga escala, 
é comum que sejam produzidas cerca de 600 bases da seqüência de DNA desejada. 
Com sorte é possível produzir até mil bases da seqüência, mas um seqüenciamento 
tão bom não é muito comum. E como as moléculas de DNA genômicas freqüentemente 
apresentam milhares ou milhões de pares de bases, é preciso montar os fragmentos, 
de seiscentos em seiscentos, até que seja possível gerar toda a seqüência do genoma. 
Portanto podemos fazer uma analogia da montagem de genoma como se o 
mesmo se constituísse num livro de mil páginas cujas palavras e a ordem delas seja 
completamente desconhecida. O que os cientistas fazem é pegar uma grande 
quantidade de livros idênticos, digamos trinta deles e picotarem todos os livros em 
trechos contendo uma quantidade fixa de palavras -- duas mil, por exemplo -- num 
processo de shotgun de palavras. Guarde os números e não se perca. Essas palavras 
acabam tendo que ser inseridas num outro livro -- o plasmídeo --, esse já montado e 
de frases conhecidas. Então acontece a leitura de seiscentas palavras por vez desse 
livro-plasmídeo. E são lidas milhares de seqüências de seiscentas palavras inseridas 
em livros-plasmídeos diferentes. Primeiramente, então, é necessário observar essas 
palavras lidas dos livros-plasmídeos ligados a uma parte do livro genômico e retirar as 
frases que sabemos serem do plasmídeo apenas, e não do livro que estamos tentando 
montar. O cross-match é o programa que faz isso. Ele compara as seqüências lidas 
com a seqüência do livro-plasmídeo e, onde ele encontrar frases do livro plasmídeo, 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
33 
ele troca-as por letras X. Então, depois do cross-match, teremos vários conjuntos de 
aproximadamente seiscentas palavras que sabemos ser de nosso livro genômico. 
Agora é preciso montá-lo. Para isso teremos que ir lendo todas os conjuntos de frases 
e observando onde as frases se sobrepõem para podermos juntá-las e gerar, por 
exemplo, um capítulo do livro (que poderia ser uma analogia à montagem de um BAC 
ou de um cromossomo inteiro). Veja o exemplo: 
 
 
 
A seguir temos uma Fábula Fabulosa do escritor Millôr Fernandes que foi, assim como 
um genoma, dividida em partes. Monteas partes e produza a seqüência completa da 
fábula. 
 
> Frase 1 
sabedoria e calor que fazem os seres humanos - "mas eu não". MORAL DA HISTÓRIA: 
NÃO MORRE A PASSARADA QUANDO MORRE UM PÁSSARO. 
> Frase 2 
ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco anos?" 
"Sim, é verdade" - respondeu então a outra, cheia daquela compreensão, sabedoria e 
> Frase 3 
Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo, 
ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco anos?" 
> Frase 4 
não morreu há cinco anos?" "Sim, é verdade" - respondeu então a outra, cheia daquela 
compreensão, sabedoria e calor que fazem os seres humanos - "mas eu não". 
 
 
 
 O genoma é montado da mesma maneira que você realizou para montar essa 
fábula do Millôr chamada “A viúva”. (Para ler mais fábulas do escritor, acesse 
http://www.millor.com.br.) Várias seqüências representando pedaços de genoma são 
gerados e observa-se a posição onde elas se sobrepõem. Realizando a sobreposição de 
vários trechos de seqüência é possível montar todo o genoma. Entretanto, como já foi 
dito, um genoma apresenta milhões ou bilhões de seqüências de nucleotídeos e, 
portanto, não é possível realizar esta montagem à mão. Para isso existem algoritmos 
de montagem de genoma, como o PHRAP, o CAP e o TIGR Assembler. O PHRAP é o 
algoritmo mais utilizado e funciona mais ou menos da forma mostrada na figura 5.2. 
 
 
Figura 4.2. O agrupamento de seqüências é baseado no alinhamento e no escore do 
alinhamento de seqüências. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
34 
 
 A figura 4.2 é idêntica à figura 3.2, mostrada no capítulo anterior. A diferença é 
basicamente o contexto com o qual ela é mostrada agora. A figura mostra o 
alinhamento entre duas seqüências de DNA e mostra os escores dados para o 
alinhamento das seqüências. O escore total desse alinhamento é igual a três, mostrado 
em alaranjado. E é exatamente baseando-se nesse escore que funciona um programa 
de montagem de genoma, como o PHRAP. O PHRAP apresenta um parâmetro muito 
importante chamado de minscore, que representa o valor mínimo do escore do 
alinhamento que ele utiliza para dizer que duas seqüências são parecidas o suficiente e 
que podem ser reunidas para gerar uma seqüência maior. Se o alinhamento entre 
duas seqüências apresenta um escore menor do que o minscore, as seqüências não 
são agrupadas e considera-se que representam partes distintas de um mesmo 
genoma. Já se o alinhamento entre duas seqüências apresenta um escore maior do 
que o minscore, o PHRAP considera que as seqüências estão na mesma posição e 
produz a chamada seqüência consenso, que consiste na concatenação das duas 
seqüências entre si, da mesma forma que você fez com a fábula do Millôr. 
 
 
4.5. Sobre a cobertura dos genomas 
 
Algo que é interessante de ser notado é a cobertura necessária de 
seqüenciamento para se produzir um genoma. Em nossa analogia do livro, pegamos 
trinta livros e picotamos todos eles em partes sendo que, posteriormente, lemos várias 
partes deles para tentarmos montar um livro inteiro novamente. Se nosso livro 
tivesse, por exemplo, seis mil palavras e nossas partes picotadas tivessem pouco mais 
de seiscentas palavras cada, teoricamente precisaríamos apenas de cerca de dez 
partes para montar um livro inteiro, certo? Errado! Como as dez partes são pegas 
aleatoriamente, é de se esperar que haja uma certa redundância nas frases obtidas. 
Em nosso exemplo da fábula do Millôr, podemos ver que a frase 2 é totalmente 
redundante e que conseguiríamos montar toda a fábula mesmo sem ela. Entretanto, 
qualquer outra combinação de três frases (exceto pelas frases 1, 3 e 4), impediria que 
a montagem da fábula fosse feita de forma completa, ainda que o número de palavras 
somadas entre as três frases produza um número maior do que o da fábula completa. 
Voltando à análise de genomas, isso significa que certas vezes damos o “azar 
estatístico” de não conseguirmos obter toda a seqüência do genoma e, assim, temos 
que seqüenciar mais moléculas para conseguirmos fechar nosso genoma. E, 
considerando o grande tamanho dos genomas, normalmente considera-se necessário 
produzir um número de bases que seja de 8 a 10 vezes maior do que a seqüência 
completa do genoma inteiro para que seja possível montar esse genoma 
completamente! E, ainda assim, muitas vezes é preciso utilizar outras técnicas mais 
complexas para que o genoma seja efetivamente terminado. E isso se deve ao fato de 
que algumas regiões do DNA parecem apresentar uma maior dificuldade de serem 
cortadas em partes ou clonadas nos vetores bacterianos (plasmídeos). Assim, a parte 
mais complexa de toda a montagem do genoma consiste no fechamento da seqüência 
completa do mesmo. E, depois de completo, cada uma de suas partes deve ser 
identificada, no processo de anotação genômica, que será tema do capítulo 7. 
 
 
 
 
 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
35 
4.6. Referências Bibliográficas 
 
1. PHRED, PHRAP, CONSED -- http://www.phrap.org 
2. Ewing B, Hillier L, Wendl MC, Green P. Base-calling of automated sequencer traces 
using phred. I. Accuracy assessment. Genome Res. 1998 Mar;8(3):175-85. 
3. Ewing B, Green P. Base-calling of automated sequencer traces using phred. II. 
Error probabilities. Genome Res. 1998 Mar;8(3):186-94. 
4. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html 
5. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos 
ACF; Nhani-Júnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; 
Camargo LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and 
Folgueras-Flatschart AV. Bioinformática: manual do usuário. Biotec. Ci. Des. 
29: 18-31, 2002. 
 
 
4.7. Brainstorm 
 
1. Por que quando sequenciamos o genoma de um organismo temos que levar em 
consideração se ele é eucarioto ou procarioto? Quais são as diferentes estratégias 
de sequenciamento desses genomas? 
2. Qual a importância dos algoritmos de base calling? Se uma determinada base tem 
um valor de qualidade igual a 40, qual a chance dela estar incorreta? 
3. Por que o software cross-match é importante na montagem de genomas? 
4. Qual o principal parâmetro utilizado pelo programa PHRAP para realizar o 
agrupamento das seqüências de DNA? Como ele funciona? 
5. Apresente a fábula do Millôr totalmente montada. 
6. Digamos que o valor de minscore do nosso programa fosse igual a 2 e apresente 
uma das possíveis seqüências consensos que seria gerada a partir da concatenação 
das duas seqüências da figura 4.2. O que você faria para escolher qual base estaria 
no consenso no caso de gaps e mismatches? 
7. Por que não é suficiente seqüenciar apenas seis mil bases para montar um genoma 
deste tamanho (seis mil bases)? 
 
 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
36 
CAPÍTULO 5 
Análise de Transcriptomas 
 
5.1. As ESTs 
 
As ESTs (Expressed Sequence Tags, ou Etiquetas de Seqüências Expressas) 
correspondem a pedaços de genes expressos, derivados dos RNAs mensageiros, que 
são utilizados na análise de transcriptomas de organismos. São chamadas etiquetas 
porque correspondem apenas a pedaços dos genes que um organismo expressa em 
uma determinada situação. Essas etiquetas, entretanto, permitem que saibamos quais 
genes estão sendo produzidos por uma célula numa determinada condição e permitem 
também que estudos comparativos possam ser feitos. Um estudoclássico feito com 
ESTs está relacionado a células tumorais, onde se compara os genes expressos em 
uma célula normal e em uma célula cancerosa e, dessa forma, pode-se tentar 
compreender como o processo tumoral leva à expressão diferenciada de genes. 
 
 
Figura 5.1. Produção de ESTs e ORESTES. As etiquetas de seqüências expressas 
(ESTs) são obtidas através, primeiramente, da transcrição reversa de um conjunto de 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
37 
mRNAs expressos numa célula, produzindo as fitas de DNA complementar (cDNA). 
Após esse procedimento, utiliza-se uma RNAse H para digerir as seqüências de RNA 
inicial e é produzida a segunda fita de DNA, gerando a molécula de cDNA fita dupla. 
Essa molécula é normalmente ligada em vetores de clonagem (como plasmídeos) e são 
utilizados iniciadores para o seqüenciamento das extremidades 5’ ou 3’ do cDNA em 
apenas uma “rodada” de seqüenciamento. As seqüências obtidas são as chamadas 
ESTs. A técnica de ORESTES é uma alternativa à produção de ESTs onde, ao contrário 
destas, pega-se preferencialmente a parte central das seqüências gênicas. 
 
 
5.2. Histórico das ESTs 
 
O seguinte trecho foi adaptado do livro “Desvendando o Genoma” da editora 
Companhia das Letras, escrito por Kevin Davies (2001, capítulo 3) e apresenta um 
interessante histórico de como foram redescobertas as seqüências de ESTs e como isso 
gerou um grande impacto na ciência da época. 
Em junho de 1991, o pesquisador J. Craig Venter e colaboradores apresentou 
um artigo na revista americana Science que revolucionaria as estratégias de 
sequenciamento de transcriptomas em todo o mundo. O artigo era intitulado 
“Sequenciamento de DNA Complementar: Etiquetas de Seqüências Expressas e o 
Projeto Genoma Humano” e identificava a seqüência de mais de 300 novos genes 
humanos ativos no cérebro, obtidos aleatoriamente a partir de cerca de 600 clones de 
cDNA. De todas as seqüências produzidas, Venter havia conseguido identificar tanto 
genes humanos já conhecidos quanto genes novos e outros que apresentavam 
similaridades com genes identificados de outros organismos; um deles, por exemplo, 
apresentou uma identidade significativa com o gene NOTCH, uma importante molécula 
de sinalização intracelular conhecida na mosca-das-frutas. E essa alta similaridade 
entre genes presentes em espécies separadas há milhões de anos indicava que 
possivelmente eles apresentavam funções importantes no metabolismo celular, como 
foi posteriormente comprovado através de estudos experimentais. 
O impacto causado na comunidade científica por este artigo que publicava o 
primeiro estudo de genoma em “larga-escala” foi maior do que a soma de suas partes 
– através da analse de cada um dos genes identificados. O sequenciamento dessas 
etiquetas, as ESTs, consistia em algo redundante e tecnicamente sujo, devido a 
presença de vários erros nas seqüências. Apesar disso, em uma única publicação, 
Venter havia identificado mais de 10% dos genes que toda a comunidade produzira em 
quase duas décadas, sendo que o GenBank, à época, possuía menos de 3 mil 
seqüências de genes humanos. Um novo tipo de diálogo científico, que viria a se tornar 
comum na era da genômica, anos mais tarde, era inaugurado por aquele artigo 
revolucionário. Venter havia conseguido bolar uma técnica que possibilitava a produção 
de centenas de seqüências de cDNAs de uma forma rápida e inteligente e previa que, 
com esta abordagem, conseguiria sequenciar a maioria dos cDNAs humanos em alguns 
anos. Além disso, previa também que em breve alguns “melhoramentos nas 
tecnologias de sequenciamento do DNA tornariam exeqüível o exame essencialmente 
completo do conjunto de genes expressos de um organismo”. 
E essas novidades abalavam as opiniões dos principais responsáveis naquele 
momento pelo sequenciamento do genoma humano, algo que questiona suas 
autoridades. O principal argumento destes, no entanto, era o de que a abordagem de 
sequenciamento de ESTs não considerava as informações do DNA que não eram 
transcritas em RNA. Assim o ganhador do prêmio Nobel e co-descobrir da estrutura do 
DNA, James Watson, à época diretor do Projeto Genoma do NIH, sustentava 
corretamente que a técnica popularizada por Venter não substituía a análise genômica, 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
38 
no que este concordava e argumentava que o sequenciamento de ESTs deveria não 
substituir mas complementar as análises de genoma. 
Oito meses depois, Venter publicava um artigo na Nature descrevendo as 
seqüências parciais de cDNA de mais 2375 genes expressos no cérebro, mostrando 
que seu grupo de trabalho era capaz de gerar, sozinho, um volume monstruoso de 
dados de seqüências de ESTs. Em menos de um ano o laboratório de Venter tinha sido 
capaz de sequenciar duas vezes o total de genes já conhecidos até então. Além disso, 
seu laboratório continuava gerando cada vez mais seqüências, ininterruptamente. 
Críticas surgiam sobre as contaminações de algumas seqüências e sobre os erros que 
estas apresentavam, mas nada que derrubasse o status que Venter já havia alcançado. 
E, ainda que este pesquisador já tivesse concordado do fato de que o sequenciamento 
de ESTs não era alternativa para o projeto genoma, o editor da Nature John Maddox 
ainda ressaltava no editorial da mesma revista onde fora publicado o segundo artigo 
de Venter: “Na esteira da saída de James Watson do Projeto Genoma Humano dos 
Estados Unidos, existe o perigo de que a abordagem de cDNA seja apresentada como 
uma alternativa mais barata para completar o sequenciamento [do genoma], o que ela 
não é”. 
 
 
5.3. Agrupamento de ESTs 
 
Como as ESTs representam o genoma expresso em uma célula num 
determinado momento, é comum haver redundância gênica quando do 
sequenciamento dessa moléculas. E isso se deve ao fato de que uma célula pode 
precisar muito da presença de algum gene num determinado momento e, nesse caso, 
ela irá produzir uma grande quantidade de moléculas de mRNA do gene em questão. 
Entretanto, quando o pesquisador quer analisar seu transcriptoma, ele deve identificar 
os genes expressos e, para ele, é melhor identificar os genes apenas uma vez. Para 
isso é feito o agrupamento ou clustering de ESTs. Da mesma forma como é feita a 
montagem de genoma, aqui também se utiliza o PHRAP para montar cada um dos 
genes seqüenciados. Dessa vez, entretanto, não se espera que sejam formadas 
moléculas muito grandes, os genes geralmente apresentam algo em torno de dois mil 
pares de bases. E os genes normalmente não apresentam regiões de sobreposição com 
outros genes, de forma que cada um dos genes aqui é montado separadamente. 
Na análise de clustering ou agrupamento de ESTs, as seqüências dessas 
moléculas do organismo em questão são utilizadas como entrada em um programa. 
Este deve comparar essas seqüências entre si, de forma a encontrar quais delas são 
idênticas ou contêm regiões parecidas o suficiente para que sejam reunidas em uma 
só, assim como na análise genômica. Assim, o programa apresenta uma saída 
contendo as seqüências que foram agrupadas – chamadas de consensos ou contigs 
– e as seqüências que não foram reunidas (por não apresentarem similaridade 
suficiente com nenhuma outra) – chamadas de singlets. Cada uma das seqüências 
resultantes do agrupamento (seja ela uma singlet ou um contig) é chamada de unique 
(figura 5.2), que consiste no conjunto não redundante de moléculas. Considerando 
uma análise ideal, cada uma das seqüências unique deve representar um gene 
distinto. Entretanto, na prática, a presença de famílias gênicas (apresentando regiões 
de similaridadedentro dos genes) e de genes duplicados dificulta a obtenção desse 
resultado ideal e, muitas vezes, a seqüência unique pode representar mais de um 
gene. Em outras ocasiões, um mesmo gene pode estar representado por mais de um 
unique, sendo que um dos uniques pode corresponder, por exemplo, à extremidade 5’ 
de um determinado gene e outro à extremidade 3’ do mesmo. 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
39 
 
Figura 5.2. Agrupamento de seqüências de ESTs. O agrupamento das seqüências 
produz as seqüências não-redundantes, chamadas de uniques. As uniques são o 
conjunto das seqüências consenso mais as seqüências singlets. 
O agrupamento das seqüências é importante devido, principalmente, aos 
seguintes fatores: (1) elimina a redundância das seqüências, (2) aumenta o tamanho 
das seqüências facilitando a anotação por homologia (Oliveira & Johnston 2001), (3) 
aumenta o nível de confiabilidade de cada seqüência (Miller et al., 1999). Diferentes 
abordagens têm sido utilizadas para o agrupamento de seqüências de ESTs. O Unigene 
do NCBI utiliza comparações de seqüências em vários níveis de rigor para agrupar as 
seqüências em consensos (http://www.ncbi.nlm.nih.gov/UniGene/build.html) (Schuler 
1997). No TIGR, os índices gênicos são formados utilizando um software desenvolvido 
por eles mesmos, o TIGR Assembler, ou o CAP3 (Liang et al., 2000). Já no projeto 
genoma humano (HPG) as seqüências são agrupadas utilizando-se o software PHRAP 
(International Human Genome Sequencing Consortium 2001). 
 
 
5.4. O genoma e o transcriptoma 
 
No final da seção 5.2, vimos que editor da revista Nature, Sir Maddox, dizia que 
existia “o perigo de que a abordagem de cDNA seja apresentada como uma alternativa 
mais barata para completar o sequenciamento [do genoma], o que ela não é”. Vale a 
pena, portanto, neste momento, discutirmos as diferenças entre as análises de 
genomas e de transcriptomas. Vale notar primeiramente que nenhuma das duas 
análises exclui a outra e são estudos que, apesar de relacionados, provém respostas 
para perguntas diferentes. A molécula de DNA é estática e está presente, com a 
mesma constituição, em todas as células do organismo. A decifração desse conteúdo 
estático de DNA é a tarefa da genômica. Já o conteúdo de RNA de uma determinada 
célula depende do tempo e das condições à qual ela está sendo submetida. O 
transcriptoma mede a parte do genoma que está sendo utilizada num determinado 
momento. E essa parte do genoma expresso é diferente para cada tipo celular. 
Existem genes que são expressos apenas na pele, outros no cérebro e alguns nos 
testículos. Alguns genes são ainda mais expressos quando a célula está submetida a 
um choque térmico, à restrição calórica ou à falta de oxigênio. Enquanto o genoma é 
apenas um, existem vários transcriptomas possíveis para uma mesma espécie. 
Algumas perguntas, entretanto, só podem ser obtidas quando se observa o 
genoma expresso, enquanto outras, apenas quando se observa o genoma estático. Por 
exemplo, por mais que se obtenha seqüências de ESTs de vários diferentes tecidos de 
um organismo, nunca é possível dizer que ele não apresenta um determinado gene 
através de análises transcriptômicas. De forma contrária, quando se obtém toda a 
seqüência de genoma do organismo é possível saber todo o repertório de genes que 
ele possui para realizar alguma tarefa metabólica. Ao mesmo tempo, através da 
análise genômica é impossível saber, por exemplo, qual o repertório gênico que é 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
40 
super-expresso numa determinada condição como, por exemplo, quando a célula se 
torna cancerígena. 
Dessa forma, as análises de genoma e transcriptoma são complementares e 
ambas são importantes para responder perguntas específicas. Existem, entretanto, 
outras formas de análise do transcriptoma que não sejam através de seqüências de 
ESTs, como o SAGE e a análise dos microarranjos de DNA (ou microarrays, os chips de 
DNA). 
 
 
5.5. SAGE – Serial Analysis of Gene Expression 
 
 Enquanto uma EST tem aproximadamente cerca de 600 pares de bases, 
permitindo uma identificação quase inequívoca do gene expresso, outras técnicas, 
como o SAGE, permitem uma identificação mais exaustiva porém menos precisa do 
gene que se deseja obter. Na técnica de SAGE são concatenados fragmentos de 
quatorze pares de bases de diversos mRNAs diferentes, formando uma longa molécula 
híbrida contendo vários pedaços de diferentes mRNAs. Assim, uma molécula de cerca 
de 600 pares de bases é lida no seqüenciador, apresentando uma seqüência 
ininterrupta das chamadas “SAGE tags”, cada uma contendo quatorze pares de bases. 
Dessa forma, uma única seqüência de SAGE apresenta informação sobre diversos 
mRNAs diferentes que podem estar expressos em uma certa célula. Um problema, 
entretanto, da técnica, é que muitos genes apresentam fragmentos internos comuns e, 
muitas vezes, fica difícil saber ao certo qual gene foi expresso quando se observa uma 
etiqueta de SAGE muito comum em diferentes genes. Voltando á analogia do livro, 
agora seria como se você quisesse descobrir qual página do livro que seu colega está 
lendo, mas ele te dá apenas três palavras consecutivas para que você encontre a 
página. É claro que, dependendo do livro, aquela combinação de três palavras vai estar 
presente em apenas uma página. Mas pode haver livros onde essa combinação possa 
estar presente em dez páginas diferentes. E, dessa forma, fica difícil identificar 
precisamente a partir de qual página (ou gene) vieram aquelas palavras (ou a 
seqüência de quatorze nucleotídeos). 
 Apesar disso, a técnica é bastante utilizada e é útil em vários casos. A grande 
vantagem da utilização da técnica de SAGE é que ela permite amostrar uma grande 
quantidade de genes, cerca de quarenta para cada seqüência produzida, e apresenta 
uma contabilidade eficiente de quantas SAGE tags de um determinado gene foram 
vistas para cada milhão de etiquetas, permitindo uma análise numérica da expressão 
gênica diferencial em cada tecido humano. 
 
 
5.6. Microarrays 
 
 A técnica de microarray é outra das técnicas de análise de transcriptomas e 
consiste em na hibridação de ácidos nucléicos, servindo para medir a expressão 
absoluta ou diferencial de genes submetidos a condições diferentes. Primeiramente 
deve-se montar a lâmina que vai conter os genes que se deseja estudar. Nessa lâmina 
são ligados fragmentos de cDNA ou são construídas pequenas seqüências de 
oligonucleotídeos que ficam ligadas à lâmina. Posteriormente, duas células são 
tratadas em diferentes condições onde o caso mais comum baseia-se no estudo de 
células normais contra células tumorais. Assim, os RNAs de cada uma dessas células 
são marcados com uma determinada fluorescência e colocados para hibridar contra os 
cDNAs ou oligonucleotídeos presentes no chip (ou lâmina) de DNA. Através da 
complementaridade de bases, as moléculas de um ou outro tecido vão se ligando às 
moléculas do chip e, posteriormente, utiliza-se um laser para realizar a leitura das 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
41 
fluorescências das moléculas que hibridaram no chip. Assim, conseguimos observar, 
para cada um dos genes do array, quanto eles se ligaram em seqüências da célula do 
primeiro tratamento, digamos normal, ou do segundo tratamento, digamos tumoral. A 
vantagem da técnica é que ela permite a análise de milhares de genes ao mesmo 
tempo, sendo que o chip é montado por um robô capaz de ligar oscDNAs em posições 
bem próximas. Entretanto, essa é uma técnica que apresenta uma grande quantidade 
de ruído e análises computacionais e estatísticas complexas devem ser realizadas para 
se gerar um resultado satisfatório. 
 
5.7. Referências Bibliográficas 
 
1. Davies, K. (2001). Decifrando o genoma. Companhia das letras. 
2. PHRAP -- http://www.phrap.org 
3. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html 
4. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos 
ACF; Nhani-Júnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo 
LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-
Flatschart AV. Bioinformática: manual do usuário. Biotec. Ci. Des. 29: 18-31, 
2002. 
 
5.8. Brainstorm 
 
1. Defina o que é uma seqüência de EST. 
2. Por que o trabalho de Venter, em 1991, causou tanto impacto na comunidade 
científca? 
3. Quais são os motivos pelos quais se realiza o sequenciamento de ESTs? 
4. O que são singlets, contigs e uniques? 
5. Proponha um experimento no qual a resposta seja produzida em um projeto 
genoma e outro experimento cuja resposta só possa ser gerada através de uma 
análise de transcriptomas. 
6. Em que consiste a técnica de SAGE, qual as suas vantagens e desvantagens? 
7. Como é realizado um experimento de microarray? Além da comparação entre 
células normais e tumorais, qual outra comparação você poderia propor para ser 
estudada em um experimento como esse? 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
42 
CAPÍTULO 6 
Bancos de dados em Biologia Molecular 
 
 
Neste capítulo vamos tratar das bases de dados em biologia molecular. As bases de 
dados em biologia molecular são importantes principalmente para proporcionar à 
comunidade científica uma forma de tornar os dados (produzidos em todo o mundo) 
acessíveis de forma fácil, rápida e inteligente 
(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html). 
 
 
6.1. Histórico 
 
As bases de dados em biologia molecular são importantes principalmente para 
proporcionar à comunidade científica uma forma de tornar os dados (produzidos em 
todo o mundo) acessíveis de forma fácil, rápida e inteligente 
(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html). A primeira base de 
dados de biologia molecular parece ter surgido por volta de 1960, quando Dayhoff e 
colaboradores construíram um catálogo contendo todas as seqüências de proteínas 
conhecidas até a data. Essas seqüências foram publicadas num livro chamado “Atlas of 
Protein Sequences and Structure”, de 1965. É interessante notar que o conteúdo dessa 
base de dados não deveria conter mais de 1 megabyte de informação, se transferida 
para computadores modernos (Baxevanis & Ouellette 2001). 
Com o advento do seqüenciamento do DNA e, principalmente, a partir da 
década de 1990, do seqüenciamento em larga escala, foi necessária a construção de 
bancos de dados mais robustos para abrigar a explosão no número de seqüências 
obtidas pelos pesquisadores (como vimos na primeira aula). O NCBI, por exemplo, foi 
criado pelo NIH (National Institutes of Health, os Institutos Nacionais de Saúde dos 
Estados Unidos) em 1988 para abrigar esse tipo de informação (Wheller et al., 2002). 
Dessa forma, foi criada uma colaboração internacional para montar um banco de dados 
de seqüências de nucleotídeos, a INSDC (International Nucleotide Sequence Database 
Colaboration). Essa instituição contém o NCBI, o EMBL (European Molecular Biology 
Laboratory ou Laboratório Europeu de Biologia Molecular) e o DDBJ (DNA Data Bank of 
Japan ou Banco de dados de DNA do Japão) (Tateno et al., 2002). Cada um desses 
centros possibilita a submissão individual de seqüências de DNA e trocam informações 
entre si diariamente, sendo que todos os três possuem informações atualizadas de 
todas as seqüências disponíveis para os pesquisadores (Stoesser et al., 2002). Apesar 
disso, cada centro apresenta os dados de forma particular, apesar de bastante 
semelhante. 
Ultimamente têm surgido uma grande quantidade de novos bancos de dados 
em biologia molecular. E são tantos que uma das principais revistas da área, a inglesa 
Nucleic Acids Research (http://nar.oupjournals.org/), tem reservado dois números 
especiais por ano (os primeiros volumes dos meses de janeiro e julho) apresentando 
apenas artigos sobre novos bancos de dados ou de atualizações de bancos já 
consagrados pela comunidade. Sempre vale a pena dar uma olhada nessa revista para 
descobrirmos se algum novo banco publicado pode ajudar em nossa pesquisa. E, cada 
vez mais, torna-se impossível fazer pesquisa em biologia sem estar por dentro dessas 
novas atualizações. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
43 
 
6.2. Bancos primários e secundários 
 
Existem basicamente dois tipos de bancos de dados disponíveis para utilização e 
pesquisa de genes e proteínas (Baxevanis & Ouellette 2001). Os bancos de dados 
primários apresentam resultados de dados experimentais que são publicados com 
alguma interpretação, mas não há uma análise cuidadosa desses dados com relação 
aos outros publicados anteriormente. Esse é o caso, por exemplo, do GenBank, EMBL e 
PDB (Protein Data Bank). Já os secundários são aqueles onde há uma compilação e 
interpretação dos dados de entrada por um ou mais grupos de cientistas, de forma que 
podem ser obtidos dados mais representativos e interessantes. Esses são os bancos de 
dados curados, como o COG, SWISS-PROT e o TrEMBL. 
 
 
6.3. GenBank e GenPept 
 
O GenBank e o GenPept (a variante do GenBank para seqüências de proteínas) 
são os principais bancos de dados primários contendo seqüências de biomoléculas 
existentes no mundo e é muito importante que entendamos o funcionamento de seus 
principais números identificadores de seqüências: o GI e o AN. 
O primeiro identificador de seqüência criado no NCBI foi o LOCUS, que era o 
único identificador de um registro no GenBank. O nome do loco era – e ainda é – 
definido como uma seqüência de 10 ou menos letras em caixa alta que apresentam um 
mnemônico para a função e o organismo de origem da seqüência. Assim o nome 
HUMHBB era utilizado para representar a região da β-globina humana (Baxevanis & 
Ouellette 2001). Entretanto, com a descoberta de cada vez mais locos e alelos 
diferentes, e com o aumento exponencial do número de seqüências no GenBank, ficou 
impossível a invenção e a atualização dos nomes de forma controlada. Assim os nomes 
de LOCUS, apesar de ainda aparecerem nos arquivos de formato GenBank, não têm 
mais nenhuma utilidade prática. 
Devido a essas dificuldades de utilização da informação armazenada em LOCUS, 
o conselho internacional de colaboradores para seqüências de nucleotídeos (NCBI, 
EMBL e DDBJ) introduziu o conceito de accession number (AN) ou número de acesso. 
Esse número não carrega, intencionalmente, nenhuma informação biológica, de forma 
a permanecer estável. Originalmente consistia de uma letra seguida por cinco 
números, sendo que cada letra corresponderia ao centro (NCBI, EMBL ou DDBJ) no 
qual a seqüência fora submetida (Baxevanis & Ouellette 2001). Entretanto, logo esse 
número também começou a apresentar problemas, já que as seqüências eram 
atualizadas contendo o mesmo AN. No arquivo GenBank há um campo chamado 
accession, onde há a informação sobre o histórico de uma determinada seqüência; se 
ela se juntou a outra, se foi atualizada, etc. Apesar desses problemas, o AN é o índice 
mais controlado e confiável dos registros do NCBI/EMBL/DDBJ. Para melhorar a 
identificação de seqüências antigas, os membros do INSDC resolveram, em 1999, 
acrescentar, aoAN, o número de sua versão (Benson et al., 2002). Dessa forma pode-
se ver o número de acesso, um ponto, e o número de atualizações feitas em uma 
determinada seqüência. Por exemplo, o número de acesso A21645.3 é a terceira 
atualização da seqüência A21645 e as versões mais velhas permanecem armazenas e 
acessíveis através dos números de submissão A21645.1 e A21645.2. Um código 
similar de AN.versão é dado também para seqüências de proteínas. 
E para criar um índice ainda mais robusto para suas entradas, o NCBI, em 
1992, criou um novo identificador, o GenInfo Identifier (GI), um número inteiro 
simples. Esse é um identificador único para cada seqüência, independente de 
atualizações ou de qualquer outra coisa que possa acontecer com uma seqüência. Toda 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
44 
entrada no NCBI possui um GI único da seqüência que não é alterado de forma 
alguma, permanecendo na base de dados para o acesso (Benson et al., 2002). Se uma 
seqüência difere-se da outra por apenas um par de bases, as duas possuirão diferentes 
GIs, apesar de possuírem, por exemplo, o mesmo AN (com diferentes números de 
versão). Todos os processos internos do NCBI utilizam o número de GI para sua a 
execução. 
 
 
6.4. RefSeq – O banco de dados de seqüências de referência 
 
O RefSeq é um dos bancos de dados secundários mais utilizados por 
biólogos de todo o mundo. Seu objetivo é produzir um conjunto não redundante de 
seqüências de DNA genômico, transcritos (cDNA) e de proteínas para diversos 
organismos. A vantagem de se utilizar o RefSeq é que, ao contrário dos bancos 
primários de seqüências, ele é não redundante. E isso significa que, para cada gene 
conhecido de um determinado organismo, o banco possui uma única entrada – ao 
contrário da infinidade de entradas para um mesmo gene dos bancos primários, como 
o próprio GenBank e GenPept. Além disso, ele apresenta os dados dos genes e 
proteínas associados a diversas informações úteis, como sua função, análises de 
mutação, polimorfismos conhecidos, etc. Ele é produzido pelo NCBI através de 
curadoria manual, ou seja, cada seqüência é analisada por pesquisadores treinados, 
uma a uma, e as informações relevantes são adicionadas à entrada RefSeq do banco 
de dados. O RefSeq apresenta ainda referências cruzadas com outros bancos de dados, 
permitindo que outras informações adicionais sejam relacionados com uma 
determinada seqüência de biomolécula. Uma das características mais interessantes do 
RefSeq é ser capaz ainda de reunir vários dados divergentes em uma plataforma 
consistente e apresentando um conjunto de padrões e convenções comuns. A primeira 
versão do RefSeq foi montada em Junho de 2003 e apresentava mais de 785.000 
seqüências de proteínas, 210.000 seqüências de RNA e 64.000 seqüências genômicas 
de mais de 2005 organismos diferentes. As principais características do RefSeq são as 
seguintes: 
• Não redundância; 
• Apresenta links diretos entre seqüências de nucleotídeos e proteínas; 
• Realiza atualizações diárias com relação ao conhecimento biológico da literatura 
sobre as seqüências em questão; 
• Apresenta números de acesso precisos e bem definidos; 
• Possui curadoria especial pelo próprio pessoal do NCBI e colaboradores. 
Assim como as entradas para o GenBank, os registros do RefSeq apresentam 
ainda um número de acesso, um número de versão e um GI associado. Além disso, os 
números de acesso apresentam prefixos definidos para facilitar sua identificação, veja 
abaixo: 
Prefixo do número de 
acesso 
Molécula 
NC Molécula completa de genoma 
NG Regiao genômica 
NM MRNA 
NP Proteína 
NR RNA 
NT* Contig Genômico 
NW* Contig Genômico (WGS**) 
XM* MRNA 
XP* Proteína 
XR* RNA 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
45 
NZ Genoma (WGS) 
ZP Proteína gerada por entrada NZ 
* Computed from genome annotation pipeline 
** Whole Genome Shotgun 
 
Tabela 6.1. Números de acesso do RefSeq e moléculas associadas (Pruitt et al., 
2003). 
 
 
6.5. SWISSPROT – O maior banco de dados secundário de seqüências de 
proteínas 
 
 O Swiss-Prot tem sido desenvolvido desde 1986 pelo departamento de 
bioquímica médica da universidade de Gênova (agora conhecido como Swiss Intitute of 
Bioinformatics) e pela Biblioteca de dados do EMBL. O Swiss-Prot é um banco de 
dados secundário que consiste apenas de seqüências de proteínas e apresenta uma 
padronização de nomenclatura segundo um formato próprio e conciso. Para cada 
seqüência no banco de dados existem os dados da molécula protéica em questão e a 
anotação biológica da mesma. A anotação biológica está relacionada ao processo de 
agregar informação a uma molécula biológica e uma aula específica sobre isso será 
dada posteriormente. A anotação da proteína no Swiss-Prot é bastante completa e 
apresenta os seguintes itens: função da proteína, modificações pós-traducionais (como 
adição de carboidrados, fosforilação, acetilação, etc), domínios conservados (como 
regiões de ligação a cálcio, sítios de ligação a ATP, dedos de zinco, etc.), estrutura 
secundária da proteína, estrutura quaternária (homodímero, heterodímero, etc.), 
similaridades com outras proteínas, associações com doenças ou deficiências, 
seqüências parecidas, variantes de splicing, etc. A idéia dos curadores é adicionar o 
maior número possível de informações relativas àquela proteína no Swiss-Prot e, para 
isso, os curadores se utilizam principalmente de artigos sobre as proteínas e revisões 
sobre o grupo de proteínas em questão. Além disso, algumas vezes são recrutadas 
pessoas com maior experiência em determinada proteína para fornecer informações 
mais precisas sobre as mesmas e enviar comentários e atualizações com relação a 
grupos mais específicos de proteínas. E assim como o RefSeq, o Swiss-Prot também 
tem a intenção de produzir a menor redundância possível com relação às entradas de 
proteínas presentes no banco, tentando, sempre que possível, incorporar todo o dado 
de uma certa proteína em uma única entrada para cada organismo. Além disso, o 
Swiss-Prot também apresenta referências cruzadas com cerca de outras sessenta 
bases de dados de biomoléculas, facilitando a apreensão de informação sobre a 
seqüência de proteína em questão. 
 Falando de uma forma menos técnica, a grande vantagem de se utilizar o 
Swiss-Prot reside no fato do banco apresentar uma nomenclatura bem organizada para 
definir as seqüências de proteínas. Enquanto outros bancos apresentam nomenclaturas 
um tanto quanto divergentes, mesmo quando tratando de uma mesma molécula em 
diferentes organismos, o Swiss-Prot apresenta uma nomenclatura fixa para cada 
molécula de uma determinada proteína e mantém essa nomenclatura mesmo em 
diferentes espécies, o que facilita e permite uma maior confiança na identificação e 
anotação por similaridade desse tipo de molécula, como veremos na aula 7. Além 
disso, ele é o banco que normalmente apresenta um maior número de informações 
sobre uma molécula de proteína, incluindo modificações pós-traducionais, domínios e 
outras informações do interesse de um pesquisador que queira trabalhar com aquela 
molécula. 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
46 
6.6. Gene Ontology – Sistema de classificação de genes de acordo com suas 
características 
 
 O Gene Ontology em si, não é bem um banco de dados e, por isso, talvez 
devesse estar em um capítulo à parte. Entretanto, são disponibilizados bancos de 
dados de ontologias organizadas para determinados organismose parece interessante 
abordar esse tópico no presente momento. 
 O Gene Ontology (popularmente conhecido como GO) é um esforço colaborativo 
em reunir descrições consistentes de produtos gênicos em diferentes bancos de dados. 
Os participantes do projeto GO desenvolveram três estruturas de vocabulário 
controlado, chamadas de ontologias, que descrevem os produtos gênicos em termos 
de sua associação com processos biológicos, componentes celulares e função 
molecular de maneira não relacionada com qualquer organismo em especial. 
Basicamente essas três ontologias estão relacionadas às principais perguntas que os 
pesquisadores têm sobre um determinado gene: (1) em quais processos biológicos o 
gene está envolvido; (2) qual a sua localização dentro da célula e; (3) como, 
molecularmente, o gene realiza sua função. Um determinado gene, por exemplo, pode 
realizar a transdução de sinais em uma célula (processo biológico), estar preso à 
membrana celular (localização celular) e ter uma função de fosforilar uma outra 
proteína (função molecular), sendo classificado no GO de acordo com essas três 
características. 
 Além disso, a utilização de termos precisos de vocabulário do GO ajuda muito 
na chamada genômica comparativa, pois dessa forma podemos saber se um 
determinado organismo, por exemplo, apresenta um maior número percentual de 
genes relacionados a um determinado processo biológico ou não. O mesmo vale pras 
outras duas ontologias e podemos testar hipóteses, interessantes, como: será que um 
organismo que vive a altas temperaturas possui mais proteínas de choque térmico?, 
será que este organismo possui mais proteínas chaperonas, que ajudam no 
enovelamento de outras?, será que ele apresenta mais proteínas responsáveis pela 
duplicação de seu DNA? 
 Da mesma forma, a utilização destas ontologias permite que um pesquisador 
saiba quais são todas as proteínas quinases de um determinado organismo, ou quais 
são todas as proteínas envolvidas com metabolismo de DNA ou, ainda, quais são todas 
as proteínas que ficam associadas ao retículo. 
 Outro ponto importante na análise das ontologias é que elas, assim como a 
realidade biológica, não apresentam uma ordem hierárquica bem definida. E ainda que 
isso dificulte um pouco a análise, o resultado da ordem e da relação entre as 
ontologias fica mais fiel ao conhecimento que se tem sobre a biologia dos organismos. 
Ainda assim, as ontologias obedecem a uma certa hierarquia, não muito rígida, de 
forma que, por exemplo, a ontologia das “tirosina quinases” é filha da ontologia das 
“quinases” e o pesquisador pode escolher observar ou obter todas as quinases de um 
organismo de GO anotado ou apenas as “tirosina quinases”, que são um subgrupo das 
quinases. 
 
 
6.7. Referências Bibliográficas 
 
1. Weller DL et al., 2002. Database resources of the National Center for Biotechnology 
information: 2002 update. Nucleics Acid Reserch 30(1): 13-16. 
2. Benson DA et al., 2002. GenBank. Nucleics Acid Reserch 30(1): 17-20. 
3. Stoesser G et al., 2002. The EMBL nucleotide sequence database. Nucleics Acid 
Reserch 30(1): 21-26. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
47 
4. Tateno Y et al., 2002. The DNA Data Bank of Japan (DDBJ) for genome scale 
research in life sciences. Nucleics Acid Reserch 30(1): 27-30. 
5. Westbrook J et al., 2002. The Protein Data Bank: unifying the archive. Nucleics Acid 
Reserch 30(1): 245-248. 
6. Bairoch A & Apweiler R, 2000. The SWISS-PROT protein sequence database and its 
supplement TrEMBL in 2000. Nucleics Acid Reserch 28(1): 45-48. 
7. Baxevanis AD and Ouellette BFF, 2001. Bioinformatics: A practical guide to the 
analysis of genes and proteins. Ed. Wiley-interscience. 2nd ed. 
8. Pruitt K., Tatusova T. and Ostell J. The NCBI handbook (Internet): Chapter 17, The 
Reference Sequence (RefSeq) Project. Bethesda (MD): National Library of Medicine 
(US), National Center for Biotechnology Information; 2002. 
 
Sites: 
NCBI Genbank - http://www.ncbi.nih.gov/Genbank/ 
EMBL Nucleotide Sequence Database - http://www.ebi.ac.uk/embl/ 
DDJP - DNA Data Bank of Japan - http://www.ddbj.nig.ac.jp/ 
NCBI Reference Sequences web site - http://www.ncbi.nlm.nih.gov/RefSeq/ 
The Gene Ontology – http://www.geneontology.org 
Swissprot – http://us.expasy.org/sprot/ 
 
6.8. Brainstorm 
 
1 - O que é a INSDC e por quais entidades ela é formada? 
 
2 - Qual a diferença entre bancos de dados primários e secundários? Apresente dois 
exemplos de cada um. 
 
3 - Entre no site do NCBI: http://www.ncbi.nlm.nih.gov. Na aba Search altere o valor 
para Nucleotide (isso significa que você estará fazendo uma pesquisa por seqüências 
de nucleotídeos), copie o AN AF117710 no espaço apropriado e clique em Go. Você 
deve observar um resultado dizendo que esse AN está associado ao gene “Homo 
sapiens hemoglobin beta chain (HBB) mRNA, complete cds”, clique no link para 
AF117710. Dessa forma você estará vendo todas as informações disponíveis no 
Genbank para este gene. Explique o que significa cada um dos seguintes campos 
LOCUS, DEFINITION, ACCESSION, VERSION, KEYWORDS, SOURCE, ORGANISM, 
REFERENCE, FEATURES, ORIGIN. Mais informações em 
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html 
 
4 - Qual a diferença entre o identificador conhecido como GI e o AN? Quais bancos de 
dados os utilizam? Por que não existe apenas um número identificador de seqüência? 
 
5 - O que é o projeto RefSeq e quais suas características principais? 
 
6 - Entre no site do BLAST: http://www.ncbi.nlm.nih.gov/BLAST. O BLAST é uma 
ferramenta de alinhamento local de seqüências de biomoléculas e entenderemos 
melhor sua função e seu funcionamento na próxima aula. Por ora, apenas entre na 
página e clique em “Translated query vs. protein database (blastx)”. Uma página 
irá abrir com vários campos. No campo Search, escreva novamente o número de 
acesso da seqüência da hemoglobina humana, AF117710 e clique no botão “BLAST!”. 
Na próxima página que irá se abrir clique em Format! e espere pelo resultado. O 
resultado mostrará as proteínas do GenPept mais parecidos com a hemoglobina 
humana, guarde este resultado. Entre novamente na página do BLAST - “Translated 
query vs. protein database (blastx)”. Nesta página copie novamente o número de 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
48 
aceso da hemoglobina AF117710 na aba Search só que, desta vez, clique no nome nr, 
na opção Choose database. O nr representa o GenPept e é o banco de dados contra 
o qual o BLAST realiza a busca. Selecione, ao invés de nr, a opção swissprot e então 
clique no botão “BLAST!”. Espere a próxima página aparecer e clique em Format! 
Quando a tela de resultados aparecer, compare esses resultados com aqueles obtidos 
contra o banco nr. Responda: O que você pode observar de diferente? Repare como a 
nomenclatura utilizada pelo Swissprot é importante e facilita a identificação da 
proteína. (Se tiver interesse, volte novamente e execute outras buscas BLAST contra 
diferentes bancos de dados e observe os resultados.) 
 
7 - Em que consiste o Gene Ontology? Quais as principais ontologias existentes nas 
quais um gene pode ser descrito? Entre no site do http://www.geneontology.org e cole 
na caixa de texto o seguinte termo de GO:0006259. A qual ontologia esse GO 
pertence? Qual o nome desta ontologia? Quais são as ontologias imediatamente 
inferiores a esta? 
 
 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
49 
CAPÍTULO 7 
Anotação de Genomas 
 
 
7.1. IntroduçãoAs seqüências genômicas são fontes ricas de informações sobre a biologia dos 
organismos, mas devem ser traduzidas através de análises computacionais e de 
interpretação biológica para que possamos extrair delas a maior quantidade possível 
de dados úteis (Lewis et al., 2000). A anotação genômica consiste num processo de 
vários passos e Stein (2001) divide-a, em três categorias básicas: a anotação de 
nucleotídeos, de proteínas e de processos (Figura 7.1). 
A anotação de nucleotídeos é feita quando existem informações sobre o genoma 
completo (ou segmentos de DNA) de algum organismo. Assim, procura-se encontrar a 
localização física (posição cromossômica) de cada parte da seqüência e descobrir onde 
estão os genes (Rouzé 1999), RNAs, elementos repetitivos, etc. Na anotação de 
proteínas, que é feita quando existem informações sobre os genes (obtidos por 
seqüenciamento genômico ou de cDNA) de algum organismo, procura-se identificar os 
genes já descobertos e descobrir sua função. Assim é possível saber quais são aqueles 
que determinado organismo possui e quais ele não possui. A anotação de processos 
procura identificar as vias e processos nos quais diferentes genes interagem, 
montando uma anotação funcional eficiente. 
 
 
 
Figura 7.1. Anotação de genomas completos. Esquema representando as fases e as 
perguntas que se deseja responder em cada uma das fases da anotação de genomas. 
Retirado de Prosdocimi et al., 2003. 
 
 
7.2. Anotação de Nucleotídeos 
 
 A anotação de nucleotídeos começa com a montagem do genoma, a 
identificação de onde está cada parte do DNA e qual a relação das partes entre si. 
Procura-se quais genes estão no mesmo segmento de DNA, no mesmo cromossomo. E 
depois que o genoma está montado, realiza-se buscas para encontrar as partes que 
correspondem aos genes expressos, quais partes correspondem a genes de tRNA, 
quais correspondem aos clusters de genes de rRNA e assim por diante. Assim, 
identifica-se a posição de cada um dos tRNAs com relação ao aminoácido que ele 
carrega, identifica-se a posição dos rRNAs e a posição dos genes. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
50 
7.3. Anotação de Proteínas 
 
Nessa etapa da anotação genômica procura-se montar um catálogo das 
proteínas e genes presentes nos organismos, nomeá-los e associá-los a prováveis 
funções através, principalmente, de buscas por similaridades (Aubourg & Rouzé 2001). 
Várias técnicas recentes têm sido desenvolvidas para identificar 
automaticamente as proteínas pertencentes a diferentes grupos isofuncionais 
(chamados erroneamente de grupos de ortologia – Jensen 2001, veja na próxima 
aula), entretanto muitas dessas técnicas podem gerar classificações ambíguas. Na 
prática, o que é normalmente feito é a classificação das proteínas preditas com base 
em domínios funcionais, configurações espaciais e presença de padrões conservados, 
além de pesquisa ampla de similaridade contra proteínas bem caracterizadas. 
Uma forma comum de se realizar a anotação de proteínas é procurar 
similaridades das seqüências com proteínas presentes em diferentes bancos de dados, 
utilizando ferramentas de alinhamento local como o BLASTp ou PSI-BLAST (Altschul et 
al., 1997). As coleções mais valiosas de seqüências de proteínas são os bancos de 
dados SWISS-PROT e TrEMBL. O primeiro apresenta uma coleção de seqüências de 
proteínas confirmadas e extensivamente anotadas. Ele contém ainda referências para 
outros bancos de dados de seqüência e estrutura, referências bibliográficas, 
identificação da família protéica e descrições sobre a provável função e papel biológico 
da proteína (Bairoch & Apweiler 2000). Entretanto a velocidade do seqüenciamento 
genômico é maior que a dos curadores e, por isso, foi criado o banco de dados 
TrEMBL, que contém uma tradução automática das seqüências codificadoras (cds) 
submetidas aos bancos de dados de nucleotídeos (Lang 1997, Apweiler 2000). 
Uma análise complementar seria a procura de domínios funcionais, sendo que 
as bases de dados mais utilizadas nesse processo são: PFAM, PRINTS, PROSITE, 
ProDom, SMART e BLOCKS. Esses vários bancos de dados de padrões são altamente 
sobreponíveis, mas cada um possui seu próprio sistema de nomenclaturas e método de 
procura, o que torna difícil a interpretação dos resultados (Stein 2001). Por isso foi 
desenvolvido, recentemente, um banco integrado de assinaturas de proteínas, 
conhecido como InterPro, que procura integrar as informações dos bancos 
anteriormente citados. Cada entrada do InterPro contém uma breve descrição da 
família ou domínio, uma lista de proteínas do SWISS-PROT ou TrEMBL que o contém, 
referências bibliográficas e links para cada um dos bancos membros (Apweiler et al., 
2001). 
O banco InterPro tem sido utilizado para a anotação de diversos genomas, 
como o de leveduras, vermes, moscas, mostardas e homens. Desses, cerca de 40% a 
50% das proteínas preditas possuem pelo menos uma entrada no InterPro, donde se 
conclui que a outra metade das proteínas eucarióticas pertencem a novas famílias 
protéicas e que muito ainda precisa ser aprendido (Apweiler et al., 2001). 
 
 
7.4. Anotação de Processos 
 
A parte mais interessante e desafiadora do processo de anotação gênica é 
relacionar, finalmente, a genômica com os processos biológicos. Para isso, como já 
vimos, foi criado um consórcio chamado Gene Ontology (GO), que busca criar um 
vocabulário padrão para descrever a função dos genes eucarióticos. Só para recordar, 
o GO consiste em três divisões: função molecular (atividade específica do gene em 
questão, por exemplo: atividade enzimática), processos biológicos (processo no qual o 
gene está inserido, como a meiose) e componentes celulares (descreve a estrutura 
celular na qual o gene está localizado, como organelas ou ribossomos) (The Gene 
Ontology Consortium 2000). 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
51 
Para a anotação de processos é necessário mais do que trabalho computacional. 
Técnicas biológicas em larga escala, como mutagênese mediada por transposons, 
análise de expressão em microarrays, RNA interference, identificação de proteínas por 
espectroscopia de massa, ensaios baseados em green-fluorescent-protein para 
determinar a localização subcelular e padrões temporais de expressão de proteínas e 
estudos de duplo-híbrido em leveduras têm sido de fundamental importância para 
identificar o papel de genes e proteínas nos processos biológicos (Stein 2001). Cada 
novo experimento adiciona mais informação e permite um melhor entendimento do 
genoma. Portanto, a anotação de processos é realizada comparando as informações 
genômicas com os dados atuais da literatura, de forma a tentar compreender ao 
máximo a biologia do organismo que está sendo estudado. 
 
 
7.5. A realização da Anotação Genômica (Sociologia da Anotação) 
 
Stein (2001) propõe alguns modelos bastante pertinentes para explicar como é 
realizada, passo a passo, a anotação genômica. Segundo ele, esses processos de 
identificação gênica normalmente seguem algum dos seguintes modelos 
organizacionais: a fábrica, o museu e a festa. Cada modelo é adequado para alguma 
das fases do trabalho de anotação (Stein 2001). 
Durante a primeira fase, quando o principal trabalho é encontrar genes e 
mapear variações e marcadores, o modelo da fábrica é o mais adequado. Nesse 
modelo uma rede de computadores trabalha seguindo uma série de programas de 
anotação. A seqüência de entrada é jogada numa série de programas para predição de 
genes, procura de similaridades entre seqüências de nucleotídeos e proteínas e 
procura de domínios funcionais. Isso permitea geração de grandes quantidades de 
dados sobre o genoma. 
Então se inicia a fase de museu, quando a ênfase passa da localização dos 
dados para a sua interpretação. Nesse modelo um conjunto de curadores deve 
classificar e catalogar o genoma de forma sistemática, encontrando e corrigindo erros 
gerados pelos programas na primeira etapa. A maior parte dessa etapa é feita à mão e 
deve basear-se também na literatura obtida sobre o organismo em questão para uma 
melhor integração com os dados genômicos. 
 
 
Figura 7.2. Um exemplo da sociologia da anotação genômica: etapas de fábrica, 
museu e festa. 
 
Após o tédio da curadoria é hora da festa. Nesse modelo, vários biólogos e 
bioinformatas são colocados juntos em um mesmo ambiente para discutir, anotar e 
realizar o fechamento do genoma. Os biólogos procuram associar os dados de genoma 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
52 
à biologia do organismo, montando várias hipóteses de trabalho e os bioinformatas e 
cientistas da computação montam as ferramentas e dão o suporte técnico para ajudar 
a produzir os resultados desejados. Esse modelo tem sido utilizado com sucesso para a 
anotação de diversos genomas, dentre eles o da Drosophila (Adams et al., 2000) e do 
camundongo (The RIKEN Genome Exploration Research Group Phase II Team and the 
FANTOM Consortium 2001). 
É interessante notar que, enquanto o seqüenciamento genômico é uma tarefa 
bastante especializada, a anotação genômica é algo bastante multidisciplinar, no qual 
toda a comunidade científica (biológica) pode e deve contribuir. 
 
 
 
7.6. Referências Bibliográficas 
 
1. Stein, L., 2001. Genome annotation: from sequence to biology. Nature Reviews 2: 
493-505 
2. Rouzé P.; Pavy, N. and Rombauts, S. (1999). Genome annotation: which tools do 
we have for it? Curr Opin Struct Biol 2: 90-95. 
3. Lewis, S.; Ashburner, M. and Reese, M. G. (2000). Annotating eukaryote genomes. 
Curr Opin Struct Biol 10: 349–354. 
4. PHRAP -- http://www.phrap.org 
5. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html 
6. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos 
ACF; Nhani-Júnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo 
LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-
Flatschart AV. Bioinformática: manual do usuário. Biotec. Ci. Des. 29: 18-31, 2002. 
7. Aubourg, S. and Rouzé P. (2001). Genome annotation. Plant Physiol Biochem 39: 
181-193. 
8. Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller, W. and 
Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein 
database search programs. Nucleic Acids Res 25: 3389-3402. 
9. Bairoch, A. and Apweiler, R. (2000). The SWISS-PROT protein sequence database 
and its supplement TrEMBL in 2000. Nucleic Acids Res 28: 45-48. 
10. Jensen, R. A. (2001). Orthologs and paralogs – we need to get it right. Genome 
Biol 2: 1002.1-1002.3. 
11. Apweiler, R. (2001). Functional information in SWISS-PROT: The basis for large-
scale characterisation of protein sequences. Brief Bioinform 2: 9-18. 
12. Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M.; 
Bucher, P.; Cerutti, L.; Corpet, F.; Croning, M. D.; Durbin, R.; Falquet, L.; 
Fleischmann, W.; Gouzy, J.; Hermjakob, H.; Hulo, N.; Jonassen, I.; Kahn, D.; Kanapin, 
A.; Karavidopoulou, Y.; Lopez, R.; Marx, B.; Mulder, N. J.; Oinn, T. M.; Pagni, M.; 
Servant, F.; Sigrist, C. J. and Zdobnov, E. M. (2001). The InterPro Database; an 
integrated documentation resource for protein families; domains and functional sites. 
Nucleics Acid Res 29: 37-40. 
13. Lang, F. (1997). TREMBL. Trends Genet 13: 417. 
14. The Gene Ontology Consortium (2000). Gene Ontology: tool for the unification of 
biology. Nat Genet. 25: 25-29. 
15. The RIKEN Genome Exploration Research Group Phase II Team and the FANTOM 
Consortium (2001). Functional annotation of a full-length mouse cDNA collection. 
Nature 409: 685-690. 
16. Adams, M. D.; Kelley, J. M.; Gocayne, J. D.; Dubnick, M.; Polymeropoulos, M. H.; 
Xiao, H.; Merril, C. R.; Wu, A.; Olde, B.; Moreno, R. F.; Kerlavage, A. R.; McCombie, 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
53 
W. R. and Venter, J. C. (1991). Complementary DNA sequencing: expressed sequence 
tags and human genome project. Science 252: 1651-6. 
 
 
7.7. Brainstorm 
 
1. Em que consiste a anotação de genomas? 
2. Quais são as principais etapas durante a anotação dos genomas e qual pergunta 
deseja-se responder em cada uma delas? 
3. Quais são os objetivos da anotação de nucleotídeos? 
4. Quais são os objetivos da anotação de proteínas? 
5. Quais são os objetivos da anotação de processos? 
6. Como é realizada a anotação de genomas? Descreva os modelos organizacionais e 
qual a atividade realizada em cada uma destas etapas. 
 
 
 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
54 
CAPÍTULO 8 
Bioinformática Evolutiva e Genomas Completos 
 
 
Iniciando nossa Interação 
 
 O conceito de homologia é algo que normalmente é utilizado de forma incorreta 
por diversos estudantes e pesquisadores. Muitas vezes escuta-se dizer que há 
diferentes graus de homologia entre genes ou que o gene A é mais homólogo ao gene 
B do que um terceiro gene C. Este conceito está errado. A homologia está relacionada 
à ancestralidade de um caráter, gene ou proteína, e é algo que existe ou não existe, 
não há graus intermediários. Esse será o tema deste capítulo. 
 
 
8.1. Homologia, Ortologia e Paralogia 
 
 O conceito de homologia é algo que normalmente é utilizado de forma incorreta 
por diversos estudantes e pesquisadores. Muitas vezes escuta-se dizer que há 
diferentes graus de homologia entre genes ou que o gene A é mais homólogo ao gene 
B do que um terceiro gene C. Este conceito está errado. A homologia está relacionada 
à ancestralidade de um caráter, gene ou proteína, e é algo que existe ou não existe, 
não há graus intermediários. Genes ou proteínas homólogas são aquelas que 
apresentam um ancestral comum recente, assim como caracteres homólogos são 
derivados de uma mesma estrutura ancestral. As proteínas podem ter mais ou menos 
similaridade entre si. Quando fazemos, por exemplo, um alinhamento de seqüências 
de duas proteínas de uma certa espécie contra uma terceira de outra espécie, 
poderemos descobrir qual das duas é mais similar à terceira. Portanto, a homologia 
está relacionada à evolução e não apresenta níveis intermediários: ou é ou não é. E 
existem duas classes distintas de genes/proteínas homólogos, os ortólogos e os 
parálogos. 
 E de suma importância para o correto estudo da evolução, é a identificação de 
proteínas ortólogas e parálogas. A evolução deve ser estudada apenas em proteínas 
ortólogas, ou seja, aquelas que descendem de uma mesma proteína ancestral (e não 
foram duplicadas dentro de linhagens -- parálogas --, já que as estas últimas 
normalmente acumulam mutações extras devido ao fato de não haver pressão seletiva 
para manutenção de sua função) (Jensen, 2001). Já as proteínas ortólogas, que 
normalmente apresentam o mesmo papel funcional na célula, são importantes para a 
execução deste papel e, portanto, não devem acumular mutações que alterem sua 
capacidade funcional. O estudo de evolução em nível molecular baseia-se na 
comparação entre proteínas ortólogas, derivadas de uma mesma proteína no 
ancestral comum entre as espécies. 
Ultimamente os termos ortologia e paralogia têm sido muito utilizadosna 
biologia genômica para expressar relações funcionais entre genes. Genes ortólogos são 
considerados aqueles homólogos que apresentam a mesma função em organismos 
diferentes. Já os genes parálogos são considerados homólogos, presentes num mesmo 
organismo, que não apresentam a mesma função. Entretanto, de acordo com Walter 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
55 
Fitch, que primeiramente utilizou esses termos, eles não apresentam esse significado 
funcional e sim um significado evolutivo. 
Segundo sua definição, a determinação de ortologia ou paralogia está 
relacionada a eventos de evolução gênica. Genes que tenham sido duplicados dentro 
de uma mesma linhagem (linhas horizontais) são parálogos, não importando se 
possuem a mesma função ou não. Já os genes que foram alterados dentro de 
linhagens específicas, após especiação (aqueles nos quais, se voltarmos à sua origem, 
chegamos a uma bifurcação ou Y invertido) são os chamados ortólogos. 
 
 
 
Figura 8.1. Eventos de paralogia e ortologia. Adaptada de Jensen, 2001 
 
 
Isso significa dizer que, na figura acima, A1 tem três ortólogos na espécie C, 
mas somente C1 é ortólogo de B1. Já B2 tem dois ortólogos na espécie C (C2 e C3), 
onde C2 e C3 são parálogos. Portanto, toda relação de homologia entre genes pode ser 
classificada como ortologia ou paralogia e deve-se perceber que um dado gene em 
uma espécie pode ter mais do que um ortólogo em outra. Além disso, podemos 
detectar também genes parálogos em espécies diferentes. É bom lembrar que existe 
também uma terceira relação entre genes conhecida como xenologia, que consiste na 
relação entre genes quando, na sua história evolutiva, pelo um deles surgiu por 
transferência horizontal, ou seja, o gene em algum momento foi absorvido do meio 
para dentro do genoma do organismo (através de vírus, por exemplo). 
Portanto essa definição de nada tem a ver com a função e sim com a história 
evolutiva dos genes e é assim que essa nomenclatura foi definida primeiramente. 
Entretanto, devemos notar que, para definirmos corretamente a relação entre os 
genes, temos que conhecer detalhes sobre sua rota evolutiva. O problema é que, na 
grande maioria das vezes, não temos informações suficientes para montar essa rota de 
forma correta. 
É interessante notar que, para os pesquisadores da ciência genômica, é 
importante saber, principalmente, se dois genes homólogos possuem uma mesma 
característica funcional. Esse conhecimento permite entender melhor tanto as origens 
estruturais das funções biológicas como as bases moleculares para a divergência 
dessas funções, permitindo aos pesquisadores comparar relações sobre a seqüência, 
estrutura e função de grupos de homólogos. 
Assim, considerando que os termos ortologia e paralogia mostram-se 
inadequados para uso, Gerlt e Babbit sugerem novos termos a serem utilizados na 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
56 
pesquisa genômica. Assim, genes isofuncionais seriam aqueles homólogos que 
apresentam a mesma função; heterofuncionais seriam aqueles que apresentam 
funções diferentes; isoespecíficos seriam homólogos encontrados na mesma espécie e 
heteroespecíficos seriam homólogos presentes em espécies diferentes. 
Dessa forma, genes homólogos com a mesma função em espécies diferentes 
seriam heteroespecíficos e isofuncionais, homólogos com funções diferentes no mesmo 
organismo seriam isoespecíficos e heterofuncionais, homólogos com a mesma função 
num mesmo organismo seriam isoespecíficos e isofuncionais e homólogos com funções 
diferentes em diferentes organismos seriam heteroespecíficos e heterofuncionais. 
 
 
8.2. COG 
 
 Portanto, como vimos acima, algo que é bastante penoso e questionável em 
estudos evolutivos é a definição de critérios que possam identificar determinados 
genes como ortólogos para que sejam realizados estudos evolutivos entre eles 
(Sonnhammer & Koonin 2002). Não existem metodologias consensuais para identificar 
ortólogos e cada pesquisador considera-os da forma como acredita ser melhor. 
Entretanto, o NCBI apresenta um serviço conhecido como COG -- Clusters of 
Ortologous Groups (http://www.ncbi.nlm.nih.gov/COG/) -- onde foi realizado um 
estudo para a definição dos grupos de proteínas ortólogas presentes em organismos de 
genomas completos (Tatusov et al., 1997). Assim, o COG disponibiliza grupos de 
proteínas ortólogas classificadas de acordo com sua função biológica em dois serviços, 
um para organismos procariotos (Tatusov et al., 2001) e outro para eucariotos 
(Tatusov et al., 2003). 
A forma como o COG define proteínas como ortólogas baseia-se no critério 
conhecido como BeTs. Os BeTs, ou best hits bidirecionais são resultantes de 
alinhamentos locais entre proteínas de um determinado organismo e o genoma de 
outro. Para que uma proteína 1, em um organismo 1, seja BeT de uma proteína 2, no 
organismo 2, o melhor resultado (best hit) de uma busca BLAST (Altschul et al., 1997) 
entre a proteína 1 contra o genoma do organismo 2 deve encontrar a proteína 2 como 
best hit da busca, assim como o contrário. Ou seja, ao executarmos o BLAST da 
proteína 2, contra o genoma do organismo 1, o best hit deve ser a proteína 1. Assim, 
define-se grupos de proteína BeT (Tatusov et al., 1997). Assim, para a definição de um 
grupo de proteínas ortólogas em um COG é necessário haver BeT entre pelo menos 
três diferentes organismos, sendo que as três (ou mais) proteínas devem ser BeT das 
outras proteínas encontradas nos outros organismos. 
 Assim o KOG, que representa o serviço do COG para organismos eucarióticos, 
apresenta 4852 grupos de proteínas ortólogas de diversos organismos. Assim, para 
cada gene conhecido dos organismos existe um número de KOG característico e, se 
buscarmos em outro organismos os genes de mesmo identificador KOG, pegaremos os 
genes que provavelmente realizam a mesma função neste organismo. O COG, 
portanto, facilita o estudo da evolução gênica considerando que ele mesmo já separa 
para o pesquisador os genes que provavelmente são ortólogos nos diferentes 
organismos. O serviço COG de procariotos apresenta 66 genomas completos que são 
disponibilizados no site http://www.ncbi.nlm.nih.gov/COG, enquanto o serviço do KOG 
de eucariotos atualmente apresenta sete organismos em seu banco de dados. 
 
 
8.3. Trabalhando com genomas completos 
 
 Tão importante quanto aprender a trabalhar para montar um genoma, 
produzindo toda sua seqüência de bases, é saber como podemos utilizar as 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
57 
informações de genomas já seqüenciados e disponíveis nos bancos de dados públicos. 
Na tabela 8.1 abaixo podemos ver quantos genomas de diferentes grupos de 
organismos já foram seqüenciados até o presente momento (01/2005). 
 
Organism Complete Genomes published 
Vírus 2024 
Arqueobactérias 21 
Bactérias 196 
Outros Eucariotos 18 
Tabela 8.1. Número de seqüências genômicas já publicadas para diferentes classes de 
organismos. Obtido em http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html, a 
27/01/2005. 
 
As seqüências genômicas de diversos organismos podem ser obtidas no site do 
NCBI http://www.ncbi.nlm.nih.gov, a partir do serviço Entrez Genomes. Os genomas 
presentes ali geralmente são fornecidos na forma de diversos arquivos de entrada, 
cada um contendo uma informação específica, que pode ser vista na tabela abaixo: 
 
Arquivo Informação contida no arquivo 
asn Arquivo no formato GenBank contendo informações de genomaformatadas em XML 
faa Seqüências de aminoácidos de todas as proteínas inferidas no formato 
FASTA 
ffn Seqüências de Nucleotídeos de todos os genes inferidos no formato 
FASTA, apresentando, no cabeçalho informação sobre sua posição no 
genoma 
fna Contém a informação sobre a seqüência de nucleotídeos do genoma 
completo do organismo 
gbk Contém todo o genoma do organismo anotado segundo padrão 
GenBank 
ptt Apresenta informações sobre localização, fita, tamanho, identificador, 
nome e código de cada um dos genes, assim como sua categoria 
funcional segundo o COG 
Tabela 8.2. Arquivos disponibilizados pelo NCBI para seqüências de genomas 
completos de procariotos (ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria). 
 
 Assim, temos disponível para nosso uso tanto a seqüência do genoma completo 
do organismo quanto as seqüências de cada um dos seus genes e proteínas. Com 
essas informações torna-se possível que realizemos vários tipos de estudos de nosso 
próprio interesse e utilizemos as seqüências dos genomas da forma como nos 
interessar. 
 
 
8.4. Referências Bibliográficas 
1. Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller, W. and 
Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein 
database search programs. Nucleic Acids Res 25: 3389-3402. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
58 
2. Jensen, RA. Orthologs and paralogs – we need to get it right. Genome Biology 2001 
2 (8): 1002.1-1002.3 
3. Sonnhammer EL, Koonin EV (2002). Orthology, paralogy and proposed 
classification for paralog subtypes. Trends Genet. Dec;18(12):619-20. 
4. Tatusov RL, Fedorova ND, Jackson JD, Jacobs AR, Kiryutin B, Koonin EV, Krylov 
DM, Mazumder R, Mekhedov SL, Nikolskaya AN, Rao BS, Smirnov S, Sverdlov AV, 
Vasudevan S, Wolf YI, Yin JJ, Natale DA (2003). The COG database: an updated 
version includes eukaryotes. BMC Bioinformatics. Sep 11;4(1):41. 
5. Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS, 
Kiryutin B, Galperin MY, Fedorova ND, Koonin EV (2001). The COG database: new 
developments in phylogenetic classification of proteins from complete genomes. 
Nucleic Acids Res. Jan 1;29(1):22-8. 
6. Tatusov RL, Koonin EV, Lipman DJ (1997). A genomic perspective on protein 
families. Science. Oct 24;278(5338):631-7. 
 
 
8.5. Brainstorm 
 
1. Qual o conceito de homologia e por que não se diz que dois genes são mais 
homólogos entre si do que um terceiro? 
2. O que são genes parálogos e ortólogos? 
3. Como o COG classifica os genes em ortólogos? Discuta sobre a classificação do 
COG e o conceito de ortologia da resposta anterior. 
4. Por que você acredita que os genomas virais são os mais seqüenciados de todos? 
5. Que tipo de informação é disponibilizada sobre um organismo quando um genoma 
está completo? 
 
 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
59 
CAPÍTULO 9 
Bioinformática estrutural 
 
Iniciando nossa Interação 
Como já dissemos a bioinformática consiste principal no estudo de seqüências de 
biomoléculas. Até agora já conseguimos entender a relevância da bioinformatica com 
relação a seqüências de DNA (genoma) e RNA (transcriptoma). Portanto é hora de nos 
voltarmos para as seqüências de proteínas. As proteínas são muitas vezes 
consideradas as principais moléculas de uma células, já que são elas que realizam as 
funções celulares, sendo que o DNA e RNA têm principalmente a característica de 
armazenamento e processamento de informações. Sabe-se bem que as proteínas 
exercem sua função de acordo com sua estrutura espacial, ou seja, a função da 
proteína está intrinsecamente ligada a sua conformação tridimensional, à sua 
estrutura. E é justamente a busca por esta conformação espacial uma das principais 
áreas da bioinformática, que será discutida no presente capítulo. 
 
 
9.1. Sobre a estrutura das proteínas 
 
 A seqüência de aminoácidos que forma uma determinada proteína é conhecida 
como sua estrutura primária. Já a forma como os aminoácidos se interconectam 
formando alças, hélices ou folhas consiste na estrutura secundária da proteína. 
Entretanto, o que realmente importa para a função de uma proteína é sua forma 
tridimensional no espaço. É através dessa conformação espacial que a proteína encaixa 
segundo o modelo chave-fechadura nos seus substratos para catalisar uma 
determinada reação química que dê origem aos produtos da ação enzimática. No caso 
da estrutura de uma proteína, existem dois ângulos principais de torção entre átomos 
dos aminoácidos que são responsáveis pela forma final na qual uma proteína se 
enovela no espaço, esses são os ângulos phi e psi. Eles são formados pela ligação 
carbono alfa dos aminoácidos e seus grupos amino e ácido carboxílico. Cada 
aminoácido da proteína apresenta um valor de torção de tais ângulos e, soubéssemos 
esse valor para cada um deles, conheceríamos perfeitamente a forma como a proteína 
se enovela para realizar sua função. Ainda hoje é impossível prever teoricamente a 
estrutura 3D de uma proteína quando conhecemos apenas sua estrutura primária e 
esse é um dos grandes, senão o maior, desafio da bioinformática nos dias de hoje. 
Mesmo alguns cientistas célebres dizem que a bioinformática consiste apenas em uma 
forma de processar a informação de genomas, transcriptomas ou proteomas e que 
nunca algo realmente de valor pode ser produzido apenas por análises computacionais 
de seqüências de biomoléculas. Entretanto, acredita-se que a forma como as proteínas 
se enovelam no espaço seja realmente uma das grandes questões da atualidade e, 
possivelmente, isso traria daria fama e respeito em toda comunidade científica caso 
um método teórico de predição de estrutura de proteínas fosse desenvolvido através 
de ferramentas computacionais. E, na minha opinião, se algo pode dar um Nobel a um 
bioinformata, essa é a grande pergunta a ser respondida e trabalhada. 
 Bem, mas a vida real é mais dura e, hoje, para descobrirmos a estrutura 
terciária de uma proteína, que consiste exatamente na sua forma espacial, devemos 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
60 
utilizar laboriosos testes experimentais para tal, sendo que os principais métodos 
utilizados hoje em dia são a difração de raios-X e a ressonância nuclear magnética. 
Na difração de raios-X, a primeira dificuldade consiste na produção de um 
cristal da proteína desejada. E essa dificuldade deve-se ao fato de que a cristalização 
consiste num processo um tanto quanto caótico e imprevisível, sendo que 
determinadas proteínas podem ser cristalizadas em poucos dias enquanto outras 
demoram anos para que possam ser cristalizadas. Esse cristal deve então ser 
submetido a uma fonte de raios-X e o padrão de difração obtido pela incidência do 
raio-X no cristal da proteína deve ser então analisado computacionalmente para que 
seja produzida a estrutura precisa da proteína em questão. Com os dados obtidos no 
experimento de difração é montado um mapa de densidades eletrônicas onde os 
aminoácidos são “encaixados” e o quebra cabeça que representa a estrutura da 
proteína é gerado. Dependendo da resolução obtida pode-se chegar até a descobrir 
exatamente qual a seqüência de aminoácidos da proteína. Quase 100% das vezes, 
entretanto, a seqüência primária já é conhecida de antemão. 
Ao contrário da técnica de difração de raios-X, a ressonância nuclear magnética 
ou NMR, da sigla em inglês, permite que a estrutura da proteína seja conhecida sem 
quehaja necessidade da cristalização da mesma (as proteínas são utilizadas em 
solução) e, portanto, proteínas que não são possíveis de se cristalizar têm sua 
estrutura 3D resolvida por este método. No fundo esse é um método de minimização 
de energia que produz um resultado menos preciso e de menor resolução do que os 
resultados de difração. Freqüentemente os resultados de NMR produzem mais de um 
resultado que apresente uma energia mínima e, assim, os arquivos de estruturas de 
proteínas resolvidas por NMR são, na verdade, um conjunto contendo todas as 
estruturas da proteína que apresentaram menor energia e várias estruturas parecidas 
são observadas nestes arquivos. 
 
 
9.2. Protein Data Bank: o banco de dados de estruturas de proteínas 
 
 O PDB (Protein Data Bank ou Banco de Dados de Proteína) consiste no principal 
banco de dados de estrutura de proteínas existente no mundo. A figura 9.1 apresenta 
o crescimento do número de estruturas depositadas desde a criação do PDB, em 1972. 
Algo interessante a ser notado é que, se nos lembrarmos da primeira aula que 
tivemos, da primeira figura deste curso, a figura 1.1, perceberemos que, enquanto 
cerca de 16 milhões de seqüências nucleotídicas são conhecidas, ainda hoje temos 
conhecimento apenas de cerca de 30 mil estruturas de proteínas. E isso nos mostra 
como a descoberta das estruturas terciárias das proteínas ainda hoje consiste num 
método trabalhoso e complicado. Analisando ainda a figura, vemos que com o passar 
dos anos, cada vez mais estruturas são reveladas (barras vermelhas), mas ainda 
assim há uma clara e notória diferença entre a informação de seqüência e de estrutura 
das biomoléculas. 
 O PDB também abriga dados estruturais de pequenos peptídeos, vírus, ácidos 
nucléicos e carboidratos e, das cerca de 30 mil estruturas presentes no banco cerca de 
vinte e cinco mil foram resolvidas através de difração de raios-X enquanto cerca de 
cinco mil foram resolvidas por experimentos de ressonância magnética. Algumas 
proteínas, entretanto, tiveram suas estruturas resolvidas pelas duas técnicas. 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
61 
 
Figura 9.1. Crescimento do PDB. Crescimento do número de estruturas de proteínas 
contidas no PDB ao longo das três últimas décadas. Obtido em 
http://www.rcsb.org/pdb/holdings.html. 
 
 Outra informação importante sobre o PDB é que ele consiste, assim como o 
GenBank, em um banco de dados primário de estruturas de proteínas, onde as 
mesmas não são classificadas ou analisadas de nenhuma forma específica, estando 
publicadas da mesma forma que o pesquisador que as produziu depositou no banco. 
 
 
9.3. Modelagem molecular por homologia 
 
 A modelagem molecular por homologia representa a tentativa de se descobrir a 
estrutura de uma determinada proteína tendo como base a estrutura de uma outra 
proteína de seqüência relativamente similar. E a necessidade de se modelar uma 
estrutura vem do fato de que a informação biológica sobre uma determinada proteína 
cresce quando se conhece sua estrutura (figura 9.2). Com a informação da estrutura 
de uma proteína é possível tentar descobrir, por exemplo, outras proteínas que 
interajam com ela, fármacos que possam ativá-la ou inibi-la ou, simplesmente, 
permite que entendamos melhor seu mecanismo molecular de ação. 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
62 
 
Figura 9.2. O desafio da modelagem por homologia. 
 
 
 A premissa básica na qual se baseia a modelagem por homologia é a de que: se 
duas proteínas apresentam seqüência primária similar é bem provável que sua 
estrutura seja também parecida. E essa premissa tem se mostrado real, apesar de 
que, algumas vezes, mesmo proteínas que apresentam seqüências primárias 
diferentes podem apresentar conformações tridimensionais parecidas, no que novos 
programas de threading têm sido desenvolvidos para tentar prever essas estruturas. 
Voltando à modelagem por homologia, entretanto, é preciso definir bem quais são as 
situações nas quais a modelagem molecular vale a pena ou não em ser realizada. 
Basicamente, ela vale ser realizada nos seguintes casos: (1) quando o problema é 
experimentalmente difícil, por exemplo, quando as proteínas são muito difíceis de 
serem cristalizadas, como é o caso de proteínas glicosiladas ou de membrana; (2) 
quando se deseja apenas saber aproximadamente a estrutura da proteína, ou seja, 
quando o problema não justifica o investimento e o tempo necessários para produzir 
experimentalmente a estrutura da proteína; ou (3) quando este é o único recurso 
disponível, no caso, por exemplo de um laboratório que não tenha os equipamentos de 
dedução experimental ao alcance. 
 Os procedimentos realizados para a modelagem por homologia normalmente 
consistem nos seguintes passos: (1) identificação das proteínas já modeladas 
apresentando seqüências primárias similares, normalmente realizada através de 
alinhamentos locais da proteína desejada contra as seqüências das proteínas do PDB; 
(2) seleção das proteínas similares que serão utilizadas como modelo; (3) alinhamento 
global da seqüência desejada com as que serão utilizadas; (4) construção do modelo 
através de similaridade com os modelos das proteínas escolhidas do PDB utilizando um 
software de modelagem; (5) avaliação do modelo utilizando diferentes algoritmos de 
teste. Vale notar que o processo de modelagem por homologia é um processo 
iterativo, ou seja, que pode apresentar várias iterações ou repetições. No final, 
avalia-se o modelo obtido e, se o modelo não for satisfatório, tenta-se escolher outras 
proteínas homólogas, alinhamentos um pouco diferentes ou tenta-se modificar alguns 
parâmetros do programa de modelagem até que o modelo passe bem nos testes que 
avaliam os ângulos de torção dos aminoácidos e as propriedades físico-químicas da 
proteína. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
63 
 
9.4. Alguns programas de modelagem molecular 
 
 Existem vários programas que permitem a realização da modelagem molecular. 
O mais fácil de utilizar é o swiss-model http://swissmodel.expasy.org/SWISS-
MODEL.html. Ele consiste num servidor que realiza todos os procedimentos de forma 
transparente para o usuário, que precisa apenas entrar com a seqüência primária da 
proteína de interesse. O próprio swiss-model procura as proteínas similares de 
estrutura conhecida e realiza a montagem do modelo por homologia segundo um 
algoritmo próprio. Apesar disso, ele permite que o usuário também entre com os 
identificadores PDB das proteínas que o mesmo deseje utilizar como molde ou definir 
um valor de cutoff de BLAST para ser utilizado na escolha automática das proteínas 
pelo sistema. Apesar de simples, o swiss-model é normalmente utilizado apenas para a 
produção de modelos aproximados ou como recurso didático. 
Já o algoritmo Modeller consiste num software mais robusto para a elucidação 
de estruturas por homologia. O Modeller trabalha através de satisfação de restrições 
espaciais, apresentando um banco de dados interno que contém alinhamentos de 416 
proteínas de 105 diferentes famílias e, para a satisfação de tais restrições, ele ainda 
calcula as distâncias entre os átomos dos aminoácidos utilizando funções estatísticas 
de densidade de probabilidade. Apresenta ainda um algoritmo de otimização através 
de dinâmica molecular, onde as restrições espaciais são otimizadas levando em 
consideração termos energéticos e de estereoquímica de aminoácidos. O Modeller 
contém também um banco de dados contendoproteínas representativas de todo o 
PDB. 
 
 
9.5. Threading 
 
 Vimos, portanto, como normalmente é realizada a montagem de modelos 
teóricos de estruturas protéicas baseados em homologia de seqüência entre diferentes 
proteínas. Entretanto, o que fazer quando o pesquisador deseja modelar teoricamente 
uma determinada proteína mas não há outras seqüências similares o suficiente no 
banco de dados do PDB para realizar essa modelagem? Foi pensando nesse tema e no 
fato de que algumas proteínas de seqüência bem divergente apresentam estruturas 
similares, que os algoritmos de threading foram desenvolvidos. Tais programas, como 
o gene threader, tentam modelar proteínas que não apresentem seqüências 
primárias similares com estrutura conhecida. Um programa de threading funciona de 
acordo com a montagem dos chamados modelos descritivos, que são montados para 
tentar criar um padrão relacionando seqüência e estrutura, mas não de uma forma tão 
rígida quanto num alinhamento. Esses padrões levam em consideração alguns fatores, 
como: (1) a distância entre os resíduos de aminoácidos; (2) a estrutura secundária de 
vários segmentos das proteínas; (3) as características físico-químicas de cada resíduo 
e sua ordem na cadeia. Dessa forma, esses algoritmos são, por vezes, capazes de 
gerar estruturas terciárias de proteínas sem que existam outras proteínas já 
modeladas com seqüência similar. 
 
 
9.6. CASP – Critical Assessment of Structure Prediction 
 
 É interessante notar que a cada dois anos é realizada uma espécie de 
“competição” para tentar descobrir quais são os melhores programas de modelagem 
molecular existentes no mundo. Essa saudável competição é realizada como um 
estudo cego onde uma proteína recém modelada experimentalmente tem sua estrutura 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
64 
escondida e vários grupos de modelagem em todo o mundo obtêm sua seqüência 
primária e tentam modelá-la através de diversas técnicas diferentes. Ganha o concurso 
o grupo que se aproximar mais da estrutura real da proteína, que só é liberada depois 
que o concurso termina. E a cada biênio os pesquisadores mostram conseguir chegar 
mais perto da estrutura real da proteína desconhecida. 
 
 
9.7. Estrutura de um arquivo no formato PDB 
 
 O arquivo abaixo consiste na parte inicial de um arquivo no formato PDB que 
representa a estrutura de uma proteína, no caso de uma variante da hemoglobina 
humana. O arquivo PDB normalmente é estruturado de acordo com as seguintes 
partes: 
 
 
Informações do arquivo Identificadores da primeira coluna 
Título TITLE, COMPND, SOURCE, AUTHOR, REMARKS 
Estrutura primária DBREF, SEQADV, SEQRES, MODRES 
Heteroátomos HET, HETNAM, HETSYN, FORMUL 
Estrutura secundária HELIX, SHEET, TURN 
Ligações químicas SSBOND, HYDBND, SLTBRG, CYSPEP 
Dados cristalográficos CRIST1, ORIGXn, SCALEn, MTRIXn 
Coordenadas atômicas MODEL, ATOM, TER, HETATM 
Tabela 9.1. Informações presentes num arquivo PDB de estrutura de proteína. 
Exemplo de um arquivo PDB: 
 
 
HEADER OXYGEN TRANSPORT 14-APR-95 1HDB 1HDB 2 
COMPND MOL_ID: 1; 1HDB 3 
COMPND 2 MOLECULE: HEMOGLOBIN (DEOXY) BETA-V67T; 1HDB 4 
COMPND 3 CHAIN: A, B, C, D; 1HDB 5 
COMPND 4 SYNONYM: HBV67T; 1HDB 6 
COMPND 5 ENGINEERED: YES; 1HDB 7 
COMPND 6 MUTATION: CHAIN B, D, V67T; 1HDB 8 
COMPND 7 OTHER_DETAILS: ALPHA-BETA-ALPHA-BETA TETRAMER 1HDB 9 
SOURCE MOL_ID: 1; 1HDB 10 
SOURCE 2 SYNTHETIC: YES; 1HDB 11 
SOURCE 3 ORGANISM_SCIENTIFIC: HOMO SAPIENS; 1HDB 12 
SOURCE 4 ORGANISM_COMMON: HUMAN; 1HDB 13 
SOURCE 5 TISSUE: BLOOD; 1HDB 14 
SOURCE 6 CELL: ERYTHROCYTE; 1HDB 15 
SOURCE 7 EXPRESSION_SYSTEM: ESCHERICHIA COLI; 1HDB 16 
SOURCE 8 EXPRESSION_SYSTEM_STRAIN: AR120; 1HDB 17 
SOURCE 9 EXPRESSION_SYSTEM_PLASMID: PJK05 (FRONTICELLI ET AL.,1991); 1HDB 18 
SOURCE 10 EXPRESSION_SYSTEM_GENE: BETA-GLOBIN CDNA FUSED TO A 1HDB 19 
SOURCE 11 TRUNCATED VIRAL GENE 1HDB 20 
KEYWDS HUMAN HEMOGLOBIN, DEOXY-BETA-V67T 1HDB 21 
EXPDTA X-RAY DIFFRACTION 1HDB 22 
AUTHOR I.PECHIK,X.JI,C.FRONTICELLI,G.L.GILLILAND 1HDB 23 
REVDAT 1 03-APR-96 1HDB 0 1HDB 24 
JRNL AUTH I.PECHIK,X.JI,J.DILL,K.FIDELIS,J.MOULT, 1HDB 25 
JRNL AUTH 2 W.S.BRINIGAR,M.KARAVITIS,C.FRONTICELLI, 1HDB 26 
JRNL AUTH 3 G.L.GILLILAND 1HDB 27 
JRNL TITL ANALYSIS OF THE CRYSTAL STRUCTURE, MOLECULAR 1HDB 28 
JRNL TITL 2 MODELING AND INFRARED SPECTROSCOPY OF THE DISTAL 1HDB 29 
JRNL TITL 3 BETA-HEME POCKET VALINE67(E11)-THREONINE MUTATION 1HDB 30 
JRNL TITL 4 OF HEMOGLOBIN 1HDB 31 
JRNL REF TO BE PUBLISHED 1HDB 32 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
65 
JRNL REFN 0353 1HDB 33 
REMARK 1 1HDB 34 
REMARK 1 REFERENCE 1 1HDB 35 
REMARK 1 AUTH C.FRONTICELLI,I.PECHIK,W.S.BRINIGAR,Z.GRYCZYNSKI, 1HDB 36 
REMARK 1 AUTH 2 G.L.GILLILAND 1HDB 37 
REMARK 1 TITL OXYGEN AFFINITY MODULATION BY THE N-TERMINI OF THE 1HDB 38 
REMARK 1 TITL 2 BETA- CHAINS IN HUMAN AND BOVINE HEMOGLOBIN 1HDB 39 
REMARK 1 REF J.BIOL.CHEM. V. 269 23965 1994 1HDB 40 
REMARK 1 REFN ASTM JBCHA3 US ISSN 0021-9258 0071 1HDB 41 
REMARK 2 1HDB 42 
REMARK 2 RESOLUTION. 2.2 ANGSTROMS. 1HDB 43 
REMARK 3 1HDB 44 
REMARK 3 REFINEMENT. 1HDB 45 
REMARK 3 PROGRAM GPRLSA 1HDB 46 
REMARK 3 AUTHORS FUREY 1HDB 47 
REMARK 3 R VALUE 0.149 1HDB 48 
REMARK 3 MEAN B VALUE 21.43 ANGSTROMS**2 1HDB 49 
REMARK 3 FINAL RMS COORD. SHIFT 0.024 ANGSTROMS 1HDB 50 
REMARK 3 1HDB 51 
REMARK 3 NUMBER OF REFLECTIONS 21669 1HDB 52 
REMARK 3 RESOLUTION RANGE 6.0 - 2.2 ANGSTROMS 1HDB 53 
REMARK 3 DATA CUTOFF 2. SIGMA(F) 1HDB 54 
REMARK 3 1HDB 55 
REMARK 3 DATA COLLECTION. 1HDB 56 
REMARK 3 NUMBER OF UNIQUE REFLECTIONS 271631HDB 57 
REMARK 3 COMPLETENESS OF DATA 84. % 1HDB 58 
REMARK 3 REJECTION CRITERIA 0.0 SIGMA(I) 1HDB 59 
REMARK 3 1HDB 60 
REMARK 3 NUMBER OF ATOMS USED IN REFINEMENT. 1HDB 61 
REMARK 3 NUMBER OF PROTEIN ATOMS 4384 1HDB 62 
REMARK 3 NUMBER OF NUCLEIC ACID ATOMS 0 1HDB 63 
REMARK 3 NUMBER OF HETEROGEN ATOMS 172 1HDB 64 
REMARK 3 NUMBER OF SOLVENT ATOMS 444 1HDB 65 
REMARK 3 1HDB 66 
REMARK 3 RMS DEVIATIONS FROM IDEAL VALUES (THE VALUES OF 1HDB 67 
REMARK 3 SIGMA, IN PARENTHESES, ARE THE INPUT ESTIMATED 1HDB 68 
REMARK 3 STANDARD DEVIATIONS THAT DETERMINE THE RELATIVE 1HDB 69 
REMARK 3 WEIGHTS OF THE CORRESPONDING RESTRAINTS). 1HDB 70 
REMARK 3 DISTANCE RESTRAINTS (ANGSTROMS). 1HDB 71 
REMARK 3 BOND DISTANCE 0.017(0.025) 1HDB 72 
REMARK 3 ANGLE DISTANCE 0.038(0.036) 1HDB 73 
REMARK 3 PLANAR 1-4 DISTANCE 0.039(0.040) 1HDB 74 
REMARK 3 ANGLE RESTRAINTS (DEGREES). 1HDB 75 
REMARK 3 PLANE RESTRAINT (ANGSTROMS) 0.023(0.030) 1HDB 76 
REMARK 3 CHIRAL-CENTER RESTRAINT (ANGSTROMS**3) 0.181(0.200) 1HDB 77 
REMARK 3 NON-BONDED CONTACT RESTRAINTS (ANGSTROMS). 1HDB 78 
REMARK 3 SINGLE TORSION CONTACT 0.186(0.300) 1HDB 79 
REMARK 3 MULTIPLE TORSION CONTACT 0.187(0.300) 1HDB 80 
REMARK 3 POSSIBLE HYDROGEN BOND 0.174(0.300) 1HDB 81 
REMARK 3 CONFORMATIONAL TORSION ANGLE RESTRAINT (DEGREES). 1HDB 82 
REMARK 3 PLANAR 3.5(5.0) 1HDB 83 
REMARK 3 STAGGERED 17.4(15.0) 1HDB 84 
REMARK 3 ORTHONORMAL 31.7(15.0) 1HDB 85 
REMARK 3 ISOTROPIC THERMAL FACTOR RESTRAINTS (ANGSTROMS**2). 1HDB 86 
REMARK 3 MAIN-CHAIN BOND 0.676(1.000) 1HDB 87 
REMARK 3 MAIN-CHAIN ANGLE 1.140(1.500) 1HDB 88 
REMARK 3 SIDE-CHAIN BOND 1.279(1.500) 1HDB 89 
REMARK 3 SIDE-CHAIN ANGLE 2.031(2.000) 1HDB 90 
REMARK 3 1HDB 91 
REMARK 3 MAIN-CHAIN BOND 0.676(1.000) 1HDB 92 
REMARK 3 MAIN-CHAIN ANGLE 1.140(1.500) 1HDB 93 
REMARK 3 SIDE-CHAIN BOND 1.279(1.500) 1HDB 94 
REMARK 3 SIDE-CHAIN ANGLE 2.031(2.000) 1HDB 95 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
66 
REMARK 18 1HDB 96 
REMARK 18 DATE OF DATA COLLECTION : 07-04-94 1HDB 97 
REMARK 18 MONOCHROMATIC (Y/N) : Y 1HDB 98 
REMARK 18 INTENSITY-INTEGRATION SOFTWARE : XENGEN 1HDB 99 
REMARK 18 DATA REDUNDANCY : 2.75 1HDB 100 
DBREF 1HDB A 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB 101 
DBREF 1HDB B 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB 102 
DBREF 1HDB C 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB 103 
DBREF 1HDB D 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB 104 
SEQADV 1HDB THR B 67 SWS P02023 VAL 67 ENGINEERED 1HDB 105 
SEQADV 1HDB THR D 67 SWS P02023 VAL 67 ENGINEERED 1HDB 106 
SEQRES 1 A 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 1HDB 107 
SEQRES 2 A 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 1HDB 108 
SEQRES 3 A 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 1HDB 109 
SEQRES 4 A 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 1HDB 110 
SEQRES 5 A 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 1HDB 111 
SEQRES 6 A 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 1HDB 112 
SEQRES 7 A 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 1HDB 113 
SEQRES 8 A 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 1HDB 114 
SEQRES 9 A 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 1HDB 115 
SEQRES 10 A 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 1HDB 116 
SEQRES 11 A 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1HDB 117 
SEQRES 1 B 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 1HDB 118 
SEQRES 2 B 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 1HDB 119 
SEQRES 3 B 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 1HDB 120 
SEQRES 4 B 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 1HDB 121 
SEQRES 5 B 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 1HDB 122 
SEQRES 6 B 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 1HDB 123 
SEQRES 7 B 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 1HDB 124 
SEQRES 8 B 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 1HDB 125 
SEQRES 9 B 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 1HDB 126 
SEQRES 10 B 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 1HDB 127 
SEQRES 11 B 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 1HDB 128 
SEQRES 12 B 146 LYS TYR HIS 1HDB 129 
SEQRES 1 C 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 1HDB 130 
SEQRES 2 C 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 1HDB 131 
SEQRES 3 C 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 1HDB 132 
SEQRES 4 C 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 1HDB 133 
SEQRES 5 C 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 1HDB 134 
SEQRES 6 C 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 1HDB 135 
SEQRES 7 C 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 1HDB 136 
SEQRES 8 C 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 1HDB 137 
SEQRES 9 C 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 1HDB 138 
SEQRES 10 C 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 1HDB 139 
SEQRES 11 C 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1HDB 140 
SEQRES 1 D 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 1HDB 141 
SEQRES 2 D 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 1HDB 142 
SEQRES 3 D 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 1HDB 143 
SEQRES 4 D 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 1HDB 144 
SEQRES 5 D 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 1HDB 145 
SEQRES 6 D 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 1HDB 146 
SEQRES 7 D 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 1HDB 147 
SEQRES 8 D 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 1HDB 148 
SEQRES 9 D 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 1HDB 149 
SEQRES 10 D 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 1HDB 150 
SEQRES 11 D 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 1HDB 151 
SEQRES 12 D 146 LYS TYR HIS1HDB 152 
HET HEM A 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 153 
HET HEM B 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 154 
HET HEM C 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 155 
HET HEM D 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 156 
HET SO4 1 5 SULFATE ION 1HDB 157 
HET SO4 2 5 SULFATE ION 1HDB 158 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
67 
FORMUL 5 HEM 4(C34 H32 N4 O4 FE1 2+) 1HDB 159 
FORMUL 6 SO4 2(O4 S1 2-) 1HDB 160 
FORMUL 7 HOH *434(H2 O1) 1HDB 161 
HELIX 1 1 PRO A 4 SER A 35 1 1HDB 162 
HELIX 2 2 PRO A 37 TYR A 42 5 1HDB 163 
HELIX 3 3 ALA A 53 ALA A 71 1 1HDB 164 
HELIX 4 4 MET A 76 ALA A 79 1 1HDB 165 
HELIX 5 5 SER A 81 HIS A 89 1 1HDB 166 
HELIX 6 6 PRO A 95 HIS A 112 5 1HDB 167 
HELIX 7 7 PRO A 119 THR A 137 1 1HDB 168 
HELIX 8 8 PRO B 5 LYS B 17 1 1HDB 169 
HELIX 9 9 VAL B 20 VAL B 34 1 1HDB 170 
HELIX 10 10 PRO B 36 PHE B 45 5 1HDB 171 
HELIX 11 11 PRO B 51 GLY B 56 1 1HDB 172 
HELIX 12 12 PRO B 58 HIS B 77 1 1HDB 173 
HELIX 13 13 LEU B 81 ASP B 94 1 1HDB 174 
HELIX 14 14 PRO B 100 GLU B 121 5 1HDB 175 
HELIX 15 15 PRO B 124 ALA B 142 1 1HDB 176 
HELIX 16 16 PRO C 4 SER C 35 1 1HDB 177 
HELIX 17 17 PRO C 37 TYR C 42 5 1HDB 178 
HELIX 18 18 ALA C 53 ALA C 71 1 1HDB 179 
HELIX 19 19 MET C 76 ALA C 79 1 1HDB 180 
HELIX 20 20 SER C 81 HIS C 89 1 1HDB 181 
HELIX 21 21 PRO C 95 HIS C 112 5 1HDB 182 
HELIX 22 22 PRO C 119 LEU C 136 1 1HDB 183 
HELIX 23 23 PRO D 5 LYS D 17 1 1HDB 184 
HELIX 24 24 VAL D 20 VAL D 34 1 1HDB 185 
HELIX 25 25 PRO D 36 PHE D 45 5 1HDB 186 
HELIX 26 26 PRO D 51 GLY D 56 1 1HDB 187 
HELIX 27 27 PRO D 58 HIS D 77 1 1HDB 188 
HELIX 28 28 LEU D 81 ASP D 94 1 1HDB 189 
HELIX 29 29 PRO D 100 GLU D 121 5 1HDB 190 
HELIX 30 30 PRO D 124 ALA D 142 1 1HDB 191 
CRYST1 63.540 83.190 54.020 90.00 99.15 90.00 P 21 4 1HDB 192 
ORIGX1 1.000000 0.000000 0.000000 0.00000 1HDB 193 
ORIGX2 0.000000 1.000000 0.000000 0.00000 1HDB 194 
ORIGX3 0.000000 0.000000 1.000000 0.00000 1HDB 195 
SCALE1 0.015738 0.000000 0.002535 0.00000 1HDB 196 
SCALE2 0.000000 0.012021 0.000000 0.00000 1HDB 197 
SCALE3 0.000000 0.000000 0.018750 0.00000 1HDB 198 
ATOM 1 N VAL A 1 19.345 29.258 43.165 1.00 33.80 1HDB 199 
ATOM 2 CA VAL A 1 20.198 30.251 42.493 1.00 33.75 1HDB 200 
ATOM 3 C VAL A 1 21.681 29.970 42.744 1.00 33.53 1HDB 201 
ATOM 4 O VAL A 1 22.004 29.466 43.860 1.00 33.92 1HDB 202 
ATOM 5 CB VAL A 1 19.720 31.621 43.026 1.00 33.70 1HDB 203 
ATOM 6 CG1 VAL A 1 19.955 31.726 44.529 1.00 33.94 1HDB 204 
ATOM 7 CG2 VAL A 1 20.335 32.766 42.236 1.00 34.02 1HDB 205 
ATOM 8 N LEU A 2 22.515 30.278 41.750 1.00 32.79 1HDB 206 
ATOM 9 CA LEU A 2 23.964 30.010 41.896 1.00 32.05 1HDB 207 
ATOM 10 C LEU A 2 24.657 31.119 42.673 1.00 31.36 1HDB 208 
 
Aqui são mostrados apenas os 10 primeiros átomos com suas coordenadas, 
mas o arquivo inteiro apresenta mais de 5000 átomos com suas respectivas 
coordenadas atômicas, que representam sua posição espacial num eixo tridimensional. 
 
 
9.8. Referências Bibliográficas 
 
1. PDB http://www.rcsb.org/pdb/ Mais famoso e completo banco de dados de 
estrutura de proteínas. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
68 
2. Protein explorer http://molvis.sdsc.edu/protexpl/ Programa derivado do RasMol 
para a visualização de estruturas de proteínas. 
3. SWISS-PDBviewer http://www.expasy.org/spdbv/ Programa para a visualização e 
análise da estrutura de proteínas. Permite a realização de mutações, alterações em 
pontes de hidrogênio, ângulos de torção e distâncias entre átomos. 
4. Libra http://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA_I.html Programa on-line que 
utiliza threading para encontrar uma seqüência de resíduos de aminoácidos que 
melhor se adequem a uma estrutura terciária conhecida e vice-versa 
5. Threader Programa de predição da estrutura terciária através do reconhecimento 
do enovelamento a partir de bibliotecas alternativas 
6. CASP http://predictioncenter.llnl.gov/Center.html Critical Assesment of Structural 
Prediction. “Competição” que avalia os softwares de predição de estrutura de 
proteínas 
7. SWISS-MODEL Modelagem de proteínas por homologia 
http://www.expasy.org/swissmod 
 
 
9.9. Brainstorm 
 
1. Por que o conhecimento sobre a estrutura das proteínas é importante? 
2. Descreva brevemente como funcionam as duas principais técnicas experimentais 
para a descoberta da estrutura terciárias das proteínas. 
3. O que é o PDB? Por que há menos estruturas protéicas produzidas do que 
seqüências gênicas? 
4. A modelagem por homologia se baseia em qual premissa? 
5. Quais são os casos onde se recomenda realizar a modelagem por homologia? 
6. Quais são os passos necessários para se realizar a modelagem por homologia? 
7. Em que se baseia a modelagem por threading? Você acha que a modelagem por 
threading mostra que a premissa da modelagem por homologia esteja incorreta ou 
incompleta? Por que? 
 
 
 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
69 
CAPÍTULO 10 
Conclusões e pensamentos filosóficos sobre a bioinformática 
 
 
10.1. Sobre bioinformática, genoma e ciência 
 
Abaixo você vai ver o rascunho do artigo que publiquei na Revista Ciência Hoje, 
de Outubro de 2004, em colaboração com meu orientador de doutorado, o Prof. 
Fabrício Rodrigues dos Santos. O artigo pretende apresentar a bioinformática, coisa 
que você já deve estar ciente neste momento, e discutir a relevância da pesquisa de 
genoma num contexto científico. Além disso, o artigo apresenta alguns paradigmas 
interessantes da pesquisa em bioinformática. 
 
 
10.2. Introdução 
 A bioinformática consisteprincipalmente na análise computacional de 
seqüências de DNA, RNA e proteínas. Essa nova ciência surgiu na última década devido 
a uma necessidade urgente pela utilização de ferramentas sofisticadas para a análise 
de um crescente número de dados que veio a ser produzido em biologia molecular. O 
GenBank foi um dos primeiros e ainda é o mais popular banco de dados para o 
depósito de seqüências de DNA. Criado dentro do NCBI -- o centro americano para 
informação biotecnológica --, é lá onde pesquisadores de todo o mundo depositam as 
seqüências de A, C, G e Ts que obtêm em seus laboratórios através do 
sequenciamento do DNA dos mais diversos organismos. No final da década de 90 
observou-se um crescimento exponencial do número de seqüências de biomoléculas 
depositadas no GenBank e a figura 1 já é clássica no âmbito da biologia 
computacional. Esse assustador crescimento começou a ocorrer após a comercialização 
dos seqüenciadores de DNA a laser, em 1990. Os seqüenciadores atuais são 
totalmente automatizados e foram especialmente desenvolvidos para o 
seqüenciamento de moléculas DNA em larga-escala. Freqüentemente apresentam 96 
capilares (tubos minúsculos por onde passam fragmentos de DNA a serem analisados) 
e conseguem gerar, em média, seqüências de DNA de 600 letras A, C, G e T por 
capilar em cada análise (o genoma humano é constituído por cerca de 3 bilhões de 
letras de DNA). Seqüenciadores ainda mais potentes, apresentando 384 capilares, 
podem produzir mais de um milhão de letras do DNA por dia! No Brasil, existem 
dezenas de seqüenciadores e grande parte deles foi distribuída entre laboratórios em 
todo o país quando da implantação do Projeto Genoma FAPESP para o seqüenciamento 
da bactéria Xylella fastidiosa que ataca a laranja (http://aeg.lbi.ic.unicamp.br/xf/) e do 
Projeto Genoma Brasileiro (http://www.brgene.lncc.br) durante o qual foram 
seqüenciadas as bactérias Chromobacterium violaceum e Mycoplasma synoviae. 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
70 
 
Figura 10.1. Crescimento do número de seqüências depositadas no Genbank desde 
sua criação. 
 
 A grande maioria dessas seqüências publicadas em bancos de dados 
internacionais vêm de projetos genoma e transcriptoma (ou genoma funcional). 
Genomas para cá, genomas para lá, desde o seqüenciamento da primeira bactéria -- o 
Haemophilus influenzae em meados de 1995 -- hoje o NCBI já apresenta 1274 
genomas de vírus seqüenciados, 169 genomas de procariotos (bactérias e 
arqueobactérias) e 20 genomas de organismos eucarióticos. Estas seqüências de 
biomoléculas têm gerado uma grande quantidade de informação cuja complexidade é 
crescente com o estudo das interações entre biomoléculas e das variações observadas 
entre cada um dos indivíduos de uma certa população. Mas, afinal, que informações 
cientificamente relevantes o genoma trouxe para os cientistas, para as pessoas e para 
a sociedade? Enfim, será que projetos genoma são pesquisas meramente descritivas? 
Qual seria então a relevância da genômica e o papel da bioinformática para 
consolidação desta ciência? 
 
 
10.3. Genoma e o método científico 
 
 À primeira vista parece-nos que os estudos de genoma não são estudos 
científicos clássicos. Isso se deve ao fato de que o início de um projeto genoma não se 
baseia em uma hipótese clara e bem elaborada a priori sobre a biologia de um 
determinado organismo. No máximo, a pergunta que se poderia fazer antes de se 
seqüenciar um genoma seria: “será que este organismo apresenta algum gene de 
potencial biotecnológico?”; ou, “o que há no genoma deste organismo que o faz 
conseguir viver nessa condição, ou gerar uma patologia?” Mas, no fundo, tais 
perguntas dificilmente serão respondidas diretamente através do seqüenciamento do 
genoma. Estudos posteriores serão certamente necessários para responder tais 
perguntas de forma adequada. E mais ainda: é possível que alguma investigação não-
genômica mais minuciosa sobre esse ou aquele aspecto em particular possam dar 
resposta mais direta a tais questões. 
Mas não pense que isso tira o mérito dos estudos genômicos. Acreditamos que 
a ciência vive hoje a era da anatomia molecular. Se voltarmos filosoficamente ao 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
71 
século XIX, veremos que, naquela época em que pouco se conhecia -- de forma 
sistematicamente documentada -- do mundo biológico em geral, os grandes cientistas 
eram considerados os naturalistas; aqueles que exploravam o mundo em busca de 
informação taxonômica, encontrando e classificando novos animais e plantas antes 
desconhecidos. A descrição e a documentação de novas espécies era especialmente 
necessária naquela época, uma vez que pouco ou nada se conhecia sobre a grande 
diversidade da vida em nosso planeta. Assim, poucos questionamentos eram feitos a 
respeito de nossa biodiversidade. Desta forma, como nos estudos dos naturalistas, 
houve a época onde os anatomistas começaram a surgir, escrevendo seus tratados e 
mostrando os primeiros detalhes bem documentados sobre a anatomia humana e de 
diversas outras espécies. Descreviam da melhor maneira possível à época, a 
localização dos órgãos e tecidos humanos que se tinha conhecimento. Igualmente, se a 
genômica não pode ser vista classicamente como uma ciência, a taxonomia e a 
anatomia também não o podem. E isso vem do fato de que tais empreendimentos 
científicos são principalmente descritivos ao invés de investigativos. Mas, mais uma 
vez, isso não lhes tira o mérito, muito pelo contrário. Quanto conhecimento científico 
já não foi construído baseado nas informações geradas pelos naturalistas e 
anatomistas? Toda uma ciência biomédica foi montada com bases nos conhecimentos 
descritivos gerados pelos anatomistas e a teoria mais importante e unificadora de toda 
a biologia -- a Evolução -- surgiu diretamente das observações, documentações e 
estudos descritivos dos naturalistas Charles Darwin e Alfred Wallace. 
 Bem, e a genômica? O genoma pode ser descrito como a anatomia molecular 
de uma espécie. E é só agora, neste início de século XXI, que estamos conseguindo 
desvendar e descrever como as espécies são constituídas em seu nível mais básico; o 
da informação molecular. A genômica é a “ciência descritiva” dos nossos tempos. E 
assim como as ciências biomédicas surgiram para trazer o método científico ao estudo 
da anatomia, a bioinformática surge agora para trazer a cientificidade aos dados 
genômicos, para casar a genômica ao método científico e para gerar informações 
relevantes e indispensáveis na incessante busca do conhecimento em que consiste o 
empreendimento científico. 
 
 
10.4. Um conceito de bioinformática 
 
 Nesse momento é importante definirmos bem do que se trata a bioinformática e 
em que contexto utilizamos este conceito no presente ensaio. Muita confusão é feita 
nesse ponto e muitos acreditam que a bioinformática consista em qualquer análise 
computacional de problemas biológicos, o que não se enquadra na origem desta 
disciplina. A bioinformática clássica surgiu com o seqüenciamento de biomoléculas e 
destas permanece inseparável. É possível propor uma definição razoavelmente clara do 
que seja a bioinformática dizendo que esta consista em “todo o tipo de estudo ou de 
ferramenta que se pode realizar e/ou produzir de forma a organizar ou obter 
informação biológica a partir de seqüências de biomoléculas”. Se o estudo usa 
seqüências de biomoléculas (DNA, RNA ou proteínas), direta ou indiretamente, 
tratamos como bioinformática; do contrário estaremos falando de computação aplicada 
à biologia, campo extremamente importante em várias disciplinas e presente bemantes de ser iniciado o seqüenciamento de biomoléculas. Uma vez definido o conceito 
de bioinformática utilizado aqui, podemos perceber que muitos estudos na área podem 
ser enquadrados em três princípios paradigmáticos, chamadas aqui, metaforicamente, 
de tijolo, peneira e lupa. 
 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
72 
10.5. Princípios paradigmáticos em bioinformática 
 
Estudos de bioinformática tijolo consistem naqueles relacionados à execução 
de projetos genoma e normalmente produzem ferramentas para a análise de 
seqüências e interpretação de genomas. Alguns processos já são clássicos dentre as 
análises de seqüências de DNA. Dentre eles podemos citar o base-calling, onde as 
bases do DNA são lidas no seqüenciador a partir dos cromatogramas (perfis de 
emissão fluorescente que variam entre os nucleotídeos A, C, G e T durante a análise). 
Neste processo, são gerados os chamados cromatogramas e eles são transformados 
em uma seqüência e um índice de confiabilidade é associado a cada letra do DNA. Em 
um processo subseqüente faz-se a análise de seqüências que apresentam uma 
determinada seqüência de letras em comum para a geração dos “textos” genômicos. 
Como já comentado, uma seqüência obtida no seqüenciador possui aproximadamente 
600 letras de DNA e um genoma consiste normalmente em uma seqüência de milhões 
ou bilhões de letras. Portanto, na produção de um genoma é preciso alinhar as 
seqüências geradas uma após a outra, verificando suas regiões de sobreposição, para 
que seja possível montar o conjunto de toda a informação genética da espécie em 
estudo. Novas ferramentas para o alinhamento de seqüências, a padronização de 
processos de base-calling, a montagem de seqüências para se gerar um genoma e a 
produção de ferramentas para identificação de genes, são alguns exemplos de projetos 
de bioinformática tijolo, sem as quais é impossível a análise eficiente dos “edifícios 
genômicos”. Vale notar ainda que as ferramentas de comparação de seqüências de 
DNA têm permitido um grande avanço no que diz respeito à identificação das funções 
de genes. Através da comparação entre a seqüência de um novo gene e um banco de 
dados de genes de função conhecida, pode-se inferir rapidamente a possível função de 
um gene completamente desconhecido. Caso fosse necessária a realização de testes 
experimentais para descobrirmos a função de cada um dos genes que vêm sendo 
descritos, possivelmente teríamos ainda de pesquisar várias décadas antes de publicar 
um genoma com esta informação. A bioinformática, portanto, permite uma rápida 
identificação da provável função de um gene seqüenciado pela primeira vez. 
 Como já dissemos, muita informação é descrita durante projetos genoma e é 
virtualmente impossível a análise de todos esses dados (ou mesmo uma pequena 
quantidade deles) pelo grupo que gerou a seqüência completa de DNA de um 
organismo. Assim, são necessários trabalhos posteriores para a análise de pedaços 
específicos de diferentes genomas, com o objetivo de produzir mais informação sobre 
um tema específico como, por exemplo, as proteínas para metabolismo de açúcares. 
Esses trabalhos de mineração de dados genômicos são característicos dos projetos da 
chamada bioinformática peneira. Como a genômica é essencialmente uma disciplina 
descritiva, os trabalhos publicados apresentam muitas informações sem qualquer 
detalhamento, muitas vezes por própria limitação do periódico científico. Na figura 2 
vemos um exemplo da informação descritiva freqüentemente presente em artigos de 
genoma, a divisão em grupos de genes de acordo com sua função biológica. Que 
informação relevante há de se tirar desse monte de dados? 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
73 
 
Figura 10.2. Típica figura apresentando informação de cunho descritivo que é 
encontrada em artigos científicos sobre genomas. Aqui é feita a descrição das 
porcentagens de genes encontrados no genoma que apresentam diferentes funções 
biológicas. 
 
É interessante observar que há, ao redor do mundo, alguns centros 
especializados em seqüenciamento de genomas, publicando seqüências e mais 
seqüências para que outros pesquisadores possam ter informações disponíveis para 
fazer seus próprios estudos de mineração de dados. Usando peneiras específicas, os 
cientistas em todo o mundo podem ser capazes de gerar conhecimento mais 
aprofundado sobre aspectos particulares de seu próprio interesse. A construção de 
bancos de dados de seqüências de genes com uma ou outra função específica ou de 
estruturas tridimensionais de proteínas, por exemplo, consistem também em trabalhos 
montados no âmbito da bioinformática peneira e, todo ano, a primeira edição da 
revista britânica Nucleic Acids Research traz um resumo dos bancos de dados mais 
utilizados na área da bioinformática. 
 Por fim, nos trabalhos de bioinformática lupa é onde a ciência se faz presente 
com maior clareza na área genômica. Vale notar que todos os estudos de genoma e 
bioinformática descritos até agora são de suma importância para o aumento do 
conhecimento científico sobre os organismos e sobre suas constituições moleculares. 
Mas em estudos de bioinformática lupa o método científico é rigorosamente aplicado. 
Aqui, através das mais variadas ferramentas computacionais é possível gerar 
metodologias algorítmicas para testar hipóteses e produzir resultados que verifiquem 
ou refutem suas afirmações quando se observam dados genômicos. O processo 
investigativo científico é retomado: observam-se os dados, criam-se hipóteses e 
realizam-se experimentos in silico (dentro do computador) de forma a testá-las 
através de algoritmos bioinformáticos. Posteriormente, é corroborada ou refutada a 
hipótese inicial a partir da análise dos resultados obtidos. É interessante notar que 
estudos dessa categoria não são necessariamente publicados em revistas 
especializadas em bioinformática. Isso vem do fato de que os algoritmos montados 
aqui são apenas um detalhe e caracterizam a metodologia de um trabalho que tenta 
mostrar um resultado biológico mais específico. A bioinformática não é o centro do 
trabalho, como ocorre nas abordagens de tijolo e peneira. Nos trabalhos classificados 
como lupa, a hipótese e os resultados são mais importantes do que as ferramentas 
bioinformáticas utilizadas como meio investigativo. Assim, tais estudos são 
freqüentemente publicados nas revistas relacionadas com o organismo em que se está 
estudando, com o fenômeno estudado, ou em revistas específicas de genética, biologia 
molecular ou bioquímica. Exemplos de estudos de bioinformática lupa são aqueles 
onde alguma característica biológica de um determinado organismo é explicada a partir 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
74 
da observação de seu conjunto de seqüências gênicas ou protéicas e da comparação 
com seqüências similares em organismos proximamente relacionados. Através desses 
estudos de genômica comparativa é possível associar aspectos da biologia dos 
organismos comparados à presença ou a ausência de determinado gene, grupo de 
genes ou processos metabólicos. 
 
10.6. Conclusão 
 
Dessa forma, a bioinformática, além de outras ciências já bem estabelecidas, 
como a biologia molecular, a genética e a bioquímica vêm trazer uma abordagem 
baseada no método científico aos dados gerados em projetos genoma. Vale notar, no 
âmbito nacional, a iniciativa pioneira da CAPES (Coordenação para o Aperfeiçoamento 
de Profissionais de Ensino Superior) na indução dacriação de cursos de doutorado na 
área de bioinformática, que resultou em dois cursos implementados recentemente no 
país (UFMG e USP) que já apresentam dezenas de alunos em processo de formação 
nessa área estratégica. Conclui-se, a partir do presente ensaio, que os estudos de 
genomas são importantes para produzir um grande número de informações sobre a 
anatomia molecular de uma espécie. Informações estas que poderão ser utilizadas 
como pontos de partida para a produção de novos conhecimentos científicos através de 
diferentes paradigmas experimentais, utilizando abordagens in vitro, in vivo ou in 
silico, esta última sendo representada por metodologias baseadas na criação de 
algoritmos dessa nova e importante ciência do século XXI, a bioinformática. 
 
 
 
10.7. Brainstorm 
 
1. Defina bioinformática com suas próprias palavras. 
2. Sua visão sobre bioinformática e genoma foi modificada após a realização deste 
curso? O que você pensava antes e pensa agora? 
3. As pesquisas genômicas são científicas? O que você entende por ciência? 
4. Como você definiria a expressão “anatomia molecular”? 
5. Cite exemplos e discorra sobre a bioinformática tijolo. 
6. Cite exemplos e discorra sobre a bioinformática peneira. 
7. Cite exemplos e discorra sobre a bioinformática lupa e explique por que os 
trabalhos de lupa normalmente não são publicados em revistas de bioinformática. 
8. Você consegue pensar em mais algum paradigma da bioinformática atual? 
9. Qual foi a aula mais interessante, em sua opinião? Por que? 
10. Qual foi a aula que você achou mais complicada? Por que? 
11. Dê sua apreciação geral sobre o curso realizado. 
 
 
 
 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
75 
SOBRE O AUTOR 
 
 
Francisco Prosdocimi de Castro Santos nasceu em Belo Horizonte, no ano de 1979, e é 
atualmente professor e pesquisador da Universidade Católica de Brasília. Ministra 
disciplinas de Biologia Molecular e Bioinformática para alunos da graduação em 
Ciências Biológicas e Ciências Biomédicas. Na pós graduação em ciências genômicas, 
Francisco ministra aulas de bioinformática, análises de genomas e filogenia molecular. 
Francisco é biólogo (2001), mestre em Genética (2003) e doutor em Bioinformática 
(2006) pela UFMG, tendo trabalho como pós-doutor na França durante um ano e meio 
(2008/2009) e tendo passagens acadêmicas de média ou curta duração pela Inglaterra 
(2005), Alemanha (2006) e Estados Unidos (2009). 
Francisco tem ainda interesse por divulgação científica, história e filosofia da ciência 
(http://tragodefilosofia.blogspot.com). Isso sem falar em suas modestas habilidades 
em música e literatura (http://chicopros.blogspot.com) ou seus ideais democráticos, 
ambientalistas, humanistas e liberais.

Mais conteúdos dessa disciplina