Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

BIOINFORMÁTICA: 
DO SEQÜENCIAMENTO A FUNÇÃO BIOLÓGICA 
 
 
 
 
 
 
Magnólia de Araújo Campos 
Ricardo Martins A. Silva 
Luciano Vilela Paiva 
Antonio Chalfun Junior 
Cristiano Silva Lima 
 
 
 
Lavras - 2006
APOSTILA
DE CURSO
_______________________________________
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 2 
 
 ÍNDICE 
 
PERÍODO: de 24 a 28 de abril de 2006 
HORÁRIO: 18:30 h às 21:00h 
LOCAL: Laboratório de Computação, PRG, UFLA, Lavras - MG 
PROMOÇÃO: GEN (Núcleo de Estudos em Genética); genética@ufla.br ; Fone: 3829.1183 
 
Programação 
 
Segunda-feira: 
Teórica: O seqüenciamento de DNA 
 Prof. Luciano V. Paiva, DQI, UFLA 
Prática: Leitura do Eletroferograma, depósito de seqüências e comparação no BLAST 
Terça-feira: 
Teórica: Bancos de dados: arquitetura e utilização 
Prof. Ricardo Martins A. Silva, DCC, UFLA 
Prática: Busca de seqüências de DNA e de proteínas em diferentes bancos de dados 
Quarta-feira: 
Teórica: Caracterização estrutural de genes e de proteínas 
Dra. Magnólia A. Campos, PRODOC-CAPES, PG-Genética, UFLA 
Prática: Identificação de regiões em genes e em proteínas 
Quinta-feira: 
Teórica: Alinhamentos de seqüências DNA e de proteínas e desenho de primers 
Dr. Antonio Chalfun Junior, RD-FAPEMIG, LCBM, UFLA 
Prática: Identificação de regiões conservadas e desenho de primers 
Sexta-feira: 
Teórica: Inferências evolucionárias / geográficas a partir da diversidade de 
seqüências 
Dra. Magnólia A. Campos, PRODOC-CAPES, Genética, UFLA 
Dr. Cristiano S. Lima, RD-CNPq/ DFP, UFLA 
Prática: Análises filogenéticas utilizando seqüências de DNA e de proteínas 
Avaliação do Aprendizado 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 3 
 
Apresentação 
 
 
Prezados estudantes, a utilização de computadores para a realização de tarefas em biologia 
tem sido denominada de Bioinformática, uma área da Biologia Computacional. Empregando-se a 
matemática, estatística, a informática e a ciência da computação, a biologia tem sido estudada e 
entendida, principalmente no aspecto de moléculas. A importância da Biologia Computacional está 
em extrair a informação biológica contida na seqüência de DNA, vulgarmente conhecida como “sopa 
de letrinhas”. Utilizando a Bioinformática é possível comparar as seqüências desconhecidas em 
bancos de dados genômicos, bem como traduzir esses DNAs em seqüências de aminoácidos e 
especular uma função para a proteína codificada, as vezes até sua localização celular, e até mesmo 
a via metabólica que ela participa. 
Como um ponta pé inicial, este curso surge com o objetivo de explicar, em termos gerais, 
como biólogos e agrônomos utilizam programas de computadores para analisar seqüências de DNA e 
de proteínas para inferir uma função biológica e evolucionária. Esperamos que o curso dê uma 
direção para o leigo, através da introdução dos principais conceitos relacionados à biologia molecular 
e a computação, softwares e sites mais usados. Este curso não pretende, no entanto, dá uma 
formação completa de cada tema a ser abordado, mas sim ampliar a visão e despertar no estudante 
o interesse pela Bioinformática, através de suas aplicações e possíveis utilidades em seus trabalhos 
de pesquisa. 
Os softwares discutidos no curso estão disponíveis na web e serão dadas indicações de 
como obtê-los. A parte teórica será seguida pelo manuseio, a parte prática, onde cada estudante terá 
a oportunidade de “surfar” na Internet e explorar as seqüências disponíveis em bancos de dados e as 
ferramentas de análise de seqüência. 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 4 
 
O SEQÜENCIAMENTO DE DNA 
 
Luciano Vilela Paiva 
 
O seqüenciamento rápido de ácidos nucléicos teve início no meados da década de 70 quando 
se empregada químicos para promover quebras nas cadeias e materiais radioativos para visualizar as 
quantidades pequenas de DNA produzidas. Este tipo de seqüenciamento manual ainda é utilizado, 
embora seja laborioso e perigoso para o operador. Avanço expressivo na área foi atingido com a 
técnica dideoxi, onde se emprega um nucleotídeo (dNTP) modificado, normalmente marcado com 
uma fluorescência, para interromper de forma aleatória a seqüência. A interrupção na polimerização 
da cadeia é realizada em função da ausência de uma hidroxila no terminal 3´ destes nucleotídeos. 
Uma vez incorporado em uma fita de DNA, este nucleotídeo interrompe a incorporação de outros a 
partir dele. A fita é identificada facilmente devido à fluorescência presente no dideoxi. Para separar 
os diferentes nucleotídeos, cada base emite uma cor diferente quando excitada com luz de um feixe 
laser de um determinado comprimento. 
 
Obtenção do DNA para seqüenciamento: 
 Na era dos projetos genômicos, o DNA genômico total é fragmentado e cada fragmento é 
clonado em vetores e, posteriormente, introduzido em uma célula hospedeira (usualmente, a bactéria 
Escherichia coli). Cada colônia de bactéria, potencialmente conduzindo um fragmento diferente de 
DNA representa um clone. Após recuperação do DNA vetor em grande quantidade, é possível 
seqüenciar o fragmento de DNA inserido usando primers específicos para a borda do vetor. 
Estas mesmas etapas de clonagem, transformação e recuperação do vetor para 
seqüenciamento, também são utilizadas quando se deseja clonar fragmentos de DNA obtidos 
diretamente por PCR (reação em cadeia da polimerase) ou cDNA (DNA complementar a molécula de 
RNAm), obtida em projetos genomas funcional baseado na reação do tipo RT-PCR (reverse 
transcriptase-PCR) pela utilização da enzima transcriptase reversa. Assim, clones de cDNA são 
obtidos e as seqüências são comumente chamadas de ESTs (expressed sequence tags). No caso de 
produtos de PCR, a purificação pode ser feita diretamente da reação de PCR pela utilização de kits 
disponíveis no mercado. No entanto, o produto de PCR pode ser isolado a partir de um gel de 
agarose, após eletroforese dos mesmos. No caso de DNA clonado, os protocolos de purificação são 
chamados Miniprep ou minipreparação de DNA plasmidial. 
 
 
 
Guilherme
Highlight
Guilherme
Highlight
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 5 
 
Critérios para um bom seqüenciamento 
O DNA pode ser seqüenciado, quer venham clonados em plasmídios vetores ou apenas 
isoladamente, a partir de grandes quantidades de fragmentos de DNA, amplificados por PCR. O ideal 
é obter uma seqüência de bom tamanho, cerca de 500 a 800 pb, e com qualidade confiável, ou seja, 
sem a inserção da letra N (que representa qualquer uma das bases nitrogenadas). Para tanto, dois 
fatores são cruciais para a obtenção de uma boa seqüência, são a quantidade e a pureza do DNA. 
A reação de sequenciamento é bastante semelhante a uma reação da PCR, com duas 
diferenças básicas, a presença dos dideoxi marcados e da necessidade de apenas um primer. Para 
tal, são necessários o DNA molde, DNA polimerase, dNTPs normais e um pouco de ddNTPs 
fluorescentes e um primer único. Neste caso, as fitas são estendidas sempre a partir da mesma base 
e são interrompidas aleatoriamente a medida que um dos dideoxi é inserido. Outra diferença 
importante é a necessidade de uma quantidade maior de DNA molde (200 a 400ng) para a reação de 
seqüenciamento. 
 Os fragmentos gerados podem ser separados em eletroforese de poliacrilamida ou dentro dos 
capilares dos seqüenciadores automáticos preenchidos com polímeros. Nestes seqüenciadores as 
bandas são identificadas através da excitação da fluorescência dos dideoxi marcados, por um feixe 
de laser localizado na parte inferior do equipamento. A passagem das bandas é registrada por 
câmeras sensoras e logo em seguida o sinal é transformado em um gráfico conhecido como 
eletroferograma. As bandas são representadas por picos como no eletroferograma abaixo.A Bioinformática surgiu para solucionar problemas biológicos mediante a utilização de 
técnicas aplicadas na matemática, informática, estatística e na ciência da computação. Recursos 
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 6 
 
computacionais são cada vez mais necessários para analisar a quantidade enorme de seqüências de 
nucleotídeos disponíveis nos bancos de dados, provenientes dos diversos genomas seqüenciados e 
daqueles projetos ainda em andamento. O primeiro organismo seqüenciado foi o Fago 0-X174 em 
1977 e desde então, mais de 18 bilhões de seqüências já foram depositadas nos bancos de dados 
eletrônicos. Com quantidade de informações disponíveis, fica impraticável uma análise manual das 
seqüências. Neste caso, plataformas computacionais sofisticadas são necessárias para interpretar 
este volume de dados. Os principais esforços nas plataformas incluem, o alinhamento de seqüências 
de nucleotídeos, a identificação de genes, alinhamento da estrutura de proteínas, predição da 
estrutura protéica, predição da expressão gênica bem como interações proteína-proteína. A 
comparação de genes dentro da mesma espécie e entre espécies diferentes pode mostrar 
semelhanças entre proteínas ou relações entre espécies, utilizando uma sistemática molecular para 
construir uma árvore filogenética. Os programas computacionais podem identificar seqüências que 
são relacionadas, mas não idênticas, mediante o alinhamento das seqüências. 
 Normalmente todo seqüenciador automático de DNA possui um programa que atribui valor 
de qualidade para cada base gerada, conhecidos como base calling. Dentre os programas, o mais 
conhecido é o PHRED que consegue analisar arquivos de cromatograma dos seqüenciadores ABI e 
Megabace. A partir dos dados brutos gerados por estes seqüenciadores, o programa PHRED atribui 
valores de qualidade para cada base. Esta qualidade é baseada na altura, largura e espaçamento 
dos picos presentes no eletroferograma, e ausência de sobreposição de picos e ruídos. Os valores 
gerados representam a probabilidade logarítmica negativa em escala de erro da leitura dos dados. 
Quanto maior o valor de PHRED exigido para a seqüência espera-se uma menor probabilidade de ter 
ocorrido um erro. Normalmente nos projetos genomas são exigidos valores de PHRED 20, ou seja, 
cada seqüência nucleotídica terá uma chance em 100 de estar incorreta, ou 99% de certeza da base 
está correta. Aumentando-se o valor para PHRED 30, exige-se uma chance de erro de no máximo 1 
em 1000. Dependendo do resultado gerado e da confiança no seqüenciamento obtido, pode-se tomar 
a decisão da necessidade de um novo re-seqüenciamento. 
 Uma vez obtidas regiões de nucleotídeos confiáveis, a primeira etapa é tentar encontrar 
homologia desta seqüência. O alinhamento de seqüências procura identificar o grau de similaridade 
entre duas ou mais seqüências, ou a similaridade entre regiões destas seqüências. Para isto, duas ou 
mais seqüências são dispostas uma sobre a outra, de modo a obter uma correspondência entre cada 
base. 
 
 tcctctgcctctgccatcat---caaccccaaagt 
 |||| ||| ||||| ||||| |||||||||||| 
 tcctgtgcatctgcaaccatgggcaaccccaaagt 
 
 No exemplo acima, as barras verticais indicam uma correspondência entre as bases 
presentes nas duas seqüências, conhecidas como casamentos. Quando as bases são diferentes nas 
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 7 
 
duas seqüências chamamos a correspondência de substituições (destaque em negrito). Dado duas 
seqüências, é possível alinhá-las de diversas formas. Os programas utilizam algoritmos que podem 
inserir espaços objetivando uma melhor correspondência para completar posições faltantes entre as 
seqüências. Neste caso, estes espaços são identificados com hífen. Dentre os diversos alinhamentos 
possíveis, o escolhido será aquele que apresentar a maior similaridade entre as seqüências e, para 
isto, se utiliza um sistema de pontuação para cada alinhamento. Diferentes alinhamentos terão 
diferentes pontuações. Um dos sistemas utilizados é o de atribuir pontuações positivas (+1) para os 
casos onde ocorre casamento, conhecidas como match (bases correspondentes são iguais), e 
negativas (-1) para os casos onde não ocorre pareamento, conhecidas como mismatch (bases 
correspondentes são diferentes). Para cada coluna em que há espaço, denominado como gap, 
atribui-se também valor negativo (-2) ao alinhamento. A pontuação de cada alinhamento é dada pela 
soma das pontuações nas respectivas colunas. 
 Os principais algoritmos que fazem alinhamento são o BLAST, ClustalW, Multialin e 
FASTA, e todos podem ser utilizados diretamente on line, sem a necessidade de instalação. O 
ClustalW e Multialin são mais utilizados para fazer o alinhamento global, onde as seqüências são 
alinhadas como um todo. Este procedimento é importante quando se deseja observar regiões 
conservadas entre seqüências homólogas. Para os alinhamentos locais, onde não importa a 
localização da região da seqüência e sim o melhor alinhamento, o programa BLAST é o mais 
utilizado. Independente da origem da seqüência de nucleotídeos ou aminoácidos, seja de uma PCR 
ou de um projeto genoma, ela é geralmente comparada (blastada) com as seqüências presentes no 
banco de dados do NCBI (National for Biotechnology Information dos EUA 
(http://www.ncbi.nlm.nih.gov/). A seqüência que submetemos para consulta neste banco de dados é 
chamada de query, e o resultado da execução do BLAST , que pode ser mais de uma seqüência do 
banco de dados, é chamada de subject. O resultado que recebemos vem acompanhado de um score, 
que é o nome dado a pontuação do alinhamento e da significância estatística desta pontuação. Com 
base nessa primeira análise é possível visualizar onde inicia e termina a região da seqüência de DNA 
recém-sequenciada e sua qualidade. Muitas bases do tipo “N” podem ser corrigidas conferindo a 
leitura do eletroferograma ou cromatograma 
 O propósito dos programas que fazem alinhamento é encontrar homologia entre genes ou 
entre proteínas presentes nos bancos de dados. Estas informações são importantes para responder 
uma variedade de questões biológicas. Uma das mais importantes aplicações é o alinhamento de 
seqüências com função e estrutura desconhecida. Outra importante utilização é o estudo da evolução 
molecular. 
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 8 
 
BANCOS DE DADOS: 
ARQUITETURA E UTILIZAÇÃO 
 
Ricardo Martins Abreu Silva 
 
1. Introdução: Qual a diferença entre Bioinformática e Biologia Computacional? 
 Definir as áreas de bioinformática e biologia computacional não é uma tarefa das mais fáceis 
devido à profusão de conceitos existentes na literatura e na web, que ora se mostram similares, ora 
contraditórios. Enquanto para alguns autores os termos bioinformática e biologia computacional são 
sinônimos, para outros há uma grande distinção, o que implica que não há um consenso em torno da 
definição destas áreas pela comunidade científica. 
 Dentre estas definições encontra-se a do NCBI (National Center for Biotechnology 
Information), que nos parece simples, objetiva e esclarecedora e que numa tradução mais livre 
poderia ser assim apresentada: 
“Bioinformática é o campo da ciência em que biologia, ciência da computação e 
tecnologia da informação convergem para formar esta nova disciplina. O objetivo fundamental 
consiste em não apenas possibilitar a descoberta de novos insights biológicos, mas também 
criar uma perspectiva global da biologia, através de seus princípiosbásicos” 
(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html). 
No início da “revolução genômica”, a atividade mais crucial da bioinformática encontrava-se 
principalmente na criação e manutenção de bancos de dados para armazenar informação biológica, 
tais como seqüência de nucleotídeos e aminoácidos. O desenvolvimento desse tipo de banco de 
dados envolve não somente questões relativas ao projeto do próprio banco, mas também aspectos 
relacionados às interfaces que auxiliarão a manipulação das informações. 
Entretanto, ultimamente toda essa informação deve ser combinada para formar um quadro 
geral da atividade celular em seu estado normal, a fim de que os pesquisadores possam estudar 
como essas atividades são alteradas em diferentes estados de enfermidade. Desta maneira, a 
bioinformática evoluiu de modo que atualmente sua atividade mais urgente envolve a análise e 
interpretação de vários tipos de dados, incluindo seqüências de aminoácidos e nucleotídeos, 
domínios e estruturas de proteínas. O atual processo de análise a interpretação de dados é referido 
como biologia computacional. Importantes sub-disciplinas pertencentes a bioinformática e biologia 
computacional incluem: 
● o desenvolvimento e implementação de ferramentas que possibilitam o acesso, uso e 
gerenciamento eficiente de vários tipos de informação. 
● o desenvolvimento de novos algoritmos, modelos matemáticos e estatísticas para descobrir e 
avaliar possíveis relações entre os componentes de grandes banco de dados, tais como 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 9 
 
métodos para: localizar um gene dentro de uma seqüência, predizer estruturas e/ou funções 
protéicas, agrupar seqüências de proteínas em famílias, entre outros. 
Em suma, a NCBI define as áreas de Bioinformática e Biologia Computacional da seguinte maneira: 
● Bioinformática: pesquisa, desenvolvimento ou aplicação de abordagens e ferramentas 
computacionais para expandir o uso, a obtenção, o armazenamento, a organização, a análise e 
a visualização de dados biológicos, médicos, comportamentais e de saúde. 
● Biologia Computacional: trata do desenvolvimento e aplicação de métodos teóricos e analíticos, 
modelos matemáticos e técnicas de simulação computacional para estudar sistemas biológicos, 
comportamentais e sociais. 
 
2. Alinhamento de Seqüências 
Atualmente, os principais esforços de pesquisa no campo da biologia molecular incluem 
alinhamento de seqüência, descoberta de genes, montagem de genoma, alinhamento de estrutura 
protéica, predição de estrutura protéica e predição de expressão gênica e interação proteína-proteína. 
Entretanto, nesta apostila nos concentraremos no tópico sobre alinhamento de seqüência. 
"Alinhamento" geralmente significa dispor lado a lado duas ou mais strings, permitindo 
emparelhamentos (casamento, matches) ou desemparelhamentos (mismatches) entre seus 
caracteres, assim como a inclusão de espaços vazios (usualmente representados por hífens). Cabe 
observar, que quando comparamos dois caracteres, dizemos que eles se emparelham (match) 
quando são iguais, caso contrário eles encontram-se desemparelhados [Gusfield_97]. 
Uma string é uma lista ordenada de caracteres dispostos de forma contígua da esquerda para 
direita. Para qualquer string S, S[i..j] é a substring de S que começa na i-ésima posição e termina na 
j-ésima posição de S. Em particular, S[1..i] é o prefixo da string S que termina na posição i, e S[i..|S|] 
é o sufixo da string S que começa na posição i, onde |S| denota o número de caracteres na string S. 
Por fim, para qualquer string S, S(i) denota o i-ésimo caráter de S [Gusfield_97]. 
As palavras “string” e “seqüência” são geralmente usadas como sinônimas na literatura 
biológica. Porém, isto pode ser a fonte de muita confusão porque “substrings” e “subseqüências” são 
objetos distintos. Além do mais, os algoritmos para problemas de substrings são geralmente muito 
diferentes dos algoritmos para problemas de subseqüências. Os caracteres em uma substring de S 
devem ocorrer de forma contígua em S, enquanto os caracteres em uma subseqüência de S podem 
encontrar-se em S entremeada com caracteres que não estão na subseqüência [Gusfield_97]. 
Por exemplo, “california” é uma string, lifo é uma substring, lori é uma subseqüência, cal é um 
prefixo, ornia é um sufixo, e S(4)=i. 
 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 10 
 
2.1 Alinhamento Global 
Definição: um alinhamento global de duas strings S1 e S2 é obtido primeiramente pela 
potencial inclusão de espaços nas strings, seja no interior e/ou nas extremidades de S1 e S2, para 
em seguida dispor as duas strings resultantes uma em cima da outra, de modo que todo caracter ou 
espaço em uma string esteja defronte a um único caracter ou a um único espaço da outra string. O 
termo “global” enfatiza o fato que cada string encontra-se envolvida de forma inteira no alinhamento. 
 
2.2 Similaridade de Strings 
Definição: Seja o alfabeto usado para as strings S1 e S2, e seja ' o alfabeto 
acrescido do caracter “_” usado para denotar um espaço. Então, para quaisquer dois caracteres x, y 
em ', s(x,y) denota o valor (ou a pontuação, score) obtido por alinhar o caracter x com o caracter 
y. 
Definição: Para um dado alinhamento A de S1 e S2, seja S1' e S2' em A as strings de igual 
tamanho l=|S1'|=|S2'| após a inserção de espaço(s) vazio(s). O valor total do alinhamento A é definido 
como i=1..l s(S1'(i),S2'(i)). Por exemplo, seja = {a, b, c, d} e a matrix de pontuação definida 
como: 
s a b c d _ 
a 1 -1 -2 0 -1 
b 3 -2 -1 0 
c 0 -4 -2 
d 3 -1 
_ 0 
 
Então, o alinhamento A: 
c a c _ d b d 
c a b b d b _ 
tem um valor total de alinhamento igual a 0+1-2+0+3+3-1=4. 
Em problemas de similaridade de strings, as matrizes de pontuação usualmente utilizam 
s(x,y)>=0 se os caracteres x,y de ' se emparelham, e s(x,y)<0 se os caracteres x e y não se 
emparelham. Com tal esquema de pontuação os emparelhamentos entre as duas strings serão 
enfatizados, enquanto os desemparelhamentos e espaços vazios serão penalizados. 
Pode-se observar a influência do esquema de pontuação sobre o alinhamento; tanto que 
várias matrizes de pontuação para DNA e proteínas têm sido propostas, embora nenhuma delas seja 
genérica o suficiente para todas as aplicações. 
Definição: Dada uma matriz de pontuação sobre o alfabeto ', a similaridade de duas strings 
S1 e S2 é definida como o valor do alinhamento A de S1 e S2 que maximiza o valor total de 
alinhamento, também conhecido por valor de alinhamento ótimo de S1 e S2. 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 11 
 
A similaridade de duas strings S1 e S2, e seu correspondente alinhamento ótimo, pode ser 
computada através da seguinte recorrências. Seja V(i,j) o valor do alinhamento ótimo dos prefixos 
S1[1..i] e S2[1..j] onde V(0,j)= \sum 1 k j s(_,S2(k)) e V(i,0)= \sum 1 k i s(S1(k),_). Para i e j 
estritamente positivos, a recorrência geral pode ser definida da seguinte maneira: V(i,j) = max[V(i-1,j-
1)+s(S1(i),S2(j)), V(i-1,j)+s(S1(i),_), V(i,j-1)+s(_,S2(j))] 
 
2.3 Alinhamento Local 
O problema do alinhamento local pode ser definido da seguinte maneira: dado duas strings 
S1 e S2, encontrar as substrings � e � de S1 e S2, respectivamente, cuja similaridade (valor do 
alinhamento global ótimo) seja máximo em relação a todos os pares de substrings pertencentes a S1 
e S2. Por exemplo, considere as strings S1=pqraxabcstvq e S2=xyaxbacsll. Se atribuirmos o valor 2 a 
cada emparelhamento, -2 a cada desemparelhemento. e o valor -1 a cada espaço vazio, então as 
duas substrings axabcs e axbacs de S! e S2, respectivamente, formam o seguinte 
alinhamento global ótimo com similaridade igual a oito (8): 
a x a b _ c s 
a x _ b a c s 
Cabe observar que dentre todas asescolhas de pares de substrings, sendo uma oriunda de 
S1 e a outra de S2, as substrings e são as que tem similaridade máxima segundo o esquema 
de pontuação (score) adotado. Ou seja, para o esquema de pontuação acima adotado, o alinhamento 
local ótimo de S1 e S2 tem valor igual a 8 e é definido pelas substrings axabcs e axbacs. 
 
2.4 Alinhamento Múltiplo Global 
Definição: um alinhamento múltiplo global de k>2 strings S={S1,S2,...,Sk} é obtido pela 
potencial inclusão de espaços no interior e/ou nas extremidades das k strings, para em seguida 
dispo-las em um arranjo de k linhas e l colunas (sendo l=|Si|, i=1,...,k), com cada caracter (ou espaço) 
de cada string diposto em uma única coluna. 
2.4.1 Alinhamento Múltiplo Local 
Definição: dado um conjunto de k>2 strings S={S1,S2,...,Sk}, um alinhamento múltiplo local de S é 
obtido por selecionar uma substring Si` de cada string Si S e então globalmente alinhar aquelas 
substrings. 
2.4.2 Esquema de Pontuação para o alinhamento múltiplo 
Embora a noção de alinhamento múltiplo seja facilmente extendida de uas para várias strings, 
o esquema de pontuação (score) de um alinhamneto múltiplo não é facilmente generalizado. 
Até o momento, não existe uma função objetivo atrelada a um esquema de pontuação para o 
alinhamento múltiplo que seja tão bem aceita como foi o conceito de similaridade para o alinhamento 
pareado. Na verdade, alguns métodos populares de alinhamento não possuem uma função objetivo 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 12 
 
explícita. A boa qualidade destes métodos é julgada pelo significado biológico do alinhamento 
produzido, portanto o “insight” do avaliador é de extrema importância. 
 
3. BLAST 
Basic Local Alignment Search Tool, ou BLAST, é uma família de algoritmos para comparação 
de sequências biológicas, tais como sequência de nucleotídeos e seqüências de proteínas. Dado um 
banco de dados de seqüências, uma busca no BLAST (BLAST Search) possibilita que o pesquisador 
procure seqüências que assemelha-se a uma dada seqüência de interesse. Por exemplo, seguindo a 
descoberta de um gene desconhecido no rato, o cientista realizará uma busca no BLAST sobre o 
genoma humano para ver se o homem carrega um gene semelhante. Ou seja, o BLAST identificará 
seqüências no genoma humano que se assemelha com o gene do rato tendo por base um critério de 
similaridade. 
O algoritmo base do BLAST e o programa que o implementou foram desenvolvidos por 
Stephen Altschul, Warren Gish, David Lipman no NCBI (National Center for Biotechnology 
Information), Webb Miller na Universidade do Estado da pensilvânia, e Gene Myers na Universidade 
do Arizona. O artigo original foi intitulado "Altschul, SF, W Gish, W Miller, EW Myers, and DJ Lipman. 
Basic local alignment search tool. J Mol Biol 215(3):403-10, 1990." e pode ser encontrado na web no 
seguinte endereço: http://pga.mgh.harvard.edu/Parabiosys/education/seminars/blast.pdf 
 
3.1 Como utilizar BLAST e interpretar seus resultados 
Esta seção visa mostrar ao leitor como submeter uma sequência na página web do Basic BLAST, 
como escolher um programa e um banco de dados, e por fim como examinar os resultados. 
 
3.1.1 Selecionando o programa BLAST apropriado 
O site do BLAST proporciona a escolha de diversos programas (Tabela 1) que podem ser 
acessados no site do NCBI (Figura 1). 
Programa Descrição 
blastp Compara uma seqüência (query) de aminoácidos contra um banco de dados 
de seqüências de proteínas. 
blastn Compara uma seqüência (query) de nucleotídeos contra um banco de dados 
de seqüências de nucleotídeos. 
blastx Compara uma seqüência (query) de nucleotídeos traduzida em todas as 
seis fases de leitura contra um banco de dados de seqüência de 
proteínas. 
tblastn Compara uma seqüência (query) de proteína contra um banco de dados de 
seqüências de nucleotídeos dinamicamente traduzido em todas as fases 
de leitura. 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 13 
 
tblastx Compara as traduções das seis fases de leitura de uma sequencia 
(query) de nucleotídeos contra as traduções das seis fases de leitura 
de um banco de dados de sequências de nucleotídeo. 
Tabela 1: Alguns programas da família BLAST. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 1: Página de acesso aos programas BLAST do NCBI. 
 
3.1.2.Selecionando o Banco de Dados BLAST 
Você pode selecionar vários bancos de dados (ver Tabela 2 e Tabela 3) no menu de opções 
do BLAST (ver Figura 2) para comparar sua consulta (query). Note que alguns bancos de dados são 
específicos para proteínas ou nucleotídeos, logo não podem ser usados em combinação com certos 
programas BLAST (por exemplo, uma busca via blastn contra o banco de dados swissprot). 
 
Banco de 
Dados 
Descrição 
nr Todos não-redundantes GenBank CDS translations + PDB + 
SwissProt + PIR + PRF 
month Todos novos ou revisados GenBank CDS translation + PDB + 
SwissProt + PIR versão liberada nos últimos 30 dias. 
swissprot A última versão do banco de dados de proteínas SWISS-PROT. 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 14 
 
patents Seqüências de proteínas derivadas da divisão de patentes do 
GenBank. 
yeast Seqüência de proteínas Yeast (Saccharomyces cerevisiae) . 
E. coli E. coli (Escherichia coli) genomic CDS translations. 
pdb Sequences derived from the 3-dimensional structure 
Brookhaven Protein Data Bank. 
kabat 
[kabatpro] 
Banco de dados de seqüências de interesse imunológico. Para 
maiores informações consultar http://immuno.bme.nwu.edu/ 
alu Tradução selecionadas de Alu repetidas da REPBASE, 
Disponível em ftp://ncbi.nlm.nih.gov/pub/jmc/alu. See "Alu 
alert" by Claverie and Makalowski, Nature vol. 371, page 752 
(1994). 
Tabela 2: Banco de Dados de Proteínas 
 
 
 
 
Banco de 
Dados 
Descrição 
nr Todos não redundantes seqüências GenBank + EMBL + DDBJ + PDB (mas 
nenhum EST, STS, GSS, or HTGS sequences). 
month Todas seqüências novas ou revisadas do GenBank + EMBL + DDBJ + PDB 
liberadas nos últimos 30 dias. 
dbest Banco de dados não-redundante do GenBank+EMBL+DDBJ EST Divisions. 
dbsts Banco de dados não-redundante do GenBank+EMBL+DDBJ STS Divisions. 
mouse ests Banco de dados não-redundante of GenBank+EMBL+DDBJ EST Divisions 
limitado ao organismo do rato. 
human ests Banco de dados não-redundante do GenBank+EMBL+DDBJ EST Divisions 
limitado ao organismo humano. 
other ests Banco de dados não-redundante GenBank+EMBL+DDBJ EST Divisions 
todos os organismos exceto o de rato e o humano. 
yeast Yeast (Saccharomyces cerevisiae) genomic nucleotide sequences. 
E. coli E. coli (Escherichia coli) genomic nucleotide sequences. 
pdb Sequências derivadas da estrutura tri-dimensional de proteínas. 
kabat 
[kabatnuc] 
Banco de dados de sequências de interesse imunológico. Para mais 
informções http://immuno.bme.nwu.edu/ 
patents Seqüências de nucleotídeos derivadas da Divisão de Patentes do 
GenBank. 
vector Subconjunto de Vetores do GenBank(R), NCBI, ( diretório 
ftp://ncbi.nlm.nih.gov/pub/blast/db/). 
mito Banco de dados de sequências mitocondriais (versão. 1.0, Julho 
1995). 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 15 
 
Banco de 
Dados 
Descrição 
alu Tradução selecionadas de Alu repetidas da REPBASE, Disponível em 
ftp://ncbi.nlm.nih.gov/pub/jmc/alu. 
gss Seqüenciar genômicas. 
htgs Seqüências Genômicas de alta vazão. 
 
Tabela 3: Banco de Dados de Nucleotídeos 
 
Para maiores informações sobre a coleção de Banco de Dados públicos on-line e gratuitos de 
2005 consultar o seguinte site: http://nar.oxfordjournals.org/cgi/content/full/33/suppl_1/D5. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 2: Menu de opções do BLAST para seleção do banco de dados. 
 
 
3.1.3 Entrando com sua seqüência 
O Blast aceita trêstipos de formatos para as seqüências de entrada (Figura 3): (i) formato 
FASTA, (ii) número de acesso NCBI, ou (iii) GI (Genbank Identifier) de uma seqüência no GenBank. 
Por exemplo, a figura 3 reporta a seqüência da proteína archaebacterial MJ0577 da Methanococcus 
jannaschii nos três formatos. 
A seqüência de aminoácidos derivada da MJ0577 será usada como consulta (query) em uma 
busca contra o banco de dados de aminoácido nr (non-redundant). blastp é a rotina de busca 
apropriada quando uma seqüência de aminoácido tem que ser comparada com um banco de 
aminoácidos. Todas estas informações devem ser incluídas no site do BLAST como ilustrado na 
Figura 4. 
 
 
>gi|2501594|sp|Q57997|Y577_METJA PROTEIN MJ0577 
MSVMYKKILYPTDFSETAEIALKHVKAFKTLKAEEVILLHVIDEREIKKRDIFSLLLGVAGLNKSVEEFE 
NELKNKLTEEAKNKMENIKKELEDVGFKVKDIIVVGIPHEEIVKIAEDEGVDIIIMGSHGKTNLKEILLG 
SVTENVIKKSNKPVLVVKRKNS 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 16 
 
 
 
Figura 3: Os três tipos de formatos para a seqüência de aminoácidos da proteína 
archaebacterial MJ0577. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 4. Site do BLAST para entrada da seqüência de consulta, da escolha do programa e do 
banco de dados. 
 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 17 
 
3.1.4 Obtendo os Resultados 
Os relatórios de saída tradicionais do BLAST são formados por três seções principais: (i) o 
cabeçalho que contém informações sobre a seqüência de consulta e sobre os bancos de dados 
consultados (Figura 5). Na web há também uma visão gráfica geral do resultado da consulta (Figura 
6); (ii) as descrições on-line das seqüências do banco de dados emparelhadas com a seqüência 
consultada (Figura 7); (iii) o alinhamento da seqüência de consulta emparelhada com cada seqüência 
o banco de dados (Figura 8). 
 
 
 
 
Figura 5. O cabeçalho do relatório BLAST. A linha do topo fornece informações a respeito do tipo 
do programa (neste caso, BLASTP), a versão (2.2.1), e data da liberação da versão. O artigo que 
descreve o BLAST é citado em seguida, seguido pela identificação da consulta (RID), pela linha da 
definição da seqüência de consulta (Query), e por um resumo do banco de dados consultado. 
 
 
 
Figura 6. Visão gráfica geral dos resultados do BLAST. A seqüência de consulta é representada 
por uma barra vermelha numerada no topo da figura. Hits do banco de dados são mostrados 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 18 
 
alinhados com a seqüência de consulta abaixo da barra vermelha. Dentre as seqüências alinhadas, 
as que são mais similares se encontram mais próximas da seqüência de consulta. No caso, há três 
emparelhamentos com alta pontuação que se alinha com grande parte da seqüência de consulta. As 
próximas doze barras representam emparelhamento de menor pontuação que se alinham a duas 
regiões da seqüência de consulta, em torno dos resíduos entre as posições 3 a 60, e dos resíduos 
entre as posições 220 a 500. As barras restantes ilustram os menores alinhamentos. 
 
 
 
 
 
Figura 7. Descrições on-line no relatório BLAST. Cada linha é composta por quatro campos: (a) o 
número gi, designação do banco de dados, database designation, número de acesso, e nome do 
locus para a seqüência emparelhada, separada por barras verticais (Tabela 4); (b) uma breve 
descrição textual das seqüências, a definição. Usualmente contém informações sobre o organismo do 
qual a seqüência foi derivada, o tipo da seqüência (por exemplo, mRNA ou DNA), e alguma 
informação sobre função ou fenótipo. Cabe observar que a linha de definição é geralmente truncada 
para economia de espaço; (c) a pontuação do alinhamento em bits. Hits de alta pontuação são 
dispostos no topo da lista; e (d) o E-value que provê uma estimativa da significância estatística. para 
o primeiro hit na lista, o número gi é de 116365, a designação do banco de dados é sp (para SWISS-
PROT), o número de acesso é P26374, o nome de locus é RAE2_HUMAN, a linha de definição é 
proteínas Rab, a pontuação é 1216, e o E-value é 0.0. Observe que os primeiros 17 hits tem E-value 
muito baixo (muito menor que 1) e que são proteínas Rab ou inibidores de disassociação GDP. Os 
outros bancos de dados que emparelham tem E-value muito maior, acima de 0.5, o que significa que 
estas seqüências podem ter se emparelhado por acaso. 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 19 
 
 
Nome do Banco de Dados Sintaxe do Identificador 
GenBank gb|accession|locus 
EMBL Data Library emb|accession|locus 
DDBJ, DNA Database of Japan dbj|accession|locus 
NBRF PIR pir||entry 
Protein Research Foundation prf||name 
SWISS-PROT sp|accession|entry name 
Brookhaven Protein Data Bank pdb|entry|chain 
Patents pat|country|number 
GenInfo Backbone Id bbs|number 
General database identifiera gnl|database|identifier 
NCBI Reference Sequence ref|accession|locus 
Local Sequence identifier lcl|identifier 
Tabela 4: Identificadores dos Bancos de Dados. 
 
 
 
 
 
Figura 8. Um alinhamento de seqüência pareado de um relatório BLAST. O alinhamento é 
precedido por um identificador da seqüência, a linha de definição completa, e o tamanho da 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 20 
 
seqüência emparelhada, em aminoácidos. Em seguida, a pontuação em bits (a pontuação bruta, raw 
score, está em parêntese) e então o E-value. A linha seguinte contém informações sobre o número de 
resíduos idênticos neste alinhamento (identidades), o número de substituições conservativas 
(Positivas), e se aplicável, o número de gaps (espaços vazios) no alinhamento. Finalmente, o 
alinhamento atual é mostrado, com a seqüência de consulta (query) no topo, e abaixo se encontra a 
seqüência do banco de dados emparelhada, rotulada como Sbjct. os número e a esquerda e à direita 
referem-se às posições na seqüência de aminoácido. Um ou mais hífens (-) dentro da seqüência 
indicam inserções ou exclusões. Resíduos de amino-ácidos na sequência de baixa complexidade são 
mascarados pelo símbolo X. A linha entre as duas seqüências indica as similaridades entre as 
sequências. Se a sequência de consulta e o subject possuem o mesmo aminoácido em uma dada 
localização, o resíduo em si é mostrado. Substituições conservativas, assim julgadas pelas matrizes 
de substituição, são indicadas pelo símbolo +. 
 
 
Exercícios 
1. Acesse os links abaixo (e também procure outros) para expandir sua noção em torno da área de 
bioinformática e biologia computacional, juntamente com suas contradições e enfoques distintos. 
Procure com suas palavras definir estas duas áreas. 
http://www.colorbasepair.com/what_is_bioinformatics.html 
http://www.ebi.ac.uk/luscombe/docs/mim-review.pdf 
http://www.geocities.com/bioinformaticsweb/definition.html 
http://citeseer.ifi.unizh.ch/453368.html 
http://citeseer.ifi.unizh.ch/504741.html 
http://en.wikipedia.org/wiki/Bioinformatics 
http://www.comciencia.br/reportagens/bioinformatica/bio01.shtml 
http://kbrin.a-bldg.louisville.edu/~rouchka/HOMEPAGE/definition.html 
 
2. Consulte o artigo sobre os banco de dados on-line de 2005 e separe aqueles de mais interesse 
em sua pesquisa explicando em detalhes os motivos de sua escolha. 
fonte:http://nar.oxfordjournals.org/cgi/content/full/33/suppl_1/D5. 
 
3. Utilize o Blast seguindo todas as etapas descritas na seção 3 usando a seqüência de aminoácido 
derivada da MJ0577 (Seção 3.2.3). 
 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 21 
 
CARACTERIZAÇÃO ESTRUTURAL DE GENES E DE PROTEÍNAS 
 
Magnólia de Araújo Campos 
 
 
Introdução 
Seqüências de DNA ou de proteínas, por si, não dizem muito. No entanto, com a 
utilização de ferramentas computacionais adequadas é possível,cada vez mais, conhecer 
os sistemas biológicos. Isto porque a Bioinformática é uma área do conhecimento baseada 
no paradigma fundamental da biologia molecular, o qual postula que a informação genética 
está armazenada nas seqüências de bases de DNA. O DNA é, então, transcrito e traduzido 
em seqüências de aminoácidos que constituem as proteínas. Emergindo como um apoio a 
projetos genomas, no sentido de amparar as informações geradas pela automatização do 
seqüenciamento em larga escala, a Bioinformática vem, desde então, tentando resolver a 
constante demanda de problemas em Biologia pela criação de programas computacionais 
capazes de 1) analisar e identificar a composição da molécula de DNA; 2) traduzir 
seqüências de DNA em seqüências de aminoácidos; 3) especular funções biológicas 
baseadas em características da seqüência da proteína, tais como domínios, eventos pós-
traducionais, massa molecular e pI teórico e 4) especular sua história evolucionaria a partir 
de análises filogenéticas. 
 No entanto, para poder utilizar os softwares, se faz necessário um embasamento 
sobre as moléculas estudadas, DNA e proteína, especialmente quanto aos seus caracteres 
estruturais, importantes na caracterização molecular computacional de um gene. É 
impossível, portanto, caracterizar os genes sem conhecer suas estruturas e os chavões da 
biologia molecular presentes nas ferramentas de análises. 
 
O que são genes? 
São as unidades funcionais e físicas hereditárias, constituídas por seqüências de 
DNA que codificam instruções para a síntese de proteínas, as quais realizam funções 
relacionadas com a expressão dos caracteres. Por isso, a um gene está associado uma 
característica fenotípica (aparência) particular, como por exemplo, a cor dos olhos. Este 
conceito levou a hipótese: “um gene – uma proteína” e os programas de bioinformática o 
utilizam para predizer seqüências protéicas. No entanto, na atual genética molecular, 
algumas modificações foram adicionadas e três tipos de genes são agora distinguidos: 1) 
aqueles que são transcritos em RNA mensageiro e traduzidos em proteínas; 2) aqueles que 
são apenas transcritos em RNA (por ex., RNA ribossomal e RNA transportador); e 3) 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 22 
 
aqueles que funcionam como reguladores dos outros dois tipos de genes. Por isso, nota-se, 
em alguns textos sobre genômica, a utilização desta terminologia mais abrangente e 
moderna. Em síntese, podemos dizer que genes são segmentos completos de DNA 
capazes de fazer produtos funcionais. Estes produtos então seriam proteínas e moléculas 
de RNA funcional, são eles: RNAi (interfering RNA), rRNA (ribosomal RNA); snRNA (small 
nuclear), snoRNA (small nucleolar) e tRNA (transfer RNA). Assim, o conceito de gene é 
dinâmico e deve ainda levar em consideração caracteres de procariotos e eucariotos. 
 
Onde se encontram os genes? 
Os genes compõem os cromossomos, juntamente com seqüências de DNA não 
codante e algumas proteínas que o empacotam, presentes nas células de um indivíduo. 
Este material genético total representa o genoma e constitui a informação hereditária 
completa de um organismo. A maioria dos genomas, incluindo o genoma humano e o de 
todas as outras formas de vida celular, são feitos de ácido desoxirribonucléico, ADN (DNA, 
deoxyribonucleic acid). Alguns vírus possuem genomas de ácido ribonucléico, ARN (RNA, 
ribonucleic acid). DNA e RNA são ácidos nucléicos compostos por subunidades 
denominadas nucleotídeos. Os nucleotídeos são constituídos de bases nitrogenadas da 
classe purina (G, guanina e A, adenina) ou pirimidina (C, citosina; U, uracila e T, timina), 
ligadas a um açúcar e a um grupo fosfato. A união de quatro bases invariavelmente aos 
pares, adenina com timina e citosina com guanina, é que forma a estrutura organizada de 
cadeia longa e dupla, conhecida como dupla hélice de DNA, encontrada facilmente em livros 
de genética, bioquímica, biologia molecular e online. Enquanto que o RNA é formado por 
uma cadeia de fita simples, onde a base timina (presente apenas no DNA) é substituída por 
uma equivalente, a uracila (presente apenas no RNA). 
 
O dogma central da biologia molecular 
O princípio de como esta informação genética é transmitida é explicado pelo dogma 
central da biologia molecular: a mensagem parte do DNA para o RNA e finalmente é 
traduzida para proteínas (Figura 1). O DNA é capaz de se autorreplicar no núcleo de células 
de eucariotos usando apenas uma fita da dupla hélice como molde (como procariotos não 
têm núcleo, este processo ocorre no citoplasma desses organismos unicelulares). Este 
processo chamado replicação perpetua a informação genética. O DNA também codifica o 
RNA mensageiro (RNAm). Neste processo denominado transcrição, um segmento do DNA 
que constitui um gene é lido e transcrito em uma seqüência de fita simples de RNA 
heterogêneo nuclear (RNAhn). O RNAhn é, então, processado (essencialmente por splicing) 
ainda no núcleo gerando o RNAm e, em seguida, transportado para os ribossomos 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 23 
 
(estruturas formadas por RNAr e proteínas), no citoplasma de eucariotos, onde as proteínas 
são formadas através de um processo chamado tradução. Durante a tradução, a cada três 
nucleotídeos, ou códon, na fita de RNAm são lidos e traduzidos em um aminoácido. Os 
aminoácidos são conduzidos para o sítio de tradução por RNAs transportadores (RNAt) (ver 
item abaixo o código genético). Pequenas cadeias dos vintes tipos de aminoácidos 
diferentes são denominadas de peptídeos, enquanto que longas cadeias são denominadas 
de polipeptídeos ou proteínas. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Replicação 
(duplica o DNA) Informação 
Informação 
Transcrição 
(síntese de RNA) 
citoplasma 
Figura 1. Dogma central da biologia molecular moderna. 
Informação 
Ribossomo 
Proteína 
núcleo 
Proteína 
Tradução 
(síntese de proteínas)
RNAm
Membrana nuclear 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 24 
 
Após a tradução, a maioria das proteínas sofre modificações pós-traducionais, 
principalmente a adição de carboidratos e de grupos fosfatos. Tais modificações possuem 
uma função importante na modulação da função de muitas proteínas, mas é codificada 
diretamente por genes. Como conseqüência, tem-se a informação de que um único gene 
pode codificar proteínas diferentes e que elas passam por modificações pós-traducionais. 
Proteínas não codificam para a produção de proteína, RNA ou DNA, elas estão envolvidas 
em quase todas as atividades biológicas, estrutural ou enzimática das células. Muitas 
funções celulares são realizadas por proteínas sozinhas (isoladamente) ou em complexos. 
No entanto, a descoberta recente de que prions, partículas protéicas causadoras de 
doenças infecciosas, são capazes de “auto-reprodução” contradiz a afirmativa do dogma 
central da biologia moderna de que os organismos vivos usam ácidos nucléicos para 
reproduzir. Isto porque os prions, sendo formas protéicas, não são gerados a partir do 
processo normal de tradução do RNAm, mas sim a partir das formas protéicas normais, 
devido a propriedades alostéricas da proteína nativa (traduzida). 
Indico as animações didáticas dos processos de transcrição, splicing e tradução, 
mostradas no site http://www.lsic.ucla.edu/ls3/tutorials/gene_expression.html para 
visualização com detalhes da expressão de genes. 
 
O código genético 
É esta informação biológica contida no genoma de cada organismo que direciona o 
desenvolvimento e a manutenção da vida dos mesmos. Cada espécie tem o seu número ou 
padrão genômico próprio. Assim, o genoma humano está distribuído e empacotado em 23 
pares de cromossomos, cujo número diplóide é 46, sendo 23 derivadosdo espermatozóide 
do pai e 23 derivados do óvulo da mãe. 
 O código genético possui as regras e símbolos na seqüência de nucleotídeos para a 
qual a informação genética para as seqüências de todos os polipeptídeos sintetizados por 
transcrição e tradução está codificada no DNA (ou RNA, no caso de vírus). Uma vez que 
existem quatro tipos diferentes de bases nos ácidos nucléicos e que cada seqüência de três 
resíduos de nucleotídeos (códon) é necessária para codificar um resíduo de aminoácido, 
sessenta e quatro trincas de nucleotídeos diferentes podem existir, sendo um códon de 
iniciação e três códons de terminação da tradução. Mas, somente vinte resíduos de 
aminoácidos diferentes estão presentes nos polipeptídeos codificados. Em virtude do código 
genético ser degenerado, a maioria dos aminoácidos pode ser especificada por mais de um 
códon. A codificação é lida da seqüência de RNAm, no sentido 5’ para o 3’ terminal, para 
seqüência de aminoácidos, como determinado na Tabela 1. Na prática, o que seqüenciamos 
é o DNA, portanto a Tabela 2 é mais usada para facilitar as análises e desenhos de primers 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 25 
 
a partir de seqüências preditas de aminoácidos. Na Tabela 3, os vinte aminoácidos são 
mostrados com seus respectivos nomes, representados pelos códigos de uma letra e de três 
letras. Estas tabelas são de grande utilidade na prática de biologia molecular e análises de 
predições da seqüência de proteínas a partir das seqüências de nucleotídeos. Diversos sites 
possuem links para ferramentas de tradução de proteínas a partir da seqüência de DNA, os 
quais podem ser facilmente encontrados via “google”, sob palavras-chave DNA translate 
tools. Muitas ferramentas apresentam os resultados em seis frames de leitura, sendo três 
gerados pela fita sense ou codante (+) e três pela fita complementar ou não codante (-). 
 É por causa da universalidade das seqüências de nucleotídeos, em que “todos os 
organismos contêm ácidos nucléicos”, que se torna possível usar este caractere do código 
genético para predições de proteínas, usando a bioinformática. No entanto, cada organismo 
usa um códon preferencialmente para um determinado aminoácido. Isso é o que é 
conhecido por Codon usage. O codon usage é, portanto, aquele códon que o organismo vai 
usar, entre os vários códons possíveis. Além do codon usage, a porcentagem de GC contida 
nas seqüências de DNA tem sido usada como cálculo para identificar seqüências de um 
determinado indivíduo. Um exemplo é a identificação de genes de um dado patógeno 
presentes em bibliotecas de genoma funcional de plantas, as quais foram construídas após 
inoculação por esse mesmo patógeno. 
 
 
 
Tabela 1. Código genético para bases nitrogenadas na seqüência de RNAm. 
 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 26 
 
 T C A G 
T TTT Phe (F) 
TTC " 
TTA Leu (L) 
TTG " 
TCT Ser (S)
TCC " 
TCA " 
TCG " 
TAT Tyr (Y)
TAC 
TAA Ter 
TAG Ter 
TGT Cys (C)
TGC 
TGA Ter 
TGG Trp 
T 
C CTT Leu (L) 
CTC " 
CTA " 
CTG " 
CCT Pro (P)
CCC " 
CCA " 
CCG " 
CAT His (H)
CAC " 
CAA Gln (Q) 
CGT Arg (R)
CGC " 
CGA " 
CGG " 
C 
A ATT Ile (I) 
ATC " 
ATA " 
ATG Met (M) 
ACT Thr (T)
ACC " 
ACA " 
ACG " 
AAT Asn (N)
AAC " 
AAA Lys (K) 
AGT Ser (S)
AGC " 
AGA Arg (R)
A 
G GTT Val (V) 
GTC " 
GTA " 
GTG " 
GCT Ala (A)
GCC " 
GCA " 
GCG " 
GAT Asp (D)
GAC " 
GAA Glu (E) 
GGT Gly (G)
GGC " 
GGA " 
GGG " 
G 
 
Tabela 2. Código genético para bases nitrogenadas na seqüência de DNA. 
 
 Código de 1 letra Código de 3 letras Nome 
1 A Ala Alanine 
2 C Cys Cysteine 
3 D Asp Aspartic Acid 
4 E Glu Glutamic Acid
5 F Phe Phenylalanine
6 G Gly Glycine 
7 H His Histidine 
8 I Ile Isoleucine 
9 K Lys Lysine 
10 L Leu Leucine 
11 M Met Methionine 
12 N Asn Asparagine 
13 P Pro Proline 
14 Q Gln Glutamine 
15 R Arg Arginine 
16 S Ser Serine 
17 T Thr Threonine 
18 V Val Valine 
19 W Trp Tryptophan 
20 Y Tyr Tyrosine 
 
Tabela 3. Os vinte aminoácidos, indicados por códigos de letra única e de três letras e pelo 
nome. 
 
Genes possuem estruturas 
 Algumas analogias têm sido feitas ao DNA (genoma), tais como: “o DNA é o livro da 
vida, escrito por quatro letras (A T C G), onde os cromossomos são os capítulos, os genes 
as estórias, os éxons os parágrafos (interrompidos por íntrons) e os códons são as 
palavras”. Neste sentido, após o seqüenciamento do genoma humano, chegou-se a 
conclusão de que o genoma representava “muito DNA e poucos genes” (Figura 2). 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 27 
 
Observou-se muita região intergênica e pouca região gênica, apenas cerca de 1% codifica 
para aminoácidos. Esta afirmativa foi possível por que as ferramentas usadas para analisar 
seqüências procuram por sinais dos genes, entre eles estão para genes codantes: região 
promotora ou Promotor, sítio de iniciação (ATG, no DNA, ou AUG, no RNAm), que codifica 
para o aminoácido Formilmetionina em procariotos e mitocôndrias e ou Metionina em 
eucariotos, sítio de terminação (TGA, TAA, TAG) da tradução, introns e exons, sítios de 
splicing e sinal de poliadenilação (poly-A). Portanto, eles respondem a pergunta: onde estão 
os genes? 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 2. Regiões gênicas e intergênicas na seqüência de DNA (acima). Representação 
esquemática de um gene de eucarioto que sofre splicing (abaixo), indicando as regiões 
gênicas do tipo promotor (P), a região não traduzida 5’ e 3’ UTR (U), os éxons (E) e os 
íntrons (I), separadas pela região intergênica. O transcrito primário (mRNA) possui todas as 
características presentes na fita de DNA. Após a retirada dos íntrons, três tipos de 
transcritos maduros (mRNA 1, 2 e 3) poderão dar origem a polipeptídeos diferentes. 
 
 
 
P 
U I I U
E E EIntergênica Intergênica 
Transcrito Primário 
mRNA 1 Maduro 
mRNA 2 Maduro 
mRNA 3 Maduro 
E
I I
E
 
 
 
 
T
Intergênica
T C
iGe cn a
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 28 
 
Promotor é uma seqüência de DNA localizada na região 5’ (cadeia senso) de um 
gene que indica o sítio para iniciação da transcrição. Ela pode influenciar a quantidade de 
mRNA produzidos e a especificidade do tecido. Exemplos incluem o TATA Box. O símbolo 
(P) pode ser subscrito para indicar promotores particulares (PRM). Assim, um dos caracteres 
utilizados em programas que buscam e analisam seqüências de promotores é o TATA Box. 
O TATA Box ou Hogness Box é um elemento de seqüência de bases comuns em 
promotores de eucariotos, caracterizados pela seqüência concenso TATAAAA. Nessa 
seqüência se liga um fator de transcrição geral (proteína de ligação a DNA - TATA) e 
especifica a posição onde a transcrição será iniciada. São os promotores quem mandam 
“onde, quando e o quanto” um gene deve ser expresso. Onde? - Folhas, raízes, p.ex. 
Quando? - Início da germinação. Quanto? Muito, pouco e/ou constitutivamente. Na tabela 4 
está compilado um conjunto de seqüências consenso de alguns elementos e fatores que 
interferem na atividade de promotores que trabalham com a polimerase II, regulando, 
portanto, a expressão de genes ligados a eles. Regiões de promotores são chamadas de 
upstream a região codante do gene e os nucleotídeos são numerados com sinal negativo (-) 
em ordem decrescente até chegar no sinal +1, que é a posição do nucleotídeo A, do códon 
de iniciação (ATG). 
 
Tabela 4. Seqüências consenso de alguns elementos agindo in cis e fatores agindo in trans 
que afetam a atividade do promotor de Polimerase II. 
 
 
 
 A região codante para proteínas, ou CDS (coding sequence) ou ainda éxon no DNA, 
é a seqüência de nucleotídeos completa que é traduzida em polipeptídeos e que estápresente na molécula de RNAm. De fato, a fita codante do DNA (ou senso, +) contêm a 
mesma seqüência de bases que está no RNAm transcrito a partir do DNA, substituindo-se T 
no DNA por U no RNA (Figura 3). No caso de genes que não possuem íntrons, a própria 
CDS já indica a ORF (open reading frame), que significa o “quadro aberto de leitura”, que vai 
desde o códon de iniciação até o de terminação, sem ser interrompido por introns. No caso 
de genes intrônicos, a ORF será montada no RNA após a eliminação dos introns. Na 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 29 
 
tradução, a ORF será encontrada e “lida”, traduzindo-se uma seqüência de DNA em uma 
seqüência de aminoácidos de um polipeptídeo. No site do NCBI tem um link para a 
ferramenta ORFfinder, a qual analisa uma seqüência de DNA procurando os sítios de 
iniciação e terminação da tradução, resultando em possíveis ORFs de genes em potencial 
ou genes conhecidos. Assim, a ferramenta de traduzir a seqüência de DNA em seqüência 
de aminoácidos procura diferentes fases e gera diferentes peptídeos preditos. No exemplo 
da Figura 2, o início da leitura na fita senso, usando cada uma das 3 bases do códon ATG 
como inicio da tradução, resultará em 3 fases com 3 aminoácidos distintos. Na primeira fase 
de leitura ou frame, o primeiro aminoácido será a Met (ATG), porém na segunda (TGG) e na 
terceira (GGA) resultarão nos aminoácidos Trp e Gly, respectivamente. 
 
 
5' T G A C C T T C G A A C G G G A T G G A A A G G 3' (sense, codante) 
3' A C T G G A A G C T T G C C C T A C C T T T C C 5' (antisense, molde) 
 
5' U G A C C U U C G A A C G G G A U G G A A A G G 3' (RNAm) 
 
Figura 3. Exemplo hipotético de seqüências de DNA, fitas sense e antisense, e de RNA 
mensageiro (RNAm), indicando que o sítio de iniciação da tradução na fita DNA codante 
(ATG) e no RNAm (AUG) diferem apenas pelas bases T e U, respectivamente. A fita de 
DNA que serve de molde para a síntese de RNAm é a fita antisense. 
 
 
 Existem ferramentas que procuram por sítios de poliadenilação (seqüência consenso 
AATAAA) no DNA. A RNA polimerase transcreve este sítio, mas a mensagem é clivada 
downstream a partir deste sinal (saindo de 10 -30 nt) e são adicionados no transcrito 
primário de 40 – 200 resíduos de adenilato, isto é, adenosina-5’-monofosfato. Esta cauda 
Poli-A estabiliza o RNAm e facilita a tradução. Outras ferramentas procuram por sítios de 
splicing. Um exemplo de sítio de splicing é ÉXON / gt ÍNTRON / ÉXON ac. A presença e 
ausência de introns em regiões codantes do DNA tem levado a duas hipóteses: ou os 
introns já existiam e estão sendo eliminados durante a evolução (early hypothese), ou os 
introns estão sendo adquiridos ao longo do processo de evolução dos indivíduos (late 
hypothese), ambas possuem embasamentos, mas este tema ainda não está elucidado. 
As seqüências de pseudogenes, os quais parecem genes mas não codificam 
proteínas funcionais, são freqüentemente reconhecidas pela presença de sinais de parada 
(stop codons) no meio da região codante, durante a leitura para a tradução para 
aminoácidos, gerando, portanto, polipeptídios entrecortados. Seqüências com este sinal ou 
são pseudogenes ou possuem baixa qualidade de seqüenciamento. Uma alternativa é 
seqüenciar a mesma seqüência nos sentidos direto e reverso, visando corrigir falhas no 
seqüenciamento através de alinhamento de ambas e, ainda, com auxilio de eletroferograma. 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 30 
 
Por que estamos interessados em estudar os genes? – “Proteínaaasss...” 
O comportamento de uma célula é determinado não somente por “quais genes foram 
herdados”, mas também por “quais genes são expressos”. Em organismos multicelulares, 
diferentes tipos de células possuem os mesmos genes, mas as funções destas células não 
são determinadas por diferenças nos genomas, mas sim pelo padrão da regulação da 
expressão de genes que governam o desenvolvimento e a diferenciação. A regulação da 
expressão de genes permite as células se adaptarem a mudanças em seus ambientes e é 
responsável pelas distintas atividades dos múltiplos tipos de células que constituem animais 
e plantas. De minuto a minuto ocorre nas células uma dinâmica de mudanças no proteoma 
(todas as proteínas sintetizadas por uma determinada célula em determinado tempo), em 
resposta a dezenas de milhares de sinais ambientais intra e extracelulares. A química e o 
comportamento de proteínas são especificados pela seqüência e pelo número e identidade 
de outras proteínas produzidas na mesma célula, no mesmo tempo, e com as quais elas se 
interagem e reagem. Estudos de proteômica, visando explorar a estrutura e atividades de 
proteínas, ajudarão a elucidar a base molecular da saúde e da doença. Portanto, o que se 
quer mesmo caracterizar é a seqüência da proteína codificada pelos genes. 
Proteínas possuem estruturas primária, secundária, terciária e quaternária. A 
estrutura primária é a seqüência de aminoácidos de sua cadeia polipeptídica e pode ser 
predita pela seqüência de DNA que a codifica, como já discutido anteriormente. Embora 
ocorram processamentos pós-traducionais, que vão desde clivagem de peptídeos, eventos 
como metilação, fosforilação e glicosilação, dobramento (empacotamento ou folding) e até 
mesmo o endereçamento (sorting), as informações para esses eventos já estão pré-
determinadas na própria estrutura primária da proteína. Por isso, ferramentas para predição 
de eventos pós-traducionais foram desenvolvidas e estão disponíveis online. Por exemplo, 
sítios de clivagem de peptídeos podem ser preditos usando a ferramenta SignalP. Nesta, os 
primeiros 70 aminoácidos da seqüência protéica, contados a partir da Met, são consultados 
quanto à presença de um possível peptídeo de exportação da proteína para o apoplasto, por 
exemplo, necessitando transitar pelo retículo endoplasmático. O resultado da análise indica 
por um gráfico o possível sítio de clivagem de uma protease, indicando que a proteína 
recém-traduzida pode eliminar os primeiros aminoácidos, com características típicas de um 
peptídeo de exportação, produzindo uma proteína madura. 
O arranjamento regular de aminoácidos dentro de regiões localizadas do 
polipeptídeo é o que leva a dois tipos de estruturas secundárias, conhecidas como α hélice 
(formada por pontes de hidrogênio entre aminoácidos separados por quatro resíduos) e β 
sheet ou “cadeia pregueada β” (formada por pontes de hidrogênio entre aminoácidos 
localizados em diferentes regiões do polipeptídeo). A estrutura terciária é o empacotamento 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 31 
 
tridimensional (3D) de um polipeptídeo que dá a proteína sua forma funcional. As unidades 
básicas de empacotamento são regiões compactas e globulares, na estrutura 3D de 
proteínas, chamadas de domínios. Domínios de proteínas estão, em geral, associados a 
uma função como, por exemplo, a parte de uma molécula protéica que se liga a um 
receptor, que se liga a um substrato e possui uma função catalítica (domínio catalítico). Em 
proteínas de membrana, o domínio transmembrana atravessa a membrana de um lado para 
o outro. Por outro lado, interação tridimensional entre dois ou três segmentos de estrutura 
secundária que estão próximos um do outro ao longo da cadeia polipeptídica leva ao que se 
chama motivo (motif). Parte de motivos são reconhecidos na estrutura primária de proteínas 
dispostos de forma contígua (vizinhos) ou capazes de serem alinhados em certas posições 
que são invariáveis ou conservadas, os quais estão associados com uma determinada 
função, p. ex., o motivo GXGXXG está associado com um sítio de ligação a nucleotídeos. 
Portanto, a seqüência protéica determina não somente a atividade da proteína, mas 
também a sua estrutura tridimensional.Quando a proteína se dobra, os resíduos 
importantes são orientados na posição correta para exercer suas devidas funções. Essa 
identidade de resíduos chaves são mais importantes do que a porcentagem total de 
identidade entre duas seqüências. Um grande problema era o caso de um resíduo 
importante não ser conservado. Mas através da modelagem protéica (prediz um modelo 3D 
para proteínas), pois através da conservação da estrutural tridimensional, mesmo após 
mutações em muitos resíduos, é possível construir um modelo de uma proteína, em caso do 
molde adequado esteja disponível. 
O estudo de estruturas protéicas preditas envolve parâmetros físico-químicos dessas 
moléculas, especialmente quando se trata de comparações de seqüências alinhamentos, 
predições de massa molecular, potencial isoelétrico (pI), estruturas secundárias e terciárias 
ou tridimensionais, domínios, motivos etc. Várias ferramentas para análises em proteômica 
estão disponíveis, ou possuem link para, em http://au.expasy.org, o ExPASy (Expert Protein 
Analysis System), inclusive SignalP. 
 Estruturas quaternárias de proteínas são as interações entre cadeias polipeptídicas, 
portanto constituídas de mais de um polipeptídeo. Ocorre entre duas subunidades idênticas 
ou monoidênticas. 
 
Como atribuir funções a seqüências biológicas? 
 Atualmente, o mais poderoso método para inferir a função biológica de um gene ou 
da proteína codificada por ele é através da busca por similaridade de seqüências em bancos 
de dados de genes e de proteínas. A comparação de seqüências de proteínas é a 
ferramenta para a caracterização de seqüências de proteínas, por causa da enorme 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 32 
 
quantidade de informação que está preservada ao longo dos processos evolucionários. 
Admitindo-se que genes modernos sejam todos derivados de genes ancestrais, genes 
descendentes de um mesmo ancestral devem ter função, estrutura e seqüência 
relacionadas. 
 O aparecimento de novas estruturas é uma conseqüência natural do processo 
evolutivo. Estruturas com funções similares podem ser derivadas de uma ancestral, sendo 
chamadas de homólogas, ou podem ser originadas a partir de estruturas ancestrais 
distintas, sendo denominadas de análogas. Os termos homologia e analogia são termos 
operacionais e se referem à história evolutiva de um caráter ou estrutura. Quando duas 
seqüências têm uma alta similaridade ou identidade é provável que sejam homólogas, até 
porque é improvável que isso tenha acontecido por acaso. A similaridade entre duas 
seqüências é um indicativo de homologia, isso porque no processo evolutivo os genes 
evoluem perdendo progressivamente identidade entre si e, portanto, com o passar do 
tempo, as seqüências tendem a divergir. Se dois genes são homólogos, sua função 
biológica fica preservada entre organismos. 
Seqüências homólogas podem ser divididas em ortólogas, aquelas que diferem por 
causa da especiação (processo de formação de novas espécies) e, portanto são 
encontradas em espécies diferentes, e parálogas, aquelas que diferem por causa de um 
evento de duplicação levando, por exemplo, a formação de famílias multigênicas com alta 
similaridade entre elas. Maiores detalhes deste assunto serão dados em Inferências 
filogenéticas, último capítulo desta apostila. 
A análise de similaridade entre duas seqüências deve ser feita pela sobreposição de 
forma a otimizar globalmente os resíduos de aminoácidos idênticos e similares. Ao contrário 
de homologia, que não pode ser medida, similaridade e identidade são características 
quantitativas. Resíduos similares apresentam característica físico-química similares, 
normalmente têm o mesmo volume e caráter hidropático. Na similaridade incluímos resíduos 
similares e idênticos. A identidade é a porcentagem de resíduos idênticos entre duas 
seqüências. Exemplo hipotético: Num alinhamento no blast de duas seqüências de 
proteínas, em que um total de 33 resíduos foi emparelhado, resultando em 23 idênticos e 26 
similares (por principio, os idênticos são contabilizados dentro dos similares), teremos uma 
identidade de seqüência de 70% e uma similaridade de 78%. 
O BLAST é o programa mais rápido para analise de similaridade e identidade tanto em 
seqüências de proteínas, que se utiliza os dois termos, quanto para seqüências de 
nucleotídeos, onde o termo similaridade não se aplica, uma vez que ácidos nucléicos 
exercem sua função biológica baseada na formação de pares de base. Para comparação de 
seqüências de DNA usa-se sempre o termo identidade. 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 33 
 
Mas a proteína não é tudo... 
As proteínas estão inseridas num contexto celular, fazendo parte de estruturas celulares, 
como membranas, organelas, ou fazendo parte de uma determinada via metabólica celular. 
Uma visita ao KEGG (http://www.genome.ad.jp/kegg/pathway.html) - Kyoto Enclyclopedia of 
Genes and Genomes, irá ilustrar bem parte de rotas metabólicas onde as proteínas 
trabalham dentro da célula. A interação/regulação de rotas metabólicas existe como, por 
exemplo, o desvio do metabolismo primário para o secundário, mediante os sinais 
ambientais, é uma demonstração de mudanças no proteoma que pode levar a uma resposta 
de estresse eficiente ou não. 
Após todos as análises de predição e similaridade funcional, as análises 
computacionais precisam ser confirmadas por experimentação, em laboratório. 
 
Nomenclatura de anotação de genes 
 Nomes de genes novos têm sido dados com base na identidade e similaridade com 
outros presentes em bancos de dados. A nomenclatura abaixo está disponível online e 
esclarece certas terminologias, com base em situações encontradas como resultado de 
busca por similaridade. 
KKnnoowwnn GGeennee –– ggeennee pprreeddiittoo ppaarreeiiaa oo ccoommpprriimmeennttoo iinntteeiirroo ddee uumm ggeennee ccoonnhheecciiddoo.. 
PPuuttaattiivvee GGeennee ––ccoonnttéémm rreeggiiõõeess ccoonnsseerrvvaaddaass ccoomm oouuttrrooss ggeenneess ccoonnhheecciiddooss.. TTaammbbéémm éé 
rreeffeerriiddoo ccoommoo ““lliikkee”” oouu ““ssiimmiillaarr ttoo””.. 
UUnnkknnoowwnn GGeennee –– ggeennee pprreeddiittoo ppaarreeiiaa ccoomm uumm ggeennee oouu EESSTT ddoo qquuaall aa ffuunnççããoo nnããoo éé 
ccoonnhheecciiddaa.. 
HHyyppootthheettiiccaall GGeennee –– ggeennee pprreeddiittoo qquuee nnããoo ccoonnttéémm ssiimmiillaarriiddaaddee ssiiggnniiffiiccaannttee ccoomm qquuaallqquueerr 
ggeennee ccoonnhheecciiddoo oouu EESSTT.. 
 
 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 34 
 
ALINHAMENTOS DE SEQÜÊNCIAS DE DNA E DE PROTÉÍNAS 
E DESENHO DE PRIMERS 
 
Antonio Chalfun Junior 
 
Nos dias atuais, a necessidade de se conhecer uma determinada seqüência tem expandido 
os horizontes dos pesquisadores envolvidos com todas as ciências. A procura pela identidade de 
genes é uma tarefa que requer tempo e também informação. Programas de computadores têm 
auxiliado nessa tarefa. Mas qual o sentido de se alinhar seqüências de DNA e proteína? Logicamente 
que depende do interesse da pesquisa, mas a princípio, baseia-se na identificação de regiões 
conservadas. Essa informação é muito útil, para realizar experimentos e até mesmo modificar 
proteínas específicas, alterando sua função, como conseqüência da mudança da sua estrutura e 
logicamente, na identificação de novos membros de determinadas famílias. 
 Mas o que seria então o alinhamento: O alinhamento de seqüências é a melhor forma de 
transferir informação de uma molécula já estudada para uma ainda a ser identificada. 
 A idéia de um alinhamento de seqüências é colocar em ordem (alinhar) suas bases 
nitrogenadas (todas ou parte delas que possuam similaridade), que tenham sido derivadas de uma 
ancestral comum (geneou proteína). 
 
 
 
 
 
 
 
Mas essa identificação de seqüências similares requer uma busca pela sua informação. O que se 
pode descobrir sobre um gene por meio de uma busca? Onde faremos essa busca? Normalmente 
essa busca é feita em um banco de dados (quase sempre utilizando de alguma informação prévia). 
Podemos então, descobrir por meio dessa busca informações relevantes sobre um gene de interesse, 
como por exemplo: 
 - Informação evolutiva (quais são os genes homólogos ao de interesse, qual a freqüência dos 
alelos); 
 - Informação genômica (qual a localização desse gene no cromossomo, se ele possui íntrons, 
qual a seqüência UTR, suas regiões reguladoras, etc); 
 - Informação estrutural (estrutura da proteína correspondente ao gene, tipos de dobramento, 
quais os domínios estruturais, etc); 
 - Informação de expressão (qual o tecido que possui expressão, se é ou não específica, quais 
os fenótipos de mutantes desse gene, etc); 
CPISRTWASIFRCW
CPISRT---LFRCW 
 
Figura 1. Exemplo de alinhamento. 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 35 
 
 - Informação funcional (qual a função molecular ou enzimática, se possui ou não papel em 
determinada rota metabólica, etc). 
Como citado, seqüências podem ser alinhadas na sua totalidade (o que chamamos de “global 
alignment” (alinhamento global) ou somente em certas regiões “local alignment” (alinhamento local), 
sendo que podemos ter o tipo “pairwise” (par a par) ou alinhamentos múltiplos. Alinhamento global 
necessita do uso de “gaps” lacunas (que representam inserções/deleções), enquanto que 
alinhamento local evita isso, alinhando regiões entre os “gaps”. Desse modo, podemos dizer que com 
o alinhamento conseguimos organizar, visualizar e analisar um grupo de dados de seqüências que 
estamos interessados. O processo de alinhamento de seqüências baseia-se no simples ponto de 
jogar fora as lacunas (ou melhor, onde inserí-las) ou na melhor forma de acertar as coincidências 
(similaridades de nucleotídeos/aminoácidos). 
 Quais seriam então os meios para se fazer um alinhamento? O alinhamento pode ser feito de 
modo completamente automático, manual (o próprio interessado faz) e/ou os dois em conjunto (um 
modo mais prático). Por que isso? Não se faz necessário dizer que um software de alinhamento 
de seqüências não consegue alcançar a mesma qualidade de um alinhamento manual feito por nós 
seres humanos. Existem algumas razões para isso: Os humanos podem “fraudar” o alinhamento 
utilizando-se de outras informações; os humanos podem criar padrões de reconhecimento contra um 
banco de dados mental de motivos estruturais conhecidos e finalmente, o computador (por 
necessidade) tem que generalizar. Mesmo assim, existem muitas vantagens em fazer o alinhamento 
pelo computador, por exemplo, enquanto o computador faz o trabalho duro, você lê um artigo e 
espera pelo resultado e faz a análise posteriormente. Para isso, é necessário que ele (programa de 
alinhamento) possua algumas características: 
1. Um mecanismo para gerar todos os possíveis alinhamentos 
2. Um método para analisar os alinhamentos de modo que o melhor alinhamento seja o 
escolhido. 
 Logicamente que esse mecanismo para gerar todos os possíveis alinhamentos requer certa 
inteligência, que de certo modo, foi desenvolvida por nós. O problema é o método para analisar. Para 
pontuar os alinhamentos nessa etapa de análise, nós precisamos pontuar cada coincidência e 
também cada “gap” que é introduzido. Toda essa pontuação vem do desenvolvimento do algoritmo 
que foi mencionado em outra aula. 
 Dentre os mais diversos programas de alinhamentos existentes, o Clustal é um dos mais 
utilizados. Existem versões para trabalho online (ClustalW) ou offline (ClustalX). Basicamente, o 
ClustalW é um programa completamente automático para alinhamento global de seqüências de DNA 
e proteínas. O alinhamento é progressivo e considera a redundância de seqüências. O programa faz 
alguns ajustes nos parâmetros de alinhamento que podem ser modificados, mas a princípio o 
“default” é aceitável. 
 
 
 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 36 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 2. Exemplo de tela do ClustalX 
 
Isso não quer dizer que o programa Clustal seja o melhor. Existem áreas que ele não se 
adapta muito bem, como por exemplo, quando se têm seqüências de tamanhos extremamente 
diferentes, o alinhamento gerado pode ser confuso. 
 Mas que tipo de seqüências devemos utilizar? DNA ou proteína? A comparação em nível de 
seqüências protéicas é a mais poderosa ferramenta disponível hoje para inferir função e estrutura a 
uma seqüência desconhecida, devido à evolução. A proteína quando forma a estrutura quaternária, 
assume uma funcionalidade. A similaridade de seqüências protéicas pode ser utilizada rotineiramente 
para inferir relações entre proteínas que tinham um ancestral comum a milhões de anos atrás. Essa 
comparação deve levar em conta: 
 O alinhamento de seqüências é muito mais fácil com seqüências próximas, 
 Abaixo de certo nível de identidade, esse alinhamento é desconsiderável (em termos de 
aminoácidos, 30%), 
 Se estiver próximo a esse limite, é indispensável o uso de informações adicionais, como por 
exemplo, a estrutura, mas lógico que depende da disponibilidade da informação. 
 
 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 37 
 
 
 
 
 
 
 
 
 
 
Figura 3. Código genético é degenerado 
 
 Dentro desse contexto, o alinhamento de proteínas se torna muito mais fácil e preciso do que 
de seqüências de DNA. Se já houver seqüência de DNA em algum banco de dados, ela deverá ser 
utilizada para o desenho dos primers. 
 
Para tal, devemos tomar como início o seguinte: 
1) Acessar as seqüências: como citado anteriormente, as seqüências serão obtidas via 
consulta a um banco de dados, ou de outra forma; 
2) Alinhar as seqüências: utilizando programas de alinhamento, seqüências de interesse 
serão então alinhadas. Normalmente, utiliza-se o padrão do programa, mas mudanças 
podem ser feitas; 
3) Visualizar regiões conservadas: essa visualização é dependente do tipo de seqüência que 
se está trabalhando. Se já existe alguma informação prévia, fica mais fácil a identificação e 
a certeza do que realmente está demarcado como região conservada. 
4) Desenho do primer: A partir de seqüências já identificadas no seu gene de interesse ou a 
partir de regiões conservadas, os primers são desenhados, obedecendo alguns critérios 
básicos. 
 
Para o desenho dos primers, algumas dicas podem ser seguidas, mas importante lembrar que 
não é regra geral: 
1. Tamanho dos primers: Uma vez que ambas a temperatura e especificidade e tempo de 
anelamento são no mínimo dependentes do tamanho do primer, esse parâmetro pode ser 
classificado como o principal ou crítico para o sucesso da PCR. Em geral os primers devem 
ter um tamanho de 18-24 bases, propiciando uma temperatura de anelamento ótima. Vale 
lembrar que, primers com esse tamanho, são em geral extremamente específico para uma 
determinada seqüência. Na maioria das vezes, primers mais longos são mais ineficientes no 
anelamento, mesmo porque com menos “templates” ligados a cada ciclo, pode resultar em 
uma significante redução de amplicons. Os primers também não devem ser muito curtos, a 
menos que exista a necessidade. Ou seja, a temperatura ideal de anelamento que o primer 
deve ser desenhado seria de no mínimo 50º C; 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 38 
 
2. Conteúdo CG: Durante o desenho dos primers, ilhas poliG e poli C devem ser evitadas para 
evitar anelamento não específico. PoliA e poliT também devem ser evitados, pois devido suas 
ligações serem mais fracas, uma aberturaentre as fitas poderá ocorrer no complexo primer-
template, diminuindo a eficiência da reação. Polipirimidinas (T, C) e polipurinas (A, G) 
também devem ser evitadas. Ou seja, um primer ideal deve conter um mix de nucleotídeos 
“aleatoriamente” (lógico que isso vai depender da sua seqüência). Ou seja, um conteúdo CG 
em torno de 50-55% seria o recomendado, sendo o primer em torno de 20 pares de bases. 
Dessa forma a temperatura de anelamento do primer deverá ser em torno de 56º – 62º C; 
3. Temperatura de anelamento: devem ser levados em conta fatores como conteúdo CG e 
extensão/ conteúdo do primer, mas a princípio, 58º-60ºC. É de extrema importância manter 
em mente que teremos um par de primers adicionadas à reação. Ambos oligonucleotídeos 
devem ser desenhados de maneira a possuir temperaturas de anelamento similares ou muito 
próximas. Se os primers possuem temperaturas muito diferentes, eles serão ineficientes ou 
não terão eficiência, uma vez que se o primer com temperatura mais alta estiver trabalhando 
em uma temperatura bem abaixo de sua Tm1, ele será inespecífico, e o contrário, um primer 
com uma temperatura baixa, não terá como anelar a uma temperatura bem superior. 
4. Hairpins: evitar a formação de hairpins (estruturas secundárias); Outro detalhe importante é 
evitar na terminação 3´ dos primers a complementaridade dos mesmo, evitando desse modo 
a formação de dímeros. 
5. Terminação 3’: Já está bem estabelecido que a posição terminal 3´ nos primers é essencial 
para o controle de uma falsa iniciação. Para tanto, os primers devem terminar em C ou G ou 
CG para favorecer uma ligação mais forte com a seqüência a ser amplificada, e também 
favorecer a extensão da TAQ polimerase. Deve-se, entretanto, evitar mais do que 3 Cs ou 
Gs; 
 
 
É essencial que tomemos cuidado no desenho dos primers. Muitos parâmetros aqui descritos que 
incluem, tamanho do primer, %GC, e terminação 3´ precisam ser otimizados para o sucesso da PCR, 
evitando qualquer modificação que possa influenciar a amplificação. Ou seja, minimizar os erros. 
Muitos deles podem ser feitos através de programas computacionais para tal, mas vale que nada 
substituir a mente humana. Uma checagem final é sempre recomendada, e principalmente, nada 
adianta utilizar softwares de última geração se no momento de solicitar esses primers (efetuar o 
pedido junto a empresa), as seqüências são processadas de forma incorreta. 
 
 
 
1 Tm= temperatura de desnaturação do DNA: temperatura na qual as fitas da molécula de DNA se 
desnaturam ou dissociam. A Tm é determinada pelo comprimento da molécula, sua composição de 
bases, e pela concentração de sais do tampão. Seqüências ricas pares CG têm Tm mais altas. 
Agentes como álcalis fortes também são usados para desnaturar moléculas. Borém e Vieira, 2005. 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 39 
 
Referencias: 
 
Prosdocimi F.; et al. (2002). Bioinformática: manual do usuário. Biotec. Ci. Des. 29: 18-31. 
Mount, DW. (2001). Bioinformatics – Sequence and Genome Analysis. 1st ed., Cold Spring 
Harbor, New York: Cold Spring Harbor Laboratory Press. pp. 1 – 19 
Sambrook, J . ; Russel, DW. (2001). Molecular Cloning – A Laboratory Manual. 3rd. ed., vol. 2, 
Cold Spring Harbor, New York: Cold Spring. 999p. 
Invitrogen. PCR enzymes protocols – Quick reference guide. 
Borém, A.; Vieira, MLC. 2005. Glossário de Biotecnologia. UFV, Viçosa, 183p. 
Dieffenbach, C.W., Lowe, T.M.J., Dveksler, G.S. (1995). General Concepts for PCR Primer Design, in 
PCR Primer, A Laboratory Manual, Dieffenbach, C.W, and Dveksler, G.S., Ed., Cold Spring 
Harbor Laboratory Press, New York, 133-155. 
Innis, M.A., and Gelfand, D.H. (1994). Optimization of PCRs, in PCR protocols, A Guide to Methods 
and Applications, Innis, M.A., Gelfand, D.H., Sninsky, J.J., and White, T.J., Ed., CRC Press, 
London. p.5-11. 
Sharrocks, A.D. (1994). The design of primers for PCR, in PCR Technology, Current Innovations, 
Griffin, H.G., and Griffin, A.M, Ed., CRC Press, London. p.5-11. 
Kwok, S., Kellog, D.E. McKinney, N., Spasic, D., Goda, L., Levenson, C., and Sninsky, J.J. (1990). 
Effects of primer-template mismatches on the polymerase chain reaction: Human 
Immunodeficiency Virus 1 model studies. Nucleic Acids Res. 18:999-1005. 
WEb sites: 
www.pcrlinks.com 
www.invitrogen.com 
http://www.ncbi.nlm.nih.gov 
 
 
 
 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 40 
 
INFERÊNCIAS EVOLUCIONÁRIAS E GEOGRÁFICAS A PARTIR DA 
DIVERSIDADE DE SEQUÊNCIAS 
 
Cristiano S. Lima 
Magnólia de A. Campos 
 
Introdução 
 Diante da diversidade biológica do planeta, o homem sentiu a necessidade de classificar, dar 
nomes, visando organizar, informar (comunicar-se), conhecer, utilizar e, de certa forma, ter um certo 
domínio sobre os seres. Assim surgiram os sistemas de classificação para descrever e categorizar 
todas as formas de vida, de modo que fosse determinado “quem, quais e quantos seres existem e 
onde encontrá-los”. Orientando a classificação com algumas regras está a Taxonomia e, desta forma, 
os organismos estão agrupados em diversas categorias ou táxons diferentes (Domínio, Reino, Filo, 
Classe, Ordem, Família, Reino e Espécie/sub-espécie), com base em características. É, portanto, 
resultado de trabalho de Sistemática o número imenso de conhecimento descritivo sobre a detecção, 
descrição e explicação da diversidade biológica entre e dentro de espécies, com base em 
caracteres/estruturas. No entanto, na busca por critérios de classificação inevitavelmente se chega na 
Filogenia, onde o estudo das relações e parentesco entre os grupos é visto numa escala de tempo. 
Como cada organismo possui um grande número de caracteres que podem ser iguais ou diferentes 
aos de outros grupos, chegamos ao advento da Sistemática Filogenética. 
A filogenética é o estudo da filogenia. Em biologia, filogenética é a classificação taxonômica 
de organismos (em grupos organizados, categorias ou táxons) com base em quão intimamente 
relacionados eles são, em termos de diferenças evolucionárias (numa escala de tempo). 
Tradicionalmente, a filogenia tem sido construída com dados morfológicos, mas, seguindo a 
expansão da informação genética, tem sido comum a prática de construir filogenia baseada em dados 
moleculares, conhecida como filogenia molecular. Os dados mais comuns têm sido na forma de 
seqüências de DNA ou de proteínas, mas também podem ser na forma de dados de polimorfismo de 
divergência genética. 
 As relações filogenéticas ou históricas podem ser de dois tipos distintos: 1) relações de 
ancestralidade comum, que ocorrem sempre entre espécies recentes, e 2) relações entre ancestral-
descendentes, que ocorrem entre espécies recentes ou extintas e espécies ancestrais ou entre 
grupos monofiléticos supra-específicos recentes ou extintos e espécies ancestrais. 
 
Evolução Molecular 
Para especular como a evolução ocorreu, é preciso considerar os processos de evolução. 
Existem vários princípios básicos que são comuns aos sistemas em evolução. A mais fundamental 
propriedade de sistemas em evolução é sua Habilidade de Replicar ou Reproduzir. Sem esta 
habilidade, cada “espécie” de molécula pode ser extinta, assim que todas as suas moléculas 
individuais forem extintas. Ao contrário, moléculas que podem replicar irão continuar a serem 
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 41 
 
apresentadas na população, se acaso o tempo de vida de cada molécula individual permanecer curto. 
O segundo princípio fundamental à evolução é a Variação. Os sistemas de replicação devem passar 
por variações, senão a molécula replicada será sempre igual à molécula parente e não poderia haverevolução. Portanto, a variação é necessária para a evolução. Em sistemas vivos, elas são as 
mudanças que alteram o significado da mensagem genética. Estas variações são chamadas 
Mutações. O terceiro princípio de sistemas em evolução é a Competição. Moléculas em replicação 
competem umas com as outras para que os recursos disponíveis, tais como precursores químicos, e 
a competição permitam que os processos de evolução por seleção natural ocorram. A variação irá 
produzir diferentes populações de moléculas. Alguns variantes descendentes podem, por chance, ser 
mais bem adaptado para sobrevivência e replicação sobre condições prevalentes do que são suas 
moléculas parentas, as condições prevalentes exercem uma pressão seletiva que dá uma vantagem 
a um dos variantes. Aquelas moléculas que são mais capazes de sobreviverem e auto-replicarem irão 
aumentar em relativa concentração. Dessa forma, novas moléculas surgem as quais são mais bem 
capazes de replicar sob as condições de seu ambiente. Os mesmos princípios são verdadeiros para 
organismos modernos. Embora as mudanças que levam a variações aconteçam ao nível molecular, a 
vantagem seletiva é manifestada ao nível de organismo. 
Os principais problemas em filogenia incluem: a maioria das espécies que participam no 
processo de evolução está extinta; a inferência do relacionamento entre espécies existentes e um 
método para avaliar o processo; e que o relacionamento pode ser feito por morfologia, anatomia, 
embriologia ou comparação de seqüências de genes ou de produtos dos genes, RNA e proteína. 
 
Mudanças evolucionárias em seqüências de DNA e Proteína 
Quando nós analisamos seqüências se DNA ou de proteína, nós estamos quase sempre 
estudando seqüências modernas (dos dias atuais). É preciso ainda considerar que existem diferenças 
em estudar seqüências de DNA e de seqüências de proteínas. As mudanças evolucionárias de 
seqüências de DNA são mais complicadas do que as de seqüências de proteínas, uma vez que 
existem vários tipos de regiões de DNA, tais como regiões codificadoras de proteínas, regiões não 
codantes, exons, introns, regiões flanqueadoras, seqüências de DNA repetitivos e seqüências de 
inserção (transposons). É, portanto, importante saber o tipo e a função da região de DNA que está 
sendo estudada. Mudanças mutacionais de DNA variam extensivamente com a região do DNA. 
Considerando somente as regiões que codificam proteínas, o padrão de substituição de nucleotídeos 
não é o mesmo para a primeira, segunda e terceira posições dos códons. Ainda, a própria 
degeneração do códon genético também deve ser considerada. 
Proteínas são os produtos gênicos primários e a base funcional da vida. A evolução pode ser 
estudada tanto via análise de seqüências de proteínas quanto de DNA. Para muitas seqüências de 
proteínas, uma história evolucionária pode ter de 1-2 bilhões de anos. A evolução das proteínas 
envolve mudanças de poucos resíduos de aminoácidos, inserções e deleções de vários resíduos, 
duplicação gênica e fusão de genes. Seqüências de aminoácidos têm uma densidade de informação 
menor do que seqüências de DNA, uma vez que estas não mostram substituições não codantes e 
Guilherme
Highlight
Guilherme
Highlight
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 42 
 
sinônimas. No entanto, substituições nos aminoácidos podem mostrar mais explicitamente uma 
pressão funcional. Por exemplo, podemos observar aminoácidos que são cruciais para a função das 
proteínas e/ou estrutura como sendo invariantes (isto é, o mesmo resíduo no mesmo local nesta 
proteína em todos as linhagens) ou conservativos (isto é, o resíduo no mesmo local nesta proteína 
em todas as linhagens pode alterar, mas apenas para um outro aminoácido de tamanho ou química 
similares). A tendência para a substituição em uma dada posição do resíduo varia apreciavelmente. 
 A estrutura tridimensional de proteínas, quando determinadas por cristalografia de raio-X, 
também pode ser usada para estudar a evolução. Isto pode ser feito por comparação de duas 
estruturas 3D via superposição, onde uma estrutura é traduzida e girada de forma relativa à outra até 
que a soma das distâncias entre os átomos equivalentes seja minimizada, e então a diferença é 
quantificada como raiz quadrada da média (rms, root mean square) da distância entre átomos 
equivalentes. Uma vez que as seqüências alinham a uma significância estatística, então as estruturas 
3D irão sempre superposicionar a uma significância estatística. Se a estrutura 3D de uma proteína é 
desconhecida, mas sua seqüência alinha significativamente com a seqüência de uma proteína que 
possui estrutura 3D conhecida, por exemplo, por cristalografia de raio-X, esta estratégia de análise 
funciona bem. Dessa forma, a estrutura 3D desconhecida pode mostra-se similar aquela já 
conhecida. A superposição significativa de estruturas 3D é, muitas vezes, possível onde o 
alinhamento significativo de seqüências não pode mais ser detectado, isto é, uma estrutura 3D de 
proteína muda menos ao longo do tempo do que sua seqüência. Portanto, as mudanças que podem 
ser acumuladas na estrutura de uma proteína, no decorrer do tempo, podem ser vistas na seguinte 
escala: 
SEQÜÊNCIA CODANTE DA PROTEÍNA (DNA) SEQÜÊNCIA DA PROTEÍNA (AA) ESTRUTURA 
TRIDIMENSIONAL DA PROTEÍNA 
 
 O conhecimento das estruturas tridimensionais das proteínas ajuda consideravelmente a 
revelar eventos que diferem proteínas homologas, tais como aqueles causados por inserções e 
deleções de resíduos únicos ou de trechos de resíduos, que afetam não apenas as cadeias laterais, 
mas também as cadeias principais e dificultam comparações de seqüências de proteínas 
distantemente relacionadas. Em geral, estudos das estruturas 3D de proteínas têm revelado que os 
resíduos internos variam lentamente, enquanto que as diferenças entre proteínas homólogas 
(alterações de aminoácidos ou deleções e inserções de laços na cadeia) acumulam na superfície. 
A Comparação de seqüências de proteínas é a mais ferramenta para a caracterização de 
seqüências por causa da enorme quantidade de informação que está preservada através de 
processos evolucionários. Proteínas que compartilham um ancestral comum são chamadas 
homólogas. A identificação de proteínas homólogas se faz a partir de uma busca por similaridade de 
seqüências em bancos de dados comparação de seqüências de proteínas é mais informativa quando 
ela detecta proteínas homólogas entre elas. Proteínas homólogas compartilham algumas 
características, tais como o folding (empacotamento) da estrutura tri-dimensional, sítios ativos 
comuns ou domínios de ligação, podendo ou não compartilhar ainda funções comuns. Como já 
discutimos antes, seqüências homólogas podem ser divididas em ortólogas, aquelas que diferem por 
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 43 
 
causa da especiação e, portanto são encontradas em espécies diferentes, e parálogas, aquelas que 
diferem por causa de um evento de duplicação. Em geral, árvores de organismos e árvores de 
seqüências não casam se as seqüências forem parálogas. 
 
 
Um pouco de terminologia 
 Atualmente, denomina-se dendrograma, qualquer diagrama ramificado (do tipo árvore) que 
conecta elementos. Sob o termo de filogenia, abrigam-se diferentes conceitos próximos, mas não 
idênticos. A cladograma denomina-se um dendrograma que expressa relações filogenéticas apenas 
entre táxons terminais (espécies ou supra-específicos). Num cladograma nunca inclui indicação de 
que uma dada espécie é ancestral de outra, mas apenas que um grupo espécies deve ter tido uma 
espécie ancestral comum exclusiva desse grupo. Já uma árvore filogenética, no sentido da 
sistemática filogenética, é um dedrograma que expressa relaçõesfilogenéticas tanto entre táxons 
terminais, quanto entre espécies ancestrais e espécies descendentes. Árvores filogenéticas podem 
ser enraizadas ou não enraizadas, podem ser árvores de genes ou árvores de espécies (população). 
Cada grupo na árvore filogenética é chamado táxon. Uma árvore filogenética possui dois elementos: 
nó e ramo (galho). Um ramo é uma linha que conecta dois nós. Os nós podem ser externos, os quais 
são as pontas da árvore que o taxa está sendo considerado, ou nós internos, os quais são pontos 
que representam um ancestral comum de dois ou mais outros nós. 
Até alguns 25 anos atrás, as relações históricas de grupos de organismos eram baseadas 
basicamente em dados de caracteres morfológicos de um taxa e o fóssil salvo. Com o advento do 
seqüenciamento molecular, uma extensão quase inacreditável de uma série de novos dados entrou 
para a história. Pesquisadores da área de Sistemática estão normalmente interessados nas relações 
do taxa (muitas vezes espécie), e não estão muito interessados nas relações acerca dos dados. Por 
outro lado, Biólogos moleculares têm pouco interesse nas relações dos taxa per se, mas ao invés 
disso, eles estão interessados nos dados das seqüências. 
 
 
Construção de árvores filogenéticas a partir de seqüências 
Seqüências de genes conservados que codificam proteínas essenciais para a sobrevivência 
dos seres vivos, como as histonas que formam o nucleossoma e a β-tubulina que juntamente com a 
α-tubulina formam os microtúbulos, essenciais para a divisão celular, são exemplos de regiões de alto 
valor filogenético (Isenberg, 1979; Steenkamp et al., 1999; Buchanan et al., 2000; O’Donnell et al., 
1998; 2000). 
Outros genes, como o do DNA ribossomal e mitocondrial também possuem valor filogenético, 
embora as regiões ITS (internal transcribed spacer), apesar de homólogas, sejam comprovadamente 
xenólogas (originaram-se por hibridização interespecífica) ou parálogas (originaram-se por duplicação 
gênica) em besouros (Vogler & DeSalle, 1994), nematóides (Zijlstra et al., 1995), plantas (Wendel et 
al., 1995) e fungos (O’Donnell & Cigelnik, 1997). Neste caso, dando resultados ambíguos na análise 
filogenética. 
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 44 
 
Mutações nestas regiões resultariam na extinção daquele indivíduo da população, pois este 
morreria sem deixar descendentes. Deste modo, as mutações ocorridas não podem alterar a 
funcionalidade de uma proteína essencial para a sobrevivência. Uma vez que a mutação tenha 
ocorrido sem causar prejuízo aos indivíduos de determinada população esta é transferida para os 
descendentes daquela espécie. Assim, torna-se possível saber as relações de parentesco e 
ancestralidade entre as espécies que compartilham ou não estas mutações. 
Vários modelos matemáticos foram criados para descrever estas relações através de 
topologias de árvores, chamadas de relações filogenéticas. Basicamente, os métodos de construção 
de árvores filogenéticas estão divididos em métodos de distância e métodos de caracteres. 
 
Métodos baseados em distância 
Dentre os métodos de distância, os mais conhecidos e utilizados são: Unweighted Pair 
Grouping by Mathematical Averages (UPGMA) e o método de Neigbor Joining ou Agrupamento de 
Vizinhos (NJ). O método UPGMA baseia-se, fundamentalmente, na determinação da similaridade 
entre os indivíduos comparados, onde os dois indivíduos de um grupo que apresentam maior 
similaridade são agrupados formando os dois primeiros ramos da árvore. Em seguida, estes são 
comparados novamente com os outros indivíduos, e aquele que apresentar novamente maior 
similaridade, desta vez com o grupo inicial, é então adicionado como o próximo ramo da árvore. Este 
procedimento é realizado múltiplas vezes até que o último indivíduo, o mais distante dentre eles, é 
adicionado à arvore. Já o método NJ baseia-se no princípio da evolução mínima onde para dois 
indivíduos serem considerados próximos é preciso que haja ocorrido o menor número de mudanças 
entre eles. Portanto, os vizinhos são agrupados de modo a minimizar o comprimento total da árvore. 
 
Métodos baseados em caracteres 
Dentre os métodos de construção de árvores filogenéticas baseadas em caracteres, os mais 
utilizados são: Máxima Parcimônia, Máxima Verossimilhança, e Análise Baeysiana. 
 
Máxima Parcimônia 
Neste método, a árvore mais parcimoniosa é aquela que necessitou para sua construção o 
menor número de mudanças (o comprimento da árvore é minimizado). Como resultado, podem ser 
geradas 1 ou mais árvores para avaliação daquela que melhor reflete a filogenia do grupo. O número 
de árvores geradas na análise bem como os índices de homoplasia, de retenção e comprimento da 
árvore devem ser mencionados na publicação. 
 
Máxima Verossimilhança 
Procura por uma árvore que maximize a verossimilhança dos dados de acordo com um 
modelo evolucionário. Neste método, diferentemente da parcimônia, todos os sítios são 
considerados. 
 
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 45 
 
Análise Bayesiana 
Semelhante a máxima verossimilhança, mas difere por calcular as probabilidades após se 
conhecer algo sobre os dados e não por modelos pré-estabelecidos. 
 
Construindo árvores filogenéticas 
Discutiremos aqui a construção de árvores filogenéticas pelos métodos UPGMA, NJ e 
Máxima Parcimônia utilizando o programa Phylogenetics Analysis Using Parsimony (PAUP®; 
Swofford, 2000). 
 Para exemplificar os procedimentos de construção da filogenia de um grupo de indivíduos 
utilizaremos um estudo de caso de um grupo de espécies de fungos, o complexo Gibberella fujikuroi, 
de grande importância para a agricultura por causar doenças em importantes commodities como o 
milho, sorgo, arroz, dentre outras. Estes são também produtores de micotoxinas que são 
responsáveis pela indução de câncer. Neste exemplo, pode-se observar uma situação ideal na 
sistemática, pois há uma perfeita correspondência entre os conceitos de espécie biológica (Leslie, 
1995; O’Donnell et al., 1998; 2000; Leslie et al., 2001) e o conceito de espécies filogenéticas baseado 
em genealogia de genes, Figuras 2 e 3 (Taylor, 2000). 
 
Um cuidado que deve ser tomado é o de que todas as seqüências no alinhamento tenham 
exatamente o mesmo tamanho, considerando-se os gaps. O programa PAUP considera a primeira 
seqüência como sendo o outgroup (indivíduo de uma espécie próxima ao grupo de espécies ou de 
indivíduos de uma população em estudo). 
Partiremos do princípio de que o alinhamento das seqüências já foi realizado previamente 
como mostrado em capítulos anteriores e que o sinal filogenético do gene já foi testado previamente. 
Já os modelos de substituição nucleotídica (Jukes & Cantor, Kimura, Tamura, entre outros) são 
utilizados para corrigir alguma transição ou transversão nucleotídica, ou mutações sobrepostas que 
possam interferir no resultado da análise (normalmente esta análise é feita no primeiro estudo a 
utilizar determinado gene para determinar as relações filogenéticas de um grupo de indivíduos). 
Outro cuidado é o de incluir pelo menos dois genes e, numa situação ideal, dezenas deles, 
para que a árvore filogenética reflita realmente a filogenia do grupo de indivíduos em estudo “árvore 
filogenética” e não a filogenia de um determinado gene “árvore de gene”. Outra consideração 
importante é a de procurar correlacionar dados da biologia, ecologia, morfologia, relações com 
hospedeiros (no caso de parasitas) e geografia para dar o embasamento à árvore filogenética. 
A interface do programa PAUP® é semelhante à do programa SAS® (Statistic AnalysisSystem) que utiliza blocos de comandos. Abaixo está um exemplo de arquivo do PAUP®, um 
alinhamento de seqüências nucleotídicas de espécies biológicas de Gibberella (Figura 1). O formato 
de arquivo utilizado é o NEXUS. 
O alinhamento pode ser transformado diretamente em arquivo do PAUP®, utilizando o 
programa BioEdit® (Hall, 1999). Para tal, vá para a barra de menus e selecione a opção File > Export 
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 46 
 
> Sequence Alignment. Em seguida, selecione PAUP/NEXUS como tipo de arquivo. Renomeie e 
salve. O arquivo será salvo como a seguir (Figura 1). 
 
Exemplo de arquivo do PAUP: 
 
 
 
Figura 1. Exemplo de arquivo nexus do PAUP®. 
 
Abra este arquivo selecionando na barra de menus do PAUP® as opções file > open. Aparecerá uma 
janela > selecione o arquivo > na barra inferior da janela marque a opção “execute”. Se não houver 
nenhum erro no arquivo este será executado, e na tela de “output” aparecerá a seguinte mensagem: 
 
----------------------------------------------------------------------------------------------------------- 
Processing of file "E:\Curso Bioinform?tica\EF1aMPS_paup_Exemple.nex" begins... 
 
Data read in DNA format 
 
Data matrix has 9 taxa, 706 characters 
Valid character-state symbols: ACGT 
Missing data identified by '?' 
Gaps identified by '-' 
"Equate" macros in effect: 
 R,r ==> {AG} 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 47 
 
 Y,y ==> {CT} 
 M,m ==> {AC} 
 K,k ==> {GT} 
 S,s ==> {CG} 
 W,w ==> {AT} 
 H,h ==> {ACT} 
 B,b ==> {CGT} 
 V,v ==> {ACG} 
 D,d ==> {AGT} 
 N,n ==> {ACGT} 
 
Processing of file "E:\Curso Bioinform?tica\EF1aMPS_paup_Exemple.nex" completed. 
------------------------------------------------------------------------------------------------------------ 
 
Caso o arquivo contenha algum erro, será aberta uma janela de edição para que seja 
corrigido o erro no arquivo antes de se prosseguir. 
Agora que o arquivo foi processado, as análises filogenéticas poderão ser realizadas 
utilizando a barra de comandos do PAUP® que fica na parte inferior da janela, ou utilizando blocos de 
comando do PAUP® anexados no final do arquivo. 
Para as análises de UPGMA e de NJ não são necessários muitos comandos, pois estas não 
possuem muitas opções que podem ser alteradas. No caso especifico da análise de NJ pode-se 
calcular o modelo de substituição nucleotídica mais adequado para o conjunto de dados em estudo 
pelo uso do programa MODELTEST® (Posada & Crandall, 1998) o qual fornece as opções que devem 
ser adicionadas no bloco de comandos. 
A seguir são mostrados comandos básicos do programa PAUP® para a construção de árvores 
filogenéticas utilizando os métodos de distância (UPGMA e NJ) e de caracteres (Máxima Parcimônia). 
 
1 Métodos de distância 
 
Análise UPGMA 
Para se fazer a análise UPGMA, basta digitar na barra de comandos do PAUP a palavra: 
UPGMA. Em seguida, pressionar enter ou selecionar “execute”. 
Para salvar a árvore gerada, digitar na barra de comandos o seguinte: 
Savetree file=nome do arquivo.tre brlens=yes; 
Pressionar “enter” 
A árvore será salva como arquivo do programa TreeView® (Page, 1996). 
Para se fazer a análise de bootstrap, digitar na barra de commandos: 
Set criterion=distance; 
Pressionar “enter” 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 48 
 
bootstrap search=upgma nreps=1000 grpfreq=no; 
Pressionar “enter” 
Geralmente, a árvore de bootstrap não é mostrada nas publicações, mas apenas os valores 
de bootstrap adicionados à árvore UPGMA. 
 
Análise NJ 
Para se fazer a análise NJ, basta apenas digitar na barra de comandos do PAUP a palavra 
“NJ”. Em seguida, pressionar “enter” ou selecionar “execute”. 
Para salvar a árvore gerada, digitar na barra de comandos o seguinte: 
Savetree file=nome do arquivo.tre brlens=yes; 
Pressionar “enter” 
A árvore será salva como arquivo do programa TreeView®. 
Para se fazer a análise de Bootstrap, digitar na barra de commandos: 
Set criterion=distance; 
Pressionar “enter” 
bootstrap search=nj nreps=1000 grpfreq=no; 
Pressionar “enter” 
 
No caso dos blocos de comandos, estes são adicionados no final do arquivo NEXUS ou em 
arquivo separado. Ao executar o arquivo a análise é realizada concomitantemente. 
Quando os dados requerem a utilização de um modelo de substituição nucleotídica na análise 
NJ, então se deve utilizar o programa MODELTEST® para estimar os parâmetros a serem 
adicionados ao bloco de comandos, como no exemplo abaixo: 
 
#Nexus [indica que o arquivo será salvo no PAUP no formato NEXUS e será executado 
separadamente. Se o bloco de comandos for adicionado no final do alinhamento, excluir “#Nexus”] 
Begin PAUP; 
execute nome do arquivo.nex; 
Pset gap mode=newstate; [configura gap como quinto caractere] 
Set autoclose=yes criterion=distance; [configura método dos quadrados mínimos] 
Lset Base=equal Nst=2 Tratio=3.1585 Rates=gamma Shape=1.0980 Pinvar=0; [exemplo 
hipotético de dados fornecidos pelo programa MODELTEST®] 
Dset distance=ML; 
nj; [comando para que a análise seja pelo método de agrupamento de vizinhos] 
Savedist diagonal=no format=nexus ndecimals=3 triangle=lower file=nome do arquivo.nex 
replace=yes; 
Savetrees file=nome do arquivo.tre format=altnexus brlens=yes replace=yes; 
end; 
 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 49 
 
2 Métodos de caracteres 
Abaixo está o bloco de comandos para se realizar a análise de Máxima Parcimônia e em 
seguida a análise de Bootstrap. 
 
Análise de Máxima Parcimônia 
Bloco de comandos para a análise de Máxima Parcimônia com as opções selecionadas de 
acordo com a literatura para este exemplo específico (Steenkamp et al., 1999). 
 
Begin PAUP; [início do bloco de commandos] 
Set autoclose=yes; 
Set criterion=parsimony; [aqui o critério escolhido para a análise, foi o de parcimônia] 
Pset gapmode=newstate; [nesta opção o gap é considerado como um quinto caractere na análise] 
hsearch swap=TBR Multrees=yes; 
Pscores/ CI=yes RI=yes HI=yes RC=yes; [com estas opções, serão mostrados no output os índice 
de consistência (CI), índice de retenção (RI), índice de homoplasia (HI) e índice de consistência 
rescalonado] 
Root rootmethod=outgroup outroot=monophyl; 
Savetrees format=altnexus brlens=yes file=MPS_GFC_HIST_Mp.tre Replace=yes; [aqui é 
escolhido o nome do arquivo da árvore gerada “file= MPS_GFC_HIST_Mp.tre” 
end; [fim do bloco de comandos] 
 
Análise de suporte da topologia da árvore filogenética (Bootstrap) 
A análise de bootstrap é um método estatístico utilizado para avaliar a topologia de árvores 
filogenéticas. Os valores de bootstrap variam de 0 a 100, porém o PAUP só mostra valores iguais ou 
superiores a 50. Quando a topologia da árvore é bem suportada, os valores de bootstrap são 
superiores a 95. Na análise de bootstrap é gerada a árvore consenso, cuja ramificação é definida pelo 
suporte dado na análise (Figura 2). Porém, na maioria das publicações é apresentada a árvore de 
máxima parcimônia com os valores de bootstrap transferidos para a mesma. Abaixo, é apresentado o 
bloco de comandos da análise de bootstrap para ser inserido no arquivo Nexus do Paup, após o 
bloco de comandos da análise de parcimônia. Os procedimentos para a análise de bootstrap para os 
métodos de UPGMA e NJ foram descritos acima. 
 
Bloco de comandos para análise de bootstrap utilizando como critério a parcimônia. 
 
Begin PAUP; 
Set autoclose=yes 
criterion=parsimony maxtrees=1000 increase=auto; 
Pset gapmode=newstate; 
hsearch swap=TBR Multrees=yes; 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG /GEN 50 
 
Bootstrap Nreps=1000; [número de repetições na análise, 1000 é o recomendado] 
Pscores/ CI=yes RI=yes HI=yes RC=yes; 
Root rootmethod=outgroup outroot=monophyl; 
Savetrees SaveBootP=both from=1 to=1000 MaxDecimals=0 
file=MPS_GFC_HIST_Boot.tre replace=yes; [aqui é escolhido o nome do arquivo da árvore gerada 
“file= MPS_GFC_HIST_Boot.tre”] 
end; 
 
 
ANEXOS 
Exemplos práticos 
 
Figura 2 
Árvore consenso gerada na análise de bootstrap com os valores indicados nos nós. Neste caso 
utilizou-se o critério de parcimônia para a análise de seqüências nucleotídicas combinadas de 
fragmentos dos genes que codificam o fator de elongação 1α e a histona H3. Esta descreve as 
relações filogenéticas entre espécies biológicas de fungos do complexo Gibberella fujikuroi. 
 
Figura 3 
Relações filogenéticas entre espécies biológicas de fungos do complexo Gibberella fujikuroi inferidas 
a partir de seqüências nucleotídicas combinadas de fragmentos dos genes que codificam o fator de 
elongação 1α e a histona H3, utilizando-se os métodos UPGMA, Agrupamento de Vizinhos (NJ) e 
Máxima Parcimônia. Note que a árvore gerada pelo método NJ é praticamente idêntica àquela de 
máxima parcimônia, enquanto que a árvore de UPGMA possui uma topologia diferente. O método de 
máxima parcimônia é o mais utilizado na literatura para a construção de árvores filogenéticas. 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 51 
 
PAUP_1
10
FnygMPG
FthaMPF
51
FverMPA
61
FproMPD
FfujMPC
100
FsacMPB
91
FsubMPE
FcirMPH
100
100
Foxy
0
 
 
Figura 2. Árvore consenso gerada na análise de bootstrap, critério parcimônia, mostrando as 
relações filogenéticas entre espécies biológicas de Gibberella fujikuroi inferidas utilizando-
se seqüências nucleotídicas combinadas de fragmentos dos genes que codificam o fator 
de elongação 1α e a histona H3. Os valores de bootstrap são indicados nos nós. Foxy = 
Fusarium oxysporum (outgroup); FverMPA = Gibberella moniliformis / Fusarium 
verticillioides mating population A; FsacMPB = Gibberella sacchari / Fusarium sacchari 
mating population B; FfujMPC = Gibberella fujikuroi / Fusarium fujikuroi mating population 
C; FproMPD = Gibberella intermedia / Fusarium proliferatum mating population D; 
FsubMPE = Gibberella subglutinans / Fusarium subglutinans mating population E; 
FthaMPF = Gibberella thapsina / Fusarium thapsinum mating poupulation F; FnygMPG = 
Gibberella nygamai / Fusarium nygamai mating population G; e FcirMPH = Gibberella 
circinata / Fusarium circinatum mating population H. 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 52 
 
 
PAUP_1
FsubMPE
FcirMPH
FnygMPG
FthaMPF
FverMPA
FproMPD
FfujMPC
Foxy
FsacMPB
PAUP_1
10
FnygMPG
FthaMPF
FverMPA
FsubMPE
FcirMPH
FproMPD
FfujMPC
FsacMPB
Foxy
PAUP_1
10
FnygMPG
FthaMPF
FverMPA
FsubMPE
FcirMPH
FproMPD
FfujMPC
FsacMPB
Foxy
 
Figura 3. Relações filogenéticas entre espécies biológicas de Gibberella fujikuroi inferidas utilizando-se seqüências nucleotídicas combinadas de fragmentos 
dos genes que codificam o fator de elongação 1α e a histona H3: A. método UPGMA; B. método de Agrupamento de Vizinhos (NJ); e C. método 
de Máxima Parcimônia. Foxy = Fusarium oxysporum (outgroup); FverMPA = Gibberella moniliformis / Fusarium verticillioides mating population A; 
FsacMPB = Gibberella sacchari / Fusarium sacchari mating population B; FfujMPC = Gibberella fujikuroi / Fusarium fujikuroi mating population C; 
FproMPD = Gibberella intermedia / Fusarium proliferatum mating population D; FsubMPE = Gibberella subglutinans / Fusarium subglutinans 
mating population E; FthaMPF = Gibberella thapsina / Fusarium thapsinum mating poupulation F; FnygMPG = Gibberella nygamai / Fusarium 
nygamai mating population G; e FcirMPH = Gibberella circinata / Fusarium circinatum mating population H. 
A B C
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 53 
 
Bibliografia citada 
 
AMORIM D S. Fundamentos de Sistemática Filogenética. Holos, 2002. 156p. 
BUCHANAN, B; GRUISSEM, W; JONES, RL. 2000. Biochemistry & Molecular Biology of Plants. 
Rockville: American Society of Plant Biologists. 1367p. 
HALL, TA. 1999. BioEdit: a user-friendly biological sequence alignment editor and analysis program for 
Windows 95/98/Me/XP/NT. Nucleic Acids Symposium Series. 41:95-98. 
ISENBERG, I. 1979. Histones. Annu. Rev. Biochem. 48:159-191. 
KOONIN, E V & GALPERIN, Y M. Sequence – evolution – function: computational approaches in 
comparative genomics. Kluwer Academic Publishers. Norwell, Massachusetts, USA. 2002. 
LESLIE, JF. 1995. Gibberella fujikuroi: available populations and variable traits. Can. J. Bot. 73:S282-
S291. 
LESLIE, JF; ZELLER, KA; SUMMERELL, BA. 2001. Icebergs and species in populations of Fusarium. 
Physiological and Molecular Plant Pathology. 59:107-117. 
O’DONNELL, K; CIGELNIK, E. 1997. Two divergent intragenomic rDNA ITS2 types within a monophyletic 
lineage of the fungus Fusarium are nonorthologous. Molec. Phylogenetics Evol. 7:103-116. 
O’DONNELL, K; CIGELNIK, E; NIRENBERG, HI. 1998. Molecular systematics and phylogeography of the 
Gibberella fujikuroi species complex. Mycologia. 90(3):465-493. 
O’DONNELL, K; NIRENBERG, HI.; AOKI, T; CIGELNIK, E. 2000. A multigene phylogeny of the Gibberella 
fujikuroi species complex: detection of additional phylogenetically distinct species. Mycoscience. 
41:61-78. 
PAGE, RDM. 1996. TREEVIEW: An application to display phylogenetic trees on personal computers. 
Computer Applications in the Biosciences. 12:357-358. 
POSADA, D; CRANDALL, KA. 1998. MODELTEST: testing the model of DNA substitution. Bioinformatics. 
14:817-818. 
STEENKAMP, ET; WINGFIELD, BD; COUTINHO, TA; WINGFIELD, MJ; MARASAS, WFO. 1999. 
Differentiation of Fusarium subglutinans f. sp. pini by histone gene sequence data. Appl. Environ. 
Microbiol. 65(8):3401-3406. 
SWOFFORD, DL. 2000. PAUP*: Phylogenetic Analysis Using Parsimony (*and Other Methods). Sinauer 
Associates, Sunderland, MA. 
TAYLOR, JW; JACOBSON, DJ; KROKEN, S; KASUGA, T; GEISER, DM; HIBBETT, DS; FISHER, MC. 
2000. Phylogenetic species recognition and species concepts in fungi. Fungal Genetics and Biology. 
31:21-32. 
VOGLER, AP; DESALLE, R. 1994. Evolution and phylogenetic information content of the ITS-1 region in 
the tiger beetle Cicindela dorsalis. Molec. Biol. Evol. 11:393-405. 
WENDEL, JF; SCHNABEL, A; SEELANAN, T. 1995. An unusual ribosomal DNA sequence from 
Gossypium gossypioides reveals ancient, cryptic, intergenomic introgression. Molec. Phylogenetics 
Evol. 4:298-313. 
 
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 54 
 
ZIJLSTRA, C; LEVER, AEM; UENK, BJ; VAN SILFHOUT, CH. 1995. Differences between ITS regions of 
isolates of root-knot nematodes Meloidogyne hapla and M. chitwoodi. Phytopathology. 85:1231-1237. 
 
Bibliografia recomendada 
HALL, B. 2004. Phylogenetic trees made easy: a how-to manual, Second Edition. Sunderland: Sinauer 
Associates. 221p. 
HILLS, DM; MORITZ, C; MABLE, BK. 1996. Molecular systematics, Second Edition. Sunderland: Sinauer 
Associates. 655p. 
NEI, M.; KUMAR, S. 2000. Molecular evolution and phylogenetics. New York: Oxford University Press. 
333p. 
SCHNEIDER, H. 2003. Métodos de análise filogenética: um guia prático. Ribeirão Preto: Holos, Editora e 
Sociedade Brasileira de Genética. 114p. 
Onde obter os programas computacionais citados 
 
BioEdit 
http://www.mbio.ncsu.edu/BioEdit/bioedit.html 
 
MODELTEST 
http://www.zoology.byu.edu/crandall_lab/modeltest.htm 
 
PAUP 
http://paup.csit.fsu.edu/ 
 
TreeView 
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html 
 
Obs.: Existem outros programas não discutidos que podem ser utilizados na construção e edição de 
árvores filogenéticas. O fato dos outros programas não terem sidocitados não significa a 
desaprovação dos mesmos pelo autor.

Mais conteúdos dessa disciplina