Prévia do material em texto
BIOINFORMÁTICA:
DO SEQÜENCIAMENTO A FUNÇÃO BIOLÓGICA
Magnólia de Araújo Campos
Ricardo Martins A. Silva
Luciano Vilela Paiva
Antonio Chalfun Junior
Cristiano Silva Lima
Lavras - 2006
APOSTILA
DE CURSO
_______________________________________
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 2
ÍNDICE
PERÍODO: de 24 a 28 de abril de 2006
HORÁRIO: 18:30 h às 21:00h
LOCAL: Laboratório de Computação, PRG, UFLA, Lavras - MG
PROMOÇÃO: GEN (Núcleo de Estudos em Genética); genética@ufla.br ; Fone: 3829.1183
Programação
Segunda-feira:
Teórica: O seqüenciamento de DNA
Prof. Luciano V. Paiva, DQI, UFLA
Prática: Leitura do Eletroferograma, depósito de seqüências e comparação no BLAST
Terça-feira:
Teórica: Bancos de dados: arquitetura e utilização
Prof. Ricardo Martins A. Silva, DCC, UFLA
Prática: Busca de seqüências de DNA e de proteínas em diferentes bancos de dados
Quarta-feira:
Teórica: Caracterização estrutural de genes e de proteínas
Dra. Magnólia A. Campos, PRODOC-CAPES, PG-Genética, UFLA
Prática: Identificação de regiões em genes e em proteínas
Quinta-feira:
Teórica: Alinhamentos de seqüências DNA e de proteínas e desenho de primers
Dr. Antonio Chalfun Junior, RD-FAPEMIG, LCBM, UFLA
Prática: Identificação de regiões conservadas e desenho de primers
Sexta-feira:
Teórica: Inferências evolucionárias / geográficas a partir da diversidade de
seqüências
Dra. Magnólia A. Campos, PRODOC-CAPES, Genética, UFLA
Dr. Cristiano S. Lima, RD-CNPq/ DFP, UFLA
Prática: Análises filogenéticas utilizando seqüências de DNA e de proteínas
Avaliação do Aprendizado
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 3
Apresentação
Prezados estudantes, a utilização de computadores para a realização de tarefas em biologia
tem sido denominada de Bioinformática, uma área da Biologia Computacional. Empregando-se a
matemática, estatística, a informática e a ciência da computação, a biologia tem sido estudada e
entendida, principalmente no aspecto de moléculas. A importância da Biologia Computacional está
em extrair a informação biológica contida na seqüência de DNA, vulgarmente conhecida como “sopa
de letrinhas”. Utilizando a Bioinformática é possível comparar as seqüências desconhecidas em
bancos de dados genômicos, bem como traduzir esses DNAs em seqüências de aminoácidos e
especular uma função para a proteína codificada, as vezes até sua localização celular, e até mesmo
a via metabólica que ela participa.
Como um ponta pé inicial, este curso surge com o objetivo de explicar, em termos gerais,
como biólogos e agrônomos utilizam programas de computadores para analisar seqüências de DNA e
de proteínas para inferir uma função biológica e evolucionária. Esperamos que o curso dê uma
direção para o leigo, através da introdução dos principais conceitos relacionados à biologia molecular
e a computação, softwares e sites mais usados. Este curso não pretende, no entanto, dá uma
formação completa de cada tema a ser abordado, mas sim ampliar a visão e despertar no estudante
o interesse pela Bioinformática, através de suas aplicações e possíveis utilidades em seus trabalhos
de pesquisa.
Os softwares discutidos no curso estão disponíveis na web e serão dadas indicações de
como obtê-los. A parte teórica será seguida pelo manuseio, a parte prática, onde cada estudante terá
a oportunidade de “surfar” na Internet e explorar as seqüências disponíveis em bancos de dados e as
ferramentas de análise de seqüência.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 4
O SEQÜENCIAMENTO DE DNA
Luciano Vilela Paiva
O seqüenciamento rápido de ácidos nucléicos teve início no meados da década de 70 quando
se empregada químicos para promover quebras nas cadeias e materiais radioativos para visualizar as
quantidades pequenas de DNA produzidas. Este tipo de seqüenciamento manual ainda é utilizado,
embora seja laborioso e perigoso para o operador. Avanço expressivo na área foi atingido com a
técnica dideoxi, onde se emprega um nucleotídeo (dNTP) modificado, normalmente marcado com
uma fluorescência, para interromper de forma aleatória a seqüência. A interrupção na polimerização
da cadeia é realizada em função da ausência de uma hidroxila no terminal 3´ destes nucleotídeos.
Uma vez incorporado em uma fita de DNA, este nucleotídeo interrompe a incorporação de outros a
partir dele. A fita é identificada facilmente devido à fluorescência presente no dideoxi. Para separar
os diferentes nucleotídeos, cada base emite uma cor diferente quando excitada com luz de um feixe
laser de um determinado comprimento.
Obtenção do DNA para seqüenciamento:
Na era dos projetos genômicos, o DNA genômico total é fragmentado e cada fragmento é
clonado em vetores e, posteriormente, introduzido em uma célula hospedeira (usualmente, a bactéria
Escherichia coli). Cada colônia de bactéria, potencialmente conduzindo um fragmento diferente de
DNA representa um clone. Após recuperação do DNA vetor em grande quantidade, é possível
seqüenciar o fragmento de DNA inserido usando primers específicos para a borda do vetor.
Estas mesmas etapas de clonagem, transformação e recuperação do vetor para
seqüenciamento, também são utilizadas quando se deseja clonar fragmentos de DNA obtidos
diretamente por PCR (reação em cadeia da polimerase) ou cDNA (DNA complementar a molécula de
RNAm), obtida em projetos genomas funcional baseado na reação do tipo RT-PCR (reverse
transcriptase-PCR) pela utilização da enzima transcriptase reversa. Assim, clones de cDNA são
obtidos e as seqüências são comumente chamadas de ESTs (expressed sequence tags). No caso de
produtos de PCR, a purificação pode ser feita diretamente da reação de PCR pela utilização de kits
disponíveis no mercado. No entanto, o produto de PCR pode ser isolado a partir de um gel de
agarose, após eletroforese dos mesmos. No caso de DNA clonado, os protocolos de purificação são
chamados Miniprep ou minipreparação de DNA plasmidial.
Guilherme
Highlight
Guilherme
Highlight
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 5
Critérios para um bom seqüenciamento
O DNA pode ser seqüenciado, quer venham clonados em plasmídios vetores ou apenas
isoladamente, a partir de grandes quantidades de fragmentos de DNA, amplificados por PCR. O ideal
é obter uma seqüência de bom tamanho, cerca de 500 a 800 pb, e com qualidade confiável, ou seja,
sem a inserção da letra N (que representa qualquer uma das bases nitrogenadas). Para tanto, dois
fatores são cruciais para a obtenção de uma boa seqüência, são a quantidade e a pureza do DNA.
A reação de sequenciamento é bastante semelhante a uma reação da PCR, com duas
diferenças básicas, a presença dos dideoxi marcados e da necessidade de apenas um primer. Para
tal, são necessários o DNA molde, DNA polimerase, dNTPs normais e um pouco de ddNTPs
fluorescentes e um primer único. Neste caso, as fitas são estendidas sempre a partir da mesma base
e são interrompidas aleatoriamente a medida que um dos dideoxi é inserido. Outra diferença
importante é a necessidade de uma quantidade maior de DNA molde (200 a 400ng) para a reação de
seqüenciamento.
Os fragmentos gerados podem ser separados em eletroforese de poliacrilamida ou dentro dos
capilares dos seqüenciadores automáticos preenchidos com polímeros. Nestes seqüenciadores as
bandas são identificadas através da excitação da fluorescência dos dideoxi marcados, por um feixe
de laser localizado na parte inferior do equipamento. A passagem das bandas é registrada por
câmeras sensoras e logo em seguida o sinal é transformado em um gráfico conhecido como
eletroferograma. As bandas são representadas por picos como no eletroferograma abaixo.A Bioinformática surgiu para solucionar problemas biológicos mediante a utilização de
técnicas aplicadas na matemática, informática, estatística e na ciência da computação. Recursos
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 6
computacionais são cada vez mais necessários para analisar a quantidade enorme de seqüências de
nucleotídeos disponíveis nos bancos de dados, provenientes dos diversos genomas seqüenciados e
daqueles projetos ainda em andamento. O primeiro organismo seqüenciado foi o Fago 0-X174 em
1977 e desde então, mais de 18 bilhões de seqüências já foram depositadas nos bancos de dados
eletrônicos. Com quantidade de informações disponíveis, fica impraticável uma análise manual das
seqüências. Neste caso, plataformas computacionais sofisticadas são necessárias para interpretar
este volume de dados. Os principais esforços nas plataformas incluem, o alinhamento de seqüências
de nucleotídeos, a identificação de genes, alinhamento da estrutura de proteínas, predição da
estrutura protéica, predição da expressão gênica bem como interações proteína-proteína. A
comparação de genes dentro da mesma espécie e entre espécies diferentes pode mostrar
semelhanças entre proteínas ou relações entre espécies, utilizando uma sistemática molecular para
construir uma árvore filogenética. Os programas computacionais podem identificar seqüências que
são relacionadas, mas não idênticas, mediante o alinhamento das seqüências.
Normalmente todo seqüenciador automático de DNA possui um programa que atribui valor
de qualidade para cada base gerada, conhecidos como base calling. Dentre os programas, o mais
conhecido é o PHRED que consegue analisar arquivos de cromatograma dos seqüenciadores ABI e
Megabace. A partir dos dados brutos gerados por estes seqüenciadores, o programa PHRED atribui
valores de qualidade para cada base. Esta qualidade é baseada na altura, largura e espaçamento
dos picos presentes no eletroferograma, e ausência de sobreposição de picos e ruídos. Os valores
gerados representam a probabilidade logarítmica negativa em escala de erro da leitura dos dados.
Quanto maior o valor de PHRED exigido para a seqüência espera-se uma menor probabilidade de ter
ocorrido um erro. Normalmente nos projetos genomas são exigidos valores de PHRED 20, ou seja,
cada seqüência nucleotídica terá uma chance em 100 de estar incorreta, ou 99% de certeza da base
está correta. Aumentando-se o valor para PHRED 30, exige-se uma chance de erro de no máximo 1
em 1000. Dependendo do resultado gerado e da confiança no seqüenciamento obtido, pode-se tomar
a decisão da necessidade de um novo re-seqüenciamento.
Uma vez obtidas regiões de nucleotídeos confiáveis, a primeira etapa é tentar encontrar
homologia desta seqüência. O alinhamento de seqüências procura identificar o grau de similaridade
entre duas ou mais seqüências, ou a similaridade entre regiões destas seqüências. Para isto, duas ou
mais seqüências são dispostas uma sobre a outra, de modo a obter uma correspondência entre cada
base.
tcctctgcctctgccatcat---caaccccaaagt
|||| ||| ||||| ||||| ||||||||||||
tcctgtgcatctgcaaccatgggcaaccccaaagt
No exemplo acima, as barras verticais indicam uma correspondência entre as bases
presentes nas duas seqüências, conhecidas como casamentos. Quando as bases são diferentes nas
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 7
duas seqüências chamamos a correspondência de substituições (destaque em negrito). Dado duas
seqüências, é possível alinhá-las de diversas formas. Os programas utilizam algoritmos que podem
inserir espaços objetivando uma melhor correspondência para completar posições faltantes entre as
seqüências. Neste caso, estes espaços são identificados com hífen. Dentre os diversos alinhamentos
possíveis, o escolhido será aquele que apresentar a maior similaridade entre as seqüências e, para
isto, se utiliza um sistema de pontuação para cada alinhamento. Diferentes alinhamentos terão
diferentes pontuações. Um dos sistemas utilizados é o de atribuir pontuações positivas (+1) para os
casos onde ocorre casamento, conhecidas como match (bases correspondentes são iguais), e
negativas (-1) para os casos onde não ocorre pareamento, conhecidas como mismatch (bases
correspondentes são diferentes). Para cada coluna em que há espaço, denominado como gap,
atribui-se também valor negativo (-2) ao alinhamento. A pontuação de cada alinhamento é dada pela
soma das pontuações nas respectivas colunas.
Os principais algoritmos que fazem alinhamento são o BLAST, ClustalW, Multialin e
FASTA, e todos podem ser utilizados diretamente on line, sem a necessidade de instalação. O
ClustalW e Multialin são mais utilizados para fazer o alinhamento global, onde as seqüências são
alinhadas como um todo. Este procedimento é importante quando se deseja observar regiões
conservadas entre seqüências homólogas. Para os alinhamentos locais, onde não importa a
localização da região da seqüência e sim o melhor alinhamento, o programa BLAST é o mais
utilizado. Independente da origem da seqüência de nucleotídeos ou aminoácidos, seja de uma PCR
ou de um projeto genoma, ela é geralmente comparada (blastada) com as seqüências presentes no
banco de dados do NCBI (National for Biotechnology Information dos EUA
(http://www.ncbi.nlm.nih.gov/). A seqüência que submetemos para consulta neste banco de dados é
chamada de query, e o resultado da execução do BLAST , que pode ser mais de uma seqüência do
banco de dados, é chamada de subject. O resultado que recebemos vem acompanhado de um score,
que é o nome dado a pontuação do alinhamento e da significância estatística desta pontuação. Com
base nessa primeira análise é possível visualizar onde inicia e termina a região da seqüência de DNA
recém-sequenciada e sua qualidade. Muitas bases do tipo “N” podem ser corrigidas conferindo a
leitura do eletroferograma ou cromatograma
O propósito dos programas que fazem alinhamento é encontrar homologia entre genes ou
entre proteínas presentes nos bancos de dados. Estas informações são importantes para responder
uma variedade de questões biológicas. Uma das mais importantes aplicações é o alinhamento de
seqüências com função e estrutura desconhecida. Outra importante utilização é o estudo da evolução
molecular.
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 8
BANCOS DE DADOS:
ARQUITETURA E UTILIZAÇÃO
Ricardo Martins Abreu Silva
1. Introdução: Qual a diferença entre Bioinformática e Biologia Computacional?
Definir as áreas de bioinformática e biologia computacional não é uma tarefa das mais fáceis
devido à profusão de conceitos existentes na literatura e na web, que ora se mostram similares, ora
contraditórios. Enquanto para alguns autores os termos bioinformática e biologia computacional são
sinônimos, para outros há uma grande distinção, o que implica que não há um consenso em torno da
definição destas áreas pela comunidade científica.
Dentre estas definições encontra-se a do NCBI (National Center for Biotechnology
Information), que nos parece simples, objetiva e esclarecedora e que numa tradução mais livre
poderia ser assim apresentada:
“Bioinformática é o campo da ciência em que biologia, ciência da computação e
tecnologia da informação convergem para formar esta nova disciplina. O objetivo fundamental
consiste em não apenas possibilitar a descoberta de novos insights biológicos, mas também
criar uma perspectiva global da biologia, através de seus princípiosbásicos”
(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html).
No início da “revolução genômica”, a atividade mais crucial da bioinformática encontrava-se
principalmente na criação e manutenção de bancos de dados para armazenar informação biológica,
tais como seqüência de nucleotídeos e aminoácidos. O desenvolvimento desse tipo de banco de
dados envolve não somente questões relativas ao projeto do próprio banco, mas também aspectos
relacionados às interfaces que auxiliarão a manipulação das informações.
Entretanto, ultimamente toda essa informação deve ser combinada para formar um quadro
geral da atividade celular em seu estado normal, a fim de que os pesquisadores possam estudar
como essas atividades são alteradas em diferentes estados de enfermidade. Desta maneira, a
bioinformática evoluiu de modo que atualmente sua atividade mais urgente envolve a análise e
interpretação de vários tipos de dados, incluindo seqüências de aminoácidos e nucleotídeos,
domínios e estruturas de proteínas. O atual processo de análise a interpretação de dados é referido
como biologia computacional. Importantes sub-disciplinas pertencentes a bioinformática e biologia
computacional incluem:
● o desenvolvimento e implementação de ferramentas que possibilitam o acesso, uso e
gerenciamento eficiente de vários tipos de informação.
● o desenvolvimento de novos algoritmos, modelos matemáticos e estatísticas para descobrir e
avaliar possíveis relações entre os componentes de grandes banco de dados, tais como
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 9
métodos para: localizar um gene dentro de uma seqüência, predizer estruturas e/ou funções
protéicas, agrupar seqüências de proteínas em famílias, entre outros.
Em suma, a NCBI define as áreas de Bioinformática e Biologia Computacional da seguinte maneira:
● Bioinformática: pesquisa, desenvolvimento ou aplicação de abordagens e ferramentas
computacionais para expandir o uso, a obtenção, o armazenamento, a organização, a análise e
a visualização de dados biológicos, médicos, comportamentais e de saúde.
● Biologia Computacional: trata do desenvolvimento e aplicação de métodos teóricos e analíticos,
modelos matemáticos e técnicas de simulação computacional para estudar sistemas biológicos,
comportamentais e sociais.
2. Alinhamento de Seqüências
Atualmente, os principais esforços de pesquisa no campo da biologia molecular incluem
alinhamento de seqüência, descoberta de genes, montagem de genoma, alinhamento de estrutura
protéica, predição de estrutura protéica e predição de expressão gênica e interação proteína-proteína.
Entretanto, nesta apostila nos concentraremos no tópico sobre alinhamento de seqüência.
"Alinhamento" geralmente significa dispor lado a lado duas ou mais strings, permitindo
emparelhamentos (casamento, matches) ou desemparelhamentos (mismatches) entre seus
caracteres, assim como a inclusão de espaços vazios (usualmente representados por hífens). Cabe
observar, que quando comparamos dois caracteres, dizemos que eles se emparelham (match)
quando são iguais, caso contrário eles encontram-se desemparelhados [Gusfield_97].
Uma string é uma lista ordenada de caracteres dispostos de forma contígua da esquerda para
direita. Para qualquer string S, S[i..j] é a substring de S que começa na i-ésima posição e termina na
j-ésima posição de S. Em particular, S[1..i] é o prefixo da string S que termina na posição i, e S[i..|S|]
é o sufixo da string S que começa na posição i, onde |S| denota o número de caracteres na string S.
Por fim, para qualquer string S, S(i) denota o i-ésimo caráter de S [Gusfield_97].
As palavras “string” e “seqüência” são geralmente usadas como sinônimas na literatura
biológica. Porém, isto pode ser a fonte de muita confusão porque “substrings” e “subseqüências” são
objetos distintos. Além do mais, os algoritmos para problemas de substrings são geralmente muito
diferentes dos algoritmos para problemas de subseqüências. Os caracteres em uma substring de S
devem ocorrer de forma contígua em S, enquanto os caracteres em uma subseqüência de S podem
encontrar-se em S entremeada com caracteres que não estão na subseqüência [Gusfield_97].
Por exemplo, “california” é uma string, lifo é uma substring, lori é uma subseqüência, cal é um
prefixo, ornia é um sufixo, e S(4)=i.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 10
2.1 Alinhamento Global
Definição: um alinhamento global de duas strings S1 e S2 é obtido primeiramente pela
potencial inclusão de espaços nas strings, seja no interior e/ou nas extremidades de S1 e S2, para
em seguida dispor as duas strings resultantes uma em cima da outra, de modo que todo caracter ou
espaço em uma string esteja defronte a um único caracter ou a um único espaço da outra string. O
termo “global” enfatiza o fato que cada string encontra-se envolvida de forma inteira no alinhamento.
2.2 Similaridade de Strings
Definição: Seja o alfabeto usado para as strings S1 e S2, e seja ' o alfabeto
acrescido do caracter “_” usado para denotar um espaço. Então, para quaisquer dois caracteres x, y
em ', s(x,y) denota o valor (ou a pontuação, score) obtido por alinhar o caracter x com o caracter
y.
Definição: Para um dado alinhamento A de S1 e S2, seja S1' e S2' em A as strings de igual
tamanho l=|S1'|=|S2'| após a inserção de espaço(s) vazio(s). O valor total do alinhamento A é definido
como i=1..l s(S1'(i),S2'(i)). Por exemplo, seja = {a, b, c, d} e a matrix de pontuação definida
como:
s a b c d _
a 1 -1 -2 0 -1
b 3 -2 -1 0
c 0 -4 -2
d 3 -1
_ 0
Então, o alinhamento A:
c a c _ d b d
c a b b d b _
tem um valor total de alinhamento igual a 0+1-2+0+3+3-1=4.
Em problemas de similaridade de strings, as matrizes de pontuação usualmente utilizam
s(x,y)>=0 se os caracteres x,y de ' se emparelham, e s(x,y)<0 se os caracteres x e y não se
emparelham. Com tal esquema de pontuação os emparelhamentos entre as duas strings serão
enfatizados, enquanto os desemparelhamentos e espaços vazios serão penalizados.
Pode-se observar a influência do esquema de pontuação sobre o alinhamento; tanto que
várias matrizes de pontuação para DNA e proteínas têm sido propostas, embora nenhuma delas seja
genérica o suficiente para todas as aplicações.
Definição: Dada uma matriz de pontuação sobre o alfabeto ', a similaridade de duas strings
S1 e S2 é definida como o valor do alinhamento A de S1 e S2 que maximiza o valor total de
alinhamento, também conhecido por valor de alinhamento ótimo de S1 e S2.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 11
A similaridade de duas strings S1 e S2, e seu correspondente alinhamento ótimo, pode ser
computada através da seguinte recorrências. Seja V(i,j) o valor do alinhamento ótimo dos prefixos
S1[1..i] e S2[1..j] onde V(0,j)= \sum 1 k j s(_,S2(k)) e V(i,0)= \sum 1 k i s(S1(k),_). Para i e j
estritamente positivos, a recorrência geral pode ser definida da seguinte maneira: V(i,j) = max[V(i-1,j-
1)+s(S1(i),S2(j)), V(i-1,j)+s(S1(i),_), V(i,j-1)+s(_,S2(j))]
2.3 Alinhamento Local
O problema do alinhamento local pode ser definido da seguinte maneira: dado duas strings
S1 e S2, encontrar as substrings � e � de S1 e S2, respectivamente, cuja similaridade (valor do
alinhamento global ótimo) seja máximo em relação a todos os pares de substrings pertencentes a S1
e S2. Por exemplo, considere as strings S1=pqraxabcstvq e S2=xyaxbacsll. Se atribuirmos o valor 2 a
cada emparelhamento, -2 a cada desemparelhemento. e o valor -1 a cada espaço vazio, então as
duas substrings axabcs e axbacs de S! e S2, respectivamente, formam o seguinte
alinhamento global ótimo com similaridade igual a oito (8):
a x a b _ c s
a x _ b a c s
Cabe observar que dentre todas asescolhas de pares de substrings, sendo uma oriunda de
S1 e a outra de S2, as substrings e são as que tem similaridade máxima segundo o esquema
de pontuação (score) adotado. Ou seja, para o esquema de pontuação acima adotado, o alinhamento
local ótimo de S1 e S2 tem valor igual a 8 e é definido pelas substrings axabcs e axbacs.
2.4 Alinhamento Múltiplo Global
Definição: um alinhamento múltiplo global de k>2 strings S={S1,S2,...,Sk} é obtido pela
potencial inclusão de espaços no interior e/ou nas extremidades das k strings, para em seguida
dispo-las em um arranjo de k linhas e l colunas (sendo l=|Si|, i=1,...,k), com cada caracter (ou espaço)
de cada string diposto em uma única coluna.
2.4.1 Alinhamento Múltiplo Local
Definição: dado um conjunto de k>2 strings S={S1,S2,...,Sk}, um alinhamento múltiplo local de S é
obtido por selecionar uma substring Si` de cada string Si S e então globalmente alinhar aquelas
substrings.
2.4.2 Esquema de Pontuação para o alinhamento múltiplo
Embora a noção de alinhamento múltiplo seja facilmente extendida de uas para várias strings,
o esquema de pontuação (score) de um alinhamneto múltiplo não é facilmente generalizado.
Até o momento, não existe uma função objetivo atrelada a um esquema de pontuação para o
alinhamento múltiplo que seja tão bem aceita como foi o conceito de similaridade para o alinhamento
pareado. Na verdade, alguns métodos populares de alinhamento não possuem uma função objetivo
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 12
explícita. A boa qualidade destes métodos é julgada pelo significado biológico do alinhamento
produzido, portanto o “insight” do avaliador é de extrema importância.
3. BLAST
Basic Local Alignment Search Tool, ou BLAST, é uma família de algoritmos para comparação
de sequências biológicas, tais como sequência de nucleotídeos e seqüências de proteínas. Dado um
banco de dados de seqüências, uma busca no BLAST (BLAST Search) possibilita que o pesquisador
procure seqüências que assemelha-se a uma dada seqüência de interesse. Por exemplo, seguindo a
descoberta de um gene desconhecido no rato, o cientista realizará uma busca no BLAST sobre o
genoma humano para ver se o homem carrega um gene semelhante. Ou seja, o BLAST identificará
seqüências no genoma humano que se assemelha com o gene do rato tendo por base um critério de
similaridade.
O algoritmo base do BLAST e o programa que o implementou foram desenvolvidos por
Stephen Altschul, Warren Gish, David Lipman no NCBI (National Center for Biotechnology
Information), Webb Miller na Universidade do Estado da pensilvânia, e Gene Myers na Universidade
do Arizona. O artigo original foi intitulado "Altschul, SF, W Gish, W Miller, EW Myers, and DJ Lipman.
Basic local alignment search tool. J Mol Biol 215(3):403-10, 1990." e pode ser encontrado na web no
seguinte endereço: http://pga.mgh.harvard.edu/Parabiosys/education/seminars/blast.pdf
3.1 Como utilizar BLAST e interpretar seus resultados
Esta seção visa mostrar ao leitor como submeter uma sequência na página web do Basic BLAST,
como escolher um programa e um banco de dados, e por fim como examinar os resultados.
3.1.1 Selecionando o programa BLAST apropriado
O site do BLAST proporciona a escolha de diversos programas (Tabela 1) que podem ser
acessados no site do NCBI (Figura 1).
Programa Descrição
blastp Compara uma seqüência (query) de aminoácidos contra um banco de dados
de seqüências de proteínas.
blastn Compara uma seqüência (query) de nucleotídeos contra um banco de dados
de seqüências de nucleotídeos.
blastx Compara uma seqüência (query) de nucleotídeos traduzida em todas as
seis fases de leitura contra um banco de dados de seqüência de
proteínas.
tblastn Compara uma seqüência (query) de proteína contra um banco de dados de
seqüências de nucleotídeos dinamicamente traduzido em todas as fases
de leitura.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 13
tblastx Compara as traduções das seis fases de leitura de uma sequencia
(query) de nucleotídeos contra as traduções das seis fases de leitura
de um banco de dados de sequências de nucleotídeo.
Tabela 1: Alguns programas da família BLAST.
Figura 1: Página de acesso aos programas BLAST do NCBI.
3.1.2.Selecionando o Banco de Dados BLAST
Você pode selecionar vários bancos de dados (ver Tabela 2 e Tabela 3) no menu de opções
do BLAST (ver Figura 2) para comparar sua consulta (query). Note que alguns bancos de dados são
específicos para proteínas ou nucleotídeos, logo não podem ser usados em combinação com certos
programas BLAST (por exemplo, uma busca via blastn contra o banco de dados swissprot).
Banco de
Dados
Descrição
nr Todos não-redundantes GenBank CDS translations + PDB +
SwissProt + PIR + PRF
month Todos novos ou revisados GenBank CDS translation + PDB +
SwissProt + PIR versão liberada nos últimos 30 dias.
swissprot A última versão do banco de dados de proteínas SWISS-PROT.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 14
patents Seqüências de proteínas derivadas da divisão de patentes do
GenBank.
yeast Seqüência de proteínas Yeast (Saccharomyces cerevisiae) .
E. coli E. coli (Escherichia coli) genomic CDS translations.
pdb Sequences derived from the 3-dimensional structure
Brookhaven Protein Data Bank.
kabat
[kabatpro]
Banco de dados de seqüências de interesse imunológico. Para
maiores informações consultar http://immuno.bme.nwu.edu/
alu Tradução selecionadas de Alu repetidas da REPBASE,
Disponível em ftp://ncbi.nlm.nih.gov/pub/jmc/alu. See "Alu
alert" by Claverie and Makalowski, Nature vol. 371, page 752
(1994).
Tabela 2: Banco de Dados de Proteínas
Banco de
Dados
Descrição
nr Todos não redundantes seqüências GenBank + EMBL + DDBJ + PDB (mas
nenhum EST, STS, GSS, or HTGS sequences).
month Todas seqüências novas ou revisadas do GenBank + EMBL + DDBJ + PDB
liberadas nos últimos 30 dias.
dbest Banco de dados não-redundante do GenBank+EMBL+DDBJ EST Divisions.
dbsts Banco de dados não-redundante do GenBank+EMBL+DDBJ STS Divisions.
mouse ests Banco de dados não-redundante of GenBank+EMBL+DDBJ EST Divisions
limitado ao organismo do rato.
human ests Banco de dados não-redundante do GenBank+EMBL+DDBJ EST Divisions
limitado ao organismo humano.
other ests Banco de dados não-redundante GenBank+EMBL+DDBJ EST Divisions
todos os organismos exceto o de rato e o humano.
yeast Yeast (Saccharomyces cerevisiae) genomic nucleotide sequences.
E. coli E. coli (Escherichia coli) genomic nucleotide sequences.
pdb Sequências derivadas da estrutura tri-dimensional de proteínas.
kabat
[kabatnuc]
Banco de dados de sequências de interesse imunológico. Para mais
informções http://immuno.bme.nwu.edu/
patents Seqüências de nucleotídeos derivadas da Divisão de Patentes do
GenBank.
vector Subconjunto de Vetores do GenBank(R), NCBI, ( diretório
ftp://ncbi.nlm.nih.gov/pub/blast/db/).
mito Banco de dados de sequências mitocondriais (versão. 1.0, Julho
1995).
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 15
Banco de
Dados
Descrição
alu Tradução selecionadas de Alu repetidas da REPBASE, Disponível em
ftp://ncbi.nlm.nih.gov/pub/jmc/alu.
gss Seqüenciar genômicas.
htgs Seqüências Genômicas de alta vazão.
Tabela 3: Banco de Dados de Nucleotídeos
Para maiores informações sobre a coleção de Banco de Dados públicos on-line e gratuitos de
2005 consultar o seguinte site: http://nar.oxfordjournals.org/cgi/content/full/33/suppl_1/D5.
Figura 2: Menu de opções do BLAST para seleção do banco de dados.
3.1.3 Entrando com sua seqüência
O Blast aceita trêstipos de formatos para as seqüências de entrada (Figura 3): (i) formato
FASTA, (ii) número de acesso NCBI, ou (iii) GI (Genbank Identifier) de uma seqüência no GenBank.
Por exemplo, a figura 3 reporta a seqüência da proteína archaebacterial MJ0577 da Methanococcus
jannaschii nos três formatos.
A seqüência de aminoácidos derivada da MJ0577 será usada como consulta (query) em uma
busca contra o banco de dados de aminoácido nr (non-redundant). blastp é a rotina de busca
apropriada quando uma seqüência de aminoácido tem que ser comparada com um banco de
aminoácidos. Todas estas informações devem ser incluídas no site do BLAST como ilustrado na
Figura 4.
>gi|2501594|sp|Q57997|Y577_METJA PROTEIN MJ0577
MSVMYKKILYPTDFSETAEIALKHVKAFKTLKAEEVILLHVIDEREIKKRDIFSLLLGVAGLNKSVEEFE
NELKNKLTEEAKNKMENIKKELEDVGFKVKDIIVVGIPHEEIVKIAEDEGVDIIIMGSHGKTNLKEILLG
SVTENVIKKSNKPVLVVKRKNS
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 16
Figura 3: Os três tipos de formatos para a seqüência de aminoácidos da proteína
archaebacterial MJ0577.
Figura 4. Site do BLAST para entrada da seqüência de consulta, da escolha do programa e do
banco de dados.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 17
3.1.4 Obtendo os Resultados
Os relatórios de saída tradicionais do BLAST são formados por três seções principais: (i) o
cabeçalho que contém informações sobre a seqüência de consulta e sobre os bancos de dados
consultados (Figura 5). Na web há também uma visão gráfica geral do resultado da consulta (Figura
6); (ii) as descrições on-line das seqüências do banco de dados emparelhadas com a seqüência
consultada (Figura 7); (iii) o alinhamento da seqüência de consulta emparelhada com cada seqüência
o banco de dados (Figura 8).
Figura 5. O cabeçalho do relatório BLAST. A linha do topo fornece informações a respeito do tipo
do programa (neste caso, BLASTP), a versão (2.2.1), e data da liberação da versão. O artigo que
descreve o BLAST é citado em seguida, seguido pela identificação da consulta (RID), pela linha da
definição da seqüência de consulta (Query), e por um resumo do banco de dados consultado.
Figura 6. Visão gráfica geral dos resultados do BLAST. A seqüência de consulta é representada
por uma barra vermelha numerada no topo da figura. Hits do banco de dados são mostrados
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 18
alinhados com a seqüência de consulta abaixo da barra vermelha. Dentre as seqüências alinhadas,
as que são mais similares se encontram mais próximas da seqüência de consulta. No caso, há três
emparelhamentos com alta pontuação que se alinha com grande parte da seqüência de consulta. As
próximas doze barras representam emparelhamento de menor pontuação que se alinham a duas
regiões da seqüência de consulta, em torno dos resíduos entre as posições 3 a 60, e dos resíduos
entre as posições 220 a 500. As barras restantes ilustram os menores alinhamentos.
Figura 7. Descrições on-line no relatório BLAST. Cada linha é composta por quatro campos: (a) o
número gi, designação do banco de dados, database designation, número de acesso, e nome do
locus para a seqüência emparelhada, separada por barras verticais (Tabela 4); (b) uma breve
descrição textual das seqüências, a definição. Usualmente contém informações sobre o organismo do
qual a seqüência foi derivada, o tipo da seqüência (por exemplo, mRNA ou DNA), e alguma
informação sobre função ou fenótipo. Cabe observar que a linha de definição é geralmente truncada
para economia de espaço; (c) a pontuação do alinhamento em bits. Hits de alta pontuação são
dispostos no topo da lista; e (d) o E-value que provê uma estimativa da significância estatística. para
o primeiro hit na lista, o número gi é de 116365, a designação do banco de dados é sp (para SWISS-
PROT), o número de acesso é P26374, o nome de locus é RAE2_HUMAN, a linha de definição é
proteínas Rab, a pontuação é 1216, e o E-value é 0.0. Observe que os primeiros 17 hits tem E-value
muito baixo (muito menor que 1) e que são proteínas Rab ou inibidores de disassociação GDP. Os
outros bancos de dados que emparelham tem E-value muito maior, acima de 0.5, o que significa que
estas seqüências podem ter se emparelhado por acaso.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 19
Nome do Banco de Dados Sintaxe do Identificador
GenBank gb|accession|locus
EMBL Data Library emb|accession|locus
DDBJ, DNA Database of Japan dbj|accession|locus
NBRF PIR pir||entry
Protein Research Foundation prf||name
SWISS-PROT sp|accession|entry name
Brookhaven Protein Data Bank pdb|entry|chain
Patents pat|country|number
GenInfo Backbone Id bbs|number
General database identifiera gnl|database|identifier
NCBI Reference Sequence ref|accession|locus
Local Sequence identifier lcl|identifier
Tabela 4: Identificadores dos Bancos de Dados.
Figura 8. Um alinhamento de seqüência pareado de um relatório BLAST. O alinhamento é
precedido por um identificador da seqüência, a linha de definição completa, e o tamanho da
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 20
seqüência emparelhada, em aminoácidos. Em seguida, a pontuação em bits (a pontuação bruta, raw
score, está em parêntese) e então o E-value. A linha seguinte contém informações sobre o número de
resíduos idênticos neste alinhamento (identidades), o número de substituições conservativas
(Positivas), e se aplicável, o número de gaps (espaços vazios) no alinhamento. Finalmente, o
alinhamento atual é mostrado, com a seqüência de consulta (query) no topo, e abaixo se encontra a
seqüência do banco de dados emparelhada, rotulada como Sbjct. os número e a esquerda e à direita
referem-se às posições na seqüência de aminoácido. Um ou mais hífens (-) dentro da seqüência
indicam inserções ou exclusões. Resíduos de amino-ácidos na sequência de baixa complexidade são
mascarados pelo símbolo X. A linha entre as duas seqüências indica as similaridades entre as
sequências. Se a sequência de consulta e o subject possuem o mesmo aminoácido em uma dada
localização, o resíduo em si é mostrado. Substituições conservativas, assim julgadas pelas matrizes
de substituição, são indicadas pelo símbolo +.
Exercícios
1. Acesse os links abaixo (e também procure outros) para expandir sua noção em torno da área de
bioinformática e biologia computacional, juntamente com suas contradições e enfoques distintos.
Procure com suas palavras definir estas duas áreas.
http://www.colorbasepair.com/what_is_bioinformatics.html
http://www.ebi.ac.uk/luscombe/docs/mim-review.pdf
http://www.geocities.com/bioinformaticsweb/definition.html
http://citeseer.ifi.unizh.ch/453368.html
http://citeseer.ifi.unizh.ch/504741.html
http://en.wikipedia.org/wiki/Bioinformatics
http://www.comciencia.br/reportagens/bioinformatica/bio01.shtml
http://kbrin.a-bldg.louisville.edu/~rouchka/HOMEPAGE/definition.html
2. Consulte o artigo sobre os banco de dados on-line de 2005 e separe aqueles de mais interesse
em sua pesquisa explicando em detalhes os motivos de sua escolha.
fonte:http://nar.oxfordjournals.org/cgi/content/full/33/suppl_1/D5.
3. Utilize o Blast seguindo todas as etapas descritas na seção 3 usando a seqüência de aminoácido
derivada da MJ0577 (Seção 3.2.3).
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 21
CARACTERIZAÇÃO ESTRUTURAL DE GENES E DE PROTEÍNAS
Magnólia de Araújo Campos
Introdução
Seqüências de DNA ou de proteínas, por si, não dizem muito. No entanto, com a
utilização de ferramentas computacionais adequadas é possível,cada vez mais, conhecer
os sistemas biológicos. Isto porque a Bioinformática é uma área do conhecimento baseada
no paradigma fundamental da biologia molecular, o qual postula que a informação genética
está armazenada nas seqüências de bases de DNA. O DNA é, então, transcrito e traduzido
em seqüências de aminoácidos que constituem as proteínas. Emergindo como um apoio a
projetos genomas, no sentido de amparar as informações geradas pela automatização do
seqüenciamento em larga escala, a Bioinformática vem, desde então, tentando resolver a
constante demanda de problemas em Biologia pela criação de programas computacionais
capazes de 1) analisar e identificar a composição da molécula de DNA; 2) traduzir
seqüências de DNA em seqüências de aminoácidos; 3) especular funções biológicas
baseadas em características da seqüência da proteína, tais como domínios, eventos pós-
traducionais, massa molecular e pI teórico e 4) especular sua história evolucionaria a partir
de análises filogenéticas.
No entanto, para poder utilizar os softwares, se faz necessário um embasamento
sobre as moléculas estudadas, DNA e proteína, especialmente quanto aos seus caracteres
estruturais, importantes na caracterização molecular computacional de um gene. É
impossível, portanto, caracterizar os genes sem conhecer suas estruturas e os chavões da
biologia molecular presentes nas ferramentas de análises.
O que são genes?
São as unidades funcionais e físicas hereditárias, constituídas por seqüências de
DNA que codificam instruções para a síntese de proteínas, as quais realizam funções
relacionadas com a expressão dos caracteres. Por isso, a um gene está associado uma
característica fenotípica (aparência) particular, como por exemplo, a cor dos olhos. Este
conceito levou a hipótese: “um gene – uma proteína” e os programas de bioinformática o
utilizam para predizer seqüências protéicas. No entanto, na atual genética molecular,
algumas modificações foram adicionadas e três tipos de genes são agora distinguidos: 1)
aqueles que são transcritos em RNA mensageiro e traduzidos em proteínas; 2) aqueles que
são apenas transcritos em RNA (por ex., RNA ribossomal e RNA transportador); e 3)
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 22
aqueles que funcionam como reguladores dos outros dois tipos de genes. Por isso, nota-se,
em alguns textos sobre genômica, a utilização desta terminologia mais abrangente e
moderna. Em síntese, podemos dizer que genes são segmentos completos de DNA
capazes de fazer produtos funcionais. Estes produtos então seriam proteínas e moléculas
de RNA funcional, são eles: RNAi (interfering RNA), rRNA (ribosomal RNA); snRNA (small
nuclear), snoRNA (small nucleolar) e tRNA (transfer RNA). Assim, o conceito de gene é
dinâmico e deve ainda levar em consideração caracteres de procariotos e eucariotos.
Onde se encontram os genes?
Os genes compõem os cromossomos, juntamente com seqüências de DNA não
codante e algumas proteínas que o empacotam, presentes nas células de um indivíduo.
Este material genético total representa o genoma e constitui a informação hereditária
completa de um organismo. A maioria dos genomas, incluindo o genoma humano e o de
todas as outras formas de vida celular, são feitos de ácido desoxirribonucléico, ADN (DNA,
deoxyribonucleic acid). Alguns vírus possuem genomas de ácido ribonucléico, ARN (RNA,
ribonucleic acid). DNA e RNA são ácidos nucléicos compostos por subunidades
denominadas nucleotídeos. Os nucleotídeos são constituídos de bases nitrogenadas da
classe purina (G, guanina e A, adenina) ou pirimidina (C, citosina; U, uracila e T, timina),
ligadas a um açúcar e a um grupo fosfato. A união de quatro bases invariavelmente aos
pares, adenina com timina e citosina com guanina, é que forma a estrutura organizada de
cadeia longa e dupla, conhecida como dupla hélice de DNA, encontrada facilmente em livros
de genética, bioquímica, biologia molecular e online. Enquanto que o RNA é formado por
uma cadeia de fita simples, onde a base timina (presente apenas no DNA) é substituída por
uma equivalente, a uracila (presente apenas no RNA).
O dogma central da biologia molecular
O princípio de como esta informação genética é transmitida é explicado pelo dogma
central da biologia molecular: a mensagem parte do DNA para o RNA e finalmente é
traduzida para proteínas (Figura 1). O DNA é capaz de se autorreplicar no núcleo de células
de eucariotos usando apenas uma fita da dupla hélice como molde (como procariotos não
têm núcleo, este processo ocorre no citoplasma desses organismos unicelulares). Este
processo chamado replicação perpetua a informação genética. O DNA também codifica o
RNA mensageiro (RNAm). Neste processo denominado transcrição, um segmento do DNA
que constitui um gene é lido e transcrito em uma seqüência de fita simples de RNA
heterogêneo nuclear (RNAhn). O RNAhn é, então, processado (essencialmente por splicing)
ainda no núcleo gerando o RNAm e, em seguida, transportado para os ribossomos
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 23
(estruturas formadas por RNAr e proteínas), no citoplasma de eucariotos, onde as proteínas
são formadas através de um processo chamado tradução. Durante a tradução, a cada três
nucleotídeos, ou códon, na fita de RNAm são lidos e traduzidos em um aminoácido. Os
aminoácidos são conduzidos para o sítio de tradução por RNAs transportadores (RNAt) (ver
item abaixo o código genético). Pequenas cadeias dos vintes tipos de aminoácidos
diferentes são denominadas de peptídeos, enquanto que longas cadeias são denominadas
de polipeptídeos ou proteínas.
Replicação
(duplica o DNA) Informação
Informação
Transcrição
(síntese de RNA)
citoplasma
Figura 1. Dogma central da biologia molecular moderna.
Informação
Ribossomo
Proteína
núcleo
Proteína
Tradução
(síntese de proteínas)
RNAm
Membrana nuclear
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 24
Após a tradução, a maioria das proteínas sofre modificações pós-traducionais,
principalmente a adição de carboidratos e de grupos fosfatos. Tais modificações possuem
uma função importante na modulação da função de muitas proteínas, mas é codificada
diretamente por genes. Como conseqüência, tem-se a informação de que um único gene
pode codificar proteínas diferentes e que elas passam por modificações pós-traducionais.
Proteínas não codificam para a produção de proteína, RNA ou DNA, elas estão envolvidas
em quase todas as atividades biológicas, estrutural ou enzimática das células. Muitas
funções celulares são realizadas por proteínas sozinhas (isoladamente) ou em complexos.
No entanto, a descoberta recente de que prions, partículas protéicas causadoras de
doenças infecciosas, são capazes de “auto-reprodução” contradiz a afirmativa do dogma
central da biologia moderna de que os organismos vivos usam ácidos nucléicos para
reproduzir. Isto porque os prions, sendo formas protéicas, não são gerados a partir do
processo normal de tradução do RNAm, mas sim a partir das formas protéicas normais,
devido a propriedades alostéricas da proteína nativa (traduzida).
Indico as animações didáticas dos processos de transcrição, splicing e tradução,
mostradas no site http://www.lsic.ucla.edu/ls3/tutorials/gene_expression.html para
visualização com detalhes da expressão de genes.
O código genético
É esta informação biológica contida no genoma de cada organismo que direciona o
desenvolvimento e a manutenção da vida dos mesmos. Cada espécie tem o seu número ou
padrão genômico próprio. Assim, o genoma humano está distribuído e empacotado em 23
pares de cromossomos, cujo número diplóide é 46, sendo 23 derivadosdo espermatozóide
do pai e 23 derivados do óvulo da mãe.
O código genético possui as regras e símbolos na seqüência de nucleotídeos para a
qual a informação genética para as seqüências de todos os polipeptídeos sintetizados por
transcrição e tradução está codificada no DNA (ou RNA, no caso de vírus). Uma vez que
existem quatro tipos diferentes de bases nos ácidos nucléicos e que cada seqüência de três
resíduos de nucleotídeos (códon) é necessária para codificar um resíduo de aminoácido,
sessenta e quatro trincas de nucleotídeos diferentes podem existir, sendo um códon de
iniciação e três códons de terminação da tradução. Mas, somente vinte resíduos de
aminoácidos diferentes estão presentes nos polipeptídeos codificados. Em virtude do código
genético ser degenerado, a maioria dos aminoácidos pode ser especificada por mais de um
códon. A codificação é lida da seqüência de RNAm, no sentido 5’ para o 3’ terminal, para
seqüência de aminoácidos, como determinado na Tabela 1. Na prática, o que seqüenciamos
é o DNA, portanto a Tabela 2 é mais usada para facilitar as análises e desenhos de primers
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 25
a partir de seqüências preditas de aminoácidos. Na Tabela 3, os vinte aminoácidos são
mostrados com seus respectivos nomes, representados pelos códigos de uma letra e de três
letras. Estas tabelas são de grande utilidade na prática de biologia molecular e análises de
predições da seqüência de proteínas a partir das seqüências de nucleotídeos. Diversos sites
possuem links para ferramentas de tradução de proteínas a partir da seqüência de DNA, os
quais podem ser facilmente encontrados via “google”, sob palavras-chave DNA translate
tools. Muitas ferramentas apresentam os resultados em seis frames de leitura, sendo três
gerados pela fita sense ou codante (+) e três pela fita complementar ou não codante (-).
É por causa da universalidade das seqüências de nucleotídeos, em que “todos os
organismos contêm ácidos nucléicos”, que se torna possível usar este caractere do código
genético para predições de proteínas, usando a bioinformática. No entanto, cada organismo
usa um códon preferencialmente para um determinado aminoácido. Isso é o que é
conhecido por Codon usage. O codon usage é, portanto, aquele códon que o organismo vai
usar, entre os vários códons possíveis. Além do codon usage, a porcentagem de GC contida
nas seqüências de DNA tem sido usada como cálculo para identificar seqüências de um
determinado indivíduo. Um exemplo é a identificação de genes de um dado patógeno
presentes em bibliotecas de genoma funcional de plantas, as quais foram construídas após
inoculação por esse mesmo patógeno.
Tabela 1. Código genético para bases nitrogenadas na seqüência de RNAm.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 26
T C A G
T TTT Phe (F)
TTC "
TTA Leu (L)
TTG "
TCT Ser (S)
TCC "
TCA "
TCG "
TAT Tyr (Y)
TAC
TAA Ter
TAG Ter
TGT Cys (C)
TGC
TGA Ter
TGG Trp
T
C CTT Leu (L)
CTC "
CTA "
CTG "
CCT Pro (P)
CCC "
CCA "
CCG "
CAT His (H)
CAC "
CAA Gln (Q)
CGT Arg (R)
CGC "
CGA "
CGG "
C
A ATT Ile (I)
ATC "
ATA "
ATG Met (M)
ACT Thr (T)
ACC "
ACA "
ACG "
AAT Asn (N)
AAC "
AAA Lys (K)
AGT Ser (S)
AGC "
AGA Arg (R)
A
G GTT Val (V)
GTC "
GTA "
GTG "
GCT Ala (A)
GCC "
GCA "
GCG "
GAT Asp (D)
GAC "
GAA Glu (E)
GGT Gly (G)
GGC "
GGA "
GGG "
G
Tabela 2. Código genético para bases nitrogenadas na seqüência de DNA.
Código de 1 letra Código de 3 letras Nome
1 A Ala Alanine
2 C Cys Cysteine
3 D Asp Aspartic Acid
4 E Glu Glutamic Acid
5 F Phe Phenylalanine
6 G Gly Glycine
7 H His Histidine
8 I Ile Isoleucine
9 K Lys Lysine
10 L Leu Leucine
11 M Met Methionine
12 N Asn Asparagine
13 P Pro Proline
14 Q Gln Glutamine
15 R Arg Arginine
16 S Ser Serine
17 T Thr Threonine
18 V Val Valine
19 W Trp Tryptophan
20 Y Tyr Tyrosine
Tabela 3. Os vinte aminoácidos, indicados por códigos de letra única e de três letras e pelo
nome.
Genes possuem estruturas
Algumas analogias têm sido feitas ao DNA (genoma), tais como: “o DNA é o livro da
vida, escrito por quatro letras (A T C G), onde os cromossomos são os capítulos, os genes
as estórias, os éxons os parágrafos (interrompidos por íntrons) e os códons são as
palavras”. Neste sentido, após o seqüenciamento do genoma humano, chegou-se a
conclusão de que o genoma representava “muito DNA e poucos genes” (Figura 2).
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 27
Observou-se muita região intergênica e pouca região gênica, apenas cerca de 1% codifica
para aminoácidos. Esta afirmativa foi possível por que as ferramentas usadas para analisar
seqüências procuram por sinais dos genes, entre eles estão para genes codantes: região
promotora ou Promotor, sítio de iniciação (ATG, no DNA, ou AUG, no RNAm), que codifica
para o aminoácido Formilmetionina em procariotos e mitocôndrias e ou Metionina em
eucariotos, sítio de terminação (TGA, TAA, TAG) da tradução, introns e exons, sítios de
splicing e sinal de poliadenilação (poly-A). Portanto, eles respondem a pergunta: onde estão
os genes?
Figura 2. Regiões gênicas e intergênicas na seqüência de DNA (acima). Representação
esquemática de um gene de eucarioto que sofre splicing (abaixo), indicando as regiões
gênicas do tipo promotor (P), a região não traduzida 5’ e 3’ UTR (U), os éxons (E) e os
íntrons (I), separadas pela região intergênica. O transcrito primário (mRNA) possui todas as
características presentes na fita de DNA. Após a retirada dos íntrons, três tipos de
transcritos maduros (mRNA 1, 2 e 3) poderão dar origem a polipeptídeos diferentes.
P
U I I U
E E EIntergênica Intergênica
Transcrito Primário
mRNA 1 Maduro
mRNA 2 Maduro
mRNA 3 Maduro
E
I I
E
T
Intergênica
T C
iGe cn a
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 28
Promotor é uma seqüência de DNA localizada na região 5’ (cadeia senso) de um
gene que indica o sítio para iniciação da transcrição. Ela pode influenciar a quantidade de
mRNA produzidos e a especificidade do tecido. Exemplos incluem o TATA Box. O símbolo
(P) pode ser subscrito para indicar promotores particulares (PRM). Assim, um dos caracteres
utilizados em programas que buscam e analisam seqüências de promotores é o TATA Box.
O TATA Box ou Hogness Box é um elemento de seqüência de bases comuns em
promotores de eucariotos, caracterizados pela seqüência concenso TATAAAA. Nessa
seqüência se liga um fator de transcrição geral (proteína de ligação a DNA - TATA) e
especifica a posição onde a transcrição será iniciada. São os promotores quem mandam
“onde, quando e o quanto” um gene deve ser expresso. Onde? - Folhas, raízes, p.ex.
Quando? - Início da germinação. Quanto? Muito, pouco e/ou constitutivamente. Na tabela 4
está compilado um conjunto de seqüências consenso de alguns elementos e fatores que
interferem na atividade de promotores que trabalham com a polimerase II, regulando,
portanto, a expressão de genes ligados a eles. Regiões de promotores são chamadas de
upstream a região codante do gene e os nucleotídeos são numerados com sinal negativo (-)
em ordem decrescente até chegar no sinal +1, que é a posição do nucleotídeo A, do códon
de iniciação (ATG).
Tabela 4. Seqüências consenso de alguns elementos agindo in cis e fatores agindo in trans
que afetam a atividade do promotor de Polimerase II.
A região codante para proteínas, ou CDS (coding sequence) ou ainda éxon no DNA,
é a seqüência de nucleotídeos completa que é traduzida em polipeptídeos e que estápresente na molécula de RNAm. De fato, a fita codante do DNA (ou senso, +) contêm a
mesma seqüência de bases que está no RNAm transcrito a partir do DNA, substituindo-se T
no DNA por U no RNA (Figura 3). No caso de genes que não possuem íntrons, a própria
CDS já indica a ORF (open reading frame), que significa o “quadro aberto de leitura”, que vai
desde o códon de iniciação até o de terminação, sem ser interrompido por introns. No caso
de genes intrônicos, a ORF será montada no RNA após a eliminação dos introns. Na
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 29
tradução, a ORF será encontrada e “lida”, traduzindo-se uma seqüência de DNA em uma
seqüência de aminoácidos de um polipeptídeo. No site do NCBI tem um link para a
ferramenta ORFfinder, a qual analisa uma seqüência de DNA procurando os sítios de
iniciação e terminação da tradução, resultando em possíveis ORFs de genes em potencial
ou genes conhecidos. Assim, a ferramenta de traduzir a seqüência de DNA em seqüência
de aminoácidos procura diferentes fases e gera diferentes peptídeos preditos. No exemplo
da Figura 2, o início da leitura na fita senso, usando cada uma das 3 bases do códon ATG
como inicio da tradução, resultará em 3 fases com 3 aminoácidos distintos. Na primeira fase
de leitura ou frame, o primeiro aminoácido será a Met (ATG), porém na segunda (TGG) e na
terceira (GGA) resultarão nos aminoácidos Trp e Gly, respectivamente.
5' T G A C C T T C G A A C G G G A T G G A A A G G 3' (sense, codante)
3' A C T G G A A G C T T G C C C T A C C T T T C C 5' (antisense, molde)
5' U G A C C U U C G A A C G G G A U G G A A A G G 3' (RNAm)
Figura 3. Exemplo hipotético de seqüências de DNA, fitas sense e antisense, e de RNA
mensageiro (RNAm), indicando que o sítio de iniciação da tradução na fita DNA codante
(ATG) e no RNAm (AUG) diferem apenas pelas bases T e U, respectivamente. A fita de
DNA que serve de molde para a síntese de RNAm é a fita antisense.
Existem ferramentas que procuram por sítios de poliadenilação (seqüência consenso
AATAAA) no DNA. A RNA polimerase transcreve este sítio, mas a mensagem é clivada
downstream a partir deste sinal (saindo de 10 -30 nt) e são adicionados no transcrito
primário de 40 – 200 resíduos de adenilato, isto é, adenosina-5’-monofosfato. Esta cauda
Poli-A estabiliza o RNAm e facilita a tradução. Outras ferramentas procuram por sítios de
splicing. Um exemplo de sítio de splicing é ÉXON / gt ÍNTRON / ÉXON ac. A presença e
ausência de introns em regiões codantes do DNA tem levado a duas hipóteses: ou os
introns já existiam e estão sendo eliminados durante a evolução (early hypothese), ou os
introns estão sendo adquiridos ao longo do processo de evolução dos indivíduos (late
hypothese), ambas possuem embasamentos, mas este tema ainda não está elucidado.
As seqüências de pseudogenes, os quais parecem genes mas não codificam
proteínas funcionais, são freqüentemente reconhecidas pela presença de sinais de parada
(stop codons) no meio da região codante, durante a leitura para a tradução para
aminoácidos, gerando, portanto, polipeptídios entrecortados. Seqüências com este sinal ou
são pseudogenes ou possuem baixa qualidade de seqüenciamento. Uma alternativa é
seqüenciar a mesma seqüência nos sentidos direto e reverso, visando corrigir falhas no
seqüenciamento através de alinhamento de ambas e, ainda, com auxilio de eletroferograma.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 30
Por que estamos interessados em estudar os genes? – “Proteínaaasss...”
O comportamento de uma célula é determinado não somente por “quais genes foram
herdados”, mas também por “quais genes são expressos”. Em organismos multicelulares,
diferentes tipos de células possuem os mesmos genes, mas as funções destas células não
são determinadas por diferenças nos genomas, mas sim pelo padrão da regulação da
expressão de genes que governam o desenvolvimento e a diferenciação. A regulação da
expressão de genes permite as células se adaptarem a mudanças em seus ambientes e é
responsável pelas distintas atividades dos múltiplos tipos de células que constituem animais
e plantas. De minuto a minuto ocorre nas células uma dinâmica de mudanças no proteoma
(todas as proteínas sintetizadas por uma determinada célula em determinado tempo), em
resposta a dezenas de milhares de sinais ambientais intra e extracelulares. A química e o
comportamento de proteínas são especificados pela seqüência e pelo número e identidade
de outras proteínas produzidas na mesma célula, no mesmo tempo, e com as quais elas se
interagem e reagem. Estudos de proteômica, visando explorar a estrutura e atividades de
proteínas, ajudarão a elucidar a base molecular da saúde e da doença. Portanto, o que se
quer mesmo caracterizar é a seqüência da proteína codificada pelos genes.
Proteínas possuem estruturas primária, secundária, terciária e quaternária. A
estrutura primária é a seqüência de aminoácidos de sua cadeia polipeptídica e pode ser
predita pela seqüência de DNA que a codifica, como já discutido anteriormente. Embora
ocorram processamentos pós-traducionais, que vão desde clivagem de peptídeos, eventos
como metilação, fosforilação e glicosilação, dobramento (empacotamento ou folding) e até
mesmo o endereçamento (sorting), as informações para esses eventos já estão pré-
determinadas na própria estrutura primária da proteína. Por isso, ferramentas para predição
de eventos pós-traducionais foram desenvolvidas e estão disponíveis online. Por exemplo,
sítios de clivagem de peptídeos podem ser preditos usando a ferramenta SignalP. Nesta, os
primeiros 70 aminoácidos da seqüência protéica, contados a partir da Met, são consultados
quanto à presença de um possível peptídeo de exportação da proteína para o apoplasto, por
exemplo, necessitando transitar pelo retículo endoplasmático. O resultado da análise indica
por um gráfico o possível sítio de clivagem de uma protease, indicando que a proteína
recém-traduzida pode eliminar os primeiros aminoácidos, com características típicas de um
peptídeo de exportação, produzindo uma proteína madura.
O arranjamento regular de aminoácidos dentro de regiões localizadas do
polipeptídeo é o que leva a dois tipos de estruturas secundárias, conhecidas como α hélice
(formada por pontes de hidrogênio entre aminoácidos separados por quatro resíduos) e β
sheet ou “cadeia pregueada β” (formada por pontes de hidrogênio entre aminoácidos
localizados em diferentes regiões do polipeptídeo). A estrutura terciária é o empacotamento
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 31
tridimensional (3D) de um polipeptídeo que dá a proteína sua forma funcional. As unidades
básicas de empacotamento são regiões compactas e globulares, na estrutura 3D de
proteínas, chamadas de domínios. Domínios de proteínas estão, em geral, associados a
uma função como, por exemplo, a parte de uma molécula protéica que se liga a um
receptor, que se liga a um substrato e possui uma função catalítica (domínio catalítico). Em
proteínas de membrana, o domínio transmembrana atravessa a membrana de um lado para
o outro. Por outro lado, interação tridimensional entre dois ou três segmentos de estrutura
secundária que estão próximos um do outro ao longo da cadeia polipeptídica leva ao que se
chama motivo (motif). Parte de motivos são reconhecidos na estrutura primária de proteínas
dispostos de forma contígua (vizinhos) ou capazes de serem alinhados em certas posições
que são invariáveis ou conservadas, os quais estão associados com uma determinada
função, p. ex., o motivo GXGXXG está associado com um sítio de ligação a nucleotídeos.
Portanto, a seqüência protéica determina não somente a atividade da proteína, mas
também a sua estrutura tridimensional.Quando a proteína se dobra, os resíduos
importantes são orientados na posição correta para exercer suas devidas funções. Essa
identidade de resíduos chaves são mais importantes do que a porcentagem total de
identidade entre duas seqüências. Um grande problema era o caso de um resíduo
importante não ser conservado. Mas através da modelagem protéica (prediz um modelo 3D
para proteínas), pois através da conservação da estrutural tridimensional, mesmo após
mutações em muitos resíduos, é possível construir um modelo de uma proteína, em caso do
molde adequado esteja disponível.
O estudo de estruturas protéicas preditas envolve parâmetros físico-químicos dessas
moléculas, especialmente quando se trata de comparações de seqüências alinhamentos,
predições de massa molecular, potencial isoelétrico (pI), estruturas secundárias e terciárias
ou tridimensionais, domínios, motivos etc. Várias ferramentas para análises em proteômica
estão disponíveis, ou possuem link para, em http://au.expasy.org, o ExPASy (Expert Protein
Analysis System), inclusive SignalP.
Estruturas quaternárias de proteínas são as interações entre cadeias polipeptídicas,
portanto constituídas de mais de um polipeptídeo. Ocorre entre duas subunidades idênticas
ou monoidênticas.
Como atribuir funções a seqüências biológicas?
Atualmente, o mais poderoso método para inferir a função biológica de um gene ou
da proteína codificada por ele é através da busca por similaridade de seqüências em bancos
de dados de genes e de proteínas. A comparação de seqüências de proteínas é a
ferramenta para a caracterização de seqüências de proteínas, por causa da enorme
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 32
quantidade de informação que está preservada ao longo dos processos evolucionários.
Admitindo-se que genes modernos sejam todos derivados de genes ancestrais, genes
descendentes de um mesmo ancestral devem ter função, estrutura e seqüência
relacionadas.
O aparecimento de novas estruturas é uma conseqüência natural do processo
evolutivo. Estruturas com funções similares podem ser derivadas de uma ancestral, sendo
chamadas de homólogas, ou podem ser originadas a partir de estruturas ancestrais
distintas, sendo denominadas de análogas. Os termos homologia e analogia são termos
operacionais e se referem à história evolutiva de um caráter ou estrutura. Quando duas
seqüências têm uma alta similaridade ou identidade é provável que sejam homólogas, até
porque é improvável que isso tenha acontecido por acaso. A similaridade entre duas
seqüências é um indicativo de homologia, isso porque no processo evolutivo os genes
evoluem perdendo progressivamente identidade entre si e, portanto, com o passar do
tempo, as seqüências tendem a divergir. Se dois genes são homólogos, sua função
biológica fica preservada entre organismos.
Seqüências homólogas podem ser divididas em ortólogas, aquelas que diferem por
causa da especiação (processo de formação de novas espécies) e, portanto são
encontradas em espécies diferentes, e parálogas, aquelas que diferem por causa de um
evento de duplicação levando, por exemplo, a formação de famílias multigênicas com alta
similaridade entre elas. Maiores detalhes deste assunto serão dados em Inferências
filogenéticas, último capítulo desta apostila.
A análise de similaridade entre duas seqüências deve ser feita pela sobreposição de
forma a otimizar globalmente os resíduos de aminoácidos idênticos e similares. Ao contrário
de homologia, que não pode ser medida, similaridade e identidade são características
quantitativas. Resíduos similares apresentam característica físico-química similares,
normalmente têm o mesmo volume e caráter hidropático. Na similaridade incluímos resíduos
similares e idênticos. A identidade é a porcentagem de resíduos idênticos entre duas
seqüências. Exemplo hipotético: Num alinhamento no blast de duas seqüências de
proteínas, em que um total de 33 resíduos foi emparelhado, resultando em 23 idênticos e 26
similares (por principio, os idênticos são contabilizados dentro dos similares), teremos uma
identidade de seqüência de 70% e uma similaridade de 78%.
O BLAST é o programa mais rápido para analise de similaridade e identidade tanto em
seqüências de proteínas, que se utiliza os dois termos, quanto para seqüências de
nucleotídeos, onde o termo similaridade não se aplica, uma vez que ácidos nucléicos
exercem sua função biológica baseada na formação de pares de base. Para comparação de
seqüências de DNA usa-se sempre o termo identidade.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 33
Mas a proteína não é tudo...
As proteínas estão inseridas num contexto celular, fazendo parte de estruturas celulares,
como membranas, organelas, ou fazendo parte de uma determinada via metabólica celular.
Uma visita ao KEGG (http://www.genome.ad.jp/kegg/pathway.html) - Kyoto Enclyclopedia of
Genes and Genomes, irá ilustrar bem parte de rotas metabólicas onde as proteínas
trabalham dentro da célula. A interação/regulação de rotas metabólicas existe como, por
exemplo, o desvio do metabolismo primário para o secundário, mediante os sinais
ambientais, é uma demonstração de mudanças no proteoma que pode levar a uma resposta
de estresse eficiente ou não.
Após todos as análises de predição e similaridade funcional, as análises
computacionais precisam ser confirmadas por experimentação, em laboratório.
Nomenclatura de anotação de genes
Nomes de genes novos têm sido dados com base na identidade e similaridade com
outros presentes em bancos de dados. A nomenclatura abaixo está disponível online e
esclarece certas terminologias, com base em situações encontradas como resultado de
busca por similaridade.
KKnnoowwnn GGeennee –– ggeennee pprreeddiittoo ppaarreeiiaa oo ccoommpprriimmeennttoo iinntteeiirroo ddee uumm ggeennee ccoonnhheecciiddoo..
PPuuttaattiivvee GGeennee ––ccoonnttéémm rreeggiiõõeess ccoonnsseerrvvaaddaass ccoomm oouuttrrooss ggeenneess ccoonnhheecciiddooss.. TTaammbbéémm éé
rreeffeerriiddoo ccoommoo ““lliikkee”” oouu ““ssiimmiillaarr ttoo””..
UUnnkknnoowwnn GGeennee –– ggeennee pprreeddiittoo ppaarreeiiaa ccoomm uumm ggeennee oouu EESSTT ddoo qquuaall aa ffuunnççããoo nnããoo éé
ccoonnhheecciiddaa..
HHyyppootthheettiiccaall GGeennee –– ggeennee pprreeddiittoo qquuee nnããoo ccoonnttéémm ssiimmiillaarriiddaaddee ssiiggnniiffiiccaannttee ccoomm qquuaallqquueerr
ggeennee ccoonnhheecciiddoo oouu EESSTT..
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 34
ALINHAMENTOS DE SEQÜÊNCIAS DE DNA E DE PROTÉÍNAS
E DESENHO DE PRIMERS
Antonio Chalfun Junior
Nos dias atuais, a necessidade de se conhecer uma determinada seqüência tem expandido
os horizontes dos pesquisadores envolvidos com todas as ciências. A procura pela identidade de
genes é uma tarefa que requer tempo e também informação. Programas de computadores têm
auxiliado nessa tarefa. Mas qual o sentido de se alinhar seqüências de DNA e proteína? Logicamente
que depende do interesse da pesquisa, mas a princípio, baseia-se na identificação de regiões
conservadas. Essa informação é muito útil, para realizar experimentos e até mesmo modificar
proteínas específicas, alterando sua função, como conseqüência da mudança da sua estrutura e
logicamente, na identificação de novos membros de determinadas famílias.
Mas o que seria então o alinhamento: O alinhamento de seqüências é a melhor forma de
transferir informação de uma molécula já estudada para uma ainda a ser identificada.
A idéia de um alinhamento de seqüências é colocar em ordem (alinhar) suas bases
nitrogenadas (todas ou parte delas que possuam similaridade), que tenham sido derivadas de uma
ancestral comum (geneou proteína).
Mas essa identificação de seqüências similares requer uma busca pela sua informação. O que se
pode descobrir sobre um gene por meio de uma busca? Onde faremos essa busca? Normalmente
essa busca é feita em um banco de dados (quase sempre utilizando de alguma informação prévia).
Podemos então, descobrir por meio dessa busca informações relevantes sobre um gene de interesse,
como por exemplo:
- Informação evolutiva (quais são os genes homólogos ao de interesse, qual a freqüência dos
alelos);
- Informação genômica (qual a localização desse gene no cromossomo, se ele possui íntrons,
qual a seqüência UTR, suas regiões reguladoras, etc);
- Informação estrutural (estrutura da proteína correspondente ao gene, tipos de dobramento,
quais os domínios estruturais, etc);
- Informação de expressão (qual o tecido que possui expressão, se é ou não específica, quais
os fenótipos de mutantes desse gene, etc);
CPISRTWASIFRCW
CPISRT---LFRCW
Figura 1. Exemplo de alinhamento.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 35
- Informação funcional (qual a função molecular ou enzimática, se possui ou não papel em
determinada rota metabólica, etc).
Como citado, seqüências podem ser alinhadas na sua totalidade (o que chamamos de “global
alignment” (alinhamento global) ou somente em certas regiões “local alignment” (alinhamento local),
sendo que podemos ter o tipo “pairwise” (par a par) ou alinhamentos múltiplos. Alinhamento global
necessita do uso de “gaps” lacunas (que representam inserções/deleções), enquanto que
alinhamento local evita isso, alinhando regiões entre os “gaps”. Desse modo, podemos dizer que com
o alinhamento conseguimos organizar, visualizar e analisar um grupo de dados de seqüências que
estamos interessados. O processo de alinhamento de seqüências baseia-se no simples ponto de
jogar fora as lacunas (ou melhor, onde inserí-las) ou na melhor forma de acertar as coincidências
(similaridades de nucleotídeos/aminoácidos).
Quais seriam então os meios para se fazer um alinhamento? O alinhamento pode ser feito de
modo completamente automático, manual (o próprio interessado faz) e/ou os dois em conjunto (um
modo mais prático). Por que isso? Não se faz necessário dizer que um software de alinhamento
de seqüências não consegue alcançar a mesma qualidade de um alinhamento manual feito por nós
seres humanos. Existem algumas razões para isso: Os humanos podem “fraudar” o alinhamento
utilizando-se de outras informações; os humanos podem criar padrões de reconhecimento contra um
banco de dados mental de motivos estruturais conhecidos e finalmente, o computador (por
necessidade) tem que generalizar. Mesmo assim, existem muitas vantagens em fazer o alinhamento
pelo computador, por exemplo, enquanto o computador faz o trabalho duro, você lê um artigo e
espera pelo resultado e faz a análise posteriormente. Para isso, é necessário que ele (programa de
alinhamento) possua algumas características:
1. Um mecanismo para gerar todos os possíveis alinhamentos
2. Um método para analisar os alinhamentos de modo que o melhor alinhamento seja o
escolhido.
Logicamente que esse mecanismo para gerar todos os possíveis alinhamentos requer certa
inteligência, que de certo modo, foi desenvolvida por nós. O problema é o método para analisar. Para
pontuar os alinhamentos nessa etapa de análise, nós precisamos pontuar cada coincidência e
também cada “gap” que é introduzido. Toda essa pontuação vem do desenvolvimento do algoritmo
que foi mencionado em outra aula.
Dentre os mais diversos programas de alinhamentos existentes, o Clustal é um dos mais
utilizados. Existem versões para trabalho online (ClustalW) ou offline (ClustalX). Basicamente, o
ClustalW é um programa completamente automático para alinhamento global de seqüências de DNA
e proteínas. O alinhamento é progressivo e considera a redundância de seqüências. O programa faz
alguns ajustes nos parâmetros de alinhamento que podem ser modificados, mas a princípio o
“default” é aceitável.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 36
Figura 2. Exemplo de tela do ClustalX
Isso não quer dizer que o programa Clustal seja o melhor. Existem áreas que ele não se
adapta muito bem, como por exemplo, quando se têm seqüências de tamanhos extremamente
diferentes, o alinhamento gerado pode ser confuso.
Mas que tipo de seqüências devemos utilizar? DNA ou proteína? A comparação em nível de
seqüências protéicas é a mais poderosa ferramenta disponível hoje para inferir função e estrutura a
uma seqüência desconhecida, devido à evolução. A proteína quando forma a estrutura quaternária,
assume uma funcionalidade. A similaridade de seqüências protéicas pode ser utilizada rotineiramente
para inferir relações entre proteínas que tinham um ancestral comum a milhões de anos atrás. Essa
comparação deve levar em conta:
O alinhamento de seqüências é muito mais fácil com seqüências próximas,
Abaixo de certo nível de identidade, esse alinhamento é desconsiderável (em termos de
aminoácidos, 30%),
Se estiver próximo a esse limite, é indispensável o uso de informações adicionais, como por
exemplo, a estrutura, mas lógico que depende da disponibilidade da informação.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 37
Figura 3. Código genético é degenerado
Dentro desse contexto, o alinhamento de proteínas se torna muito mais fácil e preciso do que
de seqüências de DNA. Se já houver seqüência de DNA em algum banco de dados, ela deverá ser
utilizada para o desenho dos primers.
Para tal, devemos tomar como início o seguinte:
1) Acessar as seqüências: como citado anteriormente, as seqüências serão obtidas via
consulta a um banco de dados, ou de outra forma;
2) Alinhar as seqüências: utilizando programas de alinhamento, seqüências de interesse
serão então alinhadas. Normalmente, utiliza-se o padrão do programa, mas mudanças
podem ser feitas;
3) Visualizar regiões conservadas: essa visualização é dependente do tipo de seqüência que
se está trabalhando. Se já existe alguma informação prévia, fica mais fácil a identificação e
a certeza do que realmente está demarcado como região conservada.
4) Desenho do primer: A partir de seqüências já identificadas no seu gene de interesse ou a
partir de regiões conservadas, os primers são desenhados, obedecendo alguns critérios
básicos.
Para o desenho dos primers, algumas dicas podem ser seguidas, mas importante lembrar que
não é regra geral:
1. Tamanho dos primers: Uma vez que ambas a temperatura e especificidade e tempo de
anelamento são no mínimo dependentes do tamanho do primer, esse parâmetro pode ser
classificado como o principal ou crítico para o sucesso da PCR. Em geral os primers devem
ter um tamanho de 18-24 bases, propiciando uma temperatura de anelamento ótima. Vale
lembrar que, primers com esse tamanho, são em geral extremamente específico para uma
determinada seqüência. Na maioria das vezes, primers mais longos são mais ineficientes no
anelamento, mesmo porque com menos “templates” ligados a cada ciclo, pode resultar em
uma significante redução de amplicons. Os primers também não devem ser muito curtos, a
menos que exista a necessidade. Ou seja, a temperatura ideal de anelamento que o primer
deve ser desenhado seria de no mínimo 50º C;
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 38
2. Conteúdo CG: Durante o desenho dos primers, ilhas poliG e poli C devem ser evitadas para
evitar anelamento não específico. PoliA e poliT também devem ser evitados, pois devido suas
ligações serem mais fracas, uma aberturaentre as fitas poderá ocorrer no complexo primer-
template, diminuindo a eficiência da reação. Polipirimidinas (T, C) e polipurinas (A, G)
também devem ser evitadas. Ou seja, um primer ideal deve conter um mix de nucleotídeos
“aleatoriamente” (lógico que isso vai depender da sua seqüência). Ou seja, um conteúdo CG
em torno de 50-55% seria o recomendado, sendo o primer em torno de 20 pares de bases.
Dessa forma a temperatura de anelamento do primer deverá ser em torno de 56º – 62º C;
3. Temperatura de anelamento: devem ser levados em conta fatores como conteúdo CG e
extensão/ conteúdo do primer, mas a princípio, 58º-60ºC. É de extrema importância manter
em mente que teremos um par de primers adicionadas à reação. Ambos oligonucleotídeos
devem ser desenhados de maneira a possuir temperaturas de anelamento similares ou muito
próximas. Se os primers possuem temperaturas muito diferentes, eles serão ineficientes ou
não terão eficiência, uma vez que se o primer com temperatura mais alta estiver trabalhando
em uma temperatura bem abaixo de sua Tm1, ele será inespecífico, e o contrário, um primer
com uma temperatura baixa, não terá como anelar a uma temperatura bem superior.
4. Hairpins: evitar a formação de hairpins (estruturas secundárias); Outro detalhe importante é
evitar na terminação 3´ dos primers a complementaridade dos mesmo, evitando desse modo
a formação de dímeros.
5. Terminação 3’: Já está bem estabelecido que a posição terminal 3´ nos primers é essencial
para o controle de uma falsa iniciação. Para tanto, os primers devem terminar em C ou G ou
CG para favorecer uma ligação mais forte com a seqüência a ser amplificada, e também
favorecer a extensão da TAQ polimerase. Deve-se, entretanto, evitar mais do que 3 Cs ou
Gs;
É essencial que tomemos cuidado no desenho dos primers. Muitos parâmetros aqui descritos que
incluem, tamanho do primer, %GC, e terminação 3´ precisam ser otimizados para o sucesso da PCR,
evitando qualquer modificação que possa influenciar a amplificação. Ou seja, minimizar os erros.
Muitos deles podem ser feitos através de programas computacionais para tal, mas vale que nada
substituir a mente humana. Uma checagem final é sempre recomendada, e principalmente, nada
adianta utilizar softwares de última geração se no momento de solicitar esses primers (efetuar o
pedido junto a empresa), as seqüências são processadas de forma incorreta.
1 Tm= temperatura de desnaturação do DNA: temperatura na qual as fitas da molécula de DNA se
desnaturam ou dissociam. A Tm é determinada pelo comprimento da molécula, sua composição de
bases, e pela concentração de sais do tampão. Seqüências ricas pares CG têm Tm mais altas.
Agentes como álcalis fortes também são usados para desnaturar moléculas. Borém e Vieira, 2005.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 39
Referencias:
Prosdocimi F.; et al. (2002). Bioinformática: manual do usuário. Biotec. Ci. Des. 29: 18-31.
Mount, DW. (2001). Bioinformatics – Sequence and Genome Analysis. 1st ed., Cold Spring
Harbor, New York: Cold Spring Harbor Laboratory Press. pp. 1 – 19
Sambrook, J . ; Russel, DW. (2001). Molecular Cloning – A Laboratory Manual. 3rd. ed., vol. 2,
Cold Spring Harbor, New York: Cold Spring. 999p.
Invitrogen. PCR enzymes protocols – Quick reference guide.
Borém, A.; Vieira, MLC. 2005. Glossário de Biotecnologia. UFV, Viçosa, 183p.
Dieffenbach, C.W., Lowe, T.M.J., Dveksler, G.S. (1995). General Concepts for PCR Primer Design, in
PCR Primer, A Laboratory Manual, Dieffenbach, C.W, and Dveksler, G.S., Ed., Cold Spring
Harbor Laboratory Press, New York, 133-155.
Innis, M.A., and Gelfand, D.H. (1994). Optimization of PCRs, in PCR protocols, A Guide to Methods
and Applications, Innis, M.A., Gelfand, D.H., Sninsky, J.J., and White, T.J., Ed., CRC Press,
London. p.5-11.
Sharrocks, A.D. (1994). The design of primers for PCR, in PCR Technology, Current Innovations,
Griffin, H.G., and Griffin, A.M, Ed., CRC Press, London. p.5-11.
Kwok, S., Kellog, D.E. McKinney, N., Spasic, D., Goda, L., Levenson, C., and Sninsky, J.J. (1990).
Effects of primer-template mismatches on the polymerase chain reaction: Human
Immunodeficiency Virus 1 model studies. Nucleic Acids Res. 18:999-1005.
WEb sites:
www.pcrlinks.com
www.invitrogen.com
http://www.ncbi.nlm.nih.gov
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 40
INFERÊNCIAS EVOLUCIONÁRIAS E GEOGRÁFICAS A PARTIR DA
DIVERSIDADE DE SEQUÊNCIAS
Cristiano S. Lima
Magnólia de A. Campos
Introdução
Diante da diversidade biológica do planeta, o homem sentiu a necessidade de classificar, dar
nomes, visando organizar, informar (comunicar-se), conhecer, utilizar e, de certa forma, ter um certo
domínio sobre os seres. Assim surgiram os sistemas de classificação para descrever e categorizar
todas as formas de vida, de modo que fosse determinado “quem, quais e quantos seres existem e
onde encontrá-los”. Orientando a classificação com algumas regras está a Taxonomia e, desta forma,
os organismos estão agrupados em diversas categorias ou táxons diferentes (Domínio, Reino, Filo,
Classe, Ordem, Família, Reino e Espécie/sub-espécie), com base em características. É, portanto,
resultado de trabalho de Sistemática o número imenso de conhecimento descritivo sobre a detecção,
descrição e explicação da diversidade biológica entre e dentro de espécies, com base em
caracteres/estruturas. No entanto, na busca por critérios de classificação inevitavelmente se chega na
Filogenia, onde o estudo das relações e parentesco entre os grupos é visto numa escala de tempo.
Como cada organismo possui um grande número de caracteres que podem ser iguais ou diferentes
aos de outros grupos, chegamos ao advento da Sistemática Filogenética.
A filogenética é o estudo da filogenia. Em biologia, filogenética é a classificação taxonômica
de organismos (em grupos organizados, categorias ou táxons) com base em quão intimamente
relacionados eles são, em termos de diferenças evolucionárias (numa escala de tempo).
Tradicionalmente, a filogenia tem sido construída com dados morfológicos, mas, seguindo a
expansão da informação genética, tem sido comum a prática de construir filogenia baseada em dados
moleculares, conhecida como filogenia molecular. Os dados mais comuns têm sido na forma de
seqüências de DNA ou de proteínas, mas também podem ser na forma de dados de polimorfismo de
divergência genética.
As relações filogenéticas ou históricas podem ser de dois tipos distintos: 1) relações de
ancestralidade comum, que ocorrem sempre entre espécies recentes, e 2) relações entre ancestral-
descendentes, que ocorrem entre espécies recentes ou extintas e espécies ancestrais ou entre
grupos monofiléticos supra-específicos recentes ou extintos e espécies ancestrais.
Evolução Molecular
Para especular como a evolução ocorreu, é preciso considerar os processos de evolução.
Existem vários princípios básicos que são comuns aos sistemas em evolução. A mais fundamental
propriedade de sistemas em evolução é sua Habilidade de Replicar ou Reproduzir. Sem esta
habilidade, cada “espécie” de molécula pode ser extinta, assim que todas as suas moléculas
individuais forem extintas. Ao contrário, moléculas que podem replicar irão continuar a serem
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 41
apresentadas na população, se acaso o tempo de vida de cada molécula individual permanecer curto.
O segundo princípio fundamental à evolução é a Variação. Os sistemas de replicação devem passar
por variações, senão a molécula replicada será sempre igual à molécula parente e não poderia haverevolução. Portanto, a variação é necessária para a evolução. Em sistemas vivos, elas são as
mudanças que alteram o significado da mensagem genética. Estas variações são chamadas
Mutações. O terceiro princípio de sistemas em evolução é a Competição. Moléculas em replicação
competem umas com as outras para que os recursos disponíveis, tais como precursores químicos, e
a competição permitam que os processos de evolução por seleção natural ocorram. A variação irá
produzir diferentes populações de moléculas. Alguns variantes descendentes podem, por chance, ser
mais bem adaptado para sobrevivência e replicação sobre condições prevalentes do que são suas
moléculas parentas, as condições prevalentes exercem uma pressão seletiva que dá uma vantagem
a um dos variantes. Aquelas moléculas que são mais capazes de sobreviverem e auto-replicarem irão
aumentar em relativa concentração. Dessa forma, novas moléculas surgem as quais são mais bem
capazes de replicar sob as condições de seu ambiente. Os mesmos princípios são verdadeiros para
organismos modernos. Embora as mudanças que levam a variações aconteçam ao nível molecular, a
vantagem seletiva é manifestada ao nível de organismo.
Os principais problemas em filogenia incluem: a maioria das espécies que participam no
processo de evolução está extinta; a inferência do relacionamento entre espécies existentes e um
método para avaliar o processo; e que o relacionamento pode ser feito por morfologia, anatomia,
embriologia ou comparação de seqüências de genes ou de produtos dos genes, RNA e proteína.
Mudanças evolucionárias em seqüências de DNA e Proteína
Quando nós analisamos seqüências se DNA ou de proteína, nós estamos quase sempre
estudando seqüências modernas (dos dias atuais). É preciso ainda considerar que existem diferenças
em estudar seqüências de DNA e de seqüências de proteínas. As mudanças evolucionárias de
seqüências de DNA são mais complicadas do que as de seqüências de proteínas, uma vez que
existem vários tipos de regiões de DNA, tais como regiões codificadoras de proteínas, regiões não
codantes, exons, introns, regiões flanqueadoras, seqüências de DNA repetitivos e seqüências de
inserção (transposons). É, portanto, importante saber o tipo e a função da região de DNA que está
sendo estudada. Mudanças mutacionais de DNA variam extensivamente com a região do DNA.
Considerando somente as regiões que codificam proteínas, o padrão de substituição de nucleotídeos
não é o mesmo para a primeira, segunda e terceira posições dos códons. Ainda, a própria
degeneração do códon genético também deve ser considerada.
Proteínas são os produtos gênicos primários e a base funcional da vida. A evolução pode ser
estudada tanto via análise de seqüências de proteínas quanto de DNA. Para muitas seqüências de
proteínas, uma história evolucionária pode ter de 1-2 bilhões de anos. A evolução das proteínas
envolve mudanças de poucos resíduos de aminoácidos, inserções e deleções de vários resíduos,
duplicação gênica e fusão de genes. Seqüências de aminoácidos têm uma densidade de informação
menor do que seqüências de DNA, uma vez que estas não mostram substituições não codantes e
Guilherme
Highlight
Guilherme
Highlight
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 42
sinônimas. No entanto, substituições nos aminoácidos podem mostrar mais explicitamente uma
pressão funcional. Por exemplo, podemos observar aminoácidos que são cruciais para a função das
proteínas e/ou estrutura como sendo invariantes (isto é, o mesmo resíduo no mesmo local nesta
proteína em todos as linhagens) ou conservativos (isto é, o resíduo no mesmo local nesta proteína
em todas as linhagens pode alterar, mas apenas para um outro aminoácido de tamanho ou química
similares). A tendência para a substituição em uma dada posição do resíduo varia apreciavelmente.
A estrutura tridimensional de proteínas, quando determinadas por cristalografia de raio-X,
também pode ser usada para estudar a evolução. Isto pode ser feito por comparação de duas
estruturas 3D via superposição, onde uma estrutura é traduzida e girada de forma relativa à outra até
que a soma das distâncias entre os átomos equivalentes seja minimizada, e então a diferença é
quantificada como raiz quadrada da média (rms, root mean square) da distância entre átomos
equivalentes. Uma vez que as seqüências alinham a uma significância estatística, então as estruturas
3D irão sempre superposicionar a uma significância estatística. Se a estrutura 3D de uma proteína é
desconhecida, mas sua seqüência alinha significativamente com a seqüência de uma proteína que
possui estrutura 3D conhecida, por exemplo, por cristalografia de raio-X, esta estratégia de análise
funciona bem. Dessa forma, a estrutura 3D desconhecida pode mostra-se similar aquela já
conhecida. A superposição significativa de estruturas 3D é, muitas vezes, possível onde o
alinhamento significativo de seqüências não pode mais ser detectado, isto é, uma estrutura 3D de
proteína muda menos ao longo do tempo do que sua seqüência. Portanto, as mudanças que podem
ser acumuladas na estrutura de uma proteína, no decorrer do tempo, podem ser vistas na seguinte
escala:
SEQÜÊNCIA CODANTE DA PROTEÍNA (DNA) SEQÜÊNCIA DA PROTEÍNA (AA) ESTRUTURA
TRIDIMENSIONAL DA PROTEÍNA
O conhecimento das estruturas tridimensionais das proteínas ajuda consideravelmente a
revelar eventos que diferem proteínas homologas, tais como aqueles causados por inserções e
deleções de resíduos únicos ou de trechos de resíduos, que afetam não apenas as cadeias laterais,
mas também as cadeias principais e dificultam comparações de seqüências de proteínas
distantemente relacionadas. Em geral, estudos das estruturas 3D de proteínas têm revelado que os
resíduos internos variam lentamente, enquanto que as diferenças entre proteínas homólogas
(alterações de aminoácidos ou deleções e inserções de laços na cadeia) acumulam na superfície.
A Comparação de seqüências de proteínas é a mais ferramenta para a caracterização de
seqüências por causa da enorme quantidade de informação que está preservada através de
processos evolucionários. Proteínas que compartilham um ancestral comum são chamadas
homólogas. A identificação de proteínas homólogas se faz a partir de uma busca por similaridade de
seqüências em bancos de dados comparação de seqüências de proteínas é mais informativa quando
ela detecta proteínas homólogas entre elas. Proteínas homólogas compartilham algumas
características, tais como o folding (empacotamento) da estrutura tri-dimensional, sítios ativos
comuns ou domínios de ligação, podendo ou não compartilhar ainda funções comuns. Como já
discutimos antes, seqüências homólogas podem ser divididas em ortólogas, aquelas que diferem por
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 43
causa da especiação e, portanto são encontradas em espécies diferentes, e parálogas, aquelas que
diferem por causa de um evento de duplicação. Em geral, árvores de organismos e árvores de
seqüências não casam se as seqüências forem parálogas.
Um pouco de terminologia
Atualmente, denomina-se dendrograma, qualquer diagrama ramificado (do tipo árvore) que
conecta elementos. Sob o termo de filogenia, abrigam-se diferentes conceitos próximos, mas não
idênticos. A cladograma denomina-se um dendrograma que expressa relações filogenéticas apenas
entre táxons terminais (espécies ou supra-específicos). Num cladograma nunca inclui indicação de
que uma dada espécie é ancestral de outra, mas apenas que um grupo espécies deve ter tido uma
espécie ancestral comum exclusiva desse grupo. Já uma árvore filogenética, no sentido da
sistemática filogenética, é um dedrograma que expressa relaçõesfilogenéticas tanto entre táxons
terminais, quanto entre espécies ancestrais e espécies descendentes. Árvores filogenéticas podem
ser enraizadas ou não enraizadas, podem ser árvores de genes ou árvores de espécies (população).
Cada grupo na árvore filogenética é chamado táxon. Uma árvore filogenética possui dois elementos:
nó e ramo (galho). Um ramo é uma linha que conecta dois nós. Os nós podem ser externos, os quais
são as pontas da árvore que o taxa está sendo considerado, ou nós internos, os quais são pontos
que representam um ancestral comum de dois ou mais outros nós.
Até alguns 25 anos atrás, as relações históricas de grupos de organismos eram baseadas
basicamente em dados de caracteres morfológicos de um taxa e o fóssil salvo. Com o advento do
seqüenciamento molecular, uma extensão quase inacreditável de uma série de novos dados entrou
para a história. Pesquisadores da área de Sistemática estão normalmente interessados nas relações
do taxa (muitas vezes espécie), e não estão muito interessados nas relações acerca dos dados. Por
outro lado, Biólogos moleculares têm pouco interesse nas relações dos taxa per se, mas ao invés
disso, eles estão interessados nos dados das seqüências.
Construção de árvores filogenéticas a partir de seqüências
Seqüências de genes conservados que codificam proteínas essenciais para a sobrevivência
dos seres vivos, como as histonas que formam o nucleossoma e a β-tubulina que juntamente com a
α-tubulina formam os microtúbulos, essenciais para a divisão celular, são exemplos de regiões de alto
valor filogenético (Isenberg, 1979; Steenkamp et al., 1999; Buchanan et al., 2000; O’Donnell et al.,
1998; 2000).
Outros genes, como o do DNA ribossomal e mitocondrial também possuem valor filogenético,
embora as regiões ITS (internal transcribed spacer), apesar de homólogas, sejam comprovadamente
xenólogas (originaram-se por hibridização interespecífica) ou parálogas (originaram-se por duplicação
gênica) em besouros (Vogler & DeSalle, 1994), nematóides (Zijlstra et al., 1995), plantas (Wendel et
al., 1995) e fungos (O’Donnell & Cigelnik, 1997). Neste caso, dando resultados ambíguos na análise
filogenética.
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 44
Mutações nestas regiões resultariam na extinção daquele indivíduo da população, pois este
morreria sem deixar descendentes. Deste modo, as mutações ocorridas não podem alterar a
funcionalidade de uma proteína essencial para a sobrevivência. Uma vez que a mutação tenha
ocorrido sem causar prejuízo aos indivíduos de determinada população esta é transferida para os
descendentes daquela espécie. Assim, torna-se possível saber as relações de parentesco e
ancestralidade entre as espécies que compartilham ou não estas mutações.
Vários modelos matemáticos foram criados para descrever estas relações através de
topologias de árvores, chamadas de relações filogenéticas. Basicamente, os métodos de construção
de árvores filogenéticas estão divididos em métodos de distância e métodos de caracteres.
Métodos baseados em distância
Dentre os métodos de distância, os mais conhecidos e utilizados são: Unweighted Pair
Grouping by Mathematical Averages (UPGMA) e o método de Neigbor Joining ou Agrupamento de
Vizinhos (NJ). O método UPGMA baseia-se, fundamentalmente, na determinação da similaridade
entre os indivíduos comparados, onde os dois indivíduos de um grupo que apresentam maior
similaridade são agrupados formando os dois primeiros ramos da árvore. Em seguida, estes são
comparados novamente com os outros indivíduos, e aquele que apresentar novamente maior
similaridade, desta vez com o grupo inicial, é então adicionado como o próximo ramo da árvore. Este
procedimento é realizado múltiplas vezes até que o último indivíduo, o mais distante dentre eles, é
adicionado à arvore. Já o método NJ baseia-se no princípio da evolução mínima onde para dois
indivíduos serem considerados próximos é preciso que haja ocorrido o menor número de mudanças
entre eles. Portanto, os vizinhos são agrupados de modo a minimizar o comprimento total da árvore.
Métodos baseados em caracteres
Dentre os métodos de construção de árvores filogenéticas baseadas em caracteres, os mais
utilizados são: Máxima Parcimônia, Máxima Verossimilhança, e Análise Baeysiana.
Máxima Parcimônia
Neste método, a árvore mais parcimoniosa é aquela que necessitou para sua construção o
menor número de mudanças (o comprimento da árvore é minimizado). Como resultado, podem ser
geradas 1 ou mais árvores para avaliação daquela que melhor reflete a filogenia do grupo. O número
de árvores geradas na análise bem como os índices de homoplasia, de retenção e comprimento da
árvore devem ser mencionados na publicação.
Máxima Verossimilhança
Procura por uma árvore que maximize a verossimilhança dos dados de acordo com um
modelo evolucionário. Neste método, diferentemente da parcimônia, todos os sítios são
considerados.
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 45
Análise Bayesiana
Semelhante a máxima verossimilhança, mas difere por calcular as probabilidades após se
conhecer algo sobre os dados e não por modelos pré-estabelecidos.
Construindo árvores filogenéticas
Discutiremos aqui a construção de árvores filogenéticas pelos métodos UPGMA, NJ e
Máxima Parcimônia utilizando o programa Phylogenetics Analysis Using Parsimony (PAUP®;
Swofford, 2000).
Para exemplificar os procedimentos de construção da filogenia de um grupo de indivíduos
utilizaremos um estudo de caso de um grupo de espécies de fungos, o complexo Gibberella fujikuroi,
de grande importância para a agricultura por causar doenças em importantes commodities como o
milho, sorgo, arroz, dentre outras. Estes são também produtores de micotoxinas que são
responsáveis pela indução de câncer. Neste exemplo, pode-se observar uma situação ideal na
sistemática, pois há uma perfeita correspondência entre os conceitos de espécie biológica (Leslie,
1995; O’Donnell et al., 1998; 2000; Leslie et al., 2001) e o conceito de espécies filogenéticas baseado
em genealogia de genes, Figuras 2 e 3 (Taylor, 2000).
Um cuidado que deve ser tomado é o de que todas as seqüências no alinhamento tenham
exatamente o mesmo tamanho, considerando-se os gaps. O programa PAUP considera a primeira
seqüência como sendo o outgroup (indivíduo de uma espécie próxima ao grupo de espécies ou de
indivíduos de uma população em estudo).
Partiremos do princípio de que o alinhamento das seqüências já foi realizado previamente
como mostrado em capítulos anteriores e que o sinal filogenético do gene já foi testado previamente.
Já os modelos de substituição nucleotídica (Jukes & Cantor, Kimura, Tamura, entre outros) são
utilizados para corrigir alguma transição ou transversão nucleotídica, ou mutações sobrepostas que
possam interferir no resultado da análise (normalmente esta análise é feita no primeiro estudo a
utilizar determinado gene para determinar as relações filogenéticas de um grupo de indivíduos).
Outro cuidado é o de incluir pelo menos dois genes e, numa situação ideal, dezenas deles,
para que a árvore filogenética reflita realmente a filogenia do grupo de indivíduos em estudo “árvore
filogenética” e não a filogenia de um determinado gene “árvore de gene”. Outra consideração
importante é a de procurar correlacionar dados da biologia, ecologia, morfologia, relações com
hospedeiros (no caso de parasitas) e geografia para dar o embasamento à árvore filogenética.
A interface do programa PAUP® é semelhante à do programa SAS® (Statistic AnalysisSystem) que utiliza blocos de comandos. Abaixo está um exemplo de arquivo do PAUP®, um
alinhamento de seqüências nucleotídicas de espécies biológicas de Gibberella (Figura 1). O formato
de arquivo utilizado é o NEXUS.
O alinhamento pode ser transformado diretamente em arquivo do PAUP®, utilizando o
programa BioEdit® (Hall, 1999). Para tal, vá para a barra de menus e selecione a opção File > Export
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Guilherme
Highlight
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 46
> Sequence Alignment. Em seguida, selecione PAUP/NEXUS como tipo de arquivo. Renomeie e
salve. O arquivo será salvo como a seguir (Figura 1).
Exemplo de arquivo do PAUP:
Figura 1. Exemplo de arquivo nexus do PAUP®.
Abra este arquivo selecionando na barra de menus do PAUP® as opções file > open. Aparecerá uma
janela > selecione o arquivo > na barra inferior da janela marque a opção “execute”. Se não houver
nenhum erro no arquivo este será executado, e na tela de “output” aparecerá a seguinte mensagem:
-----------------------------------------------------------------------------------------------------------
Processing of file "E:\Curso Bioinform?tica\EF1aMPS_paup_Exemple.nex" begins...
Data read in DNA format
Data matrix has 9 taxa, 706 characters
Valid character-state symbols: ACGT
Missing data identified by '?'
Gaps identified by '-'
"Equate" macros in effect:
R,r ==> {AG}
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 47
Y,y ==> {CT}
M,m ==> {AC}
K,k ==> {GT}
S,s ==> {CG}
W,w ==> {AT}
H,h ==> {ACT}
B,b ==> {CGT}
V,v ==> {ACG}
D,d ==> {AGT}
N,n ==> {ACGT}
Processing of file "E:\Curso Bioinform?tica\EF1aMPS_paup_Exemple.nex" completed.
------------------------------------------------------------------------------------------------------------
Caso o arquivo contenha algum erro, será aberta uma janela de edição para que seja
corrigido o erro no arquivo antes de se prosseguir.
Agora que o arquivo foi processado, as análises filogenéticas poderão ser realizadas
utilizando a barra de comandos do PAUP® que fica na parte inferior da janela, ou utilizando blocos de
comando do PAUP® anexados no final do arquivo.
Para as análises de UPGMA e de NJ não são necessários muitos comandos, pois estas não
possuem muitas opções que podem ser alteradas. No caso especifico da análise de NJ pode-se
calcular o modelo de substituição nucleotídica mais adequado para o conjunto de dados em estudo
pelo uso do programa MODELTEST® (Posada & Crandall, 1998) o qual fornece as opções que devem
ser adicionadas no bloco de comandos.
A seguir são mostrados comandos básicos do programa PAUP® para a construção de árvores
filogenéticas utilizando os métodos de distância (UPGMA e NJ) e de caracteres (Máxima Parcimônia).
1 Métodos de distância
Análise UPGMA
Para se fazer a análise UPGMA, basta digitar na barra de comandos do PAUP a palavra:
UPGMA. Em seguida, pressionar enter ou selecionar “execute”.
Para salvar a árvore gerada, digitar na barra de comandos o seguinte:
Savetree file=nome do arquivo.tre brlens=yes;
Pressionar “enter”
A árvore será salva como arquivo do programa TreeView® (Page, 1996).
Para se fazer a análise de bootstrap, digitar na barra de commandos:
Set criterion=distance;
Pressionar “enter”
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 48
bootstrap search=upgma nreps=1000 grpfreq=no;
Pressionar “enter”
Geralmente, a árvore de bootstrap não é mostrada nas publicações, mas apenas os valores
de bootstrap adicionados à árvore UPGMA.
Análise NJ
Para se fazer a análise NJ, basta apenas digitar na barra de comandos do PAUP a palavra
“NJ”. Em seguida, pressionar “enter” ou selecionar “execute”.
Para salvar a árvore gerada, digitar na barra de comandos o seguinte:
Savetree file=nome do arquivo.tre brlens=yes;
Pressionar “enter”
A árvore será salva como arquivo do programa TreeView®.
Para se fazer a análise de Bootstrap, digitar na barra de commandos:
Set criterion=distance;
Pressionar “enter”
bootstrap search=nj nreps=1000 grpfreq=no;
Pressionar “enter”
No caso dos blocos de comandos, estes são adicionados no final do arquivo NEXUS ou em
arquivo separado. Ao executar o arquivo a análise é realizada concomitantemente.
Quando os dados requerem a utilização de um modelo de substituição nucleotídica na análise
NJ, então se deve utilizar o programa MODELTEST® para estimar os parâmetros a serem
adicionados ao bloco de comandos, como no exemplo abaixo:
#Nexus [indica que o arquivo será salvo no PAUP no formato NEXUS e será executado
separadamente. Se o bloco de comandos for adicionado no final do alinhamento, excluir “#Nexus”]
Begin PAUP;
execute nome do arquivo.nex;
Pset gap mode=newstate; [configura gap como quinto caractere]
Set autoclose=yes criterion=distance; [configura método dos quadrados mínimos]
Lset Base=equal Nst=2 Tratio=3.1585 Rates=gamma Shape=1.0980 Pinvar=0; [exemplo
hipotético de dados fornecidos pelo programa MODELTEST®]
Dset distance=ML;
nj; [comando para que a análise seja pelo método de agrupamento de vizinhos]
Savedist diagonal=no format=nexus ndecimals=3 triangle=lower file=nome do arquivo.nex
replace=yes;
Savetrees file=nome do arquivo.tre format=altnexus brlens=yes replace=yes;
end;
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 49
2 Métodos de caracteres
Abaixo está o bloco de comandos para se realizar a análise de Máxima Parcimônia e em
seguida a análise de Bootstrap.
Análise de Máxima Parcimônia
Bloco de comandos para a análise de Máxima Parcimônia com as opções selecionadas de
acordo com a literatura para este exemplo específico (Steenkamp et al., 1999).
Begin PAUP; [início do bloco de commandos]
Set autoclose=yes;
Set criterion=parsimony; [aqui o critério escolhido para a análise, foi o de parcimônia]
Pset gapmode=newstate; [nesta opção o gap é considerado como um quinto caractere na análise]
hsearch swap=TBR Multrees=yes;
Pscores/ CI=yes RI=yes HI=yes RC=yes; [com estas opções, serão mostrados no output os índice
de consistência (CI), índice de retenção (RI), índice de homoplasia (HI) e índice de consistência
rescalonado]
Root rootmethod=outgroup outroot=monophyl;
Savetrees format=altnexus brlens=yes file=MPS_GFC_HIST_Mp.tre Replace=yes; [aqui é
escolhido o nome do arquivo da árvore gerada “file= MPS_GFC_HIST_Mp.tre”
end; [fim do bloco de comandos]
Análise de suporte da topologia da árvore filogenética (Bootstrap)
A análise de bootstrap é um método estatístico utilizado para avaliar a topologia de árvores
filogenéticas. Os valores de bootstrap variam de 0 a 100, porém o PAUP só mostra valores iguais ou
superiores a 50. Quando a topologia da árvore é bem suportada, os valores de bootstrap são
superiores a 95. Na análise de bootstrap é gerada a árvore consenso, cuja ramificação é definida pelo
suporte dado na análise (Figura 2). Porém, na maioria das publicações é apresentada a árvore de
máxima parcimônia com os valores de bootstrap transferidos para a mesma. Abaixo, é apresentado o
bloco de comandos da análise de bootstrap para ser inserido no arquivo Nexus do Paup, após o
bloco de comandos da análise de parcimônia. Os procedimentos para a análise de bootstrap para os
métodos de UPGMA e NJ foram descritos acima.
Bloco de comandos para análise de bootstrap utilizando como critério a parcimônia.
Begin PAUP;
Set autoclose=yes
criterion=parsimony maxtrees=1000 increase=auto;
Pset gapmode=newstate;
hsearch swap=TBR Multrees=yes;
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG /GEN 50
Bootstrap Nreps=1000; [número de repetições na análise, 1000 é o recomendado]
Pscores/ CI=yes RI=yes HI=yes RC=yes;
Root rootmethod=outgroup outroot=monophyl;
Savetrees SaveBootP=both from=1 to=1000 MaxDecimals=0
file=MPS_GFC_HIST_Boot.tre replace=yes; [aqui é escolhido o nome do arquivo da árvore gerada
“file= MPS_GFC_HIST_Boot.tre”]
end;
ANEXOS
Exemplos práticos
Figura 2
Árvore consenso gerada na análise de bootstrap com os valores indicados nos nós. Neste caso
utilizou-se o critério de parcimônia para a análise de seqüências nucleotídicas combinadas de
fragmentos dos genes que codificam o fator de elongação 1α e a histona H3. Esta descreve as
relações filogenéticas entre espécies biológicas de fungos do complexo Gibberella fujikuroi.
Figura 3
Relações filogenéticas entre espécies biológicas de fungos do complexo Gibberella fujikuroi inferidas
a partir de seqüências nucleotídicas combinadas de fragmentos dos genes que codificam o fator de
elongação 1α e a histona H3, utilizando-se os métodos UPGMA, Agrupamento de Vizinhos (NJ) e
Máxima Parcimônia. Note que a árvore gerada pelo método NJ é praticamente idêntica àquela de
máxima parcimônia, enquanto que a árvore de UPGMA possui uma topologia diferente. O método de
máxima parcimônia é o mais utilizado na literatura para a construção de árvores filogenéticas.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 51
PAUP_1
10
FnygMPG
FthaMPF
51
FverMPA
61
FproMPD
FfujMPC
100
FsacMPB
91
FsubMPE
FcirMPH
100
100
Foxy
0
Figura 2. Árvore consenso gerada na análise de bootstrap, critério parcimônia, mostrando as
relações filogenéticas entre espécies biológicas de Gibberella fujikuroi inferidas utilizando-
se seqüências nucleotídicas combinadas de fragmentos dos genes que codificam o fator
de elongação 1α e a histona H3. Os valores de bootstrap são indicados nos nós. Foxy =
Fusarium oxysporum (outgroup); FverMPA = Gibberella moniliformis / Fusarium
verticillioides mating population A; FsacMPB = Gibberella sacchari / Fusarium sacchari
mating population B; FfujMPC = Gibberella fujikuroi / Fusarium fujikuroi mating population
C; FproMPD = Gibberella intermedia / Fusarium proliferatum mating population D;
FsubMPE = Gibberella subglutinans / Fusarium subglutinans mating population E;
FthaMPF = Gibberella thapsina / Fusarium thapsinum mating poupulation F; FnygMPG =
Gibberella nygamai / Fusarium nygamai mating population G; e FcirMPH = Gibberella
circinata / Fusarium circinatum mating population H.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 52
PAUP_1
FsubMPE
FcirMPH
FnygMPG
FthaMPF
FverMPA
FproMPD
FfujMPC
Foxy
FsacMPB
PAUP_1
10
FnygMPG
FthaMPF
FverMPA
FsubMPE
FcirMPH
FproMPD
FfujMPC
FsacMPB
Foxy
PAUP_1
10
FnygMPG
FthaMPF
FverMPA
FsubMPE
FcirMPH
FproMPD
FfujMPC
FsacMPB
Foxy
Figura 3. Relações filogenéticas entre espécies biológicas de Gibberella fujikuroi inferidas utilizando-se seqüências nucleotídicas combinadas de fragmentos
dos genes que codificam o fator de elongação 1α e a histona H3: A. método UPGMA; B. método de Agrupamento de Vizinhos (NJ); e C. método
de Máxima Parcimônia. Foxy = Fusarium oxysporum (outgroup); FverMPA = Gibberella moniliformis / Fusarium verticillioides mating population A;
FsacMPB = Gibberella sacchari / Fusarium sacchari mating population B; FfujMPC = Gibberella fujikuroi / Fusarium fujikuroi mating population C;
FproMPD = Gibberella intermedia / Fusarium proliferatum mating population D; FsubMPE = Gibberella subglutinans / Fusarium subglutinans
mating population E; FthaMPF = Gibberella thapsina / Fusarium thapsinum mating poupulation F; FnygMPG = Gibberella nygamai / Fusarium
nygamai mating population G; e FcirMPH = Gibberella circinata / Fusarium circinatum mating population H.
A B C
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 53
Bibliografia citada
AMORIM D S. Fundamentos de Sistemática Filogenética. Holos, 2002. 156p.
BUCHANAN, B; GRUISSEM, W; JONES, RL. 2000. Biochemistry & Molecular Biology of Plants.
Rockville: American Society of Plant Biologists. 1367p.
HALL, TA. 1999. BioEdit: a user-friendly biological sequence alignment editor and analysis program for
Windows 95/98/Me/XP/NT. Nucleic Acids Symposium Series. 41:95-98.
ISENBERG, I. 1979. Histones. Annu. Rev. Biochem. 48:159-191.
KOONIN, E V & GALPERIN, Y M. Sequence – evolution – function: computational approaches in
comparative genomics. Kluwer Academic Publishers. Norwell, Massachusetts, USA. 2002.
LESLIE, JF. 1995. Gibberella fujikuroi: available populations and variable traits. Can. J. Bot. 73:S282-
S291.
LESLIE, JF; ZELLER, KA; SUMMERELL, BA. 2001. Icebergs and species in populations of Fusarium.
Physiological and Molecular Plant Pathology. 59:107-117.
O’DONNELL, K; CIGELNIK, E. 1997. Two divergent intragenomic rDNA ITS2 types within a monophyletic
lineage of the fungus Fusarium are nonorthologous. Molec. Phylogenetics Evol. 7:103-116.
O’DONNELL, K; CIGELNIK, E; NIRENBERG, HI. 1998. Molecular systematics and phylogeography of the
Gibberella fujikuroi species complex. Mycologia. 90(3):465-493.
O’DONNELL, K; NIRENBERG, HI.; AOKI, T; CIGELNIK, E. 2000. A multigene phylogeny of the Gibberella
fujikuroi species complex: detection of additional phylogenetically distinct species. Mycoscience.
41:61-78.
PAGE, RDM. 1996. TREEVIEW: An application to display phylogenetic trees on personal computers.
Computer Applications in the Biosciences. 12:357-358.
POSADA, D; CRANDALL, KA. 1998. MODELTEST: testing the model of DNA substitution. Bioinformatics.
14:817-818.
STEENKAMP, ET; WINGFIELD, BD; COUTINHO, TA; WINGFIELD, MJ; MARASAS, WFO. 1999.
Differentiation of Fusarium subglutinans f. sp. pini by histone gene sequence data. Appl. Environ.
Microbiol. 65(8):3401-3406.
SWOFFORD, DL. 2000. PAUP*: Phylogenetic Analysis Using Parsimony (*and Other Methods). Sinauer
Associates, Sunderland, MA.
TAYLOR, JW; JACOBSON, DJ; KROKEN, S; KASUGA, T; GEISER, DM; HIBBETT, DS; FISHER, MC.
2000. Phylogenetic species recognition and species concepts in fungi. Fungal Genetics and Biology.
31:21-32.
VOGLER, AP; DESALLE, R. 1994. Evolution and phylogenetic information content of the ITS-1 region in
the tiger beetle Cicindela dorsalis. Molec. Biol. Evol. 11:393-405.
WENDEL, JF; SCHNABEL, A; SEELANAN, T. 1995. An unusual ribosomal DNA sequence from
Gossypium gossypioides reveals ancient, cryptic, intergenomic introgression. Molec. Phylogenetics
Evol. 4:298-313.
Curso de Bioinformática: do seqüenciamento a função biológica, UFLA / PRPG / GEN 54
ZIJLSTRA, C; LEVER, AEM; UENK, BJ; VAN SILFHOUT, CH. 1995. Differences between ITS regions of
isolates of root-knot nematodes Meloidogyne hapla and M. chitwoodi. Phytopathology. 85:1231-1237.
Bibliografia recomendada
HALL, B. 2004. Phylogenetic trees made easy: a how-to manual, Second Edition. Sunderland: Sinauer
Associates. 221p.
HILLS, DM; MORITZ, C; MABLE, BK. 1996. Molecular systematics, Second Edition. Sunderland: Sinauer
Associates. 655p.
NEI, M.; KUMAR, S. 2000. Molecular evolution and phylogenetics. New York: Oxford University Press.
333p.
SCHNEIDER, H. 2003. Métodos de análise filogenética: um guia prático. Ribeirão Preto: Holos, Editora e
Sociedade Brasileira de Genética. 114p.
Onde obter os programas computacionais citados
BioEdit
http://www.mbio.ncsu.edu/BioEdit/bioedit.html
MODELTEST
http://www.zoology.byu.edu/crandall_lab/modeltest.htm
PAUP
http://paup.csit.fsu.edu/
TreeView
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
Obs.: Existem outros programas não discutidos que podem ser utilizados na construção e edição de
árvores filogenéticas. O fato dos outros programas não terem sidocitados não significa a
desaprovação dos mesmos pelo autor.