Prévia do material em texto
UNIVERSIDADE FEDERAL DO PIAUÍ CAMPUS DE PARNAÍBA CURSO DE BIOMEDICINA Disciplina: BIOINFORMÁTICA Prof. Jefferson Soares de Oliveira Resumo aula – Alinhamento de Sequências O alinhamento de sequências consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade. Para tanto as ferramentas de bioinformática utilizam algoritmos matemáticos que permitem obter as melhores comparações. O alinhamento de sequencias permite localizar trechos conservados entre genomas, comparar uma sequência desconhecida que foi recém- identificada, com bancos de dados de sequências com funções conhecidas ou ainda permitem a montagem de sequências obtidas a partir da sobreposição de fragmentos de sequências menores. O alinhamento pode ser classificado quanto ao tipo (simples ou múltiplo, local ou global) ou quanto à precisão do alinhamento (heurístico ou ótimo). Ele é classificado com simples quando o alinhamento envolve a análise de sequências de DNA ou proteínas, desde que duas a duas. Global quando comparadas as sequencias de ponta a ponta, local quando analisada pedaços da sequencia. Ótima quando produz o melhor resultado computacionalmente possível. A heurística produz um resultado mais próximo do possível, mas caracterizado pela elevada velocidade de análise. O tipo de alinhamento e a precisão são características definidas pelos programas utilizados para realização da análise. Em nossa aula utilizaremos duas ferramentas de alinhamento de sequencias, o BLAST (Basic Local Alignment Search Tool) e o Clustal Omega. A primeira é uma ferramenta presente no banco de dados do NCBI e é utilizada para identificação de sequencias, utilizando o princípio de alinhamento. A sequencia a ser identificada é informada e a ferramenta realiza buscas no banco de dados informado o resultado que apresentar melhor grau de semelhança. Já o Clustal Omega permite a comparação entre si, de múltiplas sequencias informadas pelo pesquisador. A ferramenta do BLAST pode ser acessada pelo site do NCBI, nas fontes mais populares (Popular Resources) ou através do site (http://blast.ncbi.nlm.nih.gov/Blast.cgi). Na página inicial do BLAST, encontramos algumas ferramentas, dentre elas a Basic BLAST. Dentre os programas disponíveis nesta seção, temos o nucleotide BLAST (blastn), que permite buscar uma sequencia em um banco de dados de nucleotídeo, fornecendo uma sequencia de nucleotídeos; protein BLAST (blastp) que permite buscar uma sequencia em um banco de dados de proteínas, fornecendo uma sequencia de aminoácidos e as demais ferramentas blastx, tblastn e tblastx que permitem buscas diferenciadas. Selecionado o programa blastn, aparece uma página que possui alguns campos de preenchimento: - Enter Query Sequence: neste campo, devemos adicionar a sequencia que se deseja identificar. Ela pode ser adicionada no formato FASTA ou não. - Choose Search Set: neste campo iremos selecionar o organismo que iremos restringir a consulta. Se a sequencia que se deseja identificar foi obtida a partir de análise de seres humanos, devemos selecionar a opção “Human genomic + transcript”. Desta forma, a ferramenta irá comparar a sequencia de nucleotídeos informada com sequencias genômicas e de moléculas de mRNA de seres humos presentes no banco de dados. Se a sequencia de origem pertence a outro organismo, por exemplo, E. coli, devemos escolher a opção ”Others (nr etc)” e adicionar “Escherichia coli” no campo “Organism”. - Program Selection: Neste campo será selecionada a precisão do alinhamento, diferem pelo algoritmo matemático utilizado na comparação das sequencias. - Highly similar sequences (megablast): destina-se a comparação de sequências com percentagem de identidade > 95%. Utilizada na comparação de sequencias da mesma espécie. - More dissimilar sequences (discontiguous megablast): permite a ocorrência de mismacht e destina-se a comparações entre espécies diferentes. - Somewhat similar sequences (blastn): Alinhamento lento. UNIVERSIDADE FEDERAL DO PIAUÍ CAMPUS DE PARNAÍBA CURSO DE BIOMEDICINA Disciplina: BIOINFORMÁTICA Prof. Jefferson Soares de Oliveira Após seleção dos parâmetros mais adequados para a busca desejada, basta clicar no botão “BLAST” para que a busca seja iniciada. Uma vez que a varredura seja completada aparecerá uma tabela no campo “Graphic summary” contendo os resultados da busca, classificadas de acordo com o score de alinhamento, dividido em cinco cores (Color Key for Alignment Score). Cada linha colorida que aparece abaixo representa um resultado do alinhamento. Scores > 200 são considerados significativos, ou seja, a sequência informada é matematicamente similar a alguma sequencia presente no banco de dados. Entretanto, das várias sequencias que apresentam similaridade com a sequência de informada, qual delas poderia ser utilizada para atribuir identidade a minha sequencia? Para indicar esta sequência devemos buscar pelo valor máximo de score (Max score) na tabela presenta na seção “Descriptions”. Geralmente, a primeira sequencia é a que apresenta maior valor de score e a sequencia que será utilizada para dar identidade a sequencia de interesse. Nesta tabela ainda aparecem outras colunas, como Query cover, que indica a percentagem de cobertura do alinhamento entre a sequência informada e o presente no banco de dados (indica se o tamanho das sequencias são parecidos. 100% indicam que as duas sequências tem o mesmo tamanho); e o ident, que descreve a similaridade entre as sequencias. Assim, para se determinar a identidade de uma sequencia de interesse, iremos nos basear na sequencia que apresentar o maior valor de score e se este valor de score é maior ou igual a 200. Caso desejemos identificar uma sequencia de aminoácidos, devemos escolher o programa blastp. Os campos de preenchimento são semelhantes àqueles observados no programa blastn. Na hora de escolher o “Program Selection”, devemos escolher a opção “blastp (protein-protein BLAST)”, independente do organismo de origem ser conhecido ou não. Esta opção simplesmente compara sequencia de aminoácidos informada com sequencias presentes no banco de dados. As demais opções de algoritmos são utilizadas para abordagens específicas de alinhamentos locais. A identificação da proteína é realizada de modo similar ao efetuado para a sequência de nucleotídeos. A identidade da sequencia será feita com base no resultado que apresentar o maior valor de score e se este valor de score é maior ou igual a 200. O Clustal Omega é uma ferramenta que permite a comparação de múltiplas sequencias, sejam de nucleotídeos ou aminoácidos. É uma interessante ferramenta utilizada para estudar o grau de similaridade entre sequencias, encontrar regiões conservadas entre genomas, genes e proteínas. Na página inicial do programa (http://www.ebi.ac.uk/Tools/msa/clustalo/) aparecem alguns passos (STEP) que devem ser preenchidos. No “STEP 1”, devemos informar as várias sequencias que desejamos comparar. Todas as sequencias devem ser inseridas no formato FASTA. No momento, devemos informar se as sequencias a serem analisadas se referem a nucleotídeos (DNA) ou aminoácidos (PROTEIN). No “STEP 2” altera parâmetros d e consulta. Não iremos alterar esta opção, trabalhando assim com as configurações padrões. O “STEP 3” se refere a submissão dos dados para análise. Clicando em “Submit” dará início ao processo de alinhamento das sequencias. Após validação dos dados, os resultados do alinhamento serão apresentados. Na guia “Alignment” será apresentado o resultado do alinhamento das sequencias. Os asteriscos que aparecem abaixo das sequencias indicamque naquela posição formam identificados os mesmo aminoácidos ou nucleotídeos. Quanto mais asteriscos, maior o grau de conservação daquela molécula na sequencia. Na guia “Guide tree” encontramos uma arvore filogenética construída analisando o grau de similaridade entre as sequencias. Quanto mais similares, mais próximas, filogeneticamente, estarão as sequencias.