Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

UNIVERSIDADE FEDERAL DO PIAUÍ 
CAMPUS DE PARNAÍBA 
CURSO DE BIOMEDICINA 
Disciplina: BIOINFORMÁTICA 
Prof. Jefferson Soares de Oliveira 
 
Resumo aula – Alinhamento de Sequências 
 
 
 O alinhamento de sequências consiste no processo de comparar duas ou mais 
sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade. 
Para tanto as ferramentas de bioinformática utilizam algoritmos matemáticos que permitem 
obter as melhores comparações. O alinhamento de sequencias permite localizar trechos 
conservados entre genomas, comparar uma sequência desconhecida que foi recém-
identificada, com bancos de dados de sequências com funções conhecidas ou ainda permitem 
a montagem de sequências obtidas a partir da sobreposição de fragmentos de sequências 
menores. 
 O alinhamento pode ser classificado quanto ao tipo (simples ou múltiplo, local ou 
global) ou quanto à precisão do alinhamento (heurístico ou ótimo). Ele é classificado com 
simples quando o alinhamento envolve a análise de sequências de DNA ou proteínas, desde 
que duas a duas. Global quando comparadas as sequencias de ponta a ponta, local quando 
analisada pedaços da sequencia. Ótima quando produz o melhor resultado 
computacionalmente possível. A heurística produz um resultado mais próximo do possível, mas 
caracterizado pela elevada velocidade de análise. O tipo de alinhamento e a precisão são 
características definidas pelos programas utilizados para realização da análise. Em nossa aula 
utilizaremos duas ferramentas de alinhamento de sequencias, o BLAST (Basic Local Alignment 
Search Tool) e o Clustal Omega. A primeira é uma ferramenta presente no banco de dados do 
NCBI e é utilizada para identificação de sequencias, utilizando o princípio de alinhamento. A 
sequencia a ser identificada é informada e a ferramenta realiza buscas no banco de dados 
informado o resultado que apresentar melhor grau de semelhança. Já o Clustal Omega permite 
a comparação entre si, de múltiplas sequencias informadas pelo pesquisador. 
 A ferramenta do BLAST pode ser acessada pelo site do NCBI, nas fontes mais 
populares (Popular Resources) ou através do site (http://blast.ncbi.nlm.nih.gov/Blast.cgi). Na 
página inicial do BLAST, encontramos algumas ferramentas, dentre elas a Basic BLAST. 
Dentre os programas disponíveis nesta seção, temos o nucleotide BLAST (blastn), que permite 
buscar uma sequencia em um banco de dados de nucleotídeo, fornecendo uma sequencia de 
nucleotídeos; protein BLAST (blastp) que permite buscar uma sequencia em um banco de 
dados de proteínas, fornecendo uma sequencia de aminoácidos e as demais ferramentas 
blastx, tblastn e tblastx que permitem buscas diferenciadas. Selecionado o programa blastn, 
aparece uma página que possui alguns campos de preenchimento: 
 - Enter Query Sequence: neste campo, devemos adicionar a sequencia que se deseja 
identificar. Ela pode ser adicionada no formato FASTA ou não. 
 - Choose Search Set: neste campo iremos selecionar o organismo que iremos restringir 
a consulta. Se a sequencia que se deseja identificar foi obtida a partir de análise de seres 
humanos, devemos selecionar a opção “Human genomic + transcript”. Desta forma, a 
ferramenta irá comparar a sequencia de nucleotídeos informada com sequencias genômicas e 
de moléculas de mRNA de seres humos presentes no banco de dados. Se a sequencia de 
origem pertence a outro organismo, por exemplo, E. coli, devemos escolher a opção ”Others 
(nr etc)” e adicionar “Escherichia coli” no campo “Organism”. 
 - Program Selection: Neste campo será selecionada a precisão do alinhamento, 
diferem pelo algoritmo matemático utilizado na comparação das sequencias. 
- Highly similar sequences (megablast): destina-se a comparação de 
sequências com percentagem de identidade > 95%. Utilizada na comparação 
de sequencias da mesma espécie. 
- More dissimilar sequences (discontiguous megablast): permite a ocorrência 
de mismacht e destina-se a comparações entre espécies diferentes. 
- Somewhat similar sequences (blastn): Alinhamento lento. 
 
UNIVERSIDADE FEDERAL DO PIAUÍ 
CAMPUS DE PARNAÍBA 
CURSO DE BIOMEDICINA 
Disciplina: BIOINFORMÁTICA 
Prof. Jefferson Soares de Oliveira 
 
 Após seleção dos parâmetros mais adequados para a busca desejada, basta clicar no 
botão “BLAST” para que a busca seja iniciada. Uma vez que a varredura seja completada 
aparecerá uma tabela no campo “Graphic summary” contendo os resultados da busca, 
classificadas de acordo com o score de alinhamento, dividido em cinco cores (Color Key for 
Alignment Score). Cada linha colorida que aparece abaixo representa um resultado do 
alinhamento. Scores > 200 são considerados significativos, ou seja, a sequência informada é 
matematicamente similar a alguma sequencia presente no banco de dados. Entretanto, das 
várias sequencias que apresentam similaridade com a sequência de informada, qual delas 
poderia ser utilizada para atribuir identidade a minha sequencia? Para indicar esta sequência 
devemos buscar pelo valor máximo de score (Max score) na tabela presenta na seção 
“Descriptions”. Geralmente, a primeira sequencia é a que apresenta maior valor de score e a 
sequencia que será utilizada para dar identidade a sequencia de interesse. Nesta tabela ainda 
aparecem outras colunas, como Query cover, que indica a percentagem de cobertura do 
alinhamento entre a sequência informada e o presente no banco de dados (indica se o 
tamanho das sequencias são parecidos. 100% indicam que as duas sequências tem o mesmo 
tamanho); e o ident, que descreve a similaridade entre as sequencias. Assim, para se 
determinar a identidade de uma sequencia de interesse, iremos nos basear na sequencia que 
apresentar o maior valor de score e se este valor de score é maior ou igual a 200. 
 Caso desejemos identificar uma sequencia de aminoácidos, devemos escolher o 
programa blastp. Os campos de preenchimento são semelhantes àqueles observados no 
programa blastn. Na hora de escolher o “Program Selection”, devemos escolher a opção 
“blastp (protein-protein BLAST)”, independente do organismo de origem ser conhecido ou não. 
Esta opção simplesmente compara sequencia de aminoácidos informada com sequencias 
presentes no banco de dados. As demais opções de algoritmos são utilizadas para abordagens 
específicas de alinhamentos locais. A identificação da proteína é realizada de modo similar ao 
efetuado para a sequência de nucleotídeos. A identidade da sequencia será feita com base no 
resultado que apresentar o maior valor de score e se este valor de score é maior ou igual a 
200. 
 O Clustal Omega é uma ferramenta que permite a comparação de múltiplas 
sequencias, sejam de nucleotídeos ou aminoácidos. É uma interessante ferramenta utilizada 
para estudar o grau de similaridade entre sequencias, encontrar regiões conservadas entre 
genomas, genes e proteínas. Na página inicial do programa 
(http://www.ebi.ac.uk/Tools/msa/clustalo/) aparecem alguns passos (STEP) que devem ser 
preenchidos. No “STEP 1”, devemos informar as várias sequencias que desejamos comparar. 
Todas as sequencias devem ser inseridas no formato FASTA. No momento, devemos informar 
se as sequencias a serem analisadas se referem a nucleotídeos (DNA) ou aminoácidos 
(PROTEIN). No “STEP 2” altera parâmetros d e consulta. Não iremos alterar esta opção, 
trabalhando assim com as configurações padrões. O “STEP 3” se refere a submissão dos 
dados para análise. Clicando em “Submit” dará início ao processo de alinhamento das 
sequencias. 
 Após validação dos dados, os resultados do alinhamento serão apresentados. Na guia 
“Alignment” será apresentado o resultado do alinhamento das sequencias. Os asteriscos que 
aparecem abaixo das sequencias indicamque naquela posição formam identificados os 
mesmo aminoácidos ou nucleotídeos. Quanto mais asteriscos, maior o grau de conservação 
daquela molécula na sequencia. Na guia “Guide tree” encontramos uma arvore filogenética 
construída analisando o grau de similaridade entre as sequencias. Quanto mais similares, mais 
próximas, filogeneticamente, estarão as sequencias.

Mais conteúdos dessa disciplina