TP - BLAST Flashcards
O que significa a sigla BLAST?
Basic Local Assignment Search Tool
O que é o Query?
Sequência de DNA ou proteína submetida a uma base de dados para ser comparada
Como se calcula a % de identidade?
nº de resíduos idênticos / nº total de matches
O que nos diz a % de identidade?
Define a percentagem de aminoácidos (ou nucleótidos) com uma correspondência direta no alinhamento
O que significa quando existe uma elevada similaridade?
Implica que pode haver um ancestral comum ou uma função em comum
Como é expressa a similaridade?
Em % de identidade
O que significa o termo “Homologia”?
Refere-se a características (genes ou funções) que descenderam de um ancestral comum.
Implica uma relação evolucionária.
O que significa o termo “Ortólogo”?
Genes ortólogos evoluiram de um ancestral comum, podendo diferir na sua função e sequência genética, mas possuem o mesmo papel biológico básico
O que significa o termo “Parálogo”?
Genes parálogos surgem de eventos de duplicação durante a evolução.
O que é uma substituição conservativa?
É quando um aminoácido sofre uma mutação para um resíduo semelhante, mas as suas propriedades não se alteram.
Como se calcula o comprimento de query?
nº de nucleótidos / a.a na sequência pesquisada
O que é a cobertura de query?
É o quanto a sequência está coberta por alinhamentos significativos.
O que é o “E value”?
Expected value.
Probabilidade de um match ocorrer por acaso.
Idealmente deve ser próximo de 0.
Para que servem as gap penalties?
Para ajustar o score do alinhamento, de acordo com o nº e comprimento dos gaps.
Qual é o sistema de pontuação em scores de alinhamento?
Correspondência de base (+1)
Não-correspondência de base (-1)
Gap penalty (-2)
Gap penalties seguidos (-11; -1 (..))
Que consequências podem haver quando há demasiados gaps?
A sequência pode deixar de fazer sentido.
O que significa o valor de score de alinhamento?
Representa a semelhança entre as sequências.
Quanto maior o score, maior é a significância do “hit”
O que são raw scores?
São scores calculados a partir da matriz.
O que são bit scores?
São scores normalizados e comparáveis entre pesquisas para considerar diferentes matrizes e bases de dados.
O que significa a sigla HSP?
High Scoring Pair
O que são os HSPs?
São duas sequências de igual tamanho e que, quando alinhadas, possuem o score máximo
Qual é o sistema de pontuação em scores de matrizes?
Base correspondente (+2)
Base não-correspondente (-3)
a.a raro correspondente - pontos máximos
Existem 4 matrizes de score diferentes, quais? Qual delas é mais eficaz?
BLOSUM 90
BLOSUM 80
BLOSUM 62 - mais eficaz em encontrar todas as potenciais similaridades (30-40% semelhanças)
BLOSUM 30
Qual é a diferença entre o alinhamento de sequências local e o global?
Local: compara partes de sequências
Global: compara sequências inteiras
RefSeq é redundante ou não-redundante?
não-redundante
Para que serve o BLASTX?
Para identificar regiões codificantes de proteínas em sequências de nucleótidos
Para que serve o TBLASTN?
Para pesquisar sequências de nucleótidos que codificam proteínas semelhantes à sequência query.
O que são os “accession numbers”?
Identificadores associados à sequência submetida na base de dados
Quais são os 3 passos/regras para refinar sequencialmente os potenciais HSPs?
1 - Seeding
2 - Extensão
3 - Avaliação
Explica o 1º passo (Seeding) do refinamento de potenciais HSPs.
Determinação das localizações de todas as words comuns (word hits).
Quanto maior o tamanho da word, menos hits vai gerar.
Explica o 2º passo (Extensão) do refinamento de potenciais HSPs.
Após encontrar um hit, extender o hit em ambas as direções.
Para antes do score cair abaixo do cutoff.
Explica o 3º passo (Avaliação) do refinamento de potenciais HSPs.
Avaliação com E-values.
O que são “words” no BLAST?
São o nº de letras.
O que são words vizinhas?
São sequências iguais à query onde apenas muda um nucleótido.
O que é um “hit”?
É uma correspondência entre uma word e uma entry (entrada) na base de dados.
O que é o “W”?
É o tamanho da word.
O que é o “T”?
É o threshold (limite) do score da word vizinha.
Para que serve o “T”?
É usado para reduzir o nº possível de words correspondentes.
Words com scores >T permanecem na lista de possíveis words correspondentes. Quando score<T, a word é descartada.
Que efeitos positivos e negativos tem um elevado valor de “T”?
- Remove mais hits de words, reduzindo o espaço de pesquisa
- BLAST tem uma execução mais rápida
- Perda de sensibilidade
O que é uma sequência canónica?
É uma sequência de DNA/RNA/a.a que reflete a escolha mais comum de base para cada posição
O que são os cutoffs ou guidelines?
São os limites de E-value, % de identidade que permite analisar
Que utilidade tem a ferramenta de filtrar?
Permite filtrar os resultados para não alinhar com sequências com muitas bases iguais (porque são pouco específicas)
O que são as posições homoplásicas?
São reversões de mutação.
(espécies diferentes passam a ter características iguais)
O que é a hipermutabilidade?
São os hotspots mutacionais, onde existe uma taxa de mutação muito elevada.