Tema 3. Análisis de secuencias Flashcards

1
Q

¿Cómo se estudia un genoma?

A

En genómica, el estudio de un genoma consta de 5 etapas:

1) Obtención de la secuencia mediante técnicas de secuenciación
2) Análisis de la secuencia: se basa en atribuir una función a una determinada región del genoma, esto se conoce como anotación y tiene como objetivo obtener una descripción de los elementos funcionales del genoma (describir todos los parámetros de interés que tiene ese genoma)
3) Análisis del genoma de forma global
4) Análisis comparativo de distintos genomas
5) Estudios de Genómica funcional

Los pasos 1-4 se catalogan dentro de la Genómica Estructural. En cuanto a la etapa 2, el análisis de la secuencia se va a centrar en 6 objetivos:

1) Tamaño del genoma
2) Asociar una secuencia de DNA a cada cromosoma
3) Contenido en G+C. Es muy útil para estudios de desnaturalización. Tiene que ver con el uso de codones y se analiza el contenido G+C porque su emparejamiento tiene más fuerza al tener 6 puentes de hidrógeno.
4) Identificación de genes, buscando ORF tanto en genes codificantes de proteínas como no codificantes
5) Identificación de secuencias reguladoras
6) Identificación de pseudogenes, elementos genéticos móviles y otros elementos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Qué es el contenido G+C?

A

En general los seres vivos presentan una homogeneidad conservada en el contenido promedio de G+C, al comparar su genoma con respecto a otros organismos. No obstante, esto varía dentro de los distintos grupos de organismos

Los organismos eucarióticos presentan un grado determinado de G+C, en el cual se encuentran la mayoría de los genomas de las distintas especies pertenecientes a dichos grupos

A mayor complejidad evolutiva, la variabilidad de G+C es menor, como se ve en vertebrados, pues están casi todas las especies en torno al 40-44%. Por otro lado, tenemos el mundo procariótico, en el cual las bacterias presentan una gran diversidad en contenido G+C, desde valores bajos a muy altos. Esta información se usa para clasificarlas en grupos taxonómicos atendiendo a su contenido en G+C

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Cómo se identifican los genes?

A

A partir de la secuencia completa del genoma vamos a buscar regiones que sean posibles genes. Para ello, se suelen usar métodos bioinformáticos y experimentales (se usan técnicas de genética molecular para comprobar los genes predichos de forma bioinformática)

Así, los métodos experimentales más comunes son la hibridación Northern, la secuenciación de cDNA, la RACE (amplificación rápida de extremos de cDNA), el análisis de heterodúplex, la trampa de exones… Todos a gran escala

Respecto de los métodos bioinformáticos cabe decir que son cruciales en la identificación de genes. Con ellos se aborda el problema mediante dos tipos de estrategias:

a) Estrategias intrínsecas: buscamos genes atendiendo a las propiedades de la propia secuencia y no de inferencias obtenidas de la comparación de esa secuencia con otras. Buscamos elementos característicos propios de un ORF o de un límite exón-intrón. La propia secuencia indica la presencia de un gen posible ya que se buscan elementos característicos de un tipo de secuencia que pertenece a un gen. Para resolver el problema desde esta estrategia se usan varias formas de operación:

  1. Búsqueda de ORFs para buscar un gen codificante
  2. Uso de codones
  3. Límites exón-intrón para buscar genes codificantes en eucariotas
  4. Secuencias reguladoras

b) Estrategias extrínsecas: se basa en encontrar genes mediante la comparación de la secuencia con otras de distintos organismos, se realiza al lanzar nuestra secuencia en una base de datos

Además no solo hay genes codificantes de proteínas, sino también genes no codificantes que van a transcribirse en RNA reguladores (ncRNA, RNA no codificante) de la transcripción y sobre todo, de la traducción como tRNA, rRNA, miRNA, lncRNA, siRNA…

Los genes codificantes van marcados por ORFs y los no codificantes no tienen y no dan lugar a proteínas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

En cuanto a las estrategias intrínsecas, ¿cómo se identifican genes codificantes mediante la búsqueda de ORFs?

A

Para la identificación de genes codificantes debemos tener en cuenta el concepto de Marco Abierto de Lectura (ORF), el cual se refiere a una porción de DNA que contiene una secuencia de tripletes que codifican aa. Comienza por un triplete de ATG y termina con cualquiera de los 3 tripletes de parada o stop. Esto no nos asegura que haya genes en este fragmento, pero hay muchas posibilidades. Además, cada fragmento de DNA tiene 6 fases de lectura posibles, 3 en cada cadena

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Cómo se realiza la búsqueda de ORFs en procariotas?

A

La búsqueda de ORF en una secuencia de DNA se basa en encontrar, en una de las fases de lectura, una región de considerable tamaño que (no es por el azar, aunque cada especie sí que tiene un número de codones STOP típico determinado por el azar) comienza con el codón inicio y termina en un codón STOP, sin ser interrumpida por un codón STOP en su interior

En el caso de procariotas solo tendremos estas condiciones debido a que no hay intrones, por lo que la secuencia codificante solamente podrá estar entre un codón inicio y un codón STOP. Este método es usado por los algoritmos bioinformáticos. Además, es necesario proporcionar parámetros numéricos como el contenido en G+C, que se usa para determinar la probabilidad de codones STOP (TAA, TAG, TGA), sabiendo que la mayoría comparten una secuencia TA. Para la búsqueda se emplean los codones stop porque la probabilidad de encontrar estos (3/64) es mucho mayor que usando el codón de inicio (1/64). A parte de esto, hay que tener en cuenta el tamaño del ORF, siendo el límite máximo de 100 codones. También es necesaria una comprobación experimental o buscar en bases de datos secuencias que sí codifican genes en otros organismos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Cómo se realiza la búsqueda de secuencias reguladoras en procariotas?

A

Para identificar genes también es un elemento crucial los promotores de la transcripción, ya que estos podrían indicar la presencia de una región génica.

En el caso de genes codificantes de proteínas, a parte de la estructura de un promotor, vamos a encontrar una secuencia de Shine-Dalgarno (SD):

a) Situada unos 6-7 nt antes del codón de inicio y está después del sitio de inicio de la transcripción (TSS)
b) Es crucial para la interacción con el ribosoma y por ello en la traducción de la secuencia génica. Ya que es un sitio de reconocimiento de RNA 16S de la subunidad menor de procariota
c) Además SD es una región rica en purinas

Aguas arriba de la secuencia SD se encuentra el promotor bacteriano que se caracteriza por dos regiones con secuencias consenso: en la posición -10, se encuentra la caja TATA (o caja Pribnow) rica en A y T y en la posición -35 se encuentra otra secuencia conservada; estas regiones son claves para la interacción del DNA con la polimerasas y proteínas reguladoras de la transcripción

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Cómo se identifican genes en eucariotas?

A

Un gen eucariótico es mucho más complejo que uno procariótico, porque la secuencia génica está compuesta por exones e intrones, además están bordeados por regiones UTR en ambos extremos (5’UTR y 3’UTR) y evidentemente presentan promotores y secuencias reguladoras aguas arriba del inicio de la transcripción. Aunque comparten que al principio haya un codón de inicio y al final un codón stop, la secuencia codificante va a estar separada por intrones muy grandes, y en los que puede haber incluso secuencias reguladoras. La combinación de estas secuencias reguladoras da lugar a factores de transcripción distintos, más o menos fuertes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Cuál es el fundamento de la búsqueda de ORFs en procariotas?

A

Como sabemos los genes sufren un procesamiento alternativo de un transcripto primario a un transcripto maduro. El transcrito primario se procesa eliminando los intrones y uniendo las secuencias codificantes.

Los genes se encuentran flanqueados por intrones, estas regiones son no codificantes por lo que podremos encontrar codones stop, mientras los exones no podrán contener codones stop debido a que sí son codificantes. Este es un método basado en la búsqueda de ORFs en procariotas mediante la presencia-ausencia de codones stop

No

How well did you know this?
1
Not at all
2
3
4
5
Perfectly