Tema 2. Secuenciación de genomas Flashcards
¿En qué se basa la secuenciación?
Se basa en la replicación del DNA por complementariedad de bases. La idea es reproducir in vitro el proceso de replicación in vivo. Necesitamos: DNA polimerasa, cadena molde, cebador con extremo 3’ OH libre (ya que la DNA polimerasa requiere un 3’ OH libre para añadir nuevos nucleótidos) y desoxinucleótidos trifosfato (dNTPs)
¿Cuáles son los principios básicos de la polimerización de DNA in vitro?
Tenemos una cadena molde 3’-5’ a la que le colocamos un cebador 5’-3’ dejando su extremo 3’ OH libre. Vamos añadiendo desoxinucleótidos normales para ir alargando la cadena y cuando añadimos un didesoxinucleótido, que no tiene un extremo 3’ OH libre, se va a detener la síntesis de DNA ya que no se puede formar el siguiente enlace
¿Cómo se lleva a cabo la secuenciación de DNA por el método de los didesoxinucleótidos o Sanger?
Partimos de la cadena molde a secuenciar, DNA polimerasa, un cebador marcado radiactivamente en el extremo 5’ fosfato, los 4 dNTPs y uno de los 4 tipos de didesoxinucleótido trifosfato ddNTP. Este ddNTP es un desoxinucleótido convencional al que se le ha sustituido su 3’ OH por 3’ H, por lo que es incapaz de formar un enlace fosfodiéster en el siguiente nucleótido y la secuenciación se detiene tras incorporarse. La cantidad de didesoxinucleótido va a estar calculada para que esté en proporción suficiente para unirse al DNA, pero no en exceso para que no se una siempre en la primera base. Esto va a dar lugar a la obtención de distintos fragmentos, con distinto tamaño de la misma cadena de DNA, dependiendo del momento en el que se haya incorporado el ddNTP
Repetimos esto en otros 3 tubos para los ddNTP restantes. Una vez que tenemos los 4 tubos se cargan en un gel de poliacrilamida y se someten a electroforesis, dando lugar a un patrón de bandas que revelamos por radiación gracias al cebador radiactivo, y en el cual podemos determinar la secuencia del gen. Los fragmentos más pequeños corren más rápido en el gel y se corresponden con el 5’ de la cadena que se está sintetizando. La cadena que nosotros queremos secuenciar es la complementario, pues.
¿Cómo ha evolucionado el método de Sanger?
Se simplificó con el uso de ddNTP marcados con distintos fluróforos, de forma que tras incidir con un láser y recoger la emisión de fluorescencia podemos analizar con una única reacción (añadiendo los 4 ddNTPs) la secuencia de interés, que se corre en un gel capilar (muy finito)
Esto permite que, en un solo gel, se puedan cargar todos los productos de la secuenciación. Tras esto, un láser irá iluminando de abajo hacia arriba y se recogerá la fluorescencia que emite con un detector. Obtendremos de esta manera un cromatograma a partir del cual podremos interpretar la secuencia. Cada pico del cromatograma es de un color y éste corresponderá a la base que interrumpió la secuencia
Hay miles de pasos de clonación y millones de reacciones de secuenciación adaptadas a la automatización y se procesa toda la información mediante el desarrollo de programas informáticos necesarios. El borrador del genoma humano se obtuvo usando varios cientos de secuenciadores automáticos
¿Qué estrategias tenemos para secuenciar un genoma completo?
a) Método ordenado o jerárquico. Consiste en fragmentar el genoma en segmentos grandes de 500 a 1500 kb, clonarlo en un vector Bac, y después ordenamos estos fragmentos grandes en el genoma con ayuda de marcadores genéticos, o sea, identificar su posición en el genoma. A continuación, una vez que conocemos la posición de los fragmentos grandes los volvemos a fragmentar en segmentos más pequeños, los clonamos y secuenciamos los extremos para obtener una serie de secuencias que luego ordenaremos por solapamiento, se conoce como ensamblaje de contiguos
b) Método aleatorio o shotgun. Se produce la secuenciación directa de fragmentos pequeños solapados y el ensamblaje de secuencias cortas. Esto requiere una memoria informática muchísimo mayor que en el método ordenado, pero también requiere menos tiempo
¿Qué problemas técnicos hay asociados a la secuenciación de un genoma completo?
a) Para la reacción de secuenciación hay que fragmentar el genoma, por lo que habrá que ordenarlos luego en el genoma, proceso de ensamblaje
b) En cada reacción de secuenciación se obtiene lecturas de aproximadamente 800 pb, es decir, un genoma bacteriano contiene varios millones de pares de bases, mientras que un genoma eucariótico miles de millones de pares de bases distribuidas en varios cromosomas. Esto lleva a la secuenciación múltiple de los fragmentos. La cobertura es la media de veces que aparece una base en una secuencia que ha sido secuenciada repetidas veces
La estrategia general para la secuenciación de un genoma completo es el ensamblaje por solapamiento. Cortamos el genoma al azar y algunas de esas secuencias que obtendremos serán solapantes. El ordenador tiene que identificar estas secuencias solapantes y ensamblarlas en una misma secuencia, que se denomina contiguo
Un contiguo son las secuencias de los extremos que se repiten en otros extremos de fragmentos secuenciados que permite ordenar los clones. Podemos organizar las secuencias ya que al secuenciarse dan lugar a fragmentos repetidos que podemos ordenar
¿Cómo se validó el método aleatorio o shotgun en la secuenciación de la bacteria Haemophilus influenzae (1º organismo secuenciado)?
Se extrajo el DNA de la bacteria, se sonicó para obtener fragmentos de dicho tamaño y se hizo con ellos una electroforesis en gel de agarosa (calle 1: DNA sonicado de H. influenzae, calle 2: marcadores de tamaño). Se purificó el DNA del gel después, obteniéndose así fragmentos de 1,6 a 2 kb, que clonaron para generar una genoteca y se secuenciaron los extremos de los insertos clonados. Mediante computación se ensamblaron las secuencias contiguos, secuencias solapantes que permiten posteriormente ordenarlos
Por el método de Sanger, se secuenciaron unas 24.304 secuencias válidas de 800 pb, lo que son 11 millones de pb secuenciados, si el genoma solo tiene 1830 kb, la cobertura va a ser de 6X aprox, esto es lo que permite obtener contiguos. La cobertura es la media de veces que se ha leído el genoma completo, de tal forma que un genoma con una cobertura de 6 hacia abajo se denomina borrador
¿Qué son los huecos de secuencia?
Corresponden a fragmentos que han sido clonados en la librería generada, pero que no se han secuenciado
Sabemos la secuencia de los extremos, por tanto, diseñamos oligos que correspondan a esos extremos y así secuenciamos las partes internas que corresponden a los huecos de secuencia
¿Qué son los huecos físicos?
Corresponden a fragmentos que no han sido clonados en la librería generada por algún tipo de incompatibilidad. Lo que haremos será clonar en otro tipo de vector que admita otro tamaño de inserto como el fago lambda
Diseñamos ahora oligos complementarios a cada extremo de cada contiguo que vamos a usar como sondas para rastrear en una nueva genoteca en busca de clones en los que hibriden más de un oligo
Escogemos, por ejemplo, el oligo 1 y rastreamos e hibridamos este oligo con la genoteca y obtenemos una señal de hibridación en uno de los huecos. Una vez que hemos realizo esto en todos los oligos vemos que el oligo 7 da señal de hibridación en el mismo hueco que el oligo 1, lo cual nos hace pensar que el oligo 1 y el 7 se encuentran cerca. La conclusión a la que llegamos es que los contiguos 1 y 4 están adyacentes
Otra forma de realizarlo es mediante PCR con parejas de oligos. Cuando obtenemos producto de amplificación, quiere decir que se encuentran cerca y, además, en la orientación adecuada. Por tanto, de esta forma también podemos llegar a la conclusión de que los contiguos 1 y 4 están adyacentes
¿Cómo se representa el genoma de Haemophilus influenzae?
Se pueden observar las coordenadas del genoma, comenzando normalmente por el origen de replicación, y también se ven distintos puntos de corte para algunas enzimas de restricción. El código de colores hace referencia a la clasificación de los genes dependiendo de la función que tengan. También se observa el porcentaje en G+C
La cobertura es el número medio de veces que aparece cada base en los fragmentos secuenciados.
Cobertura = (NxL)/G
N: nº de lecturas obtenidas
L: longitud media de las lecturas
G: longitud del genoma en pb
¿Cuánta cobertura debemos tener para asegurarnos que la calidad es buena? Se recomienda una cobertura mínima de 6x a 10x. Hoy en día con las técnicas de secuenciación de nueva generación se pueden obtener coberturas de hasta 100x
¿Cómo funciona el método jerárquico?
Este método requiere más tiempo que aleatorio
Es necesario partir previamente de un mapa físico. Tras esto, lo primero que se hace es cortar el DNA genómico en grandes fragmentos y clonarlo en BACs (vectores estables que permiten grandes insertos) y determinamos su orden mediante marcadores genéticos con ayuda del mapa físico. Una vez ordenados esos BACs ya cada uno se trata de forma independiente por el método aleatorio
Realizamos una 2ª ronda de fragmentación para obtener trozos más pequeños solapados de cada fragmento grande y se subclonan. Se secuencian los extremos y se ensamblan en un contiguo
La ventaja de este método es que el análisis contenido en marcadores de las secuencias que clonamos en los BACs nos permite ordenar previamente estas secuencias y por tanto es un método más rápido y preciso
En cartografía genética tenemos mapas y marcadores:
a) Los mapas representan la posición de marcadores genéticos en el genoma, estableciéndose las distancias mediante técnicas genéticas de recombinación (mapas genéticos) o de biología molecular (mapas físicos)
b) Marcadores genéticos: son sitios en el genoma (genes o no) cuya secuencia presenta variantes (polimorfismos). Suelen ser polimórficas puesto que para hacer los análisis de cómo se heredan y si están ligados o no los dos parentales deben tener alelos distintos para ese marcador, ya que si esto no fuera así no podríamos distinguir qué alelo se ha heredado de cada parental
Antes solían usarse genes que generaban un fenotipo visible, pero ahora con el avance en las técnicas de biología molecular no es necesario
Algunos marcadores de DNA que se suelen buscar para ordenar los fragmentos son:
1) RFLP: polimorfismo en la longitud de fragmentos de restricción. Se trata de una región que al cortar con enzimas de restricción da lugar a distintos patrones de bandas (fueron los primeros marcadores en usarse en los 80)
2) VNTR: número variable de repeticiones en tándem (de 8 a más de 50 pb)
3) STR: repeticiones cortas en tándem (de 1 a 8 pb)
4) SNP: polimorfismos de un solo nucleótido
5) STS (sequence-tagged site): secuencia única (que se encuentra en un sitio concreto del genoma y no está en otro sitio), relativamente corta (de 200 a 500 pb) de localización conocida y fácilmente amplificable por PCR
El más usado es STS, secuencia única corta de localización conocida. Solo aparecen en un punto del genoma, así que hacemos una PCR sobre cada BAC usando cebadores que amplifiquen un STS concreto, y se observa si está presente o no. Por ejemplo, STS1 está en BAC 1 y BAC2, por lo que estos fragmentos se solapan
¿Cómo funciona el método aleatorio o shotgun?
Presenta un problema y es que la presencia de secuencias repetitivas dificulta el correcto ensamblaje de la secuencia, pudiendo perder información puesto que puede provocar que se ensamblen secuencias no contiguas. Esto se da sobre todo en genomas eucarióticos, en los que hay una gran cantidad de secuencias repetitivas
La solución es la clonación en vectores que admitan fragmentos de mayor tamaño, como mínimo superior al de las repeticiones. Tras esto, se buscan solapamientos que forman los supercontiguos (scaffolds), que son un conjunto de contiguos separados por huecos de secuencia cuyo orden conocemos. El genoma está secuenciado antes de ordenarlo, pero cuando empiezan a ensamblarlo, aunque queden muchos huecos, pueden localizar los contiguos al analizar sus marcadores ya que en estos se puede ver la presencia de marcadores cuya localización se conoce
Para identificar la secuencia situada entre 2 contiguos, se realizaron clones de distinto tamaño se hizo la secuenciación de los extremos de los insertos y se ensamblaron, formando contiguos
Los scaffolds o supercontiguos se generan gracias a tener fragmentos clonados en distintas genotecas¿
¿Qué son las Tecnologías de Primera Generación (capilares)?
Se secuencia en capilares mediante secuenciación de alto rendimiento por el método de Sanger. A mayor cantidad de capilaes, mayor rendimiento
Las tecnologías que se desarrollaron de primera generación tenían 96 capilares y podían secuenciar 0,5 Mb en 1 día. Estos fueron utilizados por Celera y algunos laboratorios de consorcio público. En 2002 ya se estaban usando máquinas que poseían 384 capilares que permiten secuenciar unos 2,8 Mb en un día
En 2 meses, se podría secuenciar todo el genoma humano usando 100 secuenciadores de 384 capilares
¿Qué son las Técnicas Next Generation Sequencing (NGS)?
NGS es un conjunto de métodos que permiten secuenciar de miles a millones de fragmentos de DNA en un solo experimento. Supusieron una disminución de la cantidad de muestra de DNA, reducción de costes, aumento de la precisión y rapidez (alto rendimiento). Esto se debe a la producción de muchas reacciones en paralelo
La clasificación de las técnicas de secuenciación es la siguiente:
1) Primera Generación: Método Sanger
2) Segunda Generación: tienen en común la fragmentación y amplificación del DNA y la secuenciación de los fragmentos amplificados. Algunas de las diferencias con las de Primera Generación son que non hay que separar los fragmentos en un gel por electroforesis, que se pueden secuenciar simultáneamente millones de fragmentos de DNA… Con estos métodos obtendremos una cobertura mucho mayor. Por ejemplo: Roche, Illumina
3) Tercera Generación: no se amplifican previamente los fragmentos de DNA. El primero fue Pacific Bioscience
Las distintas tecnologías se diferencian en el método de obtención de DNA (por amplificación de DNA, en emulsión o sin amplificación), parten de una muestra amplificada de DNA, y en el método de secuenciación (por ciclos, pirosecuenciación o a tiempo real). Cada uno de estos procedimientos van asociados a la empresa que lo puso en marcha
Las estrategias generales son:
a) Reacciones en volúmenes muy pequeños. La cantidad muestra que se necesita es muy pequeña
b) Secuenciación paralela de miles de clones a partir de miles de fragmentos de DNA idénticos inmovilizados
Estas estrategias provocan que el tiempo de reacción sea mucho menor y que el coste también lo sea puesto que las cantidades de DNA son mucho menores
¿Cómo funciona Roche por pirosecuenciación?
Este procedimiento se puso en marcha por Roche, y los aparados que usa son los 454. La fase de secuenciación se basa en detectar el pirofosfato que se libera cuando se incorpora el dNTP. Este pirofosfato, por la enzima sulfurilasa, se convierte en ATP que en presencia de la enzima luciferasa y el sustrato luciferina emite luz. La incorporación de un nucleótido se detecta por la liberación de pirofosfato y su conversión en bioluminiscencia. No hay diferencia en la señal producida por los 4 dNTPs distintos
Los pasos que se llevan a cabo:
1) Fragmentación de DNA en fragmentos de unas 500 pb, reparación de extremos para dejarlos romos ligación de adaptadores (pequeña secuencia conocida) a ambos lados. Estos adaptadores son unos oligonucleótidos con una secuencia conocida que permiten que todas las moléculas tengan los mismos extremos, para poder realizar la reacción de PCR con los mismos cebadores
2) Amplificación de DNA por PCR en emulsión. Para la amplificación de cada fragmento se usa como soporte unas bolitas de agarosa con cebadores inmovilizados en su superficie (complementarios al adaptador). Se incluyen en unas micelas que poseen un medio acuoso donde se encuentran todos los componentes necesarios para llevar a cabo la reacción de PCR (DNApol, dNTP inmóviles, las bolitas, oligos y nuestra secuencia de interés), creándose así microbiorreactores, compartimentos donde tendrá lugar la reacción de amplificación por PCR en emulsión. El DNA se encuentra tan diluido que en cada gota de emulsión suponemos que hay un solo fragmento
3) Obtención de polonias por PCR en emulsión (emPCR). Los oligos los tenemos inmovilizados en las bolitas, complementarios al adaptador, y ahora se une la secuencia adaptador A-DNA genómico-Adaptador B, y ocurre la hibridación de los fragmentos de DNA pues los oligos son complementarios al adaptador y se extiende la secuencia de DNA a partir del cebador inmovilizado
Al final obtendremos polonias, bolitas de agarosa rodeadas de copias de 1 fragmento de DNA. Se define polonia como el producto de una amplificación clonal, es decir, son clones de moléculas de DNA que proceder de la reacción de PCR en emulsión
4) Cada bolita queda inmovilizada en un pocillo distinto de la placa
5) Los pocillos se llenan con bolitas que llevan unidas las dos enzimas: sulfurilasa y luciferasa
6) En cada ciclo de secuenciación se añaden los 4 dNTPs, secuencialmente:
dA -> lavado -> dT -> lavado -> dG -> lavado -> dC -> lavado…
No podemos añadir los 4 dNTPs a la vez porque nos darían la misma señal, y no vamos a poder diferenciarlos
7) Se detecta la incorporación de cada nucleótido por la liberación de pirofosfato y bioluminiscencia
La reacción que tiene lugar es la siguiente:
La incorporación de un dNTP a la cadena en crecimiento libera pirofosfato, que junto con el APS y la sulfurilasa, produce ATP. En presencia de la enzima luciferasa y el sustrato luciferina, se genera luz. En aquellas posiciones donde se emite luz, se habrá incorporado un dNTP a la cadena y sabremos cuál es dependiendo de qué dNTP hayamos echado en ese momento
Nos apoyamos en un aparato que detecta tanto la emisión de los distintos dNTPs como la duración de ésta, de forma que si el dNTP añadido no se incorporá no habrá emisión, si se incorpora el aparato detectará la emisión del pirofosfato, y si se incorporan más de uno seguidos, el aparato detectará el aumento en el tiempo de emisión y será capaz de extrapolarlo al número de dNTPs que se han añadido de forma contigua., Si se añaden dos adeninas, la emisión de luz es doble debido a la liberación de 2 ATP + Ppi
Se realizan 100 ciclos de secuenciación que permite obtener lecturas de 175-400 bases. 400.000 lecturas a la vez permiten la detección de 100 millones de bases por experimento. Este método tarda en generar 0,2 a 0,4 Gb unas 20 horas, por lo que es menos potente que el de Illumina