Secuenciación de ADN Flashcards
Qué es la secuenciación
Orden preciso de las subunidades en una
macromolécula
En el caso del ADN, el orden preciso de los nucleotidos
Qué es anotación de genomas
Lista de genes y otras
secuencias
funcionales del
genoma.
Ejm: ORFs
Qué es bioinformática
Uso de computadores
para almacenar y
analizar secuencias y
estructuras de
biomoléculas
Métodos de secuenciación
Primera generación:
Método Sanger dideoxy (radiactividad o fluorescencia; amplificación del ADN)
Longitud de lectura: 700-900 bases
Utilizado para el Proyecto Genoma Humano
Segunda generación:
Pirosecuenciación 454
(fluorescencia; amplificación del ADN; paralelo masivo)
Método Illumina/Solexa
(fluorescencia; amplificación del ADN; paralelo masivo)
Longitud de lectura: 400-700 bases
Utilizado para secuenciar el genoma de James Watson (finalizado en 2007)
Longitud de lectura: 50-150 bases
Genoma del panda gigante (2009; Instituto del Genoma de Pekín); genoma denisovano
Denisovano (2010)
Método SOLiD
(fluorescencia; amplificación del ADN; paralelismo masivo)
Torrente iónico
(pH electrónico; amplificación del ADN
Longitud de lectura: 50-100 bases
Longitud de lectura: 200-400 bases
Utilizado para secuenciar el genoma del cofundador de Intel Gordon Moore
Tercera generación:
Pacific Biosciences SMRT
(fluorescencia; molécula única; guía de ondas de modo cero)
Longitud de lectura: 2500-3000 bases
Oxford nanopore
(corriente electrónica; molécula única; tiempo real)
Longitud de lectura: 9000 bases
La unidad portátil MinION tiene aproximadamente el tamaño de una unidad flash
Ensamblaje y mapeo de genomas proceso
- Romper muchas copias del cromosoma en pedazos pequeños
- Secuenciar los pedazos para obtener el orden de nucleótidos en cada uno
3a. Encontrar solapamientos entre las secuencias para hacer un genoma de referencia
3b. Mapear estas secuencias a un genoma de referencia, para resecuenciar y encontrar diferencias.
Ensamblaje en la computadora de una secuencia de ADN
- Secuencia desconocida de ADN
- romper el ADN en fragmentos y secuenciar
- hacer un analisis en la computadora para encontrar solapamientos
- obtener secuencia consenso (Contig)
Cómo se ven los ORF en un genoma
ORFs separados por
regiones reguladoras
cortas y terminadores
transcripcionales
ORF funcional –
codifica una proteína
Un gen puede
localizarse en
cualquiera de las dos
hebras
ORFs estructura: empieza con un codon de inicio, en el mismo marco de lectura debe existir un codon de parada, un sitio de union al ribosoma y la secuencia codificante
Cómo se da la identificación a computadora de ORFs posibles
- La computadora encuentra posibles codones de inicio y de parada: El ordenador escanea la secuencia de ADN buscando primero los codones de inicio y fin.
- La computadora cuenta los codones entre el inicio y el stop: A continuación, cuenta el número de
codones en cada marco de lectura ininterrumpido y rechaza los que son demasiado cortos. - La computadora encuentra Ribosomal binding sites posibles:
La probabilidad de que se trate de un ORF auténtico aumenta si se encuentra un sitio de unión ribosómica (RBS) a la distancia correcta delante del marco de lectura. - La computadora calcula el sesgo de codones en el ORF: Los cálculos de sesgo de codones se utilizan para comprobar si un ORF cumple con el consenso de uso de codones del organismo examinado
- La computadora decide si el ORF es probable que sea genuino
- se obtiene la lista de ORFs probables
De qué me sirve identificar ORFs a partir de anotación de genes
Se puede saber, a partir de cualquier genoma, cuantos genes tiene
Incluso se puede buscar la cantidad de genes que codifican para productos especificos (arn o proteina)
Uso de codones
Hay un sesgo del uso de codones (código genético degenerado). Es decir, hay muchos codones posibles para un aminoacido, y los organismos tienen preferencias hacia usar ciertos codones especificos
Si el uso de codones de un ORF difiere mucho del consenso de un
organismo, ese ORF puede ser no funcional o puede ser funcional
pero adquirido por HGT
Por ejemplo, si sabemos que E.coli porefiere CGU y de pronto hay muchos codones AGA se puede pensar que hay HGT o que ese ORF no es funcional
E.coli codón arginina:
Usa CGU y CGC
Drosophila codón arginina:
Usa CGC yCGU
Humano codón arginina:
AGG, AGA, CGC
Funciones de las proteínas
Se pueden identificar vías metabólicas a partir del genoma: con los genes que codifican proteínas clave
Solo conocemos la funcion del 70% de ORFs, el resto son proteínas hipotéticas
La mayoría de las proteínas (18%) son para transporte. 14 % para traducción, 9% para metabolismo de carbohidratos.
Qué son las proteínas hipotéticas
La secuencia no se parece a nada conocido
No se sabe su función