Bases de Datos y conceptos básicos Flashcards
Dr. César Poot
Bioinformática es:
Ciencia encargada del análisis y gestión de datos biológicos usando computadoras/recursos computacionales
Genoma es:
Colección de todo el ADN de un organismo
Epigenoma es:
Colección de todas las modificaciones del ADN de un organismo
Transcriptoma es:
Conjunto completo de moléculas de ARN (transcritos) presentes en una célula o un grupo de células en un momento específico
Proteoma es:
Colección de todas las proteínas que se expresan en un momento específico
Open reading frame (ORF) es:
todos los genes codificantes que dan lugar a una proteína
Maneras de secuenciar ácidos nucleicos
- Método de Sanger (secuenciación por terminación de cadena)
- Secuenciación de próxima generación (NGS)
- Secuenciación de tercera generación
- Secuenciación de ARN (RNA-seq)
- Secuenciación de exomas
¿En qué consiste el Método de Sanger?
Síntesis de ADN en presencia de dideoxinucleótidos (ddNTPs)
Los fragmentos resultantes se separan por electroforesis.
Secuenciación de próxima generación (NGS) consiste en:
secuenciación de millones de fragmentos de ADN en paralelo
más velocidad, menos costo
Secuenciación de tercera generación consiste en:
secuenciación de moléculas de ADN individuales sin la necesidad de amplificación
Secuenciación de ARN (RNA-seq) consiste en:
conversión de ARN a ADN complementario (cDNA)
luego utiliza técnicas NGS
Secuenciación de exomas consiste en:
secuenciar sólo las regiones codificantes del genoma (exones)
los exones contienen la mayoría de las variantes responsables de enfermedades genéticas
¿Qué es DCell?
red neuronal artificial para predecir funcionamiento celular
(algoritmos de caja negra)
Una base de datos es:
colección de información
Características de una base de datos
- Tabla de contenidos (indexeada)
- Optimizadas
- Compuestas de varias tablas (con id, mapid, nrid)
Datos que pueden contener las BD
secuencias de DNA
proteínas 3D
geles 2D
microarreglos
Tipos de BD
Primarias:
- información directa de fuentes como genes, proteínas, estructura…
- Gene Bank
Secundarias:
- derivadas del análisis de las primarias
- RefSeq (en GeneBank): secuencia de referencia de una proteína específica
Curación es:
Proceso de colectar, inspeccionar, anotar y validar información de BD
Elementos de una BD:
Tablas:
- Registros (filas)
- Campos (columnas)
Primary key:
campo que identifica de manera única cada registro en una tabla
Foreign key:
campo que está relacionado con la primary key. Establece relaciones entre tablas.
Índices
Entrada (entry):
es una fila
Contenido de una entrada de una secuencia biológica
número de acceso (identificador único)
secuencia
descripción
datos taxonómicos
referencias cruzadas
Formatos de secuencias (todos son de texto plano):
FASTA (sencillo): .fst, .fasta, .ft, .fa, .txt
GenBank (detallado)
EMBL (detallado)
Fastq (detallado)
Una anotación es:
Metadato vinculado a una entrada en la base de datos
Pipeline es:
Procesamiento secuencial de un conjunto de datos
Gene ontology es una BD, se caracteriza por:
sistema de unificación de la representación de los genes (anotar y distribuir genes)
herramienta de fácil acceso
Elementos de una tabla
ID (identificador):
- se asigna a cada registro/entry/fila
- puede ser la primary key
MapID:
- identificador relacionado a una asociación de
BDs
NRID:
- identificador nacional
- rastrea entidades dentro de un sistema más grande