Bases de datos Flashcards
¿En que formato se deben ingresar los datos en los programas de análisis de secuencias?
Formato FASTA
¿Cuál es el formato fasta?
estandariza la info. de manera muy simple facilitando la comunicación entre bases de datos:
- signo >
- a continuación, va una definición (identificador) de secuencia. no debe haber espacio entre el signo > y la primera letra de la definición.
¿Qué son las bases de datos primarias?
Contienen datos de secuencias en bruto con alguna interpretación y explicación, pero sin verificación posterior.
Hay 3 bases de datos principales que contienen todos los datos de secuencia generados hasta el momento e intercambian las secuencias diariamente:
- GenBank (eeuu)
- ENA (europa)
- DDBJ (Japón)
¿Que incluyen las 3 bases de datos principales?
- Descripción de la secuencia
- Nombre científico
- Taxonomía del organismo
- Tabla que identifica regiones codificantes
- Referencias para las secuencias publicadas
¿Qué son las bases de datos secundarias?
Son bases de datos verificadas y no redundantes que se derivan de las bases de datos primarias.
¿Qué información proporcionan las bases de datos secundarias?
- Caracterización de las secuencias
- Mutaciones
- análisis de polimorfismos
- Estudios de expresión y análisis comparativos
¿Qué tipo de base de datos es RefSeq?
Base de datos secundaria
¿Cuál es una de las mejores bases de datos secundarias respecto a proteínas?
Swiss-Prot, que forma parte de un sistema de base de datos más grande llamado UniProtKB.
¿Cuáles son las fuentes de la base de datos UniProtKB?
- Secuencias codificantes traducidas en la base de datos de secuencias de nucleótidos
- Datos procedentes de PDB (Protein Data Bank)
- PIR (Protein Information Resource)
- Secuencias enviadas directamente
Base de datos secundaria
Compendio de genes humanos y fenotipos genéticos asociados a enfermedades.
OMIM
BD secundaria
Base de datos de expresión génica de microarrays
ARRAYEXPRESS
BD secundaria
Repositorio que archiva y distribuye datos de microarrays
GEO
Bases de datos secundarias de ADN-ARN:
- OMIM
- ARRAYEXPRESS
- GEO
Bases de datos secundarias de proteínas
- PRINTS
- PFAM
- INTERPRO
- BIOGRID