3.Principaux formats de fichiers Flashcards
Comment se présente le format FASTA?
Ligne descriptive (commence par >) puis séquence fournie
Comment se présente le format GENBANK ?
Ligne descriptive (LOCUS)
SOURCE (d’où cela vient)
ORGANISM (quel organisme)
REFERENCE (position décrite)
AUTHORS / TITLE (publication)
COMMENTAIRES (détails, autres accessions)
FEATURES (commun à toutes les banques), obligatoire
Séquence protéique (si /translation)
Séquence nucléique (60 bases par ligne, par bloc de 10), décrite par la source (différent entre CDS et gene par exemple)
Quels format trouve on sur NCBI?
FASTA, EMBL (EBI) et GENBANK
Quelles sont les sous catégories de Features dans GENBANK?
Source : FEATURE obligatoire pour décrire séquences (longueur, organisme, taxonID à minima)
Gene : nom du gène si disponible, et longueur + description
CDS : «Coding DNA sequence», sans introns
Comment se présente le format EMBL (EBI)?
Ligne descriptive (ID)
AC : accession number
DATES (MAJ) = DT
SOURCE (d’où cela vient) = DE
ORGANISM (quel organisme) = OG/OC
REFERENCE (position voulue) = RP
AUTHORS / TITLE (publication) = RN, RP, RX, RA, RT, RL
Comment sont présentées les annotation?
Sous forme de localisation, keys
Que signifie une annotation 467 ?
l’annotation ne concerne qu’une seule base
Que signifie une annotation <1..21 ou 1275..>1322 ?
« Keys » tronqués. Commence avant le premier nt de l’entrée
Se termine après le dernier nt de l’entrée (taille seq = 1322)
<234..888 : début réel inconnu, mais avant 234
234..>888 : fin réelle inconnue, mais après 888
Que signifie une annotation 109..1105 ?
entre les positions 109 et 1105 (inclues). Toujours la position la plus petite en premier
Que signifie une annotation complement(340..565) ?
séquence complémentaire, inversée à celle de l’entrée (brin -)
Que signifie une annotation 1join(12..78,134..202) ?
fragments indiqués mis bout à bout (concaténés) ; nombre de fragments illimité avec le join()