Banques de données - CC2 Flashcards
Quand ets ce que sont nées les principales banques de données actuelles ?
Dans les années 1980
Définir une banque de données
C’est une collection de données structurées, interconnectées et mises à jour régulièrement.
Pourquoi est-ce nécessaire de construire de telles banques M
Beaucoup de données
Doivent etre publiquement accessibles a tout moment
Est-ce que on peut toujours se fier aux données des banques ?
Non . risques d’erreurs humaines ou informatiques. De plus les données ne sont pas toujours a jour.
Quelles sont les trois banques majeures de séquences nucléiques ?
EMBL
GEnbank
et DDBJ
Qu’est-ce que l’INSDC ?
Il s’agit d’unebanque unifiant les trois grandes avec des échanges continuels d’infos.
D’ou proviennent les données des banques ?
Elles sont soumises directement par les chercheurs, gros risque d’erreurs du coup.
Quelles sont les banques majeures de séquences protéiques ?
Uniprot
Refseq
Quelles caracs de Swissprot ?
Très bien annotés, vérifiée
Non redondante ou exhaustive
Références croisées
Qu’est-ce que TrEMBL ?
C’est une banque de séquences protéines directement obtenue par traduction des séquences codantes contenues dans EMBL. C’est de la que sont tirées les séquences de Swissprot après vérification
Qu’est ce que refseq
C’est une banque de données qui a pour but d’éviter la redondance (avec le choix d’une seq représentative) et qui cherche a devenir la banque de référence. Les erreurs z sont corrigées.
Quel est le format général de banques de séquences nucléiques
Un format plat : un série d’infos sur la séquence puis la séquence.
Dans le format plat quels infos générales sont affichées concernant la molécule des séquences nucléiques
Longueur Type de molécule Division Date Définition Identification
Dans le format plat quels infos spécifiques sont affichées concernant la molécule des séquences nucléique
Organisme Tissu Gene et chromosome CDS Proteine codée
Est-ce que le nombre d’infossur la molécule est constant ?
Non il varie car ces infos proviennent du chercheur qui les a rentrées.
Comment peut on interroger les banques ?
Par mots clés (ENA,entrez)
Par similarité de séquences
Que permet GQuery ?
Permet l’interrogation de l’esnemble des banques de données stockées au NCBI.
Qu’est-ce que OMIM ?
C’est une banque contenant les gènes et les troubles génétiqueshumains.
Quelles possibilités ont GQuery en utilisatn la synthaxe ?
Booléens : and, or ou not
Association de termes avec parenthèses
Restriction de la requête sur certains champs.
Donner trois exemples de sujet traités par les banques spécialisées.
Domaines protéiques
Motifs protéiques(séquences consensus, alignements)
Familles protéiques(liens évolutifs etc)
Sur quel principe est basé le stockage de données dans une banque de domaines protéiques ?
La conservation desdonnées est associée àune signification biologique . site actif d’une enzyme, site de fixations, cystéines de ponts disulfures…
Quelles sont les trois étapes utilisées par prosite pour construire un motif ?
Alignement d’une famille de protéines
Identifications des résidus conservés
Définition du motif.
Quand est-ce qu’on considère un motifcomme un “bon” motif ?
Si il permet de retrouver toutes les protéines apparenant a la famille et uniquement ces protéines.
Pour prosite, qu’est-ce que un faux positif ? Un faux négatif ?
« Faux positif » :
protéine prédite comme ayant le motif mais qui n’appartient pas à la
famille
« Faux négatif » :
protéine prédite comme n’ayant pas le motif mais qui appartient à la
famille
Pourquoi est-ce que gene ontology a été crée ?
Permet la standardisation des annotations utilisées dans les banques pour homogéniser les termes et définitions utilisés par les biologistes.
Par quels deux relations sont reliés chaque terme de gene oncology `?
Par “Is a” et “part of” permettant de tout lier.