Chap 1 Flashcards
Donner la différence entre une banque de données et une base de données ?
🔹Banque de données : fichiers texte sans relation entre eux.
🔹Base de donnée : relation entre les données.
Quel est le role des bases de donnée ?
▪️Collecter les infos
▪️Stocker et archiver
▪️accès libre et gratuit
▪️facilite l’exploitation
Donner le nom de 3 centres de ressources.
🔺EBI (European bioinformatics institute)
🔺NCBI (national center of biotechnology information)
🔺NIG (national institue of genetics)
Donner les caractéristiques d’une banque de donnée généraliste.
🔸Fichier texte structuré
🔸Donnée primaire (collecté en raison d’une étude à venir)
🔸Donnée générales (pas de focus sur une application ou un organisme)
🔸Donnée les plus exhaustives possibles (informations hétérogènes)
Donner les avantages et les inconvénients d’une banque de donnée généraliste.
✅Avantages
Très riche
• Un grand nombre de séquence accessibles
• Grande diversité des organismes représentés (étude évolutive)
• Des infos accompagnent les sequences.
❌Inconvénients
•peu ou pas de contrôles sur la qualité des entrées
•Les auteurs sont responsables des entrée donc beaucoup d’erreurs :
-qualité de l’information hétérogène
-erreur sur la séquence (contamination)
Donner les banques de données généraliste pour les séquences nucléotidiques (en disant par qui elle est diffusée).
♦️EMBL (European molecular biology laboratory). Diffusée par EBI.
♦️GenBank diffusée par le NCBI
♦️DDBJ ( DNA Databank of Japan) diffusée par le NIG
Les banques généraliste pour les séquences nucléotidique échangent-elles leurs données ?
Oui 👍 Le but est de rendre le contenue : ✔️Publique ✔️Accessible ✔️Comparable
Quelle différence trouvé t-on entre les fiches EMBL et les fiches Genbank ?
Le format d’écriture varie en fonction des bases des données
🔸genbank : écriture en des mots en entier
🔸EMBL : écriture des mites en diminutif
Donner les noms de banques de données généralistes protéiques.
Et les rôles.
🔷TREMBL (traduction automatique des CDS) de EMBL
🔷Genpept (traduction automatique des CDS) de Genbank
➡️ Obtenir une couverture maximale ‼️
•ensemble des séquences protéiques
• annotation automatique non vérifier
🔷PIR : première banque protéique américaine de la banque NBRF
➡️Limite la redondance et travaille à la stabilisation des annotations des protéines.
•classification des proteine en familles en fonction de leur degrés de similarité.
🔷Swiss prot : origine des sequence TREMBL chaques séquences est expertisée par l’annoteur
➡️Banque manuellement annotée, nettoyée, non redondante, haute qualité, intégrés les infos des bases de données : excellence dans la qualité ❤️
-Citer la base de donnée qui réunie :
• Swiss prot
•PIR
•TREMBL EBI
-Et dire son rôle.
Fournir une seule ressource centralisée pour toutes les séquences protéiques connues permettant
•un accès unifié
•catalogue plus complet
•maintient de 2 sections : -uniprot /Swiss prot
Et uniprot/TREMBL
Dire les caractéristiques d’une fiche Swiss prot.
🔺même format que sur EMBL
🔺reviewed ⭐️ séquence contrôlée
🔺mention : integrated into Uniprot/swissprot
Donner les caractéristiques des données spécialistes.
🔹Amélioration au regroupement des données issues de banques généralistes
🔹spécificité
🔹Données dédies à un type d’organisme thématiques
🔹Techniques particulière, interêt structuré par un groupe d’individus
Donner le but des banques de données spécialisées de génomes complet.
🔸volonté d’intégration maximale de toutes les infos sur les génomes
🔸évolution vers la phylogénétique
Donner deux bases de donnée généraliste sur les génomes complets.
♦️ Refseq NCBI : plus ancienne, seule ressource exhaustive.
♦️EnsEMBL génomes : couvrir l’ensemble des génomes complet de non vertébrés
Donner les noms des banques de données spécialisée de génomes complet.
🔺 FlyBase : analyse des drosophiles 🦟
🔺MGI (mouse génome informations) génomique fonctionnelles et comparée du génome de la souris 🐁
🔺AceDB : annotation du génome de C.elegans et d’autres organisme eucaryotes et procaryotes.🐉
🔺TAIR (arabidobsis information ressources) : la plupart des infos sur arabidobsis plante.
🌱
🔺SGD ( saccaromyces génome database) ensemble de donnée sur cette levure 🔘
- Donner un outils de navigation génomique.
- Sa définition
- et les différents types
-Génome browser
-Définition :
Puissant outils de visualisation et d’interrogation pour permettre l’analyse des gènes et des protéines dans le génomes dans leur environnement.
- • UCSC génome browser
• ERC venir me browser
• EnsEMBL génome browser
Donner les banques de données spécialisée de domaines protéiques.
🔹 Pro Dam à partir d’uniprot
🔹 pFam ( proteine family database) outils de classification des proteine en fonction de leur évolutions.
🔹protiste
Comment s’appelle la base de donnée qu’à regroupée EBI ? Pour les banques spécialisée de domaines protéiques ?
INTERPROFESSIONNEL ( integrated ressources of protéines families )
Donnée de banque de donnée spécialité d’élément répétés ?
RepBase (pour les eucaryotes)
➡️utiliser pour masquer ces éléments dans le génome eucaryote lors de leurs annotations.
Outils d’interrogation les caractéristiques ?
🔺 accessible
🔺moteur de recherche sur les bases de données publiques : ENTREZ, SRS, ACNUC
🔺utilisation des requêtes structurée : combinaison de plusieurs termes avec opérateurs logiques.