Introduction aux bases de données biologiques Flashcards
Quels sont les défis de la bioinformatique ?
Entreposer, manipuler et rendre accessible ces séquences
L’analyse de séquence ne joue pas un rôle important dans la bioinformatique
Faux
L’analyse de séquence permet quoi spécifiquement ?
À mieux connaître un gène, un organisme, l’évolution, etc.
Nommez les 3 types de format de bases de données:
- À fichiers plats
- Relationnelles
- Orientées objet
Décrire les bases de données à fichiers plats :
- Généralement utilisée dans les gros serveurs
- Existe depuis longtemps
- Simple
- Aucun instruction afin d’aider à la recherche d’informations spécifiques ou la création de support.
- Doit lire le fichier entier pour chaque recherche, ce qui est inefficace.
Décrire les base de données relationnelles ?
- Utilisé dans la plupart des bases de données
- Les données sont enregistrées dans des tables à deux dimensions.
- Les tables peuvent être triées par reliées entre elles selon des critères communs.
- Évite la redondance, facilite la gestion et la mise à jour.
- Pour communiquer avec le système de gestion de base de données, on utilise un langage de manipulation de données appelé SQL.
Base de données orientée objet :
‣ permet de représenter des structures de données complexes.
‣ les objets comportent deux parties: leur valeur, et les opérations, appelées méthodes, qui permettent de les manipuler.
‣ les données et les traitements ne sont plus séparés. La dynamique (les méthodes) fait partie de la déclaration des objets.
‣ compatible avec langages de programmation OO.
‣ performant.
En quoi consiste les bases de données primaires ?
Ce sont les données biologique originales. Principalement des séquences ( ex: GenBank ) et des structures (ex : PDB)
Décrivez les bases de données secondaires ?
- Contient des données transformées (Manuellement ou par un logiciel), basée sur des bases de données primaires.
- Exemple: Séquence protéique traduite avec annotation fonctionnelle (ex: Uniprot)
Décrivez les bases de données spécialisées :
spécifique à un sujet particulier (ex : Flybase, HIV sequence database)
Trois bases de données contiennent uniquement des données brutes :
- Genbank
- EMBL
- DDBJ
- Contribution directe des auteurs avec un minimum d’annotation
- Soumission obligatoire pour publication dans des journaux scientifiques.
- Collaboration et échange journalier
Est-ce que les trois bases de données primaires communiquent entre-elles ?
Oui en effet, et ce, de manière journalière.
Il y a une seule base de données pour les structures tridimensionnelles, nommez et décrivez là ?
- La PDB
Comment sont déterminées les structures tridimensionnelles se trouvant dans la PDB ?
Par rayon X ou par RMN
La PDB utilise le format de base de données suivant :
- Fichier plat.
Que retrouve-t-on de plus dans les bases de données secondaires par rapport aux bases de données primaires ?
- Des annotations
- Élimination de la redondance
Il y a deux façons de traiter les données dans bases de données :
- De manière automatisée, ( trEMBL provient de la traduction automatisée à partir des séquences d’ADN de EMBL )
- De manière manuelle, ( SWISS-PROT contient (contenait…) des annotations sur la structure, la fonction, la famille de protéines, les sites catalytiques, les modifications post-traductionnelles, les maladies associées, .. )
La base de données secondaire uniprot combine quelles bases de données exactement ?
- SWISS-PROT, TrEMBL et PIR-PSD
Est-ce vrai de dire que la base uniprot a une bonne documentation et peu de redondance ?
Oui absolument.
Que signifie : Pfam
motifs dérivés d’alignement de séquences, permet la classification dans une famille de protéine et l’attribution de fonction
Que signifie : DALI
base de données de structure secondaire et de type de repliement, permet la classification fonctionnelle à partir de la structure et contribue à la prédiction de structures 3D
Que signifie : SCOP
classification manuelle des domaines structuraux des protéines
Que signifie : CATH
classification semi-automatique des domaines structuraux des protéines
Quelle est la différence entre une base de données secondaire et une base de données spécialisée ?
Il y a souvent plus d’informations et d’annotations dans une base de données spécialisée. De plus, cette base est maintenue par quelques experts dans le domaine.
Vrai ou faux : Les BD primaires alimentent presques toutes les BD secondaires
Vrai
Est-il nécessaire parfois d’avoir des informations provenant de plusieurs bases de données ?
Oui
Si les bases de données ne peuvent pas être reliées entres elles en raison de leur format, quelle est la solution ?
CORBA Common Object Request Broker Architecture)
Le format XML ( eXtensible Markup Language) aide à briser la barrière entre les bases de données
-> facilite le transport et l’échange des données entre différents serveur
Est-ce que la fiabilité d’une base de données est une chose bien comprise ?
Non pas vraiment
Nommez les types d’erreurs fréquentes dans les bases de données :
- Erreurs de séquencage
- Les annotations de gènes sont parfois inexactes.
- La redondance est parfois un problème.
Un des buts importants lors de la création de bases de données est la rapiditié :
C’Est surtout de fournir un accès efficace aux bases de données.
Nommez les 3 systèmes de recherche de données les plus populaires :
- GQuery(NCBI)
- SRS ( Sequence Retrieval System)
- ExPASy
Nommez une base de données non-redondante ?
RefSeq
Vrai ou faux : Uniprot possède très peu de redondance.
Vrai
L’utilisation de système de recherche implique quoi de particulier ?
- Les opérateurs booléens : (AND - OR -NOT)
- Les parenthèses
Qu’est-ce que Entrez ?
- > Système de recherche principale du NCBI
- > Contient 40 BD. moléculaires et de littérature
- > Intègre l’information de plusieurs sources
- > Références croisées
Décrivez ce qu’est GenBank ?
- > Données provenant du séquençage à haut débit !
- > ADN génomique, ARNm, ADNc, EST
Il y a 2 manières de chercher dans GenBank :
- Entrez
- Blast