Introduction aux bases de données biologiques Flashcards
Quels sont les défis de la bioinformatique ?
Entreposer, manipuler et rendre accessible ces séquences
L’analyse de séquence ne joue pas un rôle important dans la bioinformatique
Faux
L’analyse de séquence permet quoi spécifiquement ?
À mieux connaître un gène, un organisme, l’évolution, etc.
Nommez les 3 types de format de bases de données:
- À fichiers plats
- Relationnelles
- Orientées objet
Décrire les bases de données à fichiers plats :
- Généralement utilisée dans les gros serveurs
- Existe depuis longtemps
- Simple
- Aucun instruction afin d’aider à la recherche d’informations spécifiques ou la création de support.
- Doit lire le fichier entier pour chaque recherche, ce qui est inefficace.
Décrire les base de données relationnelles ?
- Utilisé dans la plupart des bases de données
- Les données sont enregistrées dans des tables à deux dimensions.
- Les tables peuvent être triées par reliées entre elles selon des critères communs.
- Évite la redondance, facilite la gestion et la mise à jour.
- Pour communiquer avec le système de gestion de base de données, on utilise un langage de manipulation de données appelé SQL.
Base de données orientée objet :
‣ permet de représenter des structures de données complexes.
‣ les objets comportent deux parties: leur valeur, et les opérations, appelées méthodes, qui permettent de les manipuler.
‣ les données et les traitements ne sont plus séparés. La dynamique (les méthodes) fait partie de la déclaration des objets.
‣ compatible avec langages de programmation OO.
‣ performant.
En quoi consiste les bases de données primaires ?
Ce sont les données biologique originales. Principalement des séquences ( ex: GenBank ) et des structures (ex : PDB)
Décrivez les bases de données secondaires ?
- Contient des données transformées (Manuellement ou par un logiciel), basée sur des bases de données primaires.
- Exemple: Séquence protéique traduite avec annotation fonctionnelle (ex: Uniprot)
Décrivez les bases de données spécialisées :
spécifique à un sujet particulier (ex : Flybase, HIV sequence database)
Trois bases de données contiennent uniquement des données brutes :
- Genbank
- EMBL
- DDBJ
- Contribution directe des auteurs avec un minimum d’annotation
- Soumission obligatoire pour publication dans des journaux scientifiques.
- Collaboration et échange journalier
Est-ce que les trois bases de données primaires communiquent entre-elles ?
Oui en effet, et ce, de manière journalière.
Il y a une seule base de données pour les structures tridimensionnelles, nommez et décrivez là ?
- La PDB
Comment sont déterminées les structures tridimensionnelles se trouvant dans la PDB ?
Par rayon X ou par RMN
La PDB utilise le format de base de données suivant :
- Fichier plat.
Que retrouve-t-on de plus dans les bases de données secondaires par rapport aux bases de données primaires ?
- Des annotations
- Élimination de la redondance
Il y a deux façons de traiter les données dans bases de données :
- De manière automatisée, ( trEMBL provient de la traduction automatisée à partir des séquences d’ADN de EMBL )
- De manière manuelle, ( SWISS-PROT contient (contenait…) des annotations sur la structure, la fonction, la famille de protéines, les sites catalytiques, les modifications post-traductionnelles, les maladies associées, .. )
La base de données secondaire uniprot combine quelles bases de données exactement ?
- SWISS-PROT, TrEMBL et PIR-PSD
Est-ce vrai de dire que la base uniprot a une bonne documentation et peu de redondance ?
Oui absolument.
Que signifie : Pfam
motifs dérivés d’alignement de séquences, permet la classification dans une famille de protéine et l’attribution de fonction
Que signifie : DALI
base de données de structure secondaire et de type de repliement, permet la classification fonctionnelle à partir de la structure et contribue à la prédiction de structures 3D
Que signifie : SCOP
classification manuelle des domaines structuraux des protéines
Que signifie : CATH
classification semi-automatique des domaines structuraux des protéines
Quelle est la différence entre une base de données secondaire et une base de données spécialisée ?
Il y a souvent plus d’informations et d’annotations dans une base de données spécialisée. De plus, cette base est maintenue par quelques experts dans le domaine.
Vrai ou faux : Les BD primaires alimentent presques toutes les BD secondaires
Vrai
Est-il nécessaire parfois d’avoir des informations provenant de plusieurs bases de données ?
Oui
Si les bases de données ne peuvent pas être reliées entres elles en raison de leur format, quelle est la solution ?
CORBA Common Object Request Broker Architecture)
Le format XML ( eXtensible Markup Language) aide à briser la barrière entre les bases de données
-> facilite le transport et l’échange des données entre différents serveur
Est-ce que la fiabilité d’une base de données est une chose bien comprise ?
Non pas vraiment
Nommez les types d’erreurs fréquentes dans les bases de données :
- Erreurs de séquencage
- Les annotations de gènes sont parfois inexactes.
- La redondance est parfois un problème.
Un des buts importants lors de la création de bases de données est la rapiditié :
C’Est surtout de fournir un accès efficace aux bases de données.
Nommez les 3 systèmes de recherche de données les plus populaires :
- GQuery(NCBI)
- SRS ( Sequence Retrieval System)
- ExPASy
Nommez une base de données non-redondante ?
RefSeq
Vrai ou faux : Uniprot possède très peu de redondance.
Vrai
L’utilisation de système de recherche implique quoi de particulier ?
- Les opérateurs booléens : (AND - OR -NOT)
- Les parenthèses
Qu’est-ce que Entrez ?
- > Système de recherche principale du NCBI
- > Contient 40 BD. moléculaires et de littérature
- > Intègre l’information de plusieurs sources
- > Références croisées
Décrivez ce qu’est GenBank ?
- > Données provenant du séquençage à haut débit !
- > ADN génomique, ARNm, ADNc, EST
Il y a 2 manières de chercher dans GenBank :
- Entrez
- Blast
Genbank utilise un structure de base de données de type :
- Données relationnelles
- Résultats sous forme de fichiers plats
Qu’est-ce que GenPept ?
- C’est comme GenBank, mais pour les séquences de protéines
Quel est l’ordre de grandeur de GenBank?
150 000 000 séquences
140 000 000 000 bases
Quel est l’ordre de grandeur de GenPept ?
10 000 000 séquences
3 000 000
Nommez le format de séquence le plus populaire :
FASTA
Est-ce que FASTA est compatible avec la majorité des outils de recherche ?
Absolument
Comment début un fichier FASTA ?
> nom | blabla | blabla2
L’inconvénient majeur des fichiers FASTA ?
La plupart des notations sont perdus
Ordre de grandeur de UniProt ?
500 000 séquences annotées
50 000 000 séquences non-annotées
UniProt peut aussi être accessible via :
ExPasy
Comment de caractères peut contenir une ligne FASTA ?
80
Où sont déposées la plupart des protéines depuis 1972?
Sur la BD PDB !
Comment de stuctures comprends la PDB ?
Environ 100 000
Qu’est-ce que la World Wide Proteins Bank ?
RCSB PDB (USA), PDBe (Europe), PDBj (Japan), and BMRB (USA)
Nommez des exemples d’utilisation de PDB :
- Statistique, redondance
- Troponin C
- Summary Tab, Sequence Tab, fichier PDB, Jmol
L’aspect fondamentale d’une comparaison de séquence est l’alignement de séquences
Vrai
L’objectif de l’alignement est de trouver les lieux de concordance
Vraiment
Ce n’est pas vrai de dire que de séquence avec beaucoup de sites correspondant ont une fonction similaire
C’est faux, on peut dire ca
Les divergeances entre les séquences sont interprétées comme :
Résultat de la mutation
L’alignement sert à prédire la fonction d’une protéine, à prédire la structure secondaire et à construire une phylogénie :
Oui
Les protéines homologues sont des protéines dont les gènes sont :
d’une origine commune
Souvent, les protéines avec un grand pourcentage de similarité ont des résidus avec des caractéristiques similaires, nommez-en quelques-uns
Grosseur, charge, hydrophobicité
Peut-on dire qu’une protéine est à 40% homologue ?
Non
Peut-on dire qu’une protéine est à 40% similaire ?
Absolument
Un outil utile afin de déterminer qu’une protéine est homologue avec un autre est la :
Similarité de séquence
Pour une séquence de 250 acides aminés, pour dire qu’une protéine est homologue il faut obtenir une similarité de :
D’un peu plus de 20%
Pour des nucléotides, similarité de séquence et identité de séquence sont-ils synonymes ?
Absolument
Pour des protéines, similarité de séquence et identité de séquence sont-ils synonymes ?
Non pas vraiment!
Chez une protéines, la similarité de séquences est représentée par quoi ?
*
Chez une protéines, la similarité de séquences est représentée par quoi ?
: ( propriétés physico-chimiques similaires)
Qu’est-ce que l’alignement global ?
Alignement de séquences sur la totalité de la longueur.
Qu’est-ce qu’un alignement local ?
Alignement dans une région où la similarité est assez forte !
À quoi sert la méthode par matrices de pixels
Méthode graphique afin de représenter des similarités entre deux séquences
Logiciel utile afin d’effectuer la méthode par matrices de pixels ?
Dotmatcher !
Qu’est-ce que la méthode de programmation dynamique ?
- Détermine l’alignement optimal
- Plus quantitatif que la méthode par alignement de pixels
- Génération d’une matrice avec score pour les matchs et les mismatchs entre les séquences
Faut-il remplir toutes les cellules d’une matrice dans la méthode de programmation dynamique ?
Oui
Comment fonctionne la méthode de programmation dynamique ?
- Trouve le chemin qui représente l’alignement optimal
- Trace à partir de la dernière cellule
- Mouvement diagonale : idéal
- Mouvement horizontal ou vertical : insertion ou délétion (gap)
Qu’est-ce qu’un GAPS ?
Souvent impliqué dans l’alignement optimal 1
Dans les gaps les insertions et délétions sont rares ou assez fréquents ?
Rares,
D’ou vient le gap penality ?
Valeur arbitraire développée par l’étude des protéines globulaires
Nommez les deux algorithmes principales afin d’aligner des séquences de manière globale ?
Algorithmes de Needleman- Wunsch
Dans Emboss 2 protéines sont disponibles pour l’alignement globale :
needle et stretcher
Alignement local de séquences ont un score souvent plus élevé puisqu’on prend seulement en compte les régions qui ont été conservées
Vrai
Quelles sont les méthodes classiques d’alignement de séquences ?
Water, matcher supermatcher, le plus populaire étant water
Quel est l’algorithme d’alignement utilisé sur le site web NCBI-BLAST ?
C’est un algorithme d’alignement local
Le score d’alignement que cherche à obtenir les méthodes d’alignement prennent en compte à la fois le nombre d’acides aminés identique, mais aussi ceux qui sont similaires.
Vrai !
Nommez les matrices de similarité 20x20 les plus utilisées :
DAYHOFF, appelées PAM (probabilité of acceptable mutations )
HENIKOFF, appelée BLOSUM, basées sur le contenu en information des substitutions.
Que signifie un score plus grand que 0 dans une matrice ?
Fréquence de substitution plus élevée qu’aléatoire
Que signifie un score de 0 dans une matrice ?
Substitution = aléatoire
Que signifie un score négatif dans une matrice ?
C’est qu’il y a moins de substitution qu’il y en a de manière aléatoire
Que signifie l’indice dans BLOSUM62 ?
62% d’identité
plus l’indice est petit plus il est approprié pour des séquences divergentes
Afin de chercher la similarité entre deux séquences dans une base de données, la méthode de programmation dynamique est très performante ?
Pas vraiment
Afin de chercher des homologies dans de bases de données il faut utiliser des méthodes :
heuristiques
Méthodes heuristiques les plus utilisées ?
BLAST, FASTA, Sequence Similarity Searching
La plus rapide ?
Blast
La moins rapide et la plus précise ?
SSearching
Quelques paramètres de BLASTP ?
Choix de l’algorithme, choix de la base de données, choix de la matrice, LCR et autres paramètres