Introduction aux bases de données biologiques Flashcards

1
Q

Quels sont les défis de la bioinformatique ?

A

Entreposer, manipuler et rendre accessible ces séquences

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

L’analyse de séquence ne joue pas un rôle important dans la bioinformatique

A

Faux

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

L’analyse de séquence permet quoi spécifiquement ?

A

À mieux connaître un gène, un organisme, l’évolution, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Nommez les 3 types de format de bases de données:

A
  • À fichiers plats
  • Relationnelles
  • Orientées objet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Décrire les bases de données à fichiers plats :

A
  • Généralement utilisée dans les gros serveurs
  • Existe depuis longtemps
  • Simple
  • Aucun instruction afin d’aider à la recherche d’informations spécifiques ou la création de support.
  • Doit lire le fichier entier pour chaque recherche, ce qui est inefficace.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Décrire les base de données relationnelles ?

A
  • Utilisé dans la plupart des bases de données
  • Les données sont enregistrées dans des tables à deux dimensions.
  • Les tables peuvent être triées par reliées entre elles selon des critères communs.
  • Évite la redondance, facilite la gestion et la mise à jour.
  • Pour communiquer avec le système de gestion de base de données, on utilise un langage de manipulation de données appelé SQL.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Base de données orientée objet :

A

‣ permet de représenter des structures de données complexes.
‣ les objets comportent deux parties: leur valeur, et les opérations, appelées méthodes, qui permettent de les manipuler.
‣ les données et les traitements ne sont plus séparés. La dynamique (les méthodes) fait partie de la déclaration des objets.
‣ compatible avec langages de programmation OO.
‣ performant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

En quoi consiste les bases de données primaires ?

A

Ce sont les données biologique originales. Principalement des séquences ( ex: GenBank ) et des structures (ex : PDB)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Décrivez les bases de données secondaires ?

A
  • Contient des données transformées (Manuellement ou par un logiciel), basée sur des bases de données primaires.
  • Exemple: Séquence protéique traduite avec annotation fonctionnelle (ex: Uniprot)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Décrivez les bases de données spécialisées :

A

spécifique à un sujet particulier (ex : Flybase, HIV sequence database)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Trois bases de données contiennent uniquement des données brutes :

A
  • Genbank
  • EMBL
  • DDBJ
  • Contribution directe des auteurs avec un minimum d’annotation
  • Soumission obligatoire pour publication dans des journaux scientifiques.
  • Collaboration et échange journalier
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Est-ce que les trois bases de données primaires communiquent entre-elles ?

A

Oui en effet, et ce, de manière journalière.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Il y a une seule base de données pour les structures tridimensionnelles, nommez et décrivez là ?

A
  • La PDB
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment sont déterminées les structures tridimensionnelles se trouvant dans la PDB ?

A

Par rayon X ou par RMN

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

La PDB utilise le format de base de données suivant :

A
  • Fichier plat.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Que retrouve-t-on de plus dans les bases de données secondaires par rapport aux bases de données primaires ?

A
  • Des annotations

- Élimination de la redondance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Il y a deux façons de traiter les données dans bases de données :

A
  • De manière automatisée, ( trEMBL provient de la traduction automatisée à partir des séquences d’ADN de EMBL )
  • De manière manuelle, ( SWISS-PROT contient (contenait…) des annotations sur la structure, la fonction, la famille de protéines, les sites catalytiques, les modifications post-traductionnelles, les maladies associées, .. )
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

La base de données secondaire uniprot combine quelles bases de données exactement ?

A
  • SWISS-PROT, TrEMBL et PIR-PSD
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Est-ce vrai de dire que la base uniprot a une bonne documentation et peu de redondance ?

A

Oui absolument.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Que signifie : Pfam

A

motifs dérivés d’alignement de séquences, permet la classification dans une famille de protéine et l’attribution de fonction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Que signifie : DALI

A

base de données de structure secondaire et de type de repliement, permet la classification fonctionnelle à partir de la structure et contribue à la prédiction de structures 3D

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Que signifie : SCOP

A

classification manuelle des domaines structuraux des protéines

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Que signifie : CATH

A

classification semi-automatique des domaines structuraux des protéines

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Quelle est la différence entre une base de données secondaire et une base de données spécialisée ?

A

Il y a souvent plus d’informations et d’annotations dans une base de données spécialisée. De plus, cette base est maintenue par quelques experts dans le domaine.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Vrai ou faux : Les BD primaires alimentent presques toutes les BD secondaires

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Est-il nécessaire parfois d’avoir des informations provenant de plusieurs bases de données ?

A

Oui

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Si les bases de données ne peuvent pas être reliées entres elles en raison de leur format, quelle est la solution ?

A

CORBA Common Object Request Broker Architecture)

Le format XML ( eXtensible Markup Language) aide à briser la barrière entre les bases de données

-> facilite le transport et l’échange des données entre différents serveur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Est-ce que la fiabilité d’une base de données est une chose bien comprise ?

A

Non pas vraiment

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Nommez les types d’erreurs fréquentes dans les bases de données :

A
  • Erreurs de séquencage
  • Les annotations de gènes sont parfois inexactes.
  • La redondance est parfois un problème.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Un des buts importants lors de la création de bases de données est la rapiditié :

A

C’Est surtout de fournir un accès efficace aux bases de données.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Nommez les 3 systèmes de recherche de données les plus populaires :

A
  • GQuery(NCBI)
  • SRS ( Sequence Retrieval System)
  • ExPASy
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Nommez une base de données non-redondante ?

A

RefSeq

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Vrai ou faux : Uniprot possède très peu de redondance.

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

L’utilisation de système de recherche implique quoi de particulier ?

A
  • Les opérateurs booléens : (AND - OR -NOT)

- Les parenthèses

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Qu’est-ce que Entrez ?

A
  • > Système de recherche principale du NCBI
  • > Contient 40 BD. moléculaires et de littérature
  • > Intègre l’information de plusieurs sources
  • > Références croisées
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Décrivez ce qu’est GenBank ?

A
  • > Données provenant du séquençage à haut débit !

- > ADN génomique, ARNm, ADNc, EST

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Il y a 2 manières de chercher dans GenBank :

A
  • Entrez

- Blast

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Genbank utilise un structure de base de données de type :

A
  • Données relationnelles

- Résultats sous forme de fichiers plats

39
Q

Qu’est-ce que GenPept ?

A
  • C’est comme GenBank, mais pour les séquences de protéines
40
Q

Quel est l’ordre de grandeur de GenBank?

A

150 000 000 séquences

140 000 000 000 bases

41
Q

Quel est l’ordre de grandeur de GenPept ?

A

10 000 000 séquences

3 000 000

42
Q

Nommez le format de séquence le plus populaire :

A

FASTA

43
Q

Est-ce que FASTA est compatible avec la majorité des outils de recherche ?

A

Absolument

44
Q

Comment début un fichier FASTA ?

A

> nom | blabla | blabla2

45
Q

L’inconvénient majeur des fichiers FASTA ?

A

La plupart des notations sont perdus

46
Q

Ordre de grandeur de UniProt ?

A

500 000 séquences annotées

50 000 000 séquences non-annotées

47
Q

UniProt peut aussi être accessible via :

A

ExPasy

48
Q

Comment de caractères peut contenir une ligne FASTA ?

A

80

49
Q

Où sont déposées la plupart des protéines depuis 1972?

A

Sur la BD PDB !

50
Q

Comment de stuctures comprends la PDB ?

A

Environ 100 000

51
Q

Qu’est-ce que la World Wide Proteins Bank ?

A

RCSB PDB (USA), PDBe (Europe), PDBj (Japan), and BMRB (USA)

52
Q

Nommez des exemples d’utilisation de PDB :

A
  • Statistique, redondance
  • Troponin C
  • Summary Tab, Sequence Tab, fichier PDB, Jmol
53
Q

L’aspect fondamentale d’une comparaison de séquence est l’alignement de séquences

A

Vrai

54
Q

L’objectif de l’alignement est de trouver les lieux de concordance

A

Vraiment

55
Q

Ce n’est pas vrai de dire que de séquence avec beaucoup de sites correspondant ont une fonction similaire

A

C’est faux, on peut dire ca

56
Q

Les divergeances entre les séquences sont interprétées comme :

A

Résultat de la mutation

57
Q

L’alignement sert à prédire la fonction d’une protéine, à prédire la structure secondaire et à construire une phylogénie :

A

Oui

58
Q

Les protéines homologues sont des protéines dont les gènes sont :

A

d’une origine commune

59
Q

Souvent, les protéines avec un grand pourcentage de similarité ont des résidus avec des caractéristiques similaires, nommez-en quelques-uns

A

Grosseur, charge, hydrophobicité

60
Q

Peut-on dire qu’une protéine est à 40% homologue ?

A

Non

61
Q

Peut-on dire qu’une protéine est à 40% similaire ?

A

Absolument

62
Q

Un outil utile afin de déterminer qu’une protéine est homologue avec un autre est la :

A

Similarité de séquence

63
Q

Pour une séquence de 250 acides aminés, pour dire qu’une protéine est homologue il faut obtenir une similarité de :

A

D’un peu plus de 20%

64
Q

Pour des nucléotides, similarité de séquence et identité de séquence sont-ils synonymes ?

A

Absolument

65
Q

Pour des protéines, similarité de séquence et identité de séquence sont-ils synonymes ?

A

Non pas vraiment!

66
Q

Chez une protéines, la similarité de séquences est représentée par quoi ?

A

*

67
Q

Chez une protéines, la similarité de séquences est représentée par quoi ?

A

: ( propriétés physico-chimiques similaires)

68
Q

Qu’est-ce que l’alignement global ?

A

Alignement de séquences sur la totalité de la longueur.

69
Q

Qu’est-ce qu’un alignement local ?

A

Alignement dans une région où la similarité est assez forte !

70
Q

À quoi sert la méthode par matrices de pixels

A

Méthode graphique afin de représenter des similarités entre deux séquences

71
Q

Logiciel utile afin d’effectuer la méthode par matrices de pixels ?

A

Dotmatcher !

72
Q

Qu’est-ce que la méthode de programmation dynamique ?

A
  • Détermine l’alignement optimal
  • Plus quantitatif que la méthode par alignement de pixels
  • Génération d’une matrice avec score pour les matchs et les mismatchs entre les séquences
73
Q

Faut-il remplir toutes les cellules d’une matrice dans la méthode de programmation dynamique ?

A

Oui

74
Q

Comment fonctionne la méthode de programmation dynamique ?

A
  • Trouve le chemin qui représente l’alignement optimal
  • Trace à partir de la dernière cellule
  • Mouvement diagonale : idéal
  • Mouvement horizontal ou vertical : insertion ou délétion (gap)
75
Q

Qu’est-ce qu’un GAPS ?

A

Souvent impliqué dans l’alignement optimal 1

76
Q

Dans les gaps les insertions et délétions sont rares ou assez fréquents ?

A

Rares,

77
Q

D’ou vient le gap penality ?

A

Valeur arbitraire développée par l’étude des protéines globulaires

78
Q

Nommez les deux algorithmes principales afin d’aligner des séquences de manière globale ?

A

Algorithmes de Needleman- Wunsch

79
Q

Dans Emboss 2 protéines sont disponibles pour l’alignement globale :

A

needle et stretcher

80
Q

Alignement local de séquences ont un score souvent plus élevé puisqu’on prend seulement en compte les régions qui ont été conservées

A

Vrai

81
Q

Quelles sont les méthodes classiques d’alignement de séquences ?

A

Water, matcher supermatcher, le plus populaire étant water

82
Q

Quel est l’algorithme d’alignement utilisé sur le site web NCBI-BLAST ?

A

C’est un algorithme d’alignement local

83
Q

Le score d’alignement que cherche à obtenir les méthodes d’alignement prennent en compte à la fois le nombre d’acides aminés identique, mais aussi ceux qui sont similaires.

A

Vrai !

84
Q

Nommez les matrices de similarité 20x20 les plus utilisées :

A

DAYHOFF, appelées PAM (probabilité of acceptable mutations )

HENIKOFF, appelée BLOSUM, basées sur le contenu en information des substitutions.

85
Q

Que signifie un score plus grand que 0 dans une matrice ?

A

Fréquence de substitution plus élevée qu’aléatoire

86
Q

Que signifie un score de 0 dans une matrice ?

A

Substitution = aléatoire

87
Q

Que signifie un score négatif dans une matrice ?

A

C’est qu’il y a moins de substitution qu’il y en a de manière aléatoire

88
Q

Que signifie l’indice dans BLOSUM62 ?

A

62% d’identité

plus l’indice est petit plus il est approprié pour des séquences divergentes

89
Q

Afin de chercher la similarité entre deux séquences dans une base de données, la méthode de programmation dynamique est très performante ?

A

Pas vraiment

90
Q

Afin de chercher des homologies dans de bases de données il faut utiliser des méthodes :

A

heuristiques

91
Q

Méthodes heuristiques les plus utilisées ?

A

BLAST, FASTA, Sequence Similarity Searching

92
Q

La plus rapide ?

A

Blast

93
Q

La moins rapide et la plus précise ?

A

SSearching

94
Q

Quelques paramètres de BLASTP ?

A

Choix de l’algorithme, choix de la base de données, choix de la matrice, LCR et autres paramètres