Bioinfo Flashcards
UniPtoKB/ Swiss-Prot est une….
BANQUE de données PROTEIQUE non redondantes et de haute qualité.
Qualité d’une base de données biologiques (5)
Données mises à jour et validées expérimentalement
Facilité d’utilisation
Vitesse d’interrogation
Non redondante
Accès LIBRE à l’information
En quelle format sont publié les données sur BLAST
Format FASTA
Les matrices de substitution permettent de donner un score de similarité ou de ressemblance entre deux séquences…….
PROTEIQUE
Les matrices de substitution sont utilisées pour calculer des………..
scores de similarité
Qui a introduit la génomique et quand
1979, par McKusick
4 évolution des technologies d’analyse génomique
1979: Séquençage Sanger
1990: Amelioration de Sanger
1999: Séquençage par électrophorèse capillaire
2005: NGS
Qui propose pour la première fois la biologie moléculaire et quand?
Francis Crick en 1958
cout et temps d’un NGS
48h, environ 1500$
3 processus du NGS
1-Fragmentation en reads et amplification
2-Séquençage des reads
3-Alignement des séquences
Dans le NGS, les reads sont enregistré sous quel fichier
dans le ficher FATSQ
2 méthodes d’alignement des séquences dans le NGS, explique les
De novo (reads(contigs(scaffold)))
Avec référence: avec alignement et profondeur
3 generation de séquençage:
1-Séquençage Sanger
2-SBS (Séquençage par synthèse)
3-SMS (Single molecule sequencing)
Quel génération de séquençage utilise des short et des long reads
Single molecule sequencing (SMS): long reads
Séquençage par synthèse (SBS): short reads
Quelle base de données est relationnelle et interrogeable par la SQL
Base de données (PAS BANQUES)
Historique des bases de données
1965-Dayhoff: atlas des sequences proteique
1980-Gautier: 1ere banque
3 opérateur Booléens
And Or Not
explique Blast: quel sequences sont analysée/ alignement de quel type/ quel format
Un des outils les plus utilisés au monde qui sert à rechercher des régions similaires, entre les séquences nucléotidique ou protéiques. Avec un alignement local au format Fasta.
banque de séquences protéiques la plus connue
UniProtB/SwissProt
3 banques de séquence nucléique les plus connues
-EMBL ou ENA
-Genbank
-DDBT
PAM250/PAM0/BLOSUM62 sont des séquences….
protéiques
les séquences protéiques sont comparé par des scores de:
ressemblance ou similarité
Format FASTA utilisé ou et pour quelle séquence
pour BLAST: séquence protéique ou nucléique
FASTQ utilisé pour quel séquence
UNIQUEMENT nucléotidique
2 technologies du SBS
illumina et DNBSEQ
2 technologies du SMS
SMRT et Nanopore
Génome entier et exome entier stockage
genome: 3Gb
exome: 50Mb
transcriptome: séquençage de:
tout l’ARN
bio informatique: ___discpiline
INTERdiscipline
4 lignes d’un fichier FASTQ
ligne1: label
2: séquence du read
3: association ligne 2 et 4
4: Q score
nombre d’espèces représentés chez UniProtKB/SwissProt et espèce la plus représentée
espèce humaine plus représente
14 000 espèces
Blast: quel type d’alignement?
LOCAL