Cours 9 - Introdiction aux données de séquençage haut-débit par la plateforme Galaxy Flashcards
Que peut-on étudier avec une expérience ChIP-seq?
l’épigénétique principalement, le 3D de la structure et où se lie le promoteur
Que peut-on étudier avec un RNA-seq?
Le nombre de fois qu’un gène est transcrip
Sous quel format se présente un fichier FastQ?
4 lignes, 1) location de la séquence 2) séquence 3) + 4) score en Phred + 33
Quelles sont les premières étapes de traitement des lectures?
- Démultiplexer
- Vérifier qualité des lectures
- rogner les extrémités au besoin
- alignement avec génome de référence OU assemblage de novo
Dans un graphique de ‘sequence length distribution’, si on a rogner les longueur de lecture, on s’attend a ce que le graphique ressemble à quoi?
Un triangle, car toutes les mesures ont une seule longueur
Quel est le but d’aligner des lectures de séquençage à haut-débit?
identifier le meilleur alignement local possible sur le
génome de référence pour chaque lecture
Quand on aligne des séquences suite à un séquençage à haut-débit, est-ce qu’on utilise un Smith-waterman ou BLAST?
ces deux techniques sont en faite peu efficace (demande trop de mémoire et trop de temps). Donc au lieu on indexe les lectures puis on fait un seul balayage du génome (BWT donc Bowtie).
Quels sont les avantages de BWT?
- BWT facilite la compression du texte (bcp de caractères identiques se suivent)
- BWT est réversible, permettant de facilement récupérer la séquence initiale et
des sous-séquences (alignement de lectures!!) - Une fois que la BWT(T) est obtenue, on se débarasse du reste.
pourquoi Bowtie 2 a-t-il été inventé? quel problème cette version règle?
Ne ralenti pas autant en présence de mismatch, délétion ou insertions
Comment se fait un séquençage en pair illumina?
on séquence des deux coté de chaque fragment, on option donc le read 1 et le read 2 (mate).
Quel information peut-on avoir avec un séquençage en pair?
comme la longueur du read est connu, on peut savoir s’il y a insertion ou délétion comparer au génome de base.
Quels sont les divers format de fichiers d’alignement des lectures?
- SAM: Sequence Alignment/Map
- BAM: format binaire compressé du format SAM
- CRAM : Compression basée sur la séquence du génome de référence, compression plus efficace que BAM (2 à 50X)
Comment se présente un fichier SAM?
Une ligne par séquence avec 12 colonnes contenant les information sur l’alignement
Qu’est-ce qu’une valeur de flag?
c’est un nombre obtenu par la somme des puissances de deux. ces puissances sont obtenus en fontion des réponses positives à 11 questions en lien avec l’alignement
Quel est le but d’un ChIP-seq?
Savoir si une protéine lie un fragment d’ADN in vivo;
couplée au séquençage, cette technique permet de trouver tous les sites de liaison d’une protéine sur un génome