Cours 5 - Introduction à l’analyse de données protéo(géno)miques Flashcards
Définir le terme protéomique
Étude à large échelle des protéines
Qu’est-ce qui en inclus dans le protéomes?
protéines + protéines modifiées
À quoi sert le pré-processing?
à simplifier et la clarifier le signal
Quelles sont les étapes de la production de spectres de protéines?
- Données brutes
- Sprectres réduits (filtration des pics / pré-processing)
- Peptide-spectre (PSM) (moteur de recherche - assignation des spectres à un peptide)
- Peptides (validation des peptides)
- Protéines (inférence protéique)
Que fait-on exactement lors du lissage?
on retire le bruit de haute fréquence. Lisse le graph.
Quelles sont les étapes compris dans le pré-processing?
Lissage
Ajustement
Détection des pics
Que fait-on exactement lors de l’ajustement?
On retire le bruit de basse fréquence, unifie le signal en le mettant à zéro.
Que fait-on exactement lors de la détection des pics (pré-processing)?
On simplifie et on définie le signal
Niveau méthode, comment fait-on le pré-processing (point de vue manip)?
On utilise un logiciel avec les paramêtres désirés.
Quand on fait un spectre pour déterminer quelles protéines on a, est-ce que on analyse réellement les protéines présentes?
Non, on ne peut que ‘séquencer’ les peptides présents. On a donc aucune information sur la structures.
Lors de la digestion enzymatiques précédent un spectre, où est faite la coupure?
Coupe au niveau des a.a. positifs, soit lysine et arginine.
par spectre, peut-on différencier des a.a. de même poids moléculaire? Qu’est-ce que cela implique?
Non, on ne peut pas les différencier. Cela signifie que la leucine et l’isoleucine ne peuvent être différencié tout comme des modifications d’a.a. qui ne résultent pas en un changement de poids moléculaire.
que ce passe-t-il si la force de fragmentation dest mal ajustée?
possibilité de fragmenter les peptides à des endroits inabituels (presque impossible de nos jours)
Dans un monde idéal, à quoi ressemble un spectre ayant des fragments de direction b et y?
Il y a un fragment présent pour toutes a.a. donc pour un peptide de trois a.a. j’ai 1, 12, 123, 3, 32, 321.
donner trois raisons qui rendent l’annotation d’un spectre difficile
- fragmentation incomplète de certains fragments (pi par défaut tu ne sais pas qui est mal fragmenté)
- On ne sait pas quels fragments viennent d’un cote ou de l’autre (b VS y)
- modifications port-traductionnnelles des a.a. .. on sait pas qu’est-ce qui est arrivé ou.
Est-ce qu’il est possible de lire un spectre sans liste prédéfinie de protéines connues?
Ben si tu veux une réponse non, pas vraiment. On a besoin d’une base de données pour comparer les spectre potentiels avec le spectre obtenu.
Quels sont les deux axes d’un spectre de masse?
Abondance en fonction de la masse / charge
Comment détemrine-t-on qu’un score de spectre est bon?
En fonction d’un seuil, si le score est différent du seuil c’est un bon score
Comment mon score de spectre est affecté si j’augmente le nombre de pics présents dans le spectre?
le score augmente aussi
À quoi correspond le score donné par le logiciel SEQUEST?
Système de score selon l’intensité. Fait la somme de l’intensité des pics du spectre théorique.
À quoi correspond le score donné par le logiciel MASCOT / andromeda?
Système de score selon le nombre de pics, score statistique. inclus la probabilité que un pic N corresponde à pic K aléatoire, donc est un p-value.
À quoi correspond le score donné par le logiciel X!Tandem?
Système de score hybride, somme des intensitées des pics associés et du nombre d’ions b et y associés, donc est un e-value.
Comment je fais pour choisir le logiciel adéquat pour l’analyse de mon spectre?
J’utilise un autre logiciel! SearchGUI / PeptideShaker, qui combiner les scores obtenus de divers locigiels
Comment analyse-t-on les chances d’avoir des faux positifs dans notre spectre?
On fait une distribution nulle qui contient un ramassi de séquences peptidiques aléatoires
Quelles sont les trous méthodes possibles pour faire des peptides inconnus? Quel est le plus utilisé?
- Séquence inverse (The best)
- Séquence aléatoire
- Nouvelles séquences
Quel est le problème lié à la formation de peptides aléatoire dans la BD de faux-positif?
Ne prend pas en compte les patrons présents dans la fragmentation.
Comment fonctionne la stratégie du target-decoy?
On crée une BD de séquences peptidiques qui n’existent pas vraiment. Le tout va former une distribution nulle, sur un graphe regroupant le score des peptides non-existant + les notres en fonction du PSM (peptide spectrum match). Puis on cherhce le seuil des scores pour lequel j’ai un minimum de faux-positif ET un minimum de faux-négatif.
À quoi correspond le taux de découverte locale?
À la proportion de decoy / cible
Expliquer le principe de Occam’s razor en inférence protéique.
Garder le plus petit ensemble de protéines qui explique tous les peptides
Expliquer le principe de vrai Occam en inférence protéique.
Garder le plus petit ensemble de protéines avec annotation qui explique
tous les peptides. implique qu’on est des données biologiques sur le tout.
Expliquer le principe de Anti-Occam en inférence protéique.
Garder toutes les protéines qui ont au moins un peptide
Qu’est-ce que l’inférence protéique?
Deviner (parce que cela revient à quand même beaucoup de chance) les protéines preésentes dans un échantillons à partir d’un spectre.
Quel est le plus gros déni de l’inférence protéique?
les isoformes et les paralogues
à partir d’inférence protéique, est-ce possible d’avoir une résolution complète du problème?
Nop
La liste des prot utilisé pour l’inférence est en fait une liste de groupe de protéines
La liste des prot utilisé pour l’inférence est en fait une liste de groupe de protéines
Vrai ou faux? Une analyse de protéomique par spectrométrie de masse permet d’identifier toutes les protéines présentes
dans l’échantillon? pourquoi?
Faux, due aux limitations des connaissances de la BD utilisées et car plus une protéines est présentes plus l’échantillons contient de ses fragments.
Qu’est-ce que la protéogénomique?
L’étude à large échelle des protéines
selon des données génomiques associées
Quelles sont les limitations de la protéogénomique si on part de données de RNA-seq?
- Probabilité d’expression
- Mutations
- Grosse BD
- Seuil de détection du transcrit
- inférence
- protéines non-annotées
Quelles sont les 3 étapes de la protéogénomiques?
- Créer une BD
- Stratégies de recherche pour une grande BD
- Vérifier ses découvertes
Quand j’analyse un spectre, est-ce que je favorise la présence d’ions y ou b?
La chimie dit y
La protéogénomique est bien meilleure que la protéomique?
Cela dépend de ce que l’on veut / de ce que l’on recherche