Statistiques Flashcards
Quel est la différence entre une population et un échantillon?
-Population : toutes observations possibles pour un groupe défini
-Échantillon : sous-groupe de la population (sélectionné aléatoirement
Quelles sont les statistiques qui décrivent une distribution de fréquence?
-moyenne
-médiane (0% de la distribution d’un bord, 50% de l’autre)
-mode (point le plus haut/classe plus fréquente)
-intervalle
-écart type
-variance
-CV
-intervalle interquartile
Qu’est-ce qui distingue une distribution unimodale et bimodale?
La distribution bimodale a 2 modes mais juste une médiane et une moyenne.
Qu’est-ce que la variance?
Écart type au carré
EXAM. Qu’est-ce que le CV et quelle est l’équation pour le calculer?
dispersion autour de la moyenne, écart-type relatif à la moyenne
CV = (écart-type / moyenne) x 100
Qu’est-ce que l’intervalle interquartile et comment on le calcule?
Mesure de dispersion pour distribution non gaussienne, intervalle entre 25e centile et 75e centile (représente le 50% du milieu de la distribution)
EI = Q3-Q1
À quoi sert un test de normalité et nomme une test pour calculer la normalité?
-Test permettant de savoir si tes résultats forme une cloche gaussienne (distribution symétrique autour de la moyenne).
-Test de Kolmogorov-Smirnov
Comment augmenter la normalité de ton test?
Augmenter la quantité de données ou raffiner les classes
J’ai une distribution normale, quel type de test devrais-je faire?
Un test paramétrique
J’ai des données qui ne semblent pas avoir une distribution normale, qu’est-ce que je peux faire?
Faire un graph en transformant les données (les mettre au carré ou faire le log)
Dans une distribution normale, quels sont les % des données dans +/-1, +/-2 et +/-3 écart-type?
+/- 1 écart type = 68.26% de la population
+/- 2 écart type = 95.44% de la population
+/- 3 écart type = 99.72% de la population
**on a environ 0.3% de chance d’être à plus de 3 écart-type de la moyenne, donc souvent on va refaire la mesure ou l’analyse avant de rejeter la données.
Qu’est-ce que l’erreur standard de la moyenne (SEM) et comment on la calcule?
Déterminer l’intervalle de confiance autour de la moyenne calculée (donne une idée si la moyenne est bonne ou pas)
SEM = écart type/ (racine carré de N)
Comment déterminer une vraie moyenne?
Exercice: en évaluant 31 contrôles de qualité, vous avez obtenu une moyenne de 210umol/L et un écart-type est de 4.2umol/L. Quel est le CV et entre quelles valeurs se situent la vrai moyenne?
Vraie moyenne = moyenne échantillon ± t* SEM (puisque pas possible de savoir la vraie moyenne d’une population)
CV = 4.2/210*100 = 2%
SEM = 4.2/√31 = 0,75 umol/L
Dans tableau de référence: t pour 95% de probabilité, bilatéral, avec 30 degrés de liberté (N-1) = 2,04
Donc: vrai moyenne = 210 umol/L ± (2,04 * 0,75 umol/L) = entre 208,5 à 211,8 umol/L, avec 95% de probabilité
Quand on compare 2 échantillons provenant de 2 populations, on observe des différences entre les moyennes et les écarts-types des 2 échantillons. Quelles sont les différentes hypothèses à tester pour savoir si la différence est réelle?
Hypothèse nulle ou alternative
Hypothèse nulle (Moyenne 1 = Moyenne 2, Variance 1 = Variance 2)
Hypothèse alternative (moyenne et variance différente)
-bilatérale (Moyenne 1 ≠ Moyenne 2)
-unilatérale: Moyenne 1 > Moyenne 2 ou Moyenne 1 < Moyenne 2
Dans quelle situation peut-on utiliser un test de T et quelles sont les 2 prérequis?
-utilisé pour comparer la moyenne de deux groupes
-les données doivent être distribuées de façon normale et avoir des variances similaires (tester avec test F)
Comment peut-on savoir si nos deux moyennes de tests différents ont des variances similaires?
Grâce au test de F qui compare Fcalculé (variance 1 / variance 2) avec une table de valeur de Fcritique. Si Fcrit>Fcalc, accepte l’hypothèse nulle (variance 1 = 2).
Exercice (Test de F): Vous avez 2 groupes
A) n=33, moy 2260 mg/L, ET 582 mg/L
B) n=29, moy 2650 mg/L, ET 473 mg/L
Est-ce que les variances des deux groupes sont similaires et pourriez-vous procéder au test de T?
1) Fcalc = (variance 1/variance2) = (ET1)^2/ (ET2)^2 = (582)^2/ (473)^2= 1,52
2) Fcrit selon le tableau = 1.84
Degrés de liberté:
Numérateur N=33, df= 32
Dénominateur N=29, df= 28
3) Fcalc (1.52) < Fcrit (1.84) → j’accepte l’hypothèse nulle et je suppose que les variance son égale
4) possible de faire test de T (Si valeur absolue T < Tcritique → accepter hypothèse nulle)
EXAM. Qu’est-ce que la sensibilité et la spécificité, et comment les calculer?
Sensibilité: Capacité à identifier correctement les vrais positifs (vrais malades)
-sensibilité = VP/ (VP+FN) = VP/total des malades
-ex: sensibilité de 80% = 8 patients malades sur 10 auront un résultat positif
Spécificité: Capacité du test à identifier les vrais négatif (non malades)
-spécificité = VN / (VN+FP) = VN/non malades
-spécificité 90% = 9 sujets non malades sur 10 auront un résultat négatif
Qu’est-ce que le seuil et comment il affecte la sensibilité et la spécificité?
-seuil : cutoff, détermine sensibilité et spécifique
-la sensibilité et la spécificité sont toujours réciproques
-seuil plus bas → sensibilité augmentée et spécificité diminuée
-seuil plus haut → sensibilité diminuée et spécificité augmentée
EXAM. Qu’est-ce que le VPP et VPN, et comment les calculer?
Valeur prédictive positive (VPP) : proportion de patients avec résultat positif qui ont effectivement la maladie
-VPP = VP / (VP + FP) = VP / (tous les +)
Valeur prédictive négative (VPN) : Proportion des patients avec résultat négatif qui ne sont effectivement pas malade
-VPN = VN / (VN+FN) = VN / (tous les -)
Comment calculer l’exactitude diagnostique?
exactitude diagnostique = (VP + VN) / total
*c’est comme un % de fois qu’on teste les bons dans les deux sens
Est-ce que la sensibilité, la spécificité, la VPP et la VPN sont affectés par la prévalence d’une maladie?
Seulement les VPP et VPN sont fortement influencé par la prévalence
Ex: pour une même sensibilité (seuil), un test performe mieux quand il y a une haute prévalence de la maladie que quand il y a une plus faible prévalence (trop de faux négatifs)
EXAM. À quoi sert la courbe ROC et comment est-elle construite?
-Permet de choisir le seuil optimal et de comparer deux tests entre eux
-elle est construite en mettant sur un graph le taux de vrais positifs (sensibilité) en fonction du taux de faux positifs (1- spécificité) pour différents seuils choisis
-plus la surface sous la courbe ROC est grande, plus le test est performant (donc courbe ROC linéaire = pourri)
Dans quelles situations il faut préférer la sensibilité vs la spécificité?
-Si on veut exclure = mieux d’avoir un seuil qui favorise la sensibilité
-Si on veut catégoriser/diagnostiquer = favoriser spécificité au détriment de la sensibilité
Mon test 1 à un AUC de 655 et mon test 2 à un AUC de 930. Quel est le test le plus performant selon les courbes ROC?
Le test 2
Exercice de performance diagnostique d’un test:
-Le test a 71% de sensibilité et 85% de spécificité
-La prévalence est de 30% dans cohorte de 1000 patients
1) total des malades = 0.3x1000 = 300
2) total des non-malades = 1000-300 = 700
3) Sensibilité = 71% donc =.71x300 = 213 VP
4) Spécificité = 85% donc 0.85x700 = 595 VN
5) on peut compléter le nombre de FN (300-213=87) et de FP (700-595=105)
6) Le total des + = 213+105=318 et le total des - = 87+595=682
7) VPP = VP / (VP + FP) = 213 / 318 = 67% et VPN = VN / (VN + FN) = 595 / 682 = 87%
*possible qu’à l’exam il faut calculer la spécificité et la sensibilité à partir de ca
Interprète ces résultats avec les informations suivantes pour un test urinaire : prévalence est de 30%, VPP = 67% et VPN = 87%.
-si je trempe une bandelette urinaire dans l’urine d’une population avec une prévalence de 30% et que j’obtiens un résultats positif, j’ai 67% des chances que cette personne ait une infection urinaire (ou présence de leucocyte dans l’urine)
-si je trempe une bandelette urinaire dans l’urine d’une population avec une prévalence de 30% et que j’obtiens un résultats négatif, j’ai 87% des chances que cette personne ait pas une infection urinaire (ou présence de leucocyte dans l’urine), mais 13% de chance que oui
EXAM. À quoi servent les likehood ratios et comment les calculer?
Peut être utilisé pour regarder la probabilité post-test en utilisant la probabilité pré-test sous forme de cote. Grâce à ces résultats, il est possible de savoir qu’elle prévalence est nécessaire pour que le test soit utile
LR+ =(sensibilité) / (1-spécificité) = (fréq. VP / fréq. FP)
LR- : (1-sensibilité)/ (spécificité) = (fréq. FN / fréq. VN)
Est-ce que les likehood ratios dépendent de la prévalence?
Non
Nous avons un likehood ratio+ de 4.73 et une prévalence de 30%, quelle est la probabilité que le patient aille la maladie?
-Prévalence de 30%:
Cote = probabilité/(1–probabilité) = 0.3/(1-0.3) = 0.43
-Si test positif : cote*LR+ = 0.43x4,73(LR+) = 2.03
-En probabilité = cote/(cote+1) = 2,03 / (2.03+1) = 0.67 donc 67% qu’on aille vraiment la maladie
Nommer des sources de variations pour un résultat de laboratoire.
Variation pré-analytique (SOURCE MAJEUR):
-Préparation du patient (jeûne, posture, alcool ou médicaments)
-Prélèvement (anticoagulant, garrot)
-Manutention (conditions de transport, centrifugation, conservation de l’échantillon)
Variation analytique:
-Aléatoire (imprécision)
-Systématique (biais)
Variation biologique:
-Variation selon l’âge, sexe
-Cycle nycthéméral, mensuel ou saisonnier
-Variation biologique aléatoire (intrinsèque)
Erreur grossière (rare et imprévisible):
-Erreur d’identification du spécimen
-Dysfonctionnement momentané de l’essai ou de l’appareil (rare)
Nommez 2 types de variation biologique aléatoire:
-Intra-individuelle: Variation moyenne de la concentration d’un paramètre dans le temps autour d’un point homéostatique chez un individu (ne varie pas grandement selon âge, sexe, ethnie)
-Inter-individuelle: Variation moyenne entre les différents points homéostatiques des individus dans la population
Comment est-il possible de déterminer une variation biologique?
-Il faut standardisé le pré-analytiques tel que faire un prélèvement successif sur temps défini
-Ensuite, congeler les échantillons pour analyser dans une seule série analytique (permet d’éliminer la variance due aux biais et de quantifier l’imprécision analytique pour la soustraite de la variation biologique)
Au laboratoire on peut établir les cibles de performances désirables pour l’imprécision analytique, le biais analytique et l’erreur totale. Comment on les calcule?
-Imprécision désirable : CVanalytique doit être plus petit ou égale à 0.5xCVbiologique intra
-Biais désirable : biais doit être plus petit ou égal à 0.250x√[(CVbiol.intra)^2+(CVbiol.inter)^2]
-Erreur totale = Biais désirable + 1,65ximprécision désirable
Qu’est que le RCV (Reference Change Value)?
-% variation requis pour obtenir une différence significative entre deux résultats avec un niveau de probabilité donné
-ex: est-ce que le traitement marche?
-Calculé avec CVanalytique et CVbiologique intra-individuel
Comment calculer le RCV?
RCV = CVtotal = Z * √2 * √[ (CVanalytique^2) + (CVbiol intra^2)]
-Z=dans table de référence (ex: 95% = 1.96 pour test bilatéral)
-Pour être significatif (avec une probabilité donnée), le changement entre deux résultats doit être plus grand que le RCV
Qu’est-ce qui peut affecter les variations biologiques intra-individuelles?
Instabilité de l’état du patient (médicaments, détérioration d’un état pré-existant ou apparition d’une pathologie)
Nomme moi 4 variations qui peuvent affecter les résultats dans un test de laboratoire?
Variations pré-analytiques, analytique, biologique et erreurs grossières
Comment obtenir des données de variations biologiques intra-individuelles?
Prélèvement sur sujet sain, avec conditions pré-analytiques et analytiques contrôlés, ainsi qu’absence de d’autres sources de variations.