Cours 3 et 4 - Compréhension pratique de la statistique Flashcards
Un sondage est un exemple d’étude…
Observationnelle
Quels sont les 10 commandements du sondage bien construit
- Pop cible bien définie
- Échantillon représente pop cible
- Selection randomisée
- Taille échantillon
- Diminuer taux non-réponse
- Adapter sondage
- Formulation des phrases
- Bon timing
- Personnel formé
- Conclusions adaptées et justes
Le principe que chaque membre de la population cible a une chance égale d’être inclus fait allusion à quel principe en stats ?
Selection randomisée
À quoi faut-il faire attention quand on sélectionne des participants pour notre étude ?
Sample convenience
Plus la taille de l’échantillon est grande, plus l’information que l’on en tirera…
Sera fiable !
Comment estime-t-on la marge d’erreur dans la réponse du sondage ?
1/ √ 𝑥
où x = nombre de participants
Représente l’erreur statistique entre les résultats du sondage par rapport à la population entière
Quel est le taux de réponse idéal en statistiques ?
Taux de réponse >70% idéal
N répondants/N total*100
Comment peut-on assurer le suivi (réponse au sondage/minimiser non réponse)
être attractif: coupons de rabais, prix à gagner, enveloppes timbrées pour retour réponses… Attention aux biais incitatifs
Façons d’adapter le sondage à la population
Choix de la voie de communication
Mail, téléphone, internet, etc.
Quelles erreurs peut-on commettre dans la formulation des phrases pour un sondage ?
- Niveau de précision
2. Formulation guidée implicitement
a. Sondage demandant de juger favorablement le président Bill Clinton: 60% favorables…
b. Sondage demandant de juger favorablement le président Bill Clinton, en tant que personne: 40% favorables…
est un exemple de…
Niveau de précision
Que pensez-vous de la mauvaise gérance gouvernementale de Donald Trump? Vs. Que pensez-vous de la gérance gouvernementale de Donald Trump?
est un exemple de…
Formulation guidée implicitement
Récolte des données sans biais et hautement précise; envisager tous les scénarios pour anticiper la manière de les gérer; homogénéité entre chaque personne qui va conduire le questionnaire
sont des exemples de…
Formation et adaptation du personnel
Erreurs classiques lorsqu’on tire conclusions à partir de sondages
- Projection à une population plus large
- Clamer la présence d’une différence qui n’est pas vraiment là
- Dire que les résultats ne sont pas scientifiques mais les présenter comme si
Comment éviter les erreurs classiques lorsqu’on tire conclusions à partir de sondages
- Valider la bonne sélection des individus/conclusion en adéquation avec la population testée
- Être vigilant vis-à-vis des statistiques. Différence plus grande que la marge d’erreur.
- Faire attention quand on dit ces résultats ne sont pas scientifiques mais…
Critères pour expérience bien menée chez l’humain
§ Taille d’échantillon assez grande
§ Sujets sélectionnés représentent la population d’intérêt
§ Si traitement, randomisation traités/contrôles
§ Contrôles pour facteurs confondants
§ Minimiser les biais/contrôles qualités
§ Analyse des données appropriée
§ Conclusions adaptées
Que fait-on des données en études cliniques
Les données issues des participants de l’étude servent à tirer des conclusions transférables à une population plus large de futurs patients
Que fait-on des données en études en laboratoire
données collectées constituent l’échantillon. À partir de cet échantillon, on fait des inférences/liens fiables à propose de la situation réelle (population)
Quatre éléments importants pour guider la taille de l’échantillon
- Taille effet recherchée
- Niveau de puissance
- Seuil de signification
- Variabilité attendue
Quel niveau de puissance est le gold standard ?
80%
Quelle est la différence significative par convention ?
0.05
Quelle question faut-il se poser quand on choisit notre échantillon ?
Quelle population, ou groupe d’étude est la plus représentative?
Définition: caractéristique non inclue ou contrôlée dans l’étude mais qui peut avoir une influence majeure sur le résultat.
Facteur confondant
Définition: échantillon standard contrôle permettant de détecter les erreurs/variations analytiques.
Contrôle qualité
Le contrôle qualité permet de vérifier que le résultat….
est précis, fiable et valide
On s’assure que la variation biologique est indépendante de celle analytique
En utilisant un contrôle qualité on veut que le groupe…
Ait peu de variabilité…
Ainsi la variabilité dans chaque groupe et intergroupe n’est pas due à des biais expérimentaux/techniques; la variabilité est biologique.
(agglomération des points du CQ dans une partie du graph p ex)
3 erreurs à éviter lorsqu’on tire conclusions en études humaines
§ Exagération de l’interprétation des résultats
§ Faire des connexions, donner des explications non supportées par les statistiques
§ Tirer des conclusions hors-sujet, au-delà de la portée de l’étude en cours
Quel design (animal ou humain) comporte plus d’hétérogénéité ?
Humain !
Chez animal, contrôle de tous les facteurs pouvant être confondants
2 catégories principales de variables
- Numériques (quantitatif)
2. Catégorielles (qualitatif)
Types de variables catégorielles
- Nominales (nom/catégorie)
- Ordinale
- Binaire (classification oui/non, valeur 0 ou 1)
Quel type de variable suppose un nombre infini de valeurs réelles
Variable continue
Quel type de variable suppose un nombre limité de valeurs
Variable discrète
Qu’est-ce que le coefficient de variation permet d’évaluer
La dispersion
CV = écart-type/moyenne
Checklist de verification des graphiques
Vérifier l’échelle des axes;
Éviter les changements d’échelle pour améliorer la visualisation du résultat;
Choisir le type de graphique le plus approprié selon les données;
Attention à la manière de représenter la dispersion; avoir conscience de ce que cela représente;
Interprétation/conclusion; basé sur les valeurs de P; Choix du test d’analyse approprié.
Qu’est-ce que la valeur de p permet de donner ?
un poids à la force de l’évidence expérimentale que nous donne la comparaison, par exemple, de deux conditions; valeur entre 0 et 1.
Valeur de p<0.05 suppose…
une forte évidence contre l’hypothèse nulle; donc on rejette l’hypothèse nulle et on accepte l’hypothèse alternative.
Valeur de p>0.05…
suppose une faible évidence contre l’hypothèse nulle.
H0 rejetée …
p<0,05; résultats statistiquement significatifs; Donc A ≠ B; on valide Ha
H0 non rejetée
p>0,05; résultats non significatifs; Donc A non ≠ de B; on valide H 0 ou pas assez de preuves pour la rejeter
Dans le cas où p est proche de 0,05…
on ne peut pas rejeter l’hypothèse H0.
Autrement dit, on rejette l’hypothèse alternative (Ha) qui suppose une différence.
*Mais peut-on à tout coup dire que H 0 est vraie?
Deux types potentiels d’erreur en valeur de p
type I : faux positif
type II : faux négatif
Définir erreur de type I en stats avec valeur de P
Il n’existe, en réalité, aucune différence entre les populations. MAIS, l’échantillonnage aléatoire peut conduire à des données sélectionnées au sein desquelles il y aura une différence suffisamment grande et statistiquement significative.
Définir erreur de type II en stats avec valeur de P
existe, en réalité, une différence réelle entre les populations. MAIS, l’échantillonnage aléatoire, et une petite taille d’échantillons, peut produire une différence suffisamment petite et non statistiquement significative.
La puissance statistique de p dépend de quelles variables
§ La taille de l’échantillon
§ L’ampleur de la dispersion ou écart type attendu
§ La taille de l’effet que l’on suppose exister
§ Le seuil de signification choisi (généralement 0,05)
Qu’est-ce qu’on doit regarder pour déterminer quelle fraction des expériences peut-on s’attendre à voir aboutir à un résultat statistiquement significatif?
La puissance statistique
Définition : théorie de distribution en cloche ou normale.
Distribution de Gauss
Caractéristiques principales de la distribution de Gauss
La moyenne ou centre de la distribution
L’aire/surface (toute la population)
Largeur
Pourquoi voit-on la distribution de Gauss ?
Plusieurs facteurs aléatoires générant une certaine variabilité
Se contrebalancent/s’annulent
Rare que ces facteurs soient dans même direction; peu représentés; indépendants
= Bcp de valeurs proches de la moyenne
Les valeurs à gauche de la distribution de Gauss…
Diminuent la valeur moyenne
Au contraire valeurs à droite augmentent la valeur moyenne
Quel % des valeurs se retrouvent à +/- 1 ÉT de la valeur médiane en distribution de Gauss ?
68%
Quel % des valeurs se retrouvent à +/- 2 ÉT de la valeur médiane en distribution de Gauss ?
95%
Si on voit que la cloche de Gauss ne suit pas une distribution normale (on voit qu’elle tend plus d’un bord ou de l’autre), quoi faire ?
Log
Pk la distribution de Gauss ne serait pas normale ?
§ Asymétrie contrairement à la distribution normale
§ Pas de contrebalancement
§ Dispersion des valeurs non homogène
§ Agostino-Pearson (A-P)
§ Kolmogorov-Smirnov (K-S)
§ Anderson-Darling (A-D)
§ Shapiro-Wilk (S-W)
Qu’est-ce que ces tests permettent ?
Il existe des test permettant d’apprécier dans quelle mesure notre distribution s’approche, ou non, d’une distribution gaussienne ou à l’inverse log normale
§ Agostino-Pearson (A-P)
§ Kolmogorov-Smirnov (K-S)
§ Anderson-Darling (A-D)
§ Shapiro-Wilk (S-W)
Objectif des tests ?
quantifier l’écart entre la distribution observée et la distribution gaussienne théorique; + la valeur de P est grande, + les distributions observées et théoriques sont semblables; visuellement apprécié avec le graphique QQ plot (validation subjective basée sur les quantiles)
Définition : Une mesure par groupe On compare les groupes
Mesure indépendante
Définition : Plusieurs mesures comparées dans un même groupe
Mesures répétées
Définition : comment se comporte la variabilité de 2 ou plusieurs ensembles de données indépendantes.
Hypothèse d’égalité des variances
Définition : différents ensembles de données ont des écart-types (variabilité, dispersion) similaires: les variances sont identiques
Homoscédasticité
différents ensembles de données ont des écart-types (variabilité, dispersion) différents: les variances ne sont pas identiques
Hétéroscédasticité
Quand on test l’hypothèse des égalités, quelle est l’hypothèse nulle ?
l’hypothèse nulle H0 est que les variances (écart types) sont identiques
l’hypothèse alternative Ha est que les variances (écarts types) sont différents
Comment effectue-t-on le test l’hypothèse des égalités
Calcul du facteur F
Quand on calcule le facteur F, à quel moment valide-t-on l’hypothèse nulle?
Si F = 1. Et donc, égalité des variances
Quand on calcule le facteur F, à quel moment rejette-t-on l’hypothèse nulle?
F > 3 et donc, on dit que les variances sont inégales
Si on obtient une variance inégale, quoi faire ?
- Ignorer le résultat. Les tests statistiques sont quand même assez robustes tant et si bien que la taille de l’échantillon est assez importante, et chaque population ont un nombre d’observations similaires;
- Transformer les données pour tenter d’égaliser les variances (souvent en logarithmes);
- Test alternatif, notamment lors de la comparaison de 2 groupes indépendants, appelé la correction de Welch qui s’affranchi de l’inégalité des variances. Mais, contrepartie: puissance plus faible pour détecter des différences;
- Se baser sur les résultats de F (égalité ou non des variances) pour orienter le choix du test statistique vers un test paramétrique ou non paramétrique.
Pour utiliser un test paramétrique, quelle assomption fait-on ?
les données utilisées proviennent de populations avec une distribution gaussienne et des variances similaires (égalité des variances)
En fonction de quels critères choisit-on le test paramétrique ?
- Du type de variables: nominales ou catégoriques?
- Du nombre de comparaisons: 2 groupes ou plus?
- De la structure des groupes: indépendants (non pairés) ou dépendants (pairés)?
Quand doit-on utiliser un test non-paramétrique ?
Si les données ont une distribution non gaussienne et/ou des variances inégales.
Si les données une distribution non gaussienne et/ou des variances inégales
Paramétrique ou non paramétrique ?
Non paramétrique
ANOVA et T-test sont des tests…
Paramétriques
T-test si 2 groupes
ANOVA si > 2 groupes
Pairé vs non pairé
Pairé : personne dans groupe contrôle semblable à personne dans groupe expérimental
Non-pairé : distribution aléatoire
Assomptions en one-way ANOVA
- Distribution normale
- Indépendance des échantillons
- Égalité des variances
- Variable dépendante doit être continue
- Variable indépendante catégorielle
Si le test ANOVA est significatif…
Alors il est possible de comparer les différents groupes souhaités; tests post-hoc (en latin: après ça…). De nombreux tests existent… Un des plus utilisé est le test de Bonferroni.
One-way vs two-way ANOVA
one way : >2 groupes, une variable inépendante
two way : >2 groupes, deux variables indépendantes
Si p<0.05, on accepte Ha. Quelles questions devrait-on tout de meme se poser ?
§ La taille de l’effet est toutefois à considérer. Est-ce qu’une différence de 5% entre 2 groupes, même si significative a réellement un impact biologique?
§ Comment a été fait le design expérimental? Est-ce que la valeur de P est vraiment liée à la question posée? Est-ce que d’autres variables peuvent interférer (facteurs confondants)?
§ Est-ce que le bon test a été utilisé selon tous les critères abordés précédemment (normalité, variance, nombre de groupes…)?
§ Bonne approche expérimentale?
Si p>0.05, mais proche de 0.05… Doit on vraiment accepter H0?
Puissance? Est-ce que la taille de l’échantillon est suffisante?
Approche expérimentale alternative pour vérifier?
+ se poser memes questions que si p<0.05, dont sur le design expérimental, sur présence ou non de facteurs confondants, si le bon test a été utilisé
Si p»»0.05…
§ Les chances d’accepter Ha sont vraiment très faibles! § Toutefois, s’interroger sur la variabilité (erreur standard) est approprié. Si extrêmement variable, problème expérimental?
§ Comment ont été assignés les groupes expérimentaux? Bons contrôles? Échantillonnage représentant la question posée?
§ Encore une fois, facteurs confondants?
Définition : On cherche à déterminer autour de la valeur estimée (moyenne) l’intervalle contenant la vraie valeur du paramètre recherché
Intervalle de confiance
Comment peut-on modéliser la relation entre deux variables ?
Régression linéaire simple
Comment modéliser impact du plusieurs variables indépendantes
Régression linéaire multiple
V/F Une corrélation reflète un lien de cause à effet
F, quantification du degré avec lequel deux variables continues sont liées.
Types de corrélations
- Pearson (distribution normale)
2. Spearman (non paramétrique)
Assomptions pour corrélation de Pearson
§ Distribution normale pour les 2 variables;
Relation linéaire: ligne droite qui relie les 2 variables;
§Égalité des variances: distribution similaire autour de la droite linéaire.
Assomptions corrélation Spearman
Équivalent non paramétrique corrélation de Pearson;
Utilisé en cas de violation des assomptions à suivre pour Pearson;
Relation monotonique; même direction mais pas nécessairement constante comme dans une relation linéaire.
Définir effet cigogne
une corrélation illustre une association et non une causalité réelle
La confusion entre les 2 est l’effet cigogne
= On voit association entre deux paramètres sans qu’ils ne soient vraiment associés
Histogramme - q’est-ce que l’écart type représente
2/3 des données se situent dans cet intervalle (si distribution normale ou gaussienne)
Histogramme - qu’est-ce que la plus petite barre sur ce graphique représente
Représente erreur standard de la moyenne (ESM):
Écart type/√n; n = le nombre d’individus. + la taille de l’échantillon est grande + ESM sera petit
Le digramme en violon est plus gros…
Là où le plus de valeurs se trouvent