Cours 7 : Analyse de variance (ANOVA) Flashcards
Pourquoi n’est-il pas pertinent de répéter plusieurs tests de t afin de comparer les moyennes de plusieurs échantillons ?
- Le nombre de comparaisons augmente de façon géométrique
2. parce que ça augmente l’erreur de type I
Qui-suis-je? Méthode d’analyse utilisée quand on est en présence de plus que 2 échantillons?
Analyse de variance (ANOVA)
Qu’est-ce que l’analyse de variance (ANOVA) permet de comparer?
des moyennes
Comment peut-on mesurer la variabilité des moyennes de plusieurs échantillons issus d’une même population?
Avec l’erreur standard (SE)
Vrai ou faux? « un intervalle de 2 erreurs standards autour d’une moyenne est équivalent à un intervalle de confiance à 95% autour d’une moyenne »
vrai
Quelle est l’hypothèse de comparaison des moyennes de base pour l’ANOVA?
Si on a n échantillons indépendants, on a les hypothèses suivantes :
H0 : les moyennes sont égales ⟹μ1=μ2=⋯=μn
H1 : au moins une des moyennes est différentes des autres.
Quelle est la statistique de test du test d’ANOVA
F (aussi appelée F-ratio)
Vrai ou faux? l’analyse des variances (ANOVA) utilise la somme des carrés comme paramètre de calcul
vrai
Qui-suis-je? « Différence entre la moyenne d’un groupe et la moyenne totale »
Somme des carrés factorielle
Qui-suis-je? « Différence entre chaque valeur d’un groupe avec la moyenne de son groupe »
Somme des carrés résiduelle
Qui-suis-je? « NOTE : (Yi,j−Yi¯), mesure l’écart entre une valeur observée et sa moyenne
Résidu
Qui-suis-je? « J’estime l’égalité de 2 variances en en faisant le rapport entre les variances résiduelle et factorielle »
F (F-ratio)
Lorsqu’on calcule le F-ratio, quelle variance est au nominateur et quelle est au dénominateur?
Nominateur : Factorielle (inter-groupe)
Dénominateur : Résiduelle (intra-groupe)
Vrai ou faux : si H0 est vraie, la variance factorielle tend vers 0, alors le F-ratio tend aussi vers 0.
Vrai
Comment est-ce qu’on calcule le Fcritique? (indice : commencer par les degrés de liberté)
on trouve la Fcritique dans une table de Fisher selon deux valeurs de degrés de liberté différents :
celui du numérateur dl factoriel = k−1
celui du dénominateur dl résiduel = n−k
où
k = nombre de groupes
n = nombre total de mesures.
Vrai ou faux ? Le degré de liberté résiduel est toujours plus petit que le degré de liberté factoriel.
Faux, il est plus grand
Dans quelles circonstances est-ce qu’on peut rejeter H0 avec le test d’ANOVA?
- si Fcalculée > Fcritique
- si la p-value correspondante est < α
.
Quelle est l’utilité de calculer le R carré dans le test d’analyse de variance?
quantifier la contribution de la variance factorielle (entre les groupes) à la variance totale dans nos données avec la valeur de R2(R carré).
Qui-suis-je? « Valeur qui indique quelle proportion de la variabilité totale dans notre variable Y dans nos données est due aux différences entre les groupes »
R carré
Vrai ou faux? « une analyse de variances (ANOVA) sert à comparer les variances de plusieurs groupes en même temps »
Faux
Vrai ou faux? «le test post-hoc de Tukey-Kramer permet de comparer toutes les paires de moyennes entre les groupes, sans augmenter l’erreur de type I »
Vrai
Vrai ou faux? « le test de Kruskal-Wallis est l’équivalent non-paramétrique de l’ANOVA à utiliser en cas de violation importante des conditions d’application de cette dernière »
Vrai
Vrai ou faux? « Dans le test d’ANOVA, une p-value très petite indique que toutes les moyennes sont différentes »
Faux, indique que au moins une des moyennes est différente des autres
Vrai ou faux? « Il faut classer les groupes de la moyenne la plus petite à la plus grande pour faire un tableau d’ANOVA »
Faux
Quelles sont les 3 conditions d’application à respecter pour pouvoir faire un test d’ANOVA?
- Échantillons indépendants et aléatoires
- Les données de chaque groupes sont distribuées normalement
- Les données de chaque groupe doivent être homogènes (homéodasticité des variances)
Pourquoi les résidus sont-ils si importants et à quoi peuvent-ils servir dans le déroulement d’une ANOVA? (3)
- Permettent de savoir si les données sont distribuées normalement.
- Permettent de comparer visuellement l’homogénéité des variances entre les groupes.
- Permettent de tester avec un test de Bartlett l’homogénéité des variances entre les groupes.
Vrai ou faux? « Le test d’ANOVA ne permet de répondre qu’à une seule question : “ Est-ce qu’au moins une des moyennes est différente des autres ? “ »
Vrai
À quelles questions peut-on répondre avec le test post-hoc de Tukey?
- Quelle(s) moyenne(s) est (sont) différente(s) ?
2. Quelle est l’amplitude de la différence (effect size) ?
Vrai ou faux? « les tests que l’on fait après l’ANOVA sont toujours post-hoc »
Vrai, « qui s’effectue a posteriori, c’est-à-dire après avoir fait le test d’ANOVA »
Qui-suis-je? « Probablement le test le plus puissant, car il est le plus à même de rejeter H0 si H0 est fausse, tout en n’augmentant pas le risque d’erreur de type I »
Test de post-hoc de Tukey HSD (honest significant difference)
Qui-suis-je? « Un facteur à ____ ____ si les groupes qu’il forme sont prédéfinis, répétables et d’intérêt majeur pour l’étude.
effet fixe
Donnez des exemples de facteurs à effet fixe.
- Différents traitements médicaux alternatifs dans un essai clinique;
- Des doses fixes de toxines;
- Les différentes hauteurs du cycle de marée sur le littoral;
- Les groupes d’individus par sexe, catégories d’âge, etc.
Avec quel type de facteur est-ce qu’on utilise le test d’ANOVA de type I?
facteur à effet fixe
Quelle est le facteur à tenir en compte lorsqu’on fait un ANOVA de type I ?
On ne peut pas généraliser les résultats obtenus (parce que les groupes sont fixés par l’expérimentateur)
Qui-suis-je? « Un facteur est dit à ____ _____ si les groupes formés ne peuvent pas être prédéfinis ou répétés. »
effet aléatoire
Donnez des exemples de facteurs à effets aléatoires.
- Des familles dans une étude épidémiologique;
- Les individus dans une étude impliquant des mesures répétées;
- Des bancs de poissons.
Avec quel type de facteur est-ce qu’on utilise le test d’ANOVA de type II?
facteur à effet aléatoire
Vrai ou faux? « le test d’ANOVA de type II permet de généraliser les résultats obtenus »
Vrai, parce que les groupes sont formés de façon aléatoire
Qui-suis-je? « les écarts entre chaque valeur et la moyenne de son groupe »
Résidus
Vrai ou faux? « on doit tester que les conditions d’applications pour le test d’ANOVA sont respectées avant de faire le test. »
Faux, on doit vérifier après avoir fait le test
Comment pouvons-nous vérifier la normalité des données (2) et l’homéodasticité des données (2) ?
Normalité :
- Graphiquement ; si les quartiles sont relativement symétrique.
- Test de Shapiro-Wilk
Homéodasticité :
- Graphiquement ; si la moyenne des groupe de résidus est autour d’une valeur x, on considère que les moyennes sont semblables.
- Test de levene
Vrai ou faux? « L’ANOVA est particulièrement robuste aux violations de conditions d’applications »
Vrai, grâce au théorème central limite
Vrai ou faux? « l’ANOVA peut tolérer des différences de variances d’un facteur ≈ 10 »
Vrai
Qui-suis-je? « Méthode non parmétrique permettant de tester si différents échantillons proviennent de la même population. Plus précisemment, il compare les médianes des k échantillons »
le test de Kruskal-Wallis
Quelles sont les 3 conditions que la distribution doit respecter pour pouvoir faire un test de kruskal-wallis?
- Relativement symétrique,
- Unimodale,
- Même médiane (ce qu’on veut valider avec le test de Kruskal-Wallis)
Comment est formulée l’hypothèse statistique du test de Kruskal-Wallis?
Si on a k échantillons à comparer, on aura les hypothèses suivantes:
H0 : les médianes des k distributions sont égales;
H1: les médianes ne sont pas égales.
Vrai ou faux? « un nombre de données insuffisant par groupe (< 10) est une raison suffisante pour faire un test non-paramétrique. »
Vrai