ANOVA et comparaisons ou tests multiples Flashcards
Qu’est ce que l’ANOVA ?
Analyse de variance permet de comparer plusieurs groupes entre eux afin de voir s’ils différent. Basé sur comparaison de la variance inter-groupes à la variance intra-groupes.
Quels sont les conditions d’application de l’ANOVA ?
Homogénéité des variances (homoscédasticité): peut être vérifier avec test de Levene ou O’Brien
Normalité: Variabilité des individu (erreur) explique pq scores pas tous sur moyenne, donc quand même normal
Indépendance des observations
Quel est la logique de l’analyse de l’ANOVA ?
- Variance inter-groupe: Selon le TCL, il existe un rapport entre la variance de la population et la
variance d’une distribution (s2x=o2e/n) d’échantillonnage de la moyenne - Variance intra-groupe: La variance de chaque échantillon peut aussi
être utilisée comme une estimation de la variance de la population (o2e)
Quels sont les principes de base de l’ANOVA ?
- Calcul variance qui tient compte de la vraiabilité individuelle (E) ET de la contribution du groupe (T) donc (E+T)
- Calcul variance qui tient compte de la variabilité individuelle seulement (E)
- On compare les deux: F=T+E/E
SI les groupes sont égaux(T=0) alors F=1
Comment on rapporte un ANOVA à plan simple ?
F([dlinter], [dlintra]) = [valeur p], n2= [valeur eta au carré]
Résumé ANOVA
On souhaite comparer plusieurs échantillons (groupes).
On est capables d’estimer la variance de la population d’appartenance de ces échantillons (groupes) de deux manières (1. tient compte de l’influence de l’appartenance aux groupes, 2. exclue l’influence de l’appartenance aux groupes)
Si l’appartenance aux groupes n’a aucune répercussion sur les données observées, ces deux manières d’estimer la variance devraient donner des résultats équivalents.
Si l’appartenance au groupe a des répercussions sur les données observées, ces deux manières
d’estimer la variance ne devraient pas donner des résultats équivalents
Qu’est ce que les comparaisons multiples ?
Tests qui permet de savoir quelles moyennes diffèrent les unes des autres (nécessaire car ANOVA dit juste si il existe au moins un différence mais ne précise pas)
Qu’est ce que le problème et la solution des comparaisons multiples ?
P: Plus on rend des décisions statistiques, plus on a de chances de faire des erreurs de type I (conclure à un effet alors qu’il n’y en a pas).
Il est logique de souhaiter éviter de conclure à un effet alors qu’il n’y en a pas!
S: On va donc tenter d’utiliser diverses procédures qui permettent de limiter les probabilités de faire une erreur de type I. On les appelle des procédures de contrôle du taux d’erreur (multiplicity control).
Dans quels contextes veut-on faire des comparaisons multiples ?
- Vérification du niveau de base : pour tester que deux groupes sont égaux sur
plusieurs caractéristiques, dans avant de commencer une étude. - Multiples groupes ou multiples mesures : Pour vérifier s’il existe des différences
entre plusieurs groupes sur un certain nombre de mesures - Certaines procédures statistiques : les régressions multiples et ANOVAs factorielles
(prochain cours) produisent simplement plusieurs valeurs p - « Data peeking » (mauvaise pratique) : faire des analyses pour voir si on doit recruter
des participants de plus pour atteindre des résultats significatifs. La bonne pratique
est de calculer la taille d’effet requise pour avoir une bonne puissance avant l’étude. - Analyses intérimaires : des analyses sont planifiées avant la fin de l’étude afin de voir
si on devrait la terminer plus tôt. - Expéditions de pêche : recherche non planifiée de différences entre groupes, ou
analyses de sous-groupes non planifiées.
Quels sont les types de stratégies de contrôle du taux d’erreur ?
Par comparaison: ANOVA et c’est tout
Par famille: Comparaisons pour chaque groupes
Par expérience: Autre test statistique quelconque sur une autre variable dans cette même étude. Vous
venez les probabilités de faire une erreur dans l’expérience
Devrait-on contrôle le taux d’erreur ?
Certains auteurs disent oui, d’autres non. Impossible de prouver qu’une manière de faire est miuex que l’autre. Si on fait tests u=multples non planifiés, on devrait utiliser stratégie de contrôle du taux d’erreur
Qu’est ce que le contrôle de taux d’erreur de l’ensemble EE ?
Quand on souhaite contrôler le taux d’erreur de type I que l’on risque de faire si on compare plusieurs moyennes à la suite d’une ANOVA significative.
Par ailleurs, on va demeurer flexible et on admet aussi qu’il est possible qu’il y ait plus d’un ensemble par étude
Quelles sont les stratégies de contrôle du taux d’erreur ?
Test t multiples
Bonferroni (méthode de Dunn)
Sidak-Bonferroni
Homl-Bonferroni
Benjamini-Hochberg
Test de Scheffé
Test de Tukeu (HSD)
Test de Newman-Keuls
Procédure de Ryan (REGWQ)
Fisher’s LSD
Qu’est ce que le test t multiples ?
Méthode
On fait une série de test-t (on compare les moyennes par paires)
On ne fait aucune correction du seuil alpha et on justifie cela par
le fait qu’on n’a qu’un petit nombre de comparaisons choisies à
l’avance (à priori) et/ou justifiées théoriquement.
Type de contrôle du taux d’erreur
Par comparaison
Qu’est ce le test Bonferroni (méthode de Dunn)
Méthode
* On fait une série de tests statistiques (p. ex. tests-t)
* Et on utilise un seuil alpha plus petit pour chacun de ces tests (!”).
* On obtient ce seuil en divisant le taux EE maximum souhaité par le nombre de tests-t qu’on a fait (k).
Type de contrôle du taux d’erreur
* De l’ensemble
Inconvénients
* Peut produire des seuils alpha très petits si on fait beaucoup de
tests (très conservateur).
* Encore plus conservateur si les mesures sont corrélées les unes
aux autres.