L'ANOVA à plan simple Flashcards
Définition ANOVA
-Technique inférentielle qui permet de comparer des moyennes obtenues auprès de plusieurs échantillons (k échantillons).
-Généralisation du test t pour deux échantillons.
Ex.: comparer l’efficacité de 3 techniques (A, B et C) pour tx l’insomnie (k=3). Une seule V.I. (technique) qui a 3 niveaux et + de traitement (A, B, C), et une seule V.D.
Objectifs ANOVA (2)
1- Vérifier si les différences observées entre les moyennes des échantillons correspondent à des différences réelles ou si elles sont attribuables au hasard (à la fluctuation d’échantillonnage).
2- Vérifier s’il y a au moins une différence significative entre les moyennes des différents échantillons.
En présence de plus de 2 groupes, est-il recommandé de faire une série de tests t?
Non, parce qu’il en résulterait une augmentation du risque de faire une erreur alpha.
Ex.: Gr1-Gr2 = alpha .05 = 5% d’erreur
Gr1-Gr2 + Gr1-Gr3 + Gr2-Gr3 = alpha .05 x 3 = .15 = 15% d’erreur
Quelles sont les hypothèses statistiques de l’ANOVA?
H0: u1 = u2 = u3 = uk (k autant de moyennes de d’échantillons dans l’étude)
H1: il existe au moins une différence entre les moyennes.
- On n’identifie pas où se trouve la(les) différence(s) significative(s) dans l’hypothèse alternative (H1), car l’ANOVA à elle seule ne nous permet pas de l’identifier.
Compléter la phrase:
Dans l’ANOVA, même si le test permet de conclure quant à des différences de _______________, son calcul repose sur des comparaisons de ________________.
moyennes, variances (ANalysis Of VAriance)
Formule pour calculer le nombre de tests t possibles avec k échantillons:
k(k - 1) / 2
Sur quel modèle est basée l’ANOVA?
Sur le modèle linéaire général (GLM, general linear model).
Dans l’ANOVA, selon le modèle linéaire général (GLM), le score d’un individu peut être décomposé comme suit:
Xij = u + aj + eij Définir variables.
Xij = Score de l’individu i dans le niveau j
u = moyenne de la population (constante)
aj = variabilité due à l’effet spécifique du niveau j
eij = variabilité reliée à l’individu i dans le niveau j (erreur)
Dans l’ANOVA, qu’est-ce qui détermine le score?
Les sources de variabilité déterminent le score, soit:
- aj = variabilité due à l’effet spécifique du niveau j
- eij = variabilité reliée à l’individu i dans le nniveau j (erreur)
Définir les variables dans:
Décomposition du niveau d’anxiété (0 à 100) d’un participant (X23) dans une étude visant à comparer 3 dosages d’un antidépresseur (10 mg, 20 mg, 30 mg).
X23 = u + a3 + e23
X23 = u + a3 + e23
X23 = Score d’anxiété du 2e participant qui a reçu 30 mg
u = moyenne d’anxiété de la population
a3 = variabilité due à l’effet spécifique du niveau 30 mg
e23 = variabilité du score d’anxiété du participant par rapport aux autres personnes dans le niveau 30 mg
37 = 60 + (-25) + (2)
Dans l’ANOVA, qu’est-ce qu’on compare?
L’ANOVA compare 2 estimations de la variance des scores dans la population:
- une estimation qui est affectée par le traitement (la VI) et
- une estimation qui n’est pas affectée par le traitement
* les 2 sont affectées par l’erreur
Dans l’ANOVA, à quoi sert la comparaison des 2 estimations de variance?
La comparaison des 2 estimations de variance permet de déterminer s’il y a ou non un effet statistiquement significatif du traitement.
Dans l’ANOVA, si l’estimation de variance affectée par le traitement n’est pas plus élevée que celle qui ne l’est pas, que peut-on conclure?
Dans l’ANOVA, si l’estimation de variance affectée par le traitement n’est pas plus élevée que celle qui ne l’est pas, nous concluons qu’il n’y a pas d’effet significatif du traitement et qu’il n’y a pas de différence entre les moyennes.
Dans l’ANOVA, on estime la variance des scores de la population à partir de 2 sources de variabilité. Lesquelles?
1- Une estimation à partir des scores intra-groupe affectés par l’erreur:
Estimation de variance intra-groupes.
2- Une estimation à partir des moyennes affectées par l’erreur et par le traitement:
Estimation de variance inter-groupes
Dans l’ANOVA, la comparaison des 2 estimations de variance se fait à partir d’un ratio:
Le rapport F (test F)
Quelle est l’équation du rapport F (test F)?
F = Variabilité traitement + erreur / Variabilité erreur
F = Estimé de variance des scores calculé avec les moyennes / Estimé de variance des scores calculé avec les scores intra-groupes
F = Estimé de variance inter / Estimé de variance intra
F = ^variance inter / ^variance intra
F = Ô2 inter / Ô2 intra
F = CM inter / CM intra
F = ( SC inter / dl inter ) / (SC intra / dl intra )
Dans l’ANOVA, si les différences de __________ sont seulement dues à l’____________, Ô2 inter devrait être similaire à Ô2 intra, donc le rapport F =(environ) ________.
Dans l’ANOVA, si les différences de moyennes sont seulement dues à l’erreur, Ô2 inter devrait être similaire à Ô2 intra, donc le rapport F =(environ) 1.
Dans l’ANOVA, si les différences de moyennes sont dues au ______________, Ô2 inter devrait être ___ que Ô2 intra, donc le rapport F ____ 1.
Dans l’ANOVA, si les différences de moyennes sont dues au traitement, Ô2 inter devrait être > Ô2 intra, donc le rapport F > 1.
Dans l’ANOVA, on estime la _________________ d’obtenir la valeur F observée si la seule source de variabilité est l’___________ (i.e. Ho est vraie) à partir de la distribution d’échantillonnage du __ de ____________.
Dans l’ANOVA, on estime la probabilité d’obtenir la valeur F observée si la seule source de variabilité est l’erreur (i.e. Ho est vraie) à partir de la distribution d’échantillonnage du F de Fisher.
Dans l’ANOVA, les estimations de variance sont appelées ________________ et sont calculées à partir des _______________ divisées par les _______.
Dans l’ANOVA, les estimations de variance sont appelées carrés moyens (CM ou MS mean squares) et sont calculées à partir de sommes de carrés (SC ou sum of squares ou SS) divisées par les dl.
Dans l’ANOVA, le ______ est une bonne estimation de la variabilité des scores dans la population seulement si ___ est vraie (i.e. que les 4 moyennes d’échantillons proviennent de la même population).
Dans l’ANOVA, le CM inter est une bonne estimation de la variabilité des scores dans la population seulement si Ho est vraie (i.e. que les 4 moyennes d’échantillons proviennent de la même population).
Le théorème de la limite centrale stipule que la _______ des scores dans la population est = à __ fois la variance des __________ dans la distribution d’échantillonnage.
Le théorème de la limite centrale stipule que la variance des scores dans la population est égale à n fois la variance des moyennes dans la distribution d’échantillonnage.
Variance des scores = n (variance des moy.)
Le CM inter donne une estimation des scores de la population si ___ est vraie.
Le CM inter donne une estimation des scores de la population si Hoest vraie.
Le CM intra donne une estimation des scores de la population peu importe si Ho est vraie ou fausse, car la _________ est calculée à partir de la variabilité à l’intérieur des groupes (peu importe si les groupes appartiennent ou non à la même _________________).
Le CM intra donne une estimation des scores de la population peu importe si Ho est vraie ou fausse, car la variance est calculée à partir de la variabilité à l’intérieur des groupes (peu importe si les groupes appartiennent ou non à la même population).
Si Ho est vraie, le CM inter et le CM intra devraient être ___________.
Si Ho est vraie, le CM inter et le CM intra devraient être similaires.
Si Ho est fausse, le CM inter et le CM intra devraient être ___________.
Si Ho est fausse, le CM inter et le CM intra devraient être différents.
Répartition des SC et des dl dans l’ANOVA à plan simple: propriété d’additivité.
SC totale
dl total (_____)
SC inter SC intra
dl inter (_______) dl intra ________ ou _______
Répartition des SC et des dl dans l’ANOVA à plan simple: propriété d’additivité.
SC totale
dl total ( N-1 )
SC inter SC intra
dl inter ( k - 1 ) dl intra k( n - 1) ou (N - k)
- Le degré de liberté total est égal à l’addition du degré de liberté intra avec le degré de liberté inter. Aussi, la somme des carrés totale est égale à l’addition de la somme des carrés intra et de la somme des carrés inter.
Conditions d’utilisation de l’ANOVA à plan simple:
- On a des échantillons indépendants;
- Distribution normale des scores autour de la moyenne pour chaque niveau de VI ;
(ANOVA assez robuste à une violation de cette condition) - Homogénéité des variances ;
(VAR1 = VAR2 = VAR3 = VAR4) - VD sur une échelle intervalle ou ratio
Démarche inférentielle ANOVA à plan simple:
Étape 1:
Ho: u1 = u2 = u3 = u4
H1: Il y a au moins une différence significative entre les moyennes.
Étape 2: alpha = .05 (.01 ou .025)
Étape 3:
a) choix du test utilisé: ANOVA à plan simple
b) Conditions d’utilisation:
- On a des échantillons indépendants;
- Distribution normale des scores;
- Homogénéité des variances;
- VD sur une échelle intervalle ou ratio
c) Distribution d’échantillonnage du F de Fisher avec __ dl au numérateur et __ dl au dénominateur
d) Calculs: Fobs. = _____
Étape 4: Fobs. (__ , __) = ____ > F crit (__ , __) = ___. On rejette Ho.
Étape 5: On conclut qu’il y a au moins 1 différence significative quant à VD en fonction du groupe.
F = ___ / ___
F = CM inter / CM intra
CM intra = ___ / ___
CM intra = SC intra / dl intra
SC totale = ___ + ___
SC totale = SC inter + SC intra
dl inter = ___ - ___
dl inter = k - 1
dl intra = _______ ou _________
dl intra = k(n-1) ou (N-k)