7. Analyse de variance (ANOVA) Flashcards
Pourquoi ne pas répèter les t-tests?
Nombre comparaison augmente façon géométrique
- Pas linéaire
- Plus nombre échantillon augemente plus nombre comparaison augmente vite
- Formule : (n − 1) + (n − 2) + … + 1 = nombre comparaison pour n échantillons
Augmentation nombre test augmente erreur type 1 (α)
- α pas juste choisi pour 1 test -> devient fonction nombre comparaison
- Puisque évènement indépendant -> probabilité 0,95^n pas rejeter H0 pour n comparaison
- Formule : α = 1 - 95^n
Correction de Bonferroni
Permet procéder comparaisons multiples
Corrige inflation risque erreur type 1
Réduit αi pour α < seuil choisi
Choisi seuil αi = α/n pour n compraraison
Donc rejette H0 si p-value individuelle compariason < α/n
ANOVA
Méthode comparaison moyenne
Permet tester hypothèe nulle globale
H0 : échanitllons viennent même population/moyennes égales
H1 : échantillons viennent pas même population/au moins une moyenne différente
Partage variance totale en;
- Variance entre valeurs dans échantillons
- Variance entre moyennes échantillons
Mesure vairnace basé sur moyennes des carrés des écarts
Erreur standard (SE)
Permet mesurer variabilité moyennes de plusieur séchantillons issus même population
2 SE permet estimer intervalle confiance 95%
Principe ANOVA
Revient à comprendre que;
1. Peut estimer à partir échantillon intervalle de confiance autour moyenne devrait contenir
moyenne de population, à seuil confiance 1 - α
2. Décision moyenne estimé significativement différente valeur revient vérifier si incluse dans intervalle de confiance
Donc comparer 2 moyenne = vérifier si intervalle de confiance recoupe
Procédure : ANOVA
- Résultat attendu (moyenne identique ou non)
- Définir H0/H1
H0 : moyennes égales (μ1 = μ2= … = μ)
H1 : au moins une moyenne différentes - Calcul statistique de test F (fisher)
- Choisi α
- Trouve F critique pour seuil α
Dans table F, selon dl f et r (dl f < dl r) - Conclu
Fcal > Fcrit ou p-value < α - Calcul R^2 (si désiré)
Rstudio : aov () et summary ()
- Donne p-value
Calcul statistiques de test F
- Calcul somme des carrés (SCEt = SCEf + SCEr)
SCEt : somme carré totale
SCEf : somme carré factorielle
Calcul : ∑i = ni (Yi¯ − Y¯ )^2 -> prend moyenne pondéré si n diffère entre échantillons
SCEr : somme carré résiduelle
Calcul : ∑i ∑j = (Yi,j − Yi¯)^2 ou ∑i = si^2 (ni - 1) - Faire tableau ANOVA
Factoriel : dl = k - 1, CMf = SCEf / dl
Résiduel : dl = N - k, CMr = SCEr / dl
Totale : N - 1 ou dlf + dlr - Calcul F-ratio
Formule : F = CMf / CMr
Rstudio : utilise qf (alpha, df1 = , df2 = , lower.tail = FALSE)
SCEf vs SCEr
SCEf : compare moyenne groupe avec moyenne totale
SCEr : compare valeur avec moyenne propre groupe
Résidu
Écart entre vlauer et sa moyenne
Formule : ( Yi,j − Yi¯ )
F ou F-ratio
Suit loi densité de Fischer sous H0
Estime égalité entre 2 variances en faisant rapport
Numérateur : CMf
Dénominateur : CMr
Si H0 vrai -> CMf tend vers 0 -> F rend vers 0
R^2
Quantifie contribution variance factorielle à varianc totale
Indique propotion variabilité total due différences entre groupes
Formule : R = SCEf/SCEt
Si peut pas rejeter H0, calcul R^2 fait pas de sens
- Variance égale donc pas besoin savoir qui contribue plus
granovaGG
.lw -> ANOVA pour comparer moyennes plusieurs groupes en réponse à un facteur
Permet utiliser une commande pour résumer analyse
Fait pour nous;
1. Résumé données (section 1)
2. Test ANOVA (section 2)
Regarde dernièr eligne pour : F, dlf, dlr, p-value
3. Résume infos dans gaphique
Effectif, moyenne générale, moyenne des groupe, représentation variance (couleur
carré varie selon signification, F)
Groupe séparé selon contraste -> écart entre moyenne générale et moyenne groupe
Test post-hoc de Tukey HSD
Utilisé si conditions application ANOVA respecter
Plus puissant : plus rejeter H0 si fausse, sans augmenter erreur type 1
- Seuil rejet globale reste α = 0.05
Test post-hoc
Nom tests réalisés suite ANOVA (a posteriori)
Tests comapraisons multiples permettent de savoir;
- Quelle/s moyenne/s sont différentes?
- Quelle est l’amplitude de la différences?
Procédure : test de Tukey
Utilise fonction R : TukeyHSD()
Compariaosn paires de moyennes
Retrouve : nom traitement compare, moyenne différence, intervalle confiance autour moyenne différence, p-value
p-value répond H0 : moyennes différences pas différentes de 0
Si intervalle confiance inclu 0 : p-value > α