ANOVA Flashcards
Fundamenteel Principe ANOVA
analyseert verhouding van de twee componenten van totale varia(n)tie in de data – tussengroepsvariantie en binnengroepsvariantie
Tussengroepsvariantie
meet systematische verschillen tussen groepen én alle andere variabelen die zowel systematisch als toevallig van invloed zijn op Y (‘residual variance’ of ‘error’)
Binnengroepsvariantie
Meet invloed van alle andere variabelen die zowel systematisch als toevallig van invloed zijn op Y (‘residual variance’ of ‘ error’).
2 belangrijke punten over ANOVA
- Alle verschillen binnen een groep kunnen niet worden verklaard door verschillen tussen groepen, want iedereen die behoort tot een bepaalde groep heeft dezelfde groepsscore; verschillen binnen groepen moeten daarom worden toegeschreven aan systematische niet-gemeten factoren binnen groepen (bijv. verschillen tussen personen) of toevallige factoren. → Een variabele die constant is verklaard niks
- Geobserveerde verschillen tussen groepen zijn waarschijnlijk niet alleen pure tussen-groep verschillen, maar ook verschillen tussen systematische niet-gemeten factoren of toevallige factoren. → onderscheidt tussen tussengroepsverschillen en binnengroepsverschillen.
Statistische nulhypothese ANOVA
H0: u1 = u2 = u3 = ….. = uk
met u als gemiddelde met k polulaties
Waarom ANOVA en niet losse t-toetsen
Hoe groter het aantal toetsen dat wordt uitgevoerd op een dataset, des te groter de kans dat we de nulhypothese verwerpen terwijl deze juist is (Type I fout)
–> we verwerpen de nulhypothese als een resultaat uitzonderlijk is, maar hoe meer toetsen we uitvoeren, des te eenvoudiger is het om uitzonderlijke resultaten te vinden.
= inflated risk of type I error
Formule kans op 1 of meer Type I fouten
1-(1- α)^c
met c = aantal toetsen
α = significantie niveau
dus: hoe kleiner α, hoe groter de kans op type I fouten bij meer C
kans op type I fout bij ANOVA
gelijk aan significantie niveau, meestal .05
Hoe toets je een ANOVA nulhypothese
F- verdeling
hoe bepaal je of een steekproefresultaat ‘significant’ is
Test-statistic F
Hoe bereken je test-statistic F dmv deviatiescores?
- component van score wel geassocieerd met ‘groep’
- component van score niet geassocieerd met ‘groep’
Deviatie van score van individu t.o.v. algemene gemiddelde:
Yij= score op Y door respondent My= algemene gemiddelde
Totale deviatie = Yij - My
Deviatie van score van individu t.o.v. groepsgemiddelde:
Mi = groepsgemiddelde
binnengroepsvariantie = Yij - Mi = Eij
Deviatie van groepsgemiddelde t.o.v. algemene gemiddelde: αi wordt ook wel ‘effect van groep i’ genoemd (niet verwarren met significantieniveau!)
tussengroepsvariantie = Mi - My = αi
dus : Yij-My = (Yij-Mi)+(Mi-My)
formule binnengroepsvariantie
Deviatie van score van individu t.o.v. groepsgemiddelde:
Mi = groepsgemiddelde . Yij = score van Y door respondent
binnengroepsvariantie = Yij - Mi = Eij
= residual of error
Formule tussengroepsvariantie
Mi = groepsgemiddelde, My= algemene gemiddelde
tussengroepsvariantie = Mi - My = αi
= effect van groep i of deviatie van groepsgemiddelde t.o.v algemene gemiddelde
Verschil test-statistic F dmv deviatiescores en dmv sums of squares?
deviatiescores werken alleen bij 1 enkele observatie
Formule SS between
∑n(Mi-My)^2
met k boven
met i=1 beneden
Formule SS within
∑∑(Yij-Mi)^2
Met k boven
met i=1 beneden
Met ni boven
met j=1 beneden
Formule SS total
∑∑(Yij-My)^2
Met k boven
met i=1 beneden
Met ni boven
met j=1 beneden
Wat is de MSbetween formule
SSbetween : Df between
SSbetween : k-1
k= aantal groepen
Wat is de MSwithin Formule
SSwithin: Df within
SSwithin : (N-k)
k = aantal groepen
N= aantal observaties
–> dus basically -1 observatie per groep
F ratio test statistic formule
MSbetween : MS within
Hoe gebruik je de F ratio test statistic in de tabel
- critical f value bij significantie niveau
ligt de f waarde boven de kritieke value : significant
onder de kritieke value: niet significant
5 assumpties van de ANOVA
- Kwantitatieve afhankelijke variabele van interval/ratio (continu) meetniveau; onafhankelijke variabele heeft nominaal meetniveau
- In hele steekproef en binnen elke groep zijn scores van afhankelijke variabele bij benadering normaal verdeeld
- Geen outliers
- Variantie van scores van afhankelijke variabele is gelijk tussen groepen (Homogeneity of variance assumption)
→ Toetsen met Levene’s test - Observaties zijn geselecteerd via aselecte steekproeftrekking en onafhankelijk van elkaar
In praktijk zijn assumpties 1, 3, 4, en 5 het belangrijkst:
- Assumptie 1: je moet een zinvol gemiddelde kunnen berekenen voor groepen
- Als je steekproeven maar ‘groot’ zijn, is assumptie 2 robust tegen schendingen
- Outliers: checken, want gemiddelde is cruciaal in ANOVA berekeningen!
wat is de levene’s test
De Levene-test is een statistische test die wordt gebruikt om de gelijkheid van varianties tussen verschillende groepen of condities te beoordelen. Het is een parametrische test die de nulhypothese toetst dat de varianties in de populaties waaruit de steekproeven zijn genomen gelijk zijn.
Het resultaat van de Levene-test is meestal een waarschijnlijkheidsgetal of p-waarde. Als de p-waarde lager is dan een vooraf bepaald significantieniveau (zoals 0,05), wordt de nulhypothese van gelijke varianties verworpen. Dan wordt geconcludeerd dat er statistisch significante verschillen zijn in de varianties tussen de groepen of condities. Als de p-waarde hoger is dan het significantieniveau, kan de nulhypothese niet worden verworpen. Dat geeft aan dat er geen voldoende bewijs is om aan te nemen dat de varianties verschillend zijn.
4 assumpties van onafhankelijke waarnemingen
- Score van een individu geeft geen informatie over ( “is onafhankelijke van ”) andere scores in een dataset
2.Tussen groepen: respondenten behoren maar tot één groep (geen dubbel lidmaatschap - Binnen elke groep: respondenten aselect (op basis van toeval) gekozen
- Respondenten behoren wel tot eenzelfde groep (bijvoorbeeld, zelfde team) dus afhankelijkheid tussen waarnemingen, maar door ‘groep’ als onafhankelijke variabele op te nemen houden we rekening met ( “controleren we voor ”) die afhankelijkheid!
Wat is de effect size
is het verschil groot/belangrijk?
Welk deel (proportie) van de variantie van de afhankelijke variabele wordt verklaard vanuit het feit dat er verschillende groepen zijn (onafhankelijke variabele)
formule effect size
SSbetween: SS total
SSbetween : (SS between + SS within)
richtlijnen Cohen worden erbij gegeven