Thema 7 - Variantieanalyse ANOVA Flashcards
Wat is een one-way ANOVA? Waarvoor gebruik je die methode?
- One-way ANOVA is een logische uitbreiding op de onafhankelijke t-toets, die de nulhypothese toetst dat twee groepsgemiddelden gelijk zijn.
- One-way ANOVA gebruik je om meer dan twee groepsgemiddelden met elkaar te vergelijken.
- De t-toets kun je dus zien als een speciaal geval van one-way ANOVA, namelijk wanneer er slechts twee groepen vergeleken worden.
De naam variantieanalyse is mogelijk verwarrend omdat het gaat om de analyse van de verschillen tussen gemiddelden.
wat betekent de term one-way?
- De term one-way betekent dat er in deze analyse alleen een enkele predictorvariabele en een enkele afhankelijke variabele worden betrokken.
- De afhankelijke variabele is altijd een numerieke (kwantitatieve) variabele en de (categorische) predictorvariabele geeft een groepsindeling aan.
wat doet de F-toets (of ook genoemd de exacte F-toets) die hoort bij de Anova?
- De F-toets die hoort bij ANOVA, soms een exacte F-test genoemd, toetst of de gemiddelden van een kwantitatieve variabele van meerdere groepen van elkaar verschillen.
Tegen welke hypothese wordt de F-toets getoetst?
wat betekent dan een significante F-toets?
- de F-toets wordt tegen de nulhypothese getoetst , namelijk dat alle gemiddelden gelijk zijn.
- Een significante F-toets geeft aan dat niet alle gemiddelden aan elkaar gelijk zijn, *maar specificeert niet welke gemiddelden precies van elkaar verschillen. * => daarom ook vaak omnibus toets genoemd.
- welke groepen van elkaar verschillen, kunnen we met aanvullende analyse doen met de zogenaamde post-hoc-testen
wat is een effectmaat bij Anova?
=> Een effectmaat bij ANOVA is een* gestandaardiseerde maat* om het verschil in groepsgemiddelden aan te geven, rekening houdend met de varianties binnen de groepen.
waarin zit het verschil tussen een t-toets en een z-toets?
- de formule van de t-toets is nagenoeg identiek aan die van de z-toets
- het verschil zit erin dat niet tegen de populatieparameters getoetst wordt, maar dat er twee steekproefgemiddelden vergeleken worden
- anders dan bij de z-waarde, staat bij de t-toets onder de deelstreep van de formule in plaats van de populatievariantie (z-toets) een maat voor de variantie in beide groepen
=> bij Anova worden de groepsgemiddelden als varianties behandeld en niet van elkaar afgetrokken - bij de t-toets wordt de populatievariantie alsnog als niet bekend verondersteld, maar de populatiegemiddelden wel => de t-toets toetst dus alleen nog of de twee steekproeven dezelfde populaties uitdrukken (of in ieder geval de gemiddelden ervan)
wat is het verschil tussen een t-toets en Anova?
- het verschil zit niet zozeer in het verschil in formules, maar in wat de groepsgemiddelden voorstellen
- t-toets is de t-toets voor onafhankelijke steekproeven
- de one-way Anova kan gezien worden als een toets van de homogeniteit van gemiddelden –> bij Anova worden geen verschillende populaties vergeleken, maar dat iedere groep eigenlijk een subgroep is van een hogere-orde-factor
- ==> bij Anova worden subgroepgemiddelden uit een populatie vergeleken met het globale populatiegemiddelde
wat betekent dat Anova de homogeniteit van gemiddelden toetst?
- dat betekent m.a.w. of het mogelijk is om de subgroepgemiddelden van een populatie simpelweg met één populatiegemiddelde uit te drukken, of dat dit een te eenvoudig model is en dat een model waarin subgroepen verschillende gemiddelden hebben beter is
hoe drukt Anova het verschil tussen subgroepen uit?
- bij Anova wordt het verschil tussen subgroepen uitgedrukt als een optelling van gekwadrateerde groepsafwijkingen van het algemeen groepsgemiddelde
=> daarom wordt de variabiliteit in Anova ook de kwadratensom genoemd
wat is het nadeel van de variantiebenadering?
- een nadeel is dat alle groepsgemiddelden als facetten van een hogere-orde-facet wordt beschouwd, waardoor alle gemiddelden of dat er nu 2 of twintig zijn, als één set wordt geëvalueerd
=> verfijnde verschillen tussen meer dan twee groepen onderling is niet mogelijk met deze benadering (Anova) - Anova doet alleen een uitspraak over de set als geheel
=> daarom wordt Anova ook de omnibustoets genoemd
!! als we de specifieke groepsverschillen willen toetsen, dan komen we terug bij het paradigma van de t-toetsen, namelijk dat iedere groep een eigen populatie is !!
wat is de formule in woorden voor de berekening van de F-waarde van Anova
- F-waarde is gebaseerd op de verhouding van varianties!
- F-waarde = de variantie van de groepsgemiddelden gedeeld door het gemiddelde van de varianties binnen groepen
- F-waarde is gebaseerd op de verhouding van varianties -> en varianties worden berekend op basis van het optellen van de gekwadrateerde afwijkingen van gemiddelden (sum of squares) -> de SS wordt dan gedeeld door het aantal vrijheidsgraden en dan krijg je de mean of squares (variantie)
- MSb =de variantie van de groepsgemiddelden = de variantie tussen groepen (b staat voor between)
- MSw =de variantie binnen de groepen (w staat voor within)
- vrijheidsgraden van de MSb is het aantal groepen (k) - 1
- vrijheidsgranden van de MSw is de steekproefgrootte N - k (aantal groepen)
hoe toetst Anova welke verschillen ?
- Anova toetst verschillen tussen groepsgemiddelden door twee soorten varianties tegen elkaar uit te zetten
- ==> aan de ene kant wordt vastgesteld hoeveel groepsgemiddelden (bij elkaar opgeteld en gekwadrateerd) afwijken van het algemene populatiegemiddelde (de omvang van dat totale verschil is de tussengroepvariantie)
- ==> aan de andere kant analyseert Anova de verschillen binnen iedere groep -> in iedere subgroep wordt niet door iedereen precies het gemiddelde gescoord, maar is er individuele variatie (de omvang van de binnengroepvariantie kan dus als ruis gezien worden)
wat is de F-waarde uitgedrukt in signaal en ruis?
- F-waarde is dus de tussengroepvariantie (signaal) gedeeld door de binnengroepvariantie (ruis)
- verhouding is groter dan 1 als er meer signaal dan ruis is
- verhouding is kleiner dan 1 als er meer ruis is dan signaal
hoe groot moet de F-waarde zijn om als ‘groot’ bestempeld te worden?
- hoe meer signaal dan ruis nodig is, hangt af van het aantal groepen dat vergeleken wordt en van het aantal observaties in totaal
- F-waarde is dus een verhouding tussen modelvariantie (signaal) en residuele variantie (ruis) die uitdrukt hoeveel meer modelvariantie dan residuele variantie er is.
- getal groter dan 1 dan is er meer modelvariantie -> hoe groter de F-waarde des te duidelijker is er een signaal waarneembaar
welke zijn de aannamen bij Anova?
- de residuen zijn normaal verdeeld (binnengroepvariantie)
- er is homogeniteit van de varianties (varianties in verschillende groepen ongeveer gelijk zijn) –> !! indien niet dan is het voor de NHST en voor de Bi belangrijk dat er een aangepaste toets wordt gebruikt (Welch’s F)
- de scores van de afhankelijke variabele zijn onafhankelijk van elkaar
- er zijn geen verstorende uitbijters in de data