Thema 7 Flashcards
ANOVA
ANalysis Of VAriance
- met oneway ANOVA kunnen we meer dan 2 groepsgemiddelden met elkaar vergeleken worden
- oneway ANOVA is ee nlogische uitbreiding op de onafhankelijke T-toets, waarbij de nulhypothese wordt getoetst dat de 2 groepsgemiddelden gelijk zijn
- oneway = dat er in de analyse maar één enkele predictor en een enkele afhankelijke variabele worden betrokken
- de afhankelijke variabele is altijd een numerieke (kwantitatieve) variabele en de predictor geeft de groepsindeling aan
F-toets (omnibus toets)
hoort bij ANOVA –> toetst of de gemiddelden van een kwantitatieve variabele in meerdere groepen van elkaar verschillen
- nulhypothese = dat alle gemiddelden gelijk zijn
- significante F-toets geeft aan dat niet alle gemiddelden gelijk zijn aan elkaar, zonder te SPECIFICEREN welke gemiddelde preecies (Post Hoc gebruiken om dit te specificeren)
T-Toets en Z-toets kunnen slechts 2 groepen vergelijken
ANOVA kan meer groepen vergelijken
- in Z-toets wordt aangenomen dat de populatievariantie bekend is
Z-waarde is een elegante manier om een ruw verschil tussen 2 waarden te standaardiseren
Z-waarde van 2 = 2 gemiddelden verschillen 2 standaarddeviaties van elkaar
Verschil T-toets en Z-toets
bij T-toets wordt er niet tegen populatieparameters getoetst, waar er twee steekproefgemiddelden vergeleken worden
- anders dan bij Z-waarde staat nu onder de deelstreep ipv de populatievariantie een maat voor de variantie in beide groepen
De T-toets en Z-toets verschillen eigenlijk alleen in het feit dat bij de T-toets de populatievariantie als “nog niet bekend” verondersteld wordt, maar de populatiegemiddelden wel. De T-toets toetst dus alleen nog of de 2 steekpproeven dezelfde populaties uitdrukken, of in ieder geval de gemiddelden daarvan
Verschil ANOVA en T-toets
is een verschil in wat de groepsgemiddelden voorstellen
- een T-toets vergelijk niet 2 gemiddelden, maar 2 populatiegemiddelden
ANOVA
toets van homogeniteit van gemiddelden
- iedere groep is subgroep van een hogere factor
- of het mogelijk is om de subgroep gemiddelden van een populatie simpelweg met één populatiegemiddelde uit te drukken, of dat dit een eenvoudig model is
- soms valt een afwijking iets boven het gemiddelde uit en soms eronder, maar in totaal tellen de afwijkingen van een gemiddelde op tot 0
- oplossen in ANOVA door Variantiebenandering; afwijkingen van de subgroep gemiddelden tot het totale gemiddelde eerst nog kwadrateren
- in ANOVA wordt het verschil tussen subgroepen dus uitgedrukt als een optelling van gekwadrateerde groepsafwijkingen van het algemeen populatiegemiddelde
- variabiliteit in ANOVA = kwadratensom = sum of squares
! nadeel variantiebenadering: niet verfijnd, maar uitspraak over gehele set data
Ruwe Verschil
Variabiliteit
F-waarden zijn gebaseerd op de verhouding van varianties
- varianties worden berekend op basis van het optellen van gekwadrateerde afwijkingen van gemiddelden
Sum of Squares (SS) / aantal vrijheidsgrade (Df) = Mean Squares (MS)
Msb = variantie between groepen
msw variantie within groepen
Z-waarde
het aantal SD’s dat een observatie van een nulhypothetisch gemiddelde afwijkt
F-waarde
- een signaal/ruisiverhouding
- de tussengropenvariatie (signaal) gedeeld door de binnengroepenvariantie (ruis)
- verhouding tussen modelvariantie (signaal en residuele variantie (ruis) die uitdrukt hoeveel meer modelvariantie dan residuele variantie er is (als getal groter is dan 1)
- hoe groter F-waarde, des te duidelijker signaal
Aannames ANOVA
- normaal verdeelde residuen
- homogeniteit varianties (varianties in groepen gelijk)
- scores op afhankelijke variabele zijn afhankelijk van elkaar
- geen verstorende uitbijteres
Overeenkomsten T-waarde en F-waarde
1) beide formules betreffen een ratio
2) onder de streep altijd een schatting van de variatie ins cores die je zou verwachten op basis van toeval (ruis/error)
3) boven de streep altijd een schatting van dezelfde ruis + ee schatting voor het verschil tussen de groepen
- beide waardes geven aan hoe goed de categorische variabele de spreiding in scores op de continue variabele kan voorspellen tov hoe goed de categorische variabeledeze spreiding niet kan voorspellen
- betere voorspelling = hogere waarden = lagere p-waarden
Varianties
= SD kwadrateren
Voor variantieanalyse bestaan verschillende effectmaten die effectgrootte aangeven
- hoge waarde = manipulatie heeft effect
- R2 geeft verhouding aan tussen de kwadratensom tussen groepen en de totale kwadratensom
W2 = omegakwadraat
= zuivere schatting van het effect in de populatie