AVV College 1 Flashcards
Onderzoeksvragen variantieanalyse
- bestaan er verschillen in het aantal operaties bij rughernia’s tussen Friesland, Zuid-Holland en Limburg
- Zijn er verschillen in genezingsduur tussen groepen patiënten die medicijn A, B, C en D hebben gekregen?
Wat is een variantieanalyse?
= een verschillen analyse
–> uitbreiding t-toets voor 2 onafhankelijke groepen
Variantie
= de standaardafwijking in het kwadraat. Als maat voor spreiding rondom het gemiddelde
Notatie:
Populatie: µ, σ en σ2
Steekproef: x ̅, S en S2
Berekenen van variantie steekproef
Elke waarneming is een bolletje, er zijn 3 groepen. Variantie van de totale steekproef (alle kleurtjes). De individuele waarneming van individu i min het overall gemiddelde kwadrateer je, dit doe je voor elk individu in de steekproef (i), te beginnen bij het eerste individu. Alle waarden sommeren we, tel je dus bij elkaar op. Dan vermenigvuldigen met 1/(n-1)
Doel uitvoeren variantie analyse
= uitspraak doen over de vraag of de gemiddelden van een zekere variabele Y in meer dan 2 populaties aan elkaar gelijk zouden kunnen zijn
Probleem variantieanalyse
= populatiegemiddelden zijn onbekend (verschillen de populaties daadwerkelijk van elkaar in termen van gemiddelde?)
oplossing: analyse van verschillen (= variantie) van Y in steekproeven uit de afzonderlijke populaties
Wanneer kun en mag je variantieanalyse toepassen?
- afhankelijk van onderzoeksvraag
- > 2 groepen vergelijken
- Y is een kwantitatieve variabele (minimaal intervalniveau, kunnen vangen in een getal; bijv. genezingsduur)
- de factor is een kwalitatieve variabele (nominaal meetniveau) bv. medicijn A, B en C12
Variantieanalyse medische wetenschap vs economische wetenschap
Variantieanalyse wordt relatief veel gebruikt binnen de medische wetenschap (experimentele setting): causaliteit
Weinig variantie analyse in economische wetenschap en gezondheidseconomie –> we zouden wel weten dat er een significant verschil is tussen groepen, maar we weten niet waardoor. Juist daar zijn wetenschappers en beleidsmakers geïnteresseerd in
Waarom geen t-toets uitvoeren en paarsgewijs gemiddelden vergelijken
- De kans op het vinden van een statistisch significant verschil stijgt met het aantal onderlinge vergelijkingen
Stel je wilt 15 steekproeven onderling vergelijken, dan moet je 105 t-toetsen (15 steekproeven gecombineerd) uitvoeren, elke keer met een 5% kans om H0 ten onrechte te verwerpen
–> dat betekent naar verwachting 0,05 * 105 = 5 foute conclusies
3 voorwaarden
(populaties zijn normaal verdeeld, steekproeven hebben gelijk aantal waarnemingen)
- populaties hebben gelijke variantie
- vuistregel: grootste standaardafwijking is niet meer dan 2x de kleinste standaardafwijking
- beter: toets voor gelijkheid varianties
Toets voor gelijkheid varianties
Stap 1: H0: σ12 = σ22 = … σa2 (totdat je alle sigma kwadraten van alle groepen hebt, 3 groepen betekent 3 keer sigma kwadraat)
Ha: σ12 ≠ σ22 ≠ … σa2
Stap 2:
Toets van Hartley Hmax = S2max / S2min met Ha, m-1, α verdeling
• S2max is de grootste en S2min de kleinste variantie in de steekproeven
• Heb je standaardafwijking (S)? Kwadrateer en je hebt de variantie!
Stap 3: Opzoeken in Hmax–tabel: Ha, m-1, α • a = aantal groepen • m = aantal waarnemingen per groep • α = significantieniveau (e.g. 0,05)
Stap 4:
Gevonden waarde < kritieke grens? H0 niet verwerpen
Gevonden waarde > kritieke grens? H0 wel verwerpen
H0: σ12 = σ22 = … σa2
Verwerpen van H0 gunstig of niet?
Stappenplan toetsen (herhaling)
Stap 1. Wat is de nulhypothese en de alternatieve hypothese
Stap 2. Wat is de toetsingsgrootheid en de verdeling?
Stap 3. Wat is de kritieke grens?
Stap 4. Wat is de conclusie
a en m
a = aantal groepen m = aantal waarnemingen per groep
F-waarde als test statistic (F-toets)
F = variantie tussen groepen / variantie binnen groepen
ANOVA tabel is handig hulpmiddel hiervoor
Berekenen KS (tussen)
= De som van (gemiddelde van de groep - overallgemiddelde) in het kwadraat voor elk individu voor elke groep
Berekenen GKS (tussen)
GKS (tussen) = KS (tussen) / degrees of freedom
Berekenen KS (binnen)
= verschillen binnen een bepaalde groep/binnen een bepaalde behandeling, voor elk individu/voor elke behandeling
Probleem: we weten de individuele waarde niet –> GKS (binnen) berekenen
GKS (binnen)
schatten op basis van de varianties in de 3 steekproeven
GKS (binnen) = (S1^2 + S2^2 + S3^2) / aantal varianties
Kunnen we KS(binnen) nu wel berekenen?
GKS (binnen) = KS (binnen) / d.f.
KS (binnen) = GKS (binnen) x d.f.
Berekenen KS (totaal)
KS (totaal) = KS tussen + KS binnen
Waarom zijn deze nulhypothese incorrect?
- H0: x ̅_1=x ̅_2=x ̅_3
- H0: µ1 = µ2 = µ3 = 0
- x met een streepje betreft de steekproef, in de nulhypothese wil je juist wat zeggen over de populatie
- we willen niet weten of de gemiddelde gelijk zijn aan nul, we willen weten of ze gelijk zijn aan elkaar
Zuiver
= vrij van systematische afwijkingen
- de binnenvariantie is altijd zuiver
- de tussenvariantie is slechts zuiver wanneer de populatiegemiddelden gelijk zijn
F-waarden eigenschappen
- F is altijd gelijk aan of groter dan 0
- F is alleen 0 als er geen verschillen zijn tussen groepen
- F wordt groter als de gemiddelden van groepen verder uiteen liggen
- Grotere F-waarde is bewijs tégen H0
- F voor twee groepen = t^2
Relatie tussen spreiding binnen groepen, F-waarde en P-waarde
= op het moment dat er meer spreiding is binnen groepen, neemt de f-waarde af. De p-waarde is relatief groot. Als er meer spreiding is tussen groepen is de kans op het vinden van een statistisch significant verschil tussen groepen relatief klein. Als er weinig spreiding is, is je f-waarde relatief groot, p-waarde relatief klein. Dus je grote kans op het verwerpen van je nul hypothese
–> hoe meer waarnemingen hoe groter de kans op het vinden van statistische verschillen tussen de groepen
Turkey’s H(onestly) S(ignificant) D(ifferences)-toets
–> methode onderlinge vergelijking steekproeven
Toets om te kijken als er significante verschillen zijn, tussen welke onderlinge paren dit is
Yj
= gemiddelde in kolom
Y
= overall gemiddelde
Yk
= gemiddelde rij
Yi
= interactie gemiddelde