AVV Blok 6 Flashcards
variantie
Standaardafwijking in het kwadraat
Maat voor spreiding rondom gemiddelden
Bij populatienotatie σ2
Bij steekproefpopulatie: S62
variantieanalyse doel
Uitspraak doen over de vraag of gemiddelden van een Y variabele in meer dan twee groepen gelijk aan elkaar zouden moeten zijn
Dit kan je onderzoeken met een anova tabel –> F-toets
- Populatiegemidddelden onbekend –> kijkt naar variantie bij steekproeven
Voorbeelden onderzoeksvraag variantieanalyse
Bestaan er verschillen tussen in het aantal consulten tussen artsen die worden betaald volgens een systeem van ‘fee-for-service’, salaris en ‘capitation’?’’
Zijn er verschillen in genezingsduur tussen groepen patiënten die medicijn A, B, C en D hebben gekregen?
Wanneer mag je een variantieanalyse toepassen
- > 2 groepen vergelijken
- UIitkomstvariabele is minimaal interval
- De factor (op basis waarvan je indeelt groepen) is nominaal
Voorwaarden variantieanalyse
- Populaties zijn normaal verdeeld
- Steekproeven hebben gelijk aantal waarnemingen
- Populaties hebben gelijk varianties ( Grootste standaardafwijking is niet meer dan 2x de kleinste standaardafwijking)
beter toetsen gelijkheid variantie
Gelijkheid van variantie testen
- Hartley toets
- Hypothesen met H0: σ12 = σ22 = … σa2
Ha: σ12 ≠ σ22 ≠ … σa2 - Verdeling en toetsingsgrootheid
Toets van Hartley Hmax = S2max / S2min met Ha, m-1, α verdeling - kritieke grens opzoeken met Hmax
- H0 wel of niet verwerpen
Niet verwerpen is gunstiger
M
aantal waarnemingen per groep
a
aantal groepen
Vraag bij variantieanalyse
Zijn er statistisch significante verschillen in y tussen de drie groepen
F- waarde formule
Variantie tussen groepen / variantie binnen de groepen
ook wel GKS tussen (variantie tussen groepen) / GKS binnen (variantie binnen de groepen)
F-waarde berekenen stapen
- Allereerst df bepalen
- Kwadraatsom tussen bepalen
- GKS tussen
- Vanuit variantie (GKS binnen) naar KS binnen
- KS totaal
- F-waarde
KS tussen
KS (tussen) = (gemiddelde groep - overall gemiddelde)^2 voor iedere waarneming in de groep
Ook wel; som ((gemiddelde groep - overall gemiddelde)^2 )x m
GKS binnen naar KS
Variantie van de groepen bij elkaar optellen / a
Dit is je GKS binnen
Nu nog naar KS = GKS binnen x df
Van GKS naar KS formule
KS = GKS binnen x df
Stappenplan f-toets bij variantieanalyse
- Hypothesen
H0: µ1 = µ2 = µ3
Ha: µ1 ≠ µ2 ≠ µ3 - Wat is de toetsingsgrootheid en verdeling?
f-toets en f-verdeling Fa-1, n-a, α - Kritieke grens
- Conclusie
Fa-1, n-a, α volgorde
Kolom (recht naar beneden) en rij opzij
F = GKS(tussen) / GKS(binnen) = tussenvariantie / binnenvariantie, welke is zuiver?
Binnenvariantie = altijd zuiver
tussenvariantie = alleen zuiver als de populatiegemiddelden gelijk zijn (anders een overschatting van populatievariantie)
F-waarde eigenschappen
> 0
=0 als er geen variantie is (geen verschillen tussen groepen)
Grotere f-waarde meer bewijs tegen H0, populatiegemiddelden gelijk zijn
Gemiddelden meer uiteen? -> F-waarde groter
Relatie p-waarde en F-waarde spreiding
meer spreiding in groepen (GKS binnen groot) dus F-waarde klein, p-waarde groot
minder spreiding in groepen (GKS binnen klein) , grote f-waarde p- waarde klein
Relatie waarnemingen en f en p waarden
Weinig waarnemingen -> kans op vinden statische verschillen klein
Veel waarnemingen -> F-waarde groter, P-kleiner, statische verschillen vinden
variantie-analyse extra factor
toevoegen van een extra factor (variabele op basis waarvan je indeelt vb; leeftijd of geslacht)
- Hoofdeffecten; invloed factor op Y ( verschillen in Y door behandelingen vs. verschillen in y door geslacht)
- Neveneffecten (interactieffecten); wellicht een combinatieeffect; * Pakken de verschillende behandelingen anders uit voor mannen en vrouwen?
Wel interactie effect
Hoofdeffecten kunnen maskeren wat er in werkelijkheid gebeurd
Geen interactie effect
Hoofdeffecten zijn accuraat
GKS totaal
Variantie van de gehele steekproef
Toets voor verschillen tussen twee groepen
Turkeys HD toets
met verdeling Va, n-a, α
Bij turkey HSD toets ga je uit van
De orginele steekproef, dus orginele a en n
Verschil variantieanalyse en regressie
- Variantieanalyse; wil je kijken of er verschillen zijn tussen of twee groepen
- Bij regressie wil je een voorspelling of verklaring van y leveren
Afhankelijke variabele
ook wel de y
Onafhankelijke variabele
ook wel de x
Voorwaarde variabele y
Deze moet continu zijn (minimaal ratio of interval)
de beperkende factor
Voorwaarde variabelen x
Mogen alle meetniveau’s zijn
Wat betekent e bij populatienotatie regressievergelijking
de foutterm
OLS bij regressie
- Kleinste kwadratenmethode
- Minimaliseren som van gekwadrateerde residuen
residu
is het verschil tussen de geobserveerde waarde en de regressielijn
parameter en intercept
Ook wel de regressie coefficient en
intercept is de a
Interpoleren
voorspellingen maakt voor waarden van X, die binnen het domein van je steekproef vallen
extrapoleren
voorspellingen doen voor waarden van X, buiten het domein van je steekproef (niet gemeten)
risicovol
Hoe breder betrouwbaarheidsinterval
Hoe minder nauwkeurig voorspellingen zijn
drie maten om te meten hoe nauwkeurig je voorspellingen zijn bij regressie
- GKS residu
-Betrouwbaarheidsinterval - r^2
R^2
Is een maat voor de voorspelkracht van je model
Hoe hoger hoe beter het model op je data past.
r van 0,15: Portie verklaarde variantie van 15% (als R2 0,15 is)
Nadeel; reageert heel sterk op uitbijters
Toets voor een afzonderlijke x variabele en y
De t-toets
Toets voor gehele model (of regressiemodel als geheel een significant deel van de verschillen in de uitkomstvariabelen kan voorspellen)
F-toets
Se neemt toe als
Sd (standaard deviatie- variantie residuen) teller neemt toe dus de SE ook
Sd
Variantie residuen
Sx
Variantie x in de steekproef
Als deze toeneemt is je schatting beter, meer verschillen in x -waarde beter zicht op y