AVV Blok 6 Flashcards
variantie
Standaardafwijking in het kwadraat
Maat voor spreiding rondom gemiddelden
Bij populatienotatie σ2
Bij steekproefpopulatie: S62
variantieanalyse doel
Uitspraak doen over de vraag of gemiddelden van een Y variabele in meer dan twee groepen gelijk aan elkaar zouden moeten zijn
Dit kan je onderzoeken met een anova tabel –> F-toets
- Populatiegemidddelden onbekend –> kijkt naar variantie bij steekproeven
Voorbeelden onderzoeksvraag variantieanalyse
Bestaan er verschillen tussen in het aantal consulten tussen artsen die worden betaald volgens een systeem van ‘fee-for-service’, salaris en ‘capitation’?’’
Zijn er verschillen in genezingsduur tussen groepen patiënten die medicijn A, B, C en D hebben gekregen?
Wanneer mag je een variantieanalyse toepassen
- > 2 groepen vergelijken
- UIitkomstvariabele is minimaal interval
- De factor (op basis waarvan je indeelt groepen) is nominaal
Voorwaarden variantieanalyse
- Populaties zijn normaal verdeeld
- Steekproeven hebben gelijk aantal waarnemingen
- Populaties hebben gelijk varianties ( Grootste standaardafwijking is niet meer dan 2x de kleinste standaardafwijking)
beter toetsen gelijkheid variantie
Gelijkheid van variantie testen
- Hartley toets
- Hypothesen met H0: σ12 = σ22 = … σa2
Ha: σ12 ≠ σ22 ≠ … σa2 - Verdeling en toetsingsgrootheid
Toets van Hartley Hmax = S2max / S2min met Ha, m-1, α verdeling - kritieke grens opzoeken met Hmax
- H0 wel of niet verwerpen
Niet verwerpen is gunstiger
M
aantal waarnemingen per groep
a
aantal groepen
Vraag bij variantieanalyse
Zijn er statistisch significante verschillen in y tussen de drie groepen
F- waarde formule
Variantie tussen groepen / variantie binnen de groepen
ook wel GKS tussen (variantie tussen groepen) / GKS binnen (variantie binnen de groepen)
F-waarde berekenen stapen
- Allereerst df bepalen
- Kwadraatsom tussen bepalen
- GKS tussen
- Vanuit variantie (GKS binnen) naar KS binnen
- KS totaal
- F-waarde
KS tussen
KS (tussen) = (gemiddelde groep - overall gemiddelde)^2 voor iedere waarneming in de groep
Ook wel; som ((gemiddelde groep - overall gemiddelde)^2 )x m
GKS binnen naar KS
Variantie van de groepen bij elkaar optellen / a
Dit is je GKS binnen
Nu nog naar KS = GKS binnen x df
Van GKS naar KS formule
KS = GKS binnen x df
Stappenplan f-toets bij variantieanalyse
- Hypothesen
H0: µ1 = µ2 = µ3
Ha: µ1 ≠ µ2 ≠ µ3 - Wat is de toetsingsgrootheid en verdeling?
f-toets en f-verdeling Fa-1, n-a, α - Kritieke grens
- Conclusie
Fa-1, n-a, α volgorde
Kolom (recht naar beneden) en rij opzij
F = GKS(tussen) / GKS(binnen) = tussenvariantie / binnenvariantie, welke is zuiver?
Binnenvariantie = altijd zuiver
tussenvariantie = alleen zuiver als de populatiegemiddelden gelijk zijn (anders een overschatting van populatievariantie)
F-waarde eigenschappen
> 0
=0 als er geen variantie is (geen verschillen tussen groepen)
Grotere f-waarde meer bewijs tegen H0, populatiegemiddelden gelijk zijn
Gemiddelden meer uiteen? -> F-waarde groter
Relatie p-waarde en F-waarde spreiding
meer spreiding in groepen (GKS binnen groot) dus F-waarde klein, p-waarde groot
minder spreiding in groepen (GKS binnen klein) , grote f-waarde p- waarde klein
Relatie waarnemingen en f en p waarden
Weinig waarnemingen -> kans op vinden statische verschillen klein
Veel waarnemingen -> F-waarde groter, P-kleiner, statische verschillen vinden
variantie-analyse extra factor
toevoegen van een extra factor (variabele op basis waarvan je indeelt vb; leeftijd of geslacht)
- Hoofdeffecten; invloed factor op Y ( verschillen in Y door behandelingen vs. verschillen in y door geslacht)
- Neveneffecten (interactieffecten); wellicht een combinatieeffect; * Pakken de verschillende behandelingen anders uit voor mannen en vrouwen?
Wel interactie effect
Hoofdeffecten kunnen maskeren wat er in werkelijkheid gebeurd
Geen interactie effect
Hoofdeffecten zijn accuraat
GKS totaal
Variantie van de gehele steekproef
Toets voor verschillen tussen twee groepen
Turkeys HD toets
met verdeling Va, n-a, α
Bij turkey HSD toets ga je uit van
De orginele steekproef, dus orginele a en n
Verschil variantieanalyse en regressie
- Variantieanalyse; wil je kijken of er verschillen zijn tussen of twee groepen
- Bij regressie wil je een voorspelling of verklaring van y leveren
Afhankelijke variabele
ook wel de y
Onafhankelijke variabele
ook wel de x
Voorwaarde variabele y
Deze moet continu zijn (minimaal ratio of interval)
de beperkende factor
Voorwaarde variabelen x
Mogen alle meetniveau’s zijn
Wat betekent e bij populatienotatie regressievergelijking
de foutterm
OLS bij regressie
- Kleinste kwadratenmethode
- Minimaliseren som van gekwadrateerde residuen
residu
is het verschil tussen de geobserveerde waarde en de regressielijn
parameter en intercept
Ook wel de regressie coefficient en
intercept is de a
Interpoleren
voorspellingen maakt voor waarden van X, die binnen het domein van je steekproef vallen
extrapoleren
voorspellingen doen voor waarden van X, buiten het domein van je steekproef (niet gemeten)
risicovol
Hoe breder betrouwbaarheidsinterval
Hoe minder nauwkeurig voorspellingen zijn
drie maten om te meten hoe nauwkeurig je voorspellingen zijn bij regressie
- GKS residu
-Betrouwbaarheidsinterval - r^2
R^2
Is een maat voor de voorspelkracht van je model
Hoe hoger hoe beter het model op je data past.
r van 0,15: Portie verklaarde variantie van 15% (als R2 0,15 is)
Nadeel; reageert heel sterk op uitbijters
Toets voor een afzonderlijke x variabele en y
De t-toets
Toets voor gehele model (of regressiemodel als geheel een significant deel van de verschillen in de uitkomstvariabelen kan voorspellen)
F-toets
Se neemt toe als
Sd (standaard deviatie- variantie residuen) teller neemt toe dus de SE ook
Sd
Variantie residuen
Sx
Variantie x in de steekproef
Als deze toeneemt is je schatting beter, meer verschillen in x -waarde beter zicht op y
neemt n toe
Se kleiner, doordat noemer groter wordt
toets voor model vraag
Voorspelt ons model een significant deel van de variantie in Y
toets een afzonderlijke variabele
Statitisch significant effect tussen x en y?
F-toets voor enkelvoudige lineaire regressie
- ANOVA tabel
GKS residu
Altijd zuivere schatter voor populatie variantie
- Hoe lager Sd2 , hoe beter de regressielijn ‘past’ in de puntenwolk en hoe beter de voorspellingen
GKS regressie
is alleen zuivere schatter als X niet van invloed is op Y
3 assumpties bij lineaire regressie
- Homoskedasticiteit; gelijkheid variantie residuen
- Lineariteit; een lineair verband tussen x en y
- Normaliteit; er is een normaalverdeling in de residuen voor elke waarde van x
grootste probleem assumpties lineaire regressie
- Geen lineair verband; RC klopt niet
Bij geen homoskedasticiteit en normaliteit kan je alleen geen goede significante uitspraken doen over hypothesen en een bi
omschrijving meervoudige lineaire regressie
statistische methode om de relatie tussen x en y variabelen te verklaren of te voorspellen
Waarom meervoudige regressie?
- Om tot betere schatters te komen van Y
- Corrigeren voor overige variabelen op y
Regressievergelijking steekproef
Ŷ = a + b1X1 + b2X2 + … + bp*Xp
Regressievergelijking populatie
Y = α + β1X1 + β2X2 + … + βp*Xp + ε
Aspecten bij interpretatie van een x- coefficient
- Als … met 1 toeneemt
- gemiddeld verandert y
- ceteris paribus
Waarom kan je coefficienten niet onderling vergelijken en de oplossing
- andere schalen gemeten
Oplossing; standardisatie coefficienten
Coefficient x std afwijking coefficient / std dev y
BI bij lineaire regressie
- 0 moet buiten BI liggen, als je H0 wil verwerpen
- Geeft een idee over zekerheid regressiecoefficient
Conclusie bij een t-toets (toets afzonderlijke x variabele significant met y samenhangt
In de populatie hangen x en y wel/ niet significant met elkaar samen, ceteris paribus (alpha 0,05)
- Populatie
- Ceteris paribus
- Samenhang
- Aplha
-significant of niet
f-toets gehele model conclusie 2
Het model verklaart een significant gedeelte van Y (variantie in zorgkosten bijvoorbeeld)
- Het model
- Significant gedeelte
- Y
Ten minste een van de x- variabelen in de populatie in het model is significant van invloed op y, ceteris paribus
- Ceteris paribus
- Ten minste een
- significant of niet
- in de populatie
F-toets groep x-variabelen conclusie
Gezamelijk verklaren x1 en x2 (uitschrijven) een significant deel van de Y, ceteris paribus met alpha 0,05
- Gezamelijk
- X variabelen benoemen
- Significant deel of niet van y
- Ceteris paribus
- Alpha 0,05
Colineariteit
Twee of meer xen geven vergelijkbare informatie over de uitkomst
- Colineariteit; lineaire samenhang tussen twee of meer x-variabelen
- Multicolinearieit; lineaire samenhang tussen 3 of meer x-variabelen
Gevolgen colineariteit
KS (residu wordt erg klein), regressiemodel voorspelt immers beter.
- SE wordt kleiner (sd/ wortel KS residu)
- T- waarden te klein (sneller h0 aannemen)
- F-waarden te groot (sneller h0 verwerpen)
Wanneer colineariteit een probleem en wanneer niet?
Probleem;
- Beleid voeren obv schattingen
- Kan de nauwkeurigheid en interpretatie van de regressie coefficienten beinvloeden
- Te weinig onafhankelijke x-variabelen in het model
Geen probleem
- Als je een hoge voorspellende waarde van y wil hebben, dan meer geintresseerd in R2 (denk aan risicovereveningsmodel)
Hoe zie je colineariteit
- Als je een x-coefficient eruit haalt veranderen alle waarden sneller
- Er is een correlatie tussen x-en te zien
- Te lage t-waarden en te hoge F-waarden
Voorkomen colineariteit
- Vergroten steekproef
- Verwijder correlerende x-variabelen
- samenvoegen correlerende variabelen
Dummy variabelen
Geeft de aanwezigheid of afwezigheid van een variabele aan
- Categorische variabele; nominaal of ordinaal niveau
- Denk aan referentieniveau benoemen
Zorgkosten = β0 + β1HVER + β2Lft + β3Gesl
* Voorspelling ‘Man’: 491 - 2HVER + 25Lft + 3001
* Voorspelling ‘Vrouw’: 491 - 2HVER + 25Lft + 300*0
interpretatie van deze dummy variabele
Voor mannen zijn de zorgkosten gemiddeld 300 euro hoger dan voor vrouwen, ceteris paribus
Interactieffecten
om in regressiemodel om de invloed van een interactie tussen twee x-en op een y variabele te modeleren
- Combineert twee variabelen
- Effect van ene X-variabele op Y hangt dus af van waarde andere X-variabele
Interpretatie interactieffecten leeftijd
Voorspelling ‘Vrouw’: 288 - 2HVER + 30Lft + 7370 – 11Lft0
Voorspelling ‘Man’: 288 - 2HVER + 30Lft + 7371 – 11Lft1
- Als leeftijd met 1 toeneemt dan nemen de zorgkosten bij vrouwen gemiddeld toe met 30 euro, ceterus paribus
- Als leeftijd met 1 toeneemt dan nemen de zorgkosten bij mannen gemiddeld toe met 19 euro
Dummy variabele valkuil
Als je alle groepen opneemt zou je perfecte multicolineariteit krijgen vb met vrouw en man, je kan als je een weet de andere al voorspellen
- Referentiecategorie altijd benoemen
- bij dummy’s altijd het aantal groepen - 1 opnemen!
Neem je vrouw op, dan is man de referentiecategorie
confounder
: variabele die de relatie die onderzocht wordt, verstoort. Bijv. bij de relatie ‘hoogte vrijwillig eigen risico’ met ziektekosten, is leeftijd een confounder
moderator
Beïnvloedt de relatie tussen de onafhankelijke en afhankelijke variabele
bv; cholesterolmedicijn (dagelijkse inname- onafhankelijk en afhankelijk; cholesterol niveu)
logistische regressie
- Als de y-waarde dichotoom is
Overeenkomsten logistische regressie en lineaire
- Gebruiken voor voorspelling of verklaren
- X-variabelen ieder meetniveau
- vaak toegepast
Probleem bij dichtome y-variabele en proberen lineaire regressie
bij toepassing van lineaire regressie op dichotome variabele is dat het model kansen voorspelt buiten het [0; 1] interval:
Kansen worden kleiner dan 0 en groter dan 1
- π
Kans
- π / π-1
odds
Odds en kans op grafiek
odds grootheid voor de y -as
Kans grootheid voor x-as
Loopt asymptoot
schattingsmethode logistische regressie
Maximum likelihood; geschatte kansen op de daadwerkelijke uitkomst voor alle individuen in de steekproef zo groot mogelijk zijn
Vb; ziekenhuisopname hoge kansen op opname produceert voor mensen die zijn opgenomen en lage
kansen voor mensen die niet zijn opgenomen
- Hoe groter de ML-schatter (i.e. hoe dichter bij de 0), hoe beter
interpretatie van een odds van 1,04 bij leeftijd
Als de leeftijd toeneemt met 1 eenheid, wordt de odds (bij benadering kans) gemiddeld 1,04 keer zo groot, ceteris paribus
- Odds (bij benadering kans)
- Gemiddeld
- Keer zo groot
- Ceteris paribus
Voorbeeld interpretatie OR dummy variabele: roken
De odds (bij benadering: de kans) op ziekenhuisopname is gemiddeld 1,54 KEER zo groot voor rokers als de odds op ziekenhuisopname voor niet-rokers, ceteris paribus
- Benoem hier de referentiecategorie! Odds 1,54 keer zo hoog voor rokers als de odds voor niet rokers
- Ceteris paribus
- gemiddeld
Odds ratio
> 1 Grote kans
< 1 klenere kans
onthouden over kans en odds ratio
Bij kleine waarden van π benadert de OR de relatieve kans (
Betrouwbaarheidsinterval regressiecoefficient bij logistische regressie formule
regreissie coefficient (beta)- + z * standaard fout b
BI van de odds formule
e tot de macht (b+- z *se b)
BI odds uitspraken en regels
Vuistregel Valt 1 buiten het betrouwbaarheidsinterval? Statistisch significant effect
Voorspelkracht van model logistische regressie 3 manieren
- Pseudo R^2; proportie verklaarde variantie. hoeveel % van de verschillen in opnamekans worden verklaard door het model?
- De voorspelde kans per individu vergelijken met je werkelijke schattingen
- LR-teots voor het gehele model
Logistische toets voor 1-variabele
- Wald toets voor een afzonderlijke variabele
Toets gehele Model logistische regressie
- LR toets model
Toets groep afzonderlijke x-variabelen
LR toets voor groep x-variabelen
Hypothesen bij logistische regressie wald toets leeftijd
effect van leefdtijd op de kans van een ziekenhuisopname is 0
H0= B1 =0
let op wald toets
- Twee zijdig toetsen; normale verdeling
Conclusie wald toets benoemen
- In de populatie
- hangen x en de kans op
- significant of niet
- Ceteris paribus
- alpha 0,05
LR toets gehele model
LR - kan alleen positief zijn
ln L1
Waarde voor model met de meeste x variabelen
ln L0
Waarde voor model met de minste x-variabelen
Conclusie Logistische regressie gehel model LR toets; model als geheel
Het model verklaart een significant gedeelte van de variantie in de kans om Y
OF
- Significant gedeelte van de variantie
- In de kans op Y
- Het model
Conclusie Logistische regressie gehel model LR toets; tenminste
Ten minste één van de X-variabelen in het model is significant van invloed op de kans op Y, ceteris paribus (α=0,05)
- ten minste een
- significant van invloed in de kans op
- Alpha 0,05
- Ceteris paribus
conclusie LR-toets groep x-variabelen
Gezamelijk verklaren x1 en x2 een sigfnificant gedeelte van de verschillen in de kans op Y, ceteris paribus met alpha 0,05
- ceteris paribus
- Alpha
- Gezamelijk
- Significant gedeelte van de verschillen in de kans op
std deviatie maat voor
Spreiding
Fitted values
geschatte waarden
interactieterm
; de relatie tussen een x variabele en je uitkomst wordt beinvloedt door een andere x variabele
F-toets bij anova conclusie variantieanalyse
Er zijn significante verschillen wat betreft de x van het de groepen x,y,z bij een significantieniveau van 0,05
- Significante verschillen
- tussen welke groepen
Binnenvariantie is de
zuivere schatter
rekening houden met achtergrondkenmerken!
- Zorgt voor vertekening, hiervoor kan je corrigeren
- je wil confounders zo ver mogelijk uitsluiten
Ks totaal
- Zegt iets over hoe groot de te verklaren variantie in Y is
- KS totaal, regressie en residu zegt iets over hoe goed de variantie in het model wordt opgepikt en we
Gevolg homoskedasticiteit niet goed
- coefficienten correct, maar standaardfouten niet geen goede uitspraken over bi en hypothesen
Gevolg normaliteit
- als je steekproef groot genoeg is niet echt beperkeingen, coefficienten zijn correct en kan beperkt uitspraken doen over bi en hypothesen
KS binnen
de som van varianties / aantal varianties
homoskedasticiteit
Gelijke varianties van de residuen =
spreiding rondom het gemiddelde blijft gelijk als X
veranderd (2 punten)