AVV blok 6 Flashcards
Wat is (multi) collineariteit?
= sterke samenhang tussen twee of meer X-variabelen
Wat is het gevolg van collineariteit? (lineaire regressieanalyse)
gevolg: standaardfouten van coefficienten worden erg groot (zie formule). Dit wil je niet, want de standaardfouten bepalen hoe nauwkeurig je de coeficienten kan meten en de uitkomsten van de T toets
Bij (multi)collineariteit is er niet genoeg onafhankelijke variantie in Xj om het effect van Xj op Y nauwkeurig te kunnen bepalen.
Gevolgen multicollineariteit voor hypothese-toetsing: (lineaire regressie)
T-toets: 0 hypothese wordt minder snel verworpen omdat Se(bj) heel groot wordt (zie formuleblad)
F- toets: niks
- Merkwaardig gevolg van (multi)collineariteit kan dus zijn:
o H0 voor afzonderlijke variabelen wordt niet geworpen
o H0 voor gehele model wordt wel verworpen
Hoe kan je multicollineariteit opsporen?
- Lage T-waarden (voor afzonderlijke X-variabelen), hoge F-waarden (voor gehele model of voor groep van X-variabelen)
- Grote verandering in coëfficiënten bij verwijdering van een X-variabele uit het model
- Hoge correlaties tussen X-variabelen (bijvoorbeeld tussen leeftijd en gezondheid)
Hoe kan je multicollineariteit oplossen?
- Niets doen, multicollineariteit is alleen een probleem als R2 van regressie zelf, kleiner is dan R2 van één van de X-variabelen op alle overige X-variabelen
- Niets doen, als je niet in de coëfficiënten van de X-variabelen bent geïnteresseerd
- Maak de steekproef groter
- Verwijder sterk gecorreleerde X-variabelen (problematisch als juist díe variabelen van belang zijn in je onderzoek; denk aan HVER in het voorbeeld)
- Voeg sterk gecorreleerde variabelen samen
Wat is een dummyvariabele?
Ofwel: variabelen die alleen de waarden 0 of 1 hebben
Welke twee soorten dummyvariabelen?
o Verschuiving (verandering van het snijpunt met de Y-as): Zkosten = b0 + b1HVER + b2Lft + b3*Gesl + ε
o Interactie (verandering van de richtingscoëfficiënt): Zkosten = b0 + b1HVER + b2Lft + b3Gesl + b4Lft*Gesl + ε
Stappenplan toetsen:
1: 0 hypothese en Ha
2: toetsingsgrootheid
3: kritieke grens
4: conclusie
Stappenplan toetsen meervoudige lineriare regressie?
T toets:
Bij een nulhypothese neem je voor beta altijd 0, deze weet je niet maar door deze toets neem je aan dat het 0 is.
Hele model:
1) H0: Beta1 = beta 2 ect
Ha Beta 1 is niet gelijk aan B2 ect
2)
3 toetsen:
- afzonderlijke x variabele : T toets
- gehele model: F-toets, via ANOVA tabel
- toets voor groep van X-variabelen: F-toets, via ANOVA tabel
3: Kritieke grens berekenen
4: Conclusie:
Gevonden waarde < Kritieke grens : H0 aannemen
Gevonden waarde > Kritieke grens: H0 verwerpen.
Dus:
Wat is het doel van een lineaire regressie-analyse?
- Doel: voorspelen of verklaren van Y o.b.v. X’en
Dus: Zijn één of meer onafhankelijke variabelen significant van invloed op de afhankelijke variabele?
Voorwaarde lineaire regressie-analyse?
- Lineariteit: Y = b0 + b1X1 + b2X2 + … + bp*Xp + ε
- Homoscedasticiteit: sd2 (de variantie van ε) is gelijk voor elke waarde van X
- Normaliteit: ε is normaal verdeeld (met gemiddeld=0)
Wat is een confounder?
variabele waar je eigenlijk niet in geïnteresseerd bent maar als je hem niet meeneemt gooit het heel je model door de war.
Wat is een mediator?
..
Wat is een variantieanalyse?
Uitbreiding t-toets voor twee onafhankelijke groepen, je kijkt naar meer dan twee groepen
Variantieanalyse is verschillenanalyse (analyse van verschillen onder groepen)
Variantie als maat voor spreiding rondom gemiddelde
Variantie is de standaardafwijking in het kwadraat
Voorbeelden onderzoeksvraag:
Bestaan er verschillen in het aantal operaties bij rughernia’s tussen Friesland, Zuid-Holland en Limburg?
Zijn er verschillen in het aantal consulten tussen artsen die worden betaald volgens een systeem van ‘fee-for-service’, salaris en ‘capitation’?
Verschillen vijf koffietentjes van elkaar in termen van de gemiddelde leeftijd van klanten?
Zijn er verschillen in genezingsduur tussen groepen patiënten die medicijn A, B, C en D hebben gekregen?
Waarom zou je een variantieanalyse willen uitvoeren?
Doel: uitspraak doen over de vraag of de gemiddelden van een zekere variabele Y in meer dan 2 populaties aan elkaar gelijk zouden kunnen zijn.
Probleem: populatiegemiddelden zijn onbekend
–> Oplossing: analyse van verschillen (=variantie!) van Y in steekproeven uit de afzonderlijke populaties
Wanneer mag je een variantieanalyse toepassen?
>2 groepen vergelijken
Y is een kwantitatieve variabele (minimaal intervalniveau) met ratio of interval, cijfermatig: bijv. genezingsduur
De factor is een kwalitatieve variabele (nominaal meetniveau): bijv. medicijn A, B en C
3 voorwaarden:
1. (Populaties zijn normaal verdeeld) (standaardafwijking rond het gemiddelde, maar je concludeert wat je moet concluderen)
2. (Steekproeven hebben gelijk aantal waarnemingen) (gelijke verdeling van mensen over de subgroepen)
3. Populaties hebben gelijke variantie (harde voorwaarde anders is de F-toets onbetrouwbaar)
Vuistregel: Grootste standaardafwijking is niet meer dan 2x de kleinste standaardafwijking
Welke meetniveaus zijn er en voorbeelden:
Nominaal: medicijn a/b/c (of geboorteplaats / gender)
Ordinaal: Laag SES/gemm / hoog SES
interval: toetsscores bv
Ratio: lengte, gewicht leeftijd
Waarom zou je een enkelvoudige lineaire regressieanalyse willen uitvoeren?
- Doel: Voorspelling of verklaring van de afhankelijke variabele (Y) uit de onafhankelijke variabelen (X1 t/m Xp)
- Aanpak: Ga na in hoeverre verschillen in de onafhankelijke variabelen (X) van invloed zijn op verschillen (variantie) in de afhankelijke variabele (Y)
enkelvoudig: 1 x variabele
Vb onderzoeksvragen:
– Wat is de relatie tussen de tijd die studenten besteden aan studeren en tentamencijfers?
– Is de consumptie van rood vlees kankerverwekkend?
– Is sociaaleconomische status een goede voorspeller van zorgkosten?
– Wat is het effect van ziekenhuisfusies op prijzen?
Wanneer kan je een lineaire regressieanalyse toepassen?
Variabele Y = afhankelijke variabele = te verklaren variabele
- Meetniveau: continu (interval/ratio: kwantitatief, bv. zorgkosten)
Variabelen X1 t/m Xp = onafhankelijke variabele = verklarende variabele (stop je in je regressiemodel)
- Meetniveau: continu (interval/ratio, bv. leeftijd) of categoriaal (nominaal/ordinaal, bv. sociaal economische status, opleidingsniveau, geslacht, ja/nee chronische ziekte) (kan alles zijn)
Voorwaarden:
1. Lineariteit: er moet een lineair verband zijn tussen X en Y
2. Homoskedasticiteit: constante variantie van de residuen (Sd2): spreiding residuen moet gelijk zijn voor elke X-waarde
3. Normaliteit: de residuen zijn normaal verdeeld, geen uitschieters bij de X-variabele
De nauwkeurigheid van schatting van b hangt af van:
- Aantal waarnemingen in de steekproef: n ↑ se(b) ↓
- Variantie van residuen in de steekproef: sd2 ↑ se(b) ↑ (variantie residuen neemt toe, neemt de onnauwkeurigheid en dus foutmarge toe)
- Variantie van X in de steekproef: sx2 ↑ se(b) ↓(voorspellingen nemen toe, standaardfout neemt af, en daarmee neemt de nauwkeurigheid toe). Want: meer metingen: de inschatting wordt nauwkeuriger.
Wat is de zuivere schatter bij lineaire regressie?
- GKS(residu) is een altijd zuivere schatter van populatievariantie
- GKS(regressie) is alleen zuivere schatter als X niet van invloed is op Y
In een ‘Residual plot’ worden de residuen afgezet tegen de; ….
Voorspelde waarden.
Hoe zien verschillende variabele er in SPSS uit bij lineaire regressie? (mbt kwadraatsommen)
KS(totaal) = KS(regressie) + KS (residu)
Ks(regressie) = Model: SSM (sum of squares)
KS (residu) = Error: SSE. (sum of squares).
Hoe berekenen: Yi – Ῡ = Ŷi – Ῡ + Yi – Ŷi
GKS(regressi) = model: mean square
GKS (residu) = Error : mean square
Wat is interpoleren?
voorspelling voor bepaalde waarde van X die binnen je steekproef valt.
Wat is extrapoleren?
voorspelling voor bepaalde waarde van X die buiten je steekproef valt. Gevaar hierbij is dat er rare waarden uit kunnen komen, je trekt je regressielijn tot in het oneindige door, wat irreëel is. (= risicovol)
Wanneer is logistische regressie toepasbaar?
Toepasbaar als de afhankelijke variabele dichotoom is, dus uitsluitend de waarden 0 of 1 kan aannemen. Bij lineaire regressie was de afhankelijke variabele continu: 0, 1, 2, … Bij logistische regressie is er een te verklaren y-variabele die slechts 0 of 1 kan zijn.