AVV blok 6 Flashcards
Wat is (multi) collineariteit?
= sterke samenhang tussen twee of meer X-variabelen
Wat is het gevolg van collineariteit? (lineaire regressieanalyse)
gevolg: standaardfouten van coefficienten worden erg groot (zie formule). Dit wil je niet, want de standaardfouten bepalen hoe nauwkeurig je de coeficienten kan meten en de uitkomsten van de T toets
Bij (multi)collineariteit is er niet genoeg onafhankelijke variantie in Xj om het effect van Xj op Y nauwkeurig te kunnen bepalen.
Gevolgen multicollineariteit voor hypothese-toetsing: (lineaire regressie)
T-toets: 0 hypothese wordt minder snel verworpen omdat Se(bj) heel groot wordt (zie formuleblad)
F- toets: niks
- Merkwaardig gevolg van (multi)collineariteit kan dus zijn:
o H0 voor afzonderlijke variabelen wordt niet geworpen
o H0 voor gehele model wordt wel verworpen
Hoe kan je multicollineariteit opsporen?
- Lage T-waarden (voor afzonderlijke X-variabelen), hoge F-waarden (voor gehele model of voor groep van X-variabelen)
- Grote verandering in coëfficiënten bij verwijdering van een X-variabele uit het model
- Hoge correlaties tussen X-variabelen (bijvoorbeeld tussen leeftijd en gezondheid)
Hoe kan je multicollineariteit oplossen?
- Niets doen, multicollineariteit is alleen een probleem als R2 van regressie zelf, kleiner is dan R2 van één van de X-variabelen op alle overige X-variabelen
- Niets doen, als je niet in de coëfficiënten van de X-variabelen bent geïnteresseerd
- Maak de steekproef groter
- Verwijder sterk gecorreleerde X-variabelen (problematisch als juist díe variabelen van belang zijn in je onderzoek; denk aan HVER in het voorbeeld)
- Voeg sterk gecorreleerde variabelen samen
Wat is een dummyvariabele?
Ofwel: variabelen die alleen de waarden 0 of 1 hebben
Welke twee soorten dummyvariabelen?
o Verschuiving (verandering van het snijpunt met de Y-as): Zkosten = b0 + b1HVER + b2Lft + b3*Gesl + ε
o Interactie (verandering van de richtingscoëfficiënt): Zkosten = b0 + b1HVER + b2Lft + b3Gesl + b4Lft*Gesl + ε
Stappenplan toetsen:
1: 0 hypothese en Ha
2: toetsingsgrootheid
3: kritieke grens
4: conclusie
Stappenplan toetsen meervoudige lineriare regressie?
T toets:
Bij een nulhypothese neem je voor beta altijd 0, deze weet je niet maar door deze toets neem je aan dat het 0 is.
Hele model:
1) H0: Beta1 = beta 2 ect
Ha Beta 1 is niet gelijk aan B2 ect
2)
3 toetsen:
- afzonderlijke x variabele : T toets
- gehele model: F-toets, via ANOVA tabel
- toets voor groep van X-variabelen: F-toets, via ANOVA tabel
3: Kritieke grens berekenen
4: Conclusie:
Gevonden waarde < Kritieke grens : H0 aannemen
Gevonden waarde > Kritieke grens: H0 verwerpen.
Dus:
Wat is het doel van een lineaire regressie-analyse?
- Doel: voorspelen of verklaren van Y o.b.v. X’en
Dus: Zijn één of meer onafhankelijke variabelen significant van invloed op de afhankelijke variabele?
Voorwaarde lineaire regressie-analyse?
- Lineariteit: Y = b0 + b1X1 + b2X2 + … + bp*Xp + ε
- Homoscedasticiteit: sd2 (de variantie van ε) is gelijk voor elke waarde van X
- Normaliteit: ε is normaal verdeeld (met gemiddeld=0)
Wat is een confounder?
variabele waar je eigenlijk niet in geïnteresseerd bent maar als je hem niet meeneemt gooit het heel je model door de war.
Wat is een mediator?
..
Wat is een variantieanalyse?
Uitbreiding t-toets voor twee onafhankelijke groepen, je kijkt naar meer dan twee groepen
Variantieanalyse is verschillenanalyse (analyse van verschillen onder groepen)
Variantie als maat voor spreiding rondom gemiddelde
Variantie is de standaardafwijking in het kwadraat
Voorbeelden onderzoeksvraag:
Bestaan er verschillen in het aantal operaties bij rughernia’s tussen Friesland, Zuid-Holland en Limburg?
Zijn er verschillen in het aantal consulten tussen artsen die worden betaald volgens een systeem van ‘fee-for-service’, salaris en ‘capitation’?
Verschillen vijf koffietentjes van elkaar in termen van de gemiddelde leeftijd van klanten?
Zijn er verschillen in genezingsduur tussen groepen patiënten die medicijn A, B, C en D hebben gekregen?
Waarom zou je een variantieanalyse willen uitvoeren?
Doel: uitspraak doen over de vraag of de gemiddelden van een zekere variabele Y in meer dan 2 populaties aan elkaar gelijk zouden kunnen zijn.
Probleem: populatiegemiddelden zijn onbekend
–> Oplossing: analyse van verschillen (=variantie!) van Y in steekproeven uit de afzonderlijke populaties
Wanneer mag je een variantieanalyse toepassen?
>2 groepen vergelijken
Y is een kwantitatieve variabele (minimaal intervalniveau) met ratio of interval, cijfermatig: bijv. genezingsduur
De factor is een kwalitatieve variabele (nominaal meetniveau): bijv. medicijn A, B en C
3 voorwaarden:
1. (Populaties zijn normaal verdeeld) (standaardafwijking rond het gemiddelde, maar je concludeert wat je moet concluderen)
2. (Steekproeven hebben gelijk aantal waarnemingen) (gelijke verdeling van mensen over de subgroepen)
3. Populaties hebben gelijke variantie (harde voorwaarde anders is de F-toets onbetrouwbaar)
Vuistregel: Grootste standaardafwijking is niet meer dan 2x de kleinste standaardafwijking
Welke meetniveaus zijn er en voorbeelden:
Nominaal: medicijn a/b/c (of geboorteplaats / gender)
Ordinaal: Laag SES/gemm / hoog SES
interval: toetsscores bv
Ratio: lengte, gewicht leeftijd
Waarom zou je een enkelvoudige lineaire regressieanalyse willen uitvoeren?
- Doel: Voorspelling of verklaring van de afhankelijke variabele (Y) uit de onafhankelijke variabelen (X1 t/m Xp)
- Aanpak: Ga na in hoeverre verschillen in de onafhankelijke variabelen (X) van invloed zijn op verschillen (variantie) in de afhankelijke variabele (Y)
enkelvoudig: 1 x variabele
Vb onderzoeksvragen:
– Wat is de relatie tussen de tijd die studenten besteden aan studeren en tentamencijfers?
– Is de consumptie van rood vlees kankerverwekkend?
– Is sociaaleconomische status een goede voorspeller van zorgkosten?
– Wat is het effect van ziekenhuisfusies op prijzen?
Wanneer kan je een lineaire regressieanalyse toepassen?
Variabele Y = afhankelijke variabele = te verklaren variabele
- Meetniveau: continu (interval/ratio: kwantitatief, bv. zorgkosten)
Variabelen X1 t/m Xp = onafhankelijke variabele = verklarende variabele (stop je in je regressiemodel)
- Meetniveau: continu (interval/ratio, bv. leeftijd) of categoriaal (nominaal/ordinaal, bv. sociaal economische status, opleidingsniveau, geslacht, ja/nee chronische ziekte) (kan alles zijn)
Voorwaarden:
1. Lineariteit: er moet een lineair verband zijn tussen X en Y
2. Homoskedasticiteit: constante variantie van de residuen (Sd2): spreiding residuen moet gelijk zijn voor elke X-waarde
3. Normaliteit: de residuen zijn normaal verdeeld, geen uitschieters bij de X-variabele
De nauwkeurigheid van schatting van b hangt af van:
- Aantal waarnemingen in de steekproef: n ↑ se(b) ↓
- Variantie van residuen in de steekproef: sd2 ↑ se(b) ↑ (variantie residuen neemt toe, neemt de onnauwkeurigheid en dus foutmarge toe)
- Variantie van X in de steekproef: sx2 ↑ se(b) ↓(voorspellingen nemen toe, standaardfout neemt af, en daarmee neemt de nauwkeurigheid toe). Want: meer metingen: de inschatting wordt nauwkeuriger.
Wat is de zuivere schatter bij lineaire regressie?
- GKS(residu) is een altijd zuivere schatter van populatievariantie
- GKS(regressie) is alleen zuivere schatter als X niet van invloed is op Y
In een ‘Residual plot’ worden de residuen afgezet tegen de; ….
Voorspelde waarden.
Hoe zien verschillende variabele er in SPSS uit bij lineaire regressie? (mbt kwadraatsommen)
KS(totaal) = KS(regressie) + KS (residu)
Ks(regressie) = Model: SSM (sum of squares)
KS (residu) = Error: SSE. (sum of squares).
Hoe berekenen: Yi – Ῡ = Ŷi – Ῡ + Yi – Ŷi
GKS(regressi) = model: mean square
GKS (residu) = Error : mean square
Wat is interpoleren?
voorspelling voor bepaalde waarde van X die binnen je steekproef valt.
Wat is extrapoleren?
voorspelling voor bepaalde waarde van X die buiten je steekproef valt. Gevaar hierbij is dat er rare waarden uit kunnen komen, je trekt je regressielijn tot in het oneindige door, wat irreëel is. (= risicovol)
Wanneer is logistische regressie toepasbaar?
Toepasbaar als de afhankelijke variabele dichotoom is, dus uitsluitend de waarden 0 of 1 kan aannemen. Bij lineaire regressie was de afhankelijke variabele continu: 0, 1, 2, … Bij logistische regressie is er een te verklaren y-variabele die slechts 0 of 1 kan zijn.
Logistische vs lineaire regressie (overeenkomsten en verschillen)
Overeenkomsten:
- Doel: het vinden van een ‘best passende’ relatie tussen één afhankelijke variabele (Y) en één of meer onafhankelijke variabelen (X1, … Xp).
- Onafhankelijke variabelen continu (meetniveau: interval of ratio) of discreet (meetniveau: nominaal of ordinaal).
- Beide technieken worden zeer vaak toegepast.
Verschil (en dit is cruciaal):
- De afhankelijke variabele is bij logistische regressie dichotoom, terwijl deze bij lineaire regressie continu is.
Wat is de log likelihood?
= Ln(odds)
- zie formule blad.
- Waar ln0 is voor model zonder x en l1 is voor model met x
Vergelijkbaar met KS(regressie) in lineaire regressie:. hoe groter, hoe beter.
Wat zegt OR?
stel hij is 0,095
Met elk jaar ouder (afhankelijk vna de casus wat je hier zegt): worddt de odds (de kans) op … (de y uit de casus) gemiddeld 0,095 keer zo groot.x
Vb
Odds voor 41 jaar is: e–5,31+410,111 = 0,468
Odds voor 40 jaar is: e–5,31+400,111 = 0,419
Dus: odds ratio op hartziekte van 41 jaar t.o.v. 40 jaar is: 0,468/0,419 = 1,117
Eenvoudiger: Odds Ratio =”e–5,31+410,111” /”e–5,31+400,111” = e0,111(41 – 40) = e0,1111 = e0,111 = 1,117
Interpretatie OR: met elk jaar ouder wordt de odds (bij benadering: de kans) op hartziekte gemiddeld 1,117 keer zo groot.
Hypothese toetsen bij logistische regressie: 3 situaties
- Toets voor afzonderlijke variabelen: H0: βj = 0
Wald-toets: Z = heeft een standaard normale verdeling (als deze geen invloed heeft bij H0=0, dan betekent het dat hij eig uit het model kan) - Toets voor het gehele model: H0: β1 = β 2 = …= βp = 0
LR-toets: LR = 2 * [ln(L1) ln(L0)], heeft c2-verdeling met p vrijheidsgr. - Toets voor een groep van variabelen: H0: β1 = β 2 = …= βk = 0
LR-toets: LR = 2 * [ln(L1) ln(L0)], heeft c2-verdeling met k vrijheidsgr.
Wat is de afhankelijke en wat de onafhankelijke variabele?
afhankelijk = y
Onafhankelijk = x
Conclusie: (specifiek voor logistische regressie)
gevonden waarde < kritieke grens : H0 aannemen
Gevonden waarde > Kritieke grens: H0 verwerpen
- Dus: het model (afhankelijke van welke toets je hebt gedaan, dit is in het geval van het hele model) verklaart een significant deel van de variantie in de odds op …… (afhankeliojk van de casus) (met alfa = 0,05).
Note: Goed om eerst altijd de gevonden waarde te benoemen en dan de kritieke grens (zo houdt je ook de stappen aan.
Wat zegt Pseudo R2?
Wordt gebruikt om model te testen:
Uitkomst is bv: 0,119 –> 11,9%
Dus dit model verklaart ongeveer 11,9% van de variantie in (afhankelijk van context, in dit geval: )de odds op overstappen naar een andere zorgverzekeraar.
R2 is heel gevoelig voor uitbijters. (want de residuen worden gekwadrateerd, en daarom heel gevoelig voor uitbijters).
R2 kan NIET negatief zijn. Het is altijd tussen 0 en 100%.
- R^2. Neemt toe naar mate KS(regressie) groter is en dus KS(residu) kleiner
max: R2 = 1 (maximale voorspelwaarde)
Min: R2 = 0 (geen voorspelwaarde)
Wat is homoskedasticiteit?
= Gelijke varianties van de residuen = spreiding rondom het gemiddelde blijft gelijk als X veranderd
Wat is het verschil tussen de ‘unstandardized coefficients’ en de ‘standardized coefficients’?
Unstandardized: zijn voor de steekproef (er wordt geen rekening gehouden met schaalgrote, dus je kan de x variabele niet 1 op 1 met elkaar vergelijken)
Standardized: zijn voor de populatie en al gecorrigeerd. (dus er wordt rekening gehouden met de schaalgrote –> je kan de x variabele 1 op 1 met elakar vergelijken).
Welke manieren om iets te zeggen over statistische significantie?
p waarde
- Sig > 0,05 –> geen significante samenhang
- Sig < 0,05 –>wel significante samenhang
Bertrouwbaarheidsinterval
- Zegt iets over reele coeficienten. je wilt dat deze zo klein mogelijk is.
Als 0 in het interval ligt is het niet significant. (dit is als het ene getal bij - ligt en andere + ). (lineaire regressie)
- Ligt 1 binnen BI, dan is er GEEN significant effect. (logistische regressie)
Welke manieren om iets te zeggen over statistische significantie?
p waarde
- Sig > 0,05 –> H0 aannemen, dus geen significante samenhang
- Sig < 0,05 –> H0 verwerpen, dus wel significante samenhang
Bertrouwbaarheidsinterval
- Zegt iets over reele coeficienten
- je wilt dat deze zo klein mogelijk is.
Als 0 in het interval ligt is het niet significant. Dus dit klopt met wat we net hebben gevonden.
- Als 0 in het interval ligt is het niet significant.
—> Betekent dat 0 als coeficient een realistische optie is, en een coeficient van 0 betekent dat er geen samenhang is tussen x en y, dus statistische significantie. (lineaire regressie)
- Ligt 1 binnen BI, dan is er GEEN significant effect. (logistische regressie)
Toetsen
Wat is GKS(regressie)?
GKS (regressie) = kwadraatssom regressie, dit zegt iets over hoe goed je model het doet, deze wil je zo hoog mogelijk
Wat is GKS (totaal?)
= variantie
Als je vanaf de variantie ergens naar toe wil moet dit altijd via de KS.
- je kan de formule ombuigen: 2e gedeelte is KS (y1-ydakje)^2, en je weet de N, dus daarmee kan je KS berekenen., dat is dan KS totaal
- Variantie = GKS(totaal), met dat gegeven en de n-1 kan je KS(totaal) berekenen –> door n-1 * GKS(totaal)
- vaak heb je ook nog KS tussen of een andere waarde gegeven gekregen, en zo kan je de overige factoren berekenen.
Wat is GKS(residu)
Dit is de foutmarge Deze wil je zo klein mogelijk maken
= Hoe veel de geschatte waarde afwijkt van de werkelijke waarde.
Hoe meer variabele (informatie) je toevoegt, hoe lager de KS(residu)
welke 3 soorten kulcasualiteit zijn er?
: - toeval (als je lang genoeg zoekt kom je altijd wel een verband tegen, bv. dieren die wedstrijden voorspellen),
- ontbrekende factor (beïnvloeden oorzaak en gevolg, je vindt een samenhang die er niet is, bv. keuze borstoperatie en overlevingskans, borstbesparende operatie zou overlevingskans vergroten maar ze vergaten de factor gezondheidstoestand (overige aandoeningen)) en
– omgekeerde-causaliteit (bij veel regen zijn er veel paraplu’s, maar die hebben de regen niet veroorzaakt) (kip en ei-probleem).
Wat is publication bias?
alleen de artikelen die een verband vaststellen worden gepubliceerd)
Wat is p-hacking?
professor wilt p waarde lager als 0,05, en ze gaan hier bewust naar opzoek.
- Bekijk alle jelly beans tot je een kleur vindt die verband ligt met acne.
Let op dat correlatie niet altijd een causaal verband betekent, waar moet je op letten?
3 soorten van kulcausaliteit: 1: toeval, 2: ontbrekende factor, 3:omgekeerde-causaliteit
wat is difference in difference techniek?
simpel: effect controle groep berekenen, dan effect behandelgroep. Vervolgens deze effecten van elkaar afhalen, en dan heb je het totale effect
Hierbij van belang dat er parallele trend assumptie is, anders kan je niet toepassen.
Moeilijker:
Houdt rekening met trends in zorguitgaven controle- en behandelgroep
vóór het experiment
Waarom?
- In controlegroep zitten meer ouderen met een aanvraag voor verpleeghuiszorg
- In controlegroep zitten meer ouderen nieuwe medicijnen krijgen voorgeschreven etc.
Oplossing:
Test bij “difference-in-differences” op parallelle trend assumptie
Voorwaarde voor een ideaal experiment?
- Zorg voor behandel en controlegroep
- Randomiseer toewijzing personen aan twee groepen
- Let goed op praktische uitvoering van experiment
- Corrigeer voor mogelijk verschillen in beide groepen vóór het experiment
- Uitkomstvariabele voldoet aan parallelle trend voorwaarde
Hoe meet je causale verbanden?
Veel verschillende mogelijk strategieën
-Gouden standaard: Gerandomiseerd experiment (RCT)
-Zilveren standaard: Quasi-experimenteel onderzoek
> Evaluaties van schokken of discontinuiteiten in beleid
(exogene variatie)
- verhoging eigen risico,
- verkleinen basispakket etc.
Wat is causaliteit?
causale verbanden: actie A veroorzaakt effect B
Wat is correlatie?
Actie a hangt samen met effect B (meeste regressies meten correlaties van variabele)
Wat kan er mogelijk fout gaan bij analyse? (zie voorbeeld medicatiebeoordeling)
-problemen met randomisatie
problemen met vergelijkbaarheid tussen twee groepen
- oplossingen: probleem is groter bij kleine aantallen –> maak de groepgroottes groter / corrigeer met regressietechnieken voor observeerbare verschillen tussen groepen / gebruik difference - in -differences technieken.
-
Wat is een interactie effect?
Er is een interactie tussen verschillende variabele (in regressie analyse is dit zichtbaar door * teken. bV: beta4 * lft * SES.
Hoe kan je meten of de risicoverevening klopt?
Meten hoe de werkelijke zorgkosten zijn, en hoeveel dat verschilt met de geschatte waarde. = residu
R2 vaak gebruikt, maar: is niet de beste maat om de verevening te evalueren. want: niet elk individu kan je vooraf inschatten of iemand vooraf winstgevend/verlies is.
Variabele meervoudige lineaire regressie:
Sd^2 =
Ydakje =
Yi =
Sd^2 = variantie x
Ydakje = gemm steekproef
Yi =
GKS = gemm kwadraatsom = Variantiey
Variabele bij variantieanalyse;
M =
A =
N =
Sigma =
Sigma kwadraat =
S =
S^2 =
Lu
m = aantal waarnemingen per subgroep
a = aantal groepen
n = aantal individuele observaties
Sigma = standaardafwijking populatie
Sigma kwadraat = variantie populatie
S = standaardafwijking steekproef
S^2 = variantie steekproef.
Lu = populatie gemiddelde
Soorten 0 hypotheses bij variantie analyse:
Testen of variantie gelijk is:
H0 = sigma2 1 = sigma2 2 = ect = 0
Ha= sigma 2, 1 is niet gelijk aan sigma 2, 2 = niet gelijk aan 0.
Testen of de gemm in groepen gelijk zijn: (ofwel: of er significante verschillen zijn ja/nee).
H0 = lu1 = lu2 = lu3 = 0
Ha = lu1 is niet gelijk aan lu2 is niet gelijk aan Lu3 is niet gelijk aan 0.
Wanneer gebruik je de toets van Hartley?
= Toets voor gelijkheid van varianties
Wat betekent de odds ratio? hoe vertel je dat?
als je ……, dan is de kans (of de odds) op ….. gemiddeld (odds ratio invullen) x groter ten opzichte van iemand (referentiekader invullen). C.p.
achtergrond info F-waarde:
- F = GKS(tussen) / GKS(binnen) = tussenvariantie / binnenvariantie (binnenvariantie is altijd zuiver, tussenvariantie is alleen zuiver als de populatie gemm gelijk zijn)
- F is altijd groter als 0
- F wordt groter als de gemiddelden van groepen verder uiteen liggen
- Meer spreiding binnen groepen –> De F-waarde neemt af / is relatief klein. De P waarde is relatief groot.
- Als je weinig spreiding hebt binnen groepen, dan is je F waarde relatief groot, P relatief klein –> grote kans op verwerpen van je 0 hypothese en het vinden van significante verschillen.
- Bij een groot aantal waarnemingen, is de F-waarde groter, de p-waarde kleiner. De kans op het vinden van significante verschillen tussen de groepen wordt groter.
Intepretatie hoofd- en interactie-effecten
En hoe zie je op PC of er interactie-effect is?
Hoofd-effecten m.b.v. F(rij) en F(kolom):
- Er zijn wel/geen significante verschillen in gezondheidsverbetering tussen de behandelingen
- Er zijn wel/geen significante verschillen in gezondheidsverbetering tussen mannen en vrouwen
Interactie-effect m.b.v. F(interactie)
- Het verschil in gezondheidsverbetering tussen behandelingen hangt wel/niet significant af van geslacht OF
- Het verschil in gezondheidsverbetering tussen mannen en vrouwen hangt wel/niet significant af van de behandeling
Hoe zie je dat er een interactie effect is? De lijnen lopen niet helemaal parallel.
Wanneer welke toets bij variantie-analyse:
- Toets voor gelijkheid van varianties: Hmax-toets
- Toets voor statistisch significante verschillen tussen groepen: F-toets
- Toets voor onderlinge vergelijking van gemiddelden: Tukey’s HSD
Uitgangspunten meervourdige lineaire regressie:
Onderzoeken van verband tussen Y en meerdere onafhankelijke variabelen (X1, …, Xp).
- Populatie: Y = b0 + b1X1 + b2X2 + …,…,… + bpXp + ε (formule 19)
- Steekproef: Ŷ = b0 + b1X1 + b2X2 + …,…,… + bpXp (formule 20)
Met b0, b1, …, bp de schattingen in de steekproef van de populatieparameters b0, b1, …, bp
- We bekijken het verband tussen Y en X1,…, Xp gezamenlijk om tot betere schatters te komen; afzonderlijke verbanden kunnen misleidend zijn. Het meervoudige regressie-model corrigeert voor de invloed van andere variabelen. Dit is cruciaal!
- Interpretatie van een parameter (bj): de partiële invloed van Xj op Y, gecorrigeerd voor invloed van de andere X-variabelen
Wat is de kleinste kwadraten methode bij enkelvoudige lineaire regressie: (schattingsmethode)
- De kleinste kwadraten methode: zoek zodanige waarden van b0, b1, …, bp dat KS(residu) geminimaliseerd wordt:
KS(residu) = - De schatters b0, b1, …, bp hebben mooie eigenschappen:
o Ze zijn ‘zuiver’ (geven geen systematische afwijkingen)
o Ze hebben van alle zuivere schatters de kleinste variantie (zijn het meest nauwkeurig)
Wat is de kleinste kwadraten methode bij enkelvoudige lineaire regressie: (schattingsmethode)
- De kleinste kwadraten methode: zoek zodanige waarden van b0, b1, …, bp dat KS(residu) geminimaliseerd wordt:
KS(residu) = - De schatters b0, b1, …, bp hebben mooie eigenschappen:
o Ze zijn ‘zuiver’ (geven geen systematische afwijkingen)
o Ze hebben van alle zuivere schatters de kleinste variantie (zijn het meest nauwkeurig)
Wat zijn Rijeffecten? Wat kolomeffecten? En wat interactie effecten? (variantieanalyse)
Rijeffecten(𝑌.,k -𝑌.,.)
- Yk is het gemm van de rij , Y is overall gemiddelde
Kolomeffecten (𝑌j,. - 𝑌.,.)
- Yj is gemm van de kolom, Y is overall gemm
̅̅̅̅ Interactie-effecten (𝑌j,k - 𝑌j,. - 𝑌.,k + 𝑌.,.)
Deze zijn ook wel in de formule zichtbaar, maar dan zonder in t kwadraat te doen.
Logistische regressie: Hoe goed past het logistische regressie model op de data van de steekproef?
1: LR-toets voor het gehele model
2: Pseudo R2 (komt altijd tussen 0 en 1 uit)
3: Percentage ‘correcte’ voorspellingen in steekproef (gebruik je niet vaak).