AVV blok 6 Flashcards

1
Q

Wat is (multi) collineariteit?

A

= sterke samenhang tussen twee of meer X-variabelen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat is het gevolg van collineariteit? (lineaire regressieanalyse)

A

gevolg: standaardfouten van coefficienten worden erg groot (zie formule). Dit wil je niet, want de standaardfouten bepalen hoe nauwkeurig je de coeficienten kan meten en de uitkomsten van de T toets

Bij (multi)collineariteit is er niet genoeg onafhankelijke variantie in Xj om het effect van Xj op Y nauwkeurig te kunnen bepalen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Gevolgen multicollineariteit voor hypothese-toetsing: (lineaire regressie)

A

T-toets: 0 hypothese wordt minder snel verworpen omdat Se(bj) heel groot wordt (zie formuleblad)

F- toets: niks

  • Merkwaardig gevolg van (multi)collineariteit kan dus zijn:
    o H0 voor afzonderlijke variabelen wordt niet geworpen
    o H0 voor gehele model wordt wel verworpen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hoe kan je multicollineariteit opsporen?

A
  1. Lage T-waarden (voor afzonderlijke X-variabelen), hoge F-waarden (voor gehele model of voor groep van X-variabelen)
  2. Grote verandering in coëfficiënten bij verwijdering van een X-variabele uit het model
  3. Hoge correlaties tussen X-variabelen (bijvoorbeeld tussen leeftijd en gezondheid)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hoe kan je multicollineariteit oplossen?

A
  1. Niets doen, multicollineariteit is alleen een probleem als R2 van regressie zelf, kleiner is dan R2 van één van de X-variabelen op alle overige X-variabelen
  2. Niets doen, als je niet in de coëfficiënten van de X-variabelen bent geïnteresseerd
  3. Maak de steekproef groter
  4. Verwijder sterk gecorreleerde X-variabelen (problematisch als juist díe variabelen van belang zijn in je onderzoek; denk aan HVER in het voorbeeld)
  5. Voeg sterk gecorreleerde variabelen samen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat is een dummyvariabele?

A

Ofwel: variabelen die alleen de waarden 0 of 1 hebben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Welke twee soorten dummyvariabelen?

A

o Verschuiving (verandering van het snijpunt met de Y-as): Zkosten = b0 + b1HVER + b2Lft + b3*Gesl + ε

o Interactie (verandering van de richtingscoëfficiënt): Zkosten = b0 + b1HVER + b2Lft + b3Gesl + b4Lft*Gesl + ε

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Stappenplan toetsen:

A

1: 0 hypothese en Ha
2: toetsingsgrootheid
3: kritieke grens
4: conclusie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Stappenplan toetsen meervoudige lineriare regressie?

A

T toets:
Bij een nulhypothese neem je voor beta altijd 0, deze weet je niet maar door deze toets neem je aan dat het 0 is.

Hele model:
1) H0: Beta1 = beta 2 ect
Ha Beta 1 is niet gelijk aan B2 ect

2)
3 toetsen:
- afzonderlijke x variabele : T toets
- gehele model: F-toets, via ANOVA tabel
- toets voor groep van X-variabelen: F-toets, via ANOVA tabel

3: Kritieke grens berekenen

4: Conclusie:
Gevonden waarde < Kritieke grens : H0 aannemen
Gevonden waarde > Kritieke grens: H0 verwerpen.

Dus:

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat is het doel van een lineaire regressie-analyse?

A
  • Doel: voorspelen of verklaren van Y o.b.v. X’en

Dus: Zijn één of meer onafhankelijke variabelen significant van invloed op de afhankelijke variabele?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Voorwaarde lineaire regressie-analyse?

A
  1. Lineariteit: Y = b0 + b1X1 + b2X2 + … + bp*Xp + ε
  2. Homoscedasticiteit: sd2 (de variantie van ε) is gelijk voor elke waarde van X
  3. Normaliteit: ε is normaal verdeeld (met gemiddeld=0)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is een confounder?

A

variabele waar je eigenlijk niet in geïnteresseerd bent maar als je hem niet meeneemt gooit het heel je model door de war.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is een mediator?

A

..

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is een variantieanalyse?

A

 Uitbreiding t-toets voor twee onafhankelijke groepen, je kijkt naar meer dan twee groepen
 Variantieanalyse is verschillenanalyse (analyse van verschillen onder groepen)
 Variantie als maat voor spreiding rondom gemiddelde
 Variantie is de standaardafwijking in het kwadraat

Voorbeelden onderzoeksvraag:
 Bestaan er verschillen in het aantal operaties bij rughernia’s tussen Friesland, Zuid-Holland en Limburg?
 Zijn er verschillen in het aantal consulten tussen artsen die worden betaald volgens een systeem van ‘fee-for-service’, salaris en ‘capitation’?
 Verschillen vijf koffietentjes van elkaar in termen van de gemiddelde leeftijd van klanten?
 Zijn er verschillen in genezingsduur tussen groepen patiënten die medicijn A, B, C en D hebben gekregen?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Waarom zou je een variantieanalyse willen uitvoeren?

A

 Doel: uitspraak doen over de vraag of de gemiddelden van een zekere variabele Y in meer dan 2 populaties aan elkaar gelijk zouden kunnen zijn.
 Probleem: populatiegemiddelden zijn onbekend
–> Oplossing: analyse van verschillen (=variantie!) van Y in steekproeven uit de afzonderlijke populaties

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wanneer mag je een variantieanalyse toepassen?

A

 >2 groepen vergelijken
 Y is een kwantitatieve variabele (minimaal intervalniveau) met ratio of interval, cijfermatig: bijv. genezingsduur
 De factor is een kwalitatieve variabele (nominaal meetniveau): bijv. medicijn A, B en C

3 voorwaarden:
1. (Populaties zijn normaal verdeeld) (standaardafwijking rond het gemiddelde, maar je concludeert wat je moet concluderen)
2. (Steekproeven hebben gelijk aantal waarnemingen) (gelijke verdeling van mensen over de subgroepen)
3. Populaties hebben gelijke variantie (harde voorwaarde anders is de F-toets onbetrouwbaar)
Vuistregel: Grootste standaardafwijking is niet meer dan 2x de kleinste standaardafwijking

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Welke meetniveaus zijn er en voorbeelden:

A

Nominaal: medicijn a/b/c (of geboorteplaats / gender)
Ordinaal: Laag SES/gemm / hoog SES
interval: toetsscores bv
Ratio: lengte, gewicht leeftijd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Waarom zou je een enkelvoudige lineaire regressieanalyse willen uitvoeren?

A
  • Doel: Voorspelling of verklaring van de afhankelijke variabele (Y) uit de onafhankelijke variabelen (X1 t/m Xp)
  • Aanpak: Ga na in hoeverre verschillen in de onafhankelijke variabelen (X) van invloed zijn op verschillen (variantie) in de afhankelijke variabele (Y)

enkelvoudig: 1 x variabele

Vb onderzoeksvragen:
– Wat is de relatie tussen de tijd die studenten besteden aan studeren en tentamencijfers?
– Is de consumptie van rood vlees kankerverwekkend?
– Is sociaaleconomische status een goede voorspeller van zorgkosten?
– Wat is het effect van ziekenhuisfusies op prijzen?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Wanneer kan je een lineaire regressieanalyse toepassen?

A

Variabele Y = afhankelijke variabele = te verklaren variabele
- Meetniveau: continu (interval/ratio: kwantitatief, bv. zorgkosten)

Variabelen X1 t/m Xp = onafhankelijke variabele = verklarende variabele (stop je in je regressiemodel)
- Meetniveau: continu (interval/ratio, bv. leeftijd) of categoriaal (nominaal/ordinaal, bv. sociaal economische status, opleidingsniveau, geslacht, ja/nee chronische ziekte) (kan alles zijn)

Voorwaarden:
1. Lineariteit: er moet een lineair verband zijn tussen X en Y
2. Homoskedasticiteit: constante variantie van de residuen (Sd2): spreiding residuen moet gelijk zijn voor elke X-waarde
3. Normaliteit: de residuen zijn normaal verdeeld, geen uitschieters bij de X-variabele

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

De nauwkeurigheid van schatting van b hangt af van:

A
  • Aantal waarnemingen in de steekproef: n ↑  se(b) ↓
  • Variantie van residuen in de steekproef: sd2 ↑  se(b) ↑ (variantie residuen neemt toe, neemt de onnauwkeurigheid en dus foutmarge toe)
  • Variantie van X in de steekproef: sx2 ↑  se(b) ↓(voorspellingen nemen toe, standaardfout neemt af, en daarmee neemt de nauwkeurigheid toe). Want: meer metingen: de inschatting wordt nauwkeuriger.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Wat is de zuivere schatter bij lineaire regressie?

A
  • GKS(residu) is een altijd zuivere schatter van populatievariantie
  • GKS(regressie) is alleen zuivere schatter als X niet van invloed is op Y
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

In een ‘Residual plot’ worden de residuen afgezet tegen de; ….

A

Voorspelde waarden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Hoe zien verschillende variabele er in SPSS uit bij lineaire regressie? (mbt kwadraatsommen)

A

KS(totaal) = KS(regressie) + KS (residu)

Ks(regressie) = Model: SSM (sum of squares)
KS (residu) = Error: SSE. (sum of squares).

Hoe berekenen: Yi – Ῡ = Ŷi – Ῡ + Yi – Ŷi

GKS(regressi) = model: mean square
GKS (residu) = Error : mean square

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Wat is interpoleren?

A

voorspelling voor bepaalde waarde van X die binnen je steekproef valt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Wat is extrapoleren?

A

voorspelling voor bepaalde waarde van X die buiten je steekproef valt. Gevaar hierbij is dat er rare waarden uit kunnen komen, je trekt je regressielijn tot in het oneindige door, wat irreëel is. (= risicovol)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Wanneer is logistische regressie toepasbaar?

A

Toepasbaar als de afhankelijke variabele dichotoom is, dus uitsluitend de waarden 0 of 1 kan aannemen. Bij lineaire regressie was de afhankelijke variabele continu: 0, 1, 2, … Bij logistische regressie is er een te verklaren y-variabele die slechts 0 of 1 kan zijn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Logistische vs lineaire regressie (overeenkomsten en verschillen)

A

Overeenkomsten:
- Doel: het vinden van een ‘best passende’ relatie tussen één afhankelijke variabele (Y) en één of meer onafhankelijke variabelen (X1, … Xp).
- Onafhankelijke variabelen continu (meetniveau: interval of ratio) of discreet (meetniveau: nominaal of ordinaal).
- Beide technieken worden zeer vaak toegepast.

Verschil (en dit is cruciaal):
- De afhankelijke variabele is bij logistische regressie dichotoom, terwijl deze bij lineaire regressie continu is.

28
Q

Wat is de log likelihood?

A

= Ln(odds)
- zie formule blad.
- Waar ln0 is voor model zonder x en l1 is voor model met x

Vergelijkbaar met KS(regressie) in lineaire regressie:. hoe groter, hoe beter.

29
Q

Wat zegt OR?

A

stel hij is 0,095
Met elk jaar ouder (afhankelijk vna de casus wat je hier zegt): worddt de odds (de kans) op … (de y uit de casus) gemiddeld 0,095 keer zo groot.x

Vb
Odds voor 41 jaar is: e–5,31+410,111 = 0,468
Odds voor 40 jaar is: e–5,31+40
0,111 = 0,419
Dus: odds ratio op hartziekte van 41 jaar t.o.v. 40 jaar is: 0,468/0,419 = 1,117
Eenvoudiger: Odds Ratio =”e–5,31+410,111” /”e–5,31+400,111” = e0,111(41 – 40) = e0,1111 = e0,111 = 1,117
Interpretatie OR: met elk jaar ouder wordt de odds (bij benadering: de kans) op hartziekte gemiddeld 1,117 keer zo groot.

30
Q

Hypothese toetsen bij logistische regressie: 3 situaties

A
  1. Toets voor afzonderlijke variabelen: H0: βj = 0
    Wald-toets: Z = heeft een standaard normale verdeling (als deze geen invloed heeft bij H0=0, dan betekent het dat hij eig uit het model kan)
  2. Toets voor het gehele model: H0: β1 = β 2 = …= βp = 0
    LR-toets: LR = 2 * [ln(L1)  ln(L0)], heeft c2-verdeling met p vrijheidsgr.
  3. Toets voor een groep van variabelen: H0: β1 = β 2 = …= βk = 0
    LR-toets: LR = 2 * [ln(L1)  ln(L0)], heeft c2-verdeling met k vrijheidsgr.
31
Q

Wat is de afhankelijke en wat de onafhankelijke variabele?

A

afhankelijk = y
Onafhankelijk = x

32
Q

Conclusie: (specifiek voor logistische regressie)

A

gevonden waarde < kritieke grens : H0 aannemen
Gevonden waarde > Kritieke grens: H0 verwerpen
- Dus: het model (afhankelijke van welke toets je hebt gedaan, dit is in het geval van het hele model) verklaart een significant deel van de variantie in de odds op …… (afhankeliojk van de casus) (met alfa = 0,05).

Note: Goed om eerst altijd de gevonden waarde te benoemen en dan de kritieke grens (zo houdt je ook de stappen aan.

33
Q

Wat zegt Pseudo R2?

A

Wordt gebruikt om model te testen:

Uitkomst is bv: 0,119 –> 11,9%

Dus dit model verklaart ongeveer 11,9% van de variantie in (afhankelijk van context, in dit geval: )de odds op overstappen naar een andere zorgverzekeraar.

R2 is heel gevoelig voor uitbijters. (want de residuen worden gekwadrateerd, en daarom heel gevoelig voor uitbijters).

R2 kan NIET negatief zijn. Het is altijd tussen 0 en 100%.

  • R^2. Neemt toe naar mate KS(regressie) groter is en dus KS(residu) kleiner

max: R2 = 1 (maximale voorspelwaarde)
Min: R2 = 0 (geen voorspelwaarde)

34
Q

Wat is homoskedasticiteit?

A

= Gelijke varianties van de residuen = spreiding rondom het gemiddelde blijft gelijk als X veranderd

35
Q

Wat is het verschil tussen de ‘unstandardized coefficients’ en de ‘standardized coefficients’?

A

Unstandardized: zijn voor de steekproef (er wordt geen rekening gehouden met schaalgrote, dus je kan de x variabele niet 1 op 1 met elkaar vergelijken)

Standardized: zijn voor de populatie en al gecorrigeerd. (dus er wordt rekening gehouden met de schaalgrote –> je kan de x variabele 1 op 1 met elakar vergelijken).

36
Q

Welke manieren om iets te zeggen over statistische significantie?

A

p waarde
- Sig > 0,05 –> geen significante samenhang
- Sig < 0,05 –>wel significante samenhang

Bertrouwbaarheidsinterval
- Zegt iets over reele coeficienten. je wilt dat deze zo klein mogelijk is.
Als 0 in het interval ligt is het niet significant. (dit is als het ene getal bij - ligt en andere + ). (lineaire regressie)

  • Ligt 1 binnen BI, dan is er GEEN significant effect. (logistische regressie)
37
Q

Welke manieren om iets te zeggen over statistische significantie?

A

p waarde
- Sig > 0,05 –> H0 aannemen, dus geen significante samenhang
- Sig < 0,05 –> H0 verwerpen, dus wel significante samenhang

Bertrouwbaarheidsinterval
- Zegt iets over reele coeficienten
- je wilt dat deze zo klein mogelijk is.
Als 0 in het interval ligt is het niet significant. Dus dit klopt met wat we net hebben gevonden.
- Als 0 in het interval ligt is het niet significant.
—> Betekent dat 0 als coeficient een realistische optie is, en een coeficient van 0 betekent dat er geen samenhang is tussen x en y, dus statistische significantie. (lineaire regressie)

  • Ligt 1 binnen BI, dan is er GEEN significant effect. (logistische regressie)

Toetsen

38
Q

Wat is GKS(regressie)?

A

GKS (regressie) = kwadraatssom regressie, dit zegt iets over hoe goed je model het doet, deze wil je zo hoog mogelijk

39
Q

Wat is GKS (totaal?)

A

= variantie

Als je vanaf de variantie ergens naar toe wil moet dit altijd via de KS.
- je kan de formule ombuigen: 2e gedeelte is KS (y1-ydakje)^2, en je weet de N, dus daarmee kan je KS berekenen., dat is dan KS totaal

    • Variantie = GKS(totaal), met dat gegeven en de n-1 kan je KS(totaal) berekenen –> door n-1 * GKS(totaal)
  • vaak heb je ook nog KS tussen of een andere waarde gegeven gekregen, en zo kan je de overige factoren berekenen.
40
Q

Wat is GKS(residu)

A

Dit is de foutmarge Deze wil je zo klein mogelijk maken

= Hoe veel de geschatte waarde afwijkt van de werkelijke waarde.

Hoe meer variabele (informatie) je toevoegt, hoe lager de KS(residu)

41
Q

welke 3 soorten kulcasualiteit zijn er?

A

: - toeval (als je lang genoeg zoekt kom je altijd wel een verband tegen, bv. dieren die wedstrijden voorspellen),

  • ontbrekende factor (beïnvloeden oorzaak en gevolg, je vindt een samenhang die er niet is, bv. keuze borstoperatie en overlevingskans, borstbesparende operatie zou overlevingskans vergroten maar ze vergaten de factor gezondheidstoestand (overige aandoeningen)) en

– omgekeerde-causaliteit (bij veel regen zijn er veel paraplu’s, maar die hebben de regen niet veroorzaakt) (kip en ei-probleem).

42
Q

Wat is publication bias?

A

alleen de artikelen die een verband vaststellen worden gepubliceerd)

43
Q

Wat is p-hacking?

A

professor wilt p waarde lager als 0,05, en ze gaan hier bewust naar opzoek.
- Bekijk alle jelly beans tot je een kleur vindt die verband ligt met acne.

44
Q

Let op dat correlatie niet altijd een causaal verband betekent, waar moet je op letten?

A

3 soorten van kulcausaliteit: 1: toeval, 2: ontbrekende factor, 3:omgekeerde-causaliteit

45
Q

wat is difference in difference techniek?

A

simpel: effect controle groep berekenen, dan effect behandelgroep. Vervolgens deze effecten van elkaar afhalen, en dan heb je het totale effect

Hierbij van belang dat er parallele trend assumptie is, anders kan je niet toepassen.

Moeilijker:
Houdt rekening met trends in zorguitgaven controle- en behandelgroep
vóór het experiment

Waarom?
- In controlegroep zitten meer ouderen met een aanvraag voor verpleeghuiszorg
- In controlegroep zitten meer ouderen nieuwe medicijnen krijgen voorgeschreven etc.

Oplossing:
Test bij “difference-in-differences” op parallelle trend assumptie

46
Q

Voorwaarde voor een ideaal experiment?

A
  • Zorg voor behandel en controlegroep
  • Randomiseer toewijzing personen aan twee groepen
  • Let goed op praktische uitvoering van experiment
  • Corrigeer voor mogelijk verschillen in beide groepen vóór het experiment
  • Uitkomstvariabele voldoet aan parallelle trend voorwaarde
47
Q

Hoe meet je causale verbanden?

A

Veel verschillende mogelijk strategieën
-Gouden standaard: Gerandomiseerd experiment (RCT)
-Zilveren standaard: Quasi-experimenteel onderzoek
> Evaluaties van schokken of discontinuiteiten in beleid
(exogene variatie)
- verhoging eigen risico,
- verkleinen basispakket etc.

48
Q

Wat is causaliteit?

A

causale verbanden: actie A veroorzaakt effect B

49
Q

Wat is correlatie?

A

Actie a hangt samen met effect B (meeste regressies meten correlaties van variabele)

50
Q

Wat kan er mogelijk fout gaan bij analyse? (zie voorbeeld medicatiebeoordeling)

A

-problemen met randomisatie

problemen met vergelijkbaarheid tussen twee groepen
- oplossingen: probleem is groter bij kleine aantallen –> maak de groepgroottes groter / corrigeer met regressietechnieken voor observeerbare verschillen tussen groepen / gebruik difference - in -differences technieken.
-

51
Q

Wat is een interactie effect?

A

Er is een interactie tussen verschillende variabele (in regressie analyse is dit zichtbaar door * teken. bV: beta4 * lft * SES.

52
Q

Hoe kan je meten of de risicoverevening klopt?

A

Meten hoe de werkelijke zorgkosten zijn, en hoeveel dat verschilt met de geschatte waarde. = residu

R2 vaak gebruikt, maar: is niet de beste maat om de verevening te evalueren. want: niet elk individu kan je vooraf inschatten of iemand vooraf winstgevend/verlies is.

53
Q

Variabele meervoudige lineaire regressie:

Sd^2 =
Ydakje =
Yi =

A

Sd^2 = variantie x

Ydakje = gemm steekproef

Yi =

GKS = gemm kwadraatsom = Variantiey

54
Q

Variabele bij variantieanalyse;

M =
A =
N =

Sigma =
Sigma kwadraat =
S =
S^2 =
Lu

A

m = aantal waarnemingen per subgroep

a = aantal groepen

n = aantal individuele observaties

Sigma = standaardafwijking populatie
Sigma kwadraat = variantie populatie
S = standaardafwijking steekproef
S^2 = variantie steekproef.
Lu = populatie gemiddelde

55
Q

Soorten 0 hypotheses bij variantie analyse:

A

Testen of variantie gelijk is:
H0 = sigma2 1 = sigma2 2 = ect = 0
Ha= sigma 2, 1 is niet gelijk aan sigma 2, 2 = niet gelijk aan 0.

Testen of de gemm in groepen gelijk zijn: (ofwel: of er significante verschillen zijn ja/nee).
H0 = lu1 = lu2 = lu3 = 0
Ha = lu1 is niet gelijk aan lu2 is niet gelijk aan Lu3 is niet gelijk aan 0.

56
Q

Wanneer gebruik je de toets van Hartley?

A

= Toets voor gelijkheid van varianties

57
Q

Wat betekent de odds ratio? hoe vertel je dat?

A

als je ……, dan is de kans (of de odds) op ….. gemiddeld (odds ratio invullen) x groter ten opzichte van iemand (referentiekader invullen). C.p.

58
Q

achtergrond info F-waarde:

A
  • F = GKS(tussen) / GKS(binnen) = tussenvariantie / binnenvariantie (binnenvariantie is altijd zuiver, tussenvariantie is alleen zuiver als de populatie gemm gelijk zijn)
  • F is altijd groter als 0
  • F wordt groter als de gemiddelden van groepen verder uiteen liggen
  • Meer spreiding binnen groepen –> De F-waarde neemt af / is relatief klein. De P waarde is relatief groot.
  • Als je weinig spreiding hebt binnen groepen, dan is je F waarde relatief groot, P relatief klein –> grote kans op verwerpen van je 0 hypothese en het vinden van significante verschillen.
  • Bij een groot aantal waarnemingen, is de F-waarde groter, de p-waarde kleiner. De kans op het vinden van significante verschillen tussen de groepen wordt groter.
59
Q

Intepretatie hoofd- en interactie-effecten

En hoe zie je op PC of er interactie-effect is?

A

Hoofd-effecten m.b.v. F(rij) en F(kolom):
- Er zijn wel/geen significante verschillen in gezondheidsverbetering tussen de behandelingen
- Er zijn wel/geen significante verschillen in gezondheidsverbetering tussen mannen en vrouwen

Interactie-effect m.b.v. F(interactie)
- Het verschil in gezondheidsverbetering tussen behandelingen hangt wel/niet significant af van geslacht OF
- Het verschil in gezondheidsverbetering tussen mannen en vrouwen hangt wel/niet significant af van de behandeling

Hoe zie je dat er een interactie effect is? De lijnen lopen niet helemaal parallel.

60
Q

Wanneer welke toets bij variantie-analyse:

A
  • Toets voor gelijkheid van varianties: Hmax-toets
  • Toets voor statistisch significante verschillen tussen groepen: F-toets
  • Toets voor onderlinge vergelijking van gemiddelden: Tukey’s HSD
61
Q

Uitgangspunten meervourdige lineaire regressie:

A

Onderzoeken van verband tussen Y en meerdere onafhankelijke variabelen (X1, …, Xp).
- Populatie: Y = b0 + b1X1 + b2X2 + …,…,… + bpXp + ε (formule 19)
- Steekproef: Ŷ = b0 + b1
X1 + b2X2 + …,…,… + bpXp (formule 20)
Met b0, b1, …, bp de schattingen in de steekproef van de populatieparameters b0, b1, …, bp

  • We bekijken het verband tussen Y en X1,…, Xp gezamenlijk om tot betere schatters te komen; afzonderlijke verbanden kunnen misleidend zijn. Het meervoudige regressie-model corrigeert voor de invloed van andere variabelen. Dit is cruciaal!
  • Interpretatie van een parameter (bj): de partiële invloed van Xj op Y, gecorrigeerd voor invloed van de andere X-variabelen
62
Q

Wat is de kleinste kwadraten methode bij enkelvoudige lineaire regressie: (schattingsmethode)

A
  • De kleinste kwadraten methode: zoek zodanige waarden van b0, b1, …, bp dat KS(residu) geminimaliseerd wordt:
    KS(residu) =
  • De schatters b0, b1, …, bp hebben mooie eigenschappen:
    o Ze zijn ‘zuiver’ (geven geen systematische afwijkingen)
    o Ze hebben van alle zuivere schatters de kleinste variantie (zijn het meest nauwkeurig)
63
Q

Wat is de kleinste kwadraten methode bij enkelvoudige lineaire regressie: (schattingsmethode)

A
  • De kleinste kwadraten methode: zoek zodanige waarden van b0, b1, …, bp dat KS(residu) geminimaliseerd wordt:
    KS(residu) =
  • De schatters b0, b1, …, bp hebben mooie eigenschappen:
    o Ze zijn ‘zuiver’ (geven geen systematische afwijkingen)
    o Ze hebben van alle zuivere schatters de kleinste variantie (zijn het meest nauwkeurig)
64
Q

Wat zijn Rijeffecten? Wat kolomeffecten? En wat interactie effecten? (variantieanalyse)

A

Rijeffecten(𝑌.,k -𝑌.,.)
- Yk is het gemm van de rij , Y is overall gemiddelde

Kolomeffecten (𝑌j,. - 𝑌.,.)
- Yj is gemm van de kolom, Y is overall gemm

̅̅̅̅ Interactie-effecten (𝑌j,k - 𝑌j,. - 𝑌.,k + 𝑌.,.)

Deze zijn ook wel in de formule zichtbaar, maar dan zonder in t kwadraat te doen.

65
Q

Logistische regressie: Hoe goed past het logistische regressie model op de data van de steekproef?

A

1: LR-toets voor het gehele model
2: Pseudo R2 (komt altijd tussen 0 en 1 uit)
3: Percentage ‘correcte’ voorspellingen in steekproef (gebruik je niet vaak).