AVV Blok 6 Flashcards

1
Q

variantie

A

Standaardafwijking in het kwadraat

Maat voor spreiding rondom gemiddelden

Bij populatienotatie σ2
Bij steekproefpopulatie: S62

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

variantieanalyse doel

A

Uitspraak doen over de vraag of gemiddelden van een Y variabele in meer dan twee groepen gelijk aan elkaar zouden moeten zijn

Dit kan je onderzoeken met een anova tabel –> F-toets

  • Populatiegemidddelden onbekend –> kijkt naar variantie bij steekproeven
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Voorbeelden onderzoeksvraag variantieanalyse

A

Bestaan er verschillen tussen in het aantal consulten tussen artsen die worden betaald volgens een systeem van ‘fee-for-service’, salaris en ‘capitation’?’’

Zijn er verschillen in genezingsduur tussen groepen patiënten die medicijn A, B, C en D hebben gekregen?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wanneer mag je een variantieanalyse toepassen

A
  • > 2 groepen vergelijken
  • UIitkomstvariabele is minimaal interval
  • De factor (op basis waarvan je indeelt groepen) is nominaal
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Voorwaarden variantieanalyse

A
  • Populaties zijn normaal verdeeld
  • Steekproeven hebben gelijk aantal waarnemingen
  • Populaties hebben gelijk varianties ( Grootste standaardafwijking is niet meer dan 2x de kleinste standaardafwijking)
    beter toetsen gelijkheid variantie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Gelijkheid van variantie testen

A
  • Hartley toets
  1. Hypothesen met H0: σ12 = σ22 = … σa2
    Ha: σ12 ≠ σ22 ≠ … σa2
  2. Verdeling en toetsingsgrootheid
    Toets van Hartley Hmax = S2max / S2min met Ha, m-1, α verdeling
  3. kritieke grens opzoeken met Hmax
  4. H0 wel of niet verwerpen

Niet verwerpen is gunstiger

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

M

A

aantal waarnemingen per groep

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

a

A

aantal groepen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vraag bij variantieanalyse

A

Zijn er statistisch significante verschillen in y tussen de drie groepen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

F- waarde formule

A

Variantie tussen groepen / variantie binnen de groepen

ook wel GKS tussen (variantie tussen groepen) / GKS binnen (variantie binnen de groepen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

F-waarde berekenen stapen

A
  1. Allereerst df bepalen
  2. Kwadraatsom tussen bepalen
  3. GKS tussen
  4. Vanuit variantie (GKS binnen) naar KS binnen
  5. KS totaal
  6. F-waarde
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

KS tussen

A

KS (tussen) = (gemiddelde groep - overall gemiddelde)^2 voor iedere waarneming in de groep

Ook wel; som ((gemiddelde groep - overall gemiddelde)^2 )x m

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

GKS binnen naar KS

A

Variantie van de groepen bij elkaar optellen / a

Dit is je GKS binnen

Nu nog naar KS = GKS binnen x df

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Van GKS naar KS formule

A

KS = GKS binnen x df

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Stappenplan f-toets bij variantieanalyse

A
  1. Hypothesen
    H0: µ1 = µ2 = µ3
    Ha: µ1 ≠ µ2 ≠ µ3
  2. Wat is de toetsingsgrootheid en verdeling?
    f-toets en f-verdeling Fa-1, n-a, α
  3. Kritieke grens
  4. Conclusie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Fa-1, n-a, α volgorde

A

Kolom (recht naar beneden) en rij opzij

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

F = GKS(tussen) / GKS(binnen) = tussenvariantie / binnenvariantie, welke is zuiver?

A

Binnenvariantie = altijd zuiver

tussenvariantie = alleen zuiver als de populatiegemiddelden gelijk zijn (anders een overschatting van populatievariantie)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

F-waarde eigenschappen

A

> 0
=0 als er geen variantie is (geen verschillen tussen groepen)

Grotere f-waarde meer bewijs tegen H0, populatiegemiddelden gelijk zijn

Gemiddelden meer uiteen? -> F-waarde groter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Relatie p-waarde en F-waarde spreiding

A

meer spreiding in groepen (GKS binnen groot) dus F-waarde klein, p-waarde groot

minder spreiding in groepen (GKS binnen klein) , grote f-waarde p- waarde klein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Relatie waarnemingen en f en p waarden

A

Weinig waarnemingen -> kans op vinden statische verschillen klein

Veel waarnemingen -> F-waarde groter, P-kleiner, statische verschillen vinden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

variantie-analyse extra factor

A

toevoegen van een extra factor (variabele op basis waarvan je indeelt vb; leeftijd of geslacht)
- Hoofdeffecten; invloed factor op Y ( verschillen in Y door behandelingen vs. verschillen in y door geslacht)

  • Neveneffecten (interactieffecten); wellicht een combinatieeffect; * Pakken de verschillende behandelingen anders uit voor mannen en vrouwen?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Wel interactie effect

A

Hoofdeffecten kunnen maskeren wat er in werkelijkheid gebeurd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Geen interactie effect

A

Hoofdeffecten zijn accuraat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

GKS totaal

A

Variantie van de gehele steekproef

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Toets voor verschillen tussen twee groepen

A

Turkeys HD toets

met verdeling Va, n-a, α

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Bij turkey HSD toets ga je uit van

A

De orginele steekproef, dus orginele a en n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Verschil variantieanalyse en regressie

A
  • Variantieanalyse; wil je kijken of er verschillen zijn tussen of twee groepen
  • Bij regressie wil je een voorspelling of verklaring van y leveren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Afhankelijke variabele

A

ook wel de y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Onafhankelijke variabele

A

ook wel de x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Voorwaarde variabele y

A

Deze moet continu zijn (minimaal ratio of interval)

de beperkende factor

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Voorwaarde variabelen x

A

Mogen alle meetniveau’s zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Wat betekent e bij populatienotatie regressievergelijking

A

de foutterm

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

OLS bij regressie

A
  • Kleinste kwadratenmethode
  • Minimaliseren som van gekwadrateerde residuen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

residu

A

is het verschil tussen de geobserveerde waarde en de regressielijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

parameter en intercept

A

Ook wel de regressie coefficient en

intercept is de a

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Interpoleren

A

voorspellingen maakt voor waarden van X, die binnen het domein van je steekproef vallen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

extrapoleren

A

voorspellingen doen voor waarden van X, buiten het domein van je steekproef (niet gemeten)

risicovol

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Hoe breder betrouwbaarheidsinterval

A

Hoe minder nauwkeurig voorspellingen zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

drie maten om te meten hoe nauwkeurig je voorspellingen zijn bij regressie

A
  • GKS residu
    -Betrouwbaarheidsinterval
  • r^2
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

R^2

A

Is een maat voor de voorspelkracht van je model

Hoe hoger hoe beter het model op je data past.

r van 0,15: Portie verklaarde variantie van 15% (als R2 0,15 is)

Nadeel; reageert heel sterk op uitbijters

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Toets voor een afzonderlijke x variabele en y

A

De t-toets

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Toets voor gehele model (of regressiemodel als geheel een significant deel van de verschillen in de uitkomstvariabelen kan voorspellen)

A

F-toets

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Se neemt toe als

A

Sd (standaard deviatie- variantie residuen) teller neemt toe dus de SE ook

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Sd

A

Variantie residuen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Sx

A

Variantie x in de steekproef

Als deze toeneemt is je schatting beter, meer verschillen in x -waarde beter zicht op y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

neemt n toe

A

Se kleiner, doordat noemer groter wordt

47
Q

toets voor model vraag

A

Voorspelt ons model een significant deel van de variantie in Y

48
Q

toets een afzonderlijke variabele

A

Statitisch significant effect tussen x en y?

49
Q

F-toets voor enkelvoudige lineaire regressie

A
  • ANOVA tabel
50
Q

GKS residu

A

Altijd zuivere schatter voor populatie variantie

  • Hoe lager Sd2 , hoe beter de regressielijn ‘past’ in de puntenwolk en hoe beter de voorspellingen
51
Q

GKS regressie

A

is alleen zuivere schatter als X niet van invloed is op Y

52
Q

3 assumpties bij lineaire regressie

A
  • Homoskedasticiteit; gelijkheid variantie residuen
  • Lineariteit; een lineair verband tussen x en y
  • Normaliteit; er is een normaalverdeling in de residuen voor elke waarde van x
53
Q

grootste probleem assumpties lineaire regressie

A
  • Geen lineair verband; RC klopt niet

Bij geen homoskedasticiteit en normaliteit kan je alleen geen goede significante uitspraken doen over hypothesen en een bi

54
Q

omschrijving meervoudige lineaire regressie

A

statistische methode om de relatie tussen x en y variabelen te verklaren of te voorspellen

55
Q

Waarom meervoudige regressie?

A
  • Om tot betere schatters te komen van Y
  • Corrigeren voor overige variabelen op y
56
Q

Regressievergelijking steekproef

A

Ŷ = a + b1X1 + b2X2 + … + bp*Xp

57
Q

Regressievergelijking populatie

A

Y = α + β1X1 + β2X2 + … + βp*Xp + ε

58
Q

Aspecten bij interpretatie van een x- coefficient

A
  • Als … met 1 toeneemt
  • gemiddeld verandert y
  • ceteris paribus
59
Q

Waarom kan je coefficienten niet onderling vergelijken en de oplossing

A
  • andere schalen gemeten

Oplossing; standardisatie coefficienten

Coefficient x std afwijking coefficient / std dev y

60
Q

BI bij lineaire regressie

A
  • 0 moet buiten BI liggen, als je H0 wil verwerpen
  • Geeft een idee over zekerheid regressiecoefficient
61
Q

Conclusie bij een t-toets (toets afzonderlijke x variabele significant met y samenhangt

A

In de populatie hangen x en y wel/ niet significant met elkaar samen, ceteris paribus (alpha 0,05)

  • Populatie
  • Ceteris paribus
  • Samenhang
  • Aplha
    -significant of niet
62
Q

f-toets gehele model conclusie 2

A

Het model verklaart een significant gedeelte van Y (variantie in zorgkosten bijvoorbeeld)

  • Het model
  • Significant gedeelte
  • Y

Ten minste een van de x- variabelen in de populatie in het model is significant van invloed op y, ceteris paribus

  • Ceteris paribus
  • Ten minste een
  • significant of niet
  • in de populatie
63
Q

F-toets groep x-variabelen conclusie

A

Gezamelijk verklaren x1 en x2 (uitschrijven) een significant deel van de Y, ceteris paribus met alpha 0,05

  • Gezamelijk
  • X variabelen benoemen
  • Significant deel of niet van y
  • Ceteris paribus
  • Alpha 0,05
64
Q

Colineariteit

A

Twee of meer xen geven vergelijkbare informatie over de uitkomst

  • Colineariteit; lineaire samenhang tussen twee of meer x-variabelen
  • Multicolinearieit; lineaire samenhang tussen 3 of meer x-variabelen
65
Q

Gevolgen colineariteit

A

KS (residu wordt erg klein), regressiemodel voorspelt immers beter.

  • SE wordt kleiner (sd/ wortel KS residu)
  • T- waarden te klein (sneller h0 aannemen)
  • F-waarden te groot (sneller h0 verwerpen)
66
Q

Wanneer colineariteit een probleem en wanneer niet?

A

Probleem;
- Beleid voeren obv schattingen
- Kan de nauwkeurigheid en interpretatie van de regressie coefficienten beinvloeden
- Te weinig onafhankelijke x-variabelen in het model

Geen probleem
- Als je een hoge voorspellende waarde van y wil hebben, dan meer geintresseerd in R2 (denk aan risicovereveningsmodel)

67
Q

Hoe zie je colineariteit

A
  • Als je een x-coefficient eruit haalt veranderen alle waarden sneller
  • Er is een correlatie tussen x-en te zien
  • Te lage t-waarden en te hoge F-waarden
68
Q

Voorkomen colineariteit

A
  • Vergroten steekproef
  • Verwijder correlerende x-variabelen
  • samenvoegen correlerende variabelen
69
Q

Dummy variabelen

A

Geeft de aanwezigheid of afwezigheid van een variabele aan

  • Categorische variabele; nominaal of ordinaal niveau
  • Denk aan referentieniveau benoemen
70
Q

Zorgkosten = β0 + β1HVER + β2Lft + β3Gesl
* Voorspelling ‘Man’: 491 - 2
HVER + 25Lft + 3001
* Voorspelling ‘Vrouw’: 491 - 2HVER + 25Lft + 300*0
interpretatie van deze dummy variabele

A

Voor mannen zijn de zorgkosten gemiddeld 300 euro hoger dan voor vrouwen, ceteris paribus

71
Q

Interactieffecten

A

om in regressiemodel om de invloed van een interactie tussen twee x-en op een y variabele te modeleren

  • Combineert twee variabelen
  • Effect van ene X-variabele op Y hangt dus af van waarde andere X-variabele
72
Q

Interpretatie interactieffecten leeftijd

Voorspelling ‘Vrouw’: 288 - 2HVER + 30Lft + 7370 – 11Lft0
Voorspelling ‘Man’: 288 - 2
HVER + 30Lft + 7371 – 11Lft1

A
  • Als leeftijd met 1 toeneemt dan nemen de zorgkosten bij vrouwen gemiddeld toe met 30 euro, ceterus paribus
  • Als leeftijd met 1 toeneemt dan nemen de zorgkosten bij mannen gemiddeld toe met 19 euro
73
Q

Dummy variabele valkuil

A

Als je alle groepen opneemt zou je perfecte multicolineariteit krijgen vb met vrouw en man, je kan als je een weet de andere al voorspellen

  • Referentiecategorie altijd benoemen
  • bij dummy’s altijd het aantal groepen - 1 opnemen!

Neem je vrouw op, dan is man de referentiecategorie

74
Q

confounder

A

: variabele die de relatie die onderzocht wordt, verstoort. Bijv. bij de relatie ‘hoogte vrijwillig eigen risico’ met ziektekosten, is leeftijd een confounder

75
Q

moderator

A

Beïnvloedt de relatie tussen de onafhankelijke en afhankelijke variabele

bv; cholesterolmedicijn (dagelijkse inname- onafhankelijk en afhankelijk; cholesterol niveu)

76
Q

logistische regressie

A
  • Als de y-waarde dichotoom is
77
Q

Overeenkomsten logistische regressie en lineaire

A
  • Gebruiken voor voorspelling of verklaren
  • X-variabelen ieder meetniveau
  • vaak toegepast
78
Q

Probleem bij dichtome y-variabele en proberen lineaire regressie

A

bij toepassing van lineaire regressie op dichotome variabele is dat het model kansen voorspelt buiten het [0; 1] interval:

Kansen worden kleiner dan 0 en groter dan 1

79
Q
  • π
A

Kans

80
Q
  • π / π-1
A

odds

81
Q

Odds en kans op grafiek

A

odds grootheid voor de y -as

Kans grootheid voor x-as

Loopt asymptoot

82
Q

schattingsmethode logistische regressie

A

Maximum likelihood; geschatte kansen op de daadwerkelijke uitkomst voor alle individuen in de steekproef zo groot mogelijk zijn
Vb; ziekenhuisopname hoge kansen op opname produceert voor mensen die zijn opgenomen en lage
kansen voor mensen die niet zijn opgenomen

  • Hoe groter de ML-schatter (i.e. hoe dichter bij de 0), hoe beter
83
Q

interpretatie van een odds van 1,04 bij leeftijd

A

Als de leeftijd toeneemt met 1 eenheid, wordt de odds (bij benadering kans) gemiddeld 1,04 keer zo groot, ceteris paribus

  • Odds (bij benadering kans)
  • Gemiddeld
  • Keer zo groot
  • Ceteris paribus
84
Q

Voorbeeld interpretatie OR dummy variabele: roken

A

De odds (bij benadering: de kans) op ziekenhuisopname is gemiddeld 1,54 KEER zo groot voor rokers als de odds op ziekenhuisopname voor niet-rokers, ceteris paribus

  • Benoem hier de referentiecategorie! Odds 1,54 keer zo hoog voor rokers als de odds voor niet rokers
  • Ceteris paribus
  • gemiddeld
85
Q

Odds ratio

A

> 1 Grote kans

< 1 klenere kans

86
Q

onthouden over kans en odds ratio

A

Bij kleine waarden van π benadert de OR de relatieve kans (

87
Q

Betrouwbaarheidsinterval regressiecoefficient bij logistische regressie formule

A

regreissie coefficient (beta)- + z * standaard fout b

88
Q

BI van de odds formule

A

e tot de macht (b+- z *se b)

89
Q

BI odds uitspraken en regels

A

Vuistregel Valt 1 buiten het betrouwbaarheidsinterval? Statistisch significant effect

90
Q

Voorspelkracht van model logistische regressie 3 manieren

A
  • Pseudo R^2; proportie verklaarde variantie. hoeveel % van de verschillen in opnamekans worden verklaard door het model?
  • De voorspelde kans per individu vergelijken met je werkelijke schattingen
  • LR-teots voor het gehele model
91
Q

Logistische toets voor 1-variabele

A
  • Wald toets voor een afzonderlijke variabele
92
Q

Toets gehele Model logistische regressie

A
  • LR toets model
93
Q

Toets groep afzonderlijke x-variabelen

A

LR toets voor groep x-variabelen

94
Q

Hypothesen bij logistische regressie wald toets leeftijd

A

effect van leefdtijd op de kans van een ziekenhuisopname is 0

H0= B1 =0

95
Q

let op wald toets

A
  • Twee zijdig toetsen; normale verdeling
96
Q

Conclusie wald toets benoemen

A
  • In de populatie
  • hangen x en de kans op
  • significant of niet
  • Ceteris paribus
  • alpha 0,05
97
Q

LR toets gehele model

A

LR - kan alleen positief zijn

98
Q

ln L1

A

Waarde voor model met de meeste x variabelen

99
Q

ln L0

A

Waarde voor model met de minste x-variabelen

100
Q

Conclusie Logistische regressie gehel model LR toets; model als geheel

A

Het model verklaart een significant gedeelte van de variantie in de kans om Y

OF

  • Significant gedeelte van de variantie
  • In de kans op Y
  • Het model
101
Q

Conclusie Logistische regressie gehel model LR toets; tenminste

A

Ten minste één van de X-variabelen in het model is significant van invloed op de kans op Y, ceteris paribus (α=0,05)

  • ten minste een
  • significant van invloed in de kans op
  • Alpha 0,05
  • Ceteris paribus
102
Q

conclusie LR-toets groep x-variabelen

A

Gezamelijk verklaren x1 en x2 een sigfnificant gedeelte van de verschillen in de kans op Y, ceteris paribus met alpha 0,05

  • ceteris paribus
  • Alpha
  • Gezamelijk
  • Significant gedeelte van de verschillen in de kans op
103
Q

std deviatie maat voor

A

Spreiding

104
Q

Fitted values

A

geschatte waarden

105
Q

interactieterm

A

; de relatie tussen een x variabele en je uitkomst wordt beinvloedt door een andere x variabele

106
Q

F-toets bij anova conclusie variantieanalyse

A

Er zijn significante verschillen wat betreft de x van het de groepen x,y,z bij een significantieniveau van 0,05

  • Significante verschillen
  • tussen welke groepen
107
Q

Binnenvariantie is de

A

zuivere schatter

108
Q

rekening houden met achtergrondkenmerken!

A
  • Zorgt voor vertekening, hiervoor kan je corrigeren
  • je wil confounders zo ver mogelijk uitsluiten
109
Q

Ks totaal

A
  • Zegt iets over hoe groot de te verklaren variantie in Y is
  • KS totaal, regressie en residu zegt iets over hoe goed de variantie in het model wordt opgepikt en we
110
Q

Gevolg homoskedasticiteit niet goed

A
  • coefficienten correct, maar standaardfouten niet geen goede uitspraken over bi en hypothesen
111
Q

Gevolg normaliteit

A
  • als je steekproef groot genoeg is niet echt beperkeingen, coefficienten zijn correct en kan beperkt uitspraken doen over bi en hypothesen
112
Q

KS binnen

A

de som van varianties / aantal varianties

113
Q

homoskedasticiteit

A

Gelijke varianties van de residuen =
spreiding rondom het gemiddelde blijft gelijk als X
veranderd (2 punten)