AVV Blok 6 Flashcards

1
Q

variantie

A

Standaardafwijking in het kwadraat

Maat voor spreiding rondom gemiddelden

Bij populatienotatie σ2
Bij steekproefpopulatie: S62

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

variantieanalyse doel

A

Uitspraak doen over de vraag of gemiddelden van een Y variabele in meer dan twee groepen gelijk aan elkaar zouden moeten zijn

Dit kan je onderzoeken met een anova tabel –> F-toets

  • Populatiegemidddelden onbekend –> kijkt naar variantie bij steekproeven
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Voorbeelden onderzoeksvraag variantieanalyse

A

Bestaan er verschillen tussen in het aantal consulten tussen artsen die worden betaald volgens een systeem van ‘fee-for-service’, salaris en ‘capitation’?’’

Zijn er verschillen in genezingsduur tussen groepen patiënten die medicijn A, B, C en D hebben gekregen?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wanneer mag je een variantieanalyse toepassen

A
  • > 2 groepen vergelijken
  • UIitkomstvariabele is minimaal interval
  • De factor (op basis waarvan je indeelt groepen) is nominaal
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Voorwaarden variantieanalyse

A
  • Populaties zijn normaal verdeeld
  • Steekproeven hebben gelijk aantal waarnemingen
  • Populaties hebben gelijk varianties ( Grootste standaardafwijking is niet meer dan 2x de kleinste standaardafwijking)
    beter toetsen gelijkheid variantie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Gelijkheid van variantie testen

A
  • Hartley toets
  1. Hypothesen met H0: σ12 = σ22 = … σa2
    Ha: σ12 ≠ σ22 ≠ … σa2
  2. Verdeling en toetsingsgrootheid
    Toets van Hartley Hmax = S2max / S2min met Ha, m-1, α verdeling
  3. kritieke grens opzoeken met Hmax
  4. H0 wel of niet verwerpen

Niet verwerpen is gunstiger

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

M

A

aantal waarnemingen per groep

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

a

A

aantal groepen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vraag bij variantieanalyse

A

Zijn er statistisch significante verschillen in y tussen de drie groepen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

F- waarde formule

A

Variantie tussen groepen / variantie binnen de groepen

ook wel GKS tussen (variantie tussen groepen) / GKS binnen (variantie binnen de groepen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

F-waarde berekenen stapen

A
  1. Allereerst df bepalen
  2. Kwadraatsom tussen bepalen
  3. GKS tussen
  4. Vanuit variantie (GKS binnen) naar KS binnen
  5. KS totaal
  6. F-waarde
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

KS tussen

A

KS (tussen) = (gemiddelde groep - overall gemiddelde)^2 voor iedere waarneming in de groep

Ook wel; som ((gemiddelde groep - overall gemiddelde)^2 )x m

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

GKS binnen naar KS

A

Variantie van de groepen bij elkaar optellen / a

Dit is je GKS binnen

Nu nog naar KS = GKS binnen x df

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Van GKS naar KS formule

A

KS = GKS binnen x df

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Stappenplan f-toets bij variantieanalyse

A
  1. Hypothesen
    H0: µ1 = µ2 = µ3
    Ha: µ1 ≠ µ2 ≠ µ3
  2. Wat is de toetsingsgrootheid en verdeling?
    f-toets en f-verdeling Fa-1, n-a, α
  3. Kritieke grens
  4. Conclusie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Fa-1, n-a, α volgorde

A

Kolom (recht naar beneden) en rij opzij

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

F = GKS(tussen) / GKS(binnen) = tussenvariantie / binnenvariantie, welke is zuiver?

A

Binnenvariantie = altijd zuiver

tussenvariantie = alleen zuiver als de populatiegemiddelden gelijk zijn (anders een overschatting van populatievariantie)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

F-waarde eigenschappen

A

> 0
=0 als er geen variantie is (geen verschillen tussen groepen)

Grotere f-waarde meer bewijs tegen H0, populatiegemiddelden gelijk zijn

Gemiddelden meer uiteen? -> F-waarde groter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Relatie p-waarde en F-waarde spreiding

A

meer spreiding in groepen (GKS binnen groot) dus F-waarde klein, p-waarde groot

minder spreiding in groepen (GKS binnen klein) , grote f-waarde p- waarde klein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Relatie waarnemingen en f en p waarden

A

Weinig waarnemingen -> kans op vinden statische verschillen klein

Veel waarnemingen -> F-waarde groter, P-kleiner, statische verschillen vinden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

variantie-analyse extra factor

A

toevoegen van een extra factor (variabele op basis waarvan je indeelt vb; leeftijd of geslacht)
- Hoofdeffecten; invloed factor op Y ( verschillen in Y door behandelingen vs. verschillen in y door geslacht)

  • Neveneffecten (interactieffecten); wellicht een combinatieeffect; * Pakken de verschillende behandelingen anders uit voor mannen en vrouwen?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Wel interactie effect

A

Hoofdeffecten kunnen maskeren wat er in werkelijkheid gebeurd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Geen interactie effect

A

Hoofdeffecten zijn accuraat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

GKS totaal

A

Variantie van de gehele steekproef

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Toets voor verschillen tussen twee groepen
Turkeys HD toets met verdeling Va, n-a, α
26
Bij turkey HSD toets ga je uit van
De orginele steekproef, dus orginele a en n
27
Verschil variantieanalyse en regressie
- Variantieanalyse; wil je kijken of er verschillen zijn tussen of twee groepen - Bij regressie wil je een voorspelling of verklaring van y leveren
28
Afhankelijke variabele
ook wel de y
29
Onafhankelijke variabele
ook wel de x
30
Voorwaarde variabele y
Deze moet continu zijn (minimaal ratio of interval) de beperkende factor
31
Voorwaarde variabelen x
Mogen alle meetniveau's zijn
32
Wat betekent e bij populatienotatie regressievergelijking
de foutterm
33
OLS bij regressie
- Kleinste kwadratenmethode - Minimaliseren som van gekwadrateerde residuen
34
residu
is het verschil tussen de geobserveerde waarde en de regressielijn
35
parameter en intercept
Ook wel de regressie coefficient en intercept is de a
36
Interpoleren
voorspellingen maakt voor waarden van X, die binnen het domein van je steekproef vallen
37
extrapoleren
voorspellingen doen voor waarden van X, buiten het domein van je steekproef (niet gemeten) risicovol
38
Hoe breder betrouwbaarheidsinterval
Hoe minder nauwkeurig voorspellingen zijn
39
drie maten om te meten hoe nauwkeurig je voorspellingen zijn bij regressie
- GKS residu -Betrouwbaarheidsinterval - r^2
40
R^2
Is een maat voor de voorspelkracht van je model Hoe hoger hoe beter het model op je data past. r van 0,15: Portie verklaarde variantie van 15% (als R2 0,15 is) Nadeel; reageert heel sterk op uitbijters
41
Toets voor een afzonderlijke x variabele en y
De t-toets
42
Toets voor gehele model (of regressiemodel als geheel een significant deel van de verschillen in de uitkomstvariabelen kan voorspellen)
F-toets
43
Se neemt toe als
Sd (standaard deviatie- variantie residuen) teller neemt toe dus de SE ook
44
Sd
Variantie residuen
45
Sx
Variantie x in de steekproef Als deze toeneemt is je schatting beter, meer verschillen in x -waarde beter zicht op y
46
neemt n toe
Se kleiner, doordat noemer groter wordt
47
toets voor model vraag
Voorspelt ons model een significant deel van de variantie in Y
48
toets een afzonderlijke variabele
Statitisch significant effect tussen x en y?
49
F-toets voor enkelvoudige lineaire regressie
- ANOVA tabel
50
GKS residu
Altijd zuivere schatter voor populatie variantie * Hoe lager Sd2 , hoe beter de regressielijn ‘past’ in de puntenwolk en hoe beter de voorspellingen
51
GKS regressie
is alleen zuivere schatter als X niet van invloed is op Y
52
3 assumpties bij lineaire regressie
- Homoskedasticiteit; gelijkheid variantie residuen - Lineariteit; een lineair verband tussen x en y - Normaliteit; er is een normaalverdeling in de residuen voor elke waarde van x
53
grootste probleem assumpties lineaire regressie
- Geen lineair verband; RC klopt niet Bij geen homoskedasticiteit en normaliteit kan je alleen geen goede significante uitspraken doen over hypothesen en een bi
54
omschrijving meervoudige lineaire regressie
statistische methode om de relatie tussen x en y variabelen te verklaren of te voorspellen
55
Waarom meervoudige regressie?
- Om tot betere schatters te komen van Y - Corrigeren voor overige variabelen op y
56
Regressievergelijking steekproef
Ŷ = a + b1*X1 + b2*X2 + … + bp*Xp
57
Regressievergelijking populatie
Y = α + β1*X1 + β2*X2 + … + βp*Xp + ε
58
Aspecten bij interpretatie van een x- coefficient
- Als ... met 1 toeneemt - gemiddeld verandert y - ceteris paribus
59
Waarom kan je coefficienten niet onderling vergelijken en de oplossing
- andere schalen gemeten Oplossing; standardisatie coefficienten Coefficient x std afwijking coefficient / std dev y
60
BI bij lineaire regressie
- 0 moet buiten BI liggen, als je H0 wil verwerpen - Geeft een idee over zekerheid regressiecoefficient
61
Conclusie bij een t-toets (toets afzonderlijke x variabele significant met y samenhangt
In de populatie hangen x en y wel/ niet significant met elkaar samen, ceteris paribus (alpha 0,05) - Populatie - Ceteris paribus - Samenhang - Aplha -significant of niet
62
f-toets gehele model conclusie 2
Het model verklaart een significant gedeelte van Y (variantie in zorgkosten bijvoorbeeld) - Het model - Significant gedeelte - Y Ten minste een van de x- variabelen in de populatie in het model is significant van invloed op y, ceteris paribus - Ceteris paribus - Ten minste een - significant of niet - in de populatie
63
F-toets groep x-variabelen conclusie
Gezamelijk verklaren x1 en x2 (uitschrijven) een significant deel van de Y, ceteris paribus met alpha 0,05 - Gezamelijk - X variabelen benoemen - Significant deel of niet van y - Ceteris paribus - Alpha 0,05
64
Colineariteit
Twee of meer xen geven vergelijkbare informatie over de uitkomst - Colineariteit; lineaire samenhang tussen twee of meer x-variabelen - Multicolinearieit; lineaire samenhang tussen 3 of meer x-variabelen
65
Gevolgen colineariteit
KS (residu wordt erg klein), regressiemodel voorspelt immers beter. - SE wordt kleiner (sd/ wortel KS residu) - T- waarden te klein (sneller h0 aannemen) - F-waarden te groot (sneller h0 verwerpen)
66
Wanneer colineariteit een probleem en wanneer niet?
Probleem; - Beleid voeren obv schattingen - Kan de nauwkeurigheid en interpretatie van de regressie coefficienten beinvloeden - Te weinig onafhankelijke x-variabelen in het model Geen probleem - Als je een hoge voorspellende waarde van y wil hebben, dan meer geintresseerd in R2 (denk aan risicovereveningsmodel)
67
Hoe zie je colineariteit
- Als je een x-coefficient eruit haalt veranderen alle waarden sneller - Er is een correlatie tussen x-en te zien - Te lage t-waarden en te hoge F-waarden
68
Voorkomen colineariteit
- Vergroten steekproef - Verwijder correlerende x-variabelen - samenvoegen correlerende variabelen
69
Dummy variabelen
Geeft de aanwezigheid of afwezigheid van een variabele aan - Categorische variabele; nominaal of ordinaal niveau - Denk aan referentieniveau benoemen
70
Zorgkosten = β0 + β1*HVER + β2*Lft + β3*Gesl * Voorspelling ‘Man’: 491 - 2*HVER + 25*Lft + 300*1 * Voorspelling ‘Vrouw’: 491 - 2*HVER + 25*Lft + 300*0 interpretatie van deze dummy variabele
Voor mannen zijn de zorgkosten gemiddeld 300 euro hoger dan voor vrouwen, ceteris paribus
71
Interactieffecten
om in regressiemodel om de invloed van een interactie tussen twee x-en op een y variabele te modeleren - Combineert twee variabelen - Effect van ene X-variabele op Y hangt dus af van waarde andere X-variabele
72
Interpretatie interactieffecten leeftijd Voorspelling ‘Vrouw’: 288 - 2*HVER + 30*Lft + 737*0 – 11*Lft*0 Voorspelling ‘Man’: 288 - 2*HVER + 30*Lft + 737*1 – 11*Lft*1
- Als leeftijd met 1 toeneemt dan nemen de zorgkosten bij vrouwen gemiddeld toe met 30 euro, ceterus paribus - Als leeftijd met 1 toeneemt dan nemen de zorgkosten bij mannen gemiddeld toe met 19 euro
73
Dummy variabele valkuil
Als je alle groepen opneemt zou je perfecte multicolineariteit krijgen vb met vrouw en man, je kan als je een weet de andere al voorspellen - Referentiecategorie altijd benoemen - bij dummy’s altijd het aantal groepen - 1 opnemen! Neem je vrouw op, dan is man de referentiecategorie
74
confounder
: variabele die de relatie die onderzocht wordt, verstoort. Bijv. bij de relatie ‘hoogte vrijwillig eigen risico’ met ziektekosten, is leeftijd een confounder
75
moderator
Beïnvloedt de relatie tussen de onafhankelijke en afhankelijke variabele bv; cholesterolmedicijn (dagelijkse inname- onafhankelijk en afhankelijk; cholesterol niveu)
76
logistische regressie
- Als de y-waarde dichotoom is
77
Overeenkomsten logistische regressie en lineaire
- Gebruiken voor voorspelling of verklaren - X-variabelen ieder meetniveau - vaak toegepast
78
Probleem bij dichtome y-variabele en proberen lineaire regressie
bij toepassing van lineaire regressie op dichotome variabele is dat het model kansen voorspelt buiten het [0; 1] interval: Kansen worden kleiner dan 0 en groter dan 1
79
* π
Kans
80
* π / π-1
odds
81
Odds en kans op grafiek
odds grootheid voor de y -as Kans grootheid voor x-as Loopt asymptoot
82
schattingsmethode logistische regressie
Maximum likelihood; geschatte kansen op de daadwerkelijke uitkomst voor alle individuen in de steekproef zo groot mogelijk zijn Vb; ziekenhuisopname hoge kansen op opname produceert voor mensen die zijn opgenomen en lage kansen voor mensen die niet zijn opgenomen * Hoe groter de ML-schatter (i.e. hoe dichter bij de 0), hoe beter
83
interpretatie van een odds van 1,04 bij leeftijd
Als de leeftijd toeneemt met 1 eenheid, wordt de odds (bij benadering kans) gemiddeld 1,04 keer zo groot, ceteris paribus - Odds (bij benadering kans) - Gemiddeld - Keer zo groot - Ceteris paribus
84
Voorbeeld interpretatie OR dummy variabele: roken
De odds (bij benadering: de kans) op ziekenhuisopname is gemiddeld 1,54 KEER zo groot voor rokers als de odds op ziekenhuisopname voor niet-rokers, ceteris paribus - Benoem hier de referentiecategorie! Odds 1,54 keer zo hoog voor rokers als de odds voor niet rokers - Ceteris paribus - gemiddeld
85
Odds ratio
> 1 Grote kans < 1 klenere kans
86
onthouden over kans en odds ratio
Bij kleine waarden van π benadert de OR de relatieve kans (
87
Betrouwbaarheidsinterval regressiecoefficient bij logistische regressie formule
regreissie coefficient (beta)- + z * standaard fout b
88
BI van de odds formule
e tot de macht (b+- z *se b)
89
BI odds uitspraken en regels
Vuistregel Valt 1 buiten het betrouwbaarheidsinterval? Statistisch significant effect
90
Voorspelkracht van model logistische regressie 3 manieren
- Pseudo R^2; proportie verklaarde variantie. hoeveel % van de verschillen in opnamekans worden verklaard door het model? - De voorspelde kans per individu vergelijken met je werkelijke schattingen - LR-teots voor het gehele model
91
Logistische toets voor 1-variabele
- Wald toets voor een afzonderlijke variabele
92
Toets gehele Model logistische regressie
- LR toets model
93
Toets groep afzonderlijke x-variabelen
LR toets voor groep x-variabelen
94
Hypothesen bij logistische regressie wald toets leeftijd
effect van leefdtijd op de kans van een ziekenhuisopname is 0 H0= B1 =0
95
let op wald toets
- Twee zijdig toetsen; normale verdeling
96
Conclusie wald toets benoemen
- In de populatie - hangen x en de kans op - significant of niet - Ceteris paribus - alpha 0,05
97
LR toets gehele model
LR - kan alleen positief zijn
98
ln L1
Waarde voor model met de meeste x variabelen
99
ln L0
Waarde voor model met de minste x-variabelen
100
Conclusie Logistische regressie gehel model LR toets; model als geheel
Het model verklaart een significant gedeelte van de variantie in de kans om Y OF - Significant gedeelte van de variantie - In de kans op Y - Het model
101
Conclusie Logistische regressie gehel model LR toets; tenminste
Ten minste één van de X-variabelen in het model is significant van invloed op de kans op Y, ceteris paribus (α=0,05) - ten minste een - significant van invloed in de kans op - Alpha 0,05 - Ceteris paribus
102
conclusie LR-toets groep x-variabelen
Gezamelijk verklaren x1 en x2 een sigfnificant gedeelte van de verschillen in de kans op Y, ceteris paribus met alpha 0,05 - ceteris paribus - Alpha - Gezamelijk - Significant gedeelte van de verschillen in de kans op
103
std deviatie maat voor
Spreiding
104
Fitted values
geschatte waarden
105
interactieterm
; de relatie tussen een x variabele en je uitkomst wordt beinvloedt door een andere x variabele
106
F-toets bij anova conclusie variantieanalyse
Er zijn significante verschillen wat betreft de x van het de groepen x,y,z bij een significantieniveau van 0,05 - Significante verschillen - tussen welke groepen
107
Binnenvariantie is de
zuivere schatter
108
rekening houden met achtergrondkenmerken!
- Zorgt voor vertekening, hiervoor kan je corrigeren - je wil confounders zo ver mogelijk uitsluiten
109
Ks totaal
- Zegt iets over hoe groot de te verklaren variantie in Y is - KS totaal, regressie en residu zegt iets over hoe goed de variantie in het model wordt opgepikt en we
110
Gevolg homoskedasticiteit niet goed
- coefficienten correct, maar standaardfouten niet geen goede uitspraken over bi en hypothesen
111
Gevolg normaliteit
- als je steekproef groot genoeg is niet echt beperkeingen, coefficienten zijn correct en kan beperkt uitspraken doen over bi en hypothesen
112
KS binnen
de som van varianties / aantal varianties
113
homoskedasticiteit
Gelijke varianties van de residuen = spreiding rondom het gemiddelde blijft gelijk als X veranderd (2 punten)