AVV blok 6 Flashcards

Question

Wat is extrapoleren?

Answer 1

voorspelling voor bepaalde waarde van X die buiten je steekproef valt. Gevaar hierbij is dat er rare waarden uit kunnen komen, je trekt je regressielijn tot in het oneindige door, wat irreëel is. (= risicovol)

Answer 2

Toepasbaar als de afhankelijke variabele dichotoom is, dus uitsluitend de waarden 0 of 1 kan aannemen. Bij lineaire regressie was de afhankelijke variabele continu: 0, 1, 2, … Bij logistische regressie is er een te verklaren y-variabele die slechts 0 of 1 kan zijn.

Answer 3

Overeenkomsten: - Doel: het vinden van een ‘best passende’ relatie tussen één afhankelijke variabele (Y) en één of meer onafhankelijke variabelen (X1, … Xp). - Onafhankelijke variabelen continu (meetniveau: interval of ratio) of discreet (meetniveau: nominaal of ordinaal). - Beide technieken worden zeer vaak toegepast. Verschil (en dit is cruciaal): - De afhankelijke variabele is bij logistische regressie dichotoom, terwijl deze bij lineaire regressie continu is.

Answer 4

= Ln(odds) - zie formule blad. - Waar ln0 is voor model zonder x en l1 is voor model met x Vergelijkbaar met KS(regressie) in lineaire regressie:. hoe groter, hoe beter.

Answer 5

stel hij is 0,095 Met elk jaar ouder (afhankelijk vna de casus wat je hier zegt): worddt de odds (de kans) op ... (de y uit de casus) gemiddeld 0,095 keer zo groot.x Vb Odds voor 41 jaar is: e–5,31+41*0,111 = 0,468 Odds voor 40 jaar is: e–5,31+40*0,111 = 0,419 Dus: odds ratio op hartziekte van 41 jaar t.o.v. 40 jaar is: 0,468/0,419 = 1,117 Eenvoudiger: Odds Ratio ="e–5,31+41*0,111" /"e–5,31+40*0,111" = e0,111*(41 – 40) = e0,111*1 = e0,111 = 1,117 Interpretatie OR: met elk jaar ouder wordt de odds (bij benadering: de kans) op hartziekte gemiddeld 1,117 keer zo groot.

Answer 6

1. Toets voor afzonderlijke variabelen: H0: βj = 0 Wald-toets: Z = heeft een standaard normale verdeling (als deze geen invloed heeft bij H0=0, dan betekent het dat hij eig uit het model kan) 2. Toets voor het gehele model: H0: β1 = β 2 = ...= βp = 0 LR-toets: LR = 2 * [ln(L1)  ln(L0)], heeft c2-verdeling met p vrijheidsgr. 3. Toets voor een groep van variabelen: H0: β1 = β 2 = ...= βk = 0 LR-toets: LR = 2 * [ln(L1)  ln(L0)], heeft c2-verdeling met k vrijheidsgr.

Answer 7

afhankelijk = y Onafhankelijk = x

Answer 8

gevonden waarde < kritieke grens : H0 aannemen Gevonden waarde > Kritieke grens: H0 verwerpen - Dus: het model (afhankelijke van welke toets je hebt gedaan, dit is in het geval van het hele model) verklaart een significant deel van de variantie in de odds op ...... (afhankeliojk van de casus) (met alfa = 0,05). Note: Goed om eerst altijd de gevonden waarde te benoemen en dan de kritieke grens (zo houdt je ook de stappen aan.

Answer 9

Wordt gebruikt om model te testen: Uitkomst is bv: 0,119 --> 11,9% Dus dit model verklaart ongeveer 11,9% van de variantie in (afhankelijk van context, in dit geval: )de odds op overstappen naar een andere zorgverzekeraar. R2 is heel gevoelig voor uitbijters. (want de residuen worden gekwadrateerd, en daarom heel gevoelig voor uitbijters). R2 kan NIET negatief zijn. Het is altijd tussen 0 en 100%. - R^2. Neemt toe naar mate KS(regressie) groter is en dus KS(residu) kleiner max: R2 = 1 (maximale voorspelwaarde) Min: R2 = 0 (geen voorspelwaarde)

Answer 10

= Gelijke varianties van de residuen = spreiding rondom het gemiddelde blijft gelijk als X veranderd

Answer 11

Unstandardized: zijn voor de steekproef (er wordt geen rekening gehouden met schaalgrote, dus je kan de x variabele niet 1 op 1 met elkaar vergelijken) Standardized: zijn voor de populatie en al gecorrigeerd. (dus er wordt rekening gehouden met de schaalgrote --> je kan de x variabele 1 op 1 met elakar vergelijken).

Answer 12

p waarde - Sig > 0,05 --> geen significante samenhang - Sig < 0,05 -->wel significante samenhang Bertrouwbaarheidsinterval - Zegt iets over reele coeficienten. je wilt dat deze zo klein mogelijk is. Als 0 in het interval ligt is het niet significant. (dit is als het ene getal bij - ligt en andere + ). (lineaire regressie) - Ligt 1 binnen BI, dan is er GEEN significant effect. (logistische regressie)

Answer 13

p waarde - Sig > 0,05 --> H0 aannemen, dus geen significante samenhang - Sig < 0,05 --> H0 verwerpen, dus wel significante samenhang Bertrouwbaarheidsinterval - Zegt iets over reele coeficienten - je wilt dat deze zo klein mogelijk is. Als 0 in het interval ligt is het niet significant. Dus dit klopt met wat we net hebben gevonden. - Als 0 in het interval ligt is het niet significant. ---> Betekent dat 0 als coeficient een realistische optie is, en een coeficient van 0 betekent dat er geen samenhang is tussen x en y, dus statistische significantie. (lineaire regressie) - Ligt 1 binnen BI, dan is er GEEN significant effect. (logistische regressie) Toetsen

Answer 14

GKS (regressie) = kwadraatssom regressie, dit zegt iets over hoe goed je model het doet, deze wil je zo hoog mogelijk

Answer 15

= variantie Als je vanaf de variantie ergens naar toe wil moet dit altijd via de KS. - je kan de formule ombuigen: 2e gedeelte is KS (y1-ydakje)^2, en je weet de N, dus daarmee kan je KS berekenen., dat is dan KS totaal - + Variantie = GKS(totaal), met dat gegeven en de n-1 kan je KS(totaal) berekenen --> door n-1 * GKS(totaal) - vaak heb je ook nog KS tussen of een andere waarde gegeven gekregen, en zo kan je de overige factoren berekenen.

Answer 16

Dit is de foutmarge Deze wil je zo klein mogelijk maken = Hoe veel de geschatte waarde afwijkt van de werkelijke waarde. Hoe meer variabele (informatie) je toevoegt, hoe lager de KS(residu)

Answer 17

: - toeval (als je lang genoeg zoekt kom je altijd wel een verband tegen, bv. dieren die wedstrijden voorspellen), - ontbrekende factor (beïnvloeden oorzaak en gevolg, je vindt een samenhang die er niet is, bv. keuze borstoperatie en overlevingskans, borstbesparende operatie zou overlevingskans vergroten maar ze vergaten de factor gezondheidstoestand (overige aandoeningen)) en -- omgekeerde-causaliteit (bij veel regen zijn er veel paraplu’s, maar die hebben de regen niet veroorzaakt) (kip en ei-probleem).

Answer 18

alleen de artikelen die een verband vaststellen worden gepubliceerd)

Answer 19

professor wilt p waarde lager als 0,05, en ze gaan hier bewust naar opzoek. - Bekijk alle jelly beans tot je een kleur vindt die verband ligt met acne.

Answer 20

3 soorten van kulcausaliteit: 1: toeval, 2: ontbrekende factor, 3:omgekeerde-causaliteit

Answer 21

simpel: effect controle groep berekenen, dan effect behandelgroep. Vervolgens deze effecten van elkaar afhalen, en dan heb je het totale effect Hierbij van belang dat er parallele trend assumptie is, anders kan je niet toepassen. Moeilijker: Houdt rekening met trends in zorguitgaven controle- en behandelgroep vóór het experiment Waarom? - In controlegroep zitten meer ouderen met een aanvraag voor verpleeghuiszorg - In controlegroep zitten meer ouderen nieuwe medicijnen krijgen voorgeschreven etc. Oplossing: Test bij “difference-in-differences” op parallelle trend assumptie

Answer 22

- Zorg voor behandel en controlegroep - Randomiseer toewijzing personen aan twee groepen - Let goed op praktische uitvoering van experiment - Corrigeer voor mogelijk verschillen in beide groepen vóór het experiment - Uitkomstvariabele voldoet aan parallelle trend voorwaarde

Answer 23

Veel verschillende mogelijk strategieën -Gouden standaard: Gerandomiseerd experiment (RCT) -Zilveren standaard: Quasi-experimenteel onderzoek > Evaluaties van schokken of discontinuiteiten in beleid (exogene variatie) - verhoging eigen risico, - verkleinen basispakket etc.

Answer 24

causale verbanden: actie A veroorzaakt effect B

Answer 25

Actie a hangt samen met effect B (meeste regressies meten correlaties van variabele)

Answer 26

-problemen met randomisatie problemen met vergelijkbaarheid tussen twee groepen - oplossingen: probleem is groter bij kleine aantallen --> maak de groepgroottes groter / corrigeer met regressietechnieken voor observeerbare verschillen tussen groepen / gebruik difference - in -differences technieken. -

Answer 27

Er is een interactie tussen verschillende variabele (in regressie analyse is dit zichtbaar door * teken. bV: beta4 * lft * SES.

Answer 28

Meten hoe de werkelijke zorgkosten zijn, en hoeveel dat verschilt met de geschatte waarde. = residu R2 vaak gebruikt, maar: is niet de beste maat om de verevening te evalueren. want: niet elk individu kan je vooraf inschatten of iemand vooraf winstgevend/verlies is.

Answer 29

Sd^2 = variantie x Ydakje = gemm steekproef Yi = GKS = gemm kwadraatsom = Variantiey

Answer 30

m = aantal waarnemingen per subgroep a = aantal groepen n = aantal individuele observaties Sigma = standaardafwijking populatie Sigma kwadraat = variantie populatie S = standaardafwijking steekproef S^2 = variantie steekproef. Lu = populatie gemiddelde

Answer 31

Testen of variantie gelijk is: H0 = sigma2 1 = sigma2 2 = ect = 0 Ha= sigma 2, 1 is niet gelijk aan sigma 2, 2 = niet gelijk aan 0. Testen of de gemm in groepen gelijk zijn: (ofwel: of er significante verschillen zijn ja/nee). H0 = lu1 = lu2 = lu3 = 0 Ha = lu1 is niet gelijk aan lu2 is niet gelijk aan Lu3 is niet gelijk aan 0.

Answer 32

= Toets voor gelijkheid van varianties

Answer 33

als je ......, dan is de kans (of de odds) op ..... gemiddeld (odds ratio invullen) x groter ten opzichte van iemand (referentiekader invullen). C.p.

Answer 34

- F = GKS(tussen) / GKS(binnen) = tussenvariantie / binnenvariantie (binnenvariantie is altijd zuiver, tussenvariantie is alleen zuiver als de populatie gemm gelijk zijn) - F is altijd groter als 0 - F wordt groter als de gemiddelden van groepen verder uiteen liggen - Meer spreiding binnen groepen --> De F-waarde neemt af / is relatief klein. De P waarde is relatief groot. - Als je weinig spreiding hebt binnen groepen, dan is je F waarde relatief groot, P relatief klein --> grote kans op verwerpen van je 0 hypothese en het vinden van significante verschillen. - Bij een groot aantal waarnemingen, is de F-waarde groter, de p-waarde kleiner. De kans op het vinden van significante verschillen tussen de groepen wordt groter.

Answer 35

Hoofd-effecten m.b.v. F(rij) en F(kolom): - Er zijn wel/geen significante verschillen in gezondheidsverbetering tussen de behandelingen - Er zijn wel/geen significante verschillen in gezondheidsverbetering tussen mannen en vrouwen Interactie-effect m.b.v. F(interactie) - Het verschil in gezondheidsverbetering tussen behandelingen hangt wel/niet significant af van geslacht OF - Het verschil in gezondheidsverbetering tussen mannen en vrouwen hangt wel/niet significant af van de behandeling Hoe zie je dat er een interactie effect is? De lijnen lopen niet helemaal parallel.

Answer 36

- Toets voor gelijkheid van varianties: Hmax-toets - Toets voor statistisch significante verschillen tussen groepen: F-toets - Toets voor onderlinge vergelijking van gemiddelden: Tukey’s HSD

Answer 37

Onderzoeken van verband tussen Y en meerdere onafhankelijke variabelen (X1, ..., Xp). - Populatie: Y = b0 + b1*X1 + b2*X2 + …,…,… + bp*Xp + ε (formule 19) - Steekproef: Ŷ = b0 + b1*X1 + b2*X2 + …,…,… + bp*Xp (formule 20) Met b0, b1, …, bp de schattingen in de steekproef van de populatieparameters b0, b1, …, bp - We bekijken het verband tussen Y en X1,…, Xp gezamenlijk om tot betere schatters te komen; afzonderlijke verbanden kunnen misleidend zijn. Het meervoudige regressie-model corrigeert voor de invloed van andere variabelen. Dit is cruciaal! - Interpretatie van een parameter (bj): de partiële invloed van Xj op Y, gecorrigeerd voor invloed van de andere X-variabelen

Answer 38

- De kleinste kwadraten methode: zoek zodanige waarden van b0, b1, …, bp dat KS(residu) geminimaliseerd wordt: KS(residu) = - De schatters b0, b1, …, bp hebben mooie eigenschappen: o Ze zijn ‘zuiver’ (geven geen systematische afwijkingen) o Ze hebben van alle zuivere schatters de kleinste variantie (zijn het meest nauwkeurig)

Answer 39

- De kleinste kwadraten methode: zoek zodanige waarden van b0, b1, …, bp dat KS(residu) geminimaliseerd wordt: KS(residu) = - De schatters b0, b1, …, bp hebben mooie eigenschappen: o Ze zijn ‘zuiver’ (geven geen systematische afwijkingen) o Ze hebben van alle zuivere schatters de kleinste variantie (zijn het meest nauwkeurig)

Answer 40

Rijeffecten(𝑌.,k -𝑌.,.) - Yk is het gemm van de rij , Y is overall gemiddelde Kolomeffecten (𝑌j,. - 𝑌.,.) - Yj is gemm van de kolom, Y is overall gemm ̅̅̅̅ Interactie-effecten (𝑌j,k - 𝑌j,. - 𝑌.,k + 𝑌.,.) Deze zijn ook wel in de formule zichtbaar, maar dan zonder in t kwadraat te doen.

Answer 41

1: LR-toets voor het gehele model 2: Pseudo R2 (komt altijd tussen 0 en 1 uit) 3: Percentage 'correcte' voorspellingen in steekproef (gebruik je niet vaak).