Begreber Flashcards
Kausal inferens
Det er studiet af kontrafaktiske udfald: vi vil gerne sige noget om de udfald, der VILLE være sket, hvis tingene var gået anderledes
Kausal effekt
Forskellen mellem en enheds potentielle outcome, hvis vedkommende er treatet, og det potentielle outcome, hvis vedkommende er untreated.
Potentielle outcomes
Hver enhed har to potentielle udfald på den variabel vi kigger på, alt afhængig af, om man er blevet treated eller ej
Selektionsbias
Forskelle i gennemsnittet på Y mellem treatment- og kontrolgruppen selv HVIS ingen var blevet treatet - dvs forskelle i udgangspunktet.
Forskelle mellem treatment og kontrolgruppen i fraværet af treatment
Colliding variabel
En tredjevariabel (Z) der er påvirket af begge vores variable (både den uafhængige og den afhængige).
IKKE kontroller –> post treatment bias
Confounding
En tredjevariabel (Z) der påvirker begge dine variable (både den uafhængige og den afhængige)
KONTROLLER –> minimerer selektionsbias
Statistisk inferens
Hvor sikre er vi på de estimater vi får ud?
Unbiased estimator
Gennemsnitligt rammer vi rigtigt: hvis vi gentager randomiseringen/trækker en ny stikprøve mange gange, så rammer vi gennemsnitligt rigtigt
Konsistent estimator
Når antal observationer går mod uendelig, skal forskellen mellem dit estimat og den sande værdi gå mod 0.
Præcis/efficient estimator
Ens estimat i en given stikprøve skal være tæt på den sande værdi –> kan du sige noget om ved at se på standardfejlen
Signifikansniveau
Sandsynligheden for at undgå type 1 fejl: dvs. tage fejl og sige, at der er en effekt, når der ikke er det
Den tærskel vi har sat for, hvornår vi vil afvise vores nulhypotese –> hvis vores p-værdi er ligmed eller mindre end det signifikansniveau, så afviser vi vores nulhypotese.
P-værdi
Sandsynligheden for at observere noget mere ekstremt end det vi har observeret, hvis vores nulhypotese var sand.
Konfidensinterval
Et interval der 95% af gangene vi trækker en random sample vil indeholde vores koefficient.
Standardfejl
Standardafvigelsen af stikprøvefordelingen for estimatoren → dvs. variansen af vores estimator
Sagt på en anden måde: Usikkerheden ved estimatoren: hvis vi skulle lave eksperimentet/stikprøven igen og igen, hvad ville så være variationen i de estimater vi ville få?
Type 1 fejl
Falsk positiv: Man siger der er en effekt, når der ikke er det
–> stærkt relateret til signifikansniveau
Type 2 fejl
Falsk negativ: Man undgår at sige at der er en effekt, selvom der faktisk er det
–> stærkt relateret til power
Type M fejl
“Magnitude”-fejl
- Risikoen for at vores effekt er overestimeret
Type S fejl
“Sign”-fejl
- Risikoen for at vores effekt går i den modsatte retning
Statistisk power
Hvad er sandsynligheden for at vi fanger den effekt, der eksisterer ude i virkeligheden?
Hvad afhænger statistisk power af?
- Effektstørrelser
- Signifikansniveau
- Stikprøvestørrelse
- Varians i data
Typer af statistisk inferens
Exact inferens: stærke antagelser om fordelingen af estimater
Asymptotisk inferens: bygger på CLT: når N går mod uendelig bliver vores estimater normalfordelt
Randomiseringsinferens: ser på den præcise fordeling af estimatet ved at gentage randomiseringen igen
Ekstern validitet vs intern validitet
Ekstern validitet handler originalt om, hvilke population, kontekster og variable ens resultater kan generaliseres til.
Intern validitet, der handler om hvorvidt en kausale effekt er troværdigt estimeret eller ej.
ATE
Average treatment effekt for alle enheder
Den gennemsnitlige potentielle outcomes for treatmentgruppen minus de gennemsnitlige potentielle outcomes for kontrolgruppen
ATT
Average treatment effekt for de treated
CACE
Kausal effekt for dem, der complier med treatment-status
Den kan man få ved at lave IV-estimation i sit eksperiment fx
LATE
Lokal kausal effekt for nogle bestemte enheder (fx dem omkring tærskel)
Fx i RDD-designs
Hvornår vil ATE og ATT stemme overens?
To tilfælde:
- Hvis treatment-effekten er den samme for alle individer
- Hvis enheder er tilfældigt tildelt treatment: randomiseret eksperiment.
Hvad er fejlledet egentlig?
Alt det vi ikke har med i vores model, som også påvirker Y.
Antagelse mange steder: X er ukorreleret med fejlledet —> der må således ikke være noget, der både påvirker X og Y, som vi ikke har kontrol for.