Inferens i teori og praksis Flashcards
Hvad handler statistisk inferens om?
Det handler om, hvor sikre vi kan vide os på de estimater vi får ud af fx regressioner: har vi ramt rigtigt?
Hvorfor kan der være fejl i vores estimationer selv ved randomiserede eksperimenter?
Der vil altid være risiko for tilfældige fejl - fx at man tilfældigt kommer til at tildele treatment til nogle bestemte personer.
Det afhænger af randomiseringen err lykkedes (om stikprøvestørrelsen har været stor nok)
Tre typiske estimations-problemer
- At stikprøven ikke er repræsentativ for populationen
- At randomiseringen ikke lykkes
- Naturlig fordeling i populationsdata
Tre krav til vores estimatorer
- Unbiased
- Konsistent
- Efficiens/præcision (varians)
Hvad vil det sige, at en estimator er unbiased?
Grundlæggende: Gennemsnitligt for vi ret - hvis man gør noget nok gange (fx trækker en stikprøve eller randomiserer), så rammer man rigtigt, selvom der er fejl på tværs af enkelte stikprøver eller randomiseringer. Det vil udligne hinanden gennemsnitligt.
Hvad vil det sige, at en estimator er konsistent?
Forskellen mellem dit estimat og den sande værdi, skal nærme sig 0, når dine observationer går mod uendelig. Dvs. jo flere observationer, jo tættere kommer man på den sande effekt.
Hvad vil det sige, at en estimator er efficient/præcis?
Efficiens: Hvor langt væk er mit estimat fra den rigtige værdi i en given sammenhæng (fx en given sample eller randomisering)?
Vi vil have efficiensen til at være så høj som muligt, sådan at vore estimat er tæt på den rigtige værdi. Det måler vi ved at kigge på variansen af estimatoren: standardfejlen.
Hvad er bias/varians trade-off’et?
Man kan estimere på mange måder, og der er et trade-off mellem bias og varians alt efter hvad man vælger.
Hvad påvirker variansen i et estimat?
Variansen i vores estimat siger noget om, hvor tæt vores estimater er på den rigtige værd (altså præcisionen af estimaterne)
Variansen i estimatet er defineret af to ting:
- Variansen i grupperne ift. outcome: jo mindre variation (mere homogene grupper) → jo mere præcision
- Antallet af observationer: jo flere observationer → jo mindre varians → jo mere præcision
Hvad er signifikansniveau?
Signifikansniveau: Sandsynligheden for at undgå type 1 fejl = signifikansniveauet.
Dvs. hvis vores signifikansniveau er er 0,05, så er sandsynligheden for at lave en type 1 fejl 5%. Dvs. vi tager fejl i 5% af tilfældene.
P-værdi
P-værdi: Sandsynligheden for at observere noget mere ekstremt end det vi har observeret, hvis vores nulhypotese var sand.
Hvor sandsynligt er det at se vores estimat (fx 2.5), hvis der egentlig ikke var nogen effekt?
Konfidensinterval
Et interval der 95% af gangene vi trækker en random sample vil indeholde vores koefficient.
Hvis konfidensintervallet overlapper med 0, så vil P-værdien være insignifikant. Så de to ting hænger sammen.
Bredden af estimatet afhænger af mange ting, det vil blive smallere ved en stor stikprøve → så jo større stikprøve jo mere præcist et interval kan vi få.
Standardfejl
Standardfejl= Standardafvigelsen af stikprøvefordelingen for estimatoren → dvs. variansen af vores estimator
Standardfejlen er ikke standardfejlen for estimatet (effekten), men for selve estimatoren (måden vi gør det på).
Standardfejlen i OLS-estimatoren
Standardfejlen i OLS-estimatoren er kvadratroden af variansen i estimatoren.
Den her estimator antager homoskeda (at variansen i kontrol- og treatmentgruppen er den samme - at variansen er uafhængig af X). Dvs. at de to gruppers residualer udligner hinanden.
Hvorfor kan det forbedre ens estimater at inkludere kontrolvariable?
Det reducerer variansen i ens estimat, når man inddrager en kovariat, der er urelateret til X men som påvirker Y.
Det er godt at tage dem med, da det mindsker variansen i gruppernes residualer ift. Y, så det reducerer variansen (og standardfejlen), hvilket øger efficiensen af estimaterne.