L3 Grundprincipper for inferens Flashcards by Marie Sofie Spanggaard Jespersen

Hvad er en standardfejl?

Std. error er udtryk for den typiske afvigelse i et estimats stikprøvemålsfordeling.

Ved unbiased og konsistente estimatorer: den typiske afvigelse fra det sande populationsværdi eller den typiske afstand mellem estimatet og den sande populationsværdi (pga. LLN og CLT)

hvor langt ligger vi fra den ‘sande’ estimator
hvor meget vil estimatoren variere på tværs af stikprøver

Typisk mindre end population og stikprøve standardafvigelse (gennemsnit af gennemsnit = ingen outliers).

How well did you know this?

Not at all

Perfectly

Hvad er en standardafvigelse?

Et mål for spredningen i en variable eller “den typiske afstand til gennemsnittet”.

Std. afvigelsen er kvadratroden af variansen (2. moment).

Måles i samme enhed som y

I stikprøve: s
I population: sigma

How well did you know this?

Not at all

Perfectly

Hvad er en stikprøvemålsfordeling?

Et udtryk for, hvordan et estimatet varierer på tværs af stikprøver (gennemsnittet af gennemsnit-tene). Hvordan vil fordelingen af estimatet se ud for et uendeligt antal stikprøver? (tankeeksperi-ment)

n –> uendelig approximativ normalfordelt (standardisering)
n > 30 god approximation

Hvis estimatoren er unbiased og konsistent, da vil gennemsnittet af estimatoren være den sande estimator (n –> uendelig).

Har en standardafvigelse = standardfejl.

How well did you know this?

Not at all

Perfectly

Hvad er forskellen på stikprøve standardafvigelsen og populations standardafvigelsen?

Sigma og ‘s’. Hvor sigma er den ‘sande’, men ukendte std. afvigelse og S estimatet i stikprøven af std. afvigelsen.

How well did you know this?

Not at all

Perfectly

Hvad bruges standard fejlen til?

Udregning af p-værdi og konfidensintervaller. Evt. formler.

How well did you know this?

Not at all

Perfectly

Hvad er en t-værdi?

Antal standardfejl, som hældningskoefficenten eller forskel i gennemsnit ligger fra 0 i t-fordelingen. (ved nulhypotesen)

How well did you know this?

Not at all

Perfectly

Hvad er forskellen på en standardfejl og standardafvigelse?

Standardfejlen er stikprøveMÅLsfordelings SD, mens standardafvigelse kan relatere sig til stikprøvefordelingen eller populationen.

How well did you know this?

Not at all

Perfectly

Hvorfor er CLT genial?

Når forudsætningerne for CLT er opfyldte (n>30), da er stikprøvemålsfordelingen normalfordelt (juhu ift. inferens).

How well did you know this?

Not at all

Perfectly

Hvad siger de store tals lov?

For n –> uendelig

Stikprøvefordeling og ystreg –> populationsfordeling og my

How well did you know this?

Not at all

Perfectly

Hvad kan variere størrelsen på standardfejlen?

Størrelsen for stikprøve og standardafvigelsen i stikprøven

FORMEL: SDstikprøve / kvrod N

How well did you know this?

Not at all

Perfectly

Hvad er en t-test?

Hypotesetest m. brug af t-fordeling (fortrukne i politologi, da vi ikke kender fordelingen i population).

Nulhypotese: ingen forskel m. grupper + estimator = 0

Brug af t-score –> p-værdi

How well did you know this?

Not at all

Perfectly

Hvad er forskellen mellem t-værdi og z-værdi?

Begge bruges til at udregne p-værdier (fortæller hvor mange std. fejl dit estimat er fra nulhypotesen).

P-værdien for t-værdier vil typisk være større (mere sandsynlighed i halen). Men for stikprøve –> uendelig, så vil de give samme p-værdi.

How well did you know this?

Not at all

Perfectly

Hvad er normalfordeling vs. std. normalfordeling?

De er begge klokkeformet!

Normalfordeling

gennemsnit: ystreg
std. = s
skævhed = 0 (symmetrisk)
kurtosis = 3

Std. normalfordeling

gennemsnit: 0
std: 1

Enhver normalfordelingen kan standardiseres til std. normalfordelingen:
(yi-ystreg)/SD

Std. normalfordelingen har sin egen sandsynlighedsfordeling: z-fordeling (med kendte sandsynligheder).

How well did you know this?

Not at all

Perfectly

T-fordelingen, hvad er det for noget?

Har tykkere “haler” end z-fordelingen - tager højde for usikkerhed ved mindre stikprøver.

Afhænger af antallet af frihedsgarder (n-1) –> jo flere frihedsgrader, jo fladere haler

Mere fleksibel fordeling end z-fordeling

How well did you know this?

Not at all

Perfectly

Hvad er en stokastisk variabel?

Stokastisk betyder tilfældighed. En stokastisk variabel bestemmes af en grad tilfældighed, men du kan stadig beregne sandsynligheder.

1) tilfældighed i udvælgelse
2) tilfældighed i svar (reliabilitet)

Det giver usikkerhed. Inferentiel statistik giver et mål for den usikkerhed. Gælder altid, også selvom vi trækker fra populationen.

How well did you know this?

Not at all

Perfectly

Hvad er inferens?

At gå fra noget observerbart til noget uobserverbart (stikprøve til population)

Generaliserbarhed

Estimater svinger fra stikprøve til stikprøve og er derfor ikke den sande paramenter. Man kan tage fejl

Deskriptiv statistik

Univariat

momenter
percentiler / kvartiler
fordeling

Bivariat
- betinget gennemsnit E(Y l X=0)

Momenter <3

moment: gennemsnit (summeret obs / antallet af obs)
moment: varians (kvadreret difference mellem obs og gennemsnit) –> spredning
- - i stikprøven tages der højde for frihedsgrader (n-1)
moment: skævhed (0=symmetrisk ellers. venstre-/højreskæv)
moment: kurtosis - toppunkt, spids/flad (3=normal. Jo større kurtosis, desto højere toppunkt)

Hvad er et mål for usikkerhed

Inferentiel statistik (mere end blot deskriptiv). Estimere usikkerheden i en given stikprøve.

Hvad er et densityplot?

Kondenseret data over stikprøvefordelinger. Arealet under kurven er 1.
Nemt at aflæse, men mindre præcist

Sandsynlighedsfordeling for kontinuerte variable

Hvad er forskellen på deskriptiv og kausal inferens

Deskriptiv inferens: beskriver en population fra en stikprøve

Kausal inferens: en effektstørrelse i population fra en stikprøve.

Cohens D

Forskel (eks. i gennemsnit eller effekt) / SD = Cohens D

STandardiseret mål for effektstørrelse

Lille: 0,2
Medium: 0,5
Stor: 0,8

Kan ikke bruges på nominal med 3+ svarkategorier eller dikotome

Den empiriske regel (z-score)

+/- 1 SD: 68 % sandsynlighed (16 % halesandsynlighed)

+/- 1,96 SD: 95 % sandsynlighed (2,5 % halesandsynlighed)

+/- 3 SD: nærmest alt

Hvad er forskellen på kontinuert og diskret variabel?

Ikke-tællelig udfaldsrum vs. tællelig.

Hvorfor er std. normalfordelingen interessant?

Pga. CLT kan vi standardisere enhver stikprøvemålsfordeling og dermed lave inferens! Når vi standardiserer stikprøvemålsfordelingen, så får vi p-værdier for estimatet givet en H0.

Hvor ofte vil man trække en stikprøve, som ligger i halen, selvom H0 er sand? (type l fejl!)

Afhænger af signifikansniveauet. Typisk 5%

Hvordan estimeres standardfejlen?

Via standardafvigelsen i stikprøven. I regressionen bliver det residualerne i stikprøven. Variansen er de kvadrede residualer (MÅSKE?!)

Hvorfor bliver SE(beta1/ystreg) mindre af større n?

Hvis n=30, da vægter outliers 1/30, mens ved n=1000, da vægter de 1/1000; og bliver altså ikke så betydningsfulde ift. inferens og stikprøvemålsfordelingen.