L8 Inferens og regression Flashcards
Hvornår bruger vi F-test
Ved test af nulhypotese med flere hældningskoefficienter (typisk dummyvariable eller kategoriske variable).
Eks. test af alle fem uddannelseskategorier effekt på afhængig variabel.
Eks. tjek om randomisering i balancetabel
Hvad betyder en standardfejl for hældningskoefficienten beta1?
Typisk afvigelse fra den sande parameter (altså hældningen i populationen).
Hvad påvirker standardfejlen for beta1?
Variationen omkring regressionslinjen (SSR/(n-k))^2 eller RMSE^2 og variationen i x.
Residualvariationen/var(x) = var(beta1) RMSE/kvadratrod(var(x) = SE(beta1)
Dermed indirekte stikprøvestørrelsen, som giver både mindre RMSE og SE beta1.
Hvornår biler SE(beta1) hhv. større og mindre?
Alt andet lige:
Større n –> mindre SE
Større var(x) –> mindre SE
Større residualer –> større SE (mindre præcist estimat)
Så når RMSE er stor, bliver SE(beta1) også relativt stor.
Hvad har størrelsen af SE(Beta1) betydning for type ll fejl?
Når SE(beta1) er lille:
- typisk ved stort n, så har vi masser af power
- Stikprøvemålsfordelingen klapper om den sande parameterværdi
- vi begår FÅ type ll fejl (vi forkaster nærmest alle forkerte nulhypoteser)
Hvad er ulempen ved robuste standardfejl?
De robuste standardfejl er dog typisk lidt større, derfor er det værd at undersøge om antagelsen om homoskedasticitet holder.
Hvad er sammenhængen mellem SE og multikollinearitet?
For MLR vil variansen var(x) afhænge af kontrolvariable. Hvis kontrolvariablene “renser” meget variation, vil var(x) blive mindre og SE større
Kaldes for niveauet af multikollinearitet.
Derfor giver det mening at se på hvor stærk korrelationen mellem x og z er
OBS: medmindre graden af korrelation mellem Z og Y er større!
Hvad indebærer en statistisk hypotesetest i en regressionsanalyse?
Tester nulhypotesen ved t-test: sammenhængen er 0
Den forkastes/undlades at forkastes på baggrund af. p-værdien, der viser, hvor sandsynligt det er at få hældningskoefficienten givet at H0 er sand.
Hvad udtrykker p-værdien for hældningskoefficienten?
Sandsynligheden for at trække/observere en stikprøve (eller noget mere ekstremt), givet at nulhypotesen er sand.
Hvad er forskellen på homo- og hetereoskedasticitet?
Dette spørgsmål relaterer sig til fordelingen af residualer langs regressionlinjen.
Er variansen ensartet: homoskedasticitet
Er der et mønster (trompet eks.): heteroskedasticitet.
Særligt problematisk ift. inferens. SE(beta1-hat) bliver biased.
Hvad vil det sige, at en observation er indflydelsesrig?
Leverage * residual = indflydelsesrig outlier
Sjældnere et problem i store stikprøver - vær særlig opmærksom på høj leverage (afstand fra gennemsnittet) i små stikprøver
Hvilke egenskaber gælder for Beta1-hat?
Den er unbiased/middelret under følgende antagelser:
- MLR antagelser
E(beta1-hat)=beta1
Hvilke typer bias er der i regression?
Stikprøvebias (sampling bias): en skæv stikprøve, tager vi højde for via. inferentiel stat
Selektionsbias: forskningsdesign!
Har beta1-hat en stikprøvemålsfordeling?
Ja, hvis i.i.d og n>50 (OBS!).
Hvor den sande parameter er gennemsnit og SE er SE(beta1-hat)
Hvad angiver et konfidensinterval for beta1-hat?
Et mål for usikkerheden i stikprøven. Med 95% konfidens indeholder intervallet den sande parameter.
Indeholder den 0, er hældningskoefficienten insignifikant.