6.SE Flashcards
Vad är standard error?
Estimated standard diviation of BetaHATT.
Vad är en tumregel när man tittar på tabellen med estimar och SE och ska avgöra om något är signifikant eller inte då vi ej ser T-värden eller signifikansstjärnor?
Om absolut värdet av estimatet är mer än 2x SE är det statistiskt signifikant som en tumregel.
Allrså 2 = 1.96 typ….
Om vi har random sample kommer vår data att vara….
indipenden from each other och vi har alltså ingen korrelation mellan individer.
Vad är homo- och hetroskedasticity och vilka SE ska man använda?
Homo = equal variance Hetro = unequal variance
Robusta SE tillåter hereoskedasticitet. Men Per och Angrist menar att man provar med båda och kör den som ger högst SE för att vara på den säkra sidan, om man skulle ha asymptotic bias i sina SE.
Detta är dock egentligen inget problem och så viktigt, så Per menar att man kan nöja sig med att bara köra Robust.
Hur ska man tänka med SE om datan inte är oberoende i tidsrymden, dvs vid tidsseriedata.
Påverkas våra point estimates?
Hur löser man detta?
Observationerna kommer vara korrelerade över tid så SE kommer vara biast, men vi får korrekta point estimat.
Dock antar man att korrelationen minskar ju längre det är mellan observationerna.
Man kan använda en Hac- estimator för att lösa det. Mn det gäller att man har mycket tidsperioder.
Hur ska man tänka med SE om datan inte är oberoende gällande grupper?
Påverkas våra point estimates?
Hur löser man det och vad krävs?
Observationerna inom grupperna kommer vara korrelerade och vi har inte random sample, så SE kommer vara biast, men vi får korrekta point estimate.
Biaset i SE bestäms av hur många kluster man har.
Man använder klustrade robusta standard errors som tillåter korrelation inom klustren men inte mellan.
Man måste dock ha många kluster (se artikel, Miller) för att det ska fungera. SE DEN HÄR ARTIKELN: den beskriver mer i detalj om alla antaganden.
Vad kallas och betyder det om man har korellation mellan kluser?
Spatial korrelation. Detta är alltså spill over korrelation mellan kluster. T.ex att kommuner som ligger nära varandra kommer ha viss korrelation.
Man antar, precis som vid tidskorrelation, att det är mindre korrelation ju längre ifrån varandra klustrerna är.
Hur ska man tänka på kombinationen av tids- spatial korrelation och kluster?
Har man alla de problemen kan man inte göra något åt det.
In practice data can have cluster, spatial and time series aspects, leading to hybrids of cluster-robust, spatial-HAC and time-series HAC estimators.To date empirical practice has not commonly modeled these combined types of error correlations
Om vi har equationen:
Y_ics = B0 + B1T_cs + u_ics
Där C är klass, i är individ och s är skola och T är behandlingsvariabeln. Hur ska vi tänka med SE?
Vilka fixerade effekter ska man lägga in?
Eftersom vi har behandlingen på skol och klassnivå men inte individ kommer individer inom en skola och klassrum vara korrelerade.
Man har ju samma lärare osv i ett klassrum.
VI klustrar därför på den lägsta möjliga nivån, klassrum.
Vi kan också kollapsa på klassrumsnivån och väga med antal observationer per cell sen köra WLS.
Det krävs att de vägs för att man ska få samma beta som kluster och OLS.
Include school fixed effects otherwise OVB. Thus treatment T is randomly assigned conditional on school fixed effects: E[u|T, αs]= E[u|αs].
The school fixed effects also mitigates the clustering problem at the school level.
However, the school fixed effects does not take into account the within class correlation component. As a result, the heteroscedasticity-robust standard errors are not valid due to within classroom correlation. Därför klustrar vi eller kollapsar på gruppnivå som ovan nämnt.
Hur påverkar random effects våra regressioner?
Hur löser man det?
Om de är random är de alltså inte de okorrelerade med regressionen. Det betyder att det inte påverkar estimaten eftersom de är jämnt spridda. Men de påverkar dock våra standard errors.
Man får alltså rätt Beta men fel SE. Påverkar bara SE.
Man kan kollapsa på den lämpliga nivån. Då löser man korrelationen inom gruppen (som alltså är random i regressionen på behandlingsnivån).
Vad är skillnaden med att köra en OLS med klustrade SE eller köra en korrekt WLS på kollapsad data?
Man får samma point estimate. Dock kommer de homoskedastiska SE i WLS antagligen vara mindre än de klustrade felen i OLSn för att man har löst en del genom kollapsa och klustra på det sättet.
Dock har man antagligen fortfarande problem med hetroskedasticitet och bör därför köra hetro error i sin WLS.
Med sin vilktade WLS kan det fortfarande vara så att det finns problem med klustring på en nivå ovanför den man kollapsar på, då får man klustra sin WLS på den nivån!
Vad är ett bra sätt att kolla i fall sina RCT estimat är robusta?
Man kör både individuell OLS och en grupperad OLS och en viktad WLS. Den grupperade OLSn ska ge ganska lika resultat som de andra.
När kan man inte kollapsa sin data?
om man förändrar variationen i behandlingsvariabeln!
Vilka typiska SE problem har man i DiD?
Hur löser man det?
Korrelation inom grupper och tidsseriekorrelation.
Kollapsa datan på gruppnivån för att lösa repeterade observationer inom klustrerna och sen löser man tidskorrelationen(serialkorrelation) om man kan.
Per skriver:
The solution to the two clustering problems is to cluster at the regional level N. However, need to have large number of regions N.
Another solution is first to collapse the data, to solve the correlation problem within groups (Moulton) and then solve the serial correlation problem by clustering the collapsed data at the regional level.
Vilka två teoretiska sätt finns det att tänka på SE
Samplingbased inference:
Textbook sättet. Som man tänker i denna kurs.
Designbased inference:
Ett nytt sätt. Detta är inte vad man fokuserar på i denna kurs.