Lecture 4 Flashcards
Vad är skillnaden mellan SE och SD?
The standard deviation (SD) measures the amount of variability, or dispersion, for a subject set of data from the mean, while the standard error of the mean (SEM) measures how far the sample mean of the data is likely to be from the true population mean. The SEM is always smaller than the SD.
Standard deviation (SD) is used to figure out how “spread out” a data set is. Standard error (SE) or Standard Error of the Mean (SEM) is used to estimate a population’s mean.
Vad är implikationen av att man har i.i.d observationer?
hur skriver man det i termer av kovarians?
Cov(ua, ub) = 0
det finns inget samband i feltermerna mellan individer. Det finns alltså ingen information hos en person om feltermen hos en annan.
Det finns ingen information om en person givet en annan person! Testresultat från en student gör inte att vi kan veta vad en annan student har för resultat. Alltså, om det t.ex har varit lite varmare i klassrummet där behandlingsgruppen satt, så vet vi att alla deras resultat är tiltade åt ett håll i förhållande till kontrollgruppen.
Detta överträds ofta då experiment utförs och inte försökspersoner randomiseras,
Städer/samhällen. Alla personerna i den staden utsätts då för samma exogena chocker. Deras u kommer vara korrelerade.
Det är alltså ett problem när man inte har randomisering in till grupperna, man studerar en stad mot en annan stad osv, ett klassrum mot ett annat.
Vad menas med homoskedacity?
Vad är algebraisk definition?
variansen i residualen är INTE en funktion av X.
Var(ui|Xi) = σu^2
Var är formeln för variansen i β1^|Χ?
Vad är implikationen av formeln, hur ändras variansen/precisionen i β1?
σ^2β1 = σ2u/(σ2X * n)
Variansen ökar (precisionen minskar) med storleken på bruset (σ2u)
Variansen minskar (precisionen ökar) ju högre variation i (alla, om multipel) X Variansen minskar (precisionen ökar) då sample storleken ökar.
obs, när precisionen ökar minskar SE i β1.
Man kan illustrerade det med att det är lättare att skjuta med ett gevär med lång pipa.
Det är svårare att rita en bra linje om det är liten spridning än om det är stor spridning.
(Restriktion of range) Risken ökar att vi gör typ-2 fel.
Hur minskar man variansen i β givet X och får bättre precision.
Man får se till att ha en mindre homogen population! Då är variansen i (alla) X större.
Vad händer med variansen för β1^om korrelationen mellan de olika X variablerna i en multipel regression är liten?
Vi får ett mer precist estimat av β1.
Om de både variablerna hade rört sig tillsammans är det svårt att avgöra hur de egentligen påverkar Y, deras självständiga effekt blir svår att bedöma.
Vilken effekt har kontrollvariabel på variansen i β1?
σ^2β1 = σ2u/(σ2X * n)
När man stoppar in fler kontrollvariabler kommer σ^2u att minska vilket minskar variansen i b1.
Har man inte randomiserade grupper så kan man också minska variansen i σ^2x när man stoppar in kontrollvariabler då de är korrelerade med X1. Detta minskar alltså också nämnaren.
Man vet alltså inte åt vilket effekt man får på β1.
Det är en trade off mellan effektivitet och unbiasness.
För att ha unbiasness vill man ha X variabler som korrelerar med X1 och Y, men det minskar precisionen. Precisionen får stryka på foten då unbiasness är viktigare.
När korrelationen mellan X1 och X2 ökar, så minskar …………. β1
Ge ett verkligt exempel
Precisionen i β1 då variansen i β1 ökar.
I traditionella länder där kön och yrkesval hänger ihop, är det svårt att skilja effekten av yrkesval på lön då man kontrollerar för kön.
Detta då kön och yrkesval är korrelerat, vilket ökar variansen i β1 och tillika minskar precisionen i β1.
Det är dock bra att inkludera det pga OVB, men det blir ett brusigare mått.
Vad är och inte är konsekvensen av hetroskedacity?
Vi har INTE mer bias för att vi har hetro
Vi får ett OLS estimat som inte är on point! VI har inte BLUE(bästa linjära unbiast estimaten).
Våra SE är ogiltiga.
Vi avfärdar nollhypoteer för ofta.
Vad kan man göra för att studera om man har hetro eller homoskedacity?
- Plotta datan och se hur den ser ut
2. Köra White test eller Breusch test.
Hur löser man problemet med homoskedacity?
Man räknar nya SE.
Antingen Robust White standard error
Eller
Weighted least square (WLS)
Vad gör robust standard error?
Här viktas de stora avvikelserna från linjen mer än små avvikelser.
Hur räknar man Weighted least square?
För att räkna det här måste man hur variansen i feltermen (u) ser ut.
Här vill man förlita sig på de estimaten som innehåller mer information. Man tittarn på de mindre feltermerna och ger de mer vikt.
Man minimerar alltså inte det kvadrerade avståndet här.
De residualer får alltså mindre vikt.
Man gör en OLS på de viktade residualerna.
OBS man måste alltså veta strukturen i feltermerna för att göra det här. Vilket man sällan vet.
När känner man till strukturen i feltermen u och kan räkna weighted least square?
Vid omröstningar.
Här vet man inte hur individer ska rösta, men man vet hur man generellt röstar i en kommun. Man har alltså genomsnittliga X och genomsnittliga Y för varje kommun. Genom det får man de genomsnittliga residualerna.
Man får då en uppfattning om hur pålitlig varje kommun är.
Större kommuner med fler personer = större precision. Man har då mindre varians i u termen för den kommunen. Detta då variansen i u delas med antalet observationer.
Hänger inte riktigt med, men typ.
Vad kan vi göra om vi inte har helt I.I.D? Vad innebär det?
Det innebär att individernas residualer är korrelerade med varandras då de kommer från samma ställe. Samma mako-chocker.
Vi kan räknad klustrade SE.