Statistik 1b Flashcards
Ge ett exempel på inferens med 2 populationer (medelvärden)?
Man har tex en kontrollgrupp och en behandlingsgrupp där man kanske vill testa olika saker så som hur företaget presterar om man får frukost på jobbet. Höjer de antalet producerade enheter?
Olika typer av test för 2 populationsparametrar (3st):
- Skillnader mellan två populationsmedelvärden för oberoende stickprov:
- Populationsvarianserna kända
- Populationsvarianserna okända men kan inte antas vara lika
- Populationsvarianserna okända men antas vara lika - Skillnader mellan två populationsmedelvärden för beroende (relaterade) stickprov.
- Skillnader mellan två populationsproportioner för oberoende stickprov
Oberoende stickprov
Anses oberoende när processen för att skapa stickproven är helt olika. Ex när personer blir slumpmässigt utvalda att ingå i behandlingsgruppen eller inte.
Beroende stickprov
Anses beroende om det finns ”naturligt” sätt att kombinera datan. Ex testa personers reaktion mot en medicin genom att observera dem 2 gånger, med och utan behandling. Eller följa upp en diet, träningsprogram eller liknande. Behöver dock ej vara samma individ, kan vara matchande på annat sätt, ex syskonstudier eller jordbruket.
Hur tolkas K.I?
Fångar in osäkerheten i skattningen av populationsparametern givet stickprovet. I upprepade försök kommer 100(1-a)% av konfidensintervallen innefatta den sanna differensen av populationsparameterna.
Typ 1 fel:
När man förkastar H0 fastän H0 är sann. alfa anger hur stor chansen för typ 1 fel är.
Typ 2 fel:
när man inte förkastar H0 fastän HA är sann. Beta anger hur troligt det är.
Hypotestesternas 5 steg:
- Definiera nollhypotesen
- Definiera alternativhypotesen (den hypotes man vill pröva/testa).
- Definiera testfunktionen (en statistisk fördelning under antagandet att H0 är sant).
- Definiera regel när nollhypotesen förkastas; antingen p-värde eller kritiskt värde.
- Pröva om vår observerade testfunktion ligger i förkastelseregionen under antagandet att H0 är sann. Alternativt pröva om p-värdet är mindre än a.
Hur beräknas d-tak, vad innebär det?
d-tak används vid beroende stickprov där vi vill jämföra före och efter behandling. Det räknas ut såhär: ta varje par av observationer och subtrahera dem så att du får differensen dem emellan. Summera dessa differenser och dela på totala antalet observationer.
Exempel på när man vill jämföra populationsvarianser:
Tex hur aktier kan variera för att minimera risken eller tex hur idrottare varierar i sin prestation.
När använder vi chitvå respektive F-fördelning?
Chitvå när vi har tex en varians som vi vill hypotestesta eller göra KI för. F-fördelning när vi har kvoten mellan två varianser.
Numerisk variabel (2 sorter)
Mäter kvantitet. Finns kontinuerliga och diskreta. Kontinuerliga kan anta alla värden mellan ett intervall medan diskreta antar endast heltal.
Kategorisk variabel:
Mäter kvalitet. Finns ordinal och nominal. Ordinal innebär att man kan rangordna tex betyg, klädesstorlek etc. Nominala har ingen logisk sekvens, som ex kön, religion, politiska preferenser etc.
Goodness-of-fit test:
(anpassningstestet) ger svar på hur bra en statistisk modell passar till den observerade datan. Följer observationerna en förmodad fördelning? Man vill avgöra om fördelningen på en variabels data uppstått av slump eller följer systematik. Ex, för multinomiala experiment eller för att se om data är normalfördelad. (handlar om kategoriska data).
Test for Independence:
(homogenitetstestet) testar istället om variabler är oberoende eller beroende av varandra. Ex om män är mer benägna att rösta på Moderaterna eller om politiska preferenser är oberoende av kön.
Skillnad i goodness respektive independence:
Att goodness bara testar en stokastisk variabel och hur väl den stämmer överens med en förväntad fördelning medan independence kan analysera två variabler för att se om de är oberoende.
Beroende variabel
den variabel vi mäter utfallet/effekten för. Ex produktiviteten vid olika frukostalternativ på jobbet (när vi har fler än 2 medelvärden att studera).
Oberoende variabel
en eller flera variabler som mäter orsaken för effekten på den beroende variabeln. Mäts alltid i nominalskala.
Beskriv kort de fyra olika ANOVA-varianterna:
•Envägs ANOVA: endast en oberoende variabel.
•Tvåvägs ANOVA: två oberoende variabler. Kallas även faktor.
•Oberoende ANOVA: olika individer i olika nivåer (grupper) för de oberoende variablerna. Alltså ingen interaktion.
•Beroende ANOVA: när vi har samma individer i olika nivåer för de oberoende variablerna, alltså med interaktion.
?
3 antaganden för envägs-ANOVA
- Normalfördelade populationer.
- Populationsstandardavvikelserna är okända men antas vara lika.
- Stickproven är oberoende för varje population (olika individer).
Varför behöver vi använda oss av ANOVA? Varför inte fortsätta med t-test för alla kombinationer av stickprovsmedelvärden?
- Jo för att ju fler sådana test vi gör desto mer missvisande blir alfa, alltså risken för typ 1 fel. Vi får inflation i alfa. T-test är bara till för att testa en hypotes, inte hypoteser som säger att flera olika parametrar är lika/olika.
Höger eller vänster svans på ANOVA?
Tester görs alltid på höger svans eftersom testet bygger på att vi vill se om variationen mellan grupper är större än inom grupper. (“större än” indikerar på högersvansen)
Envägs-ANOVA: SST=?
Den totala variationen i datamaterialet. Här delas den in i SSTR (mellangruppsvariationen) och SSE (inomgruppsvariationen, dvs slumpfaktorer).
Är vi ens intresserade av SST?
Nej egentligen inte, totala variationen kan vara beroende av datamängd, därav intresserar vi oss för den genomsnittliga (dela med frihetsgrader).
När förkastar vi envägsANOVA-hypotsen?
När mellangruppsvariationen (MSTR) är signifikant större än inomgruppsvariationen (MSE) för då är variationen i behandlingsgruppen mycket större än inom, det måste därav finnas en systematisk skillnad (som ej beror på slump).
Detta är testfunktionen: MSTR/MSE
Grand mean
Medelvärdet för hela datamaterialet
Post-hoc tester, 2st:
Tester man utför efter att man observerat datan och sett att det finns skillnad hos medelvärdena. Vi har pratat om Fisher’s least significant difference (LSD) samt Tukey’s honestly significant.
Beskriv Fishers
Variant av t-test som liknar den med poolad varians men som ist använder MSE som uttrycker den poolade variansen för samtliga grupper i datan. Använder testet när man först har förkastat nollhypotesen och konstaterat att alla ej är lika.
Beskriv Tukeys HSD
statistiskt starkare och kontrollerar typ1 fel och alfa bättre då det blir svårare att förkasta nollhypotesen i och med q-fördelning (tjockare och flackare svans än t).
Två olika varianter av Tukeys
en formel för balanserad data där alla grupper har lika många observationer och en annan formel för obalanserad data där grupperna inte har lika många observationer (n).
Tvävägs-ANOVA:
Består av 2 oberoende variabler/faktorer där man har möjlighet att se den ena variabelns påverkan givet att den andra är kontrollerad (block). Kan också undersöka för interaktionseffekter av de två variablerna.
SST i tvävägs-ANOVA
SST=SSTR (SSA) + SSE (SSB OCH SSE). Så vi har SSA i kolumn, SSB i rad och SSE som är slumpen vi lägger till inom grupperna.
Två F-tester med tvåvägs ANOVA block:
•Testa för treatments effects: alltså att jämföra det kritiska värdet med F värdet för den observerade gruppen (treatments). Alltså så enkelt som att titta på kolumnerna, SSA och jämföra MSA/MSE (vårt testvärde) med kritiska värdet.
•Testa för block effects: jämför det kritiska värdet med det observerade F värdet för blocken. Om vi förkastar så innebär det att inte alla medelvärden för blockpopulationerna är lika. Alltså testa raderna, MSB/MSE och jämföra med dess kritiska värde.
Om vi kan förkasta båda så innebär det att både rad och kolumn-variablerna påverkar resultatet. Ex att både utbildning och bransch påverkar lönenivån.
Interaktionseffekter
om den beroende variabeln Y’s påverkan av faktor A beror på nivån av faktor B, så existerar det interaktionseffekter. Men om påverkan på Y av faktorn A är samma för alla nivåer på faktor B så finns ej interaktionseffekter mellan de oberoende variablerna.
Tvåvägs ANOVA med interaktionseffekter:
Vi testar nu om Y påverkas av A på olika sätt om B är på olika nivå. Detta kräver multipla observationer av A och B.
SST vid tvåvägs ANOVA med interaktionseffekter:
SST=SSA + SSB + SSAB + SSE. Tillkommer nu en rad förutom rad och kolumn i tabellen som heter interaktion.
Om vi förkastar H0 att inga interaktionseffekter finns, vad händer då med analysen?
Om vi kan konstatera att det finns interaktionseffekter så blir tolkningen av ”main effects”, alltså tolkningen av hur populationsmedelvärdena förhåller sig till varandra komplicerad. Vi bör därför bortse från den tolkningen om vi kan förkasta H0. regressionsanalys istället
Hur ser noll- och alternativhypotesen ut i ANOVA?
I noll skriver vi alltid att alla medelvärden är lika med varandra medan vi i alternativ skriver in att åtminstone något medelvärde skiljer sig.
Kovarians
mäter riktningen på ett linjärt beroende mellan två variabler
Korrelationskoefficienten
mäter både riktningen men också hur starkt ett linjärt beroende mellan två variabler är. Antar värden mellan -1 och 1.
Vad är alltid första steget när man ska titta på om två variabler har ett linjärt eller för den delen icke-linjärt samband?
- Att göra en scatterplot med de parvisa observationerna för att försöka se mönster och dessutom se ifall några ”brott” mot kraven för regressionsanalys görs.
3 begränsningar hos korrelationsanalys
- Korrelation mäter enbart linjära beroenden.
- Korrelation kan vara icke tillförlitligt om det finns outliers i datan.
- Även två starkt korrelerade variabler behöver ej vara kausala, dvs det kan finnas nonsenskorrelationer utan orsakssamband.
Berätta om de två variablerna i regressionsanalys
Responsvariabeln är den variabel som styrs av de andra variablerna, så kallade förklaringsvariabler.
Deterministiskt regressionssamband
om värdet på responsvariabeln är helt och hållet bestämd av värdet hos förklaringsvariabeln/variablerna så är sambandet perfekt/deterministiskt. Då är y-hatt detsamma som y.
Stokastiskt/slumpmässigt samband:
när vi finner samband som inte är exakt, dvs att analysen utelämnar vissa viktiga faktorer. Det är så det i princip alltid ser ut, sällan har två variabler ett perfekt samband.
I regressionsanalys inkluderar vi stokastisk felterm, för att visa att sambandet inte är perfekt.
Residualer
skillnaderna mellan predikterade värden, y-hatt, och våra observerade värden, y. e=y-yhatt. Variansen i denna apsilon avgör hur mycket observationerna avviker från vår passade modell.
OLS-metoden
OLS står för ordinary least squared, dvs minsta kvadratmetoden på svenska och är den metod vi använder för att skatta våra koefficienter 0 och 1. Detta ska ge den bästa prediktionen av y-hatt där residualerna är minimerade.
- Vi tar fram vår passade modell/linje med OLS.
Multipelregression
när det finns mer än en förklaringsvariabel i vår analys. Vi vill alltså försöka förbättra modellen genom att stoppa in fler variabler som kan förklara förändringar i y. När vi undersöker ena variabelns påverkan är det viktigt att hålla de andra fixa.
Förklara de tre passningsmåtten i regressionsanalys kort:
- Standardfelet hos skattningen: se fås genom roten ur medelkvadratfelet (MSE). Ju mindre detta tal är desto bättre är passningen.
- Determinationskoefficienten/förklaringsgraden: R2 säger hur stor andel av variationerna i responsvariabeln som förklaras av den passade modellen. Tal mellan 0 och 1, önskvärt att vara nära 1.
- Justerade determinationskoefficienten: när man jämför modeller med olika antal förklaringsvariabler är detta mått bättre då den justerar för detta. Fler variabler ger nämligen ett högre R2 även om de inte tillför något bra i modellen.
Test för individuell signifikans:
vi testar då om varje individuell variabels B-koefficient är signifikant, dvs signifikant skilt från 0 och därmed har påverkan på y (förklarar variation i y).
Hur sätter Excel upp hypoteserna automatiskt i regression?
De sätter upp tvåsidiga test där nollhypotesen säger att B=0. Om vi gör ensidigt test bör vi därför halvera det p-värde som Excel matar ut.
Test för gemensam signifikans:
då testar vi om det över huvud taget finns något värde i modellen. I nollhypotesen sätter vi då alla B-koefficienter =0, medan HA säger att åtminstone en B skiljer sig från 0.
Test för linjära begränsningar
om vi har en modell med 3 förklaringsvariabler men vi tror att modellen klarar sig lika bra om vi bara behåller x1 kan vi testa för B2=B3=0. Dvs att de andra koefficienterna inte tillför något. Då gör vi partiella F-tester.
Hur fungerar partiella F-tester?
Vi passar två modeller, en med begräsning (bara det x vi tror är tillräckligt) och en obegränsad modell med alla variabler. Om begränsningen är bra så kommer kvadratfelssumman (SSER) hos den modellen inte vara signifikant större än den obegränsade modellens SSEU.
Att testa om två variabler har samma påverkan på y:
om vi tror att B1=B2 kan vi testa detta genom att slå ihop de två x:en i modellen: y=B0+B1(x1+x2) +e. Detta blir den den begränsade modellen som ska testas mot att de har olika B.
2 typer av intervallskattningar av responsvariabelns värde:
- Konfidensintervall för det förväntade värdet hos responsvariabeln.
- Prediktionsintervall för ett enskilt värde hos responsvariabeln.
Vad behöver göras innan man kan skapa dessa intervall?
Vi behöver modifiera regressionen och flytta vårt koordinatsystem. Detta gör vi genom att ta varje observerat x-värde minus det x-värde vi vill prediktera för. Detta kallas för att translatera värdena och vi gör det för att kunna få ut vår intervall på interceptraden i Excel.
Skillnaden mellan KI och PI för responsvariabeln:
Skillnaden är att KI görs för att fånga in osäkerhet som blir när vi observerar samma x-variabler flera gånger. Bara för att vi har samma x behöver inte det betyda att vi får samma y. Eftersom att det bygger på flera observationer blir intervallet smalare. PI är ist bredare eftersom att man där vill fånga in osäkerheten för en enskild observation.
Heteroskedasticitet
När variansen hos e inte är samma för alla värden på x. trattliknande form.
Autokorrelation
när residualerna (e) är korrelerade till varandra.
Endogenitet
När feltermen är korrelerad med förklaringsvariablerna. Ex när modellen inte kan mäta en viktig förklaringsvariabel och därför fångas den delen ist upp av feltermen, som med medfödd intelligens vid lönenivåer (utbildning förklarar lön men intelligens hör ju ihop med utbildning).
Fler antaganden kring epsilon:
Den ska vara normalfördelad och väntevärdet ska vara =0.
Är en polynomiell modell fortfarande linjär?
Ja man säger att den är linjär så länge den är linjär i parametrarna (B) men den kan fortfarande vara kvadratisk, kubisk eller något annat i x-termerna.
Vad är tolkningskillnaden mellan rät linje respektive polynomiella regressionsmodeller?
Skillnaden är att man tolkar B-koefficienterna annorlunda. När en B hör ihop med enkelt x så ger en enhets ökning i x en konstant ökning i y med B, oavsett var i x-led vi är. Men med böjda linjer beror alltså ökningstakten samt tecknet på lutningen (+ eller -) på var vi befinner oss i x-led.
Marginaleffekt:
Betyder just detta, att på marginalen är ökningen/minskningen olika. Marginaleffekt=lutningen. Alltså derivatan av linjens funktion.
Max/min
i ex kvadratiska modeller som är U-formade eller andra hållet kan vi ta fram max och min-punkt genom att sätta derivatan av funktionen lika med 0.
Log-log-modellen:
både responsvariabeln samt förklaringsvariabeln är loggade. Grafiskt ser det ut som en ökande men avtagande funktion respektive en minskande i avtagande takt.
Hur tolkas B i log-log?
Eftersom att båda variablerna är loggade så tänker man procentuellt på båda sidorna. Så 1 procents ökning i x ger en viss procentuell förändring i y. detta kallas med andra ord för elasticitet.
Prediktera när vi har loggat y-variabeln:
Viktigt att tänka på att när vi vill prediktera y-hatt måste vi sätta hela högerledet över e (exp) och dessutom lägga in standrard error för att inte underskatta y.
Logaritmiska modellen
bara logga förklaringsvariabeln. Liknar log-log grafiskt men är ännu mer avtagande i sin takt.
Tolka B i logaritmiska modellen:
y behåller ju ursprungliga enheten så därför tolkar vi /100 som den ungefärliga förändringen i y då x ökar 1 procent.
Exponentiella modellen:
y loggas men inte x. Grafiskt ser vi hur y ökar i stigande takt respektive minskar i snabbare takt.
Tolka B i exponentiellt modellen
här tolkar vi B*100 som den procentuella ökningen i y när x ökar en enhet. Ex om B=0.05 så ökar y med 5% när x ökar en enhet.
Hur jämföra passningsmåtten mellan modeller med loggade y?
Vi kan bara använda Excels R2 när alla responsvariabler är mätt i samma mått. Kan ej jämföra äpplen och päron. Beräkna fram nytt R-square för våra modeller med loggat genom korrelationen mellan y och y-hatt och tar sedan kvadraten (upphöjt till 2) på korrelationskoefficienten ryy.
Vad är en dummy-variabel? När används den?
Det är en variabel som bara kan ta värdet 0 eller 1 och som används när vi har förklaringsvariabler (eller respons) som är kvalitativa. Dvs värden som representerar en viss kategori.
Hur ser man effekten av en dummy grafiskt?
För en enkel modell med en dummy kommer vi se det som ett interceptskifte eftersom dummyn inte sitter ihop med ett x och därmed inte kan påverka lutningen.
Tolka koefficienten för en dummy:
man tolkar Excels output-koefficient som skillnaden i medeltal mellan kategorierna. Om d=1 för män och 0 för kvinnor så kommer en positiv koefficient betyda att männen har mer av något (vad i nu mäter ex lön).
Vad betyder Excels p-värde vad det gäller dummy?
Om vi har ett signifikant p-värde så betyder det att dummyn är signifikant och därmed att den skillnad i koefficienten som står där faktiskt är på riktigt. Ex, männens lön är signifikant större än kvinnornas.
Hur många dummys kodar vi till ex 5 kategorier?
Alltid k-1, alltså 4, eftersom att vi använder en som referenskategori som fångas av det intercept som redan finns i modellen. Om alla dummys sätts till 0 så är det alltså vår referenskategori vi kikar på.
Dummyfällan
Om vi kodar lika många d som kategorier så hamnar vi i dummyfällan där vi får perfekt kollinjäritet. Modellen kan då ej skattas på ett tillförlitligt sätt.
Vad ska man tänka på vid kodning av dummys?
Gäller att koda rätt beroende på vad vi vill ha svar på eftersom att alla dummyer vi kopplar på (kikar på) kommer att jämföras med vår referenskategori. Vill vi ha svar på hur d1 och d3 skiljer sig så kan vi inte ha d2 som referens, då måste vi ha antingen 1 eller 3 som det.
Interaktion med dumies
när vi interagerar en d med en förklaringsvariabel, x, så kan vi även skapa nya lutningar. Vi mäter då hur kategorin (ex männens) påverkar responsvariabeln (lön) för olika nivåer på x (erfarenhet). Om vi ser att lutningen blir brantare när vi kopplar samman b1+b3 så indikerar det på att män har snabbare utväxling.
Binär modell
när responsvariabeln är binär och bara kan ta värden ”antingen eller”. Antingen är personen frisk eller sjuk, köpa hus eller inte osv.
Linjära sannolikhetsmodellen (LPM):
vad är sannolikheten att y tar värdet 1 (dvs 100% sannolikt)?. Det är det man mäter. Nackdelen med modellen är att den kan prediktera sannolikheter som ej finns, dvs negativa eller över 1.
Tolka koefficienterna i LPM:
om b-koefficienten ex är 0.18 så betyder det att en % ökning i x ger en ökad sannolikhet med 0.18. I LPM räknar vi alltså helt och hållet i procent.
Logitmodellen
ger inga orimliga sannolikheter, håller sig mellan 0 och 1. Detta gör det dock svårt att tolka koefficienterna och Excel kan tyvärr inte skapa sådana här modeller.
Tidsserie:
sekvens av observationer av en variabel över tid. Tidsskalan kan vara olika.
Icke-kausala modeller:
ingen koppling mellan variabeln av intresse och andra variabler utan försöker bara projicera historiska data. Enda förklaringsvariabeln är t, tiden.
Kan icke-kausala använda R-kvadrat som passningsmått?
Nej. Eftersom att vi inte har några förklaringsvariabler. Istället används MSE ovh MAD.
Berätta om tidsserien systematiska och icke-systematiska egenskaper.
Tidsserier beror dels på slumpen och på konjunkturer och liknande som gör att datan svajar upp och ner utmed trenden, detta kallas för icke-systematik. Det finns inget systematiskt vi kan mäta i detta. Det systematiska är istället trender och säsongseffekter som man kan urskilja och som följer mönster.
Glidande medelvärde vs exponentiell utjämning:
Glidande handlar om att räkna fram medelvärdet för m-perioders där medelvärdet för t=2 baseras på y-värdena 1,2,3. Exponentiell utjämning behandlar istället nya observationer tyngre och exponentiellt avtagande vikt åt äldre observationer.
Prediktioner med smoothing-metoderna:
Vi predikterar aldrig med medelvärden där man använt sig av den data som finns i den tidpunkten vi vill prediktera. Så för glidande medelvärden predikterar vi två snäpp framåt, alltså medelvärdet för t=2 används för att prediktera t=4. För exponentiell utjämning hoppar vi bara ett snäpp fram och predikterar t=4 med At=3.
Trendpredikteringsmodeller
vi kan med hjälp av regression skapa olika typer av predikteringsmodeller för trend där vi använder y som y och t som x. Precis som i vanlig regression kan vi ha enkla, multinomiala, exponentiellt osv
Dekompositionsmodellens komponenter:
yt=TtStIt. Alltså y-värdet är en produkt av trend, säsong och slump (irrationell, cykliska delen).
Ta fram säsongseffekten:
börja med att ta glidanande medelvärde för 4-perioders (eftersom kvartal=4). Dessa behöver sedan centreras eftersom att vi inte vill ha medelvärde för 2,5 utan för 2 respektive 3 osv. Nästa steg är ratio-to-MA, alltså att dela varje y med y-bar (glidande medelvärdena). Vi får de ojusterade säsongsindexena genom att ta medelvärdet för varje kvartals ratio-to-MA. Justerat S genom att ta (ojusterat*4)/summan av ojusterade.
Tolka S-indexen:
eftersom att det är ett index tolkar man det i procent. Alltså om kvartal 3 har ett index på 1.12 så tolkas det som att y är 12% högre i kvartal 3 än om inga säsongseffekter hade funnits.
Extrahera trenden
Vi säsongsjusterar varje observerat y genom att dela med rätt S-index. Då får vi bort säsongseffekterna och tar fram trend-datan. Sedan kör vi vanlig regression med de nya y:na och t för att få prediktionsmodellen som vi kan ta fram T-hatt ur (för olika t).
Säsongsdummies och tolkning av beta:
vi skapar 3 dummies för våra 4 kvartal där en är referens och kör sedan vanlig regression på dessa. Beta tolkas nu som den relativa skillnaden mellan den dummien/kvartalet och vårt referenskvartal.
Kausala prediktionsmodeller:
baseras på regression där förklaringsvariabler influerar responsvariabeln. Vi kanske använder laggade x eller y-data för att prediktera morgondagens värde exempelvis.