Statistik 1b Flashcards

1
Q

Ge ett exempel på inferens med 2 populationer (medelvärden)?

A

Man har tex en kontrollgrupp och en behandlingsgrupp där man kanske vill testa olika saker så som hur företaget presterar om man får frukost på jobbet. Höjer de antalet producerade enheter?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Olika typer av test för 2 populationsparametrar (3st):

A
  1. Skillnader mellan två populationsmedelvärden för oberoende stickprov:
    - Populationsvarianserna kända
    - Populationsvarianserna okända men kan inte antas vara lika
    - Populationsvarianserna okända men antas vara lika
  2. Skillnader mellan två populationsmedelvärden för beroende (relaterade) stickprov.
  3. Skillnader mellan två populationsproportioner för oberoende stickprov
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Oberoende stickprov

A

Anses oberoende när processen för att skapa stickproven är helt olika. Ex när personer blir slumpmässigt utvalda att ingå i behandlingsgruppen eller inte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Beroende stickprov

A

Anses beroende om det finns ”naturligt” sätt att kombinera datan. Ex testa personers reaktion mot en medicin genom att observera dem 2 gånger, med och utan behandling. Eller följa upp en diet, träningsprogram eller liknande. Behöver dock ej vara samma individ, kan vara matchande på annat sätt, ex syskonstudier eller jordbruket.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hur tolkas K.I?

A

Fångar in osäkerheten i skattningen av populationsparametern givet stickprovet. I upprepade försök kommer 100(1-a)% av konfidensintervallen innefatta den sanna differensen av populationsparameterna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Typ 1 fel:

A

När man förkastar H0 fastän H0 är sann. alfa anger hur stor chansen för typ 1 fel är.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Typ 2 fel:

A

när man inte förkastar H0 fastän HA är sann. Beta anger hur troligt det är.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hypotestesternas 5 steg:

A
  1. Definiera nollhypotesen
  2. Definiera alternativhypotesen (den hypotes man vill pröva/testa).
  3. Definiera testfunktionen (en statistisk fördelning under antagandet att H0 är sant).
  4. Definiera regel när nollhypotesen förkastas; antingen p-värde eller kritiskt värde.
  5. Pröva om vår observerade testfunktion ligger i förkastelseregionen under antagandet att H0 är sann. Alternativt pröva om p-värdet är mindre än a.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hur beräknas d-tak, vad innebär det?

A

d-tak används vid beroende stickprov där vi vill jämföra före och efter behandling. Det räknas ut såhär: ta varje par av observationer och subtrahera dem så att du får differensen dem emellan. Summera dessa differenser och dela på totala antalet observationer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Exempel på när man vill jämföra populationsvarianser:

A

Tex hur aktier kan variera för att minimera risken eller tex hur idrottare varierar i sin prestation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

När använder vi chitvå respektive F-fördelning?

A

Chitvå när vi har tex en varians som vi vill hypotestesta eller göra KI för. F-fördelning när vi har kvoten mellan två varianser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Numerisk variabel (2 sorter)

A

Mäter kvantitet. Finns kontinuerliga och diskreta. Kontinuerliga kan anta alla värden mellan ett intervall medan diskreta antar endast heltal.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Kategorisk variabel:

A

Mäter kvalitet. Finns ordinal och nominal. Ordinal innebär att man kan rangordna tex betyg, klädesstorlek etc. Nominala har ingen logisk sekvens, som ex kön, religion, politiska preferenser etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Goodness-of-fit test:

A

(anpassningstestet) ger svar på hur bra en statistisk modell passar till den observerade datan. Följer observationerna en förmodad fördelning? Man vill avgöra om fördelningen på en variabels data uppstått av slump eller följer systematik. Ex, för multinomiala experiment eller för att se om data är normalfördelad. (handlar om kategoriska data).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Test for Independence:

A

(homogenitetstestet) testar istället om variabler är oberoende eller beroende av varandra. Ex om män är mer benägna att rösta på Moderaterna eller om politiska preferenser är oberoende av kön.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Skillnad i goodness respektive independence:

A

Att goodness bara testar en stokastisk variabel och hur väl den stämmer överens med en förväntad fördelning medan independence kan analysera två variabler för att se om de är oberoende.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Beroende variabel

A

den variabel vi mäter utfallet/effekten för. Ex produktiviteten vid olika frukostalternativ på jobbet (när vi har fler än 2 medelvärden att studera).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Oberoende variabel

A

en eller flera variabler som mäter orsaken för effekten på den beroende variabeln. Mäts alltid i nominalskala.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Beskriv kort de fyra olika ANOVA-varianterna:

A

•Envägs ANOVA: endast en oberoende variabel.
•Tvåvägs ANOVA: två oberoende variabler. Kallas även faktor.
•Oberoende ANOVA: olika individer i olika nivåer (grupper) för de oberoende variablerna. Alltså ingen interaktion.
•Beroende ANOVA: när vi har samma individer i olika nivåer för de oberoende variablerna, alltså med interaktion.
?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

3 antaganden för envägs-ANOVA

A
  1. Normalfördelade populationer.
  2. Populationsstandardavvikelserna är okända men antas vara lika.
  3. Stickproven är oberoende för varje population (olika individer).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Varför behöver vi använda oss av ANOVA? Varför inte fortsätta med t-test för alla kombinationer av stickprovsmedelvärden?

A
  • Jo för att ju fler sådana test vi gör desto mer missvisande blir alfa, alltså risken för typ 1 fel. Vi får inflation i alfa. T-test är bara till för att testa en hypotes, inte hypoteser som säger att flera olika parametrar är lika/olika.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Höger eller vänster svans på ANOVA?

A

Tester görs alltid på höger svans eftersom testet bygger på att vi vill se om variationen mellan grupper är större än inom grupper. (“större än” indikerar på högersvansen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Envägs-ANOVA: SST=?

A

Den totala variationen i datamaterialet. Här delas den in i SSTR (mellangruppsvariationen) och SSE (inomgruppsvariationen, dvs slumpfaktorer).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Är vi ens intresserade av SST?

A

Nej egentligen inte, totala variationen kan vara beroende av datamängd, därav intresserar vi oss för den genomsnittliga (dela med frihetsgrader).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

När förkastar vi envägsANOVA-hypotsen?

A

När mellangruppsvariationen (MSTR) är signifikant större än inomgruppsvariationen (MSE) för då är variationen i behandlingsgruppen mycket större än inom, det måste därav finnas en systematisk skillnad (som ej beror på slump).
Detta är testfunktionen: MSTR/MSE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Grand mean

A

Medelvärdet för hela datamaterialet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Post-hoc tester, 2st:

A

Tester man utför efter att man observerat datan och sett att det finns skillnad hos medelvärdena. Vi har pratat om Fisher’s least significant difference (LSD) samt Tukey’s honestly significant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Beskriv Fishers

A

Variant av t-test som liknar den med poolad varians men som ist använder MSE som uttrycker den poolade variansen för samtliga grupper i datan. Använder testet när man först har förkastat nollhypotesen och konstaterat att alla ej är lika.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Beskriv Tukeys HSD

A

statistiskt starkare och kontrollerar typ1 fel och alfa bättre då det blir svårare att förkasta nollhypotesen i och med q-fördelning (tjockare och flackare svans än t).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Två olika varianter av Tukeys

A

en formel för balanserad data där alla grupper har lika många observationer och en annan formel för obalanserad data där grupperna inte har lika många observationer (n).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Tvävägs-ANOVA:

A

Består av 2 oberoende variabler/faktorer där man har möjlighet att se den ena variabelns påverkan givet att den andra är kontrollerad (block). Kan också undersöka för interaktionseffekter av de två variablerna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

SST i tvävägs-ANOVA

A

SST=SSTR (SSA) + SSE (SSB OCH SSE). Så vi har SSA i kolumn, SSB i rad och SSE som är slumpen vi lägger till inom grupperna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Två F-tester med tvåvägs ANOVA block:

A

•Testa för treatments effects: alltså att jämföra det kritiska värdet med F värdet för den observerade gruppen (treatments). Alltså så enkelt som att titta på kolumnerna, SSA och jämföra MSA/MSE (vårt testvärde) med kritiska värdet.
•Testa för block effects: jämför det kritiska värdet med det observerade F värdet för blocken. Om vi förkastar så innebär det att inte alla medelvärden för blockpopulationerna är lika. Alltså testa raderna, MSB/MSE och jämföra med dess kritiska värde.
Om vi kan förkasta båda så innebär det att både rad och kolumn-variablerna påverkar resultatet. Ex att både utbildning och bransch påverkar lönenivån.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Interaktionseffekter

A

om den beroende variabeln Y’s påverkan av faktor A beror på nivån av faktor B, så existerar det interaktionseffekter. Men om påverkan på Y av faktorn A är samma för alla nivåer på faktor B så finns ej interaktionseffekter mellan de oberoende variablerna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Tvåvägs ANOVA med interaktionseffekter:

A

Vi testar nu om Y påverkas av A på olika sätt om B är på olika nivå. Detta kräver multipla observationer av A och B.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

SST vid tvåvägs ANOVA med interaktionseffekter:

A

SST=SSA + SSB + SSAB + SSE. Tillkommer nu en rad förutom rad och kolumn i tabellen som heter interaktion.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Om vi förkastar H0 att inga interaktionseffekter finns, vad händer då med analysen?

A

Om vi kan konstatera att det finns interaktionseffekter så blir tolkningen av ”main effects”, alltså tolkningen av hur populationsmedelvärdena förhåller sig till varandra komplicerad. Vi bör därför bortse från den tolkningen om vi kan förkasta H0. regressionsanalys istället

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Hur ser noll- och alternativhypotesen ut i ANOVA?

A

I noll skriver vi alltid att alla medelvärden är lika med varandra medan vi i alternativ skriver in att åtminstone något medelvärde skiljer sig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Kovarians

A

mäter riktningen på ett linjärt beroende mellan två variabler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Korrelationskoefficienten

A

mäter både riktningen men också hur starkt ett linjärt beroende mellan två variabler är. Antar värden mellan -1 och 1.

41
Q

Vad är alltid första steget när man ska titta på om två variabler har ett linjärt eller för den delen icke-linjärt samband?

A
  • Att göra en scatterplot med de parvisa observationerna för att försöka se mönster och dessutom se ifall några ”brott” mot kraven för regressionsanalys görs.
42
Q

3 begränsningar hos korrelationsanalys

A
  • Korrelation mäter enbart linjära beroenden.
  • Korrelation kan vara icke tillförlitligt om det finns outliers i datan.
  • Även två starkt korrelerade variabler behöver ej vara kausala, dvs det kan finnas nonsenskorrelationer utan orsakssamband.
43
Q

Berätta om de två variablerna i regressionsanalys

A

Responsvariabeln är den variabel som styrs av de andra variablerna, så kallade förklaringsvariabler.

44
Q

Deterministiskt regressionssamband

A

om värdet på responsvariabeln är helt och hållet bestämd av värdet hos förklaringsvariabeln/variablerna så är sambandet perfekt/deterministiskt. Då är y-hatt detsamma som y.

45
Q

Stokastiskt/slumpmässigt samband:

A

när vi finner samband som inte är exakt, dvs att analysen utelämnar vissa viktiga faktorer. Det är så det i princip alltid ser ut, sällan har två variabler ett perfekt samband.
I regressionsanalys inkluderar vi stokastisk felterm, för att visa att sambandet inte är perfekt.

46
Q

Residualer

A

skillnaderna mellan predikterade värden, y-hatt, och våra observerade värden, y. e=y-yhatt. Variansen i denna apsilon avgör hur mycket observationerna avviker från vår passade modell.

47
Q

OLS-metoden

A

OLS står för ordinary least squared, dvs minsta kvadratmetoden på svenska och är den metod vi använder för att skatta våra koefficienter 0 och 1. Detta ska ge den bästa prediktionen av y-hatt där residualerna är minimerade.
- Vi tar fram vår passade modell/linje med OLS.

48
Q

Multipelregression

A

när det finns mer än en förklaringsvariabel i vår analys. Vi vill alltså försöka förbättra modellen genom att stoppa in fler variabler som kan förklara förändringar i y. När vi undersöker ena variabelns påverkan är det viktigt att hålla de andra fixa.

49
Q

Förklara de tre passningsmåtten i regressionsanalys kort:

A
  • Standardfelet hos skattningen: se fås genom roten ur medelkvadratfelet (MSE). Ju mindre detta tal är desto bättre är passningen.
  • Determinationskoefficienten/förklaringsgraden: R2 säger hur stor andel av variationerna i responsvariabeln som förklaras av den passade modellen. Tal mellan 0 och 1, önskvärt att vara nära 1.
  • Justerade determinationskoefficienten: när man jämför modeller med olika antal förklaringsvariabler är detta mått bättre då den justerar för detta. Fler variabler ger nämligen ett högre R2 även om de inte tillför något bra i modellen.
50
Q

Test för individuell signifikans:

A

vi testar då om varje individuell variabels B-koefficient är signifikant, dvs signifikant skilt från 0 och därmed har påverkan på y (förklarar variation i y).

51
Q

Hur sätter Excel upp hypoteserna automatiskt i regression?

A

De sätter upp tvåsidiga test där nollhypotesen säger att B=0. Om vi gör ensidigt test bör vi därför halvera det p-värde som Excel matar ut.

52
Q

Test för gemensam signifikans:

A

då testar vi om det över huvud taget finns något värde i modellen. I nollhypotesen sätter vi då alla B-koefficienter =0, medan HA säger att åtminstone en B skiljer sig från 0.

53
Q

Test för linjära begränsningar

A

om vi har en modell med 3 förklaringsvariabler men vi tror att modellen klarar sig lika bra om vi bara behåller x1 kan vi testa för B2=B3=0. Dvs att de andra koefficienterna inte tillför något. Då gör vi partiella F-tester.

54
Q

Hur fungerar partiella F-tester?

A

Vi passar två modeller, en med begräsning (bara det x vi tror är tillräckligt) och en obegränsad modell med alla variabler. Om begränsningen är bra så kommer kvadratfelssumman (SSER) hos den modellen inte vara signifikant större än den obegränsade modellens SSEU.

55
Q

Att testa om två variabler har samma påverkan på y:

A

om vi tror att B1=B2 kan vi testa detta genom att slå ihop de två x:en i modellen: y=B0+B1(x1+x2) +e. Detta blir den den begränsade modellen som ska testas mot att de har olika B.

56
Q

2 typer av intervallskattningar av responsvariabelns värde:

A
  1. Konfidensintervall för det förväntade värdet hos responsvariabeln.
  2. Prediktionsintervall för ett enskilt värde hos responsvariabeln.
57
Q

Vad behöver göras innan man kan skapa dessa intervall?

A

Vi behöver modifiera regressionen och flytta vårt koordinatsystem. Detta gör vi genom att ta varje observerat x-värde minus det x-värde vi vill prediktera för. Detta kallas för att translatera värdena och vi gör det för att kunna få ut vår intervall på interceptraden i Excel.

58
Q

Skillnaden mellan KI och PI för responsvariabeln:

A

Skillnaden är att KI görs för att fånga in osäkerhet som blir när vi observerar samma x-variabler flera gånger. Bara för att vi har samma x behöver inte det betyda att vi får samma y. Eftersom att det bygger på flera observationer blir intervallet smalare. PI är ist bredare eftersom att man där vill fånga in osäkerheten för en enskild observation.

59
Q

Heteroskedasticitet

A

När variansen hos e inte är samma för alla värden på x. trattliknande form.

60
Q

Autokorrelation

A

när residualerna (e) är korrelerade till varandra.

61
Q

Endogenitet

A

När feltermen är korrelerad med förklaringsvariablerna. Ex när modellen inte kan mäta en viktig förklaringsvariabel och därför fångas den delen ist upp av feltermen, som med medfödd intelligens vid lönenivåer (utbildning förklarar lön men intelligens hör ju ihop med utbildning).

62
Q

Fler antaganden kring epsilon:

A

Den ska vara normalfördelad och väntevärdet ska vara =0.

63
Q

Är en polynomiell modell fortfarande linjär?

A

Ja man säger att den är linjär så länge den är linjär i parametrarna (B) men den kan fortfarande vara kvadratisk, kubisk eller något annat i x-termerna.

64
Q

Vad är tolkningskillnaden mellan rät linje respektive polynomiella regressionsmodeller?

A

Skillnaden är att man tolkar B-koefficienterna annorlunda. När en B hör ihop med enkelt x så ger en enhets ökning i x en konstant ökning i y med B, oavsett var i x-led vi är. Men med böjda linjer beror alltså ökningstakten samt tecknet på lutningen (+ eller -) på var vi befinner oss i x-led.

65
Q

Marginaleffekt:

A

Betyder just detta, att på marginalen är ökningen/minskningen olika. Marginaleffekt=lutningen. Alltså derivatan av linjens funktion.

66
Q

Max/min

A

i ex kvadratiska modeller som är U-formade eller andra hållet kan vi ta fram max och min-punkt genom att sätta derivatan av funktionen lika med 0.

67
Q

Log-log-modellen:

A

både responsvariabeln samt förklaringsvariabeln är loggade. Grafiskt ser det ut som en ökande men avtagande funktion respektive en minskande i avtagande takt.

68
Q

Hur tolkas B i log-log?

A

Eftersom att båda variablerna är loggade så tänker man procentuellt på båda sidorna. Så 1 procents ökning i x ger en viss procentuell förändring i y. detta kallas med andra ord för elasticitet.

69
Q

Prediktera när vi har loggat y-variabeln:

A

Viktigt att tänka på att när vi vill prediktera y-hatt måste vi sätta hela högerledet över e (exp) och dessutom lägga in standrard error för att inte underskatta y.

70
Q

Logaritmiska modellen

A

bara logga förklaringsvariabeln. Liknar log-log grafiskt men är ännu mer avtagande i sin takt.

71
Q

Tolka B i logaritmiska modellen:

A

y behåller ju ursprungliga enheten så därför tolkar vi /100 som den ungefärliga förändringen i y då x ökar 1 procent.

72
Q

Exponentiella modellen:

A

y loggas men inte x. Grafiskt ser vi hur y ökar i stigande takt respektive minskar i snabbare takt.

73
Q

Tolka B i exponentiellt modellen

A

här tolkar vi B*100 som den procentuella ökningen i y när x ökar en enhet. Ex om B=0.05 så ökar y med 5% när x ökar en enhet.

74
Q

Hur jämföra passningsmåtten mellan modeller med loggade y?

A

Vi kan bara använda Excels R2 när alla responsvariabler är mätt i samma mått. Kan ej jämföra äpplen och päron. Beräkna fram nytt R-square för våra modeller med loggat genom korrelationen mellan y och y-hatt och tar sedan kvadraten (upphöjt till 2) på korrelationskoefficienten ryy.

75
Q

Vad är en dummy-variabel? När används den?

A

Det är en variabel som bara kan ta värdet 0 eller 1 och som används när vi har förklaringsvariabler (eller respons) som är kvalitativa. Dvs värden som representerar en viss kategori.

76
Q

Hur ser man effekten av en dummy grafiskt?

A

För en enkel modell med en dummy kommer vi se det som ett interceptskifte eftersom dummyn inte sitter ihop med ett x och därmed inte kan påverka lutningen.

77
Q

Tolka koefficienten för en dummy:

A

man tolkar Excels output-koefficient som skillnaden i medeltal mellan kategorierna. Om d=1 för män och 0 för kvinnor så kommer en positiv koefficient betyda att männen har mer av något (vad i nu mäter ex lön).

78
Q

Vad betyder Excels p-värde vad det gäller dummy?

A

Om vi har ett signifikant p-värde så betyder det att dummyn är signifikant och därmed att den skillnad i koefficienten som står där faktiskt är på riktigt. Ex, männens lön är signifikant större än kvinnornas.

79
Q

Hur många dummys kodar vi till ex 5 kategorier?

A

Alltid k-1, alltså 4, eftersom att vi använder en som referenskategori som fångas av det intercept som redan finns i modellen. Om alla dummys sätts till 0 så är det alltså vår referenskategori vi kikar på.

80
Q

Dummyfällan

A

Om vi kodar lika många d som kategorier så hamnar vi i dummyfällan där vi får perfekt kollinjäritet. Modellen kan då ej skattas på ett tillförlitligt sätt.

81
Q

Vad ska man tänka på vid kodning av dummys?

A

Gäller att koda rätt beroende på vad vi vill ha svar på eftersom att alla dummyer vi kopplar på (kikar på) kommer att jämföras med vår referenskategori. Vill vi ha svar på hur d1 och d3 skiljer sig så kan vi inte ha d2 som referens, då måste vi ha antingen 1 eller 3 som det.

82
Q

Interaktion med dumies

A

när vi interagerar en d med en förklaringsvariabel, x, så kan vi även skapa nya lutningar. Vi mäter då hur kategorin (ex männens) påverkar responsvariabeln (lön) för olika nivåer på x (erfarenhet). Om vi ser att lutningen blir brantare när vi kopplar samman b1+b3 så indikerar det på att män har snabbare utväxling.

83
Q

Binär modell

A

när responsvariabeln är binär och bara kan ta värden ”antingen eller”. Antingen är personen frisk eller sjuk, köpa hus eller inte osv.

84
Q

Linjära sannolikhetsmodellen (LPM):

A

vad är sannolikheten att y tar värdet 1 (dvs 100% sannolikt)?. Det är det man mäter. Nackdelen med modellen är att den kan prediktera sannolikheter som ej finns, dvs negativa eller över 1.

85
Q

Tolka koefficienterna i LPM:

A

om b-koefficienten ex är 0.18 så betyder det att en % ökning i x ger en ökad sannolikhet med 0.18. I LPM räknar vi alltså helt och hållet i procent.

86
Q

Logitmodellen

A

ger inga orimliga sannolikheter, håller sig mellan 0 och 1. Detta gör det dock svårt att tolka koefficienterna och Excel kan tyvärr inte skapa sådana här modeller.

87
Q

Tidsserie:

A

sekvens av observationer av en variabel över tid. Tidsskalan kan vara olika.

88
Q

Icke-kausala modeller:

A

ingen koppling mellan variabeln av intresse och andra variabler utan försöker bara projicera historiska data. Enda förklaringsvariabeln är t, tiden.

89
Q

Kan icke-kausala använda R-kvadrat som passningsmått?

A

Nej. Eftersom att vi inte har några förklaringsvariabler. Istället används MSE ovh MAD.

90
Q

Berätta om tidsserien systematiska och icke-systematiska egenskaper.

A

Tidsserier beror dels på slumpen och på konjunkturer och liknande som gör att datan svajar upp och ner utmed trenden, detta kallas för icke-systematik. Det finns inget systematiskt vi kan mäta i detta. Det systematiska är istället trender och säsongseffekter som man kan urskilja och som följer mönster.

91
Q

Glidande medelvärde vs exponentiell utjämning:

A

Glidande handlar om att räkna fram medelvärdet för m-perioders där medelvärdet för t=2 baseras på y-värdena 1,2,3. Exponentiell utjämning behandlar istället nya observationer tyngre och exponentiellt avtagande vikt åt äldre observationer.

92
Q

Prediktioner med smoothing-metoderna:

A

Vi predikterar aldrig med medelvärden där man använt sig av den data som finns i den tidpunkten vi vill prediktera. Så för glidande medelvärden predikterar vi två snäpp framåt, alltså medelvärdet för t=2 används för att prediktera t=4. För exponentiell utjämning hoppar vi bara ett snäpp fram och predikterar t=4 med At=3.

93
Q

Trendpredikteringsmodeller

A

vi kan med hjälp av regression skapa olika typer av predikteringsmodeller för trend där vi använder y som y och t som x. Precis som i vanlig regression kan vi ha enkla, multinomiala, exponentiellt osv

94
Q

Dekompositionsmodellens komponenter:

A

yt=TtStIt. Alltså y-värdet är en produkt av trend, säsong och slump (irrationell, cykliska delen).

95
Q

Ta fram säsongseffekten:

A

börja med att ta glidanande medelvärde för 4-perioders (eftersom kvartal=4). Dessa behöver sedan centreras eftersom att vi inte vill ha medelvärde för 2,5 utan för 2 respektive 3 osv. Nästa steg är ratio-to-MA, alltså att dela varje y med y-bar (glidande medelvärdena). Vi får de ojusterade säsongsindexena genom att ta medelvärdet för varje kvartals ratio-to-MA. Justerat S genom att ta (ojusterat*4)/summan av ojusterade.

96
Q

Tolka S-indexen:

A

eftersom att det är ett index tolkar man det i procent. Alltså om kvartal 3 har ett index på 1.12 så tolkas det som att y är 12% högre i kvartal 3 än om inga säsongseffekter hade funnits.

97
Q

Extrahera trenden

A

Vi säsongsjusterar varje observerat y genom att dela med rätt S-index. Då får vi bort säsongseffekterna och tar fram trend-datan. Sedan kör vi vanlig regression med de nya y:na och t för att få prediktionsmodellen som vi kan ta fram T-hatt ur (för olika t).

98
Q

Säsongsdummies och tolkning av beta:

A

vi skapar 3 dummies för våra 4 kvartal där en är referens och kör sedan vanlig regression på dessa. Beta tolkas nu som den relativa skillnaden mellan den dummien/kvartalet och vårt referenskvartal.

99
Q

Kausala prediktionsmodeller:

A

baseras på regression där förklaringsvariabler influerar responsvariabeln. Vi kanske använder laggade x eller y-data för att prediktera morgondagens värde exempelvis.