Kap 13 (part 1) Flashcards
Forskellen på simpel og multipel lineær regression
Simpel: 1 forklarende variabel
Multipel: Flere forklarende variabel
Hvorfor bruger vi R2-adjusted frem for R2?
Vi bruger R2-adjusted frem for R2, da forklaringsgraden vil stige for R2, jo flere variable der bruges, selvom det er helt tilfældige tal. R2-adjusted tager højde for antallet af variable og vil derfor ikke blive påvirket.
Interpolation og ekstrapolation
Interpolation: Vi forudsiger inden for hvor vi har data.
Ekstrapolation: Vi forudsiger uden for hvor vi har data.
Eks: Vi har data for boliger på 80-300 kvm.
Inter: Hvad koster en bolig på 250 kvm?
Ekstra: Hvad koster en bolig på 400 kvm?
Inter vil altså have en lavere usikkerhed end ekstra.
Mindste kvadraters metode
Mindste kvadraters metode er den regressionslinie (givet ved regressionsligningen) der minimerer summen af den lodrette afstand mellem punkterne/observationerne og deres estimater
Hvad fortæller Rsquare-værdien?
Rsquare-værdien fortæller hvor meget af den totale variation modellen kan forklare.
Altså: Rsquare = forklaret variation / total variation
Er Rsquare det samme som koalitionen i anden?
Rsquare er det samme som koalitionen i anden (gælder KUN når der er én forklarende variabel).
Hvad betyder SAK?
Summen af kvadraterne (sum of squares).
Hvordan identificerer man en outlier?
Observationer med et standardiseret residual der er større end 3 eller mindre end -3 (altså 3 standardafvigelser) i absolutte værdier ofte repræsentere en outlier.
De 4 forudsætninger for både simpel og multipel regressionsanalyse
1) Linearitet
Lineær sammenhæng mellem samtlige forklarende variabel, hver for sig og responsvariablen y
2) Konstant varians for residualer
3) Stokastisk uafhængighed mellem residualer
4) Normalitet. Residualerne er normalfordelte
Hvordan afgør man forudsætning 1. linearitet?
Metode 1: X-akse: estimerede værdier. Y-akse: standardiserede residualer. I dette plot skal punkterne være mest koncentreret om middelværdien 0 og mindre jo længere væk man kommer. Skal ligne nogen har skudt med et haglgevær.
Metode 2: Partielle plots for Y1 og X1i og Y1 og X2i osv. Følger punkterne den lineære model?
Forudsætning 2: Konstant varians.
Ikke gældende hvis fx variationen stiger (residualerne er mere spredt ud) når x stiger.
Forudsætning 3: Stokastisk uafhængighed
Denne forudsætning er ikke opfyldt, hvis de enkelte Yi-observationer er indbyrdes korreleret/afhængige af hinanden. I så fald er der autokorrelation (dvs. at Yi-observationerne er korreleret med sig selv).
Tidsserier har ofte sådan autokorrelation, dvs. afhængighed mellem de enkelte Yi-observationer indbyrdes.
Eksempelvis udviklingen i ejendomspriser over tid
Udviklingen i renter/aktiekurser
Forudsætningen om stokastisk uafhængighed, dvs. ingen autokorrelation kan kun vurderes grafisk, når observationernes rækkefølge er entydigt fastlagt i form af en tidsmæssig rækkefølge
Forudsætning 4: Normalitet
Normalitet indebærer at Yi-observationerne følger en normalfordeling
Dette svarer til at de standardiserede residualer følger en standardnormalfordeling med middelværdi 0 og standardafvigelse på 1
Denne forudsætning vurderes på baggrund af et normalfraktildiagram
Normalfraktildiagram kan ikke opnås direkte, men kan tegnes ved at gemme de standardiserede residualer (Studentized Residual) og herefter benytte Distribution på variablen, hvor de standardiserede residualer er gemt, og tegne et Normal Quantile Plot
Hvad kigger vi på efter vi har tjekket de 4 forudsætninger?
Når vi har tjekket de 4 forudsætninger for regressionsmodellen er opfyldt eller delvist opfyldt
Tjekker vi herefter følgende for at vurdere modellens anvendelighed Outliers/Indflydelsesrige observationer Multikollinaritet F-test samt variansanalyseskemaet og forklaringsgraden Partielle test Modelreduktion Konfidensintervaller for β1, β2,…..,βp Konfidensinterval for E(Yi) Prediktionsinterval Yi