Multipel lineær regression Flashcards
Beskriv hvad MLR er?
MLR er en test man anvender til at teste om der er nogen sammenhænge mellem en afhængig variabel Y og to eller flere uafhængige variabler X.
Det kan fx være test af boligpriser (Y) og sammenhængen mellem uafhængige værdier som kvadratmeter, beliggenhed mv. .
Hvad er R^2 justeret?
R^2 JUSTERET = R2 - justeret er en forklaringsgrad som man bruger, når man skal forklare hvor meget y-variationen kan forklares ud fra de valgte x-variationer.
Kort: hvor meget X kan forklare Y.
DET ER DENNE MAN BRUGER I MLR - FORDI DEN TAGE HØJDE FOR FLERE X-VARIABLE..
Angiver, hvor stor en del af den samlede variation i y-værdierne der kan forklares via modellen ved variationer i x-værdierne. Forklaringsgraden er altid et tal mellem 0 og 1. Jo større forklaringsgrad, desto bedre er modellen.
BETA-VÆRDIERE:
- Hvad bruges beta-koefficienterne til?
- Hvordan er processen?
- Hvordan fortolker man det?
Beta-værdierne anvendes til at vurdere x-variablernes relative indflydelse på den afhængige variabel Y.
For at gøre dette, skal man undersøge om hældningskoefficenterne er signifikant forskellige fra 0. (Kig på P-værdi) og opstil hypoteserne:
H0: B = 0, dvs. Y kan ikke forklares med X, der er ingen sammenhæng
HA: B # 0, dvs. Y kan forklares helt eller delvist med X, der er en sammenhæng.
Test på 5% signifikansniveau.
Beta er en parameter til at måle ændringen i Y ved en ændring i X med 1 enhed, mens de øvrige X holdes konstante.
Hvilke krav til skala type er der for hhv. Y (afhængig) og X (uafhængig)?
Y= Nummeriske værdier i form af interval eller ratioskala.
X = Typisk nummeriske værdier, men kan også være binære, så vil de blot indgå som dummy-variable, der antager værdier mellem 0 og 1.
Hvilke krav til skala typer er der? (hvilke skalatyper skal bruges)
Nummeriske værdier i form af interval eller ratioskala.
Hvad er multikollinearitet
Hvis der er tale om multikollinearitet betyder det at de uafhængige variable er indbyrdes korrelereret - det må de ikke være, når man udfører en MLR-test.
Hvorfor indgår der et fejlled, e, i MLR?
Rent teoretisk kan man ikke tage højde for alle ting, derfor må der indgå et fejlled.
Hvilke forudsætninger er der til MLR?
Normalfordelte data: Hvis data er normalfordelt gælder der, at medianen (den midterste observation) er lig med middelværdien (gennemsnittet).
Varianshomogenitet: At der er tale om ens varianser på alle niveauer i dataerne.
Dette kan tjekkes ved at kigge på scatterplots.
Uafhængighed: At de uafhængige variable ikke er stærkt korreleret. Dvs. der må ikke være multiollineraritet.
Hvordan ser man det? Hvis korrelationerne mellem x-variablerne er over 0,7, så skal man være opmærsom på multikollineratet. Derudover kan man også kigge på VIF-værdien, hvis VIF værdien er over 5, så er der også tale om multikollinaritet, hvilket er problematisk.
Hvad er F-test? (ANOVA) og hvorfor skal den bruges?
Når man har udført en MLR-test og dermed fået en model, skal der også laves en f-test, for at tjekke om modellen overhovedet er signifikant. Dvs. om minimum en af de uafhængige variable har signifikant indflydelse på den afhængige variabel. Man opstiller hyposer:
H0: Modellen er ikke signifikant
HA: Modellen er signifikant
Der testes på et 5% signifikansniveau. Hvis man forkaster H0, så er modellen signifikant og man kan arbejde videre.
Hvad bruger man koefficienttabellen til? og bruger vi standardiseret eller error? og hvorfor?
Her kan man aflæse, hvilke beta-værdier (hældningskoefficienter), som har signifikant forklaringsgrader og hvad deres relative betydninger er.
Vi bruger standardiseret, da vi arbejder med uafhængige variable, som har forskellige skalaniveauer.
Hvordan er processen i MLR? Fra start til slut?
1) Find den Y-variabel du vil arbejde med og to eller flere X-variabler. Husk at de skal være nummeriske. X kan være binær, men så er det tale om en dummy.
2) Estimer en model
3) Test om modellen er god via. en F-test
-> H0: Modellen er ikke-signifikant
-> HA: Modellen er signifikant
Hvis modellen er signifikant, gå videre til trin 4.
4) Kig på koefficienterne og deres p-værdierne. Arbejd med hypoteserne:
H0: B er ikke forskellig fra 0 (Y kan ikke forklares med X)
HA: B er forskellig fra 0 (Y kan forklares med X)
Hvis H0 kan afvises, så kan man fortolke B-værdierne.
5) Kig på modellens forklaringsgrad R^2-justeret. Hvis forklaringsgraden er tæt på 1, så er det godt. R^2 justeret fortæller hvor meget X-værdierne kan forklare ændringen i Y.
De 3 vigtige ting at huske i MLR?
1) Er hældningskoefficienterne signifikant forskellige fra 0? (Kig på p-værdi)
2) Fortolk de signifikante koefficienter i modellen (hvis X stiger med 1 enhed, hvor meget ændrer Y sig)
3) Er modellen god? Fortolk den justerede R^2.
Forklar hvad I har undersøgt i jeres?
Vi har undersøgt prisvilligheden, altså hvor stor en rabat man skal have for at købe en brugt telefon. Denne er