Uge 45 - Lektion 12 - Multipel regression Flashcards
Hvad er residualer?
Residualer refererer generelt til forskellen mellem den observerede værdi af en variabel og den forudsagte værdi for den samme variabel
Residualer er hvor mange fejl vi har
Forklar forskellen på en bivariat regression og en multipel regression+
En bivariate regression er meget nyttig statistik til at lave specifikke forudsigelser baseret på en uafhængig variable.
Men ofte er en uafhængig variable ikke specielt god til at forudse bevægelsen i en afhængig variable. Derfor ønsker vi flere uafhængige variable for at bedre forstå og forudse vores afhængige variable:
En multipel regression kan lave specifikke forudsigelser i den afhængige variabel baseret på flere uafhængige variabler
Forskellen på en bivariat regression og en multipel regression er at vi forsøger at tegne en regressionsanalyse baseret på flere uafhængige variabler
Forklar hældning og skæringspunkt
Hældningen repræsenterer mængden af ændring i Y som funktion af en enhedsstigning i X. Dvs. en ændring i uafhængige variabler hvordan påvirker det vores afhængige variabel
Skæringspunktet betragtes som udgangspunktet for ligningen.
Hvad er en multipel regressions to hovedopgaver?
En multipel regression har to opgaver:
- Maksimalt at forudsige den afhængige variabel med en regressionsligning (model R2) bestående af flere uafhængige variabler
- Estimere de unikke bidrag fra hver uafhængige variable på regressionsligningen
Forklar ustandardiseret og standardiseret beta værdier
Ustandardiseret Beta-værdier kigger på den direkte effekt en uafhængig variabel har på en afhængig variabel.
De uafhængige værdier er på samme skala
Standardiseret Beta-værdier kigger på effekten i en uafhængig variabel, men bliver målt ud fra standardafvigelsen (+/- 3 til begge sider)
Den standardiseret beta-værdi kan kigge på effekten ved uafhængige variabler der har forskellige skalaer fx. IQ og udannelsesniveau.
–> Standardiserede data er data, der er blevet ændret eller tilpasset, så de har en fælles skala eller referencepunkt
Hvad kan være udfordringen ved ustandardiseret beta-værdi?
Hvis ens uafhængige variabler ikke er på samme skala, kan den ustandardiseret beta-værdi give et forkert/ ikke retvisende billede af, hvad effekten er.
Fx. hvis man sammenligner den ustandardiseret beta-værdi indenfor IQ og udannelse vil effekten se meget større ud, og få udannelse til at fremstå som meget vigtigere end IQ (se noter, her er 7.5%).
Hvis man derimod kigger på den standardiseret beta-værdi hvor man har de uafhængige variabler på samme skala, vil effekten være meget mindre (se noter, her 1.33%).
Forklar hvad der menes med “det unikke bidrag fra hver uafhængig variabel”
Vi er interesseret i at se, hvordan den enkelte uafhængige variabel påvirker den afhængige variabel
Altså hvor meget er forklaret af IQ og uddannelse uafhængigt af hinanden
Og hvor meget er forklaret af en konstellation/sammensætning af dem.
Vi kigger således på semi-partial correlation.
Dvs. de er Pearson korrelation der er kvadreret, og dermed får vi en respektiv forklaringskraft af den enkelte uafhængige variabel –> vi kan se at den uafhængige variabel forklare så meget af variansen i den afhængige variabel
En Pearson-korrelation er en meget nyttig statistik til at estimere sammenhængen mellem to variable målt på en kontinuerlig skala. → siger ikke noget om forudsigelser!
Hvad er grundantagelserne for den multiple regression?
- Tilfældig stikprøve: Alle individer i populationen skal have lige stor chance for at blive udvalgt til stikprøven.
- Uafhængighed af observationerne: Deltagere i undersøgelsen har ikke påvirket hinanden med hensyn til variablerne af interesse.
- Variable(r) er interval/ratio skala (eller minimum 5-trins skala på den ordinal målestok)
- Linearitet: Multipel regression antager et lineært forhold mellem de afhængige og uafhængige variable.
- Normalt distribuerede residualer: For at evaluere normalitetsantagelsen undersøge fordelingen af Jeres residualer. Benyt IQRx3 reglen.
- Uafhængighed af Fejl (relevant for tidsserie studier): Observationer skal være uafhængige af hinanden. Brug Durbin-Watson her.
Durbin-Watson-statistikken kan variere fra 0 til 4. Værdien 2 angiver et totale fravær af en seriel korrelation
Durbin-Watson er ofte i sammenhæng med tidserier - Homoskedacitet
- Fravær af multikollinaritet
Multikollinaritet betyder overordnet set at en eller flere af vores uafhængige ikke bare korrelerer med hinanden men faktisk forklarer hinanden
Problemet med multikollinearitet: Der opstår problemer med at sige noget oprigtigt omkring vores resultater → derfor vi tester for det.
Tolerance: Variation i en uafhængig variable som ikke er forklaret af de andre uafhængige variabler. Hvis du rammer 0,10 eller under er du i problemer.
Variance Inflation Factor (VIF): Måler hvor meget af variansen af en uafhængig variabel er påvirket (eller oppustet) af dens interaktion/korrelation med de andre uafhængige variabler. Maximum VIF af 10.
Forklar multikollinaritet
Multikollinaritet er hvor to eller flere uafhængige variabler i en regressionsmodel er stærkt korrelerede. Dette betyder, at disse variabler er så tæt forbundet, at det bliver svært for modellen at adskille deres individuelle effekter på den afhængige variabel.
Hvis der er multikollinearitet, sletter man variablen!
Hvilken “input” metode bruger vi i SPSS til multipel regression?
Method enter regression