Regression Flashcards
Inkl. Bivariat regression, multipel regression
Hvad er forskellen på en independent, paired, pearson korrelation og bivariat regression?
Independent = forskellen mellem variable
Paried = forskellen mellem variable
Pearson korrelationsanalyse = sammenhæng mellem variable
Bivariat = Sammenhæng mellem stigning i variable
Hvordan måler man, hvor stor effekterne er i hhv. t-test, chi-squared test, korrelationsanalyser og lineær regression?
T-test = Cohen’s d
Chi Square Test = Phi og Cramer’s V
Korrelationsanalyse = korrelationskoefficienten
Lineær regression = Regressionskoefficient (betakoefficienten)
Hvad er regressionsanalyser?
Regressionsanalyser handler om at kunne forudsige sammenhænge
Hvordan måler man effektstørrelsen, såfremt der er signifikans i lineær regressionsanalyser?
Det måler man via regressionskoefficienten (betakoefficienten)
Hvad er R-squared (R^2) ?
Hvor meget af variansen er forklaret af vores data.
Jo højere R-squared er, jo mere kan man forklare.
Hvad er ustandardiserede betakoefficient?
Det relaterer sig til hældningen, men viser den direkte affekt.
Den måler på den skala, de respektive uafhængige variabler er på (aka den bruger ens skala fra ens spørgeskema).
Hvad er Standardiserede betakoefficient?
Det relaterer sig til hældningen, men viser effekten målt standardafvigelsen.
Man bruger standardafvigelsen til at standardisere, at al ens data bliver standardiseret til én data således forskellige skalaer kan holdes op mod hinanden (F.eks. Kan man sammenligne en 5-skala med en 7-skala)
Hvad er standardfejl (std. Error of the estimate)?
Standardfejl er standardafvigelsen forbundet med de ustandardiserede residualer (forskelle mellem observerede værdier versus det forudsagte)
Hvornår bruger man de ustandardiserede versus standardiserede betafoefficienter?
Hvis man har en analyse hvor alle en uafhængige variabler er på samme skala (e.g. likertskala 1 - 5) kan man sagtens bruge de ustandardiserede betakoefficient. De har samme skala så de kan sagtens sammenlignes direkte.
Hvis vi derimod har forskellige variabler med forskellige skala (e.g. køn, alder, antal års uddannelse, likertskala 1- 5) så skal man bruge de standardiserede betakoefficient for at se hvilken variable har størst effekt. Hvis man ikke gør det ignorer man at de opererer på forskellige skala som gør at de ikke direkte kan sammenlignes.
Hvad er forskellen på homoskedasticitet og heteroskedasticitet? Og hvorfor kan der være et problem?
Homoskedasticitet = Dataen er ligeligt fordelt over linjen (dermed er grundantagelse 7 i regressionsnalayseropfyldt)
Heteroskedasticitet = Standardafvigelsen vil variere meget, hvorfor lineær regressionsanalyse ikke vil være muligt, (grundantagelse 7 er dermed ikke er opfyldt, hvis der udvises heteroskedasticitet)
Forklar dummy variabler
Er noget til stede (1), betyder det, at noget andet ikke er til stede (0)
(F.eks. Mand/kvinde)
Hvad skal man være særlig opmærksom på, hvis man arbejder med kategorisk data i sin regressionsanalyse?
Hvis man laver dem på kategorisk data, skal man huske, at de skal have ét reference punkt, og dummy kode de andre variabel
F.eks. Kan ens referencepunkt være ”single”, og så kan hhv. ”gift” og ”fraskilt” være ens dummy koder
Der skal altså være noget over for noget andet.
Hvad er bivariat regression?
Man undersøger smamenhæng mellem stigning i variable.
En bivariat regression er, der hvor vi prøver at forudse ændringen i en værdi, baseret på ændringen i en anden værdi (der er dermed to variabler i en bivariat regression = én afhængig og én uafhængig variabel).
Hvilken form for data bruges til bivariat regression? (kategorisk/kontinuerligt)
Kontinuerlig data - såfremt der er kategorisk, skal man dummy kode
Hvad er de to vigtigste begreber i bivariat regression?
- Hældning = repræsenterer mængden af ændring i Y som funktion af en enhedsstigning i X. Værdien af en hældning kan enten være positiv eller negativ. Det måles gennem betakoefficient.
- Skæringspunktet = kan betragtes som grundlaget for regressionsligningen, da det kan betragtes som udgangspunktet for ligningen. Skæringspunktet repræsenterer den forudsagte værdi af Y, når X er nul
Hvilke grundantagelser er der i bivariat regression?
- Tilfældig stikprøve: Alle individer i populationen skal have lige stor chance for at blive udvalgt til stikprøven.
- Uafhængighed af observationerne: Deltagere i undersøgelsen har ikke påvirket hinanden med hensyn til variablerne af interesse.
- Variable(r) er interval/ratio skala (eller minimum 5-trins skala på den ordinal målestok).
- Linearitet: Person korrelation antager et lineært forhold mellem de afhængige og uafhængige variable.
- Normalt distribuerede residualer: For at evaluere normalitetsantagelsen undersøge fordelingen af Jeres residualer. Benyt IQRx3 reglen.
- Uafhængighed af Fejl (relevant for tidsserie studier): Observationer skal være uafhængige af hinanden. Brug Durbin-Watson her.
- Dine data skal vise homoscedasiticitet (Dette skal man teste for, da man skal kunne vurdere, hvor valid ens data er)
Hvorfor er det vigtigt at bruge IQR3-reglen i bivariat regression?
Outliers vil påvirke bivariate regressioner rigtig meget, hvorfor IQx3 reglen SKAL benyttes
Hvilken form for data bruges til multipel regression? (kategorisk/kontinuerligt)
Kontinuerligt data
Man kan ikke have kategorisk data i en regressionsanalyse, da de er gensidigt udelukkende, hvorfor man ikke kan udregne gennemsnit. Derfor omsætter man dummy variabler.
Hvilke grundantagelser er der i multipel regression?
- Tilfældig stikprøve: Alle individer i populationen skal have lige stor chance for at blive udvalgt til stikprøven.
- Uafhængighed af observationerne: Deltagere i undersøgelsen har ikke påvirket hinanden med hensyn til variablerne af interesse.
- Variable(r) er interval/ratio skala (eller minimum 5-trins skala på den ordinal målestok).
- Linearitet: Person korrelation antager et lineært forhold mellem de afhængige og uafhængige variable.
- Normalt distribuerede residualer: For at evaluere normalitetsantagelsen undersøge fordelingen af Jeres residualer. Benyt IQRx3 reglen.
- Uafhængighed af Fejl (relevant for tidsserie studier): Observationer skal være uafhængige af hinanden. Brug Durbin-Watson her.
- Dine data skal vise homoscedasiticitet (Dette skal man teste for, da man skal kunne vurdere, hvor valid ens data er)
- Fravær af multikollinaritet
Hvornår er boksplot nyttige?
Boxplots er især nyttige til at vise den centrale tendens og en skæv frekvensfordeling (f.eks. ved skew og dermed interkvartilområdet).
Hvad bruges IQR3-reglen til?
IQR3-reglen bruges til at identificere outliers i interkvartilområdet.
Hvad er Durbin Watson?
Kontrollere hvor stor uafhængighed der er mellem observationerne.
Durbin-Watson-statistikken variere fra 0 til 4.
En værdi på 2 indikerer det totale fravær af en seriel korrelation (hvilket er en “god” ting for regressionsanalysen).
Den bruges typisk ved tidsstudie.
Forklar seriel korrelation
Hvis observationerne ikke er uafhængige af hinanden (ofte tidsmæssig data)
Hvordan måles fravær af multikollinaritet i multipel regression?
Via tolerance og VIF
Tolerance = Variation i en uafhængig variable som ikke er forklaret af de andre uafhængige variabler. Hvis du rammer 0,10 eller under er du i problemer.
Variance Inflation Factor (VIF) = Måler hvor meget af variansen af en uafhængig variabel er påvirket (eller oppustet) af dens interaktion/korrelation med de andre uafhængige variabler. Maximum VIF af 10.
Hvad skal man gøre, hvis man observerer multikollinaritet?
Hvis man observerer en multikollinaritet i sit datasæt, skal denne data slettes. Derefter skal man lave testen forfra.
Hvad er multikollinaritet?
Det er seriel korrelation. Det betyder, at de uafhængige variabler skal sige noget om den afhængige variabel.
I regressionsanalyser ønsker man at have totalt fravær af en seriel korrelation (en Durbin Watson værdi på 2)
Hvad er semi-partial correlations?
Semi-partial correlation siger noget om det unikke bidrag fra hver uafhængig variabel.
Hvor meget af variansandelen i den afhængige variabel er forklaret af den uafhængige variabel.
Hvilke hovedopgaver har Multipel regression?
- Maksimalt at forudsige den afhængige variabel med en regressionsligning (model R2)
- Estimere de unikke bidrag fra hver uafhængige variable på regressionsligningen.
Hvad relaterer fejlmargin sig til?
Den relaterer sig til grundantagelse 7 om homoskedasticitet.
“Når data opfylder kravene til homoskedasticitet, er fejlmarginen jævnt fordelt og ensartet, hvilket betyder, at fejlene ikke systematisk varierer med stigningen i den afhængige variabel.”