Regression Flashcards by Julie Holst Larsen

Hvad er forskellen på en independent, paired, pearson korrelation og bivariat regression?

Independent = forskellen mellem variable

Paried = forskellen mellem variable

Pearson korrelationsanalyse = sammenhæng mellem variable

Bivariat = Sammenhæng mellem stigning i variable

How well did you know this?

Not at all

Perfectly

Hvordan måler man, hvor stor effekterne er i hhv. t-test, chi-squared test, korrelationsanalyser og lineær regression?

T-test = Cohen’s d
Chi Square Test = Phi og Cramer’s V
Korrelationsanalyse = korrelationskoefficienten
Lineær regression = Regressionskoefficient (betakoefficienten)

How well did you know this?

Not at all

Perfectly

Hvad er regressionsanalyser?

Regressionsanalyser handler om at kunne forudsige sammenhænge

How well did you know this?

Not at all

Perfectly

Hvordan måler man effektstørrelsen, såfremt der er signifikans i lineær regressionsanalyser?

Det måler man via regressionskoefficienten (betakoefficienten)

How well did you know this?

Not at all

Perfectly

Hvad er R-squared (R^2) ?

Hvor meget af variansen er forklaret af vores data.

Jo højere R-squared er, jo mere kan man forklare.

How well did you know this?

Not at all

Perfectly

Hvad er ustandardiserede betakoefficient?

Det relaterer sig til hældningen, men viser den direkte affekt.

Den måler på den skala, de respektive uafhængige variabler er på (aka den bruger ens skala fra ens spørgeskema).

How well did you know this?

Not at all

Perfectly

Hvad er Standardiserede betakoefficient?

Det relaterer sig til hældningen, men viser effekten målt standardafvigelsen.

Man bruger standardafvigelsen til at standardisere, at al ens data bliver standardiseret til én data således forskellige skalaer kan holdes op mod hinanden (F.eks. Kan man sammenligne en 5-skala med en 7-skala)

How well did you know this?

Not at all

Perfectly

Hvad er standardfejl (std. Error of the estimate)?

Standardfejl er standardafvigelsen forbundet med de ustandardiserede residualer (forskelle mellem observerede værdier versus det forudsagte)

How well did you know this?

Not at all

Perfectly

Hvornår bruger man de ustandardiserede versus standardiserede betafoefficienter?

Hvis man har en analyse hvor alle en uafhængige variabler er på samme skala (e.g. likertskala 1 - 5) kan man sagtens bruge de ustandardiserede betakoefficient. De har samme skala så de kan sagtens sammenlignes direkte.

Hvis vi derimod har forskellige variabler med forskellige skala (e.g. køn, alder, antal års uddannelse, likertskala 1- 5) så skal man bruge de standardiserede betakoefficient for at se hvilken variable har størst effekt. Hvis man ikke gør det ignorer man at de opererer på forskellige skala som gør at de ikke direkte kan sammenlignes.

How well did you know this?

Not at all

Perfectly

Hvad er forskellen på homoskedasticitet og heteroskedasticitet? Og hvorfor kan der være et problem?

Homoskedasticitet = Dataen er ligeligt fordelt over linjen (dermed er grundantagelse 7 i regressionsnalayseropfyldt)

Heteroskedasticitet = Standardafvigelsen vil variere meget, hvorfor lineær regressionsanalyse ikke vil være muligt, (grundantagelse 7 er dermed ikke er opfyldt, hvis der udvises heteroskedasticitet)

How well did you know this?

Not at all

Perfectly

Forklar dummy variabler

Er noget til stede (1), betyder det, at noget andet ikke er til stede (0)

(F.eks. Mand/kvinde)

How well did you know this?

Not at all

Perfectly

Hvad skal man være særlig opmærksom på, hvis man arbejder med kategorisk data i sin regressionsanalyse?

Hvis man laver dem på kategorisk data, skal man huske, at de skal have ét reference punkt, og dummy kode de andre variabel

F.eks. Kan ens referencepunkt være ”single”, og så kan hhv. ”gift” og ”fraskilt” være ens dummy koder

Der skal altså være noget over for noget andet.

How well did you know this?

Not at all

Perfectly

Hvad er bivariat regression?

Man undersøger smamenhæng mellem stigning i variable.

En bivariat regression er, der hvor vi prøver at forudse ændringen i en værdi, baseret på ændringen i en anden værdi (der er dermed to variabler i en bivariat regression = én afhængig og én uafhængig variabel).

How well did you know this?

Not at all

Perfectly

Hvilken form for data bruges til bivariat regression? (kategorisk/kontinuerligt)

Kontinuerlig data - såfremt der er kategorisk, skal man dummy kode

How well did you know this?

Not at all

Perfectly

Hvad er de to vigtigste begreber i bivariat regression?

Hældning = repræsenterer mængden af ændring i Y som funktion af en enhedsstigning i X. Værdien af en hældning kan enten være positiv eller negativ. Det måles gennem betakoefficient.
Skæringspunktet = kan betragtes som grundlaget for regressionsligningen, da det kan betragtes som udgangspunktet for ligningen. Skæringspunktet repræsenterer den forudsagte værdi af Y, når X er nul

How well did you know this?

Not at all

Perfectly

Hvilke grundantagelser er der i bivariat regression?

Study These Flashcards

Tilfældig stikprøve: Alle individer i populationen skal have lige stor chance for at blive udvalgt til stikprøven.
Uafhængighed af observationerne: Deltagere i undersøgelsen har ikke påvirket hinanden med hensyn til variablerne af interesse.
Variable(r) er interval/ratio skala (eller minimum 5-trins skala på den ordinal målestok).
Linearitet: Person korrelation antager et lineært forhold mellem de afhængige og uafhængige variable.
Normalt distribuerede residualer: For at evaluere normalitetsantagelsen undersøge fordelingen af Jeres residualer. Benyt IQRx3 reglen.
Uafhængighed af Fejl (relevant for tidsserie studier): Observationer skal være uafhængige af hinanden. Brug Durbin-Watson her.
Dine data skal vise homoscedasiticitet (Dette skal man teste for, da man skal kunne vurdere, hvor valid ens data er)

Hvorfor er det vigtigt at bruge IQR3-reglen i bivariat regression?

Study These Flashcards

Outliers vil påvirke bivariate regressioner rigtig meget, hvorfor IQx3 reglen SKAL benyttes

Hvilken form for data bruges til multipel regression? (kategorisk/kontinuerligt)

Study These Flashcards

Kontinuerligt data

Man kan ikke have kategorisk data i en regressionsanalyse, da de er gensidigt udelukkende, hvorfor man ikke kan udregne gennemsnit. Derfor omsætter man dummy variabler.

Hvilke grundantagelser er der i multipel regression?

Study These Flashcards

Tilfældig stikprøve: Alle individer i populationen skal have lige stor chance for at blive udvalgt til stikprøven.
Uafhængighed af observationerne: Deltagere i undersøgelsen har ikke påvirket hinanden med hensyn til variablerne af interesse.
Variable(r) er interval/ratio skala (eller minimum 5-trins skala på den ordinal målestok).
Linearitet: Person korrelation antager et lineært forhold mellem de afhængige og uafhængige variable.
Normalt distribuerede residualer: For at evaluere normalitetsantagelsen undersøge fordelingen af Jeres residualer. Benyt IQRx3 reglen.
Uafhængighed af Fejl (relevant for tidsserie studier): Observationer skal være uafhængige af hinanden. Brug Durbin-Watson her.
Dine data skal vise homoscedasiticitet (Dette skal man teste for, da man skal kunne vurdere, hvor valid ens data er)
Fravær af multikollinaritet

Hvornår er boksplot nyttige?

Study These Flashcards

Boxplots er især nyttige til at vise den centrale tendens og en skæv frekvensfordeling (f.eks. ved skew og dermed interkvartilområdet).

Hvad bruges IQR3-reglen til?

Study These Flashcards

IQR3-reglen bruges til at identificere outliers i interkvartilområdet.

Hvad er Durbin Watson?

Study These Flashcards

Kontrollere hvor stor uafhængighed der er mellem observationerne.

Durbin-Watson-statistikken variere fra 0 til 4.

En værdi på 2 indikerer det totale fravær af en seriel korrelation (hvilket er en “god” ting for regressionsanalysen).

Den bruges typisk ved tidsstudie.

Forklar seriel korrelation

Study These Flashcards

Hvis observationerne ikke er uafhængige af hinanden (ofte tidsmæssig data)

Hvordan måles fravær af multikollinaritet i multipel regression?

Study These Flashcards

Via tolerance og VIF

Tolerance = Variation i en uafhængig variable som ikke er forklaret af de andre uafhængige variabler. Hvis du rammer 0,10 eller under er du i problemer.

Variance Inflation Factor (VIF) = Måler hvor meget af variansen af en uafhængig variabel er påvirket (eller oppustet) af dens interaktion/korrelation med de andre uafhængige variabler. Maximum VIF af 10.

Hvad skal man gøre, hvis man observerer multikollinaritet?

Hvis man observerer en multikollinaritet i sit datasæt, skal denne data slettes. Derefter skal man lave testen forfra.

Hvad er multikollinaritet?

Det er seriel korrelation. Det betyder, at de uafhængige variabler skal sige noget om den afhængige variabel. I regressionsanalyser ønsker man at have totalt fravær af en seriel korrelation (en Durbin Watson værdi på 2)

Hvad er semi-partial correlations?

Semi-partial correlation siger noget om det unikke bidrag fra hver uafhængig variabel. Hvor meget af variansandelen i den afhængige variabel er forklaret af den uafhængige variabel.

Hvilke hovedopgaver har Multipel regression?

1. Maksimalt at forudsige den afhængige variabel med en regressionsligning (model R2) 2. Estimere de unikke bidrag fra hver uafhængige variable på regressionsligningen.

Hvad relaterer fejlmargin sig til?

Den relaterer sig til grundantagelse 7 om homoskedasticitet. "Når data opfylder kravene til homoskedasticitet, er fejlmarginen jævnt fordelt og ensartet, hvilket betyder, at fejlene ikke systematisk varierer med stigningen i den afhængige variabel."

Regression Flashcards

Inkl. Bivariat regression, multipel regression (29 cards)