Regresjonsanalyse 4 Elise Flashcards

1
Q

Hva er målet med regresjonsdiagnostikk?

A

Målet med regresjonsdiagnostikk er å undersøke om forutsetningene regresjonsmodellen bygger på «holder vann».

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva gjør man om noen av forutsetningene er brutt?
Hva er konsekvensen av mer/større brudd av forutsetningene på konklusjonen av analysen?

A

Hvis noen av forutsetningene er brutt så må man identifisere disse, samt størrelsen.

Mer/større brudd svekker tillitten til konklusjonen fra analysen, og den har dermed lavere overførbarhet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvilke tre hovedgrupper av forutsetninger har vi?

A
  1. Forutsetninger tilknyttet modellen
  2. Forutsetninger tilknyttet residualene
  3. Forutsetninger tilknyttet generaliserbarhet/overførbarhet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva er forutsetningene tilknyttet til modellen?

A
  • Ingen/få spesifikasjonsfeil (er viktige variabler utelatt?)
  • Akseptabel grad av målefeil (tilstrekkelig reliabilitet?)
  • Akseptabel multi-kolinaritet (korrelerer prediktorene for mye?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hva er forutsetninger tilknyttet residualene?

A
  • Linearitet (er en rett linje korrekt?)
  • Normalitet (er residualene normalfordelte?)
  • Homoskedastisitet (er feilvariansen jevnt fordelt?)
  • Uavhengighet (foreligger null-korrelasjon)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva er forutsetningene tilknyttet generaliserbarhet/overførbarhet?

A
  • Uteliggere, influerer enkeltcaser sterkt?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hva handler spesifikasjonsfeil om? Hva kan konsekvensen være?

A

At modellen er korrekt spesifisert i henhold til teori eller hypoteser. Utelatelse av viktige variabler kan introdusere bias, for eksempel variabler som forårsaker suppresjon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva kan man si om målefeil i regresjon?

A

Målefeil er i praksis alltid tilstede. Reliabilitet (den systematiske målevariansen) bør utgjøre mer enn 70% av den totale variansen. For eksempel Cronbachs alfa eller McDonalds Omega på mer enn 0.70.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hva kan man si om multi-kolinaritet? Hva er konsekvensen av det?

A

Multikolinearitet oppstår når prediktorene i en regresjonsmodell er for høyt korrelert med hverandre, noe som svekker modellens stabilitet og gjør standardfeilene misvisende.
Hvis prediktorene er for lite uavhengige resulterer dette i en ustabil OLS-løsning med misvisende standardfeil.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvordan lan man sjekke graden av multikolinearitet?

A

Ved å sjekke toleranse eller VIF.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvordan beregner man toleranse, og hvilken minimum toleranseverdi er ønskelig?

A
  • Toleranse: Beregnes som 1−r^2 . En toleranseverdi over 0,30 er ønskelig.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvordan beregnes VIF? Hva slags verdi på VIF er ønskelig?

A
  • VIF (Variance Inflation Factor): Beregnes som 1/Toleranse.

o VIF angir hvor mange prosent variansen i standardfeilen (SE) øker på grunn av multikolinearitet. En VIF-verdi på 2 betyr at variansen i SE øker med 100 %,

  • Man ønsker generelt at VIF (Variance Inflation Factor) skal være lav, fordi høye VIF-verdier indikerer høy grad av multikolinearitet mellom prediktorene, noe som kan svekke stabiliteten og påliteligheten til regresjonsmodellen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hva er toleranse? Hva er rangen til toleranse?

A

Graden av varians i en prediktor som ikke forklares av de øvrige prediktorene. (1-R2). Denne får fra 0 til 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hva betyr en toleranse på 0?

A

En toleranse på 0 innebærer nulltoleranse, det vil si maks kolinaritet, altså at prediktorene er perfekt korrelerte. Dette er ikke ønskelig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hva betyr en toleranse på 1?

A

En toleranse på 1 innebærer maks toleranse, det vil si nullkorrelasjon mellom prediktorene. Dette er ønskesituasjonen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvordan kan man sjekke toleranse uten regresjonsanalyse?

A

Man kan foreta en simpel sjekk uten regresjonsanalyse ved å ta ut hele korrelasjonstabellen og sjekke om koeffisientene mellom alle prediktorene er lave.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hva er konsekvensene av multi-kolinaritet, med tanke på SE, for betavektene og R2?

A

Multikolinearitet kan gjøre det vanskelig å påvise reelle effekter på grunn av høyere standardfeil, som gir et bredere konfidens-intervall for beta-vektene, som igjen reduserer den statistiske styrken, som igjen øker risikoen for type 2-feil.

Når multikolineariteten øker, øker den delte variansen mellom X1 og X2, og den unike variansen fra X1 og X2 synker. Dette betyr at det blir vanskeligere å skille effektene av X1 og X2 i modellen, fordi deres bidrag til forklaringen av variansen overlapper mer.

Selv om den totale forklarte variansen ikke endres så mye, kan multikolinearitet føre til ustabile og misvisende estimater av koeffisientene for X1 og X2.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hva er en løsning når to variable har svært høy korrelasjon (høy kolinaritet) og lik varians?

A

Slett en av variablene.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hva bør du gjøre hvis variansen mellom variablenes som har høy kolinaritet er svært ulik?

A

Konverter variablene til Z-skårer og kombiner dem.

20
Q

Hva kan du gjøre hvis man har høy kolinaritet og det eksisterer en måleteori, og hva hvis det ikke teori?

A

Kombiner skårer i henhold til teori, eller bruk faktoranalyse og komponent-skårer hvis det ikke finnes teori.

21
Q

Hva handler forutsetningen om linearitet om i en regresjonsanalyse?

A

Det handler m vi kan forklare data gjennom en rett linje

22
Q

Hva er to måter å håndtere non-linearitet i regresjonsmodeller på?

A

1) Transformere variablene for å linearisere relasjonen: Dette innebærer at du kan bruke matematiske transformasjoner (som logaritmer eller kvadratrot) på variablene for å gjøre forholdet mellom dem lineært, slik at en lineær regresjonsmodell kan brukes. Dette er en enkel måte å korrigere non-linearitet på når målet er å justere for kovariater uten å miste mye informasjon.

2) Tilpasse en regresjonsmodell som estimerer non-linearitet: Dette innebærer å bruke en modell som direkte fanger opp non-lineære relasjoner, for eksempel ved å inkludere kvadratiske (X^2) eller kubiske (X^3) termer i regresjonen. Dette er nyttig når non-lineariteten i relasjonen er av substansiell interesse, og du ønsker å modellere denne nøyaktig.

23
Q

Når er det greit å transformere variablene for å håndtere non-linearitet?

A

Det er greit å transformere variablene hvis formålet kun er kovariatjustering.

24
Q

Hvilke variabler vil vi helst transformere for å håndtere non-linearitet? Når må vi transformere Y?

A

Man vil fortrinnsvis transformere prediktorene (X). Dette medfører tolkningsproblem kun for aktuell prediktor. Vi må transformere Y hvis transformering av X ikke strekker til.

25
Q

Når må vi transformere Y? Hva er en ulempe ved å transformere Y i regresjonsanalyse?

A

Vi må transformere Y hvis transformering av X ikke strekker til.
Å transformere Y kan forverre tolkningsproblemer for relasjonene mellom Y og alle X-variablene.

26
Q

Hvordan kan du sjekke om transformeringen har fungert? 2 måter

A

Du kan sjekke om transformeringen har fungert ved å se på et scatterplott med regresjonslinjen over datapunktene, eller ved å teste om R-sq change øker signifikant.

27
Q

Hvilke transformeringer kan brukes for å håndtere non-lineære relasjoner i regresjonsanalyse? 4 stykker

A

Du kan bruke kvadratrot (sqrt), invers (1/X), logaritme (ln(X)) eller kvadratisk transformasjon (X²) for å gjøre non-lineære relasjoner lineære. Eksempel: En naturlig logaritme-transformasjon kan linearisere en kurve som opprinnelig er kvadratisk.

28
Q

Hvordan kan du sjekke om data er normalfordelte i regresjonsanalyse?

A

Du kan sjekke normalfordeling ved:
* Histogram: Enkleste subjektive sjekk.
* Statistikk: Skewness og Kurtosis.
* Visuelt: P-P-plot eller Q-Q-plot.

29
Q

Hvilke mål beskrives normalfordeling gjennom?

A

Normalfordeling beskrives gjennom gjennomsnitt (M) og standardavvik (SD).

30
Q

Hvordan beregnes standardisert skewness og kurtosis?

A

o Skewness beregnes med formelen Z-test_skew = skewness-verdi / SE skewness.
o Kurtosis beregnes med formelen Z-test_kurt = kurtosis-verdi / SE kurtosis.

31
Q

Hva er forholdet mellom skjevhet og kurtose? Hva viser denne formelen?

A

Forholdet mellom skewness og kurtosis er: kurtosis ≥ skewness² - 2.
Formelen kurtosis ≥ skewness² - 2 viser en sammenheng mellom skewness og kurtosis. Den sier at når skewness øker, enten positivt eller negativt, vil vi forvente at kurtosis også øker for å reflektere det økte antallet ekstreme verdier i fordelingen.

32
Q

Hva påvirker standardfeilen (SE) mest: skewness eller kurtosis?

A

Standardfeilen (SE) påvirkes mer av kurtosis enn av skewness.

33
Q

Hvordan påvirkes standardfeilen (SE) av positiv og negativ kurtosis?

A

SE underestimeres når kurtosis er positiv, og overestimeres når kurtosis er negativ.

34
Q

Hvorfor aksepteres høyere Z-test-verdier ved større utvalg?

A

Høyere Z-test-verdier aksepteres ved større utvalg fordi sensitiviteten for å avvise nullhypotesen (H₀) øker.

35
Q

Hvordan ser positiv skjevhet, negativ skjevhet, og ingen skjevhet (symmetrisk fordeling) ut i en fordeling?

A
  • Positiv skjevhet: Halen er lengst på høyre side.
  • Negativ skjevhet: Halen er lengst på venstre side.
  • Ingen skjevhet (symmetrisk): Fordelingen er symmetrisk med ingen hale (normalfordeling).
36
Q

Hva er forskjellen mellom normal, lepto-kurtisk og platy-kurtisk fordeling?

A
  • Normal fordeling: Har en moderat spisshet og haler.
  • Lepto-kurtisk fordeling: Har en skarp topp med smalere fordeling og lengre haler, som indikerer mange ekstreme verdier. (leap in to the sky)
  • Platy-kurtisk fordeling: Har en flatere topp med bredere fordeling og kortere haler, som indikerer færre ekstreme verdier. (platå)
37
Q

Hva er en P-P-plot?

A

P-P plot av residualene: En grafisk metode som viser om residualene følger en normalfordeling.

38
Q

Hva er en statistisk test man kan bruke for å normalitetssjekke residualene?

A

Kolmogorov-test: En statistisk test, men den er sensitiv for store utvalg (høy power) og kan bli for streng i praksis.

39
Q

Hvis en kombinasjon av to utvalg ikke har en normalfordeling av residualene, hvordan kan man løse dette?

A

Ved å inkludere en ny relevant prediktor i en regresjonsmodell kan residualskårene bli mer normalfordelte.

40
Q

Hva er heteroscedastisitet, hva kan det indikere, og hvilke konsekvenser har det i en regresjonsmodell?

A

Heteroscedastisitet refererer til at feilvariansen varierer over prediksjonsverdiene. Dette kan indikere non-normalitet eller en feilspesifisert modell. Konsekvensen er at variansen til koeffisientene øker, men OLS-estimeringen overser dette, noe som øker risikoen for type 1-feil (å feilaktig forkaste nullhypotesen).

41
Q

Hva er de tre forutsetningene for feiltermen e i en regresjonsmodell?

A
  1. E(e) = 0: Gjennomsnittet av feiltermen er null.
  2. Konstant varians: Variansen i feiltermen er konstant over alle nivåer av prediktorene (homoscedastisitet).
  3. Ingen autokorrelasjon: Feiltermene e(i) og e(j) er ukorrelerte, noe som betyr at de er uavhengige av hverandre. E(i) og e(j) er bar efeiltermen for to ulike observasjoner
42
Q

Hvordan kan heteroskedastisitet se ut visuelt i et plot?

A

Heteroscedastisitet vises ofte som et traktmønster i et plot av residualer mot predikerte verdier. Dette betyr at spredningen (variansen) av residualene øker eller minker systematisk etter hvert som de predikerte verdiene øker. Traktformen antyder at feilen ikke er jevnt fordelt over prediksjonsverdiene, noe som bryter med antakelsen om homoskedastisitet, som krever konstant varians.

43
Q

Hva er forskjellen mellom uteliggere og innflytelsesrike observasjoner i en regresjonsmodell?

A
  • Uteliggere er ekstremt avvikende observasjoner som avviker betydelig fra prediksjonslinjen. De kan oppdages ved å plotte residualene (y-akse) mot prediksjonene (x-akse).
  • Innflytelsesrike observasjoner er observasjoner som ikke nødvendigvis er betydelige uteliggere, men som trekker prediksjonslinjen vesentlig i en annen retning.
44
Q

Hva er konsekvensen av uteliggere og innflytelsesrike observasjoner?

A

Begge typene observasjoner kan ha stor innvirkning på analysens pålitelighet, og det er viktig å identifisere og håndtere dem for å sikre robuste resultater i en regresjonsmodell. Det utfordrer også generaliserbarheten.

45
Q

Hva kan man bruke for å identifisere uteliggere og innflytelsesrike observasjoner?

A

Cook’s distanse og Mahalanobis distanse brukes for å identifisere uteliggere og innflytelsesrike observasjoner.

46
Q

Hva viser Cook’s distanse, og når bør den sjekkes?

A
  • Cook’s distanse indikerer hvor mye prediksjonsfeilen endrer seg hvis en observasjon fjernes fra modellen. Den identifiserer både:
    1. Uteliggere i prediktorene.
    2. Uteliggere i utfallsmålet (Y).
  • En Cook’s distanse (CD) skåre > 4/n eller 3 ganger gjennomsnittlig CD bør sjekkes, da dette kan indikere at observasjonen har stor innflytelse på regresjonsmodellen.