Regresjon 4 Flashcards

1
Q

Hva er hovedmålet med regresjonsdiagnostikk? Hva gjør man hvis forutsetningene er brutt? Hva er konsekvensen av brudd av forutsetningene?

A

Hovedmålet med regresjonsdiagnostikk er å undersøke om forutsetningene som regresjonsmodellen bygger på “holder vann”.

Hvis noen av forutsetningene er brutt så må man identifisere disse, samt størrelsen.

Mer/større brudd svekker tillitten til konklusjonen fra analysen, og den har dermed lavere overførbarhet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva er de tre hovedgruppene for forutsetninger til en regresjon?

A
  1. Forutsetninger tilknyttet modellen
  2. Forutsetninger tilknyttet residualene
  3. Forutsetninger tilknyttet generaliserbarhet/overførbarhet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva er spesifikasjonsfeil i en regresjonsmodell? Hvilke konsekvenser har det?

A

Spesifikasjonsfeil oppstår når en modell ikke er korrekt spesifisert i henhold til teori eller hypoteser, som ved utelatelse av viktige variabler. Dette kan introdusere bias, for eksempel ved at visse variabler undertrykker eller reduserer styrken til beta-vektene.

Spesifikasjonsfeil kan føre til konsekvenser som skjevhet, redusert forklaringskraft (lavere R²), og feil konklusjoner.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva er målefeil og hvordan kan det vurderes?

A

Målefeil er i praksis alltids til stede, og refererer til at variablene ikke måles perfekt. Reliabiliteten, som bør utgjøre mer enn 70 % av den totale variansen, vurderes gjennom metoder som Cronbach’s alpha eller McDonald’s omega (> 0.70).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hva er multikolinearitet? Hva er konsekvensen av multikolinaritet?

A

Multikolinearitet oppstår når prediktorene i en regresjonsmodell er for høyt korrelert med hverandre, noe som svekker modellens stabilitet og gjør standardfeilene misvisende.

Hvis prediktorene er for lite uavhengige resulterer dette i en ustabil OLS-løsning med misvisende standardfeil.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva er konsekvensen av høy multikolinearitet på beta-vektene?

A

Høy multikolinearitet øker standardfeilen (SE), noe som gir bredere konfidensintervaller, lavere statistisk styrke, og økt risiko for type II-feil (ikke avvise en falsk nullhypotese).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvordan kan man redusere høy multikolinearitet?

A

Hvis det kun er to variabler og en svært høy korrelasjon mellom disse, så kan man slette den ene variabelen såfremt det er lik varians i begge.

Hvis variansen er svært ulik mellom variablene, konverter til Z-skårer og kombiner.

Hvis det eksisterer måleteorier, kombiner skårer i henhold til teori. Hvis det ikke eksiterer noe teori, bruk faktoranalyse og komponent-skårer.

Valg av strategi avhenger av modellens formål og dataenes egenskaper.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva er linearitet i regresjonsanalyse?

A

Linearitet betyr at dataene kan forklares ved en rett linje. Hvis forholdet mellom variabler ikke er lineært, vil regresjonsmodellen være feilaktig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hva kan man gjøre hvis det er non-linearitet i dataene?

A

Man kan enten transformere variablene for å linearisere relasjonen. Dette er en grei løsning hvis formålet kun er kovariatjustering.

En annen mulighet er å tilpasse en regresjonsmodell som estimerer non-lineæriteten, for eksempel med kvadratiske eller kubiske variabler. Dette er å foretrekke hvis den non-lineære relasjonen er av substansiell interesse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hva er homoskedastisitet?

A

Homoscedastisitet innebærer at feilvariansen er jevnt fordelt over alle nivåer av prediksjonsverdier.

Heteroskedastisitet oppstår når feilvariansen varierer over prediksjonsverdiene. Det er residualene som skal være homodeskastiske.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hva er konsekvensen av heteroskedastisitet?

A

Heteroscedastisitet betyr at variansen i residualene (feilene) ikke er konstant over alle nivåer av de predikerte verdiene i en regresjonsmodell.

Negative effekter på resultatene i analysen:

  1. Ukorrekte standardfeil
    Når heteroscedastisitet er til stede, blir standardfeilene til koeffisientene feilaktig estimert. I en OLS-modell antar man at residualene har en konstant varians (homoscedastisitet). Hvis denne antakelsen brytes, undervurderer eller overvurderer OLS-estimater standardfeilene.
  2. Økt risiko for type I-feil
    På grunn av de ukorrekte standardfeilene kan konfidensintervallene bli for smale, noe som øker sjansen for at vi feilaktig avviser en sann nullhypotese (type I-feil).
  3. Bias i hypotesetesting
    Selv om OLS-koeffisientene fortsatt kan være upartiske under heteroscedastisitet, vil hypotesetestene (t- og F-tester) bli misvisende fordi de avhenger av riktige estimater av standardfeilene. Dette kan føre til feil konklusjoner om signifikansen til prediktorene.
  4. Feilaktige prediksjoner
    Feil i estimeringen av standardfeilene og koeffisientene kan føre til feilaktige prediksjoner. Modellen kan bli dårlig til å forutsi verdier for den avhengige variabelen, spesielt i områder med større residualvarianser.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva innebærer normalitetsforutsetningen i regresjonsanalyse?

A

Normalitetsforutsetningen handler om at residualene i en regresjonsmodell skal være normalfordelte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hva er skjevhet (skewness) i datafordeling?

A

Skjevhet (skewness) beskriver asymmetrien i en datafordeling.

Positiv skjevhet: Hale mot høyre, hvor de fleste observasjoner ligger til venstre i fordelingen.

Negativ skjevhet: Hale mot venstre, hvor de fleste observasjoner ligger til høyre.

Skjevhet indikerer om dataene er ujevnt fordelt rundt gjennomsnittet.

Dette kan sjekkes ved å bruke P-P plott, histogram, eller statistiske tester som Kolmogorov-Smirnov-testen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvordan tolkes verdier av skjevhet?

A

Skjevhet ≈ 0: Dataene er tilnærmet symmetrisk fordelt.

Positiv skjevhet (> 0): Fordelingen har en hale mot høyre (flere lave verdier).

Negativ skjevhet (< 0): Fordelingen har en hale mot venstre (flere høye verdier).

Dette påvirker hvordan vi tolker gjennomsnittet i forhold til medianen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hva er kurtose i en fordeling? Nevn de ulike typene.

A

Kurtose beskriver hvor “spiss” eller “flat” en datafordeling er sammenlignet med en normalfordeling.

Leptokurtisk: Fordelingen er spissere enn normalt (mange observasjoner nær gjennomsnittet).

Platykurtisk: Fordelingen er flatere enn normalt (mer varians i utkanten av fordelingen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvordan tolkes verdier av kurtose?

A

Kurtose ≈ 0: Fordelingen ligner normalfordelingen.

Positiv kurtose (> 0): Fordelingen er mer spiss enn en normalfordeling, med flere data nær gjennomsnittet.

Negativ kurtose (< 0): Fordelingen er flatere enn en normalfordeling, med flere data i haleområdene

17
Q

Hva er konsekvensen av høy skjevhet og kurtose?

A

Høy skjevhet eller kurtose kan føre til at vanlige statistiske metoder som OLS (Ordinary Least Squares) blir mindre pålitelige.

For eksempel kan standardfeilene bli misvisende, og vi kan trekke feilaktige konklusjoner om signifikansen til variablene.

18
Q

Hvordan kan man identifisere skjevhet og kurtose?

A

Skjevhet og kurtose kan identifiseres ved å se på deskriptiv statistikk (skewness- og kurtoseverdier) eller ved å bruke grafiske metoder som histogrammer og P-P- eller Q-Q-plott.

19
Q

Hvordan regnes Z-test for skjevhet (skewness)?

A

Z-test skew = skjevhetsverdi / SE skjevhet.

Dette beregner hvor mange standardfeil skjevheten i dataene avviker fra null (symmetri).

20
Q

Hvordan regnes Z-test for kurtose?

A

Z-test kurt = kurtoseverdi / SE kurtose.
Denne testen viser hvor mye spissheten (eller flatheten) i datafordelingen avviker fra en normalfordeling.

21
Q

Hva er relasjonen mellom skjevhet og kurtose?

A

Relasjonen mellom skjevhet og kurtose er definert som:

kurt ≥ skew² - 2.

Dette betyr at kurtose alltid er større enn eller lik skjevhetens kvadrattall minus 2, noe som setter en grense for sammenhengen mellom skjevhet og kurtose.

22
Q

Hvordan påvirker kurtose standardfeilen (SE)?

A

Standardfeilen påvirkes mer av kurtose enn av skjevhet. Når kurtose er positiv (spiss fordeling), underestimeres SE, og når kurtose er negativ (flat fordeling), overestimeres SE.

23
Q

Hvordan endres Z-testverdier med større utvalg?

A

Høyere Z-testverdier aksepteres ved større utvalg fordi sensitiviteten for å avvise nullhypotesen (H₀) øker med økende utvalg. Dette betyr at man er mer tilbøyelig til å finne signifikante resultater i større utvalg.

24
Q

Hva er de tre hovedforutsetningene for feiltermen (e) i en regresjonsmodell?

A

Residualene(e) i en regresjonsmodell må oppfylle tre viktige forutsetninger:

E(e) = 0:
Gjennomsnittet av feiltermen er null.

Konstant varians:
Variansen i feiltermen er konstant over alle nivåer av prediktorene (homoscedastisitet).

Ingen autokorrelasjon: Feiltermene e(i) og e(j) er ukorrelerte, noe som betyr at de er uavhengige av hverandre. E(i) og e(j) er bar efeiltermen for to ulike observasjoner

25
Q

Hva er et uteliggervariasjonsproblem i regresjonsanalyse?

A

Uteliggere er observasjoner som ligger langt fra prediksjonslinjen og kan ha stor innvirkning på regresjonsresultatene. Disse kan trekke regresjonslinjen og påvirke resultatene sterkt.

26
Q

Hva er Cook’s D og Mahalanobis Distance?

A

Cook’s D viser hvor mye modellen endrer seg hvis du fjerner en enkelt observasjon. Dette hjelper deg med å identifisere om en observasjon er en uteligger som påvirker modellen mye.

Mahalanobis Distance måler hvor langt unna en observasjon er fra gjennomsnittet av alle prediktorene. Hvis en observasjon har en stor Mahalanobis Distance, betyr det at den har høy “leverage,” noe som kan bety at denne observasjonen har stor innflytelse på modellens resultater.

27
Q

Hva er P-P plott og hvorfor brukes det?

A

P-P plott brukes til å visualisere grad av normalitet i residualene. Hvis punktene ligger nær en rett linje, indikerer det at residualene er tilnærmet normalfordelte.

28
Q

Hva er residualene i en regresjonsmodell, og hvorfor er de viktige?

A

Residualene er forskjellen mellom observerte og predikerte verdier. De er viktige fordi modellens gyldighet avhenger av at residualene oppfyller forutsetninger som normalitet, uavhengighet og homoscedastisitet.

29
Q

Hva er forutsetningene tilknyttet til modellen?

A
  1. Ingen/få spesifikasjonsfeil (er viktige variabler utelatt?)
  2. Akseptabel grad av målefeil (tilstrekkelig reliabilitet?)
  3. Akseptabel multi-kolinaritet (korrelerer prediktorene for mye?
30
Q

Hva er forutsetninger tilknyttet residualene?

A
  1. Linearitet (er en rett linje korrekt?)
  2. Normalitet (er residualene normalfordelte?)
  3. Homoskedastisitet (er feilvariansen jevnt fordelt?)
  4. Uavhengighet (foreligger null-korrelasjon)
31
Q

Hva er forutsetningene tilknyttet generaliserbarhet/overførbarhet?

A

Uteliggere, influerer enkeltcaser sterkt?

32
Q

Nevn noen typer spesifikasjonsfeil.

A

Det er flere typer spesifikasjonsfeil, blant annet:

  1. Utelatelse av viktige variabler
    Viktige prediktorer er utelatt, noe som fører til bias i koeffisientene.
  2. Inklusjon av irrelevante variabler
    Irrelevante variabler skaper støy, øker varians og kompliserer modellen uten å bidra til forklaringskraften.
  3. Feil modellform
    Når en lineær modell brukes på ikke-lineære forhold, fanger modellen ikke opp den sanne relasjonen.
33
Q

Hvordan lan man sjekke graden av multikolinearitet?

A

Ved å sjekke toleranse eller VIF.

34
Q

Hvordan beregner man toleranse, og hvilken minimum toleranseverdi er ønskelig?

A

Beregnes som 1−r^2 . En toleranseverdi over 0,30 er ønskelig.

35
Q

Hvordan beregnes VIF? Hva slags verdi på VIF er ønskelig?

A

Beregnes som 1/Toleranse.

VIF angir hvor mange prosent variansen i standardfeilen (SE) øker på grunn av multikolinearitet.

En VIF-verdi på 2 betyr at variansen i SE øker med 100 %,

Man ønsker generelt at VIF (Variance Inflation Factor) skal være lav, fordi høye VIF-verdier indikerer høy grad av multikolinearitet mellom prediktorene, noe som kan svekke stabiliteten og påliteligheten til regresjonsmodellen

36
Q

Hva er toleranse? Hva er rangen til toleranse?

A

Graden av varians i en prediktor som ikke forklares av de øvrige prediktorene. (1-R2). Denne får fra 0 til 1.

37
Q

Hva betyr en toleranse på 0?

A

En toleranse på 0 innebærer nulltoleranse, det vil si maks kolinaritet, altså at prediktorene er perfekt korrelerte. Dette er ikke ønskelig.

38
Q

Hva betyr en toleranse på 1?

A

En toleranse på 1 innebærer maks toleranse, det vil si nullkorrelasjon mellom prediktorene. Dette er ønskesituasjonen.