Regresjonsanalyse 4 Elise Flashcards
Hva er målet med regresjonsdiagnostikk?
Målet med regresjonsdiagnostikk er å undersøke om forutsetningene regresjonsmodellen bygger på «holder vann».
Hva gjør man om noen av forutsetningene er brutt?
Hva er konsekvensen av mer/større brudd av forutsetningene på konklusjonen av analysen?
Hvis noen av forutsetningene er brutt så må man identifisere disse, samt størrelsen.
Mer/større brudd svekker tillitten til konklusjonen fra analysen, og den har dermed lavere overførbarhet.
Hvilke tre hovedgrupper av forutsetninger har vi?
- Forutsetninger tilknyttet modellen
- Forutsetninger tilknyttet residualene
- Forutsetninger tilknyttet generaliserbarhet/overførbarhet
Hva er forutsetningene tilknyttet til modellen?
- Ingen/få spesifikasjonsfeil (er viktige variabler utelatt?)
- Akseptabel grad av målefeil (tilstrekkelig reliabilitet?)
- Akseptabel multi-kolinaritet (korrelerer prediktorene for mye?
Hva er forutsetninger tilknyttet residualene?
- Linearitet (er en rett linje korrekt?)
- Normalitet (er residualene normalfordelte?)
- Homoskedastisitet (er feilvariansen jevnt fordelt?)
- Uavhengighet (foreligger null-korrelasjon)
Hva er forutsetningene tilknyttet generaliserbarhet/overførbarhet?
- Uteliggere, influerer enkeltcaser sterkt?
Hva handler spesifikasjonsfeil om? Hva kan konsekvensen være?
At modellen er korrekt spesifisert i henhold til teori eller hypoteser. Utelatelse av viktige variabler kan introdusere bias, for eksempel variabler som forårsaker suppresjon.
Hva kan man si om målefeil i regresjon?
Målefeil er i praksis alltid tilstede. Reliabilitet (den systematiske målevariansen) bør utgjøre mer enn 70% av den totale variansen. For eksempel Cronbachs alfa eller McDonalds Omega på mer enn 0.70.
Hva kan man si om multi-kolinaritet? Hva er konsekvensen av det?
Multikolinearitet oppstår når prediktorene i en regresjonsmodell er for høyt korrelert med hverandre, noe som svekker modellens stabilitet og gjør standardfeilene misvisende.
Hvis prediktorene er for lite uavhengige resulterer dette i en ustabil OLS-løsning med misvisende standardfeil.
Hvordan lan man sjekke graden av multikolinearitet?
Ved å sjekke toleranse eller VIF.
Hvordan beregner man toleranse, og hvilken minimum toleranseverdi er ønskelig?
- Toleranse: Beregnes som 1−r^2 . En toleranseverdi over 0,30 er ønskelig.
Hvordan beregnes VIF? Hva slags verdi på VIF er ønskelig?
- VIF (Variance Inflation Factor): Beregnes som 1/Toleranse.
o VIF angir hvor mange prosent variansen i standardfeilen (SE) øker på grunn av multikolinearitet. En VIF-verdi på 2 betyr at variansen i SE øker med 100 %,
- Man ønsker generelt at VIF (Variance Inflation Factor) skal være lav, fordi høye VIF-verdier indikerer høy grad av multikolinearitet mellom prediktorene, noe som kan svekke stabiliteten og påliteligheten til regresjonsmodellen
Hva er toleranse? Hva er rangen til toleranse?
Graden av varians i en prediktor som ikke forklares av de øvrige prediktorene. (1-R2). Denne får fra 0 til 1.
Hva betyr en toleranse på 0?
En toleranse på 0 innebærer nulltoleranse, det vil si maks kolinaritet, altså at prediktorene er perfekt korrelerte. Dette er ikke ønskelig.
Hva betyr en toleranse på 1?
En toleranse på 1 innebærer maks toleranse, det vil si nullkorrelasjon mellom prediktorene. Dette er ønskesituasjonen.
Hvordan kan man sjekke toleranse uten regresjonsanalyse?
Man kan foreta en simpel sjekk uten regresjonsanalyse ved å ta ut hele korrelasjonstabellen og sjekke om koeffisientene mellom alle prediktorene er lave.
Hva er konsekvensene av multi-kolinaritet, med tanke på SE, for betavektene og R2?
Multikolinearitet kan gjøre det vanskelig å påvise reelle effekter på grunn av høyere standardfeil, som gir et bredere konfidens-intervall for beta-vektene, som igjen reduserer den statistiske styrken, som igjen øker risikoen for type 2-feil.
Når multikolineariteten øker, øker den delte variansen mellom X1 og X2, og den unike variansen fra X1 og X2 synker. Dette betyr at det blir vanskeligere å skille effektene av X1 og X2 i modellen, fordi deres bidrag til forklaringen av variansen overlapper mer.
Selv om den totale forklarte variansen ikke endres så mye, kan multikolinearitet føre til ustabile og misvisende estimater av koeffisientene for X1 og X2.
Hva er en løsning når to variable har svært høy korrelasjon (høy kolinaritet) og lik varians?
Slett en av variablene.