Regresjon 4 Flashcards
Hva er hovedmålet med regresjonsdiagnostikk? Hva gjør man hvis forutsetningene er brutt? Hva er konsekvensen av brudd av forutsetningene?
Hovedmålet med regresjonsdiagnostikk er å undersøke om forutsetningene som regresjonsmodellen bygger på “holder vann”.
Hvis noen av forutsetningene er brutt så må man identifisere disse, samt størrelsen.
Mer/større brudd svekker tillitten til konklusjonen fra analysen, og den har dermed lavere overførbarhet.
Hva er de tre hovedgruppene for forutsetninger til en regresjon?
- Forutsetninger tilknyttet modellen
- Forutsetninger tilknyttet residualene
- Forutsetninger tilknyttet generaliserbarhet/overførbarhet
Hva er spesifikasjonsfeil i en regresjonsmodell? Hvilke konsekvenser har det?
Spesifikasjonsfeil oppstår når en modell ikke er korrekt spesifisert i henhold til teori eller hypoteser, som ved utelatelse av viktige variabler. Dette kan introdusere bias, for eksempel ved at visse variabler undertrykker eller reduserer styrken til beta-vektene.
Spesifikasjonsfeil kan føre til konsekvenser som skjevhet, redusert forklaringskraft (lavere R²), og feil konklusjoner.
Hva er målefeil og hvordan kan det vurderes?
Målefeil er i praksis alltids til stede, og refererer til at variablene ikke måles perfekt. Reliabiliteten, som bør utgjøre mer enn 70 % av den totale variansen, vurderes gjennom metoder som Cronbach’s alpha eller McDonald’s omega (> 0.70).
Hva er multikolinearitet? Hva er konsekvensen av multikolinaritet?
Multikolinearitet oppstår når prediktorene i en regresjonsmodell er for høyt korrelert med hverandre, noe som svekker modellens stabilitet og gjør standardfeilene misvisende.
Hvis prediktorene er for lite uavhengige resulterer dette i en ustabil OLS-løsning med misvisende standardfeil.
Hva er konsekvensen av høy multikolinearitet på beta-vektene?
Høy multikolinearitet øker standardfeilen (SE), noe som gir bredere konfidensintervaller, lavere statistisk styrke, og økt risiko for type II-feil (ikke avvise en falsk nullhypotese).
Hvordan kan man redusere høy multikolinearitet?
Hvis det kun er to variabler og en svært høy korrelasjon mellom disse, så kan man slette den ene variabelen såfremt det er lik varians i begge.
Hvis variansen er svært ulik mellom variablene, konverter til Z-skårer og kombiner.
Hvis det eksisterer måleteorier, kombiner skårer i henhold til teori. Hvis det ikke eksiterer noe teori, bruk faktoranalyse og komponent-skårer.
Valg av strategi avhenger av modellens formål og dataenes egenskaper.
Hva er linearitet i regresjonsanalyse?
Linearitet betyr at dataene kan forklares ved en rett linje. Hvis forholdet mellom variabler ikke er lineært, vil regresjonsmodellen være feilaktig.
Hva kan man gjøre hvis det er non-linearitet i dataene?
Man kan enten transformere variablene for å linearisere relasjonen. Dette er en grei løsning hvis formålet kun er kovariatjustering.
En annen mulighet er å tilpasse en regresjonsmodell som estimerer non-lineæriteten, for eksempel med kvadratiske eller kubiske variabler. Dette er å foretrekke hvis den non-lineære relasjonen er av substansiell interesse.
Hva er homoskedastisitet?
Homoscedastisitet innebærer at feilvariansen er jevnt fordelt over alle nivåer av prediksjonsverdier.
Heteroskedastisitet oppstår når feilvariansen varierer over prediksjonsverdiene. Det er residualene som skal være homodeskastiske.
Hva er konsekvensen av heteroskedastisitet?
Heteroscedastisitet betyr at variansen i residualene (feilene) ikke er konstant over alle nivåer av de predikerte verdiene i en regresjonsmodell.
Negative effekter på resultatene i analysen:
- Ukorrekte standardfeil
Når heteroscedastisitet er til stede, blir standardfeilene til koeffisientene feilaktig estimert. I en OLS-modell antar man at residualene har en konstant varians (homoscedastisitet). Hvis denne antakelsen brytes, undervurderer eller overvurderer OLS-estimater standardfeilene. - Økt risiko for type I-feil
På grunn av de ukorrekte standardfeilene kan konfidensintervallene bli for smale, noe som øker sjansen for at vi feilaktig avviser en sann nullhypotese (type I-feil). - Bias i hypotesetesting
Selv om OLS-koeffisientene fortsatt kan være upartiske under heteroscedastisitet, vil hypotesetestene (t- og F-tester) bli misvisende fordi de avhenger av riktige estimater av standardfeilene. Dette kan føre til feil konklusjoner om signifikansen til prediktorene. - Feilaktige prediksjoner
Feil i estimeringen av standardfeilene og koeffisientene kan føre til feilaktige prediksjoner. Modellen kan bli dårlig til å forutsi verdier for den avhengige variabelen, spesielt i områder med større residualvarianser.
Hva innebærer normalitetsforutsetningen i regresjonsanalyse?
Normalitetsforutsetningen handler om at residualene i en regresjonsmodell skal være normalfordelte.
Hva er skjevhet (skewness) i datafordeling?
Skjevhet (skewness) beskriver asymmetrien i en datafordeling.
Positiv skjevhet: Hale mot høyre, hvor de fleste observasjoner ligger til venstre i fordelingen.
Negativ skjevhet: Hale mot venstre, hvor de fleste observasjoner ligger til høyre.
Skjevhet indikerer om dataene er ujevnt fordelt rundt gjennomsnittet.
Dette kan sjekkes ved å bruke P-P plott, histogram, eller statistiske tester som Kolmogorov-Smirnov-testen.
Hvordan tolkes verdier av skjevhet?
Skjevhet ≈ 0: Dataene er tilnærmet symmetrisk fordelt.
Positiv skjevhet (> 0): Fordelingen har en hale mot høyre (flere lave verdier).
Negativ skjevhet (< 0): Fordelingen har en hale mot venstre (flere høye verdier).
Dette påvirker hvordan vi tolker gjennomsnittet i forhold til medianen.
Hva er kurtose i en fordeling? Nevn de ulike typene.
Kurtose beskriver hvor “spiss” eller “flat” en datafordeling er sammenlignet med en normalfordeling.
Leptokurtisk: Fordelingen er spissere enn normalt (mange observasjoner nær gjennomsnittet).
Platykurtisk: Fordelingen er flatere enn normalt (mer varians i utkanten av fordelingen).