Deskriptiv statistikk og Regresjonsanalyse Flashcards
Hva mener vi med operasjonalisering? Identifiser ulike målenivå.
Operasjonalisering: Henviser til prosessen der man gjør variabler målbare, i form av en indikator. En entydig, klar og nøyaktig operasjonalisering er en forutsetning for å oppnå høy grad av reliabilitet. Dernest er det sentralt med definisjonsmessig validitet (begrepsvaliditet), overstemmelse.
Målenivå: bestemmes av hvordan variablene er definert, med hensyn til variabelens substansielle egenskaper.
- Nominalnivå: gjensidig utelukkende kategorier: Bosted.
- Ordinalnivå: Kan rangordens, men ikke måle avstanden (fattig, vanlig, rik). høyst/lavest verdi.
- Intervallnivå: kan måle avstanden. En skalaenhet utgjør like mye av den underliggende egenskapen over hele skalaen. Temperatur, årstall.
- Forholdstallsnivå. Rangere, måle avstanden og beregne forholdstall. Absolutt nullpunkt. Inntekt.
Forklar hhv.
- Sentralgrenseteoremet
- Standardfeil/avvik
- Konfidensintervall og konfidensnivå
- Signifikansnivå
Sentralgrenseteoremet: Er en variabel X normalfordelt, er sannsynnlighetsfordelingen til m (mean) også normalfordelt. Er en variabel skjevt fordelt, blir sannsynlighets fordelingen til m mer og mer lik normalfordelingen jo større utvalget er. Er variabelen svært skjevt fordelt så gjelder ikke teoremet.
Standardfeil/avvik: angir feilmargin av en måling/estimat. Indikerer at gjennomsnittet varierer på grunn av tilfeldigheter. For å halvere SE(m) til gjennomsnittet så må utvalget være 4 ganger så stort.
Konfidensintervall: er en statistisk måte å angi feilmarginen av en på. Dekke m. Nedre og øvre grense bestemmes av konfidensnivået: sikkerheten for at intervallet dekker m. Sannsynligheten for at intervallet dekker bedre og øvre grense, 0.90, 0.95, 0.99.
Signifikansnivå: er sannsynligheten for å forkaste en sann nullhypotese, den maksimale sannsynligheten som aksepteres for at et resultat skal tilskrives tilfeldigheter.
Hva er type 1-feil og type 2-feil i reg. analyse?
Type 1-feil: Å forkaste en sann nullhypotese, derfor alvorlig. Sannsynligheten for type 1-feil er den samme som signifikansnivået. P-verdi viktig. Alltid det første man ser på.
Type 2-feil: Å la være å forkaste en usann nullhypotese. Sannsynligheten for type-2 feil er betinget av
a) signifikansnivået
b) utvalgsstørrelsen
c) parameteren
d) standardavviket til uavhengige variabler
Hva er hhv.
- Kovarians?
- R2?
- Justert R2?
Kovarians indikerer hvordan variablene samvarierer, enten positivt eller negativt. For å tallfeste styrken til en systematisk relasjon mellom 2 eller flere varibler brukler vi Pearsons R - minst intervallnivå. Indikerer styrken på en lineær sammenheng: -1 og 1. Skiller mellom indirekte, direkte og spuriøse effekter.
R2: Predikert varians. Hvor stor del av variasjonen til AV som UV svarer for. Restleddet indikerer hvor nøyaktig det estimeres (sig. nivå).
Justert R2: gjør seg spesielt gjeldende når det er flere uv-er. R2 er alltid litt for høy og bør korrigeres.
Hvilke krav må OLS-reg oppfylle?
Særlig mtp. restleddet.
1) Restleddet skal være normalfordelt-
- Homoskedastisk: komnstant varians. Være uavhengige: ikke korrelerte (kolinearitet). Ingen autokorrelasjon.
2) Ingen omitted variables eller outliers (skjevfordeling).
3) Minst 30 resp. + 15 resp per. UV.
4) Ikke ha NMAR (Not missing at random), denne type missing er vanskeligst å håndtere.
For å være BLUE.
-> Best linear unbiased estimates.
Forklar OLS-reg. linjen.
Y = b0 + b1 + e
b0 og b1 er reg. koeffisienter, og transformeres om til standardskårer: standardiserte.
b0 = konstantleddet (intercept): punktet der regresjonslinjen skjærer y-aksen når x = 0.
b1 = helningskoeffisienten (slope): hvor mye regresjonslinjen øker eller avtar med en skalaenhets økning i x.
e= restledd. Indviduelle avvik fra reg.linjen. Avviket mellom predikert og observert Y for hver respondent. normalfordelt, ikke autokorrelasjon, homoskedastisk.