Regresjonsanalyse 1 Flashcards

1
Q

Hva kan man si om bruken av regresjon?

A

Regresjon er den mest brukte og eldste statistiske analyse, og benyttet innen nær sagt alle fagfelt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva har ANOVA og lineær regresjon til felles?

A

Begge er varianter av den generelle lineære modellen (GLM).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvilke forutsetninger har regresjon til felles med ANOVA og hvilke er unike for regresjon?

A

Forutsetninger regresjon har til felles med ANOVA er uavhengighet, homoskedastisitet og normalitet.

I tillegg har regresjon en forutsetning om lineæritet og lav kolinaritet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva slags variabler er de uavhengige i regresjon?

A

De kan enten være kontinuerlige eller kategoriske.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hva er forskjellen på korrelasjonskoeffisienter og regresjonkoeffisienter?

A

Korrelasjonskoeffisienten beskriver styrken i relasjonen mellom to variabler.

Regresjonskoeffisienten beskriver også styrken, men den kan også predikere.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva er hovedbruksområdene for multippel lineær regresjon?

A

Individuelle forskjeller: Man kan bruke MLR for å avgjøre hvilke variabler (slik som individuelle forskjeller, eks, personlighetstrekk, aktivitetsnivå og humør) som best forklarer et utfall/feonmen.

Statistisk kontroll:I MLR så er vi vanligvis i en eller noen få bestemte variabler, men så ønsker vi å vite hva effekten av disse blir om vi justerer for variablene vi vet også henger sammen med utfallet, og kanskje dels med prediktoren. Dette kalles for kovariat, og dette gir en justert beta-vekt.

Inkrementell validitet: Inkrementell validitet viser hvor mye en ny test eller målesinstrument forbedrer prediksjonen utover eksisterende tester.

Hierariske regresjonsanalyser: Vi kan teste hvilke grupper med prediktorer/UV som bidrar mest til å forstå utfallet, og også hvilke variabler innad i gruppen som bidrar mest.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hva beskriver regresjonsligningen?

A

Funksjonen beskriver relasjonen mellom Y (AV) og en eller flere prediktorvariabler (X). Linjen beskriver hvordan Y endrer seg når X endrer seg.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva er formelen for Observert Y?

A

beta0 (intersept) + beta1X1 + beta2X2 + … + e (feil)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hva er formelen for predikert Y:

A

beta0 (intersept) + beta1X1 + beta2X2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hva representerer interseptet?

A

Interceptet er verdien av den avhengige variabelen når alle de uavhengige variablene er lik null. Dette er skjæringspunktet på Y-aksen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hva er sentrering?

A

I regresjonsanalyse refererer sentrering til prosessen med å justere variabler ved å trekke fra gjennomsnittsverdien for hver observasjon i datasettet.

Dette betyr at hver verdi for den uavhengige variabelen justeres slik at den får et gjennomsnitt på null. Dette gjør interseptet mer meningsfullt.

Når vi har sentrert variablene blir interseptet lik verdien av gruppens gjennomsnitt.

Dersom en person skårer 110 og gjennomsnittet er 100, så vil denne personen få sentrert skåre 10, altså vedkommende skårer 10 poeng høyere enn gjennomsnittet. Poenget er at det skal sentreres slik at sentrert skåre er positiv for personer som skårer høyere enn snittet, og negativ i motsatt fall.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva skiller en ustandardisert fra en standardisert beta-vekt?

A

Ustandardiserte beta-koeffisienter bruker variablenes opprinnelige enheter og min/max verdi er uendelig. Mens standardiserte beta-koeffisienter omregnes til en skala fra -1 til 1 i SD for å kunne sammenligne effekten av variabler som har ulike måleenheter.

Intercepten blir irrelevant i en standardisert regresjon fordi både den avhengige og den uavhengige variabelen er transformert til z-skårer (standardisert). Når variablene er standardisert, har de et gjennomsnitt på 0 og en standardavvik på 1. Interceptet representerer verdien av den avhengige variabelen når alle prediktorene er null, men når variablene er standardisert, er gjennomsnittet 0, og derfor er også interceptet 0, og gir ikke noe meningsfull informasjon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvordan tester vi signifikansen av beta-vekter i regresjon?

A

Beta-vektenes signifikans testes ved hjelp av t-tester, som måler om hver beta-vekt er lik null (nullhypotesen). Når beta-vektene er lik null så får vi en flat linje. H1 sier at beta-vektene er signifikant forskjellige fra 0 i populasjonen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hva er R2 og hvordan regner man det ut?

A

R2 = SSM/SST.

SSM er summen av den kvaderte forskjellen mellom gjennomsnittet av Y og modellen.

SST er summen av de kvadrerte forskjellene mellom observert data og gjennomsnittsverdien av y.

R2 representerer mengden av varians i Y (utfallet) som kan predikeres av modellen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvilken metode brukes for å bestemme regresjonslinjen?

A

Ordinary least squares (OLS) er en metode for å finne den beste regresjonslinjen ved å minimere summen av de kvadrerte avstandene mellom observerte og predikerte verdier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvordan regner vi ut beta og standardisert beta?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hvordan regner vi ut interseptet?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hvordan tolker vi et konfidensintervall for en beta-koeffisient?

A

Konfidensintervallet angir det området hvor vi 95 av 100 ganger vil få verdien til en beta-koeffisient hvis henter data fra et nytt utvalg i populasjonen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hva er prediksjonsintervallet i regresjonsanalyse?

A

Et intervall som angir hvor en ny fremtidig observasjon mest sannsynlig vil falle, gitt modellen.

20
Q

Hva er multikollinearitet, og hvorfor er det et problem i regresjon?

A

Multikollinearitet oppstår når to eller flere uavhengige variabler er sterkt korrelert, noe som kan gjøre det vanskelig å estimere deres individuelle effekter på den avhengige variabelen nøyaktig.

21
Q

Hva er type 1 og type 2 feil i regresjonsanalyse?

A

Type 1 feil: Hvis du konkluderer med at det er en signifikant sammenheng mellom uavhengige og avhengige variabler når det ikke faktisk er det. Dette kan skje hvis p-verdien er lavere enn signifikansnivået (for eksempel 0,05), selv om sammenhengen ikke eksisterer.

Type 2 feil: Hvis du konkluderer med at det ikke er en signifikant sammenheng mellom variablene når det faktisk er det. Dette skjer når p-verdien er høyere enn signifikansnivået, selv om det er en reell effekt eller sammenheng.

Hvis den totale p-verdien fra F-testen er lavere enn signifikansnivået, betyr det at minst én av de uavhengige variablene bidrar signifikant til å forutsi den avhengige variabelen.

22
Q

Hva betyr det at betavektene er partielle regresjonskoeffisienter?

A

Fordi de forteller hvor mye ny informasjon hver enkelt prediktor bidrar med i forklaringen av utfallet.

De kommer med noe ny informasjon, men også noe av det samme som de andre betavekter.

23
Q

Hva skjer når vi legger til en prediktor?

A

Når vi legger til en prediktor så vil både beta-koeffisientene og standardfeilen justeres.

Som regel går beta-koeffisientene ned og standardfeilen går opp.

24
Q

Hva er semi-partial korrelasjon?

A

Semi-partial korrelasjon er forholdet mellom to variabler justert for effekten av en tredje variabel på én av de opprinnelige variablene.

Dette brukes i MLR.

25
Q

Hvordan justerer man beta-vekter:

A

Vi kan justere for korrelasjonen mellom to variabler X1 og X2 slik at vi får justerte beta-vekter. Dette kan ses i sammenheng med semi-partiell korrelasjon tror vi.

26
Q

Hva gjør en moderator (M) i en MR-analyse?

A

En moderator endrer styrken på relasjonen Y-X, avhengig av størrelsen på M. M har også en direkte effekt på Y.

27
Q

Hva forklarer en mediator (M) i en MR-analyse?

A

En mediator forklarer hvordan effekten av X på Y virker gjennom M.

28
Q

Hva gjør en suppressor (S) i en MR-analyse?

A

En suppressor er en variabel som undertrykker Y-X relasjonen når S mangler i modellen.

Uten suppressorvariabelen kan det se ut som om den uavhengige variabelen har en svakere eller ikke-signifikant effekt på den avhengige variabelen. Når suppressorvariabelen inkluderes, kan den avsløre den reelle effekten.

29
Q

Hva er formelen for en F-test i regresjon og hva sjekker den?

A

Sjekker om modellen har forklaringskraft.

k = antall grupper

30
Q

Hva er forklart varians (R2)?

A

Det sier hvor mye av variansen i Y som kan bli predikert fra modellen. Dette handler om hvor godt modellen passer dataen (“goodness of fit”). Forklart varians vil alltid øke når der inkluderes en ny prediktor i modellen.

31
Q

Hva er justert R2? Når vil den øke?

A

R^2 vil alltid øke når det inkluderes en ny prediktor i modellen. Justert R² korrigerer for denne svakheten ved å justere R² i henhold til antallet prediktorer i modellen. Den belønner modeller som forklarer mye av variasjonen, men straffer for å inkludere variabler som ikke har noen reell forklaringskraft.

Justert R^2 vil bare øke dersom SSerror (feilvariansen) faller i et større tempo enn fallet i frihetsgradene. Vi skal altså vinne mer på økning i forklart varians, enn vi skal tape på å miste en frihetsgrad.

32
Q

Hvordan tester vi signifikansen for variabelene enkeltvis?

A

Vi må finne SE til variabelen.
Regne ut t-testen.

33
Q

Hva er toleranse? Si noe om lav og høy toleranse

A

Grad av varians i en prediktor som ikke kan forklares av alle de øvrige prediktorene (1-R^2).

Toleranse måler hvor mye av variansen i en bestemt uavhengig variabel som ikke kan forklares av de andre uavhengige variablene i modellen.

Hvis toleranse er nær 1, betyr det at den uavhengige variabelen ikke er sterkt korrelert med de andre uavhengige variablene, noe som tyder på lite multikollinearitet.

Hvis toleranse er lav (for eksempel under 0,1 eller 0,2), betyr det at variabelen er sterkt korrelert med de andre uavhengige variablene, noe som indikerer høy grad av multikollinearitet, og dette er ikke bra.

34
Q

Hva er begrensningene ved multippel regresjon?

A
  1. Håndterer kun én avhengig variabel om gangen
  2. Dårligere egnet ved høyt korrelerte prediktorer
  3. Forutsetter akseptabel grad av målefeil”
  4. Forutsetter normalfordelt + jevnt fordelt feilvarians
  5. Forutsetter lav auto-korrelasjon mellom residualer
35
Q

Beskriv begrensningen “Håndterer kun én avhengig variabel om gangen”:

A

Multippel regresjon kan bare analysere én avhengig variabel (utfallsmål) per analyse. Hvis du har flere avhengige variabler som du ønsker å forklare samtidig, vil du måtte bruke andre metoder som MANOVA (Multivariate ANOVA).

36
Q

Beskriv begrensningen “Dårligere egnet ved høyt korrelerte prediktorer”:

A

Når prediktorene (uavhengige variabler) er høyt korrelert med hverandre, oppstår et problem kalt multikollinearitet. Dette kan føre til at det blir vanskelig å estimere de unike bidragene fra hver prediktor. Resultatet kan være ustabile koeffisienter og redusert statistisk styrke.

37
Q

Beskriv begrensningen “Forutsetter akseptabel grad av målefeil”:

A

Multippel regresjon krever at måleinstrumentene for de uavhengige variablene er tilstrekkelig pålitelige (har høy reliabilitet). Hvis det er for stor målefeil, kan det føre til skjevheter og redusert presisjon i resultatene.

Eksempel: Man kan bruke Cronbach’s alpha for å vurdere reliabilitet, som er et mål på hvor konsistent et instrument er.

38
Q

Beskriv begrensningen “Forutsetter normalfordelt + jevnt fordelt feilvarians”:

A

En grunnleggende forutsetning for multippel regresjon er at residualene er normalfordelte og at variansen er lik for alle verdier av de uavhengige variablene (homoskedastisitet). Hvis denne forutsetningen ikke er oppfylt, kan det påvirke validiteten til konklusjonene dine.

39
Q

Beskriv begrensningen “Forutsetter lav auto-korrelasjon mellom residualer”:

A

Auto-korrelasjon betyr at residualene er korrelert med hverandre. Dette er spesielt et problem i tidsseriedata, hvor en observasjonsfeil kan påvirke feilene til påfølgende observasjoner.

Når auto-korrelasjon er tilstede, kan du få misvisende resultater. For å løse dette må man enten transformere dataene, altså fikse det før analysen, eller bruke modeller som kan håndtere slik avhengighet.

40
Q

Hva avgjør hvor stort sample size burde være, og hvilke tommelfingerregler har vi?

A

For å avgjøre hvor stort utvalget bør være i en multippel regresjonsanalyse, må man vurdere ønsket styrke, antall prediktorer og effektstørrelse.

Generelt sett bør man ha flere observasjoner enn antall variabler; helst 5 personer per prediktor, men optimalt sett 10 personer per prediktor.

En tommelfingerregel er at utvalget bør være større enn N>50+8∗k, hvor k er antall prediktorer. Dette forutsetter en medium effektstørrelse, med en alfa- og betaverdi på henholdsvis 0,05 og 0,20.

For eksempel vil et design med 6 prediktorer kreve minst 98 observasjoner. Større utvalg er nødvendig hvis effektstørrelsen er lav, målefeil er høy, eller den avhengige variabelen er skjevt fordelt. Sistnevnte problem kan dog håndteres med transformasjoner.

41
Q

Hva må vi gjøre når vi bruker nominelle variabler i regresjonsanalyse?

A

Når vi bruker nominelle/kategoriske variabler i regresjonsmodeller må disse kodes numerisk for å analyseres. Dette gjøres enten ved indikatorkoding (dummykoding) eller effektkoding. Dummykoding er mest vanlig.

42
Q

Hva er forskjellen på dummykoding/indikatorkoding og effektkoding?

A

Ved dummykoding sammenlignes variablene med referansegruppen (mest vanlig), imens ved effektkoding sammenlignes gruppene mot gjennomsnittet (minst vanlig).

43
Q

Hva representerer interseptet i dummykoding?

A

Interseptet representerer gjennomsnittet i referansegruppa.

44
Q

Hva representerer interseptet i effektkoding?

A

Interseptet er nå “grand mean” for begge gruppene.

45
Q

Når skal man benytte seg av effektkoding?

A

Kort sagt anbefales effektkoding når du har interaksjoner i modellen, fordi effektkoding gir de virkelige hovedeffektene, mens dummykoding kun gir simple main effects. Men når vi kun har hovedeffekter er dummy-koding lettere å bruke og tolke.

46
Q

Hva er predikert skåre for kvinner (0 = kvinner, 1 = menn) som er 25 år når regresjonsligningen er: pred Y = 10 + 5 x kjønn + 1x alder

A

10 + 50 + 125 = 35
Svaret er 35 år.