Andy Field forelesninger i regresjon Flashcards

1
Q

Hva er likningen i en lineær modell?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva er b1?

A

Beta1 er verdien/parameteret til prediktorvariabel 1 (X1)

b1 representerer styrken og retningen av relasjonen mellom prediktor 1 og Y

Den bestemmer skråningen til regresjonslinjen ettersom den

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva er b0?

A

beta0 er verdien av utfallsvariabelen (Y) når X/prediktor er lik null

Den bestemmer hvor regresjonslinjen skal krysse Y-aksen (skjæringspunktet), og refereres til som interseptet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva har b0 og b1 til felles?

A

De er begge betaer, og er parametre som representerer ulike ting.

De er med på å forme regeresjonslinjen/modellen og definerer hvordan den ser ut

Parameterne (beta-ene) er med på å konstruere en modell som lar oss skape prediksjoner som går ut over vår data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Kan man ha flere prediktorer?

A

Vi kan ha flere enn en, men da kalles det for en multippel regresjons modell.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva har b1, b2, b3 ovs. til felles?

A

De er estimater av populasjonsparameterne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hva må du se på når du tolker beta-er?

A

Konfidensintervaller

Signifikans-nivå

Dens verdi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvorfor må du se på CI til en beta?

A

Dersom tallet 0 er en del av betaens CI er det en sannsynlighet for at det er slik i populasjons parameteret er 0 og at det ikke er noen effekt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvorfor må du se på signifikans-nivået til en beta og hvordan kan du gjøre dette?

A

Du kan sig-teste en beta gjennom en t-test.

T-testen sammenlikner verdien av betaen og null

Tallet null representerer på en måte null hypotesen ettersom denne verdien vi gi en horisontal regresjonslinje og da ingen effekt.

T-test verdien gir en p-verdi som sier sannsynligheten for at parameter verdien er større enn 0.

En signifikant p-verdi her betyr at prediktoren er signifikant forskjellig fra 0, og bidrar signifikant til modellen

Dersom vi får en ikke-signifikant p-verdi betyr det at parameteret er lik 0, noe som vil gi en flat regresjonslinje, og vil tyde på at det ikke er noen effekt av dette parameteret

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvorfor må du se på betaens verdi?

A

Beta-verdien er en effekt størrelse i seg selv som kvantifiserer relasjonen mellom b1 og Y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Når er parameterne optimale?

A

Når residualene er normalfordelt og når vi har homoskedastisitet (lik varians).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvilke assumptions være oppfylt for at vi skal kunne stole på betaens signifikans test og CI?

A

Utvalget må være normalfordelt

Homoskedastisitet

Uavhengige observasjoner

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hva kan vi gjøre dersom vi har brutt noen av assumptionsene, og vi føler at vi ikke kan stole på CI eller t-testen?

A

Da kan vi gjøre noe som kalles for bootstrapping i SPSS

Dersom assumptions er brutt for parameterne skal du se på verdiene i output for “Bootstrap for coefficents” i stedet for vanlig “coefficents”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hva er bootstrapping?

A

Bootstrapping er en prosess der vi kan generere robuste estimater basert på utvalgets data.

Denne metoden er upåvirket av fordelingen av skårer og bryr seg ikke om assumptions er brutt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvordan er prosessen i bootstrapping?

A

Om vi er interessert i parameteret “gjennomsnitt” så må vi konstruere et bootstrap utvalg (SPSS gjør dette).

Dette gjøres ved at en data (tilfeldig i utvalgt av alle data) velges ut og memorieres av SPSS og settes tilbake med de andre. Denne utvalgsprosessen repeteres flere ganger. Dette kalles “re-sampling”. På denne måten kan de samme skårene bli tatt flere ganger.

De tilfeldig utvalgte data kalles da for bootstrap utvalg. Basert på dette utvalget regner SPSS ut et gjennomsnitts parameter.

Deretter repeteres HELE denne prosessen på nytt 1000 ganger - og du får 1000 gjennomsnitts parameter.

Om vi vil vite bootstrap/den robuste gjennomsnitt estimatet så tar vi bare gjennomsnittet av disse 1000.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hva er model Sum of Squares (SSm)?

A

Varians som modellen forklarer

Forskjellen mellom det gjennomsnittet predikerer (grand mean) og det som linjen/modellen predikerer.

Forskjellen mellom de to linjene.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hva er Total Sum of Squares (SSt)?

A

Den viser til den totale variansen

Forskjellen mellom det gjennomsnittet predikerer (grand mean) og den faktiske data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hva er Residual Sum of Squares (SSr) ?

A

Den viser til feilvarians og er forskjellen mellom regresjonslinjen (modellen) og de faktiske data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Dersom modellen resulterer i bedre prediksjoner enn å bruke gjennomsnittet (grand mean), hvordan bør forholdet mellom SSm og SSr være?

A

Da bør SSm være større enn SSr

Dette er fordi SSm viser til hvor mye forbedring det har skjedd på grunn av modellen, og SSr viser til feil i modellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hva er formelen til f-verdien og hva sier den noe om?

A

Den sier hvor mye modellen er forbedret delt på hvor mye feil den har

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Hva er R^2, og hva er dens formel?

A

Den sier hvor stor andel av variansen som forklares av modellen

Den sier altså noe om hvor godt modellen passer data

R^2= 0.3, dette betyr at vår modell forklarer 30% av variansen

Den kan også regnes ut ved å ta korrelsasjonskoeffisenten mellom observert og predikert skår opphøyet i andre

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hva er justert R^2?

A

Justert R2 er et estimat av hva R2 vil være i populasjonen, ofte er den derfor mindre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Hva tilsvarer beta verdien?

A

Beta verdien tilsvarer endringen i utfallsvariabelen når det skjer en enhets endring i prediktoren

Altså endringen i y når x øker med en enhet

Denne verdien uttrykkes da i enheter; Når “reklame” øker med 1 euro så øker album salg med 0.087 enheter (beta verdien til reklame prediktoren)

24
Q

Hva tilsvarer en standardisert beta verdi?

A

Den tilsvarer også endringen i y når x øker med en enhet, men denne endringen uttrykkes i standardavvik

“Når reklame øker med 1 standardavvik så øker album salg med 0.523 standardavvik (standardiserte beta-verdien til reklame).

25
Q

Hva er fordelen med å bruke standardiserte beta-verdier?

A

Den standardiserte løser problemet med enheter ettersom det uttrykkes som standard avvik.

Det gjør at vi kan sammenlikne verdien på tvers av variabler som har ulike enheter.

På denne måten kan vi statistisk vite hvilken prediktor som er den sterkeste (den med høyest verdi).

26
Q

Hva kan blant annet skape en bias i modellen og påvirke resultatene veldig?

A

Måten du velger ut og setter inn prediktorer

27
Q

Hvilke 3 måter kan du selektere prediktorer?

A

Hierarkisk

Forced Entry

Stepwise

28
Q

Hva er en hierarkisk selektering av predikotrer?

A

Dette går ut på å at eksperimentator selv bestemmer hvilken rekkefølge variablene skal settes inn i modellen

Dette er for eksempel ved å sette den du tror er den beste prediktoren først osv

Dette er den beste metoden når du har en teori, men også fordi du er et menneske og ikke data

I SPSS innebærer dette å sette de i blokker

29
Q

Hva er forced entry metoden når det kommer til å selektere prediktorer?

A

Dette går ut på at alle prediktorene settes inn samtidig og tilfeldig.

Dette er dumt fordi det er så tilfeldig

30
Q

Hva er stepwise metoden når det kommer til selektering av prediktorer?

A

Her blir prediktorene selektert ved å bruke deres semi partielle korrelasjon med utfallet av SPSS av SPSS

Dette kan produsere falske resultater og er dumt pga det gjøres av en data som kun er opptatt av statistikken

Brukes kun for utforskende analyser

31
Q

Når vi har laget en modell må vi se på dens nøyaktighet. Hvilke to måter er det for å finne ut hvor godt modellen passer utvalget?

A

Residuals og innflytelses rike caser

32
Q

Hvordan kan du se om en modell har en god tilpasning basert på residualene?

A

Du må se på de standardiserte residualene.

I et gjennomsnittlig utvalg vil 95% av de standardiserte residualene ligge mellom +- 2

99% vil ligge mellom +- 2.5

Om du har mer enn 1% som ligger utenfor +-2.5 har du for mange residualer som er for store - problem

Ethvert tilfelle der den absolutte verdien av det standardiserte residualet er 3 eller mer, er sannsynligvis en uteligger

33
Q

Hvorfor må vi se på innflytelses rike caser i tillegg til residualene?

A

Det er ikke nok å bare se på residualene

Det finnes noe som kalles for innflytelses rike caser, som ikke nødvendigvis registreres som uteliggere, men som alene påvirker modellen i stor grad.

34
Q

Hvordan kan vi undersøke innflytelsesrike caser?

A

Det du kan gjøre her er å lage to regresjons linjer, en med den og en uten den, og se på forskjellen mellom de to. Er den stor så er det et mål på påvirkning. Dette gjøres via DF beta i SPSS (ser på forskjeller i beta verdier)

Men det du også kan gjøre er å bruke Coocs distance, som måler påvirkningen av et enkelt tilfelle på modellen som en helhet. Verdier som her er større en 1 bør vekke bekymring.

35
Q

Hvilke flere assumptions er det?

A

Utfallsvariabelen må være kontinuerlig

Prediktor variablene kan være kontinuerlig eller dioktome

Prediktorene må ikke ha null varians

Errors bør være korrelert (uavhengige)

Prediktorene må ikke være høyt korrelert (multikolinaritet)

36
Q

Hvordan ser en normalfordelt modell ut (residualene)?

A
37
Q

Hvordan ser man at det er homoskedastisitet og uavhengige

A

Om punktene er veldig tilfeldig plassert viser det til at residualene er uavhengige. Om punktene er spredt jevnt ut over viser det til homoskedastisitet. Sammen viser de også linearitet slik som her

38
Q

Hvordan ser man Heteroskedastisitet?

A
39
Q

Hvordan ser man non-lineæritet?

A
40
Q

Hvordan ser man Heteroskedastisitet og non-lineæritet?

A

Trekanten viser heteroskedastisitet

Halen viser non linearitet

41
Q

Hva er multicollinearity?

A

Det er når prediktorer er høyt korrelert

42
Q

Hvordan kan du sjekke om du har multicollinearity?

A

Dette kan sjekkes ved å se på toleranse-verdien eller VIF-verdien

Når toleransen er mer enn 0.2 så viser den at vi ikke har noe multicollinearity - noe som er bra.

Om VIF verdien er mer enn 10 så tyder det på at vi har multicollinearity - noe som er et problem.

43
Q

Når du har laget en modell, må vi sjekke dens nøyaktighet. Hva må du se på for å avgjøre hvor godt modellen passer populasjonen (generalisering)?

A

Normalitet av residualene

Homoskedastisitet

Linearitet

Uavhengighet

44
Q

Hva er kontinuerlige variabler?

A

Kontinuerlige variabler er, for eksempel “penger” eller “alder”, som kan ha en uendelig rekke av verdier innenfor et viss område eller intervall.

45
Q

Hva er kategoriske variabler

A

Kategoriske variabler er variabler som representerer forskjellige kategorier eller grupper

Slik som “afrikansk elefanter” og “asiatiske elefanter”

46
Q

Kan man bruke kategoriske uavhengige variabler i en regresjonsanalyse?

A

Ja, men da må de kodes med tall som legges inn i SPSS ikke ord.

Dette kan for eksemel gjøres gjennom dummy koding

47
Q

Hva er dummy koding?

A

Dummy-koding er en teknikk som brukes for å omkode kategoriske variabler til numeriske verdier slik at de kan inkluderes i statistiske modeller.

Kategoriske variabler kan ikke brukes direkte i de fleste matematiske modeller, så dummy-koding gjør om kategoriene til en binær representasjon (0 eller 1) ved å opprette separate kolonner for hver kategori.

48
Q

Hvordan blir likningen i en regresjonsmodell med en kategorisk prediktorvariabel som har to grupper?

A

Her må dummy koding brukes: gruppen “Asia” = 0 og “Afrika” = 1

b0 representerer gruppegjennomsnittet til gruppe 0

Prediktoren “elefant type” står som b1, men den representerer forskjellen mellom de to gruppe gjennomsnittene (g1-g0)

I denne likningen vil dette se slik ut;
Goals = b0 + b1
Goals = 3.533 + 1.08

B0 (interseptet) får verdien 3.533 fordi at det er verdien til Y når prediktoren er 0 (GRUPPE 0).

1.08 er forskjellen mellom de to gruppe gjennomsnittene og da B1.

49
Q

Hva er forskjellen mellom å gjøre en t-test eller regresjonsanalyse med dummy koding når du har en kategorisk uavhengig variabel med to grupper?

A

Det er ingen forskjell på dette når det kommer til resultatene: t-verdi, p-verdi, gruppe gjennomsnitt forskjell / beta 1 og CI.

50
Q

Kan man bruke kategoriske UV når du har flere enn to grupper?

A

Ja, i dette tilfellet blir likningen slik
Y = b0 + b1 + b2

Her blir Human kodet som 0, og blir da representert av b0

Hver beta representerer forskjellen i gjennomsnittet mellom den kategorien og baseline (b0)

B1 representerer derfor Human vs Elephants

B2 representerer derfor Human vs. Lion

51
Q

Hva vil beta-prediktorene representere i en regresjon med en kategorisk prediktorvariabel med flere grupper, dersom du bruker dummy koding?

A

De vil representere forskjellene mellom gjennomsnitt

52
Q

Hva er en moderator og hva menes med moderasjon?

A

En moderator er en variabel som endrer størrelse og eller retningen av relasjonen mellom to andre variabler

Moderasjon skjer når relasjonen mellom to variabler endres som en funksjon av en tredje variabel

53
Q

Hvordan kan vi undersøke effekten av en moderator i en regresjonsanalyse

A

Vi har et utfall (aggresjon) som vi mener at predikeres av gaming, men også av en moderator kalt (callous). I tillegg legger vi inn interaksjonen mellom disse to variablene som en tredje prediktor

Det er denne tredje prediktoren vi ønsker å se nærmere på. Dersom interaksjonen mellom moderator og prediktor er signifikant, så har vi en signifikant moderator effekt.

54
Q

Hvordan kan vi følge opp en moderator effekt?

A

Etter å ha funnet en signifikant interaksjon, undersøker man forholdet mellom
X og Y på forskjellige nivåer av M

Dette gjøres i Simple slopes analyse

Det man ser på er de tre nivåene under “effect”, der det øverste tilsvarer det laveste nivået, og de tilsvarende p-verdiene

Her ser man at ved lav effekt av moderatoren så ser man en negativ ikke sig effekt mellom prediktor og Y.

Ved medium effekt er det en positiv signifikant effekt

Ved høy effekt er det en mer positiv og sig effekt.

55
Q

Hva er mediasjon?

A

Mediasjon handler om at relasjonen mellom prediktor og Y opererer via en tredje variabel.

Altså at det er en felles faktor mellom de to som forklarer deres relasjon.

Det mediasjon sier er at dersom du har en relasjon mellom b1 og Y så vil denne svekkes (ideelt sett bli 0) av å inkludere mediatoren.

56
Q

Kan du gi et eksempel på en mediasjon?

A

Så vi ønsker å se om bruk av pornografi (b1) er knyttet til utroskap (Y), men også om dette forholdet kan forklares gjennom en tredje variabel (moderator) kalt tilknytning til forholdet.

Resultatene viser;

Bruk av pornografi har en sig effekt på din tilknytning til forholdet (Mediator). Dess mer du ser dess mindre tilknyttet føler du deg.

Men tilknytning til forholdet (M) har også en påvirkning på hvorvidt du vil være utro (Y), altså en sig effekt mellom disse.

57
Q

Hvordan kan man undersøke mediatorens påvirkning?

A

Mediasjon vises ved en signifikant indirekte effekt. Dette finner man ved å multiplisere hver av effektene M har på Y og på b1 (kombinere linje a og b). Dersom denne verdien er sig (stor nok) så har vi en sig mediasjon.

Dette ser vi på bildet her;

Den indirekte effekten er 0.1273.

Det vi er ute etter å se er om Bootstrap CI inneholder 0 eller ikke. Konfidensintervallet gir oss en ide om hva populasjons verdien av den effekten er.

Dersom den ikke inneholder 0 så vil det si at vår effekt er signifikant på .05. I dette tilfellet har vi en sig verdi fordi CI ikke inneholder 0.