Learning statistics with jamovi: a tutorial for psychology students and other beginners (12 Korrelasjon og lineær regresjon) Flashcards

1
Q

Når det er snakk om korrelasjonskoeffisient er den betegnet som r, men hvor stor kan r være og hva betyr de forskjellige tallene?

A

r går fra -1 opp til 1.

1 er altså en perfekt positivt forhold mens -1 er et perfekt negativt forhold.

0 betyr at det ikke er noe forhold i det hele tatt.

Eksempel Figur 12.4

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvor mye korrelasjon bør man ha for at en test er god/vellykket?

A

Det kommer helt an på hva du skal teste.

EKS:
For eksempel er et av referansedatasettene som brukes til å teste teorier om hvordan folk bedømmer likheter så rent at enhver teori som ikke kan oppnå en korrelasjon på minst 0.9 virkelig ikke anses å være vellykket. Men når du leter etter (for eksempel) elementære korrelater av intelligens (f.eks. inspeksjonstid, responstid), hvis du får en korrelasjon ovenfor 0.3 du har det veldig bra.

Grov veileder:
Eksempel Tabell 12.2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva er noen mangler til Pearson-korrelasjonskoeffisienten selv om den er veldig nyttig?

A

En sak skiller seg ut: det den faktisk måler er styrken til det lineære forholdet mellom to variabler. Med andre ord, det det gir deg er et mål på i hvilken grad dataene har en tendens til å falle på en enkelt, perfekt rett linje. Ofte er dette en ganske god tilnærming til hva vi mener når vi sier “forhold”, og derfor er Pearson-korrelasjonen en god ting å beregne. Noen ganger er det imidlertid ikke det.

EKS:
En veldig vanlig situasjon der Pearson-korrelasjonen ikke er helt riktig å bruke, oppstår når en økning i én variabel X reflekteres egentlig i en økning i en annen variabel Y , men forholdets natur er ikke nødvendigvis lineær. Et eksempel på dette kan være forholdet mellom innsats og belønning når man studerer til eksamen. Hvis du ikke anstrenger deg (X) til å lære et emne, bør du forvente en karakter på 0% (Y). Men litt innsats vil føre til en massiv forbedring. Bare det å møte opp til forelesninger betyr at du lærer en god del, og hvis du bare møter opp til timene og rable noen ting ned kan karakteren din stige til 35 %, alt uten mye innsats.

Hva dette betyr er at hvis jeg har data som ser på studieinnsats og karakterer, er det en ganske god sjanse for at Pearson-korrelasjoner vil være misvisende. Her fikk vi en korrelasjon på 0.91 selv om variablene resultat og variabelen innsats hadde en perfekt korrelasjon (ALLE SOM LA MER INNSATS INN FIKK BEDRE KARAKTER ENN DE SOM LA MINDRE INNSATS INN)

Eksempel Figur 12.6

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

For å unngå den feilen i forrige kort med Pearson-korrelasjonskoeffisienten kan vi bruke Spearmans rangordenskorrelasjon, men hva er det?

A

Dersom alle observasjonene blir rangert i innsats og rangert i resultat. Da vil vi finne ut at de som gjorde minst innsats fikk dårligst resultat, og vil dermed ende opp med en perfekt positiv korrelasjon på 1 istedenfor 0.91.

Eksempel Tabell 12.3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Forklar hva negativ og positiv korrelasjon betyr og er? Gi et lite eksempel

A

Positiv korrelasjon betyr at høye verdier av den ene størrelsen ofte vil finnes sammen med høye verdier av den andre størrelsen. Noen eksempler på størrelser som har positiv korrelasjon er røyking og lungekreftrisiko, matinntak og fedme, lungevolum og oksygenopptak, og antall studietimer og karakterene man får.

Negativ korrelasjon er det når høye verdier av den ene størrelsen generelt finnes sammen med lave verdier av den andre. Det er for eksempel negativ korrelasjon mellom verdien på en bil og hvor gammel bilen er. Eldre biler er generelt billigere enn nye biler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva er en lineær regresjonsmodell?

A

Med en enkel lineær regresjonsanalyse estimerer man sammenheng mellom et utfall målt på kontinuerlig skala og en forklaringsvariabel. Modellen tilpasser en rett linje (Y = a + bx) til et sett av parede observasjoner

Eksempel Figur 12.10 og 12.11

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Når er en regresjonslinje god og når er den dårlig? Altså hvordan ser man det?

A

Når regresjonslinjen er god, ser alle residualene våre (lengdene på de heltrukne svarte linjene) ganske små ut, som vist i figur 12.12 (a), men når regresjonslinjen er dårlig, er residualene mye større ettersom du kan se ved å se på figur 12.12 (b).

Altså den er god dersom prikkene ikke er så langt unna regresjonslinjen. Da er de nærme og linjen er lettere å plotte inn.

Eksempel Figur 12.12

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Litt tolkning: Hva betyr skråningen og avskjæringen i en lineær regresjonsmodell?

A

Dette er viktig for å forstå hva den lineære regresjonsmodellen forteller deg. LES ALT OG PRØV Å FORSTÅ, DET ER LITT VANSKELIG, MEN IKKE UMULIG

Skråningen:
Skråningen også kjent som en b1 med hatt over seg (kommer i eksempelet), den forteller at hvis du øker predikator variabelen (Xi) med 1 så vil utfallsvariabelen (Yi) falle med 8.94 (siden det står -8.94)

Altså skråningen forteller hvor mye utfalls variabelen endrer seg dersom predikator variabelen endres med 1

Avskjæring:
Avskjæringen også kjent som bo med hatt over seg, den forteller hva utfallsvariabelen vil være dersom predikator variabelen f.eks er 0. Det er forventet verdi av Yi (utfallsvariabelen) når Xi (predikator variabelen er 0.

EKS:
Hvis Xi (predikator variabelen) nå er antall timer søvn. Og dette er 0, da vil gretten min gå av skalaen, til en vanvittig verdi på (Yi=125.96). Best å unngå, tenker jeg.

Så hvis han hadde sovet eksempelvis 7 timer så hadde han være 7*8.94=62.58 poeng mindre gretten. Altså det er en negativ lineær regresjonsmodell for en økning i den ene vil føre til en reduksjon i den andre.

Eksmepel Figur 12.13

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hva er en multippel regresjonsmodell?

A

Da skal du bruke flere predikator variabler. Altså Xi1 og Xi2 f.eks

Multippel regresjon er konseptuelt veldig enkelt. Alt vi gjør er å legge til flere termer i regresjonsligningen vår. La oss anta at vi har to variabler som vi er interessert i; kanskje vi ønsker å bruke både dani.sleep og baby.sleep for å forutsi dani.grump-variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hva er R^2 også kjent som bestemmelseskoeffisienten, og hva forteller den?

A

har en enkel tolkning: Først hvis vi fant ut at R^2 er 0.816 i oppgaven

det er andelen av variansen i utfallsvariabelen som kan gjøres rede for av prediktoren. Så, i dette tilfellet det faktum at vi har fått R^2=0.816 betyr at prediktoren (my.sleep) forklarer 81,6% av variansen i utfallet (my.grump).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hva menes med standardiserte koeffisienter?

A

Det finnes situasjoner hvor du virkelig ønsker å gjøre sammenligninger mellom forskjellige koeffisienter. Spesifikt vil du kanskje ha en slags standardmål for hvilke prediktorer som har sterkest forhold til utfallet. Dette er hva standardiserte koeffisienter tar sikte på å gjøre.

Grunnideen er ganske enkel; de standardiserte koeffisientene er koeffisientene du ville ha oppnådd hvis du hadde konvertert alle variablene til z -score før du kjørte regresjonen. Ideen her er at ved å konvertere alle prediktorene til z -skårer, går de alle inn i regresjonen på samme skala, og fjerner dermed problemet med å ha variabler på forskjellige skalaer.

Dette kan selvsagt Jamovi gjøre for deg:

‘Standardisert estimat’ i alternativene ‘Modelkoeffisienter’,

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva er forutsetningene for regresjon?

A
  1. linearitet. En ganske grunnleggende antakelse av den lineære regresjonsmodellen er lineær

2.
inavhengighet: residualer er uavhengige av hverandre. Dette er egentlig bare en “catch all”-antagelse, med den effekten at “det er ikke noe annet morsomt som skjer i restene”. Hvis det er noe rart (f.eks. restene avhenger i stor grad av en annen umålt variabel), kan det ødelegge ting.

3.
normalitet. Som mange av modellene i statistikk, er grunnleggende enkel eller multippel lineær regresjon avhengig av en antakelse om normalitet.

4.
kvalitet (eller “homogenitet”) av varians. (denne var veldig rart forklart, så dere kan selv se under, men tror ikke dette er relevant)

Eksempel 12.9

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Det finnes hovedsakelig 3 residualer, hva er disse?

A

“ordinære residualer”

“standardiserte residualer”

“Studentiserte residualer”.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hva er den første residualen “ordinære residualer”?

A

Den første og enkleste typen rester som vi bryr oss om er vanlige rester . Dette er de faktiske rårestene som jeg har snakket om gjennom dette kapittelet så langt. Den vanlige residual er bare differansen mellom den predikerte verdien og den observerte verdien. Jeg har brukt notasjonen (se eksempel) for å referere til den i-te ordinære residual, og så, med dette i tankene, har vi den veldig enkle ligningen:

Eksempel 12.10.1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Når brukes den andre residualen “standardiserte residualer” ?

A

I mange sammenhenger, spesielt der du bare er interessert i mønsteret til residualene og ikke deres faktiske verdier, er det praktisk å estimere de standardiserte residualene , som er normalisert på en slik måte at de har et standardavvik på 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hva er den tredje formen for residualen: “Studentiserte residualer”?

A

Den tredje typen residualer er Studentiserte residualer og de er enda mer avanserte enn standardiserte residualer. Igjen er ideen å ta den vanlige residual og dele den med en viss mengde for å estimere en standardisert oppfatning av residuet.

17
Q

Dette kortet kom litt sent, men de forklarte det ikke noe sted, men Hva betyr residual?

A

Residual eller feilleddet/restleddet (ofte benevnt e eller med det greske tegnet ε (epsilon)) i en regresjonsanalyse er all variasjon i en effektvariabel som en modell ikke klarer å fange opp. Ønsket med en modell er som oftest å finne en modell som kan forklare all variasjon i en gitt forklaringsvariabel, det vil si at ønsket er residualer lik 0.

Avviket mellom den faktisk observerte verdien Y og verdien som ligger på regresjonslinjen.

18
Q

Hva forteller variansinflasjonsfaktorer (VIF)?

A

nyttige for å avgjøre hvorvidt prediktorene i regresjonsmodellen din er for høyt korrelert med hverandre. Det er en variansinflasjonsfaktor knyttet til hver prediktor i modellen

19
Q

Hva er to prinsipper for Modellvalg i regresjonsanalyser

A

Det som menes med “modellvalg”. Det vil si, hvis vi har et datasett som inneholder flere variabler, hvilke skal vi inkludere som prediktorer, og hvilke skal vi ikke inkludere? Vi har med andre ord et problem med variabelt utvalg .

  1. Det er fint å ha et reelt innholdsgrunnlag for dine valg. Det vil si at du som forskeren i mange situasjoner har gode grunner til å plukke ut et lite antall mulige regresjonsmodeller som er av teoretisk interesse. Disse modellene vil ha en fornuftig tolkning i sammenheng med ditt fagfelt.
  2. I den grad dine valg er avhengige av statistisk slutning, er det en avveining mellom enkelhet og god passform. Etter hvert som du legger til flere prediktorer til modellen, gjør du den mer kompleks. Hvis du vil at modellen skal kunne generalisere godt til nye observasjoner, må du unngå å kaste inn for mange variabler.

Dette sistnevnte prinsippet blir ofte referert til som Ockhams barberhøvel

20
Q

Det finnes tre måter en observasjon kan påvirke resultatene i analysen spesielt som vi må være klar over, hva er disse og forklar dem kort

A

Den første typen uvanlig observasjon er en uteligger . Definisjonen av en uteligger (i denne sammenhengen) er en observasjon som er svært forskjellig fra det regresjonsmodellen forutsier. Figur 12.24

Den andre måten en observasjon kan være uvanlig på, er hvis den har høy innflytelse , noe som skjer når observasjonen er veldig forskjellig fra alle de andre observasjonene. Dette trenger ikke nødvendigvis tilsvare en stor rest (feil). Figur 12.25

Dette bringer oss til vårt tredje mål på uvanlighet, påvirkningen av en observasjon. En høy innflytelsesobservasjon er en uteligger som har høy innflytelse. Det vil si at det er en observasjon som er veldig forskjellig fra alle de andre på et eller annet vis, og som også ligger et stykke unna regresjonslinjen. Figur 12.26

Eksempel Figur 12.24, 12.25 og 12.26

21
Q

Hva forteller Akaike informasjonskriteriet (AIC)?

A

Jo mindre AIC-verdi, jo bedre modellytelse. Hvis vi ignorerer detaljene på lavt nivå, er det ganske åpenbart hva AIC gjør.

Til venstre har vi et begrep som øker etter hvert som modellspådommene blir dårligere; til høyre har vi et begrep som øker ettersom modellens kompleksitet øker.

Den beste modellen er den som passer dataene godt (lave residualer, venstre side) ved å bruke så få prediktorer som mulig (lav K, høyre side). Kort fortalt er dette en enkel implementering av Ockhams barberhøvel.

Du kan å se om AIC-verdien er lavere hvis du fjerner en eller flere av prediktorene i regresjonsmodell.

22
Q

Hva menes med Bakover eliminering ?

A

I bakover eliminering starter du med den komplette regresjonsmodellen, inkludert alle mulige prediktorer.

Deretter, ved hvert “trinn” prøver vi alle mulige måter å fjerne en av variablene på, og den av disse som er best (med hensyn til laveste AIC-verdi) aksepteres. Dette blir vår nye regresjonsmodell, og vi prøver deretter alle mulige slettinger fra den nye modellen, og velger igjen alternativet med lavest AIC.

Denne prosessen fortsetter til vi ender opp med en modell som har en lavere AIC-verdi enn noen av de andre mulige modellene du kan produsere ved å slette en av dens prediktorer.