Statistik och metod Flashcards
Hur placeras regressionslinjen i förhållande till observerade datapunkter?
Regressionslinjen placeras så att den minimerar summan av de kvadrerade residualerna.
Residualerna är skillnaderna mellan de observerade datapunkterna (yᵢ) och de värden som förutsägs av regressionslinjen (ŷᵢ).
Beskriv formeln för regressionslinjen
y = a +bx
a: beskriver interceptet (var linjen skär y-axeln om x=0, eller vad y förväntas vara när
x=0)
b: beskriver lutningen på linjen (ökning i y när x ökar med ett)
Allt annat konstant, vad händer med regressionslinjen när korrelationen mellan prediktorn och utfallsvariabeln minskar?
Om korrelationen minskar, blir sambandet mellan x och y svagare, vilket gör att lutningen blir mindre brant (närmar sig 0).
Lutningen ges av b=r⋅SD(x) / SD(y)
Regressionslinjen går alltid genom en viss punkt. Vilken?
Regressionslinjen går alltid genom punkten som representerar medelvärdena för både den beroende och den oberoende variabeln, det vill säga:
(xˉ,yˉ)
På vilket sätt skiljer sig β (beta) från ”den ordinarie” regressionskoefficienten b? Vilken fördel har β jämfört med b?
Om man standardiserar x- och y-variabeln och beräknar regressionslinjen så betecknas linjens lutning med beta. β anger hur många standardavvikelser värdet på y ökar för varje ökning med en standardavvikelse på x-variabeln.
Värdet på β påverkas inte av enheten man mäter i. Den indikerar prediktiv förmåga (till skillnad från b), eftersom den kan jämföras med andra standardiserade regressionskoefficienter.
Vad innebär ”regressions SS” respektive ”residual SS” vid en enkel
regressionsanalys?
Regressions SS= SS som återstår när observerade värden ersätts med predicerade
värden.
- Vi vill att vår modell (det predicerade värdet) ska behålla så mycket varians
som möjligt
- Ju större regressions SS är i förhållande till residual SS desto mer av
variansen i den beroende variabeln förklaras av vår modell (desto högre
R-square får vi)
Residual SS (error)= SS som går förlorad när observerade värden ersätts med
predicerade värden.
Vad har man för antaganden angående varians och fördelning i utfallsvariabeln vid enkel regressionsanalys?
- Antagandet om homoscedasticitet innebär att variansen för y är homogen.
Det är den om spridningen i variabeln y är ungefär lika stor för alla värden på x. - Antagandet om approximativt normalfördelade residualer innebär ungefär att y-värdena för varje x-värde bör vara normalfördelade
Vid regressionsanalys använder man sig av två olika frihetsgrader (df).
kallas dessa och hur beräknas de?
Regressionsfrihetsgrader (Reg.df): antalet prediktorer (p)
Residualfrihetsgrader (Res.df): Totala antalet personer - antalet prediktorer - 1
(N-p-1)
Vad står ”R” respektive ”R2” för?
R: korrelationen mellan predicerade och observerade y-värden
R i kvadrat (r2) (R-square i SPSS output): Hur stor andel av variansen i BV
(y) som kan förklaras av variansen i OV (x). Med andra ord är r2= förklarad
varians
Vad skiljer multipel från enkel regressionsanalys?
Man använder flera oberoende variabler (prediktorer) för att predicera en beroende
variabel (y).
Vad innebär kollinearitet? Beskriv något mått på kollinearitet och någon
tumregel vad den bör anta för värden.
Kollinearitet uppstår i multipel regression när två eller flera oberoende variabler är starkt korrelerade med varandra. Detta skapar problem eftersom det gör det svårt att separera effekterna av de individuella prediktorerna på den beroende variabeln y.
Tolerans är den inversa av VIF och mäter hur mycket av variansen i en viss oberoende variabel som inte kan förklaras av de andra oberoende variablerna.
toleransvärdet (bra om det är högt) >0,4, max 1
Ett vanligt mått på kollinearitet är Variance Inflation Factor (VIF), som mäter hur mycket variansen i en regressionskoefficient påverkas av kollinearitet.
VIF > 10 indikerar allvarliga problem.
Vad innebär ”adjusted R square
Det är ett värde på hur väl ens prediktiva linje passar variansen av ens data. Siffran
kan tolkas som den procent av variansen som ens oberoende x förklaras av y i
andra stickprov ur samma population.
Adjusted R square= r2 justerat för antalet prediktorer och N
N= förväntad genomsnittlig r2 för stickprov med den aktuella storleken dragna ur
samma population)
Vad anger b- och β-koefficienterna vid en multipel regressionsanalys?
b: anger hur y ökar när x_2 hålls konstant och x_1 ökar med en enhet (och vice
versa)
β: egentligen samma som för b men istället för att öka en enhet på x-axeln så ökar
man med en standardavvikelse. Då får vi reda på hur många
standardavvikelseenheter som man ökar med på y-axeln.
Beskriv, steg för steg, hur man skulle gå tillväga för att testa om en viss variabel X kan antas ha en kurvlinjär effekt på en annan variabel Y
Hur testar man om en variabel XX har en kurvlinjär effekt på YY?
1️⃣ Z-transformera XX → Beräkna Zmed=X−XˉSD(X)Zmed=SD(X)X−Xˉ.
2️⃣ Kvadrera den Z-transformerade variabeln → Zmed2Zmed2.
3️⃣ Kör regressionen med både ZmedZmed (linjär effekt) och Zmed2Zmed2 (kurvlinjär effekt).
4️⃣ Tolka resultaten:
Om Zmed2Zmed2 är signifikant → Det finns en kurvlinjär effekt.
Om inte → Sambandet är troligen linjärt.
🎯 Varför? Z-transformering minskar kollinearitet mellan XX och X2X2 → Bättre modell!
Beskriv, steg för steg, hur man skulle gå tillväga för att testa om två variabler X och Z kan antas ha en interaktionseffekt på en tredje variabel Y.
1️⃣ Kör en regression med huvudeffekterna (Y=β0+β1X+β2Z+εY=β0+β1X+β2Z+ε).
2️⃣ Skapa interaktionstermen (XZ=X×ZXZ=X×Z).
3️⃣ Lägg till interaktionstermen i modellen (Y=β0+β1X+β2Z+β3(X×Z)+εY=β0+β1X+β2Z+β3(X×Z)+ε).
4️⃣ Kontrollera om β3β3 (interaktionseffekten) är signifikant.
5️⃣ Plotta effekten av X på Y vid olika nivåer av Z för att tolka interaktionen.
🎯 Om interaktionstermen är signifikant → effekten av X på Y beror på Z
Tänk dig att vi finner, vid en multipel regressionsanalys, att regressionskoefficienten för prediktor X är lika med +0,3, att regressionskoefficienten för prediktor Z är lika med -0,2, och
att koefficienten för interaktionstermen X × Z är lika med +0,4 (alla koefficienter är signifikanta). Beskriv hur värdena +0,3; -0,2; och +0,4 kan tolkas.
0,3: När x ökar med 1 sd och den andra prediktorn är 0 (medelvärdet) så ökar BV med 0,3.
-0,2: när Z ökar med en sd minskar Y med 0,2 standardavvikelser, givet att X
är lika med noll.
0,4: När x ökar med 1 SD ökar Z-koefficienten med 0,4, och vice versa.
Säg att vi har en kategorivariabler med fyra kategorier som vi vill ta med som en prediktor i en regressionsanalys. Beskriv hur man skall göra.
- Vi skapar 4-1=3 dikotoma “dummy-variabler”.
- Om en observation är av rätt kategori får det värdet 1, alla andra blir 0.
- Den sista fjärde kategorin får ingen dummyvariabel utan blir referenskategori.
- Vi kör analysen och jämför dummy-variablerna mot den sammanslagna
kategorivariabeln. Om det finns en signifikant skillnad i varians mellan den och en
dummy-variabel vet vi om en kategori skiljer sig signifikant från de andra.
När används envägs variansanalys?
ANOVA är en statistisk metod som används för att ta reda på om
stickprovsmedelvärden skiljer signifikant från från varandra. Vid envägs
variansanalys studeras effekterna av en oberoende variabel på en beroende
variabel (i 2 eller flera stickprov/populationer).
Vad säger noll- respektive alternativhypotesen vid envägs variansanalys?
H0: Alla gruppers medelvärden är lika μ1=μ2=μ3= H0
HA: Minst en grupps medelvärde skiljer sig från de andra. μ1 ≠ μ2 ≠ μ3 (det
Om p < 0.05 → Vi förkastar H0H0 och antar att det finns en signifikant skillnad mellan grupperna.
Vad anger den s.k. F-kvoten?
F-kvoten räknas ut genom att man dividerar MSB (Mean square between) med MSW (Mean square within).
Om F-kvoten är större än den kritiska gränsen så kan vi förkasta nollhypotesen. Den kritiska gränsen är beroende av den alfanivå och frihetsgrader som vi använt oss av.
Ett sätt att förstå F-kvoten är att den är ett mått på hur stora skillnaderna mellan två
stickprovsgrupper är. Den tar hänsyn både på skillnaden i medelvärden i grupperna
och storleken på variansen i grupperna (ju större varians desto större risk för att
grupperna överlappar varandra även fast de har olika medelvärden). Om F-kvoten är
signifikant kan man anta att det finns en skillnad mellan stickprovsgrupperna som
antagligen inte bara beror på slumpen.
Om nollhypotesen stämmer vid envägs variansanalys, vad förväntas F-kvoten bli?
Beror ju lite antal frihetsgrader. Men ju större F-kvoten är desto mer systematik finns
det bland våra data. Blir den tillräckligt stor blir den signifikant och vi kan
generalisera utifrån vårt stickprov och anta att det finns signifikanta skillnader av
medelvärden mellan våra stickprov.
Dvs F-kvoten förväntas vara låg (nära 1) om nollhypotesen stämmer. Hur mycket
beror på frihetsgrader.
Den signifikanta F-kvoten kan utläsas ur en tabell. Börja med att bestämma alfa
nivån, t.ex. 0,05. Sen måste man även hålla koll på 2 olika frihetsgrader df(between)
och df(within).
Om H0 är sann (inga verkliga skillnader) → F≈1.
Om HA är sann (minst en grupp skiljer sig) → F>1, ofta signifikant högre.
Hur ser förhållandet ut mellan F-kvoten och sannolikheten för att nollhypotesen stämmer?
Ju högre F-kvoten blir desto mindre är sannolikheten att H0 är sann.
Varför utförs s.k. Post Hoc test ofta i samband med variansanalys? Nämn namnet på minst två olika Post Hoc test. (
Vid en envägs ANOVA testar vi om minst en grupps medelvärde skiljer sig från de andra, men ANOVA säger inte vilka grupper som skiljer sig åt.
👉 Lösning: Post Hoc-test används för att göra parvisa jämförelser mellan grupperna och identifiera vilka grupper som är signifikant olika.
Fischer’s Least Significant Difference (LSD)
Tukey HSD
Svar: Vid variansanalys testas endast om grupperna antas ha samma medelvärde på en beroende variabel. Om svaret är nej talar variansanalys inte om mellan vilka grupper skillnanderna är. Därför använder man post hoc test.
Beskriv tre antaganden vid variansanalys.
- Antagandet om normalfördelade populationer - Egenskapen som mäts
antas vara normalfördelad i populationen. För att få tillförlitliga resultat (alltså
att typ-1 fel inte är större än den alfa-nivå man bestämt) måste stickproven
också vara representativa för resten av populationen om man ska kunna
generalisera sitt resultat. Dock fungerar envägs oberoende ANOVA relativt
bra även vid stora avvikelser från normalfördelningen. - Antagandet om homogena populationsvarianser - Vilket innebär att
variansen på den aktuella variabeln är densamma i alla populationer (som
stickproven representerar). - Antagandet om att x-poängen ska vara oberoende över grupperna - det
innebär att man inte ska mäta samma individer flera gånger och inte heller
dela upp individerna med hjälp av någon bakgrundsvariabel och sedan
gruppera individer med liknande värden på den bakgrundsvariabeln i
subgrupper (såvida det inte just är effekten av denna bakgrundsvariabel man
vill testa!).
Vad (ungefär) anger effektstorleken vid variansanalys? Ange två olika effektmått.
effektstorleken anger hur stor andel av den totala variansen i den beroende variabeln som kan förklaras av grupptillhörighet.
Effektmått:
- Eta- squared (samma sak som R2 i regressionsanalys)
- Omega- squared
När används tvåvägs ANOVA?
Tvåvägs ANOVA (two-way ANOVA) används när vi vill analysera hur två oberoende variabler (faktorer) påverkar en beroende variabel och om det finns en interaktionseffekt mellan faktorerna.
Svar: När man har två oberoende variabler (kallas ofta ”faktorer” i variansanalys). För
ANOVA i allmänhet gäller att den/de oberoende variablerna är kategorivariabler med inte
alltför många nivåer och att den beroende variabeln är kontinuerlig (så att det är vettigt att
beräkna medelvärde)
Vad menas med ”huvudeffekter”, ”enkla effekter” och ”interaktionseffekter”? Ge konkreta
exempel.
Huvudeffekter – Undersöker om varje faktor påverkar den beroende variabeln.
T.ex. Påverkar kön (man/kvinna) medellön?
T.ex. Påverkar utbildningsnivå (gymnasium/universitet) medellön?
Interaktionseffekt – Undersöker om effekten av en faktor beror på den andra faktorn. T.ex. Påverkar utbildningsnivå medellönen olika beroende på kön?
Enkla effekter= Hur värdena i den beroende variabeln varierar mellan nivåerna på
den oberoende variabeln X (kön) för en viss nivå på den oberoende variabeln Y (här
behandling)
- T.ex. Hur påverkar behandling livsglädje endast för kvinnor?
Vad brukar inträffa med F-kvoten för effekten av en viss oberoende variable om man tar med ytterligare en oberoende variabel i analysen? Varför?
F-värdet brukar bli högre.
Varför? genom att ta hänsyn till ännu en oberoende variabel samt interaktionen
mellan de oberoende variablerna så sjunker felvariansen (vi får lägre error vid
tvåvägsanalys). Då blir F-värdet för effekten av behandling högre (Analysen får
högre power).
Hur många effekter räknas fram vid en trevägs ANOVA?
Sju: Tre huvudeffekter och fyra interaktionseffekter (AxB, AxC, BxC, AxBxC)
Beskriv vad som menas med en trevägs interaktion.
Hur tre OV interagerar med varandra i effekten på BV. Ex. om man fått Behandling
A, är kvinna och ung, vad har det för effekt på livglädje. Det innebär att interaktionen
mellan behandling och kön ser olika ut för olika nivåer av ålder.
Säg att du vid en trevägs ANOVA finner att de tre oberoende variablerna A, B och C
interagerar signifikant i sin effekt på den beroende variabeln D. Beskriv hur du skulle gå
vidare med analysen.
Då kan jag gå vidare och göra en tvåvägs-ANOVA för dem som fått behandling A
och en för dem som fått behandling B och så kan jämför hur huvudeffekter och
interaktionseffekten för ålder kön skiljer sig. Om det finns en interaktionseffekt vill vi
undersöka den närmare. Det gör vi genom att göra envägs-ANOVOR för aktuella
grupper.
Vid dikotoma OV behöver vi inga post hoc-test. Då räcker ANOVA.
När används ANOVA för beroende mätningar?
När man har en inomindividsdesign, det vill säga då vi mäter BV för samma individer
vid flera mätillfällen.
Vad är fördelen med upprepade mätningar?
Effekten av individuell variation kan beräknas, vilket minskar mätfel och därmed ökar
powern. Om vi bara har ett värde per person vet vi inte om det har att göra med OV
eller om personens generellt tenderar att ligga där. Om vi har flera värden för samma
person kan vi räkna ut ett individuellt medelvärde över alla mätningar. Vi kan räkna
bort individuell effekt från effekten av tid (behandling) och får då ett renare mått på
effekten av behandling.
Beskriv det ”extra antagande” som gäller för ANOVA för beroende mätningar som inte
gäller för ANOVA för oberoende mätningar.
Sfäriskhet – homogena varianser för alla differenser. Alltså, värdena ska skilja sig
ungefär lika mycket mellan mättillfällen för alla individer i populationen.beräkna
Kan testas t.ex. genom ”Mauchly’s Test of Sphericity” – testar om det finns en
signifikant skillnad i varians för differenserna
När används Mixed ANOVA?
Används när vi har upprepade mättillfällen av BV hos samma personer OCH vi har
en eller flera OV som varierar mellan personer (olika grupper).
Med andra ord: Vi mäter samma personer flera gånger på den beroende variabeln
+ att personerna tillhör olika grupper.
Vad innebär en signifikant interaktion vid en ANOVA för upprepade mätningar med en mellanindividsvariabel? Ge ett konkret exempel.
Att det finns en interaktionseffekt av grupp x tid på BV.
Ex. Depressionsgrad i två behandlingsgrupper män+kvinnor har mätts innan och
efter behandling. Det finns en interaktionseffekt: kön x tidpunkt. = Effekten av
tidpunkt på depressionsgrad varierar med kön.
Vad drar vi för slutsats utifrån Tolerance-värdena i den tredje tabellen?
Tolerans är ett mått på kollinearitet. Högt toleransvärde = låg kollin
Tolerance-
värdet anger hur mycket av variansen i respektive prediktor som INTE (1-R-squared) kan
förklaras av övriga prediktorer, alltså grad av oberoende.
Vi vill ha höga toleransvärden för att det kan indikera att det finns ett unikt samband med beroende variabeln vilket ju är vad koefficienterna anger)
Med låg tolerance = hög
kollinearitet blir det svårt att estimera prediktorns unika samband med den beroende variabeln
och vi kan inte riktigt lita på estimaten. Enligt en tumregel bör Tolerance-värdet vara högre än
0.4. I det aktuella fallet ser vi värdena 0.799, 0.798 och 0.999 för respektive socialt stöd, ålder
och deras interaktion. Dessa värden är höga och fina och indikerar att vi inte behöver vara
oroliga för kollinearitet.
Vad drar vi för slutsats om p < .001 i den första tabellen?
svar: Om vår modell (med socialt stöd, ålder och deras interaktion) är helt värdelös på att
predicera grad av depression i den population som stickprovet representerar, alltså om R-
squared är lika med noll i populationen, så är sannolikheten att få 46.4% eller med förklarad
varians i ett stickprov av den här storleken (N = 647) mindre än en promille. Med sedvanlig
signifikansnivå på 0.05 drar vi slutsatsen att vår modell inte är helt värdelös utan att R-
squared i populationen är högre än noll procent. Detta innebär samtidigt att åtminstone en av
de tre regressionskoefficienterna (för soc.sup, age, respektive soc.sup*age) kan antas skilja sig
från noll i populationen.
Vad anger värdet r i den första tabellen?
r anger Korrelationen mellan de 647 personernas uppmätta grad av depression och den
depression de prediceras ha enligt den aktuella regressionsmodellen är lika med 0.681. Den
predicerade graden av depression (standardiserat) ges av ekvationen:
Z(dep) = 0.2487 – 0.3298Z(soc.sup) – 0.0742Z(age) + 0.5551Z(soc.sup)Z(age)