Muntlig tenta Flashcards
Min frågeställning
Hur påverkas en individs inkomstnivå (beroende variabel) av föräldrarnas inkomstnivå (förklarande variabel) med hänsyn till antalet studerade år efter gymnasiet och ålder som kontrollvariabler.
Vad möjliggör min frågeställning?
Genom att inkludera alla dessa variabler i modellen kan jag bedöma variablernas individuella effekter på inkomstnivån medan jag kontrollerar för potentiella störande faktorer.
Beskriv populationen
Vuxna individer i Sverige, som är i åldrarna 18 till 65 år.Som arbetar.
Beskriv din urvalsmetod
Slumpmässigt urval, görs med hjälp av enkäter som skickas ut till e-brevlåda, lika stor chans att bli utvald.
Hur är din beroende variabel utformad?
Individers inkomstnivå: För att underlätta för respondenterna och öka svarsfrekvensen ger jag respondenterna förbestämda alternativ för att ange inkomsten.
Exempelvis
Mindre än 100 000 SEK per år
100 000 - 200 000 SEK per år
200 001 - 300 000 SEK per år
Och så vidare…
Genom att inkludera en sådan fråga i din enkät kan du samla in data om respondenternas årliga bruttoinkomst och använda den som den beroende variabeln i din multipel regressionsanalys.
Beskriv hur din oberoende variabel är utformad
Föräldrars inkomstnivå - sammanlagd årsinkomst för föräldrarna
Beskriv dina kontrollvariabler
Ålder & antalet studerade år efter gymnasiet
Vad kommer ditt resultat att visa?
- Hur föräldrarnas inkomstnivå direkt påverkar individers inkomstnivå. Med hänsyn till andra faktorer som antalet studerade år (efter gymnasiet) samt ålder
- Hypotes: ju högre föräldrarnas inkomstnivå är –> desto högre inkomstnivå har individen. Positiv lutning - positivt samband
- Samt hur antalet studerade år & ålder kan påverka sambandet, om de fungerar som mediatorer eller moderatorer mellan beroende/oberoende variabeln.
Vilka problem kan uppstå vid tolkning av resultatet?
- Bortfall svarsfrekvens - lön & inkomst känslig fråga. Finns risk att urvalet inte blir representativt, även om jag använt ett slumpmässigt stickprov (alla har samma chans att bli valda) kan ändå en grupp bli överrepresenterade - svårare att generalisera resultatet i det fallet.
- Risk att respondenter inte “orkar” ta fram denna information och svara.
- Multipel regressionsanalys kan visa på samband mellan variabler, men det är viktigt att komma ihåg att korrelation = kausalitet. Även om jag kan observera en positiv relation mellan föräldrarnas inkomstnivå och individers årsinkomst, kan det finnas andra variabler som påverkar båda variablerna som inte är inkluderade i analysen.
- Multikollinearitet uppstår när två eller flera förklarande variabler i modellen är högt korrelerade med varandra. Detta kan göra det svårt att skilja mellan effekterna av de enskilda variablerna och kan påverka stabiliteten och tillförlitligheten hos de skattade koefficienterna.
Förklara kriterierna för kausalitet genom att använda din multipla regressionsmodell som ett exempel.
- Temporal ordning: För att kunna dra slutsatser om kausalitet måste den förklarande variabeln (föräldrarnas inkomstnivå) komma före den beroende variabeln (individers inkomstnivå) i tid. I mitt exempel skulle föräldrarnas inkomstnivå troligen existera före individers inkomstnivå, vilket uppfyller kriteriet.
- Pearsons korrelationskoefficient (r): Pearsons r används för att mäta styrkan och riktningen av det linjära sambandet mellan två kontinuerliga variabler. Om Pearsons r är signifikant avvikande från noll, indikerar det att det finns en signifikant linjär relation mellan variablerna.
- Förklaringskraft: Din multipel regressionsmodell kan användas för att bedöma förklaringskraften för den förklarande variabeln (föräldrarnas inkomstnivå) när andra variabler hålls konstanta. Om föräldrarnas inkomstnivå visar sig ha en signifikant effekt på individers inkomstnivå, även efter att ha kontrollerat för antalet studerade år efter gymnasiet och ålder, skulle detta stödja hypotesen om kausalitet.
- För att tolka resultatet mer precist, bör du också titta på konfidensintervallet för den skattade koefficienten för föräldrarnas inkomstnivå. Om konfidensintervallet inte inkluderar noll och p-värdet för koefficienten är mindre än din signifikansnivå (t.ex. 0.05), indikerar det att resultatet är statistiskt signifikant. Detta innebär att det är osannolikt att den observerade relationen mellan föräldrarnas inkomstnivå och individers årsinkomst har uppstått av en slump.
Givet den multipla regressionsmodell du har presenterat hur skulle du förklara vad
betakoefficenten betyder (använd en modell utan interaktionsterm)?
Betakoefficienten syftar till förändringen som sker på den beroende variabeln (individers inkomstnivå) när den oberoende variabeln (föräldrarnas inkomstnivå) ökar med 1 enhet. Givet att alla andra variabler är konstanthålla.
Ett av antagandena för multipel regression är att populations-felen ska vara
normalfördelade. Hur skulle du gå tillväga för att undersöka detta?
Jag skulle använda Shapiro-Wilk-testet. Om p-värdet för testet är större än den valda signifikansnivå (0.05), och då titta på att p-värdet i detta fall är större än 0,05, för ett lågt p-värde i dessa tester kan indikera avvikelse från normalfördelningen.
Förklara R^2 i termer av ”proportional reduction in error” i relation till din multipla
regressionsmodell. Varför är det viktigt att justera för antal variabler du använder i
modellen?
R^2, eller “koefficienten för determinering”, är en statistisk mätning som används för att utvärdera hur väl en regressionsmodell passar data. I termer av “proportional reduction in error” innebär R^2 att det visar hur mycket av variationen i den beroende variabeln (i ditt fall individens inkomstnivå) som förklaras av variationen i de förklarande variablerna (föräldrarnas inkomstnivå, antalet studerade år efter gymnasiet och ålder).
Ju högre värdet på R^2 är, desto bättre passar modellen data.
Det är viktigt att justera för antalet variabler i modellen av flera skäl:
Overfitting: Att inkludera för många variabler i modellen kan leda till överanpassning.
Interpretation: Med fler variabler blir det svårare att tolka resultaten av modellen och förstå vilken variabel som har vilken effekt på den beroende variabeln. Genom att justera för antal variabler kan du få en klarare förståelse för de specifika effekterna av varje variabel.
Föreställ dig att din oberoende variabel har en i genomsnitt positiv relation till din
beroende variabel. Men, när du lägger till dina två kontrollvariabler så blir relationen
negativ. Förklara.
- Kollinearitet:
Kollinearitet, där oberoende variabler i modellen är starkt korrelerade, kan påverka resultaten. Om “föräldrarnas inkomstnivå” och en eller båda av kontrollvariablerna är starkt korrelerade, kan det påverka modellen.
När du lägger till “antalet studerade år efter gymnasiet” och “ålder” i modellen kan dessa variabler korrelera negativt med “föräldrars inkomstnivå”, vilket kan förändra riktningen på dess effekt. - Modifierande effekter (Interaktionseffekter):
Det är möjligt att det finns interaktionseffekter mellan variablerna. Det betyder att effekten av “föräldrarnas inkomstnivå” på “individers inkomstnivå” kan variera beroende på nivån av “antalet studerade år efter gymnasiet” eller “ålder”.
Om interaktionseffekter finns, kan de skapa förändringar i riktningen på effekterna när du lägger till nya variabler i modellen. - Suppressions-/förstärkningseffekt:
Ibland kan en variabel ha en s.k. förstärkningseffekt när andra variabler läggs till i modellen. Det innebär att genom att lägga till kontrollvariabler blir effekten av “föräldrarnas inkomstnivå” tydligare och ändrar riktningen på grund av samspelet med andra variabler. - Undersökningskontext och teori:
Den förändrade effekten kan bero på det specifika sammanhanget för studien eller den teoretiska förståelsen av variablerna.
Det är viktigt att överväga om det finns faktorer i studien som kan förklara förändringarna i riktningen på effekterna när nya variabler läggs till.
För att förstå varför riktningen på effekterna ändras, är det viktigt att granska resultaten, genomföra diagnostiska tester (t.ex., för kollinearitet eller interaktionseffekter) och överväga den teoretiska förståelsen av variablerna.
Skulle det kunna finnas en interaktionseffekt mellan din valda oberoende variabel och någon av dina kontrollvariabler? Förklara.
Ja, det är möjligt att det finns en interaktionseffekt mellan den oberoende variabeln “föräldrarnas inkomstnivå” och någon av kontrollvariablerna “antalet studerade år efter gymnasiet” och “ålder”. En interaktionseffekt uppstår när effekten av en oberoende variabel på den beroende variabeln är beroende av en annan variabel.
- Modererande effekt av ålder:
Om det finns en interaktion mellan “föräldrarnas inkomstnivå” och “antalet studerade år efter gymnasiet”, kan det innebära att effekten av “föräldrarnas inkomstnivå” på “individers inkomstnivå” förändras beroende på antalet studerade år efter gymnasiet.
- För att undersöka och bekräfta interaktionseffekter, kan du lägga till interaktionstermer i din multipela regressionsmodell.
- granska de specifika koefficienterna och deras p-värden. Om en interaktionseffekt är signifikant, indikerar det att det finns en modererande effekt och att sambandet mellan föräldrars inkomstnivå och individers inkomstnivå förändras beroende på nivån av den andra variabeln i interaktionen.