Min frågeställning
Hur påverkas en individs inkomstnivå (beroende variabel) av föräldrarnas inkomstnivå (förklarande variabel) med hänsyn till antalet studerade år efter gymnasiet och ålder som kontrollvariabler.
Vad möjliggör min frågeställning?
Genom att inkludera alla dessa variabler i modellen kan jag bedöma variablernas individuella effekter på inkomstnivån medan jag kontrollerar för potentiella störande faktorer.
Beskriv populationen
Vuxna individer i Sverige, som är i åldrarna 18 till 65 år.Som arbetar.
Beskriv din urvalsmetod
Slumpmässigt urval, görs med hjälp av enkäter som skickas ut till e-brevlåda, lika stor chans att bli utvald.
Hur är din beroende variabel utformad?
Individers inkomstnivå: För att underlätta för respondenterna och öka svarsfrekvensen ger jag respondenterna förbestämda alternativ för att ange inkomsten.
Exempelvis
Mindre än 100 000 SEK per år
100 000 - 200 000 SEK per år
200 001 - 300 000 SEK per år
Och så vidare…
Genom att inkludera en sådan fråga i din enkät kan du samla in data om respondenternas årliga bruttoinkomst och använda den som den beroende variabeln i din multipel regressionsanalys.
Beskriv hur din oberoende variabel är utformad
Föräldrars inkomstnivå - sammanlagd årsinkomst för föräldrarna
Beskriv dina kontrollvariabler
Ålder & antalet studerade år efter gymnasiet
Vad kommer ditt resultat att visa?
Vilka problem kan uppstå vid tolkning av resultatet?
Förklara kriterierna för kausalitet genom att använda din multipla regressionsmodell som ett exempel.
Givet den multipla regressionsmodell du har presenterat hur skulle du förklara vad
betakoefficenten betyder (använd en modell utan interaktionsterm)?
Betakoefficienten syftar till förändringen som sker på den beroende variabeln (individers inkomstnivå) när den oberoende variabeln (föräldrarnas inkomstnivå) ökar med 1 enhet. Givet att alla andra variabler är konstanthålla.
Ett av antagandena för multipel regression är att populations-felen ska vara
normalfördelade. Hur skulle du gå tillväga för att undersöka detta?
Jag skulle använda Shapiro-Wilk-testet. Om p-värdet för testet är större än den valda signifikansnivå (0.05), och då titta på att p-värdet i detta fall är större än 0,05, för ett lågt p-värde i dessa tester kan indikera avvikelse från normalfördelningen.
Förklara R^2 i termer av ”proportional reduction in error” i relation till din multipla
regressionsmodell. Varför är det viktigt att justera för antal variabler du använder i
modellen?
R^2, eller “koefficienten för determinering”, är en statistisk mätning som används för att utvärdera hur väl en regressionsmodell passar data. I termer av “proportional reduction in error” innebär R^2 att det visar hur mycket av variationen i den beroende variabeln (i ditt fall individens inkomstnivå) som förklaras av variationen i de förklarande variablerna (föräldrarnas inkomstnivå, antalet studerade år efter gymnasiet och ålder).
Ju högre värdet på R^2 är, desto bättre passar modellen data.
Det är viktigt att justera för antalet variabler i modellen av flera skäl:
Overfitting: Att inkludera för många variabler i modellen kan leda till överanpassning.
Interpretation: Med fler variabler blir det svårare att tolka resultaten av modellen och förstå vilken variabel som har vilken effekt på den beroende variabeln. Genom att justera för antal variabler kan du få en klarare förståelse för de specifika effekterna av varje variabel.
Föreställ dig att din oberoende variabel har en i genomsnitt positiv relation till din
beroende variabel. Men, när du lägger till dina två kontrollvariabler så blir relationen
negativ. Förklara.
Skulle det kunna finnas en interaktionseffekt mellan din valda oberoende variabel och någon av dina kontrollvariabler? Förklara.
Ja, det är möjligt att det finns en interaktionseffekt mellan den oberoende variabeln “föräldrarnas inkomstnivå” och någon av kontrollvariablerna “antalet studerade år efter gymnasiet” och “ålder”. En interaktionseffekt uppstår när effekten av en oberoende variabel på den beroende variabeln är beroende av en annan variabel.
Om det finns en interaktion mellan “föräldrarnas inkomstnivå” och “antalet studerade år efter gymnasiet”, kan det innebära att effekten av “föräldrarnas inkomstnivå” på “individers inkomstnivå” förändras beroende på antalet studerade år efter gymnasiet.
Förklara hur du kan testa om ditt samband är signifikant eller inte (dvs hur du testar den partiella koefficienten i din multipla regression).
Då kollar man den partiella koefficienten, och skapar en nollhypotes och en alternativ hypotes. Dvs om det finns ett samband eller inte. Sen kan man göra ett t-test och kolla på p-värdet. Vid signifikansnivån 0,05 vill man att värdet på p ska vara lägre än 0,05 för att anse sambandet som statistiskt signifikant.
Vilka problem kan uppstå om estimerar en OLS med en binär beroendevariabel?
Den är tänkt till att visa en linjär funktion. Värdet på en binär variabel kan endast vara 0 eller 1. Går inte att vara normalfördelad.