AVV College 2 Flashcards
Onderzoeksvragen enkelvoudige lineaire regressie
Wat is de relatie tussen de tijd die studenten besteden aan studeren en tentamencijfers?
Is de consumptie van rood vlees kankerverwekkend
Is sociaaleconomische status een goede voorspeller van zorgkosten?
Doel regressieanalyse
doel: voorspelling of verklaring van de afhankelijke variabele (Y) uit de onafhankelijke variabelen (X1 tm Xp)
Wanneer kun je een regressieanalyse toepassen
- afhankelijk van onderzoeksvraag: voorspellen vs. verklaren
Variabele Y (afhankelijke/te verklaren variabele)
Meetniveau: continu (interval/ratio)
Variabele X1 tm Xp (onafhankelijke/verklarende variabele)
meetniveau: continu (interval/ratio vb. leeftijd) of categoriaal (nominaal/ordinaal vb. man of vrouw, opleidingsniveau)
Regressielijn
= geeft weer hoe Y verandert, als X verandert
Richtingscoëfficiënt
= de geschatte verandering in Y bij toename van X met 1 eenheid
Hoe tekenen we de regressielijn
- op zoek naar regressielijn die het beste past op de data
- methode: Ordinary Least Squares (OLS) = kleine kwadraten methode
- geschatte residue
Geschatte residue (of: fout, error) voor individu
i = êi = observed - predicted = Yi - ^Yi
Residuen willen we zo klein mogelijk maken. Tussen haken staan de residuen, dat is het verschil tussen de geobserveerde waarde en de schatting op basis van je regressielijn. Dit kwadrateer je voor elk individu in de steekproef. Eindigen bij laatste individu in steekproef. De som van de gekwadrateerde residuen als je dit allemaal bij elkaar optelt
We hebben een regressievergelijking en nu?
- voorspellen van Y door middel van invullen regressievergelijking
^Yi = a + b*Xi
Interpoleren
= voorspellingen voor waarde X die binnen het domein van je steekproef vallen
Extrapoleren
= voorspellingen voor waarde X die je niet hebt gemeten in je steekproef. Dit is risicovol
Voorspellen voor X buiten de steekproef
- bepaal voorspelling door X in te vullen in de regressievergelijking
- Ŷ is echter niet gelijk aan Y (onbekend)
- de nauwkeurigheid van deze voorspelling kunnen we weergeven via het voorspelinterval (b.i. voor voorspellingen)
Voorspelinterval
–> hoe breder je voorspelinterval, hoe minder nauwkeurig je voorspellingen
Hoe goed zijn de voorspellingen
Dat meten we onder meer via GKS (residu):
Sd2
hoe lager, hoe beter de regressielijn ‘past’ in de puntenwolk en hoe beter de voorspellingen zijn
Proportie verklaarde variantie in Y R2 =
KS (totaal) - KS(residu)/ KS (totaal)
=
KS (regressie)/ KS (totaal)
Max en min R2
max = 1 (zeer sterk verband X en Y)
min = 0 (geen verband X en Y)
R2 neemt toe als het kleiner wordt
Bij enkelvoudige lineaire regressie geldt R2 =
R2 = r2
r = correlatiecoëfficiënt
Is er significante samenhang of relatie tussen X en Y?
Toets voor een afzonderlijke X-variabele: T-toets
Voorspelt ons regressiemodel een significant deel van de variantie in Y?
Toets voor gehele model: F-toets
De nauwkeurigheid van b hangt af van:
- variantie van residuen in de steekproef –> als de variantie van de residuen toeneemt, neemt de nauwkeurigheid van de schatting af
Variantie van X in de steekproef –> meer verschillen in X waarde in steekproef, voorspelling wordt nauwkeuriger
aantal waarnemingen in de steekproef: steekproef grootte neemt toe, standaardfout neemt af, nauwkeurigheid neemt toe
F =
= GKS (regressie) / GKS (residu)
p
= het aantal onafhankelijke variabelen (in geval van een enkelvoudige lineaire regressie: 1)
variantie regressie
= de variantie die wordt opgepikt door het model
variantie residu
= de fout
Kwadraatsommen bepalen voor in ANOVA-tabel
KS (totaal) = KS (regressie) + KS (residu)
Lineariteit
= er moet een lineair verband zijn tussen X en Y
Homoskedasticiteit
= constante variantie van de residuen
Normaliteit
= de residuen zijn normaal verdeeld
Hulplijn
- lineariteit: check residuen plot voor lachende smiley of sippe smiley, geen lineariteit
- homosk. check residuen plot voor: megafoon met toeter naar links of rechts, geen sprake ervan, wel van heterosk
- normaliteit: check histogram voor residuen scheefheid –> scheefheid? geen normaliteit
Het model blijkt niet lineair te zijn
= coëfficiënten zijn niet correct
Geen gelijke variantie residuen
coëfficiënten correct, maar standaardfouten niet dus hypothesetoetsen en b.i.’s ook nit
de residuen zijn niet normaal verdeeld
• Coëfficiënten bij benadering correct (op t moment dat je steeproef groot genoeg is, wet van grote aantallen) dus negatieve gevolgen voor de hypothesetoetsen en de b.i.’s beperkt.