AVV College 2 Flashcards
Onderzoeksvragen enkelvoudige lineaire regressie
Wat is de relatie tussen de tijd die studenten besteden aan studeren en tentamencijfers?
Is de consumptie van rood vlees kankerverwekkend
Is sociaaleconomische status een goede voorspeller van zorgkosten?
Doel regressieanalyse
doel: voorspelling of verklaring van de afhankelijke variabele (Y) uit de onafhankelijke variabelen (X1 tm Xp)
Wanneer kun je een regressieanalyse toepassen
- afhankelijk van onderzoeksvraag: voorspellen vs. verklaren
Variabele Y (afhankelijke/te verklaren variabele)
Meetniveau: continu (interval/ratio)
Variabele X1 tm Xp (onafhankelijke/verklarende variabele)
meetniveau: continu (interval/ratio vb. leeftijd) of categoriaal (nominaal/ordinaal vb. man of vrouw, opleidingsniveau)
Regressielijn
= geeft weer hoe Y verandert, als X verandert
Richtingscoëfficiënt
= de geschatte verandering in Y bij toename van X met 1 eenheid
Hoe tekenen we de regressielijn
- op zoek naar regressielijn die het beste past op de data
- methode: Ordinary Least Squares (OLS) = kleine kwadraten methode
- geschatte residue
Geschatte residue (of: fout, error) voor individu
i = êi = observed - predicted = Yi - ^Yi
Residuen willen we zo klein mogelijk maken. Tussen haken staan de residuen, dat is het verschil tussen de geobserveerde waarde en de schatting op basis van je regressielijn. Dit kwadrateer je voor elk individu in de steekproef. Eindigen bij laatste individu in steekproef. De som van de gekwadrateerde residuen als je dit allemaal bij elkaar optelt
We hebben een regressievergelijking en nu?
- voorspellen van Y door middel van invullen regressievergelijking
^Yi = a + b*Xi
Interpoleren
= voorspellingen voor waarde X die binnen het domein van je steekproef vallen
Extrapoleren
= voorspellingen voor waarde X die je niet hebt gemeten in je steekproef. Dit is risicovol
Voorspellen voor X buiten de steekproef
- bepaal voorspelling door X in te vullen in de regressievergelijking
- Ŷ is echter niet gelijk aan Y (onbekend)
- de nauwkeurigheid van deze voorspelling kunnen we weergeven via het voorspelinterval (b.i. voor voorspellingen)
Voorspelinterval
–> hoe breder je voorspelinterval, hoe minder nauwkeurig je voorspellingen
Hoe goed zijn de voorspellingen
Dat meten we onder meer via GKS (residu):