AVV College 2 Flashcards

1
Q

Onderzoeksvragen enkelvoudige lineaire regressie

A

Wat is de relatie tussen de tijd die studenten besteden aan studeren en tentamencijfers?

Is de consumptie van rood vlees kankerverwekkend

Is sociaaleconomische status een goede voorspeller van zorgkosten?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Doel regressieanalyse

A

doel: voorspelling of verklaring van de afhankelijke variabele (Y) uit de onafhankelijke variabelen (X1 tm Xp)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wanneer kun je een regressieanalyse toepassen

A
  • afhankelijk van onderzoeksvraag: voorspellen vs. verklaren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Variabele Y (afhankelijke/te verklaren variabele)

A

Meetniveau: continu (interval/ratio)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Variabele X1 tm Xp (onafhankelijke/verklarende variabele)

A

meetniveau: continu (interval/ratio vb. leeftijd) of categoriaal (nominaal/ordinaal vb. man of vrouw, opleidingsniveau)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Regressielijn

A

= geeft weer hoe Y verandert, als X verandert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Richtingscoëfficiënt

A

= de geschatte verandering in Y bij toename van X met 1 eenheid

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hoe tekenen we de regressielijn

A
  • op zoek naar regressielijn die het beste past op de data
  • methode: Ordinary Least Squares (OLS) = kleine kwadraten methode
  • geschatte residue
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Geschatte residue (of: fout, error) voor individu

A

i = êi = observed - predicted = Yi - ^Yi

Residuen willen we zo klein mogelijk maken. Tussen haken staan de residuen, dat is het verschil tussen de geobserveerde waarde en de schatting op basis van je regressielijn. Dit kwadrateer je voor elk individu in de steekproef. Eindigen bij laatste individu in steekproef. De som van de gekwadrateerde residuen als je dit allemaal bij elkaar optelt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

We hebben een regressievergelijking en nu?

A
  • voorspellen van Y door middel van invullen regressievergelijking

^Yi = a + b*Xi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Interpoleren

A

= voorspellingen voor waarde X die binnen het domein van je steekproef vallen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Extrapoleren

A

= voorspellingen voor waarde X die je niet hebt gemeten in je steekproef. Dit is risicovol

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Voorspellen voor X buiten de steekproef

A
  • bepaal voorspelling door X in te vullen in de regressievergelijking
  • Ŷ is echter niet gelijk aan Y (onbekend)
  • de nauwkeurigheid van deze voorspelling kunnen we weergeven via het voorspelinterval (b.i. voor voorspellingen)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Voorspelinterval

A

–> hoe breder je voorspelinterval, hoe minder nauwkeurig je voorspellingen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hoe goed zijn de voorspellingen

A

Dat meten we onder meer via GKS (residu):

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Sd2

A

hoe lager, hoe beter de regressielijn ‘past’ in de puntenwolk en hoe beter de voorspellingen zijn

17
Q

Proportie verklaarde variantie in Y R2 =

A

KS (totaal) - KS(residu)/ KS (totaal)

=

KS (regressie)/ KS (totaal)

18
Q

Max en min R2

A

max = 1 (zeer sterk verband X en Y)

min = 0 (geen verband X en Y)

R2 neemt toe als het kleiner wordt

19
Q

Bij enkelvoudige lineaire regressie geldt R2 =

A

R2 = r2

r = correlatiecoëfficiënt

20
Q

Is er significante samenhang of relatie tussen X en Y?

A

Toets voor een afzonderlijke X-variabele: T-toets

21
Q

Voorspelt ons regressiemodel een significant deel van de variantie in Y?

A

Toets voor gehele model: F-toets

22
Q

De nauwkeurigheid van b hangt af van:

A
  • variantie van residuen in de steekproef –> als de variantie van de residuen toeneemt, neemt de nauwkeurigheid van de schatting af

Variantie van X in de steekproef –> meer verschillen in X waarde in steekproef, voorspelling wordt nauwkeuriger

aantal waarnemingen in de steekproef: steekproef grootte neemt toe, standaardfout neemt af, nauwkeurigheid neemt toe

23
Q

F =

A

= GKS (regressie) / GKS (residu)

24
Q

p

A

= het aantal onafhankelijke variabelen (in geval van een enkelvoudige lineaire regressie: 1)

25
Q

variantie regressie

A

= de variantie die wordt opgepikt door het model

26
Q

variantie residu

A

= de fout

27
Q

Kwadraatsommen bepalen voor in ANOVA-tabel

A

KS (totaal) = KS (regressie) + KS (residu)

28
Q

Lineariteit

A

= er moet een lineair verband zijn tussen X en Y

29
Q

Homoskedasticiteit

A

= constante variantie van de residuen

30
Q

Normaliteit

A

= de residuen zijn normaal verdeeld

31
Q

Hulplijn

A
  1. lineariteit: check residuen plot voor lachende smiley of sippe smiley, geen lineariteit
  2. homosk. check residuen plot voor: megafoon met toeter naar links of rechts, geen sprake ervan, wel van heterosk
  3. normaliteit: check histogram voor residuen scheefheid –> scheefheid? geen normaliteit
32
Q

Het model blijkt niet lineair te zijn

A

= coëfficiënten zijn niet correct

33
Q

Geen gelijke variantie residuen

A

coëfficiënten correct, maar standaardfouten niet dus hypothesetoetsen en b.i.’s ook nit

34
Q

de residuen zijn niet normaal verdeeld

A

• Coëfficiënten bij benadering correct (op t moment dat je steeproef groot genoeg is, wet van grote aantallen) dus negatieve gevolgen voor de hypothesetoetsen en de b.i.’s beperkt.