multiple regressie Flashcards

1
Q

onderzoeksdoelen multiple regressie

A
  • Beschrijven lineaire relaties tussen variabelen (regressiemodel).
  • Toetsen hypothesen over relaties (significantie). Lijkt het ook relevant en significant te zijn als je kennis hebt over een kenmerk?
  • Kwantificeren van relaties (effectgrootte). : hoe groot is het effect? Soms is er wel een associatie maar is het heel minimaal en kleine effectgrootte, waardoor je er in de praktijk weinig aan hebt.
  • Kwalificeren van relaties (klein, middelmatig, groot effect).
  • Beoordelen relevantie relaties (subjectief). : Soms is kleine verbetering relevant als iemand ziek is bv, maar soms is het niet relevant en heeft het alleen zin als er een groot effect is.
  • Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

onderzoeksvraag multiple regressie

A

Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere kenmerken?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Y

A

afhankelijke variabele (dependent)
- Kenmerk gemeten op minimaal interval meetniveau.: of nominaal niveau

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

x

A

onafhankelijke variabele (predictoren)
- Kenmerk gemeten op minimaal interval meetniveau.
- Categorische kenmerk met twee categorieën; nominaal meetniveau met twee categorieën noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën; nominaal/ordinaal meetniveau wordt omgezet in dummyvariabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

BO

A

intercept (constant)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

B1

A

regressiecoëfficiënt (slope)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

E

A

E = voorspellingsfout (error of residual)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

toetsingsgrootheid verklaarde variantie R2

A

F-toets: bepaalt of de verklaarde variantie significant is (p < .05). F bepaalt het aandeel verklaarde en onverklaarde variantie in het model. Formule F- toets:
Mean Sum of squares / Residuele Sum of Squares.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

toetsingsgrootheid regressiecoëfficiënten B

A

T-toets: richtingscoëfficiënt B omgerekend naar een T- waarde.
Formule T-waarde: T=(M1-M2)/SE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

effectgrootte

A

R2 0.01 Klein
R2 0.09 Medium
R2 0.25 Groot

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

waar staat BO voor

A

de waarde van Y als X gelijk is aan 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

waar staat B1 voor

A

het verschil van waarde in Y wanneer X1 groter wordt. Dus de verandering in y als x1 groter wordt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

wat zijn de assumpties bij multiple regressie

A
  • De participanten zijn aselect gekozen en scoren onafhankelijk van elkaar
  • De variabelen meten een begrip op interval/ ratio meetniveau (uitzondering: dummy’s)
  • Er is een lineaire relatie tussen de variabelen
  • Er zijn geen
    uitschieters
  • Homoscedasticiteit: per X-waarde is de spreiding in Y-scores gelijk
  • Per X-waarde zijn de Y-scores normaal verdeeld
  • Multicollineariteit: Er mag geen hoge correlatie zijn tussen de onafhankelijke variabelen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Variantie

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

beschrijving

A

Y = b0 + b1∙X + error

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Voorspelling:

A

Ŷ = b0 + b1∙X

17
Q

dichotoom

A

ja of nee, man of vrouw etc. het betekend wel of niet aanwezig.

18
Q

wat is het padmodel van multiple regressie

A
  • een afhankelijke variabele (Y)
  • één of meerdere onafhankelijke variabelen (minimaal interval)
  • één of meerdere onafhankelijke variabelen (dichotoom)
  • E: de meetfouten, de errors,
19
Q

waarom kijk je naar een histrogram

A

Je kijkt naar een histogram om te kijken of er spreiding is en of er sprake is van een normaalverdelling en een belcurve.
Je kijkt hiernaar om te kijken of er uberhaubt iets te verklaren valt.

20
Q

kleinste kwadraten criterium

A

best passende rechte lijn. Dit is de lijn waarbij de voorspellingsfout zo klein mogelijk is. Dit doe je door het kleine kwadraten criterium te nemen.
Je rekent de voorspellingsfout uit, de voorspellingsfout is de afstand tussen de geobserveerde waarde en de voorspelde waarde.

21
Q

wat betekent een positive error

A

dit zijn errors boven de lijn, dus een onderschatting van het model

22
Q

wat betekend een negatieve error

A

onder de lijn, overschatting van het model

23
Q

goodness- of-fit

A

Beste model? Met goodness of fit ga je kijken hoe goed het model past.
- Het model (regressielijn) met kleinste residuele kwadratensom. Hoe goed is dat dan?

24
Q

R square (ΔR2)

A

R square (ΔR2) geeft het percentage verklaarde variantie aan in de steekproef.

25
Q

Adjusted R square

A

De adjusted R2 geeft aan wat het geschatte percentage verklaarde variantie is in de populatie. De R2 wordt hiervoor aangepast op basis van de steekproefgrootte (n) en het aantal predictoren in het model (k). Het geschatte percentage verklaarde variantie in de populatie is altijd iets lager dan het percentage verklaarde variantie in de steekproef.

26
Q

Controleren van uitschieters

A

Als vuistregel houden we aan dat waardes voor Mahalanobis distance lager moeten zijn dan 10 + 2∙(onafhankelijke variabelen) = 10 + 2∙3 = 16.

27
Q

Cook’s distance

A

Hiermee controleren we of er sprake is van uitschieters in XY-ruimte. Een uitschieter in de XY-ruimte is een extreme combinatie van X(-en) en Y-scores. Cook’s distance geeft aan wat de overall invloed is van een respondent op het model. Als vuistregel houden we aan dat waardes voor Cook’s distance lager dan 1 moeten zijn. Waardes hoger dan 1 duiden op invloedrijke respondenten (influential cases).

28
Q

Multicollineariteit

A

Vaststellen of multicollineariteit een probleem is kan aan de hand van statistieken die SPSS geeft in de laatste twee kolommen van de tabel Coefficients. Hierbij kun je de volgende vuistregels aanhouden:
Waardes voor de Tolerance kleiner dan .2 duiden op een mogelijk probleem.
Waardes voor de Tolerance kleiner dan .1 duiden op een probleem.
De VIF is gelijk aan 1/Tolerance, dus voor de VIF geldt dat waardes groter dan 10 duiden op een probleem.

29
Q

Wat is het verschil tussen enkelvoudige en multipele regressie?

A

We gebruiken enkelvoudige regressie als we één afhankelijke variabele van minimaal
interval meetniveau hebben en onafhankelijke variabele van minimaal interval
meetniveau.
We gebruiken multipele regressie als we één afhankelijke variabele van minimaal
interval meetniveau hebben en meer dan één onafhankelijke variabele van minimaal
interval meetniveau al dan niet in combinatie met een dichotome variabele(n).

30
Q

Wat is in een regressieanalyse een residu?

A

Residu: het verschil tussen een geobserveerde score 𝑌𝑌𝑖𝑖 en de voorspelde score

31
Q

Waarvoor wordt de kleinste kwadratenmethode gebruikt?

A

Voor het bepalen van de best passende regressielijn, waarbij de som van de kwadraten
van de residuen het kleinst is.

32
Q

welke twee vragen kun je stellen bij regressie

A

Verklaart een predictor/een set van predictoren variantie in de afhankelijke variabele?
Is een specifieke onafhankelijke variabele een voorspeller van de afhankelijke variabele?