Thema 4: Regressieanalyse Flashcards

1
Q

Wat is regressieanalyse?

A

Methode om een model te bouwen waarbij 1 (enkelvoudige) of meerdere voorspelelrs zo goed mogelijk worden ingezet om een andere variabele (afh variabele) te voorspellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat levert de RA op?

A

Een proportie verklaarde variantie: dat deel van de afh variabele dat kan worden voorspeld (verklaard) met de voorspeller(s)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat is enkelvoudige regressieanalyse?

A
  1. Uitbreiding van bivariate correlaties naar voorspellingsmodel
  2. Produceert regressievergelijking
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat zijn correlatiecoefficienten?

A

Effectgroottes die kunnen worden gekwadrateerd om een schating te krijgen van de proportie verklaarde variantie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat is een regressievergelijking?

A

Model waarmee, gegeven de waarde op de ene variabele, de waarde op een andere variabele kan worden voorspeld.

Asymmetrisch: schaalverdeling van elke variabele maakt uit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat is het residu?

A

Verschil tussen de voorspelde waarde en de echte scores. Wil je zo klein mogelijk hebben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat zijn gestandaardiseerde regressiecoefficienten?

A
  1. Maakt schaalverdeling van alle variabelen gelijk: elke variabele uitgedrukt in stdv.
  2. Handig voor vergelijking van modellen waarbij niet alle predictoren op dezelfde schaal zijn gemeten.
  3. Berekenen dmv
    a) centeren: van elk datapunt gem. aftrekken
    b) datapunt / stdv. van variabele
    c) regressieanalyse herhalen met nieuwe variabelen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Beschrijf asymmetrie voor lineaire regressie

A

Aaname dat alle error in de afh variabele zit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Noem de 5 aannames van regressieanalyse

A
  1. Continu meetniveau
  2. Lineariteit
  3. Onafhankelijkheid
  4. Normaliteit
  5. Homoscendasticiteit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat is homoscendasticiteit?

A

Homogeniteit van varianties. Aanname dat de variantie in de afh variabele = voor elke waarde van de onafh variabele.

2 manieren onderzoeken:
1. scatterplot: even ver van regressielijn?
2. toetsen, levene’s test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat is multicollineariteit?

A

Zachte aanname. De voorspellers zijn goed uit elkaar te voorspellen.

Betekent dat er minder informatie in je regressiemodel beschikbaar is –> veel standaardfouten (–> bredere CI).

Oplossen door meer deelnemers.

Uitrekenen door VIF en tolerantie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hoe bereken je aantal deelnemers?

A

Als voorspellers niet samenhangen: aantal deelnemers / 1-r^2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is tolerantie?

A
  1. Tolerantie van een voorspeller is 1-R^2
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is VIF?

A
  1. Variance Inflation Factor
  2. Factor waarmee de varianties van je schattingen toenemen in vergelijking met wanneer je voorspellers onafhankelijk waren geweest.
  3. 1/ tolerantie. Stel VIF 1.5 dan worden schattingen 1.5x minder accuraat
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat gebeurt er bij overlap in voorspellers? Bij multivariate regressie

A
  1. Verklaarde variantie in de afh variabele hoort dan bij beide voorspellers.
  2. R^2 nog wel waardevol: geeft aan hoeveel we in totaal begrijpen van het behaalde cijfer met beide constructen samen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat moet je doen met categorische voorspellers bij lineaire regressie?

A
  1. Dichotome: Dummycodering centreren: parameters berekenen voor de groep ‘in het midden’; -0.5 toevoegen aan ene en +0.5 aan andere –> intercept onafh van de codering van de variabele
  2. Meerdere categorieën: referentiecategorie. Dummy centeren dm generiek coderingsschema.
17
Q

Wat is dummycodering?

A

Numeriek representeren van niet-numerieke data.

-1/m en 1-1/m bij regressieanalyse.

18
Q

Noem 4 redenen om multipele regressieanalyse te gebruiken

A
  1. Pragmatisch: accuraat. Voorspelde waarden en R^2 weten.
  2. Toegepast: schatten hoeveel van een variabele je begrijpt adv serie voorspellers. Vooral R^2 weten. vb onderzoek naar gedragsinterventies.
  3. Unieke bijdrage van elke voorspeller en samenhang weten. Zeldzaam bij mensen-onderzoek.
  4. Samenhang voorspellers zonder conceptuele overlap.
19
Q

Noem 5 assumpties van multipele regressie

A
  1. Onafhankelijke waarnemingen
  2. Continu meetniveau bij de afhankelijke variabele en bij minstens 1 onafhankelijke variabele
  3. Lineaire samenhang tussen de onafhankelijke variabele(n) en de afhankelijke variabele
  4. Homoscedasticiteit
  5. De residuen zijn normaal verdeeld
  6. Geen multicollineariteit tussen onafhankelijke variabelen
20
Q

Noem kenmerken van logistische regressieanalyse

A
  1. Dichotome variabele voorspellen dmv kans
  2. Logistische transformatie om variabele geschikt te maken voor lineair model –> log-odds
    3.
21
Q

Noem het verschil tussen odds en kansen

A

Kans: verhouding van een mogelijke uitkomst met een totaal van alle mogelijkheden.

Odds: Verhoudingsmaat tussen een gebeurtenis en overige gebeurtenissen

22
Q

Noem 3 regels over odds

A

Odds van
1. >1 anders gelezen dan <1
2. >1 betekent dat de gunstige uitkomst x-maal vaker gebeurt dan ongunstige uitkomst
3. <1 betekent dat de gunstige uitkomst x-maal minder vaak gebeurt dan ongunstige uitkomst

23
Q

Wat weergeeft de log-odds?

A

De stijging van een logaritme van een kansverhouding.

Lastig te interpreteren, daaarom naar parameter b gekeken, of deze de log-odds doet stijgen of dalen.

24
Q

Noem 4 aannames van de logistische regressie waaraan moet worden voldaan

A
  1. ONAFHankelijke RESIDUEN. Anders meer kans op type 1 fout (ten onrechte effect vinden)
  2. Geen UITBIJTERS.
  3. LINEAIR verband tussen de predictoren en de logodds van de (door het model voorspelde) afhankelijke variabele.
  4. Geen MULTICOLLINEARITEIT, wat wil zeggen dat de predictoren niet hoog met elkaar correleren. Anders meer kans op type 2 fout (effect missen)
25
Q

Wat is structural equation modeling (SEM)?

A

Analysetechniek die wel meetfout in alle variabelen modelleert. Combineert in dezelfde analyse factoranalyse en regressieanalyse

26
Q

Hoe verschilt logistische regressieanalyse verschilt van lineaire regressieanalyse?

A

Logistische regressie voorspelt de KANS op uitkomst ipv de uitkomst zelf

27
Q

Hoe kan bij logistische regressieanalyse de toegevoegde waarde van een voorspeller worden bepaald?

A

Door de exponent b te berekenen. De verandering van van de kansverhouding (odds) per x eenheid

28
Q

Wat is het nut van multipele regressie in cross-sectioneel onderzoek?

A
  1. Resultaten bespreken tegen het licht van de beperkingen van de methodiek
  2. Eventuele bevindingen die in lijn zijn met de theorie en vooropgestelde verwachtingen genuanceerd bespreken
  3. Aangeven wat in lijn is met eerdere onderzoeken/theorie
  4. Aangeven dat geen causaliteit kan worden ontleend
  5. Aangeven dat er wel aanwijzingen zijn in lijn met……..
29
Q
A