1. Tolerantie van een voorspeller is 1-R^2

1. Variance Inflation Factor 2. Factor waarmee de varianties van je schattingen toenemen in vergelijking met wanneer je voorspellers onafhankelijk waren geweest. 3. 1/ tolerantie. Stel VIF 1.5 dan worden schattingen 1.5x minder accuraat

Thema 4: Regressieanalyse Flashcards by Cato deVos

Wat is regressieanalyse?

Methode om een model te bouwen waarbij 1 (enkelvoudige) of meerdere voorspelelrs zo goed mogelijk worden ingezet om een andere variabele (afh variabele) te voorspellen

How well did you know this?

Not at all

Perfectly

Wat levert de RA op?

Een proportie verklaarde variantie: dat deel van de afh variabele dat kan worden voorspeld (verklaard) met de voorspeller(s)

How well did you know this?

Not at all

Perfectly

Wat is enkelvoudige regressieanalyse?

Uitbreiding van bivariate correlaties naar voorspellingsmodel
Produceert regressievergelijking

How well did you know this?

Not at all

Perfectly

Wat zijn correlatiecoefficienten?

Effectgroottes die kunnen worden gekwadrateerd om een schating te krijgen van de proportie verklaarde variantie

How well did you know this?

Not at all

Perfectly

Wat is een regressievergelijking?

Model waarmee, gegeven de waarde op de ene variabele, de waarde op een andere variabele kan worden voorspeld.

Asymmetrisch: schaalverdeling van elke variabele maakt uit

How well did you know this?

Not at all

Perfectly

Wat is het residu?

Verschil tussen de voorspelde waarde en de echte scores. Wil je zo klein mogelijk hebben

How well did you know this?

Not at all

Perfectly

Wat zijn gestandaardiseerde regressiecoefficienten?

Maakt schaalverdeling van alle variabelen gelijk: elke variabele uitgedrukt in stdv.
Handig voor vergelijking van modellen waarbij niet alle predictoren op dezelfde schaal zijn gemeten.
Berekenen dmv
a) centeren: van elk datapunt gem. aftrekken
b) datapunt / stdv. van variabele
c) regressieanalyse herhalen met nieuwe variabelen

How well did you know this?

Not at all

Perfectly

Beschrijf asymmetrie voor lineaire regressie

Aaname dat alle error in de afh variabele zit.

How well did you know this?

Not at all

Perfectly

Noem de 5 aannames van regressieanalyse

Continu meetniveau
Lineariteit
Onafhankelijkheid
Normaliteit
Homoscendasticiteit

How well did you know this?

Not at all

Perfectly

Wat is homoscendasticiteit?

Homogeniteit van varianties. Aanname dat de variantie in de afh variabele = voor elke waarde van de onafh variabele.

2 manieren onderzoeken:
1. scatterplot: even ver van regressielijn?
2. toetsen, levene’s test

How well did you know this?

Not at all

Perfectly

Wat is multicollineariteit?

Zachte aanname. De voorspellers zijn goed uit elkaar te voorspellen.

Betekent dat er minder informatie in je regressiemodel beschikbaar is –> veel standaardfouten (–> bredere CI).

Oplossen door meer deelnemers.

Uitrekenen door VIF en tolerantie

How well did you know this?

Not at all

Perfectly

Hoe bereken je aantal deelnemers?

Als voorspellers niet samenhangen: aantal deelnemers / 1-r^2

How well did you know this?

Not at all

Perfectly

Wat is tolerantie?

Tolerantie van een voorspeller is 1-R^2

How well did you know this?

Not at all

Perfectly

Wat is VIF?

Variance Inflation Factor
Factor waarmee de varianties van je schattingen toenemen in vergelijking met wanneer je voorspellers onafhankelijk waren geweest.
1/ tolerantie. Stel VIF 1.5 dan worden schattingen 1.5x minder accuraat

How well did you know this?

Not at all

Perfectly

Wat gebeurt er bij overlap in voorspellers? Bij multivariate regressie

Verklaarde variantie in de afh variabele hoort dan bij beide voorspellers.
R^2 nog wel waardevol: geeft aan hoeveel we in totaal begrijpen van het behaalde cijfer met beide constructen samen

How well did you know this?

Not at all

Perfectly

Wat moet je doen met categorische voorspellers bij lineaire regressie?

Dichotome: Dummycodering centreren: parameters berekenen voor de groep ‘in het midden’; -0.5 toevoegen aan ene en +0.5 aan andere –> intercept onafh van de codering van de variabele
Meerdere categorieën: referentiecategorie. Dummy centeren dm generiek coderingsschema.

Wat is dummycodering?

Numeriek representeren van niet-numerieke data.

-1/m en 1-1/m bij regressieanalyse.

Noem 4 redenen om multipele regressieanalyse te gebruiken

Pragmatisch: accuraat. Voorspelde waarden en R^2 weten.
Toegepast: schatten hoeveel van een variabele je begrijpt adv serie voorspellers. Vooral R^2 weten. vb onderzoek naar gedragsinterventies.
Unieke bijdrage van elke voorspeller en samenhang weten. Zeldzaam bij mensen-onderzoek.
Samenhang voorspellers zonder conceptuele overlap.

Noem 5 assumpties van multipele regressie

Onafhankelijke waarnemingen
Continu meetniveau bij de afhankelijke variabele en bij minstens 1 onafhankelijke variabele
Lineaire samenhang tussen de onafhankelijke variabele(n) en de afhankelijke variabele
Homoscedasticiteit
De residuen zijn normaal verdeeld
Geen multicollineariteit tussen onafhankelijke variabelen

Noem kenmerken van logistische regressieanalyse

Dichotome variabele voorspellen dmv kans
Logistische transformatie om variabele geschikt te maken voor lineair model –> log-odds
3.

Noem het verschil tussen odds en kansen

Kans: verhouding van een mogelijke uitkomst met een totaal van alle mogelijkheden.

Odds: Verhoudingsmaat tussen een gebeurtenis en overige gebeurtenissen

Noem 3 regels over odds

Odds van
1. >1 anders gelezen dan <1
2. >1 betekent dat de gunstige uitkomst x-maal vaker gebeurt dan ongunstige uitkomst
3. <1 betekent dat de gunstige uitkomst x-maal minder vaak gebeurt dan ongunstige uitkomst

Wat weergeeft de log-odds?

De stijging van een logaritme van een kansverhouding.

Lastig te interpreteren, daaarom naar parameter b gekeken, of deze de log-odds doet stijgen of dalen.

Noem 4 aannames van de logistische regressie waaraan moet worden voldaan

ONAFHankelijke RESIDUEN. Anders meer kans op type 1 fout (ten onrechte effect vinden)
Geen UITBIJTERS.
LINEAIR verband tussen de predictoren en de logodds van de (door het model voorspelde) afhankelijke variabele.
Geen MULTICOLLINEARITEIT, wat wil zeggen dat de predictoren niet hoog met elkaar correleren. Anders meer kans op type 2 fout (effect missen)

Wat is structural equation modeling (SEM)?

Analysetechniek die wel meetfout in alle variabelen modelleert. Combineert in dezelfde analyse factoranalyse en regressieanalyse

Hoe verschilt logistische regressieanalyse verschilt van lineaire regressieanalyse?

Logistische regressie voorspelt de KANS op uitkomst ipv de uitkomst zelf

Hoe kan bij logistische regressieanalyse de toegevoegde waarde van een voorspeller worden bepaald?

Door de exponent b te berekenen. De verandering van van de kansverhouding (odds) per x eenheid

Wat is het nut van multipele regressie in cross-sectioneel onderzoek?

1. Resultaten bespreken tegen het licht van de beperkingen van de methodiek 2. Eventuele bevindingen die in lijn zijn met de theorie en vooropgestelde verwachtingen genuanceerd bespreken 3. Aangeven wat in lijn is met eerdere onderzoeken/theorie 4. Aangeven dat geen causaliteit kan worden ontleend 5. Aangeven dat er wel aanwijzingen zijn in lijn met……..