Thema 4: Regressieanalyse Flashcards
Wat is regressieanalyse?
Methode om een model te bouwen waarbij 1 (enkelvoudige) of meerdere voorspelelrs zo goed mogelijk worden ingezet om een andere variabele (afh variabele) te voorspellen
Wat levert de RA op?
Een proportie verklaarde variantie: dat deel van de afh variabele dat kan worden voorspeld (verklaard) met de voorspeller(s)
Wat is enkelvoudige regressieanalyse?
- Uitbreiding van bivariate correlaties naar voorspellingsmodel
- Produceert regressievergelijking
Wat zijn correlatiecoefficienten?
Effectgroottes die kunnen worden gekwadrateerd om een schating te krijgen van de proportie verklaarde variantie
Wat is een regressievergelijking?
Model waarmee, gegeven de waarde op de ene variabele, de waarde op een andere variabele kan worden voorspeld.
Asymmetrisch: schaalverdeling van elke variabele maakt uit
Wat is het residu?
Verschil tussen de voorspelde waarde en de echte scores. Wil je zo klein mogelijk hebben
Wat zijn gestandaardiseerde regressiecoefficienten?
- Maakt schaalverdeling van alle variabelen gelijk: elke variabele uitgedrukt in stdv.
- Handig voor vergelijking van modellen waarbij niet alle predictoren op dezelfde schaal zijn gemeten.
- Berekenen dmv
a) centeren: van elk datapunt gem. aftrekken
b) datapunt / stdv. van variabele
c) regressieanalyse herhalen met nieuwe variabelen
Beschrijf asymmetrie voor lineaire regressie
Aaname dat alle error in de afh variabele zit.
Noem de 5 aannames van regressieanalyse
- Continu meetniveau
- Lineariteit
- Onafhankelijkheid
- Normaliteit
- Homoscendasticiteit
Wat is homoscendasticiteit?
Homogeniteit van varianties. Aanname dat de variantie in de afh variabele = voor elke waarde van de onafh variabele.
2 manieren onderzoeken:
1. scatterplot: even ver van regressielijn?
2. toetsen, levene’s test
Wat is multicollineariteit?
Zachte aanname. De voorspellers zijn goed uit elkaar te voorspellen.
Betekent dat er minder informatie in je regressiemodel beschikbaar is –> veel standaardfouten (–> bredere CI).
Oplossen door meer deelnemers.
Uitrekenen door VIF en tolerantie
Hoe bereken je aantal deelnemers?
Als voorspellers niet samenhangen: aantal deelnemers / 1-r^2
Wat is tolerantie?
- Tolerantie van een voorspeller is 1-R^2
Wat is VIF?
- Variance Inflation Factor
- Factor waarmee de varianties van je schattingen toenemen in vergelijking met wanneer je voorspellers onafhankelijk waren geweest.
- 1/ tolerantie. Stel VIF 1.5 dan worden schattingen 1.5x minder accuraat
Wat gebeurt er bij overlap in voorspellers? Bij multivariate regressie
- Verklaarde variantie in de afh variabele hoort dan bij beide voorspellers.
- R^2 nog wel waardevol: geeft aan hoeveel we in totaal begrijpen van het behaalde cijfer met beide constructen samen
Wat moet je doen met categorische voorspellers bij lineaire regressie?
- Dichotome: Dummycodering centreren: parameters berekenen voor de groep ‘in het midden’; -0.5 toevoegen aan ene en +0.5 aan andere –> intercept onafh van de codering van de variabele
- Meerdere categorieën: referentiecategorie. Dummy centeren dm generiek coderingsschema.
Wat is dummycodering?
Numeriek representeren van niet-numerieke data.
-1/m en 1-1/m bij regressieanalyse.
Noem 4 redenen om multipele regressieanalyse te gebruiken
- Pragmatisch: accuraat. Voorspelde waarden en R^2 weten.
- Toegepast: schatten hoeveel van een variabele je begrijpt adv serie voorspellers. Vooral R^2 weten. vb onderzoek naar gedragsinterventies.
- Unieke bijdrage van elke voorspeller en samenhang weten. Zeldzaam bij mensen-onderzoek.
- Samenhang voorspellers zonder conceptuele overlap.
Noem 5 assumpties van multipele regressie
- Onafhankelijke waarnemingen
- Continu meetniveau bij de afhankelijke variabele en bij minstens 1 onafhankelijke variabele
- Lineaire samenhang tussen de onafhankelijke variabele(n) en de afhankelijke variabele
- Homoscedasticiteit
- De residuen zijn normaal verdeeld
- Geen multicollineariteit tussen onafhankelijke variabelen
Noem kenmerken van logistische regressieanalyse
- Dichotome variabele voorspellen dmv kans
- Logistische transformatie om variabele geschikt te maken voor lineair model –> log-odds
3.
Noem het verschil tussen odds en kansen
Kans: verhouding van een mogelijke uitkomst met een totaal van alle mogelijkheden.
Odds: Verhoudingsmaat tussen een gebeurtenis en overige gebeurtenissen
Noem 3 regels over odds
Odds van
1. >1 anders gelezen dan <1
2. >1 betekent dat de gunstige uitkomst x-maal vaker gebeurt dan ongunstige uitkomst
3. <1 betekent dat de gunstige uitkomst x-maal minder vaak gebeurt dan ongunstige uitkomst
Wat weergeeft de log-odds?
De stijging van een logaritme van een kansverhouding.
Lastig te interpreteren, daaarom naar parameter b gekeken, of deze de log-odds doet stijgen of dalen.
Noem 4 aannames van de logistische regressie waaraan moet worden voldaan
- ONAFHankelijke RESIDUEN. Anders meer kans op type 1 fout (ten onrechte effect vinden)
- Geen UITBIJTERS.
- LINEAIR verband tussen de predictoren en de logodds van de (door het model voorspelde) afhankelijke variabele.
- Geen MULTICOLLINEARITEIT, wat wil zeggen dat de predictoren niet hoog met elkaar correleren. Anders meer kans op type 2 fout (effect missen)
Wat is structural equation modeling (SEM)?
Analysetechniek die wel meetfout in alle variabelen modelleert. Combineert in dezelfde analyse factoranalyse en regressieanalyse
Hoe verschilt logistische regressieanalyse verschilt van lineaire regressieanalyse?
Logistische regressie voorspelt de KANS op uitkomst ipv de uitkomst zelf
Hoe kan bij logistische regressieanalyse de toegevoegde waarde van een voorspeller worden bepaald?
Door de exponent b te berekenen. De verandering van van de kansverhouding (odds) per x eenheid
Wat is het nut van multipele regressie in cross-sectioneel onderzoek?
- Resultaten bespreken tegen het licht van de beperkingen van de methodiek
- Eventuele bevindingen die in lijn zijn met de theorie en vooropgestelde verwachtingen genuanceerd bespreken
- Aangeven wat in lijn is met eerdere onderzoeken/theorie
- Aangeven dat geen causaliteit kan worden ontleend
- Aangeven dat er wel aanwijzingen zijn in lijn met……..