ch5 Flashcards
multiple regressie
- er kunnen andere factoren een rol spelen variabelen.
- met meerdere predictoren kunnen we beter voorspellen en verklaren: als je meer input/predictoren gebruikt kun je een betere uitspraak doen over de afhankelijke variabelen. Als we meerderde predictoren gebruiken, heet dit multiple regressie
dummyvariabele
Als variabelen niet van interval/ratio niveau zijn zoals bijvoorbeeld geslacht dan mag je dit gebruiken als dummyvariabele. Dit is een catergorische variabele met 2 caterogieën. ze hebben altijd de codering 0 en 1. De richtingcoëfficiënt krijgt een andere betekenis, namelijk het betekend het verschil in voorspelde 7 variabelen tussen de 2 categorieën
Wat is de referentiecategorie?
groep die het getal 0 krijgt
dichotoom
Een variabele met maar twee mogelijke waarde wordt ook wel dichotoom of een dichotome variabele genoemd
gestandaardiseerde richtingscoëfficiënt
geeft inzicht in wat de sterkste en beste voorspeller is.
De gestandaardiseerde richtingscoëfficiënt betekent hoeveel standaarddeviaties Y verandert als de X-variabele met 1 standaarddeviatie omhoog gaat. Dit is bij een enkelvoudige regressie hetzelfde als de correlatie tussen X en Y.
Let op het verschil met de gewone richtingscoëfficiënt, het is bijna hetzelfde maar bij de gestandaardiseerde gaat het over verschil in standaarddeviaties.
welke 2 vragen kun je bij een regressieanalyse stellen?
Verklaart een predictor/een set van predictoren variantie in de afhankelijke variabele? Oftewel: wijkt
Is een specifieke onafhankelijke variabele een voorspeller van de afhankelijke variabele? Oftewel: wijkt af van 0?
Model Summary tabel. R:
Dit is de correlatie tussen de voorspelde score en de afhankelijke variabele. Voor een enkelvoudige regressie is dit hetzelfde als de correlatie tussen X en Y, met als verschil dat R altijd positief is en de correlatie ook negatief zou kunnen zijn.
Model Summary tabel: R Square ( R2):
Dit heet in het Nederlands de proportie verklaarde variantie. Deze geeft aan hoeveel van de variantie van de afhankelijke variabele verklaard wordt door de lineaire relatie met de onafhankelijke variabele(n).
Std.Error of the Estimate:
Dit heet in het Nederlands de standaardschattingsfout. Dit is de gemiddelde fout die we maken wanneer we dit model gebruiken om eenzaamheid te voorspellen. Met andere woorden, dit is het gemiddelde residu van alle deelnemers.
Statistische validiteit in het geding
o Alle manieren om een mooi resultaat te krijgen
o Alleen noemen dat het significant is, maar niet hoe groot R2 of b is
o Hypothesen of α aanpassen na dataverzameling
o Uitschieters verwijderen, omdat dat beter uitkomt
o Niet kijken naar voorwaarden of schending van voorwaarden
negeren/niet rapporteren
o Predictoren toevoegen/ verwijderen
o Per ongeluk verkeerde interpretatie
o Gebruik onjuiste methode (regressie bij ordinale variabelen)
welke toestingsgrootheid bij enkelvoudige regressie en welke bij multiple regressie
enkelvoudig: t-waarde
multible regressie: f-waarde
de Coefficients tabel
De tabel Coefficients geeft informatie over de toetsingsgrootheid en p-waarde van de richtingscoëfficiënt.
De Intercept: De waarde van Y als X 0 is.
De richtingscoëfficiënt: Hoe steil de lijn is. Of met andere woorden, hoeveel Y verandert als de X-variabele met 1 toeneemt.
klein effect
r2= .01
wat staat in de tabel in de regressie output in de ANOVA tabel
Hier staat informatie over de toetsing van de verklaarde variantie (hier staan de toetsingsgrootheid en de p-waarde).
medium effect
r2= .09