Thema 5 - Regressie en steekproevenverdeling Flashcards
wat is regressie analyse?
- Regressieanalyse is een instrument waarmee op basis van de waarde op de ene variabele, een voorspelde waarde op de andere variabele berekend kan worden.
- Bovendien geeft regressieanalyse een indruk hoe accuraat die voorspelling zal zijn.
- Een regressielijn gemaakt op basis van een scatterplot geeft de beste voorspelling weer van de ene variabele door de andere variabele.
- hoe goed de voorspellingen zijn hangt af van de afstand tussen de geobserveerde waarden en de voorspelde waarde
- regressie analyse = een methode om de lijn te vinden waarbij de gekwadrateerde afwijkingen geminimaliseerd worden
wat is een regressie-lijn?
- De regressie-lijn representeert de beste voorspelling van de ene variabele (de afhankelijke variabele) uit de andere variabele (de onafhankelijke variabele).
- De beste voorspelling is de lijn die gemiddeld voor alle punten het “dichtst” in de buurt ligt van de daadwerkelijk geobserveerde waarden van de afhankelijke variabele.
- Deze regressielijnen zijn het product van regressieanalyse
overwelke twee vragen gaat het bij regressie analyse?
Bij regressieanalyse gaat het in eerste instantie om twee vragen.
- Hoe vinden we de beste lijn in een willekeurige puntenwolk?
- Hoe goed past deze lijn bij de data?
=> met de regressielijn kunnen we dan voorspellingen doen: als we de score van de predictorvariabele weten, dan kunnen we de score van de afhankelijke variabele voorspellen
wat is een regressie coëfficiënt?
- De uitkomst van een regressieanalyse zijn twee getallen die de lijn beschrijven. Deze getallen heten de regressiecoëfficiënten en worden aangeduid met b’s of
β ’s, oftewel bèta’s. - Deze afwijkingen – of preciezer, het kwadraat van deze afwijkingen – willen we minimaliseren. De lijn moet dus zo lopen dat de afwijking tussen elke geobserveerde y -score en de correspondeerde voorspelling zo klein mogelijk is.
wat is extrapolatie?
extrapolatie = het berekenen van voorspellingen van een model voor waarden buiten het bereik van de data waarop dat model gebaseerd is.
wat is het eerste getal uit een regressie analyse? wat is het intercept?
- Het eerste getal uit de regressieanalyse is simpelweg de voorspelling voor iemand die 0 scoort op de predictorvariabele (onafhankelijke variabele) oftewel een waarde van 0 op de x-as.
- het intercept = de eerste zogenaamde regressiecoëfficiënt in het regressie model en wordt aangeduid met beta0
- het intercept is het punt waar de lijn de y-as snijdt wanneer x gelijk is aan 0
wat is intrapolatie?
Interpolatie = het gebruik van een model om tussenliggende waarden te berekenen; in ons geval bijvoorbeeld wat de snavelhoogte zou zijn voor een pinguïn met een snavel van 5 cm.
wat is het intercept in een regressie model?
- het intercept is de eerste zogenaamde regressiecoëfficiënt in het regressiemodel en wordt aangeduid met β0, B0 of b0.
- = de voorspelling voor iemand die 0 scoort op de predictorvariabele (onafhankelijke variabele) oftewel een waarde van 0 op de x-as.
wat is de tweede regressie coëfficiënt? of beta1?
- De tweede regressiecoëfficiënt oftewel, (\beta_1), is de helling van de lijn.
- Deze regressiecoëfficiënt geeft de stijging (of daling) in de variabele op de (y)-as aan als de variabele op de (x)-as met (1) eenheid toeneemt.
- De horizontale pijl staat voor de verschuiving van 1 eenheid op de x-as vanuit het intercept en de vertikale pijl staat voor de corresponderende verschuiving op de y-as gegeven het regressiemodel (de groene lijn).
==> het verschil tussen deze voorspelde waarde op de y-as en het intercept, is de tweede regressiecoëfficiënt = de hellingscoëfficiënt
welke is de regressie formule?
het criterium (of de beste voorspelling voor de afhankelijke variabele) = de som van het intercept en de regressiecoëfficiënt voor de helling van de lijn
wat is een dichotome voorspeller? en wat is er dan speciaal aan de regressiecoëfficiënt?
- een dichotome voorspeller kan maar twee waarden aannemen
- bij een dichotome voorspeller is de regressiecoëfficiënt van de helling van het verschil tussen de gemiddelden in de twee groepen
wat is dummycoderen?
Om een dichotome voorspeller als intervalvariabele mee te nemen in regressieanalyse, moet aan elk van deze twee waarden een getal toegekend worden.
Het representeren van de meetwaarden van een categorische variabele met getallen heet dummycoderen.
wat is het verschil tussen correlatiecoëfficiënten en regressieanalyse?
- Correlatiecoëfficiënten zijn effectgroottes die gekwadrateerd kunnen worden om een schatting te krijgen van de proportie verklaarde variantie (dat wil zeggen, hoeveel twee variabelen overlappen).
- Regressieanalyse produceert een regressievergelijking: een model waarmee, gegeven een waarde op de ene variabele, de waarde op een andere variabele voorspeld kan worden.
anders dan correlatieanalyse is regressieanalyse ASYMMETRISCH -> omdat de waarde van de ene variabele voorspeld wordt met de waarde van de andere variabele, maakt de schaalverdeling van elke variabele uit!!
hoe kunnen onderzoekers nu weten hoeveel ze van de afhankelijke variabele nu begrijpen?
- een indicator hiervan is hoeveel van de variantie van de afhankelijke variabele kan verklaard worden met een regressiemodel ==> de proportie verklaarde variantie oftewel R-kwadraat
- hoe hoger de R-kwadraat -> hoe meer van de afhankelijke variabele wordt verklaard door de voorspellers -> R-kwadraat zegt iets over de proportie variantie in y die door x verklaard wordt
- R-kwadraat kan waarden aannemen tussen 0 en 1
wat is de formule voor R-kwadraat bij een enkelvoudige regressie?
- bij een enkelvoudige regressie is R-kwadraat gelijk aan de correlatie tussen predictor en criterium
- in geval van een zwakke correlatie r=.10 verklaart de predictor variabele x slechts 1% van de variantie in de criteriumvariabele y (wan .1 x .1 = .01)
- de R2 is een maat die aangeeft hoe succesvol de afhankelijke variable kan worden voorspeld met de variabelen in het model.
- => Deze maat geeft dus aan hoe goed het model kan voorspellen, maar niet hoe goed het model de werkelijkheid beschrijft.
- Omgekeerd is het wel waar dat wanneer de R2 van een model laag is, dit model de werkelijheid niet goed kan beschrijven.