Extra begrippen samenvatting Thema 5 en 6 Flashcards
Regressieanalyse
Regressieanalyse is een instrument voor onderzoekers waarmee op basis van de waarde op de ene variabele, een voorspelde waarde op de andere variabele berekend kan worden. Bovendien geeft regressieanalyse een indruk hoe accuraat die voorspelling zal zijn.
Correlatie versus regressie
Correlaties drukken het verband tussen twee variabelen kwantitatief uit, onder een aantal aannemen. Regressie zet de volgende stap. Regressieanalyse is een instrument waarmee op basis van de waarde op de ene variabele, de afhankelijke variabele voorspelt kan worden.
Regressielijn
Regressielijnen zijn het product van de regressieanalyse. Dit is de lijn die in een scatterplot getrokken wordt waarbij de lijn gemiddeld voor alle punten het dichtst in de buurt ligt van de daadwerkelijk geobserveerde waarden. Een minder steile lijn betekent een minder sterk verband.
Twee vragen bij regressieanalyse
Bij regressieanalyse worden twee vragen gesteld:
• Hoe vinden we de beste lijn in een willekeurige puntenwolk?
• Hoe goed past deze lijn bij de data?
Extrapolatie
Het berekenen van voorspellingen van een model voor waarden buiten het bereik van de data. Dit kan door simpelweg de regressielijn door te trekken.
Interpolatie
Het gebruik van een model om tussenliggende waarden te berekenen.
Helling
De tweede regressiecoëfficiënt is de helling van de lijn en wordt aangeduid met β1. Deze regressiecoëfficiënt geeft de stijging (of daling) in de variabele op de y-as aan als de variabele op de x-as met 1 eenheid toeneemt, berekend vanaf x=0. Het verschil hiertussen is de hellingscoëfficiënt.
Intercept
Als je gebruik maakt van extrapolatie trek je de lijn door tot je op een waarde van 0 op de x-as komt. De twee waarden die dan ontstaan worden de intercepten genoemd. Dit is de eerste regressiecoëfficiënt in het regressiemodel en wordt aangeduid met β (beta)
Regressieanalyse is asymmetrisch omdat
De waarde van de ene variabele wordt voorspeld met de waarde van de andere variabele. Daarom maakt de schaalverdeling van elke variabele uit. Het is belangrijk onderscheid te maken tussen de variabele waarmee wordt voorspeld, de predictor (onafhankelijke variabele = x) en de variabele die voorspeld wordt, het criterium (afhankelijke variabele = y)
Proportie verklaarde variantie
onderzoekers willen weten hoeveel van de afhankelijke variabele (y) ze nu eigenlijk begrijpen. De R2 zegt iets over de proportie variantie in y. Eigenlijk geeft R2 daarmee een indicatie van hoe goed de voorspelling is die met de regressie coëfficiënten is gegeven. R2
kan waarden aannemen van 0-1. Als alle punten exact
op een rechte lijnen liggen is y perfect te voorspellen uit x. R2 zal dan gelijk zijn aan 1 (=100%). De R2, is bij enkelvoudige regressieanalyse gelijk aan het kwadraat van de correlatie tussen de twee variabelen in het regressiemodel.
T-verdeling
De T-verdeling is de steekproevenverdeling voor de regressiecoëfficiënten. De Tverdeling lijkt erg op de Z-verdeling met een aanpassing voor kleine steekproeven met weinig deelnemers. De T-verdeling wordt niet opgesteld door een gegeven steekproefomvang, maar door een gegeven aantal vrijheidsgraden. (Df) De vrijheidsgraden voor de regressiecoëfficiënt is gelijk aan het aantal deelnemers in de steekproef min het totale aantal regressiecoëfficiënten =2 want je hebt twee regressiecoëfficiënten. De T-verdeling wijkt alleen voor kleine steekproeven af, voor grotere benadert het al snel de Z-verdeling.
Verschil z-verdeling en t-verdeling
De Z-verdeling is opgesteld m.b.v. een gegeven steekproefomvang.
• De T-verdeling is opgesteld aan de hand van een aantal vrijheidsgraden.
• De breedte van de normaalverdeling (Z-verdeling), wordt bepaald door de standaarddeviatie.
• De breedte van de T-verdeling wordt bepaald door de standaardfout van de regressiecoëfficiënt.
BI van regressie coëfficiënt.
De T-verdeling is symmetrisch en dus kan de BI van de RC gemakkelijk berekend worden met dezelfde formule.
De steekproefwaarde is de puntschatting voor de RC uit onze steekproef. De Breedteindex is afkomstig uit de T-verdeling en is iets hoger dan de 1,96 die bij de Z-verdeling wordt aangehouden. De standaardfout kan met Jamovi worden berekend. Hoe groter de steekproef is, hoe kleiner de standaardfout. Dit betekent dat de betrouwbaarheidsintervallen smaller worden en de regressiecoëfficiënten dus accuraten geschat kunnen worden.
Residu
Het verschil tussen de voorspelde waarde en de geobserveerde scores.
Ruwe regressiecoëfficiënt
De intercept en de helling berekend n.a.v. de ruwe data. De waarde van de ruwe hellingscoëfficiënt is afhankelijk van de schaalverdelingen van de voorspeller en de afhankelijke variabele.