De regressietechniek (H11) Flashcards
De regressielijn
Bij regressieanalyse ga je zoeken welke lijn het beste past bij een bepaalde puntenwolk. De lijn die daar het beste bij past is de regressielijn. De regressielijn is in beste in staat om de waarde van de Y-as te voorspellen op grond van de X-as.
Formule voor een regressielijn is Y = a + bX
a heeft invloed op waar de lijn de Y-as snijd.
b heeft invloed op de helling van de lijn.
Zoeken van best passende lijn voor spreidingsdiagram (formule)
Als je de b wilt berekenen voor je regressielijn dan gebruik je de volgende formule:
b = r x (standaarddeviatie van Y / standaarddeviatie van X)
Je berekent dus de hellingscoëfficiënt / regressiecoëfficiënt
Formule voor de constante (a):
a = Gemiddelde Y - b x Gemiddelde X
Het residu (Ɛ)
Het residu geeft aan dat de voorspelling op grond van de regressielijn beperkt is. Komt voor in Y = a + bX + Ɛ
Determinatiecoëfficiënt
De determinatiecoëfficiënt geeft aan hoeveel procent van de variantie in de criteriumvariabele (Y-as, afhankelijke) verklaard kan worden door de verschillen in de predictorvariabele (X-as, onafhankelijke).
Je kan deze berekenen door de pearson correlatie(r) in het kwadraat te nemen.
vb.
r = 0,40
0,40 in het kwadraat = 0,16 = 16%
Dus kan je zeggen dat 16% van de verschillen in Y worden bepaald door verschillen in X.
Dit betekent ook dat 84% van de verschillen in Y worden NIET bepaald door verschillen in X.
Standaardschattingsfout
Dit is een maat van onnauwkeurigheid.
In 2/3e van de gevallen zal de fout kleiner zijn dan deze waarde.
Meervoudige regressietechniek
Dit wordt gebruikt bij één AV en meerdere OV.
Voorwaarde voor gebruik:
- De OV moet een interval of ratio variabele zijn of het moet een dummy variabele zijn. Dit is een 0|1 variabele.
- Hiervoor moet een minimaal aantal deelnemers zijn (100) en kan oplopen met de vuistregel: aantal OV x 15.
- Samenhang tussen OV en AV is zinvol en lineair.
- Er komt geen multicollineariteit voor. Dus geen correlatie groter dan 0,90 tussen OV.