bivariate regressie Flashcards
verschil bivariate regressie en pearson r correlatie
correlatie: niet causaal
regressie: verklaart x y?
definitie regressieanalyse
Onderzoekt de invloed van 1 of meer onafhankelijke variabelen (X: kwalitatief óf continu) op 1 afhankelijke variabele (Y: continu)
correlatie en bivariate regressie: similarity
- beiden gaan uit van een lineair verband
wat weet je over de grafiek van de volgende lineaire formule:
2.05 + 0.37x
- de punten zijn geobserveerde scores
- de lijn is de voorspelde waarde van Y
- Residu is de afstand tussen de lijn en het geobserveerde punt
- 0.37 is de coefficiënt
- horizontaal zou betekenen: geen effect
- regressiecoefficient die dicht bij 0 liggen –> er is geen effect
- 2.05 is de intercept of constante
regressie lijn die het best … :
- aansluit bij de puntenwolk
- Y kan voorspellen
- waarbij de fout die we maken in voorspelling van Y zo klein mogelijk is
- alle punten samenvat
Ordinary Least Squares (OLS)
schattingsprocedure, formules om b0 en b te berekenen
–> geven de regressievergelijking waarvoor de som van de gekwadrateerde verschillen tussen de geobserveerde Y en de voorspelde Y minimaal zijn
∑(Y-Y’)^2
voorspellingsfout/residu
Yi-Yi’ –> van case i
- berekenbaar voor elk punt
voorspellingsfout = geobserveerde waarde - voorspelde waarde
= deviatiescore
Formules om b en b0 te berekenen
b= regressiecoefficient
b= r*(Sy/Sx)
–> b= NIET gestandaardiseerd
S= standaard deviatie
b0= intercept, constante
b0=My - bMx
voorbeeld:
formule: commitment = 2.046 + .369X
voorspelde waarde (nice leader) = 5
geobserveerde waarde (commitment, ID 20) = 2.5
wat is de voorspellingsfout
2.046 + .369*5 = 3.891
2,5 - 3.891 = -1.391
geobserveerd (Y) - voorspeld (Y’)
verschil residu , effect en totale deviatie
Residu: verschil tussen voorspelde y waarde en geobserveerde y waarde
effect: verschil tussen voorspelde y waarde en gemiddelde y waarde
Totale deviatie : verschil tussen geobserveerde y waarde en gemiddelde y waarde
Formule Sums of Squares
SStotal = SSresidual + SSregression
∑(Yi-My)^2=∑(Yi-Yi’)^2 + ∑(Yi’ - My)2
wat is de effect size in een regressie analyse
R^2 = SSregression: SStotal
= proportie verklaarde variantie in Y door X
wat is de Fit van een regressie analyse
multipele R
= correlatie tussen geobserveerde Y scores en voorspelde Y scores
(= pearson’s r)
–> kwadrateren van multipele R vormt de R^2
We kunnen toetsen of multiple R significant afwijkt van 0
Hoe?
H0: R = 0 / H0: R^2 = 0
dmv F-ratio test statistic
F waarde > kritieke waarde ? verwerpen
wat is de standard error of the estimate ?
standaarddeviatie van de residuen
geeft informatie over typische grootte van voorspellingsfouten
het liefst zo KLEIN mogelijk
Hoe correcter de voorspelling, hoe groter de R, hoe kleiner de standard error of the estimate
wat zijn de stappen om individuele regressiecoefficient op significantie te toetsen
- alfa niveau bepalen
- bereken t-ratio test statistic
t= sample statistic - hypothesized parameter
————————————————————-
SEsamplestatistic
t = b - 0
——–
SEb
met df = N-2
= De schatting van de regressie coeff zoals in je steekproef aangetroffen - de verwachte waarde van de 0 hypothese / standaard error
zoek op tvalue in de appendix tabel en vergelijk weer met kritieke waarde
verschil tussen gestandaardiseerde regressiecoëfficiënten β en ongestandaardiseerde regressiecoëfficiënt b
β: interpretatie in eenheden van standaard-deviatie
“Als X met 1 standaard-deviatie verandert, verandert Y met β standaard-deviaties”
b: interpretatie in originele meeteenheden van X en Y
“Als X met 1 eenheid verandert, verandert Y met b eenheden”
Wanneer mag je gestandaardiseerde regressiecoëfficiënten interpreteren?
- Alleen interessant bij multipele regressie met meerdere CONTINUE onafhankelijke variabelen
- Alleen als je de directe effecten van 2 of meer CONTINUE ONafhankelijke variabelen in dezelfde steekproef met elkaar wilt vergelijken qua sterkte
WAAROM centreren op het algemene gemiddelde?
Om een logische en empirisch waarneembare voorspelde waarde te verkrijgen als we de intercept/constante van een regressievergelijking interpreteren
WANNEER centreren op het algemene gemiddelde?
- Als de X-waarde 0 empirisch niet voor kan komen
vb. een onderzoek met leeftijd 18+ - Als de intercept een waarde voorspelt die niet logisch is of niet empirisch voorkomt
vb. Empirisch bereik van een afhankelijke variabele is 0-10 in de data, maar we de voorspelde waarde als X=0 is -1.29; voorspelt agressief gedrag van een kind als leeftijd = 0
Wat gebeurt er als je een onafhankelijke variabele X centreert op het gemiddelde?
- Centreren op het algemene gemiddelde verandert de interpretatie van de intercept: in plaats van de betekenis
- ‘voorspelde waarde van Y als X gelijk is aan het gemiddelde van X’
- Noch de schatting van het effect van X op Y, noch de bijbehorende standaardfout veranderen door centreren
- Je ziet dan je gemiddelde als nieuwe 0-punt
HOE centreer je een onafhankelijke variabele X?
- bereken het gemiddelde van X –> Xmean
- Bereken als volgt een nieuwe variabele Xcentered:
compute Xcentered = X - Xmean
–> gecentreerde variabele stop je in de regressie
af te lezen in SPSS in de rechter coefficient tabel
–> andere intercept –> kleinere standaardfout
vul in:
“we regress the ____ variable __ on the ____ variable __”
“regressing __ on __”
- dependent, Y - independent, X
- Y, X
hoe verschillen pearson’s r en de bivariate regressie
–> symmetrie
pearson’s r: symmetrisch
bivariate regressie: hoeft niet symmetrisch te zijn
wat zijn de overeenkomsten tussen pearson’s r en bivariate regressie?
- In een bivariate regressie analyse is R gelijk aan r
- In een bivariate regressie analyse is r gelijk aan de gestandaardiseerde regressiecoefficient β
- in een multipele regressie analyse is R ongelijk aan r