bivariate regressie Flashcards
wat is bivariate regressie
relatie tussen 1 afhankelijke en 1 onafhankelijk variabele, beiden van interval of ratio meetniveau
model
eenvoudige weergave van de realiteit
vijf assumpties omtrent de verdeling van de foutenterm en de onafhankelijke variabele
1) residu is normaal verdeeld
2) gemiddelde van de foutenterm = 0
3) Var 𝜀𝑖 = 𝜎 = homoscedasticiteit
4) Afwezigheid van autocorrelatie: Cov(𝜀𝑖, 𝜀𝑗) = 0 waarbij (i ≠ 𝑗) tussen de residuen
5) de waarde van de afhankelijke veranderlijke Y worden voor elke waarde van de onafhankelijke veranderlijke X beschouwd als stochastische veranderlijke
homoscedasticiteit
een aanname die impliceert dat de voorspelling obv de regressierechte even accuraat is voor hoge als voor lage waarden en dat dus alle waarden van de foutenterm dezelfde variantie hebben
kleinste kwadratencriterium (OLS)
een methode om de regressieparameters te schatten, waarbij men de som van de gekwardrateerde residuen zo klein mogelijk wilt maken
twee eigenschappen van OLS die belangrijk zijn voor de veralgemening van de proefresultaten
1) OLS schatters zijn zuiver of onvertekend
2) van alle lineaire onvertekende schatters heeft de steekproevenverdeling van de OLS schatters de laagste variantie
residu
het verschil tussen de verwachte waarde van de afhankelijke variabele gegeven de onafhankelijke variabele en de geobserveerde waarde van de afhankelijke variabele. Het residu heeft een belangrijke inhoudelijke interpretatie: de residuen weerspiegelen de verschillen in y tussen respondenten die niet meer kunnen worden teruggebracht in verschillen tussen x
twee interpretaties van determinatiecoëffciënt R²
- PRE-interpretatie*: R² geeft weer in welke mate de kans op fout bij voorspelling op basis van 𝑌 wordt gereduceerd door bij de voorspelling te steunen op de onafhankelijke variabele
- Variantiesplitsing: R² geeft aan welke proportie van de variantie van Y wordt verklaard door de onafhankelijke variabele X
variatie (total sum of squares of SST)
Kan worden opgesplitst in een deel dat wordt verklaard door de regressierechte en een deel dat niet verklaard wordt door de regressierechte.
SSR
de spreiding van de verwachte waarden rond het rekenkundig gemiddelde = de gekwadrateerde afwijkingen tussen de verwachte waarde (obv regressievgl) en het gemiddelde = deel dat verklaard wordt door de regressierechte
SSE
De spreiding van de geobserveerde waarden rond de regressierechte = de gekwadrateerde afwijkingen van de geobserveerde waarde en de verwachte waarde = deel dat niet verklaard wordt door de regressierechte
eigenschappen van de correlatiecoëffciciënt en de regressierechte
1) de correlatiecoëfficiënt is niet gedefinieerd wanneer sx
=0 of sy =0
2) de correlatiecoëfficiënt is begrensd tussen -1 en +1
3) r = +1 of r = -1 als alle punten op een rechte liggen: in dat geval vallen de regressierechten met deze rechte samen
4) In tegenstelling tot covariantie is correlatiecoëfficiënt is ongevoelig voor de meeteenheid van variabelen
5) de correlatiecoëffïciënt is begrensd tussen -1 en 1 (zie bewijs!!)
gestandaardiseerde regressiecoëfficiënten
- het intercept is hierbij steeds gelijk aan 0
- de richtingscoëffeciënt is gelijk aan de correlatiecoëfficiënt van Pearson (r)
- intrpretatie = bij een toename van 1 standaardafwijking op de gestandaardiseerde schaal van x, levert dit een toename van … standaardafwijking op de gestandaardiseerde schaal van y
modelvergelijkingsprocedure (met F-test)
Vergelijkt de verklaringskracht van het volledige model mét de onafhankelijke variabele ten opzichte van de verklaringskracht van het beperkte model zonder onafhankelijke variabele. De nulhypothese van de modelvergelijkingsprocedure is dat de regressiecoëfficiënt (b, niet a) van de onafhankelijke variabele in de populatie gelijk is
aan 0
F-ratio
F-ratio gaat na of verhouding van verklaarde variantie in volledig model (𝑆𝑆𝐸𝑟 − 𝑆𝑆𝐸𝑓) ten opzichte van niet-verklaarde variantie in volledig model 𝑆𝑆𝐸𝑓 voldoende groot is om nulhypothese te verwerpen en volgt een F-verdeling met 𝑑𝑓𝑟 − 𝑑𝑓𝑓 vrijheidsgraden in de teller en 𝑑𝑓𝑓 vrijheidsgraden in de noemer.
aantal vrijheidsgraden in het beperkte model
Aantal vrijheidsgraden in beperkt model (𝑑𝑓𝑟) en volledig model (𝑑𝑓𝑓) wordt telkens berekend als (N-k-1), waarbij N steekproefgrootte weerspiegelt en k het aantal onafhankelijke variabelen en -1 is voor de schatting van de constante. In het volledige model verliezen we 2 vrijheidsgraden door schatting van de twee regressieparameters en ik het beperkte model 1 door het schatten van de constante.
standard error of the estimate
SPSS verwijst naar de onvertekende schatter 𝑠^2 van de variantie sigma^2 van de foutenterm in de populatie (gebruikt bij t-testen voor de standaardfout te berekenen!) = steekproefvariantie
T-testen
1) variantie (s²) schatten (som van de gekwadrateerde residuen gedeeld door N-2)
2) Door s² te gebruiken als schatter van s² bekomen we
Var ^𝛼 en Var ^𝛽
3) foutenterm berekenen door daaruit de vierkantswortel te nemen
4) t-waarde berekenen, waarbij de nulhypothese is dat a = 0
5) bekomen t waarde vergelijken met de oppervlakte van de t-verdeling met N-2 vrijheidsgraden bij een vooropgestelde type 1 fout van 5 procent (95% oppervlakte)
betrouwbaarheidsinterval interpretatie (voor de regressieconstante)
uitgaande van een vooropgestelde kans op een type-I-fout van 5 procent, is de waarde van de regressieconstante in de populatie met een zekerheid van 95 procent begrepen tussen -13,374 en 7,476. Aangezien de waarde 0 begrepen is in het 95%-betrouwbaarheidsinterval, blijkt opnieuw dat de regressieconstante niet significant verschilt van 0. (idem regressiecoëfficiënt)