statistiek Flashcards
Analytische Afhankelijkheid
Waarde van ene variabele (kijkduur)
kan exact bepaald worden aan de
hand van de waarde van de andere
variabele
Stochastische afhankelijkheid
het is mogelijk een schatting van de
ene variabele op basis van de andere
te geven, maar het is niet mogelijk een
exacte relatie tussen beide variabelen
weer te geven
Covariantie
het gemiddelde van de kruisproducten, i.e. som van de
kruisproducten gedeeld door N:
Pearson product-moment correlatiecoëfficiënt
covariantie tussen gestandaardiseerde variabelen (1tot -1)
Doelstellingen Bivariate regressie
1) zoeken van de beste regressierechte
2) sterkte van het verband tussen af Y en onfh X
3) nagaan of vaststelling kan worden veralgemeend
Ordinary Least Squares (Kleinste Kwadratencriterium)
Doel: minimaliseren som van gekwadrateerde residuen
Eigenschappen OLS
1)Best Linear Unbiased Estimates’
2)OLS-schatters zijn onvertekend:
3)OLS-schatters hebben de laagste variantie
Residuen
Een residu is het verschil tussen de geobserveerde waarde van y en de
waarde y^ die wordt verwacht op basis van de regressierechte:
R^2
geeft aan welke proportie van de variantie van Y wordt verklaard door de
onafhankelijke variabele X
doelstelling Model meervoudige regressie
Geeft beschrijving van de samenhang tussen Xi& en
onafhankelijke variabelen Yi& aan de hand van een
lineair model
F-test
Modelvergelijkingsprocedure vergelijkt regressiemodel met onafhankelijke
variabele(n) (uitgebreid model) met regressiemodel zonder deze
onafhankelijke variabele(n) (beperkt model).
Additiviteitsassumptie
Additieve modelspecificatie veronderstelt dat partiële regressiecoëfficiënt
Byx1.x2
die effect van X1i op Yi weerspiegelt na controle voor X2i dezelfde is
voor alle waarden van X2i, en omgekeerd, dat partiële regressiecoëfficiënt
Byx2.x1
die effect van X2i op Yi weerspiegelt na controle voor X1i dezelfde is
voor alle waarden van X1i
Multicollineariteit
Probleem van te sterke samenhang tussen variabelen onderling:
onafhankelijke variabelen brengen grotendeels zelfde verklaring aan voor
afhankelijke variabele
Lineariteitsassumptie
Regressiemodel veronderstelt lineaire relatie tussen afhankelijke en
onafhankelijke variabele(n):
voor verschillende waarden van een onafhankelijke variabele liggen
de verwachte waarden (i.e. de conditionele gemiddelden) van Y dan
steeds op een rechte lijn
Symptomen Multicollineariteit
Regressiecoëfficiënten hebben grote standaardfouten: vaak geeft F-test
significant resultaat voor volledige set van onafhankelijke variabelen, maar is
geen van de afzonderlijke t-testen significant
* Regressiecoëfficiënten veranderen drastisch wanneer andere variabelen
aan/uit het model worden toegevoegd/weggenomen
* Gestandaardiseerde partiële regressiecoëfficiënten > 1
Multicollineariteit, hoe remediëren?
Eén van de onafhankelijke variabelen verwijderen
* Grotere steekproef gebruiken: levert kleinere standaardfouten
* uitvoeren van Principale Componentenanalyse (PCA)
* Gemeenschappelijke variantie aan één van de onafhankelijke variabelen
toewijzen
Afwezigheid van autocorrelatie
Residu voor onderzoekseenheid i zegt niets over residu voor
onderzoekseenheid j, of nog, residuen zijn niet gecorreleerd voor
verschillende waarden van onafhankelijke variabele(n):
Homoskedasticiteit
De assumptie van homoskedasticiteit stelt dat de foutenterm Ei steeds
eenzelfde (onbekende) variantie sigma^2 heeft voor elke (combinatie van)
waarde(n) van de onafhankelijke variabele(n):
gevolg homoskedasticiteit: Heteroscedasticiteit
- Bij heteroscedasticiteit worden werkelijke standaardfouten onderschat: er
wordt mogelijk ten onrechte de conclusie getrokken dat het effect van een
bepaalde variabele significant is
Schending van homoscedasticiteitsassumptie kan verschillende vormen
aannemen:
megafoon’-patroon: residuen waaieren uit bij hogere waarden van Yi
- omgekeerde ‘megafoon’: spreiding residuen kleiner bij lagere waarden Yi
- halterpatroon: grotere spreiding van residuen bij extreme waarden van Yi
en kleinere spreiding van residuen bij centrale waarden van Yi
Normaliteitsassumptie
Assumptie vooral van belang voor significantietesten. Schending van
deze assumptie heeft geen repercussies voor schatting van
coëfficiënten zelf
Outliers/ uitbijters
- Onderzoekseenheden waarvan de waarde van de afhankelijke
variabele slecht werd voorspeld door het model
Hefboompunten
Onderzoekseenheden met afwijkende waarden voor afhankelijke en/of
onafhankelijke variabele die sterke invloed hebben op regressieparameters
Analyse bivariate regressie
- Regressierechte zoeken die het beste aansluit bij de aard van de samenhang.
- Een significantietoets (= kan de samenhang gevonden in de steekproef veralgemeend worden naar de populatie?)
- De sterkte van de samenhang nagaan.
adjusted R^2
De Adjusted R Square corrigeert namelijk voor steekproefgrootte en aantal parameters.
Dummy-variabele
Het kan echter voorkomen dat er een variabele in het analysemodel moet worden opgenomen die op nominaal niveau is gemeten. Een voorbeeld van een dergelijke variabele is het geslacht van de respondent. Deze variabele kan in het analysemodel worden opgenomen als een dummy-variabele met de waarden 0 en 1.