statistiek Flashcards
Analytische Afhankelijkheid
Waarde van ene variabele (kijkduur)
kan exact bepaald worden aan de
hand van de waarde van de andere
variabele
Stochastische afhankelijkheid
het is mogelijk een schatting van de
ene variabele op basis van de andere
te geven, maar het is niet mogelijk een
exacte relatie tussen beide variabelen
weer te geven
Covariantie
het gemiddelde van de kruisproducten, i.e. som van de
kruisproducten gedeeld door N:
Pearson product-moment correlatiecoëfficiënt
covariantie tussen gestandaardiseerde variabelen (1tot -1)
Doelstellingen Bivariate regressie
1) zoeken van de beste regressierechte
2) sterkte van het verband tussen af Y en onfh X
3) nagaan of vaststelling kan worden veralgemeend
Ordinary Least Squares (Kleinste Kwadratencriterium)
Doel: minimaliseren som van gekwadrateerde residuen
Eigenschappen OLS
1)Best Linear Unbiased Estimates’
2)OLS-schatters zijn onvertekend:
3)OLS-schatters hebben de laagste variantie
Residuen
Een residu is het verschil tussen de geobserveerde waarde van y en de
waarde y^ die wordt verwacht op basis van de regressierechte:
R^2
geeft aan welke proportie van de variantie van Y wordt verklaard door de
onafhankelijke variabele X
doelstelling Model meervoudige regressie
Geeft beschrijving van de samenhang tussen Xi& en
onafhankelijke variabelen Yi& aan de hand van een
lineair model
F-test
Modelvergelijkingsprocedure vergelijkt regressiemodel met onafhankelijke
variabele(n) (uitgebreid model) met regressiemodel zonder deze
onafhankelijke variabele(n) (beperkt model).
Additiviteitsassumptie
Additieve modelspecificatie veronderstelt dat partiële regressiecoëfficiënt
Byx1.x2
die effect van X1i op Yi weerspiegelt na controle voor X2i dezelfde is
voor alle waarden van X2i, en omgekeerd, dat partiële regressiecoëfficiënt
Byx2.x1
die effect van X2i op Yi weerspiegelt na controle voor X1i dezelfde is
voor alle waarden van X1i
Multicollineariteit
Probleem van te sterke samenhang tussen variabelen onderling:
onafhankelijke variabelen brengen grotendeels zelfde verklaring aan voor
afhankelijke variabele
Lineariteitsassumptie
Regressiemodel veronderstelt lineaire relatie tussen afhankelijke en
onafhankelijke variabele(n):
voor verschillende waarden van een onafhankelijke variabele liggen
de verwachte waarden (i.e. de conditionele gemiddelden) van Y dan
steeds op een rechte lijn
Symptomen Multicollineariteit
Regressiecoëfficiënten hebben grote standaardfouten: vaak geeft F-test
significant resultaat voor volledige set van onafhankelijke variabelen, maar is
geen van de afzonderlijke t-testen significant
* Regressiecoëfficiënten veranderen drastisch wanneer andere variabelen
aan/uit het model worden toegevoegd/weggenomen
* Gestandaardiseerde partiële regressiecoëfficiënten > 1