H. 9, 6, 13 (OLS, onewayA, factorialANOVA) Flashcards
Kwantitatief
Je kunt hiermee verschillen berekenen, observaties vergelijken en precies aangeven hoe groot dat verschil is.
- Ordinaal: ordenen, niet even groot verschil
- Nominaal: indelen in groepen/categoriën.
Kleinste kwadratenmethode
Bivariate Regressie
e = Yi − Y’
Als je niets weet over de predictor x en je weet alleen iets over y, dan is de beste gok die je kunt wagen/ doen?
Bivariate regressie
is gemiddelde.
Voor elke waarneming is de beste gok altijd het gemiddelde op de waarneming/variabelen. Ook het gemiddelde op y is een kleinste kwadraten schatting.
De vraag in Variantie is uiteindelijk?
hoe zinvol is de regressie lijn? Is dit een verbetering ten opzichte van de horizontale gemiddelde lijn of niet?
Hoe wijkt geobserveerde score af van het gemiddelde. → deze kun je in twee delen opsplitten, namelijk:
Vaiantie
- Afwijking voorspelling op basis van regressielijn en de gemiddelde lijn, Y’- My. Dit is het deel wat is verklaard door de regressielijn.
- Verder is er nog een onverklaard deel. Namelijk het verschil tussen de voorspelde waarde op basis van de regressielijn en de werkelijke score. Dit kun je zien als een voorspelfout of ruis, de regressielijn gaat niet perfect door alle punten heem. Y – Y’.
Waar staat SEest voor?
Anova
Dit geeft de weer een gestandaardiseerde afwijking van de residuen. Zonder de wortel spreek je van de variantie. Het is eigenlijk de standaardafwijking van het deel dat we niet hebben kunnen verklaren. Hoe groter deze is, hoe minder veel we hebben verklaard met ons regressiemodel.
> Hoe groter de correlatie is tussen X en Y, hoe kleiner de SEest.
Vrijheidsgraden bij enkelvoudige lineaire regressie en Multiple lineaire regressie + uitleggen
Dit is N – aantal geschatte predictoren.
Bij enkele lineaire regressie is dit 2, b en b0.
Bij multipel dan verlies je een vrijheidsgraad per predictor.
> Vervolgens is van de variantie de wortel getrokken voor de standaardafwijking/standard error of estimate.
> Je berekent eigenlijk de gemiddelde afstand van de observaties tot aan de regressielijn over alle proefpersonen heen.
2 Standaardafwijkingen Anova
> Bij Marginale vs Conditionele verdeling
SDy en SEest
Je kan een standaardafwijking berekenen van de marginale verdeling, waarbij je geen rekening houdt met de waarde op X en een standaardafwijking van de conditionele verdelingen, rekening houdende met de waarde op X.
SDy en SEest bij significantietoetsen
Bij het toetsen van significantie hoop je dat de afstand tot conditionele verdelingen kleiner zijn dan die tot het algemene gemiddelde bij de marginale verdeling.
Oftewel SEest < SDy.
homoscedasticiteit vs homogeniteit van de varianties
Bij GLM modellen ga je ervanuit dat de standaardafwijking op de verschillende x punten overal gelijk is, dat heet homoscedasticiteit. Als je het over ANOVA hebt, dan wordt er over homogeniteit van de varianties gesproken. Oftewel de standaardafwijking is telkens gelijk voor alle niveaus van je predictor.
F ratio om modellen te vergelijken
Met de F-toets kun je modellen met elkaar vergelijken, bv. complete en reduced model.
- Complete → houdt rekening met wat er op x gebeurd.
- Reduced → kijkt alleen naar constante, de constante/intercept is dan het gemiddelde op de y. Dit is je beste gok.
In beide modellen maak je fouten. Maar in welk model maak je de minste fouten én hoef je naar verhouding het minst te schatten.
Effect size regressie
geeft de correlatie weer tussen Y en de voorspelling op Y (Y’).
Bij meerdere predictoren is er spraken van een multipele R, bij bivariaat een r2.
Rsquare vs Adjusted Rsquare
Regressie
- R Square → de proportie verklaarde variantie. Als je dit keer 100 zou doe dan heb je het percentage, maar anders is het een proportie die van 0 tot 1 loopt.
- Adjusted R Square houdt rekening met het aantal predictoren wat je hebt. Daarom valt deze altijd wat lager uit.
Std Error of the estimate
Regressie
gemiddelde afwijking van elke proefpersoon tot de regressie lijn.
Voor de effectmaat Rkwadraat: hebben we vuistregels in regressie voor voor klein, middelmatig en groot effecten.
0.01,0.06, 0.14 voor klein, middelmatig en groot effecten.