thema 4 covariantieanalyse Flashcards
Een covariaat
Een voorbeeld waarbij het zinvol kan zijn om een covariaat op te nemen is als er onderzoek wordt gedaan naar het verband tussen roken (factor) en overlijdensrisico (afhankelijke variabele). Uit onderzoek blijkt dat leeftijd ook invloed heeft op het overlijdensrisico. Daarom kan het opnemen van leeftijd als covariaat zinvol zijn. Leeftijd bepaalt dan voor een deel de variantie in overlijdensrisico (de afhankelijke variabele). Door leeftijd op te nemen wordt eerst de variantie uit overlijdensrisico gehaald die door leeftijd wordt verklaard, en vervolgens wordt gekeken hoeveel variantie de variabele roken dan nog kan verklaren in de afhankelijke variabele overlijdensrisico.
Een covariaat is een variabele die je aan een analyse kunt toevoegen wanneer je verwacht dat deze een verband heeft met de afhankelijke variabele (AV). De reden waarom dat nuttig kan zijn is als volgt. Doordat de covariaat een verband heeft met de AV verklaart deze een deel van de variantie van de AV. Het idee daarachter is dat dit deel van de variantie zogenoemde storende variantie is die je door het experiment niet wil of kunt verklaren. En dat gegeven kan worden gebruikt bij het toetsen van een experiment.
Samenvattend kunnen we stellen dat er twee manieren zijn om storende ruis te controleren, ten eerste een experimentele, waarbij correcte randomisatie ervoor zorgt dat de ruis zo klein mogelijk is en ten tweede een statistische, waarbij een covariaat wordt toegevoegd om storende ruis weg te nemen. De experimentele aanpak is te verkiezen maar is in de praktijk niet altijd mogelijk of niet helemaal optimaal uit te voeren (bijvoorbeeld bij quasi-experimenten). Het gebruik van covariaten kan dan een nuttige aanvulling zijn.
De F toets
Het effect van de onafhankelijke variabelen in een experiment, dat zijn de condities of manipulaties, verklaren ook een deel van AV. Zoals eerder beschreven is de F
-toets die bij een variantieanalyse wordt gebruikt om te toetsen of een experimentele factor significant gedefinieerd als:
F=variantie van AV verklaard door experiment / de totale variantie van av - variantie van av verklard door experiment
Hoe groter deze F
hoe groter het effect van de manipulatie en hoe lager de p-waarde die daarbij hoort voor een bepaalde steekproef. De F
kan groter worden door meer te verklaren met het experiment of door de totale te verklaren variantie van de AV te verkleinen.
Aangezien de covariaat een stukje van de variantie van de AV kan verklaren, blijft er minder ‘te verklaren’ variantie over. Bij een covariantieanalyse wordt de te verklaren variantie van de AV eerst aangepast door te corrigeren voor de covariaat. Die gecorrigeerde variantie is altijd kleiner dan de oorspronkelijke. De F
-toets bij een covariantie analyse (Fc
) wordt:
Fc=var AV verklaard door experiment/totale var AV - var verklaard door covariaat - var AV verklaard door exp.
Fc
is in principe dus altijd groter dan F en daardoor zal het resultaat bij Fc
een kleinere p-waarde hebben.
ANCOVA
het concept van ‘controleren voor variabelen’
Er worden twee redenen gegeven voor het opnemen van controlevariabelen (vanaf hier covariaten genoemd) (1) verkleinen van de binnengroepvariantie en (2) het elimineren van storende variabelen.
Let op: de variabele in kwestie heet een covariaat, en niet een covariant.
Korte samenvatting om ANCOVA van ANOVA te onderscheider: iedere ANOVA waarin een intervalmeetniveau (of hoger meetniveau) onafhankelijke variabele wordt opgenomen wordt automatisch een ANCOVA. De covariaat is zelf niets anders dan een interval of hoger meetniveau predictor in een linear model. Een ANCOVA bevat dus predictoren van categorisch en van continu meetniveau. Een model met enkel covariaten is een regressieanalyse.
De twee unieke assumpties voor covariaten:
(1) onafhankelijkheid van het effect van de covariaat en de onafhankelijke variabele;
De ideale situatie voor het opnemen van een covariaat is dat het effect hiervan onafhankelijk is van het treatment-effect. In de praktijk wordt een covariaat opgenomen waarbij deze een deel van het treatment en de onverklaarde variantie verklaard. Dit probleem kan worden opgelost door randomisatie of matching op de covariaat.
(2) homogene regressiehellingshoeken (parallele regressielijnen).
Dit betekent dat voor de verschillende groepen de kracht van het effect (uitgedrukt in een regressiegewicht) van de covariaat gelijk is op de afhankelijke variabele, ofwel dat de stijging of daling van de lijnen voor de verschillende groepen gelijk is.
(Onthoud vooral dat schenden van de assumpties vervelend is, maar dat het niet nodig is om ANCOVA daarom maar niet te doen. In de cursus is het voldoende om te kunnen herkennen en rapporteren welke assumpties geschonden worden.)
Hier wordt uitgelegd hoe gecontroleerd kan worden of een covariaat afhankelijk is van een interventie
. Dit wordt gedaan door het vergelijken van de scores op de covariaat tussen groepen middels een ANOVA met de interventie als onafhankelijke variabele en de potentiele covariaat als afhankelijke variabele. Als de verschillen tussen de groepen op de potentiele covariaat niet significant zijn, dan wordt ervan uitgegaan dat de covariaat onafhankelijk is van de interventie.
Belangrijk: zodra een covariaat is opgenomen in het model is het niet meer mogelijk om post-hoc analyses te draaien (maar, zie 13.5.6). In een ANCOVA is er daarom enkel een optie tot het opvragen van contrasten. De contrasten zijn dezelfde contrasten zoals in H12 (one-way ANOVA) besproken zijn.
Belangrijk 2: het vinkje bij ‘Parameter Estimates’ onder options is niet optioneel (zie paragraaf 13.6.4).
Calculating effect size (blz 602)
Belangrijk: Field geeft hier aan dat omega-kwadraat berekenen in een ANCOVA eigenlijk zelden een optie is. De voorkeur wordt in deze toets gegeven aan de partiele ɳ2. Als u onder ‘options’ een vinkje had gezet bij ‘estimates of effect size’, dan wordt die automatisch in de output weergegeven.
In deze paragraaf wordt aangegeven hoe van de verschillende variabele ɳ2 kan worden berekend ‘met de hand’.
Belangrijk: Field geeft hier aan dat omega-kwadraat berekenen in een ANCOVA eigenlijk zelden een optie is. De voorkeur wordt in deze toets gegeven aan de partiele ɳ2. Als u onder ‘options’ een vinkje had gezet bij ‘estimates of effect size’, dan wordt die automatisch in de output weergegeven.
In deze paragraaf wordt aangegeven hoe van de verschillende variabele ɳ2 kan worden berekend ‘met de hand’.
het rapporteren van resultaten
Field demonstreert hoe al die output en alle procedures in zeer bondage APA-stijl gerapporteerd kunnen worden, zoals in wetenschappelijke manuscripten dient te geschieden. Het enige waar rekening mee moet worden gehouden is dat in deze voorbeelden Field niet een mooie doorlopende tekst schrijft, zoals in een resultatensectie van een wetenschappelijk manuscript. De resultaten worden in bulletpointstijl als voorbeeld gegeven.
Dus, bestudeer hoe Field resultaten bondig weergeeft en let op de details zoals cursiveren en afronden. In uw eigen resultatensectie zult u al die losse APA-stijl-fragmenten nog tot een lopende tekst moeten maken.
covariaten
In de uitgevoerde analyse is er alleen gekeken of de voormeting invloed heeft op de nameting. In een experiment hangen de voor- en de nameting vrijwel altijd samen (de correlatie tussen de voormeting en de nameting is significant). Dus is het logisch de voormeting op te nemen als covariaat. In dit experiment kunnen ook nog andere variabelen als covariaat worden opgenomen. In deze situatie kan het effect van de analyse deels verscholen zitten in het aantal uren werken per week. Immers als je meer uren werkt, heb je meer de gelegenheid om onder werktijd de sportzaal te bezoeken. Het is dus niet raar om in dit geval het aantal gewerkte uren als extra covariaat op te nemen.
Nu blijkt dat de voormeting nog steeds een invloed heeft op de nameting, F(1, 103) = 230.7, p < .001, partial η2 = .691, ook blijkt het aantal gewerkte uren van invloed op het aantal keren sporten na afloop van het experiment, F(1, 103) = 105.8, p < .001, partial η2 = .50. Er kan nog steeds geconcludeerd worden dat het aantal keren sporten wordt beïnvloed door de gegeven voorlichting, F(2, 103) = 12.3, p < .001, partial η2 = .193.
Heeft de interventie een effect op het aantal keren sporten (sportscore 2)?
Om deze vraag te beantwoorden kan er een covariantieanalyse worden uitgevoerd. De afhankelijke variabele is de sportscore2, de onafhankelijke variabele is voorlichting en de covariaat is de voormeting (sportscore1).
De voormeting had een significant positief effect heeft op de nameting, F(1, 104) = 153.2, p < .001. Dit effect was positief (B = .864) wat betekent dat er een toename van aantal keer sporten was tussen de twee metingen. Voorlichting had na controle voor de voormeting een significant effect op aantal keer sporten, F(2,104) = 7.5, p < .001.
Uit een Sidak-posthoc analyse van de voorlichtingscondities van de voor de voormeting aangepaste scores op sportscore2 (estimated marginal means) bleek dat intensievere voorlichting leidde tot vaker sporten. Persoonlijk advies (M = 2.926, SE = 0.115) leidde tot vaker sporten dan de controle (p < .01), maar niet tot vaker sporten dan een digitale folder (M = 2.678, SE = 0.115), p = .325. De digitale folder leidde wel tot vaker sporten dan de controle (M = 2.285, SE = .115), p = .045.
Let op: om de hypothese te toetsen gebruikt u een ander model dan u gebruikte om de assumptie van homogeniteit van de regression slopes te toetsen. De regressieslopes werden getoetst met een extra parameter: de interactie tussen predictor en covariaat (zie 13.7 in Field). Omdat de interactie niet-significant was en daarom aan de voorwaarde van homogene regressiehellingshoeken voldaan was, dient de interactie niet in uw model op te nemen
De partial-eta-squared van voorlichting was in de de analyse zonder covariaat .228, maar in de analyse mét covariaat nog maar .126. Hoe laat deze afname van verklaarde variantie van de manipulatie zich uitleggen
Dit komt hoogstwaarschijnlijk doordat sportscore1 niet alleen een verband had met de afhankelijke variabele, maar ook met voorlichting. Een deel van de gedeelde variantie tussen voorlichting en sportscore2 overlapt waarschijnlijk met de gedeelde variantie van sportscore1 en sportscore2. Hierdoor wordt er naast onverklaarde variantie in sportscore2, ook verklaarde variantie verwijderd bij het opnemen van sportscore1 als covariaat
Herhaal de opdracht van thema 3, maar nu met de covariaat kennis. Zijn er verschillen met de voorgaande analyse?
Klik hier voor de terugkoppeling.
De onderstaande syntax levert de output op waaruit het volgende geconcludeerd kan worden: de uitkomsten zijn grotendeels vergelijkbaar met de vorige analyse zonder covariaat; de effecten zijn wel iets sterker omdat de covariaat blijkbaar toch een beetje storende variantie wegneemt.
Schatting energieverbruik
Uit de analyses blijkt dat voorkennis geen invloed heeft op het aantal correcte antwoorden met betrekking tot de schatting van het energieverbruik (F(2, 304) = 2.22, p = .11, partial η2 = .014) (tests within subjects effects, sphericity assumed). Er kan geconcludeerd worden dat de schatting van het energieverbruik wordt beïnvloed door de gegeven vorm van presentatie F(4, 304) = 22.23, p < .001, partial η2 = .23.
Als er naar de de gecorrigeerde score wordt gekeken dan blijkt de representatie in figuurvorm een stuk hoger te scoren dan de andere vormen van presenteren (tekst en tabel). De contrasten waarmee de drie tijdstippen worden vergeleken (test within subjects contrast) laten duidelijk zien dat de presentatievorm “figuur” beter scoort dan de andere twee vormen, (F(2, 152) = 36,54, p = .00, partial η2 = .33) voor 1 versus 2, en (F(2, 152) = 27,46, p < .001, partial η2 = .27) voor 1 versus 3.
De bijgeleverde figuur in de output laat dat ook zien.
Paarsgewijze vergelijkingen
Er kan geconcludeerd worden dat het effect van de gegeven presentatie nog steeds groot is, F(4, 304) = 17.82, p < .001, partial η2 = .19.
Uit de analyses blijkt dat voorkennis enige invloed heeft op de score van de tweede meting wat betreft de paarsgewijze vergelijkingen (F(1, 152) = 5.88, p = .016, partial η2 = .037) (test within subjects contrast). Als er naar de de gecorrigeerde score wordt gekeken dan blijkt dat de representatie in figuurvorm met name op direct na de manipulatie (T1) een stuk hoger scoort dan de presentatie in een tabel, die weer hoger scoort dan een presentatie in tekstvorm. Op T2 zijn de verchillen bijna verdwenen.
SYNTAX
** factoriele repeated measures analyse van correcte schatting energieverbruik met covariaat voorkennis **
GLM T0_score1 T1_score1 T2_score1 BY conditie WITH Kennis
/WSFACTOR=factor1 3 Simple(1)
/MEASURE=Tijd
/PLOT=PROFILE(factor1*conditie)
/PRINT=DESCRIPTIVE ETASQ
/WSDESIGN=factor1
/DESIGN=Kennis conditie.
** factoriele repeated measures analyse van correcte paarsgewijze vergelijkingen met covariaat voorkennis **
GLM T0_score2 T1_score2 T2_score2 BY conditie WITH Kennis
/WSFACTOR=factor1 3 Simple(1)
/MEASURE=Tijd
/PLOT=PROFILE(factor1*conditie)
/PRINT=DESCRIPTIVE ETASQ
/WSDESIGN=factor1
/DESIGN=Kennis conditie.