thema 2 Flashcards
homogeniteit van variantie (Levene’s test)
zoals met elk lineair model nemen we aan dat de variantie van de uitkomst stabiel bliojft als de predictor wijzigt. in dit verband betekent dit dat de varianties in groepen gelijk zijn. Als de groepen verschillen van omvang kan schending van deze assumptie/aanname homogeniteit van variantie ernstige gevolgen hebben. Deze aanname kan getoetst worden met Levene’s test.
> vaker hetzelfde aspect meten
type 1 fout, false positive
Iedere keer dat er een hypothese wordt getoetst, accepteert men een kans gelijk aan alpha om een significant resultaat te vinden, terwijl dit effect niet in de populatie aanwezig is. In de sociale wetenschappen wordt doorgaans een alpha van 5% gekozen. Deze kans op een false positive, de kans dat onterecht de nulhypothese wordt verworpen, wordt de type-I-fout genoemd. In het geval van een t-toets wordt daarom een uitspraak gedaan met 95% betrouwbaarheid (1 - 0.05). Maar wat er als meer t-toetsen nodig zijn, omdat er meer dan een (paarsgewijze) waarneming wordt vergeleken? Iedere t-toets heeft steeds weer een 5% kans op type-I-fout. Hypothesetoetsing heeft daarmee veel weg van een dobbelspel waarbij men ‘af’ is als men een zes gooit. Naarmate het spel vordert en er steeds meer dobbelstenen gegooid zijn, is de kans per worp niet verandert, maar uiteindelijk wordt de kans dat er minstens eenmaal een zes gegooid wordt bijna 100%. als er 3 groepen moeten worden vergeleken, zijn er al 3 t-toetsen nodig (1 en 2, 1 en 3, 2 en 3)De toename van type 1 fout wordt kanskapitalisme genoemd
betrouwbaarheid
als je 10 t-toetsen doet , rekening houdend met kans kapitalisatieen een alpha van 0.01 dan is de betrouwbaarheid 0,99<10=0,9044
De afname van betrouwbaarheid is exponentieel; de nieuwe betrouwbaarheid is gelijk aan de initiële betrouwbaarheid tot de macht van het aantal toetsen. Bij een alpha van 5% is de betrouwbaarheid bijvoorbeeld 95% (.95) en als er drie toetsen worden gedaan is de nieuwe betrouwbaarheid als men start met een betrouwbaarheid van 95%:
.95tot de macht 3=0.857
en is de type-I-fout dan niet meer 5%, maar:
1−.95 tot de macht3=0.143
Bij het vergelijken van drie groepen in drie t-toetsen is de type-I-fout toegenomen van 5% tot ruim 14%. Als er vier groepen zouden worden vergeleken waren er zes toetsen nodig, waardoor de nieuwe type-I-fout al ruim 26% zou zijn:
1−.95 tot de macht 6=0.264
En bij vijf vergeleken groepen, waar tien toetsen nodig zijn is de type-I-fout, dus de kans dat er in minstens één toets onterecht de nulhypothese wordt verworpen, al opgelopen tot ruim 40%!
1−.95tot de macht 10=0.401
Een onderzoeker heeft twee manieren om deze toename van type-I-fout op te lossen:
1 Het aantal uit te voeren toetsen te verminderen; en dit kan door:
A. contrasten op te stellen: a-priori te bedenken welke vergelijkingen van belang zijn, en welke niet. Als je de keuze hebt heeft dit meer power dan post-hoc. In de statistiek , met name bij de analyse van variantie en lineaire regressie, is een contrast een lineaire combinatie van variabelen (parameters of statistieken) waarvan de coefficienten optellen tot nul waardoor verschillende behandelingen kunnen worden vergeleken.
B. omnibustoetsen; kies een toets die eerst een algemeen effect toetst, en toets specifieke vergelijkingen pas als de omnibustoets aangeeft dat er ergens verschil is (bijvoorbeeld, One-way ANOVA (zie Field hoofdstuk11) of Factorial ANOVA (zie Field hoofdstuk 13)
2 De alpha strenger te maken; dit kan door het kiezen van een post-hoc-correctiefactor (significantie bepalen). De bekendste hiervan is de Bonferroni: de alpha wordt dan gedeeld door het aantal getoetste vergelijkingen.
Als er uitgegaan wordt van een alpha van 0.01 en tien t-toetsen nodig zijn om alle verschillen te toetsen, wat zou met de bonferoni-correctie de nieuwe alpha moeten zijn om kans kapitalisme te voorkomen? 0.01/10=0.001
bonferroni correctie
Gezien de relatief grote toename van type-1-fouten besluiten de onderzoekers om alle t-toetsen uit te voeren met een correctie op de alpha, zodat verschillen minder snel significant zijn. Zij gebruiken hiertoe de bonferroni-correctie, een zeer strenge correctiefactor: de nieuwe alpha waarmee de kans op type-1 fout weer rond de bedoelde alpha moet brengen wordt berekend door de alpha te delen door het aantal uit te voeren toetsen. alfa 0.01 :10 t toetsen maakt een alpha van 0.001.
manipulatiechecks
Manipulatiechecks zijn een manier om interne validiteit van een experiment te waarborgen. Manipulatiechecks zijn variabelen die gemeten zijn om de onderzoeker de mogelijkheid te geven te toetsen of de beoogde manipulatie geslaagd is. Belangrijke vragen waar de onderzoeker antwoord op probeert te zoeken zijn:
- Heeft de manipulatie het beoogde effect gehad?
- Heeft de manipulatie onbedoeld een effect gehad op andere variabelen dan de beoogde?
Het is van belang om te benadrukken dat de manipulatiechecks niet bedoeld zijn om te evalueren of de manipulatie een effect heeft gehad op de afhankelijke variabele. Manipulatiechecks gaan altijd over verbanden met variabelen die niet de afhankelijke variabele zijn. Er wordt namelijk nog geen hypothese getoetst; een manipulatiecheck wordt meestal uitgevoerd om te verifiëren dat een experimentele manipulatie een preliminair effect heeft gehad, of in andere woorden: of de manipulatie is geslaagd.
Bijvoorbeeld: een onderzoeker wil weten of het kijken naar een verdrietige of grappige film invloed heeft op de prestaties op een moeilijke puzzel na het zien van de film. De preliminaire vragen die de onderzoeker eerst beantwoord wil hebben, zijn:
Hebben de films de beoogde stemming geïnduceerd? Voelden mensen zich verdrietig na het kijken naar een verdrietige film, en voelden mensen zich vrolijk na het kijken naar een grappige film?
Hebben de films alleen de beoogde stemming geïnduceerd? Voelden mensen zich niet vrolijk na het kijken naar een verdrietige film, of verdrietig na het kijken naar een grappige film?
In dit geval zal de onderzoeker twee manipulatiechecks uitvoeren. Er zal na vertoon van de film (verdrietig of grappig afhankelijk van de toegewezen conditie) aan de proefpersonen worden gevraagd in welke mate zij zich vrolijk voelen en in welke mate zij zich verdrietig voelen.
Als de proefpersonen geen verandering in de beoogde stemming laten zien dan weet de onderzoeker dat de manipulatie niet sterk genoeg was, of om andere redenen niet heeft gewerkt. Als de proefpersonen een verandering op de ‘verkeerde’ stemming laten zien, dan weet de onderzoeker dat de manipulatie verkeerd is uitgevoerd; misschien was de verdrietige film zo over-the-top dat het een parodie leek, of waren er andere verstorende factoren waardoor de manipulatie anders werkte dan bedoeld. Wanneer een manipulatie in een conditie zich gedraagt alsof het een manipulatie was in de andere conditie, zoals het grappig vinden van een verdrietige film, dan spreekt men van een cross-overeffect.
In sommige experimenten worden proefpersonen voorgelogen over de aard van het experiment. Een manipulatiecheck kan in zulke experimenten dan ook vaak een vraag zijn of de proefpersoon het voorgelogen verhaal überhaupt heeft geloofd. In dit geval dient de manipulatiecheck als een filter: alle respondenten die niet in het verhaaltje van de onderzoeker zijn getrapt, zijn problematisch voor de interne validiteit.
Toetsen van manipulaties
De manipulatiechecks zijn variabelen die ter controle aan de experimentele metingen zijn toegevoegd. Het kiezen van de juiste toets hangt daarom af van het meetniveau van variabelen. Als er twee condities zijn (een nominale onafhankelijke variabele, met twee niveaus) en de manipulatiecheck is een variabele op intervalniveau of hoger (bijvoorbeeld hoe vrolijk iemand zich voelt op een schaal van 1 tot 100), dan is een t-toets geschikt (Field, hoofdstuk 9); bij meer condities een one-way ANOVA (Field, 5th edition Hoofdstuk 12). Als er meer onafhankelijke variabelen zijn, zoals in 2 x 2 factoriële designs, dan kan een factoriele ANOVA meer geschikt zijn (Field, 5th edition Hoofdstuk 14).
Een voorbeeld van hoe een manipulatiecheck in de praktijk getoetst zou kunnen worden, is als volgt:
In de eerdere uitleg is een situatie besproken van een onderzoeker die wil weten of het kijken van een verdrietige of grappige film invloed heeft op de prestaties op een moeilijke puzzel na het zien van de film. De afhankelijke variabele in dit onderzoek is de prestatie op de puzzel. Echter, wilde de onderzoeker ook weten of de manipulaties goed waren, dus of de grappige film ook daadwerkelijk grappig werd gevonden, en de verdrietige film ook daadwerkelijk als verdrietig werd ervaren. Dit zijn congruente effecten. Wat de onderzoeker niet hoopt, is dat de grappige film (ook) als verdrietig werd ervaren, en de verdrietige film (ook) als grappig. Dit zijn incongruente effecten, de zogenoemde cross-overeffecten.
De onderzoeker heeft om dit inzichtelijk te maken voor afname van de puzzel twee vragen voorgelegd aan de proefpersonen: (1) Geef op een schaal van 1 tot 10 aan hoe grappig u de film vond; en (2) geef op een schaal van 1 tot 10 aan hoe verdrietig u de film vond.
Voor het toetsen van de manipulatie zijn de volgende variabelen aanwezig:
Er is een onafhankelijke variabele, gemeten op nominaal meetniveau met twee niveaus:
conditie (grappige film, verdrietige film)
Er zijn twee afhankelijke variabelen, gemeten op interval meetniveau:
ervaren grappigheid (1-10)
ervaren verdrietigheid (1-10).
Omdat conditie nominaal is op twee niveaus kiest de onderzoeker hier voor twee t-toetsen: een t-toets om te toetsen of mensen in conditie grappige film meer grappigheid ervaarden dan mensen in de conditie verdrietige film en dat mensen die de grappige film zagen minder verdrietigheid ervaarden dan mensen in de verdrietige-filmconditie.
In de eerste t-toets met de onafhankelijke variabele conditie en afhankelijke variabele ervaren grappigheid is de manipulatie geslaagd als conditie grappige film een signficant hogere ervaren grappigheid heeft dan de conditie verdrietige film.
In de tweede t-toets met onafhankelijke variabele conditie en afhankelijke variabele ervaren verdrietigheid is er geen cross-overeffect, als conditie grappige film een signficant lagere ervaren verdrietigheid heeft dan de conditie verdrietige film.
Als er in de eerste of tweede t-toets geen significant verschil is tussen de condities dan is de manipulatie niet geslaagd; om een of andere reden leken de films niet het beoogde affect te induceren.
Als in een van de t-toetsen de verkeerde groep (incongruent) significant hoger is, bijvoorbeeld conditie grappige film heeft een significant lagere ervaren grappigheid dan de verdrietige-filmconditie, dan is er een incongruent effect, dus een cross-overeffect. Dit betekent dat er een besmetting is, de film induceert het verkeerde affect, en dit verstoort de interne validiteit. Als prestatie op de puzzel wordt vergeleken tussen de condities is het niet meer zondermeer mogelijk om een eventueel effect toe te schrijven aan het affect, want deze is niet meer het natuurlijke gevolg van de vertoonde film.
In onderzoeken met meerdere onafhankelijke variabelen, bijvoorbeeld als naast type film, ook smaak popcorn wordt gemanipuleerd, blijft het proces van toetsing steeds hetzelfde. Er wordt steeds getoetst of de beoogde manipulatie het beoogde effect heeft op een congruente variabele, en het liefst geen effect heeft op een onbedoelde variabele. Smaak popcorn hoort bijvoorbeeld geen invloed te hebben op de ervaren grappigheid van de film. Als mensen die zoete popcorn eten films significant grappiger vinden dan mensen die zoute popcorn eten, dan is dat ook een cross-overeffect.
Hoe om te gaan met cross-overeffecten, of niet-geslaagde manipulaties? In de discussiesectie van een paper is ruimte om te reflecteren op mogelijke verklaringen. Misschien is een verdrietige film dusdanig overdreven dat veel mensen dat komisch kunnen vinden. De kunst is om na te denken over goede redenenen waarom een cross-over gevonden is, of dat een manipulatie niet het beoogde effect had. Soms kan er geen goede reden bedacht worden, en ook dat kan dan besproken worden in een discussie. Schrijf daarom niet slechts op dat een interne validiteit bedreigd is, maar probeer uit te pluizen waarom, en hoe dat de conclusies nuanceert, en wat eventuele alternatieve interpretaties van de resultaten zijn.
cross over effect: wanneer een manipulatie in een conditie zich gedraagt alsof het een manipulatie was in een andere conditie, spreekt men van een cross-over effect.
In onderzoeken met meerdere onafhankelijke variabelen, bijvoorbeeld als naast type film, ook smaak popcorn wordt gemanipuleerd, blijft het proces van toetsing steeds hetzelfde. Er wordt steeds getoetst of de beoogde manipulatie het beoogde effect heeft op een congruente variabele, en het liefst geen effect heeft op een onbedoelde variabele. Smaak popcorn hoort bijvoorbeeld geen invloed te hebben op de ervaren grappigheid van de film. Als mensen die zoete popcorn eten films significant grappiger vinden dan mensen die zoute popcorn eten, dan is dat ook een cross-overeffect.
Hoe om te gaan met cross-overeffecten, of niet-geslaagde manipulaties? In de discussiesectie van een paper is ruimte om te reflecteren op mogelijke verklaringen. Misschien is een verdrietige film dusdanig overdreven dat veel mensen dat komisch kunnen vinden. De kunst is om na te denken over goede redenenen waarom een cross-over gevonden is, of dat een manipulatie niet het beoogde effect had. Soms kan er geen goede reden bedacht worden, en ook dat kan dan besproken worden in een discussie. Schrijf daarom niet slechts op dat een interne validiteit bedreigd is, maar probeer uit te pluizen waarom, en hoe dat de conclusies nuanceert, en wat eventuele alternatieve interpretaties van de resultaten zijn.
De effectgrootte
In onderzoek wordt vaak volstaan met nulhypothesetoetsen. Dit houdt in dat er steeds getoetst wordt of de kans op een in het onderzoek gedane observatie klein is, gegeven dat de nulhypothese waar zou zijn. Hierbij wordt over het algemeen de regel gehanteerd dat als de uitgerekende kans (p-waarde) kleiner is dan .05, de nulhypothese kan worden verworpen. Nulhypothesetoetsing is daarmee een ja/nee-spelletje: zodra de p-waarde kleiner is dan het gestelde criterium (bijvoorbeeld .05) dan maakt het niet uit hoe klein de p-waarde is; de observatie wordt onwaarschijnlijk geacht als de nulhypothese zou kloppen. Er is aan de grootte van de p-waarde verder geen enkele conclusie te ontlenen. Toetsingsgrootheden en overschrijdingskansen melden niets over de grootte van verschillen of voor de mate waarin een afhankelijke factor bijdraagt aan de variantie van de afhankelijke variabele. Daarom moet statistische significantie worden onderscheiden van ‘praktische significantie’. Hoeveel ‘boeit’ het gevonden significante effect? Deze vraag wordt mede versterkt door de wijze waarop significantie geforceerd kan worden: omdat toetsstatistieken, en daarmee p-waarden, afhankelijk zijn van de steekproefgrootte kunnen de meest triviale verschillen nog als significant gevonden worden als de steekproefgrootte maar voldoende groot is. Daarom is het nodig om naast de significantie ook de grootte van een effect vast te stellen, of de mate waarin gemiddelden van elkaar verschillen. Dit wordt in de statistiek de effectgrootte genoemd. Iedere statistische toets heeft een eigen effectgrootte.
2 benaderingen:
- de sterkte van een effect uitgedrukt in proportie verklaarde variantie, analoog aan een gekwadrateerde correlatiecoefficient bij regressieanalyse R2, partieel n2 en w2
- een gestandaardiseerde mate waarin gemiddelde van elkaar verschillen. De belangrijkste varianten zijn Cohens d (t-toets) en Cohens f
Partieel n2, de effectgrootten kunnen in ANOVA, ANCOVA en repeated measures ANOVA zo worden uitgedrukt. Voordeel; SPSS kan dit desgewenst weergeven.
iedere statistische toets heeft een eigen effect grootte bepalen op 2 manieren
1 uitdrukken in een proportie verklaarde variantie, analoog aan een gekwadrateerde correlatiecoefficient bij regressie analyse R2
2 uitdrukken in een partieel etakwadraat (partial n2p), dit is niet optimaal dus vervangen door omegakwadraat (w2) die met de hand wordt berekend.
Een gestandaardiseerde mate waarin gemiddelden van elkaar verschillen; de belangrijkste varianten zijn cohens d en cohens f.
Cohen vuistregels voor interpretaties van percentages verklaarde variantie uitgedrukt in omegakwadraat
1% geringe associatie tussen de variantiebron en de afhankelijke variabele
6% middelmatig sterke
14% of meer is een sterke samenhang.
SPSS measures of effect size
T-toets/independent t- toets.
nominale onafhankelijke variabele met 2 niveaus met de manipulatiecheck een interval afhankelijke met 2 niveaus (Cohen’s d)
Als in 1 van de t-toetsen de verkeerde groep (incongruent) significant hoger is dan is er een incongruent effect dus een cross-over effect. Dit betekent dat er een besmetting is en dit verstoort de interne validiteit.
Indepentsamples:
- 2 verschillende ‘‘populaties ‘’ ( strikt verschillende groepen ) : alias tussen groepen
- Xis categorie met 2 categorieën (dichotoom) y is interval of hoger.
Dependent samples (alias paired t-test/binnen groepen:
- meerdere metingen binnen proefpersonen, of gematchte paren (bijvoorbeeld gehuwde kopplels)
- er is strikt genomen geen x, slechts 2 maal y op interval niveau of hoger.conditie heeft twee niveaus (controle, experimenteel) en de afhankelijke variabele is interval/ratio meetniveau.
De t-toets is de beste keus bij asch omdat ook robuust kan zijn tegen de schending van assumpties van homogene varianties. Het klopt dat de variabele conditie nominaal meetniveau is en de afhankelijke variabele is interval/ratio. De eenweg-ANOVA zal een identiek antwoord opleveren als de t-toets, omdat de variabele conditie bestaat uit twee niveaus. Echter, bij een schending van de assumptie van gelijke varianties heeft de eenweg-ANOVA weinig middelen om deze schending op te lossen. In het geval van een enkele categorische onafhankelijke variabele met twee niveaus is de t-toets de betere (en robuustere) keus.
Een t-toets is een lijnfunctie met een intercept (snijpunt met de y-as bij x=0 en een hellingshoek. Omdat in een t-toets 2 groepen worden vergeleken kan x maar 2 waarden aannemen 0 en 1 .
Dat betekent dan dat het intercept het gemiddelde van groep 0 is en de hellingshoek dan aangeeft hoeveel groep 1 van groep 0 verschilt.
Er zijn 2 varianten van de t-toets, welke je gebruikt hangt ervan af of de onafhankelijke variabele is gemanipuleerd met dezelfde deelnemers of met verschillende.
Achter beide t-toetsen zit dezelfde gedachtengang:
-in 2 steekproeven worden data verzameld en de gemiddelde berekend-
-als de steekproeven uit dezelfde populatie komen verwachten we dat de gemiddelden ongeveer gelijk zijn en onder de nulhypothesen verwachten we dat de experimentele manipulatie geen effect heeft.
-we vergelijken het verschil tussen de gevonden steekproefgemiddelden met het verschil tussen de verwachte steekproefgemiddelden als er geen effect is.
- we gebruiken de standaardfout als maatstaf vor de spreiding tussen streekproefgemiddelden. Als de standaardfout klein is verwachten we dat de meeste steekproeven vergelijkbaar zijn en andersom.
Als het verschil groter is dan we op grond van de standaardfout zouden verwachten kunnen daar 2 redenen voor zijn:
1 er is geen effect maar de steekproefgemiddelden verschillen sterk
2 de steekproeven komen uit verschillende populaties.
Hoe groter het verschil tussen de steekproefgemiddelden hoe waarschijnlijker de tweede reden is.
De meeste test statistieken zijn een signal-to-noise ratio: effect gedeeld door error
bij vergelijking van 2 groepsgemiddelden kunnen de gemiddelden varieren van sample tot sample (sample variation), de standaardfout kan gebruikt worden als een maat waarin die gemiddelden fluctueren (oftewel fout in de schatting van het gemiddelde). Dit is het model voor het effect.
De standaardfout van de verschillen tussen 2 gemiddelden kan dan gebruikt worden als schatting van de fout in het model. De t-statistiek kan uitgedrukt worden als:
t = geobserveerde verschil tussen steekproef gemiddelden - het verwachte verschil tussen tussen steekproefgemiddelden als de H0 waar is (meestal 0)
/ de standaardfout van het verschil tussen steekproefgemiddelden.
Het verschil tussen 2 gemiddelden is groter dan het verwachtte verschil onder de H0, het effect.
Gedeeld door de ‘fout’
Independent Samples Test
Vervolgens wordt de t-waarde (-4,343) genoemd met de bijbehorende vrijheidsgraden (d = 28). Ten slotte volgt de p-waarde in kolom “Sig. (2-tailed)”. Bij een p-waarde kleiner dan .05, moet de nulhypothese worden verworpen en kun je concluderen dat er significante verschillen zijn tussen de gemiddelden van de twee groepen.
T-test resultaten rapporteren
De resultaten van je t-test rapporteer je in het resultatenhoofdstuk van je scriptie. In het geval van onafhankelijke steekproeven (independent samples t-test) vermeld je minstens:
Het gemiddelde en de standaarddeviatie van beide groepen;
De t-waarde met het aantal vrijheidsgraden;
De significantie (p-waarde) van de t-test.
Voorbeeldzinnen: Rapportage
t= het geobeserveerde verschil tussen de 2 steekproefgemiddelden - het verwachte verschil tusssen de populatie gemiddelde (als de nul hypothese waar zou zijn) gedeeld door de schatting van de standaardfout van het verschil van de 2 steekproefgemiddelden
!! field gaat er altijd vanuit dat varianties tussen groepen verschillen niet homogeen zijn, daarom wordt in de voorbeelden van field altijd naar de rij equal variances not assumed gekeken, ongeacht de significantie van de levene’s test voor equality of variances. wij doen dit ook bij dit practicum.
the paired samples t-test equation explained
de gepaarde t-toets wordt gebruikt om het verschil tussen 2 herhaalde metingen te toetsen oftewel de gemiddelde verschilscore tussen gepaarde waarnemingen, dit houdt geen chronologie in, kan ook een binnenproefpersonen ontwerp zijn bijv vader en moeder of tweelingen.
de paired t-test vergelijkt niet de gemiddelde van 2 groepen maar de gemiddelde verschilscore tussen gepaarde waarnemingen.
De afhankelijke variabele wordt gemeten op interval- of rationiveau (scale).
De personen binnen de twee groepen zijn onafhankelijk van elkaar. Je kunt hiervoor werken met aselecte steekproeven.
Als je steekproef minder dan 30 observaties telt, moet de afhankelijke variabele normaal verdeeld zijn. Dit kun je controleren in SPSS met de Shapiro-Wilk- of Kolmogorov-Smirnov-toets. Als de variabele niet normaal verdeeld is, kun je beter de Wilcoxon- of de Mann-Whitney-toets gebruiken.
Levene’s test
De tweede tabel, “Independent Samples Test”, weergeeft het resultaat van de t-test. Het eerste (meest linkse) deel is Levene’s Test. De Levene’s Test analyseert of de variantie van beide groepen gelijk is. Dit bepaalt of je naar de bovenste of onderste rij moet kijken.
Als de significantie van de Levene’s Test onder de gebruikelijke .05 ligt, wordt de nulhypothese van gelijke variantie verworpen. In het voorbeeld is de waarde .551, dus we mogen aannemen dat de varianties in beide groepen gelijk zijn. We kijken dus naar de bovenste rij van de output.
In het meest ideale geval is Levene’s test niet significant.
the simon effect
In hun onderzoek beschrijven Simon en Rudell (1967) dat mensen verward kunnen raken wanneer ze bijvoorbeeld in hun linkeroor een instructie krijgen om aan hun rechterkant wat uit te voeren. Een congruent stimulus-respons, zoals iemand die links van je staat en vraagt (stimulus) om links van je iets te pakken (respons) zouden we redelijk snel oppikken, en verwart ons niet zo. In de cognitieve psychologie is dit fenomeen het Simon-effect gaan heten. Het Simon-effect houdt in dat reactietijden sneller en accurater zijn wanneer een stimulus in dezelfde algemene locatie is als de verwachte respons, zelfs als de stimulus irrelevant is voor de uit te voeren taak.
the paired sampled t test/dependent t-test/matched pairs t-test
vergelijkt niet de gemiddelde van 2 groepen, maar de gemiddelde verschilscore tussen gepaarde waarnemingen.
Een herhaalde metingen toets heeft meer power in het geval van herhaalde metingen.
De gepaarde t-toets wordt gebruikt om het verschil tussen twee ‘herhaalde metingen’ te toetsen. Het is van groot belang om te onthouden dat ‘herhaalde meting’ niet noodzakelijkerwijs een chronologie inhoudt. Een voor- en nameting is een klassiek voorbeeld van een herhaalde meting, maar een herhaalde meting is bijvoorbeeld ook de observatie van een moeder en een vader van het gedrag van hun kind. Kortom: in een binnenproefpersoonontwerp kan een gepaarde t-toets uitkomst bieden.
Kern van de paragraaf is dat de paired t-test niet de gemiddelde van twee groepen vergelijkt, maar de gemiddelde verschilscore tussen gepaarde waarnemingen.
de F ratio
De toetsstatstiek: de F-waarde wordt conceptueel toegelicht. De kern is dat de F-waarde een verhoudingsmaat is tussen de variantie tussen groepen (hoeveel de gemiddelden van de groepen verschillen) en de variantie binnen groepen (hoeveel individuen binnen de groepen verschillen). De F-toets wordt groter als de groepsgemiddelden verder uit elkaar liggen, en/of wanneer waarnemingen binnen groepen homogener zijn.
post hoc correcties
Een vergelijking van de verschillende post-hoccorrecties die SPSS biedt. De bonferroni-correctie is de strengste correctiefactor. Wat de beste correctiefactor is hangt van de situatie af. REGWQ is goed, behalve wanneer de groepen ongelijke n hebben. Bonferroni en Tukey zijn ook goed. LSD wordt afgeraden.
effectgrootte anova
n het boek van Field wordt erop gewezen dat de effectgrootte die SPSS geeft teveel op de steekproef gebaseerd is, en niet goed generaliseerd naar de populatie. Field geeft daarom de formule voor het berekenen van de omega-kwadraat: de effectgrootte die in Field als belangrijk wordt bestempeld.
Belangrijk: In latere hoofdstukken wordt de partial eta-squared gebruikt. Belangrijk is om te weten dat in een one-way ANOVA geen partiele eta-squared bestaat, ondanks dat SPSS deze wel zo kan noemen, omdat ‘partieel’ slaat op ‘de unieke correlatie tussen een gegeven X en een Y’. Wanneer een model meerdere X’en bevat, (meerdere independent variabeles) dan kan door correlatie tussen de independent variables soms onduidelijk zijn welke correlatie tussen een X en Y uniek is tussen die twee, en niet gedeeld wordt door een andere X. Als er geen andere X’en in het model aanwezig zijn, zoals in een one-way ANOVA, dan is de effectgrootte niet partieel, maar ‘gewoon’ de proportie verklaarde variantie tussen X en Y. Dat wordt in een ANOVA uitgedrukt in r2 wat ook eta genoemd wordt. Dus: Eta2 is de effectgrootte wanneer er maar 1 independent variable in het model is. Als er meerdere independent variables in het model zijn opgenomen (zie hoofdstuk 14, factorial designs), dan moet er per independent variable een Eta2 berekend worden weten (in plaats van over het geheel), en dan wordt het voor iedere independent variabele een partiele Eta2
Het is mogelijk om de Eta2 met de hand te berekenen. Field beschrijft op blz 567 de procedure om Eta2 (r2) te berekenen. De Eta2 wordt berekend door SSM te delen door SST. erond ongeveer Eta2 = 0.46 betekent.
Als de one-way ANOVA wordt uitgevoerd middels Analyse -> General Linear Model -> Univariate, dan is er onder Options de mogelijkheid om het vakje Estimates of Effect Size aan te vinken. Dit levert een door SPSS berekende (partial) Eta2 op in de output.
systematische manipulatie vn de onafhankelijke variabele (predictor) is een krachtig gereedschap om een stap verder te gaan dan het gewoon observeren van variabelen
Het simpelste scenario 2 groepen, we willen 2 gemiddelden vergelijken. verschillende entiteiten aan verschillende experimentele condities blootstellen. (a between groups of independent design) Of 1 groep op verschillende tijdstippen (a repeated measures of within subject-design) NB onderzoekers vallen vaak in de verleiding om kunstmatig gecreerde groepen te vergelijken door bijvoorbeeld mensen te scheiden in groepen gebaseerd op een mediaanscore, voorkom dit. Kan de originele info goed veranderen, effect groote wordt kleiner want 1 variabele, en meer kans op het vinden van niet van toepassing zijnde effecten.
Als het echt dichotoom kan: theoretisch rationeel of distincte categorieen, dan kan het vaak wel.
mediaanscore
de midddelste score als de scores op volgorde staan
Descriptives SPSS
M is mean is gemiddelde
CI Confidence interval
In beide groepen zijn de scores normaal verdeeld volgens de KS test (Golmagorov Smirrnovv) De sig die daaruit komt .118 is groter dan 0.05 en dus normaal verdeeld.
Alle toetsen in onderzoekspractica zijn eigenlijk varianten van het lineaire model
regressie t-toets en anova zijn dus aan elkaar verwant. Alle toetsen zijn lineaire lijnschattingen.
De eenvoudige samenvatting is dat een t-toets een lijnfunctie is met een intercept (snijpunt met de y-as bij x=0) en een hellingshoek.
Omdat in een t-toets twee groepen worden vergeleken kan x maar twee waarden aannemen (0 en 1). Dat betekent dan dat het intercept het gemiddelde van ‘groep’ 0 is, en de hellingshoek aangeeft hoeveel ‘groep’ 1 van groep 0 gemiddeld verschilt.
Y= ax +b
a= richtingscoefficient/hellingshoek
b= intercept/snijpunt y as x=0
lineair model t-toets test of b 0 is
T statistics coefficients SPSS
constant B0 is 3.750
onafhankelijke variabele B1 = 1.250 dit is het verschil tussen de 2 gemidelden van de groepen, trek je van elkaar af 5-3.75 dit is groter dan p 0.05 dus het verschil tussen groepen is niet significant verschillend van nul en de nulhypothese kan niet worden verworpen.
steekproevenverdeling
Het zegt ons welk verschil we kunnen verwachten tussen gemiddelden van 2 of meer steekproeven onder de nulhypothese.
Het gemiddelde van de meeste steekproeven wordt verwacht gelijk te zijn aan de populatie gemiddelde er is wel variantie en dat is de standaardfout/deviatie van de steekproevenverdeling.
De standaardfout zegt ons hoe aannemelijk verschillen tussen steekproefgemiddelden zijn. Bij een grote standaardfout kunnen grote verschillen tussen steekproefgemiddelden verwacht worden en andersom.
one way-anova
Bij meer condities;
x onafhankelijke variabele op nominaal meetniveau, met minimaal 2 categorieen en een afhankelijke variabele y op interval meetniveau of hoger.
nb echter, bij een schending van de assumptie van gelijke varianties heeft de eenweg ANOVA weinig middelen om deze schending op te lossen,. In het geval van een enkele categorische onafhankelijke variabele met 2 niveaus is de t-toets de betere en robuustere keus.
factoriële ANOVA
Als er meer onafhankelijke variabelen zijn, zoals bij 2x2 factorial designs, kan een factoriële ANOVA meer geschikt zijn. 2 maal x
Identiek aan de one-way ANOVA maar je hebt meer dan 1 onafhankelijke variabele, allen op nominaal meetniveau.
Mixed-design ANOVA
In de statistiek is een herhaalde meting eigenlijk meerdere afhankelijke variabelen. Deze kunnen chronologisch zijn, als in ‘klassiek herhaald’, zoals voor-nameting-follow up, maar ook alles wat bij alle respondentgroepen is gemeten, zoals reactiesnelheid en accuratesse. De kern is dus een mixed design ANOVA heeft zowel beteween en within-factors.
within subjects design
gepaard/afhankelijk
een onderzoeksontwerp waarbij men tijdens het gelhele onderzoek de gegevens van dezelfde groep mensen achterhaald
between-subjects design
onafhankelijk/niet gepaard
Een experiment waarbij men kijkt naar de invloed van verschillende factoren op 2 of meerdere groepen. De uitkomsten van between subjects effecten hebben uitsluitend betrekking op de gemiddelde waarde voor within subject factoren.
lineair model met een dichotome predictor
als we de verschillen tussen de gemiddelden van 2 groepen bestuderen, is het ons te doen om het voorspellen van een uitkoms op basis van de groep waartoe iemand behoort.
We spreken dan over een lineair model met een dichotome predictor. De b in het model staat voor het verschil tussen gemiddelden, en de resulterende t-toets maakt duidelijk of dit verschil ongelijk is aan 0.
De dichotome predictor X1 wordt gecodeerd tot een dummy variabele, met waarden 0 en 12.
In dit linaire model is b0 gelijk aan het gemiddelde van de groep gecodeerd als 0 en staat b1 voor het verschil tissen de gemiddelden van de groepen.
De t-waarde wordt gebruikt om na te gan of b1 gelijk is aan 0.
In deze contect betekent dit dat wordt getoetst of het verschil tussen de gemiddelen van de groepen ongelijk is aan 0