Lecture 17: non-parametric testing Flashcards
wanneer gebruik je non parametric testing?
- When assumptions are violated -> bv strong non-normality
- When the variable is ordinal -> when playing Mario Kart
- When unsure about outliers -> multiple observations with z = 3
Parametric vs Nonparametric: distribution
parametric = normally distributed
nonparametric = any distribution
Parametric vs Nonparametric: sampling
parametric: random sample
nonparametric: random sample
Parametric vs Nonparametric: sensitivity to outliers
parametric = yes
non parametric = no
Parametric vs Nonparametric: works with…
parametric = large data sets
nonparametric = small and large data sets
Parametric vs Nonparametric: speed
parametric = fast
nonparametric = slow
wat is het voordeel aan parametric testing
parametric = slightly more powerful, je kan kleinere effecten dus beter opsporen.
welke variabele is sensitief voor outliers?
de mean
dus wat gebruik je bij nonparametric testing ipv de mean?
ranks!
hoe bereken je ranks in R
rank(x)
maar… goed opletten op ties!
hoe werken ties: bv
value 3|50
value 4|50
(3+4)/2=3.5
wat is het nadeel van ranks
je gooit wel informatie weg, de extremeness van de values wordt niet meegenomen.
of de 5e value nou gelijk is aan 100 of 1000, het blijft rank 5
waarom is dit nadeel aan ranks niet perse erg
je bent hierdoor wel dichter bij het psychologische construct dat je wil meten, je wil gewoon iets zeggen over wie bijvoorbeeld meer anxious is. het maakt dan niet uit of zij een score van 100 of 1000 hebben op een test
procedure nonparametric testing: assumption
independent samples
procedure nonparametric testing: hypothesis
H0= equal population distributions (implies equal mean ranking)
HA=unequal mean ranking
of
HA= higher mean ranking for one group
procedure nonparametric testing: test statistic
either:
- difference between mean ranking
- sum of ranking
wilcoxon rank sum test:
calculate the mean rank, vergelijk deze tussen twee independent samples.
waar is de wilcoxon rank-sum test een alternatief voor?
independent samples t test
wat is de main gedachte achter wilcoxon rank sum test
By ranking all values and then summing the ranks per group, one would expect under the null hypothesis, that the sum of ranks is approximately equal.
After standardizing the test statistic (summed ranks for one group), we can use the standard normal distribution as the sampling distribution.
sum of ranks per group=
gewoon de som van de ranks van beiden groepen vergelijken. dit is al de test statistic!
geeft info over welke mean rank het hoogste is. het maakt dan niet uit of je naar de mean rank van groep 1 kijkt, of van groep 2. ze hebben namelijk dezelfde informatie.
de meeste software….
subtracts Wmin (=minimum possible value), zodat het 0 punt ook echt een nulwaarde heeft. want anders neem je dus ook allemaal values mee die onmogelijk zijn om te krijgen, zelfs in het slechtste geval.
behalve SPSS
W.min=
minimal possible observed rank sum. -> we beginnen met ranking op 1. de tweede lowest score = rank 2.
dus als we 10 observations hebben, is de W.min altijd 55 -> 1+2+3+4+5+6+7+8+9+10 = 55.
dus zelfs als alle lage waardes in groep 1 zitten, is dit het minimale wat je kan krijgen. normaal is het natuurlijk dat het een beetje wisselt, soms heeft groep 2 een lagere value dan de volgende value in groep 1, etc.
dus wat doe je bij beiden de wilcoxon rank sum test en de wilcoxon signed rank test uiteindelijk?
en wat is het verschil tussen de wilcoxon rank sum test en de wilcoxon signed rank test
je berekent de z bij beiden!!
wilcoxon rank sum= mean W per group, verschilt die van de verwachtte mean?
wilcoxon signed rank test = summed W per group
om de z score te kunnen berekenen, hebben we de …. nodig
To calculate the Z-score we need to standardize the W.
To do so we need the mean W and the standard error of W.
For this we need the sample sizes for each group.
dan de mean en standard error van de ranks opzoeken in R
waarom kan je kijken naar 1 van de W’s, ,en hoef je niet te kijken naar alletwee?
omdat de test statistic = looking at the difference between the predicted value and the observed value.
W.max=
wat is de highest possible ranking? kijken wat als de ene groep allemaal hogere waardes had dan de andere groep. dus bijvoorbeeld:
11+12+13+14+15+16+17+18+19+20 = 155
dit is dan de W.max
wat is de mean W under H0
het gemiddelde van W.min en W.max.
-> H0 zegt dat er geen verschil zou zitten tussen de groepen, dat ze een ongeveer gelijke ranks zouden hebben. vanaf hier kijk je naar hoeveel jouw geobserveerde W afwijkt van die mean W.
hoe bereken je Wmean ook wel?
Ws = (n1(n1+n2+1)) / 2