Lecture 16: Chi-square t4est Flashcards
wanneer chi square test?
bij categorical independent and categorical dependent variables
één predictor variable!
Without other qualification, ‘chi-squared test’ often is used as short for Pearson’s chi-squared test.
oke
wat is een andere naam voor de chi square test
Lack-of-fit sum of squared errors
waarom heeft chi square ook die andere naam
Lack-of-fit sum of squared errors
omdat het gaat over wat het model predict (expectation) en hoeveel de data deviates hiervan (data)
formule x^2
x^2 = sum (observed - model)^2/model
waar gaat chi square om, wat meet het?
observed frequencies en frequencies expected by the model -> hoeveel variabelen uit de ene categorie horen bij de andere categorie?
df onder de x^2 distribution
df = (r-1)(c-1)
dus wat is de df als beiden variabelen binary zijn
df = 1
as the degree of freedom increases, the chi square distribution…
moves to the right
wat als degrees of freedom = infinity
normal distribution
waar kijk je naar bij een chi square test
wat is de probability van jouw gevonden chi square waarde of meer extreme, given that the H0 is true?
wanneer kijk je naar de alternatieve hypothese?
als we de power willen weten: de probability of rightfully rejecting the H0
welke sums van frequency zijn niet altijd gelijk?
de dependent variable, want daar heb je geen controle over
hoe bereken je Eij
Eij = (row total i x column total j)/n
dit gaat dus om de som van de rij * de som van de kolom! hier krijg je uit wat de tabel zou zijn volgens het model, als de events independent zouden zijn. dus dan krijg je de verwachte/predicted values.
wat is de probability of event A given B, if events A and B are independent of each other?
P(A|B) = P(A)
want ze zijn toch independent, dus dat maakt dan niet uit. gaat bijvoorbeeld om de probability dat iemand niest (A) gegeven dat Johnny nu een sprongetje maakt (B).
P(A and B)
P(A)*P(B)
maar alleen als deze events independent zijn!!!!!
wat krijg je uit de formule voor Eij?
de expected frequencies under the null model, if there is no association between the variables (= independent variables). dit vergelijk je dan met jouw gevonden data.
wat bereken na het berekenen van Eij
observed data - model predctions
dan krijg je de discrepancy tussen expected and observed. dat square je, en deel je door model frequency.
x^2 = (observed-model)^2/observed
hoe visualize je dit in r?
visualize.schiq(chi.squared,df,section=upper)
the chi square statistic and the f statistic are always…..
two sided!!!
want de sampling distribution begint bij 0, en heeft alleen maar positieve nummers
wat is het verschil tussen one sided en two sided
A one-tailed test looks for an “increase” or “decrease” in the parameter whereas a two-tailed test looks for a “change” (could be increase or decrease) in the parameter.
daarom is de f statistic en chi square two sided: je kijkt alleen maar of er een verandering is. daarna ga je met contrasts kijken waar die verandering is.
wat impliceert het feit dat de chi square en f statistic altijd two sided zijn
dat een significante p value niks zegt over welke kant groter/meer effect heeft dan de ander!! het geeft alleen aan dat er ergens een verschil is.
dus in dit voorbeeld: we weten niet of odd/even numbers meer feminine of masculine zijn, we weten alleen dat er ergens een verschil zit.
Fishers exact test: wanner gebruik je die?
bij small samples, when the x^2 distribution does not yet suffice.
want als je heel weinig observaties hebt, zijn er heel weinig mogelijke uitkomsten voor de F statistic. -> als je de sample size te klein hebt, heb je geen goede chi square distribution. daarom gebruik je dan fisher.
wat doet fishers test?
calculates all the possible permutations, dus alle mogelijke uitkomsten, gebaseerd op de telling. dit geeft dan de p value.
wat is de afkapwaarde voor fishers?
cell size < 5
yates correction
hier gebruik je het absolute value of de model, en subtract 0.5. en dat square je dan.
waarvoor gebruik je Yates correction
to prevent overestimation of statistical significance for small data.
wanneer gebruik je Yates correction
at least one cell of hte table has an expected count smaller than 5.
limitatie Yates corrections
may tend to overcorrect -> overly conservative results.
meer gebruiken om te kijken of jouw p value opeens enorm veranderd en niet meer significant is.
likelihood ratio=
sum of natural logarithms of (observed/model)
standardized residuals =
(observed-model) / sqrt(model)
hoe bereken je de odds ratio
ad / bc
wat laten standardized residuals zien
weg van de measurement scale, in which cells do we find the biggest deviation between models and data?
wat is een andere manier om de odds ratio te berekenen:
category 1 dependent variable / category 2 dependent variable (dus de rijen!!)
dus in dit voorbeeld: feminine odds/masculine odds
hoe interpreteer je deze odds ratios per categorie
In the feminine responses, there are +- 2.09 times as many even numbers than odd numbers. In the masculine responses, there are +- 0.4 times as many even numbers than odd numbers.
je kan dit ook doen met de categorieen van de independent variable (odds ratio)
oke
wat is de interpretatie van de gehele odds ratio
For this data, odd numbers received the feminine association +- 5.25 times more often than even numbers received the feminine association.
The odds ratio also accounts for the scores in the other condition: we do not only take into account the femininity of the odd numbers, but also the femininity of the even numbers.
test statistic is influenced by … and effect size is influenced by…
magnitude + sample size (effect bij: big effect en small sample, or small effect and big sample size)
magnitude
dus effect size wordt alleen beinvloed door magnitude!!!
hoe krijg je de odds ratio in jasp
onder statistics: odds ratio
dit kan alleen bij 2x2 design!
highly significance in chi squared betekent niet groot effect!!! want het kan ook gewoon een grote sample zijn geweest. waar moeten we dan naar kijken?
naar de effect size: odds ratio.