HC2 Basic and Advanced Statistical Testing Flashcards
Wat is statistisch significant?
Te onwaarschijnlijk om toeval te zijn. Meestal een alfa-waarde van 0.05. Let op dit is wel een arbitraire grens. En dus nergens op gebaseerd.
Wat is een nul-hypothese?
Dit zegt iets als ‘er is geen verband of verschil tussen 2 gemeten waardes of groepen.’
Wat is de p-waarde
De waarschijnlijkheid dat we deze data of extremere data meten als de nul-hypothese klopt.
Wat is een normale distributie?
Verdeling van de data is ‘normaal’. Dit houd in dat de top ligt op het gemiddelde, en de vorm wordt bepaald door de standaarddeviatie.
Wat is een z-test?
Statistische methode die gebruikt wordt om te bepalen of er een significant verschil is tussen twee datasets. De uiteindelijke Z-waarde heeft een gemiddelde van 0 en een standaard deviatie van 1.
Bij een Z van 1.68 is de p = 0.047 bij een enkel zijdige test.
Bij de z-test moet de ware standaard deviatie bekend zijn.
Hoe bereken je de Z test-statastic?
Z = (X - μ) / S = (obs. mean - model mean) / sd of the mean
Hierin is sd of the mean = sqrt (σ^2 / N)
Wat is een t-test
Statistische methode die gebruikt wordt om te bepalen of er een significant verschil is tussen twee datasets. We gebruiken daarom de t-distributie, hierbij nemen we een grotere mate van onzekerheid.
Bij de t-test is de ware standaard deviatie niet bekend.
Wat gebeurt er als er meer degrees of freedom zijn?
De t-distributie gaat meer op de z-distributie lijken.
Vanaf df = 30, wordt er gezegt dat de t-distributie gelijk is met de z-distributie.
Hoe bereken de degrees of freedom?
df = n -1
Hoe bereken je de t-waarde anders dan de z-waarde?
Je moet nu een estimated sd berekenen, welke weer in de sd of the mean ingevuld moet worden.
Nu komt er dus bij: σ = sqrt(som van (xi - X)^2)/ df
Welke t-waarde heb je nodig voor een tweezijdig significante t-test?
t = 2.86
Wat is continu?
Elke mogelijke reeële waarde die er is.
Wat is nominaal?
Oftewel binair: wel of niet, 0 of 1 etc.
Hoe bereken je de two-sampeld t-waarde?
t = obs.mean 1 - obs.mean 2 / sd of the difference in means = (X1 - X2) / S
Hierin is S= sqrt((N1-1)σ1^2 + (N2-1)σ2^2) / N1 + N2 -2) * (1/N1 + 1/N2))
Wat is Fisher’s exact test?
Test voor het zien van een relatie tussen twee nominale variabelen.
Dit is een exacte test, welke er op berust om te kijken op hoeveel mogelijke manier er zijn om de uitkomst te krijgen gedeeld door alle mogelijke uitkomsten. Dit kan heel lang duren.
Wat zijn contingency tables?
Een soort kruistabellen. Hierin staat bijvoorbeeld hoeveel studenten en staff aanwezig of afwezig waren.
Wat is de Chi-squared test
Test voor het zien van een relatie tussen twee nominale variabelen. Welke sneller is dan de Fisher’s test. Deze test kan je gebuiken wanneer de steekproef groter is dan 20.
Hoe bereken je de chi-squared waarde?
x^2 = som of ((obsered - expected)^2)/ expected)
Wat is multiple testing correction
Wanneer je meerdere testen doet is de kans dat je een foute conclusie trekt groter.
Als je bijv. 1 miljoen testen doet met een alfa van 5%, dan verwacht je 50.000 fouten.
Wat is een type 1 fout?
Fout positief, wordt vaak gezien als erger.
Wat is een type 2 fout?
Fout negatief.
Wat is de Benferroni correctie?
Deze correctie houdt rekenening met multiple testing correction door een nieuwe alfa waarde te kiezen. Dit doe je door de alfa waarde te delen door het aantal gedane testen. Als alternatief kan je de p-waarde keer het aantal testen doen.
Dit is een Family-Wise Error rate correctie
Wat is de benjamini-Hochberg correctie?
Een manier om te corrigeren voor multiple testing, deze kijkt naar de false discovery rate. Hierbij maak je gebruik van een p-waarde die meegroeit met het aantal testen.