Learning statistics with jamovi: a tutorial for psychology students and other beginners (11 Å sammenligne to midler) Flashcards
Hva er selve z-testen?
Den er visst den mest ubrukelige testen i faget, men den er et springbrett til t-testen som er ganske interessant.
Hvordan finner man z-scoren for å avgjøre om en test kan forkastes eller ikke?
Formel 1
Det er en formel som består av N (antallet) og sd. true (standardfeilen til gjennomsnittet)
Deretter får du et tall, dette tallet skal i nevner i en ny formel. Vi kaller dette tallet du fant x
Formel 2:
I denne formlen må vi bruke (prøve gjennomsnittet-gjennomsnittet)/x
Da får du z-score.
Eksempel Litt under tabell 11.1
Hvordan skriver man en god konklusjon av z-scoren?
EKS: fra litt under tabell 11.1
Med en gjennomsnittskarakter på 73.2 i utvalget av psykologistudenter, og forutsatt et sant populasjonsstandardavvik på
9.5, kan vi konkludere med at psykologistudentene har signifikant forskjellige statistikkskårer enn klassegjennomsnittet (z=2.26 N=20 p<0.05)
Hva er de 3 Forutsetninger for z -testen?
- Normalitet . Som vanligvis beskrevet, antar z -testen at den sanne populasjonsfordelingen er normal
- Uavhengighet . Den andre antagelsen i testen er at observasjonene i datasettet ditt ikke er korrelert med hverandre, eller relatert til hverandre på en morsom måte. Dette er ikke like enkelt å sjekke statistisk, det er litt avhengig av godt eksperimentelt design.
- Kjent standardavvik . Den tredje antagelsen i z -testen er at det sanne standardavviket til populasjonen er kjent for forskeren. Dette er bare dumt. I intet virkelige dataanalyseproblem kjenner du standardavviket σ til en populasjon, men er fullstendig uvitende om gjennomsnittet. Med andre ord, denne antagelsen er alltid feil.
Hva er en t-test og hva gjør vi i en t-test når vi ikke vet standardavviket?
Det eneste som har endret seg i ligningen er at i stedet for å bruke den kjente sanne verdien standardavviket , bruker vi estimatet av standardavviket
Formel: Eksempel under introduksjon av t-test 11.2.1
Hva er forutsetninger for en-prøve t-testen?
Vel, siden t-test er i utgangspunktet en z -test med antakelsen om kjent standardavvik fjernet, du bør ikke bli overrasket over å se at den gjør de samme antakelsene som z -testen, minus den om det kjente standardavviket.
- Normalitet. Vi antar fortsatt at populasjonsfordelingen er normal
- Uavhengighet. Nok en gang må vi anta at observasjonene i utvalget vårt er generert uavhengig av hverandre.
Hva menes med de uavhengige t-test prøvene?
En mye mer vanlig situasjon oppstår når du har to forskjellige grupper av observasjoner. I psykologi har dette en tendens til å tilsvare to forskjellige grupper av deltakere, hvor hver gruppe tilsvarer en annen tilstand i studien din. For hver person i studien måler du en eller annen utfallsvariabel av interesse, og forskningsspørsmålet du stiller er om de to gruppene har samme populasjonsgjennomsnitt eller ikke. Dette er situasjonen som de uavhengige prøver t-testen er designet for.
Igjen en påminnelse: Hvordan skriver man en god konklusjon av en uavhengige t-test?
EKS:
Nå går jeg utifra at du har funnet svaret og har alle tallene, så disse tallene er eksempel
Gjennomsnittskarakteren i Anastasias klasse var 74.5% (std dev = 9.0), mens gjennomsnittet i Bernadettes klasse var 69.1% (std dev =5.8). En students uavhengige prøver t-test viste at dette 5.4% forskjellen var signifikant (t(31)=21, p<0.05, CI95=(0.2,10.8), d=0.74), noe som tyder på at det har oppstått en genuin forskjell i læringsutbytte.
Liten forklaring på tallene:
t(31)=21 er frihetsghradene som kommer fra N-1 eller hvis det er to grupper som måles mot hverandre, må det være N-1 og N-2 som totalt blir N-3
p<0.05 står for alfa
CI95=(0.2,10.8) står for konfidensintervallet. Altså i 95% av tilfellene vil svaret været et sted mellom 0.2 og 10.8. Så alt over eller under, da er det en signifikant forskjell
d=0.74 står for effektstørrelsen (kommer mer forklaring senere)
Hva er forutsetninger for uavhengige t-tester?
- Normalitet. Som en-prøven T-test, det antas at dataene er normalfordelt. Konkret antar vi at begge gruppene er normalfordelte.
- Uavhengighet. Nok en gang antas det at observasjonene er uavhengige utvalgt. I forbindelse med studenttesten har dette to aspekter ved seg. For det første antar vi at observasjonene innenfor hvert utvalg er uavhengige av hverandre (nøyaktig det samme som for ett-utvalgstesten).
- Varianshomogenitet (også kalt “homoskedastisitet”). Den tredje antakelsen er at populasjonsstandardavviket er det samme i begge gruppene. Du kan teste denne antagelsen ved å bruke Levene-testen, som jeg skal snakke om senere i boken.
Nå har vi snakket masse om den første av de to uavhengige t-testene (student’s), den andre heter Welch sin uavhengige t-test, hva går den utpå?
Det største problemet med å bruke Studenttesten i praksis er den tredje forutsetningen som er oppført i forrige avsnitt. Det forutsetter at begge gruppene har samme standardavvik. Dette er sjelden sant i det virkelige liv.
Forskjeller:
- Welch sin t-test er ikke avhengig av denne antakelsen. Hovedforskjellen er at standardfeilberegningene er forskjellige. Hvis de to populasjonene har forskjellige standardavvik, så er det fullstendig tull å prøve å beregne et samlet standardavviksestimat, fordi du tar et gjennomsnitt av epler og appelsiner.
- Den andre forskjellen mellom Welch og Student er at frihetsgradene beregnes på en helt annen måte. I Welch-testen trenger ikke «frihetsgradene» lenger å være et helt tall, og det samsvarer ikke så nært med «antall datapunkter minus antall begrensninger»-heuristikken jeg har. brukt frem til dette punktet.
Uavhengig om man bruker Welch eller stundet’s, når er det egentlig man skal bruke de?
Uansett om vi snakker om studenttesten eller Welch-testen, en uavhengig prøve t-test er ment å brukes i en situasjon der du har to prøver som er uavhengige av hverandre. Denne situasjonen oppstår naturlig når deltakere tilfeldig tildeles en av to eksperimentelle forhold, men det gir en svært dårlig tilnærming til andre typer forskningsdesign. Spesielt et design med gjentatte mål, der hver deltaker måles (med hensyn til samme utfallsvariabel) i begge eksperimentelle forhold, er ikke egnet for analyse ved bruk av uavhengige prøver
-tester. Vi kan for eksempel være interessert i om det å lytte til musikk reduserer folks arbeidsminnekapasitet. For det formål kunne vi måle hver persons arbeidsminnekapasitet under to forhold: med musikk og uten musikk.
Hva er de sammenkoblede prøvene t-test?
I situasjoner hvor det ikke er lett å se forskjell mellom to utvalg eller tester, kan man istedenfor sammenligne test 1 med test 2. I eksempelet under har en klasse gjort en prøve 1 i begynnelsen av året og prøve 2 i slutten. Det står at gjennomsnittlig karakter første test var 57% og 58% i den andre. Hmm, dette er ikke noe særlig framgang vel? Det kan vi teste på en bedret måte ved å sammenligne hver students score i begynnelsen med den andre scoren på slutten av året. Da var det utrolig forskjell plutselig.
En mulighet ville være å prøve å kjøre en uavhengig prøve t-test med karaktertest1 og karaktertest2 som variabler av interesse. Dette er imidlertid helt klart feil ting å gjøre som de uavhengige prøvene t-testen antar at det ikke er noe spesielt forhold mellom de to prøvene. Likevel er det tydeligvis ikke sant i dette tilfellet på grunn av strukturen med gjentatte mål i dataene. For å bruke språket som jeg introduserte i den siste delen, hvis vi skulle prøve å gjøre en uavhengig prøve t q-test, vil vi blande sammen forskjellene innenfor faget (som er det vi er interessert i å teste) med variasjonen mellom fag (som vi ikke er).
Eksempel Figir 11.5 og 11.6
Hva menes med Effektstørrelse?
Det mest brukte målet for effektstørrelse for en t-testen er Cohens d ( Cohen, 1988 ) . Det er et veldig enkelt tiltak i prinsippet, med ganske mange rynker når du begynner å grave i detaljene. Cohen selv definerte det først og fremst i sammenheng med et uavhengig utvalg t-test, nærmere bestemt Studenttesten.
I den sammenheng er en naturlig måte å definere effektstørrelsen på å dele differansen mellom middelene med et estimat av standardavviket.
EKS:
d=(mean 1)-(mean 2)/std dev
Fra tidligere kort:
d=0.74, noe som indikerer at karakteren for elever i Anastasias klasse er i gjennomsnitt, 0.74 standardavvik høyere enn karakterskårene for elever i Bernadettes klasse. For en Welch-test er den estimerte effektstørrelsen den samme
Hvordan tolkes effektstørrelser?
d-verdi grov tolkning
ca 0,2 liten effekt
ca 0,5 moderat effekt
ca 0,8 stor effekt
Hva er populasjonseffektstørrelsen?
Hvordan bruker mann effektstørrelse i en sammenkoblede prøver t-test?
d=Gjennomsnittet til forskjells poengene/standardavviket til forskjellene:
Gjennomsnittlig forskjell mellom testene delt på standardavviket til forskjellene
Ikke super viktig, men her er eksempel:
Eksempel 11.8.3
Hva er QQ-plott og hvordan fungerer det?
En måte å sjekke om en prøve bryter med normalitetsantagelsen er å tegne et “QQ-plott” (Quantile-Quantile plot). Dette lar deg visuelt sjekke om du ser noen systematiske brudd. I et QQ-plott plottes hver observasjon som en enkelt prikk. X -koordinaten er den teoretiske kvantilen som observasjonen skulle falle inn i dersom dataene var normalfordelt (med gjennomsnitt og varians estimert fra utvalget), og på y -koordinaten står den faktiske kvantilen av dataene i utvalget. Hvis dataene er normale, bør prikkene danne en rett linje.
Eksempel Figur 11.20-21
Hva er Shapiro-Wilk-tester?
Den er litt mer formell enn QQ-plott.
nullhypotesen som testes at et sett med N observasjoner er normalfordelt. Så det er en ganske lignende test
Hva er Mann-Whitney U test
EKS:
Anta at vi ser på poengene til 10 personer på en test. Siden fantasien min nå har sviktet meg fullstendig, la oss late som om det er en “test av awesomeness” og det er to grupper av mennesker, “A” og “B”. Jeg er nysgjerrig på å vite hvilken gruppe som er mest fantastisk. og det er to variabler: score og gruppe
Alt vi trenger å gjøre er å konstruere en tabell som sammenligner hver observasjon i gruppe A mot hver observasjon i gruppe B. Når gruppe A-datumet er større, setter vi en hake i tabellen.
Veldig rart as, tror ikke vi noen gang skal bruke denne as. Veldig lite avsnitt
Eksempel Tabell 11.4
Forklar kort hva Én prøve Wilcoxon-test er?
Wilcoxon-testen med én prøve (eller tilsvarende Wilcoxon-testen med parvise prøver). Anta at jeg er interessert i å finne ut om det å ta en statistikktime har noen effekt på elevenes lykke. Det jeg har målt her er gleden til hver elev før de tok klassen og etter å ha tatt klassen, og endringspoengsummen er forskjellen mellom de to.
Måten å gjøre det denne gangen på er å ta de endringsskårene som er positive forskjeller, og ta dem opp mot hele prøven
Samme her, er rart, men greit å ha sett.
Eksempel Tabell 11.5