Kap 11 Flashcards
Intro til kap:
Kapitel 11 omhandler sammenligning af to kategoriske variable
Vi vender tilbage til eksemplet om sammenhængen mellem indkomst og lykke
Hvordan tester vi for uafhængighed mellem to kategori variable
Opstil en frekvenstabel (via JMP) opdelt på de to kategoriske variable
Vi opstiller nulhypotese og alternativ hypotese
Ho: De to variable er uafhængige
Ha: De to variable er afhængige
Antagelser for testen
Testen antager at stikprøven er tilfældig (data er randomiseret)
Forventede antal observationer i hver celle >= 5
Hvad forventer vi at antallet af observationer skal være i de enkelte celler, hvis der gælder uafhængighed
Vi forventer fordelingen på de tre lykkegrupper for hver indkomstgruppe er den samme som den totale fordeling på de tre lykkegrupper
Når vi forventer dette kan vi beregne det forventede antal observationer i hver celle på baggrund af den totale fordeling for hhv. de tre lykkegrupper og de tre indkomstgrupper
For en bestemt celle gælder det at det forventede celleantal ved uafhængighed (dvs under antagelse af Ho er sand)
Formel for forventede celleantal:
Forventede celleantal = (rækketotal x kolonnetotal) / total stikprøvestørrelse
Vi husker fra kapitel 5 at når der er uafhængighed mellem to variable gælder det
P(A ∩ B) = P(A) x P(B)
Teststørrelse vi skal bruge i et test for uafhængighed
Den teststørrelse vi skal bruge i denne test for uafhængighed hedder Chi i anden, X^2
Chi-i-anden teststørrelsen opsummerer hvor langt væk de observerede celle antal I en kontingenstabel falder fra de forventede celle antal under antagelse af nul hypotesen er sand
Formel for chi-i-anden
X^2 = sigma( (observerede antal – forventede antal)^2 / forventede antal
Summen af bidrag fra alle celler giver chi i anden teststørrelsen, der bestemmer p-værdien.
Forkast Ho når P-værdi ≤ signifikansniveauet (alfa=0,05)
Beregning af chi i anden teststørrelse i JMP:
X^2 teststørrelsen beregnes automatisk, når vi laver en kontigenstabel i JMP
Vi kigger under Pearson. Chi i anden fordelingen kaldes undertiden Pearson chi i anden fordelingen
P-værdi = 0,0121. Vi kan afvise Ho
Kan X^2 have negative værdier? Hvad hvis den er 0?
Fordelingen kan ikke antage negative værdier. Da chi i anden teststørrelsen beregnes som forskellen mellem forventet og faktisk antal observationer i anden
Fordelingen minimumsværdi er lig 0. Når værdien er 0 er det observerede antal observationer i cellen lig det forventede
Frihedsgrader: Læs op på dette. Se bl.a. slide 16, kap 11.
Forskellen på test for uafhængighed og test for homogenitet
Test for uafhængighed:
Chi-i-anden testen afhænger ikke af hvilken variabel der anvendes som respons variabel og hvilken der er den forklarende variabel
Uanset om vi sætter lykke som responsvariabel og indkomstgruppe som forklarende variabel
Eller indkomstgruppe som responsvariabel og lykke som forklarende variabel
Vil det være det samme test – Vi tester alene afhængighed/uafhængighed mellem to variable
Test for homogenitet:
Når en respons variabel er identificeret og de betingede fordelinger er identiske, siges de at være homogene
Testen er da refereret til som en test af homogenitet
Hvordan bestemmes hvor stærk sammenhængen er mellem de to kategoriske variable?
Når P-værdien er lille er de to kategoriske variable afhængige. MEN P-værdien fortæller os ikke noget om, hvor stærk sammenhængen er mellem de to kategoriske variable.
Læs mere om dette fra slide 23, lektion 11. Nok en god ide at forstå.
Relativ risiko
Den relative risiko beregnes som p1/p2
Eksempelvis:
p1/p2 =Andelen af ulykkelige i Hovedstaden/Andelen ulykkelige i Syddanmark
p1/p2 = 51,39/45,62 = 1,1263
Den relative risiko for at være ulykkelig i hovedstaden er 1,12 gange større end i Syddanmark
En relativ risiko på 1 betyder, at der ikke er forskel (p1=p2)
Fishers eksakte test for 2x2 tabeller
Både chi i anden test og ensidet og tosidet test fungerer under forudsætning af en stor stikprøve
En forudsætning for at anvende chi i anden test for uafhængighed er at det forventede antal i hver celle >= 5
Når denne forudsætning ikke er opfyldt kan man for 2x2 tabeller i stedet anvende Fisher’s eksakte test
Ho: Uafhængighed mellem de to kategori (binære) variable
Ha: Afhængighed mellem de to kategori (binære) variable
Beregningerne bag Fisher’s esakte test er komplicerede og ikke en del af pensum