4/5: Meer dan twee categorische onafhankelijke variabelen Flashcards
Stappen:
Hypothesetoetsing bij meer dan 2 onafhankelijke, categorische variabelen (associatievragen)- Chi-kwadraat/kwadraat toets
1) Assumpties checken
- Twee categorische variabelen
§ Afhankelijke en onafhankelijke steekproef kennen twee of meer categorieën (dit vooraf bepalen)
§ Kan dus ook met 2 categorieën, maar z-toets is simpeler en mogelijkheid eenzijdig toetsen
- Onafhankelijke waarnemingen
§ Random trekking/toewijzing
- Verwachte vel frequentie ≥5
§ E uit stap 3
§ Anders Fisher’s exact test
2) Hypothesen opstellen
Nulhypothese (H0)
□ H_0:De twee variabelen zijn onafhankelijk
□ Geen associatie/homogeen
□ Verhoudingen zouden gelijk zijn
□ Onconditionele percentages berekenen
- Verticaal percenteren (totaal kolom/totaal-totaal)
- Bij onafhankelijk is dit dus overal hetzelfde percentage
Alternatieve hypothese (HA of H1)
□ H_A: De twee variabelen zijn afhankelijk
□ Wel associatie/heterogeen
□ Verschillen in verhoudingen
□ Conditionele percentages
- Afhankelijk in kolom
- Onafhankelijk in rij
- Horizontaal percenteren (cel delen door rijtotaal)
- Conditionele verdeling in kolommen per rij vergelijken
3) Toetsingsgrootheid (tg) (Test Statisic) berekenen
* Chi-kwadraat
○ O= observatie aantal
○ E= verwachte celfrequentie= (rijtotaal ∗ Kolomtotaal)/Totaaltotaal
–> Vraag wat is het aandeel van …
○ A= rij
○ B= kolom
○ Als er minder mensen in zitten dan verwacht dan is E negatief
* X^2= Z^2 bij 2x2 tabellen
4) P-waarde opzoeken
* Passend bij X^2-waarde in tabel
* DF= (A-1)(B-1)
- A= rij
- B= kolom
- Hoe hoger de vrijheidsgraden, hoe meer normaal verdeeld
* Altijd rechtseenzijdige toets, en je kijkt automatisch tweezijdig.
5) Conclusies trekken
* Rapporteer en interpreteer Interpreteren
* Sterk bewijs dat variabelen geassocieerd zijn
* Hoe groter X^2, hoe sterker bewijs tegen H_0
* Wijken geobserveerde cel frequenties (O) significant af van verwachte cel frequenties (E)?
Eigenschappen chi-kwadraat (X^2): (6)
1) Altijd positief
2) Vrijheidsgraden van rij en kolom
3) Gemiddelde is gelijk aan df
4) Als df verhoogt, wordt distributie klokvormig
5) Groot chi-kwadraat bewijs tegen onafhankelijkheid
6) Geeft overall associatie
Chi-kwadraat (X^2) zegt niets over: (3)
- Sterkte associatie
- Wordt ook beïnvloedt door steekproefgrootte
- Grotere waarde betekent niet per se sterkere associatie
- Richting associatie
- Welke cellen wel/niet afwijken van verwachte waarden
Chi-kwadraat (X^2) niet toepassen als: (4)
- Verwachte cel frequenties <5
- Data afhankelijk zijn (herhaald/gepaard)
- Observaties niet random getrokken/toegewezen
- Kwantitatieve variabele gecategoriseerd is (Leeftijd ingedeeld in jong en oud)
Residu analyse:
- Verschil geobserveerde (O) en verwachte (E) waarde (O-E)
- Wordt veel beïnvloedt door steekproefgrootte
- Negatief als minder personen dan verwacht H0
- Gestandaardiseerde residuen (adjusted residu)
- Hoeveel standaardfouten de geobserveerde waarde boven/onder verwachte waarde zit
- z_res=(O−E)/SE
- Bewijs afwijking van onafhankelijkheid (H0)
- Normaal verdeeld
- Gedraagt zich als z-score
- Bij residu groter dan 3 of kleiner dan -3 echt verschil, dan outliers
Stappen:
Hypothesetoetsing bij meer dan 2 onafhankelijke, categorische variabelen - Fisher’s exacte toets
1) Assumpties checken
- 2 categorische variabelen
- Random trekking/toewijzing
- Onafhankelijk
Mogelijk als:
- Twee categorische variabelen met een te kleine N
- Verwachte vel frequentie <5
2) Hypothesen opstellen
Nulhypothese (H0)
* H_0:π_1=π_2
□ Onafhankelijk
□ Vergelijkbaar met Chi-kwadraat
Alternatieve hypothese (HA of H1)
□ Eenzijdig: H_A:π_1<π_2>π_2
□ Tweezijdig: H_A:π_1≠π_2
□ Afhankelijk</π_2>
3) Toetsingsgrootheid (tg) (Test Statisic) berekenen
* Via SPSS
* Hoef je niet zelf uit te rekenen op tentamen
4) P-waarde opzoeken
* 〖p=p〗_t1+p_t2
5) Conclusies trekken
* Rapporteer en interpreteer Interpreteren
* Beslisregels verwerpen is
a) p-waarde is kleiner dan vooraf gekozen significantieniveau (α) (meestal 0.05/5%)
- p≤α→Verwerp H_0
- p>α→Niet H_0 verwerpen
b) Toetsingsgrootheid (tg) extremer is dan grenswaarde/kritieke waarde
Fisher’s exacte toets (niet uitrekenen, wel begrijpen) (3)
- Geeft kans op geobserveerde celfrequenties of extremer gegeven de marginalen
- Kans op bepaald patroon van celfrequenties is gegeven door hypergeometrische verdeling
- Geeft exacte kans voor gevonden patroon en extremere patronen
Fisher’s Waarom niet altijd gebruiken: (3)
- Veel rekenwerk
- Kans op gevonden of extremere patronen moeten worden uitgerekend en opgeteld
- Bij grotere tabellen dan 2x2 lastig te bepalen wat extremer is (p-waarde tweezijdig is niet dubbele van eenzijdig, want geen symmetrische verdeling)