Kap 14 Flashcards
Intro: Variansanalyse
Variansanalyse-metoden sammenligner gennemsnit for flere grupper Lad g angive antallet af grupper Hver gruppe har en tilhørende population Man taler her om en ANOVA test ANalysis Of VAriance Middelværdierne for den afhængige variabel for de g populationer er: µ1, µ2, … µg
Sammenligning af tre eller flere middelværdier
De tests for middelværdier vi tidligere har gennemgået
(Agresti, kapitel 10) har haft til formål at sammenligne
middelværdien for to populationer.
Ofte har man imidlertid behov for at sammenligne mere end to
populationer. Variansanalyse (ANOVA)-metoden sammenligner gennemsnit for flere grupper.
Princippet i variansanalyse (ANOVA) er det samme som i de foregående tests, dvs. beregn P-værdien på
baggrund af en passende teststørrelse for data i stikprøverne.
Variansanalyse eksempel
Datasæt med årlig indkomst fordelt på tre Aldersgrupper. Unge 18-29 år Mellem 30-49 år Ældre 50 år ++ Vi ønsker at teste om middelværdierne for de tre grupper er ens
ANOVA-test antagelser
Antagelser
Uafhængige tilfældigt udvalgte stikprøver (data i hver grupper er randomiseret)
De underliggende populationer er normalfordelte med samme standardafvigelser
Teststørrelse for ANOVA
F-teststørrelsen beregnes:
F = variation mellem grupper / variation inden for grupper
Ud fra teststørrelsens forhold mellem tæller og nævner ses det at jo større variationen mellem grupper er i forhold til variationen inden for
Jo større værdi af F-teststørrelsen des større bevis mod H0 (middelværdierne er ens)
Hvad kan vi konkludere på baggrund af en ANOVA-test
Hvis ANOVA-testen resulterer i forkastelse af Ho, så kan vi konkludere, at der er forskel på middelværdierne i populationerne; mere præcist at mindst 2 middelværdier er forskellige.
Man ved derimod ikke noget om hvilke populationer der har forskellige middelværdier.
Om forudsætninger for ANOVA
Som forudsætning at alle populationer er normalfordelte og med identiske spredninger. ANOVA-metoden er imidlertid ikke voldsomt følsom overfor om dette krav er opfyldt. Derfor vil man ofte nøjes med at foretage en visuel vurdering til at vurdere om disse forudsætninger er nogenlunde opfyldt.
Hvad kan vi gøre for at undersøge hvilke middelværdier der er forskellige og hvor forskellige de er?
Når en variansanalyses F-test udviser en lav P-værdi (forkaster Ho) viser testen ikke hvilke middelværdier, der er forskellige og hvor forskellige de er
Vi kan estimere forskellene mellem disse middelværdier med konfidensintervaller for sammenligninger af to grupper
I tilfældet med de tre aldersgrupper vil vi således lave tre konfidensintervaller, hvor vi sammenligner forskelle i middelværdier for grupperne to og to
Styring af overordnet konfidensniveau
Konfidenintervalmetoderne, som netop beskrevet, anvendes primært, når g er lille eller når kun få sammenligninger er af interesse
Hvis konfidensniveauet på 0,95 vedrører ethvert konfidensinterval vi beregner, hvordan kan vi så beregne intervaller så 95% konfidensniveauet gælder hele mængden af intervaller i stedet for hvert enkelt interval?
Metoder, der styrer sandsynligheden for at alle konfidensintervaller vil indeholden den sande forskel på forventningerne kaldes multiple sammenligningsmetoder
Metoden som anvendes her er Tukey metoden og den er designet til at give overordnet konfidensniveau meget tæt på den ønskede værdi (f.eks. 0,95)