Föreläsning 1 - p-värde, bayesfaktorn, icke-parametrisk statistik Flashcards
Population
alla medlemmar i en viss kategori (ex. alla studenter vid UU)
Stickprov (sample)
En delmängd av populationen
Slumpmässigt stickprov
När slumpen avgör vilka som kommer tillhöra stickprovet (representativt urval)
Bekvämlighets-stickprov/urval
Välja ut deltagare utifrån deras tillgänglighet för forskaren
Populationsmedelvärde
Sanna medelvärdet för populationen
Hur förhåller sig populationsmedelvärdet och stickprovsmedelvärdet till varandra?
- Er urval av populationen kommer ha ett medelvärde som skiljer sig något från populationsmedelvärdet
- Medelvärdet för en mängd olika stickprover kommer vara normalfördelade med ett medelvärde nära populationsmedelvärdet
Parameter
En sammanfattande kvantitet (en siffra) som beskriver populationen - t.ex. medelvärde eller standardavvikelsen i en population
Statistika
En sammanfattande kvantitet (en siffra) som beskriver stickprovet
- Vissa statistika i stickprovet är meningsfulla estimatorer för populationen ex. medelvärde, standardavvikelse och varians
Deskriptiv statistik
Sammanfattning av stickprovsdata med hjälp av olika statistika (medelvärde, standardavvikelse, median osv)
Inferensstatistik
Användning av stickprovsdata för att dra slutsatser om populationen (göra en inferens)
- T.ex. hypotesprövning
Hypotesprövning
En kvalificerad gissning avs någon kvantifierbar egenskap i populationen. Används för att dra slutsatser om huruvida det man observerat i stickprovet också gäller för populationen eller om det är mer troligt att stickprovsresultatet beror på slumpen. För att göra detta formulerar man två motsatta hypoteser, nollhypotes och alternativhypotes.
Alternativhypotes (H1)
- Den hypotes man “tror på”
- Det finns en skillnad mellan grupper eller betingelser i populationen avs BV, alt det finns ett samband (en korrelation) mellan två variabler i populationen
Nollhypotes (H0)
- Motsatsen till alternativhypotesen
- Det finns ingen skillnad mellan två grupper eller betingelser avs någon BV, alt inget samband mellan två variabler i populationen
Parametrisk statistik (när används det och vad är förutsättningarna?)
- Används då det är möjligt att estimera parametrar, dvs populationens medelvärde och standardavvikelse från stickprovet (dvs om vi har data på kvot eller intervallskala)
- Förutsätter approximativ normalfördelning då stickprovet är litet
- Förutsätter lika varians mellan grupper (homogen varians)
Kvotskala
Svarsalternativen är rangordnade med specifika avstånd till varandra och det finns en given nollpunkt
Intervallskala
Svarsalternativen är rangordnade och har specifika avstånd till varandra men det finns ingen given nollpunkt
Rang/ordinalskala
Svarsalternativen är rangordnade men avstånden mellan svarsalternativen kan inte avgöras
Kategori/nominalskala
Svarsalternativen saknar rangordning, räkna antal i olika kategorier
Normalfördelningen
När det flesta mätvärdena ligger kring medelvärdet och fördelningen är symmetrisk kring medelvärdet, dvs att det finns lika många medelvärden över som under medelvärdet.
Normalfördelningen är helt definierad av medelvärdet och standardavvikelsen.
Negativ snedfördelning
- Har ett negativt skewnessvärde eller är snedfördelad åt vänster (lång svans åt vänster)
Positiv snedfördelning
- Har ett positivt skewnessvärde eller är snedfördelade åt höger (lång svans åt höger)
Positiv/låg kurtosis
- Leptokurtic
- Fördelning med hög topp där de flesta värdena ligger nära medelvärdet och väldigt få avviker
Negativ/hög kurtosis
- Platykurtic
- Platt fördelning där flera värden än förväntat ligger längre ifrån medelvärdet och färre precis kring medelvärdet
Standardfelet
- Avvikelsen mellan medelvärden
- Mått på den spridning av medelvärden i ett antal stickprov som uppstår när stickprov upprepade gånger dras ur samma population
- Förkortas SE eller SEM
Standardavvikelse
- Avvikelsen mellan individer i ett stickprov
- Beskriver spridningen på mätvärden
- Förkortas s
Centrala gränsvärdessatsen (CG)
- Då stickprovet är tillräckligt stort kommer fördelningen över stickprovsmedelvärden närma sig normalfördelningen oavsett hur stickprovets fördelningen ser ut
- Vad tumregel: när n (varje enskilt stickprov) ungefär är större än 30
Samplingsfördelning
Fördelning av olika stickprovs medelvärden
Vilken huvudsaklig fråga besvarar klassisk inferens?
- Är en funnen effekt i stickprovet sann i populationen?
- Hur säker kan vi vara att en skillnad mellan grupper i ett stickprov är sann i populationen?
Vad utnyttjar inferensstatistik?
Att vi från ett stickprov med storlek n och standardavvikelse s kan beräkna SE över normalfördelade medelvärden (under antagandet att H0 är sann)
Ronald A. Fisher
Signifikanstestning
- Antag att H0 är sann
- Beräkna p-värde: sannolikheten att erhålla ett resultat som är minst så extremt som det faktiskt erhållna resultatet om H0 vore sann
Jerzy Neyman och Egon Pearson
Hypotestestning
- H1 som motpol till H0
- a-nivå = signifikansnivå är förväntad frekvens av typ I fel (att dra felaktig slutsats att H1 är sann)
- B- nivå är förväntad frekvens typ II fel (missa att H1 är sann)
Tolkning av ett litet p-värde
- Antingen har en osannolik händelse inträffat eller så är H0 falsk
- Ju mindre p desto starkare evidens mot H0
- P är en egenskap hos data
Neyman-Pearson’s hypotestestning
- Dikotom beslutstrategi för att välja mellan H0 och H1
- Involverar inget p-värde då kriteriet bestäms av alfa-nivån
- Typ I- och typ II fel
Risken för typ I-fel
- Ska vara lika med alfanivån som vi själva väljer
- T.ex. 5% vilket innebär att om nollhypotesen är sann så kommer vi av misstag att förkasta den och göra typ I-fel i 5% av fallen (sannolikheten för att göra ett typ I-fel, givet att nollhypotesen är sann, är lika med 5%)
Risken för typ II-fel
- Sannolikheten för att vi inte får ett signifikant resultat trots att nollhypotesen är falsk
- Kallas beta
Vilka faktorer minskar B?
- En högre alfa-nivå
- Fler undersökningsdeltagare
- Större styrka på den oberoende variabeln
- Mindre felvarians
- Beroende mätningar
Null hypothesis significance testing (NHST)
En hybrid mellan Fisher’ss och Neyman-Pearsons metoder som används numera
- Presentera p-värden som ett kontinuerligt index mot H0
- Tillämpa sedan en dikotom beslutsstrategi enl Neyman-Pearson: behåll H0 om p > a, förkasta H0 om p < a
Hur skiljer sig t-fördelningen från normalfördelningen?
- Positiv kurtosis (tjockare svansar)
- Används när man har ett litet stickprov eller inte vet populationens standardavvikelse
P-värde
Sannolikheten att erhålla ett resultat som är minst så extremt som det faktiskt erhållna resultatet om H0 vore sann
a-nivå
Frekventistiskt mått på den förväntade frekvensen av typ 1-fel i det långa loppet (felaktigt förkasta H0)
- Förbestämt tröskelvärde för när man kan förkasta nollhypotesen
Vad är power och hur kan power öka?
Power = sannolikheten att finna en sann effekt
Ökar med:
- a-nivå (på bekostnad av ökad andel typ 1-fel, felaktigt anta en sann effekt)
- effektstorlek (standardiserad effektstorlek kan ökas med ökad mätprecision)
- Stickprovsstorlek
Icke-standardiserade effektstorlekar
Effektstorlekar som är beroende av måttenheter
Ex:
- Procentuell förändring
- Skillnad i medelvärden
Standardiserade effektstorlekar
Effektstorlekar oberoende av måttenheter (till exempel skillnader mätt i standardavvikelser) som bättre kan jämföras
Olika standardiserade effektmått används för olika inferenstest och är inte direkt jämförbara, men kan oftast konverteras
Ex:
- Cohen’s d
- Pearsons r
- Spearman’s rho
Nämn tre olika standardiserade effektstorlekar, när de används och tumregler för tolkning
Cohens d
- Effektstorlek vid t-test
- d = 0.2 small, 0.5 medium, 0.8 large
Eta2
- Skillnader eller interaktioner vid ANOVA
- Eta2 = 0.01 small, 0.06 medium, 0.14 large
Pearsons’s r
- Korrelationer mellan två variabler
- r = 0.1 small, 0.3 medium, 0.5 large
Bayes teorem
- Beskriver ett optimalt sätt att dra slutsatser från osäker information, och beräknar betingade sannolikheter av typen:
Vad är sannolikheten för A givet att B inträffat (är sann)? - skrivs formellt p(AIB)
Kan också skrivas som P(HIE) - sannolikheten att hypotesen (H) är sann baserat på evidens
Bayesfaktorn och tolkning av den
- Härledd från Bayes teorem
- Ett direkt mått på stödet FÖR eller EMOT en statistisk hypotes (jfr p-värdet som används som evidens/index mot H0)
- BF jämför sannolikheten för data under en hypotes med sannolikheten för data under en annan hypotes (ett högt värde på BF indikerar stark stöd för hypotesen i jämförelse med alternativet)
Tolkning:
- Hur mycket mer sannolikt, eller mindre sannolikt, är resultatet givet H0 relativt H1
- T.ex. BF10 = 5, resultatet är 5 ggr mer sannolikt givet H1 än givet H0
- T.ex. BF10 = 1/5 = 0.2, resultatet är 5 ggr mer sannolikt givet H0 än givet H1
-
Probability vs likelihood
Probability
- Hur sannolikt det är att något ska inträffa (med en fast fördelning)
Likelihood
- Specialfall av BF då båda hypoteser är punkthypoteser (fördelning som är rörlig)
Prior probabilities
- Används inom bayesiansk statistik men inte inom frekventisk
- Den sannolika fördelningen som beskriven “the lilelihood” för ett givet värde innan någon data samlats in
- T.ex. 50% för klave
- Kan baseras på tidigare forskning, subjektiv expertis eller resonabla antaganden som baseras på studiens kontext
Posterior probabilities
- Sannolikheten som kommer ifrån att uppdatera prior probabilitet med ny evidens
- Den nya evidens refereras ofta till som likelihood
Två skillnader mellan p-värdet och BF
- BF har en direkt tolkning som kvoten mellan sannolikheter att erhålla resultatet givet de två hypoteserna, medans p-värdet inte har en enkel tolkning (är ett index mot H0)
- BF kan variera mellan noll och oändlighet. P-värdet mellan noll och ett.
Vad är icke-parametrisk inferens?
- Metoder för data som är på nominalskalenivå (kategorier) eller ordinalskala (rangskala) - alltså när medelvärde och standardavvikelse inte är meningsfulla mått
- Små stickprov med ej normalfördelad data (skewness och kurtosis avviker mycket från noll)
- När variansen skiljer sig stort mellan betingelserna
Vad är för- och nackdelar med icke-parametrisk inferens?
Fördelar:
- I stort sett fria från restriktioner, kan nästan alltid användas
- Ex. vi små stickprov med skeva fördelningar
- Okänsligt för extremvärden i data
Nackdelar:
- Mindre power
Test som används vid inferens från nominaldata (kategori)
- Chi2- analys (pearson) - mest använd
- Fisher’s exakta test
- Binomialtest
- Odds ratio
Test som används vid inferens från ordinaldata (rang)
Vid skillnader:
- Wilcoxon sign rank test (beroendedesign, inomgruppsdesign, ekvivalent med parametrisk inomgrupps t-test)
Vid korrelationer:
- Kendall’s tau
- Spearman’s p (rho), samma som parametriskt pearson’s r, men beräknad på ranker
Wilcoxon signed rank test
Ställer frågan:
- Skiljer sig stickprovets median från populationens median?
- Är det någon skillnad mellan betingelser avs medianer?
Inte så känslig för extrema värden
Statistika: T- eller W-värde
Möjliga orsaker till replikationskrisen
- Publikationsbias
- Låg statistisk power
- P-value hacking