Forskningsmetod: Statistik (2,5 hp) Flashcards

Question

Vad är standardavvikelse?

Answer 1

Standardavvikelsen är ett mått på den genomsnittliga variationen i en datamängd, det vill säga hur mycket värdena avviker från medelvärdet.

Answer 2

Normalfördelningen är en viktig statistisk fördelning som är symmetrisk och klockformad. ## Footnote Många variabler i naturen är ungefär normalfördelade, t.ex. längd och IQ är ungefär normalfördelade.

Answer 3

1. **Klargör syftet** med analysen. 2. **Definiera mått/skala**, statistiskt verktyg och stickprov. 3. **Redovisa deskriptiv statistik** för variablerna i stickprovet. 4. **Genomför inferentiell statistik** (om det är målet med analysen). 5. **Tolka** resultaten.

Answer 4

Skalnivån på dina data påverkar vilka statistiska test som är lämpliga att använda: **Lägre skalnivåer (nominal och ordinal)** * Använder oftast *icke-parametriska test*. Kräver inga antaganden. **Högre skalnivåer (intervall och kvot)** * Tillåter användning av *parametriska test*, som kräver mer information om data. Kräver att datan är normalfördelad, med homogen varians.

Answer 5

Ett histogram visar fördelningen av en kontinuerlig variabel genom att dela in datan i intervall och visa antalet observationer i varje intervall.

Answer 6

En barplot visar frekvensen eller antalet observationer för varje kategori av en kategorisk variabel. ##FOOTNOTE T.ex. människor med olika yrken

Answer 7

En scatterplot visar sambandet mellan två variabler genom att plotta varje observation som en punkt i ett diagram.

Answer 8

En boxplot visar medianen, kvartilerna, och extremvärden i en datamängd, vilket ger en överblick över datans fördelning.

Answer 9

Korrelationens styrka mäts från -1 till +1. En korrelation nära +1 indikerar ett starkt positivt samband, nära -1 ett starkt negativt samband, och nära 0 ett svagt eller inget samband.

Answer 10

Pearsons r mäter styrkan och riktningen på ett linjärt samband mellan två variabler.

Answer 11

Spearmans rangkorrelation används när: * Data inte är normalfördelad * När det finns extremvärden * När data är på ordinalskala (data kan rangordnas, avståndet meningslöst, utan absolut nollpunkt).

Answer 12

Det innebär att medelvärdet för stickprovet är lika med populationens medelvärde.

Answer 13

Att estimatet närmar sig parameterns sanna värde när stickprovsstorleken ökar.

Answer 14

En ensidig/riktad hypotes förutsäger riktningen på effekten (t.ex., grupp A kommer prestera bättre än grupp B).

Answer 15

En oriktad/tvåsidig hypotes förutsäger en skillnad men specificerar inte riktningen (t.ex., det *kommer* vara en skillnad i prestation mellan grupp A och B).

Answer 16

Alfanivån är sannolikheten att man *felaktigt* förkastar nollhypotesen. När den egentligen är sann (Typ I-fel). Vanligtvis satt till 0.05 eller 5%.

Answer 17

Att upprepa en studie för att se om resultaten är tillförlitliga och kan generaliseras.

Answer 18

En confounding variabel är en tredje variabel som påverkar både den oberoende och beroende variabeln och kan snedvrida resultaten. | Skensamband: korrelation mellan X, Y är orsakad av en tredje variabel Z. ## Footnote Ex: det positiva samband mellan glassätande och drunkningsolyckor. Ju mer glass som äts, desto fler människor drunknar. Vad är confounding variable? Z i det här exemplet, vädertyp.

Answer 19

Deskriptiv statistik beskriver stickprovets data, medan inferentiell statistik drar slutsatser om populationen utifrån stickprovet.

Answer 20

Om fördelningen av värden är ungefär symmetrisk så är median och medelvärde ungefär detsamma. Om de vanligaste värdena är i mitten är även typvärdet ungefär detsamma.

Answer 21

En skev fördelning är när en datamängd inte är symmetriskt fördelad kring medelvärdet. Datapunkterna är mer samlade på ena sidan av medelvärdet, vilket resulterar i en "svans" som sträcker sig längre åt ena hållet.

Answer 22

Skev fördelning uppstår ofta på grund av: * **Extremvärden**: Några få ovanligt höga eller låga värden drar fördelningen åt ena hållet. * **Variabelns begränsningar**: När en variabel inte kan ha värden under eller över en viss gräns (t.ex. inga negativa värden), kan skevhet uppstå. * **Asymmetrisk population**: Fler observationer samlas på ena sidan av skalan (dålig representativitet hos stickprovet). * **Mätfel eller bias**: Fel i datainsamling eller urval leder till snedvridning.

Answer 23

Om fördelningen är skev så blir median, medelvärde och typvärde ofta ganska olika och kan vara missvisande. ## Footnote * **Positiv skevhet (högerskev)**: Svansen sträcker sig åt höger, mot de högre värdena. Detta innebär att det finns fler värden klumpade ihop på den lägre delen av skalan, och några få höga värden drar upp medelvärdet. Medelvärdet är då *högre* än medianen. Tänk dig till exempel inkomstfördelning där de flesta har lägre till medelinkomster men ett fåtal har extremt höga inkomster. * **Negativ skevhet (vänsterskev)**: Svansen sträcker sig åt vänster, mot de lägre värdena. Här är det tvärtom, med fler värden på den övre delen av skalan och några få låga värden som drar ner medelvärdet. Medelvärdet är då *lägre* än medianen. Ett exempel kan vara resultatet på ett lätt prov där de flesta får höga poäng, men några få får låga.

Answer 24

Statistisk signifikans innebär att det är osannolikt att observera ett resultat lika extremt som det erhållna, om nollhypotesen är sann.

Answer 25

P-värdet är sannolikheten att, om nollhypotesen är sann, erhålla ett *minst* lika extremt resultat som det faktiska resultatet.

Answer 26

Regression är en statistisk metod som används för att modellera sambandet mellan två eller fler variabler. ## FOOTNOTE Enkel linjär regression beskriver sambandet mellan två variabler med en rät linje.

Answer 27

Regressionskoefficienten (b₁) beskriver lutningen på regressionslinjen. Den visar hur mycket den beroende variabeln (y) förändras för varje enhetsökning i den oberoende variabeln (x).

Answer 28

Interceptet (b₀) är det värde där regressionslinjen skär y-axeln. Det representerar det predicerade värdet på y när x är lika med noll.

Answer 29

Minstakvadratmetoden är den metod som används för att hitta den regressionslinje som minimerar summan av variansen mellan de observerade värden och regressionslinjen. ## FOOTNOTE Det är metoden som datorer använder för att visualisera regressionslinjen.

Answer 30

Extrapolering innebär att man använder regressionsmodellen för att predicera värden på den beroende variabeln utanför det observerade intervallet för den oberoende variabeln. Detta bör undvikas då det kan leda till felaktiga prediktioner eftersom modellen inte är testad för dessa värden.

Answer 31

Ett konfidensintervall är där vi med en viss säkerhet kan anta att populationens sanna medelvärde ligger.

Answer 32

T-värdet beskriver storleken på skillnaden mellan gruppernas medelvärden i förhållande till spridningen inom grupperna. Det ger en uppfattning om hur stor skillnaden är, relativt sett. Ett högt t-värde tyder på att skillnaden mellan grupperna är stor i förhållande till variabiliteten. Vad t-värdet säger som p-värdet inte säger: * Storleken på skillnaden mellan gruppernas medelvärden. * Riktningen av skillnaden (positiv eller negativ). Hur avlägset medelvärdena är från varandra i termer av standardavvikelser.

Answer 33

Ett oberoende t-test används för att jämföra medelvärdena i två oberoende grupper (grupper som inte är relaterade till varandra). ## Footnote Oberoende t-test antar intervall- eller kvotskala, oberoende mätningar, normalfördelade populationsvärden och homogena populationsvarianser (lika varians i grupperna).

Answer 34

Ett beroende t-test används för att jämföra två medelvärden från samma grupp (t.ex. mätningar före och efter en behandling). ## Footnote Beroende t-test antar intervall- eller kvotskala, beroende mätningar och normalfördelade populationsvärden.

Answer 35

Icke-parametriska tester är statistiska metoder som inte kräver att data följer en specifik fördelning, som normalfördelning. **När används de?** * När data inte är normalfördelad. * När datan innehåller extremvärden. * När data är ordinal (rangordnad)

Answer 36

Icke-parametriska test har högre **statistisk power** (sannolikhet att *korrekt* förkasta nollhypotesen) och mer korrekt **alfanivå** (sannolikheten att man *felaktigt* förkastar nollhypotesen) i små stickprov när data inte är normalfördelad. De är mindre känsliga för extremvärden och kan användas med data på ordinalskala.

Answer 37

Icke-parametriska test har **lägre statistisk power** (sannolikhet att *korrekt* förkasta nollhypotesen) än parametriska tester när data är normalfördelad. Det finns också färre varianter av icke-parametriska test för mer komplexa analyser.

Answer 38

Chi-två test används för att undersöka samband mellan två variabler på nominalskalenivå, eller om observerade frekvenser skiljer sig från förväntade frekvenser.

Answer 39

Ett Typ I-fel är att förkasta nollhypotesen (H₀) trots att den är sann. Sannolikheten för ett Typ I-fel är lika med alfanivån (α).

Answer 40

Ett Typ II-fel är att behålla nollhypotesen (H₀) trots att den är falsk.

Answer 41

Centrala gränsvärdessatsen säger att fördelningen av medelvärden från upprepade stickprov kommer att närma sig en normalfördelning, *oavsett* den ursprungliga fördelningen, när stickprovsstorleken ökar. ## Footnote Ju mer som stickprovsstorleken ökar, ju mer kommer fördelningen likna en normalfördelning.

Answer 42

En samplingfördelning är en fördelning av en statistik (t.ex. medelvärde) beräknad från alla möjliga stickprov av en given storlek från en population. | Samplingfördelning: fördelningen av medelvärden från olika stickprov. ## Footnote Föreställ dig att du upprepade gånger tar stickprov av samma storlek från en population och varje gång beräknar en statistik, som medelvärdet. Om du plotterar dessa medelvärden får du en fördelning som visar hur ofta olika medelvärden förekommer. Detta är samplingfördelningen. Det hjälper en att förstå vilka medelvärden som är mest sannolika och hur mycket variation du kan förvänta dig på grund av slumpen.

Answer 43

Standardfelet är standardavvikelsen för samplingfördelningen. Det är ett mått på hur mycket stickprovsestimat varierar mellan olika stickprov. ## Footnote Tänk på standardfelet som "medelvärdets standardavvikelse". Precis som standardavvikelsen mäter spridningen av individuella värden kring medelvärdet, mäter standardfelet spridningen av medelvärden från olika stickprov kring populationsmedelvärdet.

Answer 44

* Experimentet designades av statistikern Ronald Fisher. * Det undersökte om en kvinna kunde identifiera om mjölk eller te hällts först i en kopp. * Nollhypotesen (H₀): Kvinnan gissar och har ingen verklig förmåga. * Alternativhypotesen (H₁): Kvinnan kan korrekt avgöra ordningen bättre än slumpen. * Hon fick åtta koppar te (4 mjölk först, 4 te först) och skulle identifiera rätt. * Resultatet analyserades med sannolikhetsberäkningar (hypergeometrisk fördelning). ## Footnote Experimentet introducerade konceptet att med hjälp av statistik avgöra om observerade resultat (som kvinnans förmåga) är verkliga eller en slump. Det är grunden för hur vi i forskning använder statistik för att testa hypoteser. * **Resultat**: Om kvinnan korrekt identifierade alla "mjölk först"-koppar, är sannolikheten för att detta sker av en slump 1/70 (cirka 1,43%). * **Tolkning**: Eftersom p-värdet (1,43%) är lägre än den vanliga alfanivån på 5%, är resultatet statistiskt signifikant. * **Slutsats**: Man kan förkasta nollhypotesen och anta att kvinnan verkligen har förmågan att känna skillnad.

Answer 45

Kognitiv snålhet innebär att människor tenderar att använda minsta möjliga mentala ansträngning när de fattar beslut eller löser problem.

Answer 46

Spearmans rangkorrelationskoefficient (r_s) är ett icke-parametriskt mått på samband mellan två variabler. Den beräknas genom att rangordna värdena för varje variabel och sedan beräkna korrelationen mellan rangerna.

Answer 47

Pearsons korrelationskoefficient antar * Intervall- eller kvotskala * Parvisa mätningar * Bivariat normalfördelade populationsvärden * Ett linjärt samband och inga extremvärden.

Answer 48

Homogen populationsvarians innebär att variansen för de grupper som jämförs är ungefär densamma. ## Footnote En tumregel är att variansen i en grupp ska vara max 3 gånger så stor som variansen i en annan grupp.

Answer 49

En större skillnad i medelvärde mellan grupperna leder till ett större t-värde.

Answer 50

Större standardavvikelser i grupperna leder till ett mindre t-värde.

Answer 51

Ett större antal observationer leder till ett större t-värde.

Answer 52

Parametriska test förutsätter att data är på antingen intervallskala eller kvotskala.

Answer 53

Man kan skapa ett histogram för att visuellt uppskatta fördelningen av en variabel.

Answer 54

Ett robust test är ett test som fortfarande ger tillförlitliga resultat även om vissa antaganden bryts mot i viss utsträckning.

Answer 55

En signifikant effekt är statistiskt säkerställd (inte troligtvis slumpmässig), medan en stark effekt har en stor praktisk betydelse. Signifikans påverkas av stickprovsstorleken.

Answer 56

Effektstorlek är ett mått som kvantifierar styrkan eller storleken av en observerad effekt eller ett samband i en studie, oberoende av stickprovsstorleken. Det hjälper oss att bedöma den **praktiska betydelsen** av resultaten, inte bara om de är statistiskt signifikanta.

Answer 57

Eftersom korrelationskoefficienten redan är standardiserad kan den användas direkt som ett mått på effektstorlek.

Answer 58

Enligt Cohen anses r > 0.1 vara en svag korrelation, r > 0.3 en medelstark korrelation, och r > 0.5 en stark korrelation.

Answer 59

r² (korrelationskoefficienten i kvadrat) representerar hur stor andel av variansen i en variabel, kan förklaras av en annan variabel.

Answer 60

Cohens d är ett mått på effektstorlek för skillnader mellan grupper.

Answer 61

Enligt Cohen anses d > 0.2 vara en liten effekt, d > 0.5 en måttlig effekt, och d > 0.8 en stor effekt. Cohens d kan vara större än 1.

Answer 62

Statistisk power är sannolikheten att ett test korrekt identifierar en sann effekt (klassificerar sanna hypoteser som sanna). ## FOOTNOTE Sannolikheten att man korrekt förkastar nollhypotesen.

Answer 63

För att beräkna sannolikheten att en effekt är sann givet ett positivt testresultat behöver man känna till: 1) Priorn (hur ofta sanna hypoteser testas). 2) Power (hur ofta testet korrekt identifierar sanna effekter). 3) Alfanivån (hur ofta testet felaktigt identifierar falska effekter som sanna).

Answer 64

Minst 80% statistisk power eftersträvas oftast i studier.

Answer 65

1. Utgå från effektstorleken i liknande tidigare studier. ELLER 2. Identifiera den minsta intressanta effektstorleken och beräkna statistisk power utifrån den.

Answer 66

Delta (δ) är en hjälpvariabel som används i beräkningar av statistisk power, och dess värde beror på effektstorleken och det statistiska testet som används.

Answer 67

En högre alfanivå leder till högre statistisk power, eftersom det blir lättare att hitta en sann effekt (men också lättare att göra typ I-fel).

Answer 68

Större stickprov leder till högre statistisk power, då mindre effekter kan bli signifikanta.

Answer 69

Studier som minimerar brus (t.ex. beroende mätningar som kontrollerar för individuell variation) ökar statistisk power.

Answer 70

Större standardavvikelse minskar statistisk power, då det blir svårare att upptäcka signifikanta effekter.

Answer 71

Överskattning av effektstorleken leder till lägre statistisk power än önskat, och därmed minskad sannolikhet att identifiera sanna effekter.

Answer 72

Välkonstruerade experimentella studier krävs för att säkerställa kausala samband.

Answer 73

Extremvärden kan ha en oproportionerligt stor påverkan på resultaten av statistiska test.

Answer 74

En vanlig tumregel är att sätta en gräns tre standardavvikelser från medelvärdet, och ta bort värden som ligger utanför denna gräns. Alternativt kan man använda icke-parametriska test.

Answer 75

Massignifikans uppstår när man utför många statistiska test utan att korrigera för risken att hitta slumpmässiga signifikanta resultat. Detta ökar risken för typ I-fel (falska positiva resultat).

Answer 76

Bonferroni-korrigering är en metod för att korrigera för massignifikans. Man delar alfanivån med antalet utförda test.

Answer 77

Bonferroni-korrigering minskar powern för varje enskilt test, vilket gör det svårare att hitta sanna effekter.

Answer 78

Regressionsfelslutet innebär att man misstolkar naturlig regression mot medelvärdet som en effekt av en intervention. Extrema värden tenderar att vara närmare medelvärdet vid upprepade mätningar, även utan intervention.

Answer 79

Regression mot medelvärdet innebär att extrema värden vid en mätning tenderar att vara närmare medelvärdet vid en upprepad mätning. Detta beror på den slumpmässiga variationen i mätningarna.

Answer 80

Replikationskrisen refererar till svårigheten att replikera (upprepa och få samma resultat i) många publicerade forskningsresultat, vilket tyder på att en stor del av dessa resultat kan vara falska positiva.

Answer 81

Faktorer som bidrar till replikationskrisen inkluderar: 1. Publikationsbias (endast signifikanta resultat publiceras). 2. P-hacking (manipulering av data för att uppnå signifikans). 3. HARKing (Hypothesizing After Results are Known). 4. Felanvändning av statistiska metoder.

Answer 82

Förregistrering (pre-registration) innebär att forskare publicerar sin hypotes och metod innan studien genomförs, vilket minskar risken för p-hacking och HARKing.

Answer 83

Med små stickprov blir endast mycket stora effekter signifikanta, medan med stora stickprov kan även små, eventuellt betydelselösa, effekter bli signifikanta. Därför är det viktigt att kontrollera för effektstorlek.

Answer 84

Praktisk signifikans avser en effekts betydelse i verkligheten, oavsett om den är statistiskt signifikant eller inte. Effektstorlek är ett mått på praktisk signifikans.

Answer 85

Alfanivån är en förutbestämd gräns för att förkasta nollhypotesen (vanligtvis 0.05). P-värdet är sannolikheten att observera data lika extrema som de observerade, givet att nollhypotesen är sann.

Answer 86

Posterior sannolikhet (även kallad "posterior") är sannolikheten att en hypotes är sann givet observerad data, och används inom Bayesiansk statistik. Den tar hänsyn till både data och prior sannolikhet.

Answer 87

Prior sannolikhet är den uppskattade sannolikheten för en hypotes innan man samlar in data. Den används i Bayesiansk statistik.

Answer 88

Stora talens lag säger att ju större ett stickprov är, desto närmare kommer stickprovsmedelvärdet att vara det sanna populationsmedelvärdet (parametern).

Answer 89

T-fördelningen används istället för normalfördelningen när populationens standardavvikelse är okänd och stickprovsstandardavvikelsen används som en skattning, särskilt vid små stickprov.

Answer 90

Spearmans rangkorrelationskoefficient är lämplig att använda när data inte är normalfördelade, innehåller extremvärden, är på ordinalskala, eller uppvisar ett monotont icke-linjärt samband.

Answer 91

För att avgöra om en korrelation är statistiskt signifikant jämförs det observerade r-värdet med ett kritiskt värde från en tabell, baserat på alfanivån och frihetsgraderna. Om det observerade r-värdet är större än det kritiska värdet är korrelationen statistiskt signifikant.

Answer 92

Statistisk signifikans för Pearsons r innebär att det är osannolikt att observera en korrelation lika stark som, eller starkare än, den erhållna i stickprovet om det inte finns någon korrelation i populationen.