FORSKNINGSMETODIK STATISTIK Flashcards

Question 1

Q

Vad är deskriptiv statistik?

Answer

A

sammanfattande värden centralmått ex aritmetiskt medelvärde, typvärde, median, z-värden, korrelation, spridningsmått (variationsbredd, perceptiler/kvartiler, standardavvikelse/varians), grafisk redovisning av variablerna ex barplot (frekvensgraf), histogram (frekvensgraf), boxplot, scatterplot

används för att beskriva variablerna i ett stickprov
ska redovisas även om målet är inferentiell statistik
viktigt att få en bild av stickprovet (finns det spridning? uppenbara mätfel? skillnader i grupper?)

Question 2

Q

Vad är inferentiell statistik?

Answer

A

statistiska test, hypotestestning, p-värden, konfidensintervall

dra slutsatser om populationen utifrån stickprovet

Question 3

Q

Vad är en parameter?

Answer

A

ett “sant” värde i populationen, ex sanna medelvärdet för alla studenter i Sverige (praktiskt “omöjligt” att veta ett sant värde pga kan inte testa på alla invånare + ovidkommande variaber)

Question 4

Q

Vad menas med estimat?

Answer

A

värdet vi observerar i stickprovet ex medelvärde för deltagare (värdet vi estimerar i stickprovet)

Question 5

Q

Vad är ett spridningsmått?

Answer

A

mäter hur utspridda värdena på en variabel är
variationsbredd: skillnad mellan högsta och lägsta värdet
percentiler/kvartiler: ett sätt att dela upp data i en serie i 4 lika stora delar, hjälper oss att se hur data är fördelad
standardavvikelse/varians: mått på genomsnittlig variation

standardavvikelse beskriver hur mycket data i ett dataset varierar kring medelvärdet, desto högre standardavvikelse ju mer utspridda värden. Låg= desto närmare är det medelvärdet
relevant pga: kan dra mer detaljerade slutsatser om data

Question 6

Q

vad innebär att standardisera?

Answer

A

omvandla data så de har ett gemensamt medelvärde och gemensam standardavvikelse.
Relevant pga: gör det möjligt att jämföra olika data på samma skala (gör dock inte data normalfördelad om den inte var det från början???

Question 7

Q

Vad menas med z-värden?

Answer

A

konverterar till samma enhet, mått som beskriver hur långt ifrån medelvärdet en observation befinner sig i data uttryckt i antal standardavvikelser. Ett z-värde på 0 = samma som medelvärdet, z-värde på -1 = ligger 1 standardavvikelse under medelvärdet

används för att standardisera värden och jämföra dem även om det är variabler med olika skalor/enheter
ju större negativt/positivt z-värde ju längre är observationen från medelvärdet
det är 95% chans att få ett z-värde mellan -&+ 1.96
används pga lättare att jämföra olika observationer

Question 8

Q

Vad innebär normalfördelning?

Answer

A

vanlig fördelning som beskriver hur data är fördelat runt ett medelvärde, flesta observationer ligger kring medelvärdet och färre länge ifrån. symmetrisk klockformad kurva

medelvärde, median och typvärde är samma i en normalfördelning
avståndet från medelvärdet mäts i standardavvikelser ca 68% av värdena ligger inom en standardavvikelse från medelvärde och 95% inom två standardavvikelser (chattis)
relevant pga: gör det möjligt att använda bra statistiska verktyg ex hypotesprövning, konfidensintervall eftersom det bygger på att data är normalfördelade, en grundsten i statistik för att dra säkra slutsatser om data

Question 9

Q

Vad är korrelation?

Answer

A

mäter hur 2 variabler är relaterade till varandra, ett mått som beskriver styrka och riktning av sambandet mellan dem.

relevant pga: grundläggande verktyg i sttistik, identifierar och mäter samband mellan variabler, kan ge värdefulla insikter, förutsägelser, kan vara utgångspunkt för ytterligare forskningsfråga

Question 10

Q

Pearsons produktmomentkorrelationskoefficient r?

Answer

A

mäter styrkan på linjära samband mellan variabler, går från -1 till +1. 0 = inget samband. Mäter endast linjära samband, påverkas mycket av extremvärde, kräver tillräckligt med variation i båda variabler (parametriskt test)

Question 11

Q

Spearmans rangkorrelationskoefficient rs?

Answer

A

mäter sambandet mellan två variabler baserat på deras rangordning, används när data inte är normalfördelad (alltså inte uppfyller kraven för pearsons r), påverkas mindre av extremvärden, kan upptäcka både linjära och icke linjära samband. (icke-parametriskt test)

Question 12

Q

Vad är regression?

Answer

A

undersöker hur en variabel påverkas av en eller fler andra variabler och används för att predicera framtida värden. Linjär regression är den enklaste formen där sambandet mellan variablerna visas med en rak linje.

Ex: undersöker sambandet mellan antalet timmar man studerar och provresultat, kan vi med hjälp av regression försöka förutsäga ditt resultat baserat på hur många timmar du studerar. (beror på pearons r och därmed också påverkad av extremvärden)
Regression hjälper oss att analysera och förutsäga hur en variabel påverkas av andra variabler

Question 13

Q

Vad menas med väntevärdesriktigt?

Answer

A

en väntevärdesriktig skattning ger i genomsnitt “rätt” värde av en parameter och är fri från systematiska fel.
- Ex: uppskatta medelåldern i Uppsala, tar stickprov på 100 pers och beräknar genomsnittsåldern, väntevärdesriktighet: om stickprovsmedelvärdet i genomsnitt stämmer överrens med sanna medelåldern i stan är metoden väntevärdesriktig. Icke-väntevärdesriktig: om metoden systematistk ger en felaktig ålder (obs ex från chat)

Question 14

Q

Vad är statistisk signifikans?

Answer

A

ger data stöd för att förkasta nollhypotesen?

mäts ofta med ett p-värde som anger sannolikheten att få det resultat vi fått, eller ett mer avvikande och extremt utfall - anger sannolikheten för resultatet om nollhypotesen är “sann”. Om p-värde < 0,05 förkastas H0.
Omformulera?

Question 15

Q

Vad är alfanivå?

Answer

A

förutbestämd gräns för statistisk signifikans i ett test ofta 0,05. Om man höjer alfanivå = kan det leda till mer risk för typ I-fel

Question 16

Q

Vad menas med samplingfördelning?

Answer

A

Samplingfördelning: är fördelningen av ett statistiskt mått (ex medelvärde) baserat på många olika urval stickprov från samma population, den beskriver hur detta mått varierar mellan olika stickprov som man drar från populationen.
- Ex tar många stickprov med 50 pers från en population och beräknar medelvärdet för varje stickprov - medelvärdena bildar en samplingfördening

relevant pga: kan uppskatta hur pålitligt stickprovet är (ju mindre standardfel desto mer sannolikt att stickprovsmedelvärdet är nära populationens medelvärde). Hjälper oss förstå variation, möjliggör att dra slutsatser, beräkna KI

Question 17

Q

Vad är standardfelet SE?

Answer

A

standardavvikelser i samplingfördelningen. stort SE = tyder på mer osäkerhet.

relevant pga: hjälper bedöma osäkerhet
(standardavvikelse: enskilda observationer för variablerna vi mäter varierar
standardfel: enskilda estimat mellan stickprov varierar)

Question 18

Q

Vad säger stora talens lag?

Answer

A

desto större stickprov desto närmare kommer stickprovsmedelvärdet att vara till det sanna medelvärdet.

Question 19

Q

Vad säger centrala gränsvärdessatsen?

Answer

A

medelvärdet av ett tillräckligt stort stickprov liknar normalfördelning (oavsett hur populationen ser ut) vilket är en viktig förutsättning för att göra statistiska test

Question 20

Q

Vad är konfidensintervall?

Answer

A

95% konfidensintervall: om vi räknar ut 95% konfidensintervall i många olika stickprov kommer 95% av de intervallen att innehålla det sanna medelvärdet. “avgränsar” ett intervall där vi tror det sanna värdet för populationen ligger. visar den statistiska osäkerheten kring medelvärdena.

relevant pga: visar osäkerhet, kan användas för hypotestestning genom test av H0, ligger värde inom KI? Om utanför finns stöd för att förkasta H0 - förklara mer?

Question 21

Q

Vad menas med t-värde?

Answer

A

används istället för z-värden när vi ex skattar standardfelet med stickprovets standardavvikelse (Tdf= t-värde med en viss frihetsgrad) ett mått på skillnad mellan medelvärden i grupper, används i t-test

Question 22

Q

Vad är t-test? Oberoende + beroende?

Answer

A

testar om ett medelvärde skiljer sig från ett visst värde (ofta 0) används ofta för att testa om två medelvärden skiljer sig från varandra. testa skillnader mellan medelvärden ex m av en behandlingsgrupp vs kontrollgrupp.

Oberoende t-test: används för att jämföra två olika grupper (mellangruppsdesign) ex jämför medelvärden mellan behandlingsgrupp och kontrollgrupp
beroende t-test: används för att jämföra två olika mätningar inom samma grupp (inomgruppsdesign) (brukar ha högre power än oberoende t-test) ex jämför medelvärden mellan samma grupp före vs efter behandling
relevant pga: möjliggör jämförelsen av skillnad mellan grupper vilket är centralt för mycket forskning, kan testa hypoteser, objektiv metod?

Question 23

Q

Vad är nollhypotestestning/hypotesprövning? Vad är en riktad/ensidig och oriktad/tvåsidig hypotes?

Answer

A

metod för att avgöra om det finns tillräckligt stöd i data för att förkasta nollhypotes. Hypotesprövning görs för att jämföra en skillnad mellan 2 medelvärden och se om det kan generaliseras till populationen från mätningar gjorda i stickprovsundersökningar, man vill se om skillnaden är signifikant skild från noll (ingen skillnad)

Ensidig/riktad: man vill veta om en effekt i en riktning (ex medelvärdet är högre/lägre än 0) lägre kritisk gräns
tvåsidig/oriktad: man vill veta om det finns en effekt (ex medelvärdet är inte 0, inget om riktning)

Question 24

Q

Vad är typ-I fel och typ-II fel?

Answer

A

Typ-I fel: förkasta H0 trots att H0 gäller (sannolikheten att göra det = alfanivån)
Typ-II fel: behålla H0 trots att H1 gäller (sannolikheten att göra det påverkas av stickprovsvstrlk, effektstrlk, felvarians, beroende mätningar)

Question 25

Q

Vad är ett parametriskt test?

Answer

A

Ex: pearsons r, oberoende t-test och beroende t-test, ANOVA
- antar att data antar en viss fördelning ex normalfördelning
- kraftfulla och kan ge exakta resultat men kräver att vissa antaganden är uppfyllda - större chans att upptäcka verkliga skillnader/effekter
- kan hantera större datamängder

Question 26

Q

Vad är ett icke-parametriskt test?

Answer

A

Ex: spearmans rangkorrelationskoefficient, Mann-Whitney U, Wilcoxon
- kräver inte att data antar en viss fördelning, uppfyller inte krav som för parametriska tester
- används när: data inte är normalfördelad, innehåller extremvärden (snedvridet), mäts på lägre skalnivåer, liten urvalstorlek

Question 27

Q

Vad är Mann-Whitney U?

Answer

A

ett icke-parametriskt test, jämför två grupper på en gemensamt rangordnad variabel, tester om rangerna i en grupp tenderar att vara högre än i en annan

(icke-parametriskt alternativ motsvarande oberoende t-test)

Question 28

Q

Vad är Wilcoxon?

Answer

A

ett icke-parametriskt test,
- jämför två mätningar (ex före/efter) på samma deltagare där differensen mellan mätningarna rangordnas. Alla differenser rangordnas tillsammans utan att bry sig om ifall det är positiva eller negativa värden

(icke-parametriskt alternativ motsvarande beroende t-test)

Question 29

Q

Vad är Chi-två test?

Answer

A

ett icke-parametriskt test
- används om data bara går att gruppera, alltså är på nominalskala (båda variabler man mäter behöver vara på nominalskala)
- används om man vill titia på samband mellan två variabler

Question 30

Q

ANOVA?

Answer

A

variationsanalys
- används för att se effektskillnader mellan fler än 2 grupper och/eller effektskillnader pga 2 eller fler OBV
- Oberoende envägs ANOVA: motsvarande oberoende t-test
- Beroende envägs ANOVA: motsvarande beroende t-test
- Flervägs ANOVA: kan vara inom/mellangruppsdesign, har två eller fler OBV med två eller fler betingelser

Question 31

Q

Vad menas med effektstorlek?

Answer

A

standardiserade mått på styrkan hos effekter, olika test har olika sätt att beräkna effektstorlek. Typer av effektstorlekar: Cohens D mäter skillnaden mellan 2 gruppers medelvärden. Pearsons r mäter styrka och riktning av sambandet mellan 2 variabler.
relevant pga insikt om praktiska betydelsen av resultatet

Question 32

Q

Vad är Cohens D?

Answer

A

ett mått på effektstorlek som används för att beskriva skillnader mellan 2 gruppers medelvärden.

Question 33

Q

Vad menas med statistisk power? Vilka faktorer påverkar statistisk power?

Answer

A

Ett mått på hur troligt det är att ett test ska upptäcka en verklig effekt när den finns. Hög power= testet har hög förmåga att upptäcka sanna effekter. Enklaste sättet att öka power= ha större stickprov. (vanlig nivå brukar ligga på 80%= 80% sannolikhet att upptäcka verklig effekt)

Faktorer som påverkar statistisk power:
- alfanivå: högre alfanivå - ta mindre stickprovs-effekter som bevis för H1 därmed blir et lättare att hitta sann effekt= högre power
- stickprovsstrlk: större stickprov = mindre effekter kan bli signifikanta= högre power
- studiedesign: bra design som sorterar bort brus ger högre power
- typ av test: parametriska test= ofta högre power
- effektstorlek i population: större effektstorlek = högre power (kan ej kontrollera)
- standardavvikelse i populationen= större standardavvikelse = estimaten varerar mer - gör det svårare att upptäcka signifikanta effekter = lägre power (kan ej kontrollera)

Question 34

Q

Vad menas med statistiska fallgropar? Nämn några exempel

Answer

A

handlar om ex misstag/felaktiga som kan hända när vi ska göra statistiska tester, vilket kan leda till ex vilseledande slutsatser.

samband och kausalitet: behöver välkonstruerade studier för att faktiskt dra kausala slutsatser, finns risk att förväxla de båda
extremvärden: problem för alla parametriska test eftersom de påverkar testen/resultaten mycket (lösning är att ta bort värden och använd icke-parametriska test)
massignifikans: problem som uppstår när man gör många statistiska tester samtidigt vilket ökar risken för “falska positiva” resultat. Kan leda till snedvridningar i litteraturen. (lösning att rapportera det vi gör, högre transparens, lägre alfanivå, omfattande studier, stickprov osv) + bonferroni-korrigering
små/stora stickprov: med små stickprov blir bara stora effekter signifikanta (vilket kan leda till en överskattning av effektstorlek ex om bara signifikanta resultat publiceras) kan också leda till att vi missar att upptäcka en verklig effekt
regressionsfelslutet: När man tror att ett extremvärde i en observation kommer följas av en annan extrem observation i samma riktning, när det egentligen är mer sannolikt att en extrem observation följs av en mer genomsnittlig observation/ återgår till det ”normala”.
Exempel från chat GPT: en patient med extremt hög smärtnivå får medicin, vid nästa uppföljning har smärtan minskat. Ett regressionsfelslut skulle kunna vara att anta att hela smärtminskingen beror på behandlingen när det egentligen kan vara att smärtan naturligt skulle ha minskat pga (regression mot medelväret) - smärtan var extrem vid första tillfället och tenderar att röra sig mot genomsnitt över tid.