Omtenta Forskningsmetod: Statistik (2,5 hp) Flashcards

1
Q

Vad är ett z-värde?

A

Ett z-värde är ett mått på hur långt ifrån medelvärdet ett visst värde ligger i en normalfördelning, uttryckt i standardavvikelser

Z-värdet används för att standardisera data (omvandlar data till en gemensam skala) och jämföra värden från olika fördelningar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vad är samplingfördelning?

A

Samplingfördelning är en fördelning av en statistik (t.ex. medelvärde) beräknad från flera lika stora stickprov av en population.

Samplingfördelning är fördelning av specifik statistik från flera stickprov av samma population.

Samplingfördelning: fördelningen av medelvärden från olika stickprov.

Föreställ dig att du upprepade gånger tar stickprov av samma storlek från en population och varje gång beräknar en statistik, som medelvärdet. Om du plotterar dessa medelvärden får du en fördelning som visar hur ofta olika medelvärden förekommer från samma population. Detta är samplingfördelningen.

Det hjälper en att förstå vilka medelvärden som är mest sannolika och hur mycket variation du kan förvänta dig på grund av slumpen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vad är ett estimat?

A

Ett estimat är ett uppskattat värde för en populationsparameter (det sanna värdet för populationen) baserat på data från ett stickprov.

Estimat är ett sätt att gissa värdet för en parameter när hela populationen inte är undersökt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vad är en parameter?

A

En parameter är det sanna värdet för en population, t.ex. hela medellängden för hela populationen, eller

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Vad är skillnaden mellan en parameter och ett estimat?

A

En parameter är det sanna värdet hos en population, ett estimat är värdet hos ett stickprov från populationen (en gissning/approximation av det sanna värdet).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hur påverkar standardavvikelsen konfidensintervallets bredd?

A
  • Ett stickprov med liten standardavvikelse tyder på att variansen också är liten.
    | Stickprovsmedelvärdena varierar alltså inte lika mycket kring det sanna medelvärdet.
    | Konfidensintervallet blir alltså mindre då variansen är mindre.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Vad är standardfelet (SE)?

A

Standardfelet är standardavvikelsen för samplingfördelningen. Det är ett mått på hur mycket stickprovsestimat varierar mellan olika stickprov.

Tänk på standardfelet som “medelvärdets standardavvikelse”. Precis som standardavvikelsen mäter spridningen av individuella värden kring medelvärdet, mäter standardfelet spridningen av medelvärden från olika stickprov kring populationsmedelvärdet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hur påverkar stickprovets storlek konfidensintervallets bredd?

A
  • Ett stort stickprov gör testet mer representativt för populationen
    | Medelvärdet i stickprovet ligger då närmare det sanna medelvärdet i populationen.
    | Detta leder till att konfidensintervallet blir mindre (spannet för det sanna värdet blir mindre).

Ett litet stickprov gör att medelvärdet riskerar att ha större avvikelse från dess sanna medelvärde. Konfidensintervallet blir också större då spannet för det sanna värdet blir större.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vad är regressionskoefficienten (b₁)?

A

Regressionskoefficienten (b₁) beskriver lutningen på regressionslinjen. Den visar hur mycket den beroende variabeln (y) förändras för varje enhetsökning i den oberoende variabeln (x).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vad är ett p-värde?

A

Ett p-värde beskriver sannolikheten att få det resultat man har, eller ett mer extremt resultat, om nollhypotesen trots allt skulle vara sann.

P-värde = 0.05, eller mindre är statistiskt signifikant

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hur kan man använda konfidensintervallet för att ta reda på om medelvärdet av stickprovet skiljer sig från noll?

A
  • I stickprovet så har man ett estimat av vad medelvärdet i populationen är.
    | Genom att observera konfidensintervallet kring estimatet, så kan man se ifall konfidensintervallet inkluderar nollpunkten.

Ifall konfidensintervallet inkluderar nollpunkten så kan man inte med säkerhet säga att medelvärdet inte kan vara noll, men om det inte gör det så är sannolikheten stor att medelvärdet inte är noll.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vad är en nollhyptes (H₀)?

A

En nollhypotes (H₀) är antagandet att det inte finns någon effekt eller skillnad i ens resultat.

Nollhypotesen är den vi testar och försöker motbevisa i statistiska analyser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vad är en alternativhypotes (H₁)?

A

En alternativhypotes (H₁) är antagandet att det finns en effekt eller skillnad i ens resultat.

Om nollhypotesen förkastas (p-värde ≤ 0,05), tyder resultaten på att alternativhypotesen är mer sannolik.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vad är t-test?

A

Ett t-test är en statistisk metod som används för att avgöra om det finns en signifikant skillnad mellan medelvärdena i två grupper (oberoende t-test/beroende t-test) eller mellan ett stickprovs medelvärde och ett populationsmedelvärde (one-sample t-test).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Vad är ett oberoende t-test?

Vad för antaganden krävs?

A

Ett oberoende t-test används för att jämföra medelvärden från två separata grupper som inte är relaterade till varandra.

Exempel: Jämförelse av blodtryck mellan två grupper som tar olika mediciner (Grupp 1 = Medicin A, Grupp 2 = Medicin B).

Parametriskt test.

Oberoende t-test antar:

  • Intervall- eller kvotskala (datavärdena måste kunna mätas på en skala där skillnader har meningsfulla tolkningar).
  • Oberoende mätningar (individer i en grupp påverkar inte individer i den andra gruppen).
  • Populationen eller stickprovet antas vara normalfördelat (värdena i populationen eller stickprovet ska följa en normalfördelning).
  • Homogena populationsvarianser (lika spridning i båda grupperna).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Vad är ett beroende t-test?

Vad för antaganden krävs?

Parametriskt test

A

Ett beroende t-test används för att jämföra medelvärden från samma grupp vid två olika tidpunkter.

Exempel: Före- och eftermätningar av vikt för samma personer efter ett träningsprogram.

Parametriskt test.

Beroende t-test antar:

  • Intervall- eller kvotskala (datavärdena måste kunna mätas på en skala där skillnader har meningsfulla tolkningar).
  • Beroende mätningar (samma individer mäts två gånger, eller mätningar är kopplade på något sätt).
  • Populationen eller stickprovet antas vara normalfördelat (värdena i populationen eller stickprovet ska följa en normalfördelning).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Vad är centralmått?

A

Ett centralmått beskriver den övergripande positionen eller “tyngdpunkten” i en datamängd. Vanliga centralmått är typvärde, median och medelvärde.

Centralmått ger en sammanfattning av data för att förstå det typiska värdet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Vad är ett typvärde?

A

Ett typvärde är det värde som förekommer flest gånger i en datamängd.

Beskriver vilket värde som är mest representativt eller vanligast i en datamängd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Vad är median?

A

Median är det mittersta värdet i en sorterad lista av data.
T.ex. i [1, 3, 5], är 3 medianen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Vad är ett medelvärde?

A

Ett medelvärde är det genomsnittliga värdet i en datamängd, man adderar alla värden och dividerar summan med antalet värden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Vad är regression?

A

Regression är en statistisk metod som används för att modellera sambandet mellan två eller fler variabler.

Regression används för att förstå sambandet mellan t.ex. studietimmar (X) och provresultat (Y).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Vad är interceptet (b₀) hos regressionslinjen?

A

Interceptet (b₀) är det värde där regressionslinjen skär y-axeln. Det representerar värdet på y när x är lika med noll.

Interceptet kan visa startvärdet, som en persons grundlön innan bonusar läggs till.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Vad är en regressionslinje?

A

En regressionslinje används för att visa sambandet mellan två variabler och för att förutsäga värdet på den beroende variabeln (y-axeln) baserat på värdet av den oberoende variabeln (x-axeln).

Lutningen på regressionslinjen visar om sambandet är positivt (y ökar när x ökar) eller negativt (y minskar när x ökar), samt hur starkt detta samband är.

Interceptet (b₀) visar var linjen skär y-axeln, det vill säga värdet på y när x är 0.

Exempel: Om vi undersöker sambandet mellan antal studietimmar (x) och provresultat (y), kan regressionslinjen hjälpa oss att förutse provresultatet för en elev som studerar ett visst antal timmar.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Vad är en korrelation?

A
  • En korrelation mäts från -1 till +1.
  • En korrelation nära +1 indikerar ett starkt positivt samband, nära -1 ett starkt negativt samband, nära 0 ett svagt eller inget samband.
  • Korrelationen mäter endast styrkan (-1 ↔ +1) och riktningen (+/-) och kan inte predicera värdet på någon av variablerna m.h.a. korrelationen.

Exempel:
| Positiv korrelation: Ju fler timmar någon studerar, desto högre poäng får de på ett prov.
| Negativ korrelation: Ju mer tid någon spenderar på sociala medier, desto lägre poäng får de på ett prov.

25
Q

Vad är nominalskala?

A

Nominalskala är den enklaste skalnivån och används för att kategorisera data utan någon inneboende ordning.

Exempel: kön (man, kvinna).

26
Q

Vad är ordinalskala?

A

Ordinalskala innebär att data kan rangordnas, men avståndet mellan olika rangordningar är inte meningsfullt.

Exempel: placering i en tävling (1:a, 2:a, 3:a).

27
Q

Vad är intervallskala?

A

Intervallskala innebär att data kan rangordnas och avståndet mellan olika värden är meningsfullt, men det finns ingen absolut nollpunkt.

Exempel: temperatur i celsius.

28
Q

Vad är kvotskala?

A

Kvotskala innebär att data kan rangordnas och att avstånden mellan värden är meningsfulla, samt att skalan har en absolut nollpunkt.

Exempel: längd i centimeter.

29
Q

Vad innebär praktisk signifikans?

A

Praktisk signifikans avser en effekts betydelse i verkligheten, oavsett om den är statistiskt signifikant eller inte. Effektstorlek är ett mått på praktisk signifikans.

Statistisk signifikans indikerar om ett resultat sannolikt inte beror på slumpen.
Praktisk signifikans bedömer om resultatet är meningsfullt i ett verkligt sammanhang.

Exempel:
|Ett statistiskt signifikant resultat som visar en viktnedgång på 0,1 kg kan sakna praktisk signifikans eftersom förändringen är för liten för att ha betydelse i verkligheten.

30
Q

Vad är effektstorlek?

Vad är den till för?

A

Effektstorlek är ett mått som kvantifierar styrkan eller storleken av en observerad effekt eller ett samband i en studie, oberoende av stickprovsstorleken.

Effektstorleken hjälper oss att bedöma den praktiska betydelsen av resultaten, inte bara om de är statistiskt signifikanta.
Effektstorlek kan användas för att avgöra om en statistiskt signifikant skillnad också är praktiskt meningsfull.

Cohens d är ett mått på effektstorlek.

En effektstorlek på d = 0,8 (stor effekt) visar att två grupper skiljer sig mycket åt, medan d = 0,2 (liten effekt) indikerar en svag skillnad.

31
Q

Vad är ett Mann-Whitney U-test?

A

Ett Mann-Whitney U-test är ett icke-parametriskt test som används för att jämföra rangordnade värden mellan två oberoende grupper, när parametriska antaganden (som normalfördelning) inte är uppfyllda.

Exempel:
Jämförelse av patientnöjdhet mellan två sjukhus (Sjukhus A och Sjukhus B) där data är på ordinalskala (t.ex. 1 = mycket missnöjd, 2 = missnöjd, 3 = neutral, 4 = nöjd, 5 = mycket nöjd).

Oberoende Icke-parametriskt test.

Mann-Whitney U-test antar:
* Oberoende mätningar (individer i en grupp påverkar inte individer i den andra gruppen).
* Ordinalskala eller högre (data kan rangordnas, t.ex. betyg på en skala från 1 till 5, men behöver inte vara normalfördelad).

32
Q

Vad är ett Wilcoxon test?

A

Ett Wilcoxon signed-rank test är ett icke-parametriskt test som används för att jämföra rangordnade värden från samma grupp vid två olika tidpunkter eller för två relaterade mätningar.

Exempel:
Före- och eftermätningar av patientens smärtnivå (på en skala från 0 = ingen smärta till 10 = extrem smärta) hos samma patienter efter en behandling.

Beroende Icke-parametriskt test.

Wilcoxon signed-rank test antar:
* Beroende mätningar (samma individer mäts två gånger, eller mätningar är kopplade).
* Ordinalskala eller högre (data kan rangordnas, t.ex. nivåer av smärta från 0 till 10, men behöver inte vara normalfördelad).

33
Q

Vad är statistisk power?

Hur mycket statistisk power efterstävas oftast?

A

Statistisk power är sannolikheten att ett test korrekt upptäcker en verklig effekt och korrekt förkastar nollhypotesen (H_0) när den är falsk. Det är ett mått på testets känslighet.

Power mäts som 1−β, där β är risken att göra ett typ II-fel (att missa en sann effekt).

Om power är 80% (0,8) betyder det att testet har 80% sannolikhet att upptäcka en effekt om en sådan verkligen finns. (80% power eftersträvas)

34
Q

Vilka tre faktorer behöver man känna till för att beräkna sannolikheten att en effekt är sann givet ett positivt testresultat?

A

För att beräkna sannolikheten att en effekt är sann givet ett positivt testresultat behöver man känna till:

  1. Priorn: Hur ofta sannolika hypoteser testas (t.ex. sannolikheten att en hypotes är sann innan data samlas in).
  2. Power: Hur ofta testet korrekt identifierar sanna effekter (som 1−β, där β är risken att göra ett typ II-fel).
  3. Alfanivån: Hur ofta testet felaktigt identifierar falska effekter som sanna (risken för typ I-fel, oftast satt till α = 0,05).
35
Q

Hur påverkar alfanivån den statistiska powern?

A

En högre alfanivå leder till högre statistisk power, eftersom det blir lättare att hitta en sann effekt (men också lättare att göra typ I-fel).

Exempel: Om du ökar α från 0,05 till 0,10, kan du förkasta nollhypotesen med svagare evidens, vilket gör att fler sanna effekter upptäcks, men även fler falska positiva resultat.

36
Q

Hur påverkar stickprovsstorleken statistisk power?

A

En större stickprovsstorlek (𝑛) leder till högre statistisk power, eftersom det minskar standardfelet (𝑆𝐸), vilket gör det lättare att upptäcka små effekter.

Exempel:
Ett stickprov med 100 deltagare ger mer tillförlitliga resultat än ett med 20 deltagare, eftersom slumpmässiga variationer påverkar större stickprov mindre.

37
Q

Hur påverkar studiedesignen statistisk power?

A

Studiedesigner som minimerar brus eller variabilitet i data (t.ex. beroende mätningar, där samma individer mäts före och efter en behandling) ökar statistisk power. Detta sker genom att reducera osäkerheten och göra det lättare att upptäcka verkliga effekter.

Exempel:
I en beroende mätning jämförs varje individ med sig själv, vilket eliminerar variabilitet mellan individer.

38
Q

Hur påverkar standardavvikelsen i populationen statistisk power?

A

En större standardavvikelse (σ) minskar statistisk power, eftersom data blir mer spridd och osäkerheten i skattningarna ökar. Detta gör det svårare att upptäcka signifikanta effekter, särskilt om effektstorleken är liten.

39
Q

Hur är standardfelet (SE) relaterad till samplingfördelningen?

A

Standardfelet (SE) beskriver spridningen i en samplingfördelning och mäter hur mycket stickprovsmedelvärden tenderar att variera runt populationsmedelvärdet. Större standardfel innebär en bredare samplingfördelning, vilket indikerar större osäkerhet i skattningarna.

40
Q

Hur är standardfelet (SE) relaterat till standardavvikelsen?

A

Standardfelet i en samplingfördelning räknas ut med hjälp av standardavvikelsen. Ju större standardavvikelse, desto större är standardfelet, ju bredare är samplingfördelningen.

41
Q

Vad är centrala gränsvärdessatsen?

A

Centrala gränsvärdessatsen säger att om du tar många stickprov från en population och beräknar medelvärdet för varje stickprov, kommer fördelningen av dessa medelvärden (samplingfördelningen) att närma sig en normalfördelning när stickprovsantalet (d.v.s. hur många stickprov du tar) ökar – oavsett populationens ursprungliga fördelning.

Om du mäter längden på fiskar från olika stickprov á 10 fiskar vardera och plottar medelvärdena från varje stickprov, kommer dessa medelvärden att bilda en fördelning som blir normalfördelad när du tar tillräckligt många stickprov.

42
Q

Vad är stora talens lag?

A

Stora talens lag säger att om stickprovsstorleken (𝑛) i ett enda stickprov blir tillräckligt stor, så kommer stickprovsmedelvärdet att närma sig populationens sanna medelvärde.

Om du tar ett enda stickprov av 1000 fiskar, kommer medelvärdet av dessa fiskar sannolikt att ligga mycket nära populationens medelvärde, även om populationen har en skev fördelning.

43
Q

Hur kan man få fram stickprovsmedelvärdet från ett konfidensintervall?

A

Stickprovsmedelvärdet är mittpunkten i konfidensintervallet. Det beräknas genom att ta genomsnittet av intervallets nedre och övre gräns.
~~~
(nedre gräns + övre gräns) / 2
~~~

44
Q

Vad innebär det att ett konfidensintervall har 95%-ig konfidensgrad?

A

Att ett konfidensintervall har 95%-ig konfidensgrad innebär att om vi drar 100 stickprov från samma population och beräknar ett konfidensintervall för varje stickprov, så kommer cirka 95% av dessa intervall att innehålla det sanna populationsmedelvärdet.

Det betyder att om vi upprepar experimentet (tar nya stickprov) många gånger, så kommer 95% av de intervall vi skapar från dessa stickprov att täcka populationsmedelvärdet. Konfidensgraden beskriver alltså tillförlitligheten i metoden att skapa intervall – inte sannolikheten för ett enskilt intervall.

45
Q

Vad är en riktad hypotes?

A

En riktad hypotes förutsäger riktningen på effekten (t.ex., grupp A kommer prestera bättre än grupp B).

46
Q

Vad är en oriktad hypotes?

A

En oriktad hypotes förutsäger en skillnad men specificerar inte riktningen (t.ex., det kommer vara en skillnad i prestation mellan grupp A och B).

47
Q

Förklara vad kvartiler är och hur de används i en boxplot.

A

Kvartiler delar upp en datamängd i fyra lika stora delar:

  • Q1 (första kvartilen): 25% av data är mindre än detta värde.
  • Q2 (andra kvartilen eller medianen): 50% av data är mindre än detta värde.
  • Q3 (tredje kvartilen): 75% av data är mindre än detta värde.

I en boxplot används kvartiler för att visa spridningen:

  • Boxen sträcker sig från Q1 till Q3 och visar den interkvartila spridningen (IQR).
  • Medianen (Q2) visas som en linje i boxen.
  • “Whiskers” visar extrema värden inom ett visst intervall, och eventuella uteliggare markeras separat.
48
Q

Vad är Spearmans korrelation?

A

Spearmans korrelation är ett mått på samband mellan två variabler som baseras på deras rangordning snarare än deras faktiska värden.

49
Q

Vad är Pearsons korrelation?

A

Pearsons korrelation är ett mått på det linjära sambandet mellan två kvantitativa variabler. Sambandet uttrycks som ett värde mellan -1 (perfekt negativ korrelation) och +1 (perfekt positiv korrelation).

50
Q

Vad innebär det att ett stickprovsmedelvärde är väntevärdesriktigt?

A

Det innebär att medelvärdet för stickprovet är lika med populationens medelvärde.

51
Q

När är det lämpligt att använda Spearmans rangkorrelation?

A

Använd Spearmans rangkorrelation när:

  1. När data inte är normalfördelad eller innehåller extrema värden (uteliggare) som påverkar analysen.
  2. När variablerna är på ordinalskala, dvs. endast rangordning är relevant, som vid enkätdata med svarsalternativ på en skala (t.ex. 1-5).
52
Q

När är det lämpligt att använda Pearsons korrelation?

A

Använd Pearsons korrelation när:

  1. När data är normalfördelad och har ett linjärt samband mellan variablerna.
  2. När variablerna är på intervall- eller kvotskala, t.ex. längd i cm eller temperatur i Celsius.
53
Q

Vad är percentiler?

A

Percentiler delar en ordnad datamängd i 100 lika stora delar. Varje percentil motsvarar en specifik position i data, till exempel anger den 90 percentilen att 90 % av värdena ligger under detta värde och 10 % ligger över.

54
Q

Vad innebär regression mot medelvärdet?

A

Regression mot medelvärdet innebär att extrema värden i en variabel tenderar att följas av mindre extrema värden i en annan mätning. Detta beror på att slumpmässiga variationer ofta avtar vid upprepade mätningar, vilket gör att värdena rör sig närmare populationens medelvärde.

55
Q

Vad är regressionsfelslutet?

A

Regressionsfelslutet är en felaktig slutsats om orsakssamband som uppstår när man tolkar en naturlig regression mot medelvärdet som en faktisk effekt. Till exempel kan en förbättring efter extremt dåliga resultat bero på regression mot medelvärdet snarare än en behandling eller intervention.

56
Q

Vad innebär extrapolering inom regressionsanalys och varför bör man undvika det?

A

Extrapolering innebär att man använder regressionsmodellen för att predicera värden på den beroende variabeln (y-axeln) utanför det observerade intervallet för den oberoende variabeln (x-axeln).
Detta bör undvikas då det kan leda till felaktiga prediktioner eftersom modellen inte är testad för dessa värden.

57
Q

Vad påverkar power i ett statistiskt test?

A
  1. Stickprovsstorlek: Större stickprov ökar power.
  2. Effektstorlek: Större effekter är lättare att upptäcka.
  3. Alfanivå: En högre alfanivå (t.ex. 0,10 istället för 0,05) ökar power men också risken för typ I-fel.
  4. Varians: Lägre varians i data ökar power.
  5. Studiedesign: Effektiva designer, som beroende mätningar, kan öka power.
58
Q

Hur hög är powern i ett test baserat på att slå en 20-sidig tärning?

A

Powern är extremt låg i ett test baserat på en tärning.

Testet är inte känsligt för att upptäcka sanna effekter eftersom det inte använder data utan förlitar sig på slump (tärningsslag).
Det är omöjligt att förutsäga en verklig effekt, vilket gör att powern i praktiken är nära noll.