Statistik Flashcards

1
Q

Deskriptiv statistik

A

Beskriver varieblerna som mätts i ett stickprov.

Det kan handla om sammanfattande värden, t.ex. medelvärde eller korrelation.

Eller grafisk redovisning av variablerna, t.ex. histogram och boxplots.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Inferentiell statistik

A

Försöker använda stickprovet för att dra slutsatser om populationen man vill undersöka.

Använder statistiska test, p-värden, konfidensintervall.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vad kräver inferentiell statistik?

A

För att kunna säga något om den större populationen som stickprovet är taget ifrån krävs ett slumpmässigt draget stickprov, så att alla i populationen har samma chans att hamna i stickprovet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Population

A

Alla möjliga deltagare av det vi är intresserade av (t.ex. alla högstadieelever i Sverige), ofta omöjligt att studera till fullo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Stickprov

A

De deltagare av populationen vi faktiskt observerar och gör mätningar på.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Parameter

A

Ett “sant” värde i populationen av en viss egenskap, t.ex. det sanna medelvärdet för alla högstadieelever i Sverige.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Estimat

A

Värdet vi observerar i stickprovet, t.ex. medelvärdet för våra deltagare.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Variabel

A

Något som vi mäter i vårt stickprov.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Riktad hypotes

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Oriktad hypotes

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Nominalskala

A

Grupperar bara

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Ordinalskala

A

Nominalskala + rangordning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Intervallskala

A

Ordinalskala + har jämna skalsteg

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Kvotskala

A

Intervallskala + har absolut nollpunkt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hur påverkar låg representativitet stickprovet?

A

Det gör det svårt att dra inferentiella slutsatser

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hur påverkar mätfel stickprovet?

A

Det gör det svårt att ge bra deskriptiv statistik.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

På vilka sätt är det viktigt att få en bra bild av stickprovet på?

A
  • om det finns någon spridning i variabeln
  • om det finns uppenbara mätfel
  • om det finns skillnader mellan grupper
  • om det finns andra confounding variabler som kan ha påverkat resultaten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Centralmått

A

Mått på något normalt (typiskt, genomsnittligt).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Typvärde

A

Det vanligaste värdet.

Är det enda centralmåttet som går att göras på nominalskala (kan kategoriseras men inte rangordnas).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Median

A

Det “mittersta” värdet. Delar in fördelningen i två lika stora delar aka den “50e percentilen”.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Aritmetiskt medelvärde

A

Det genomsnittliga värdet.

Summan av alla observationer på en variabel delat med antalet observationer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

När är medelvärdet och medianen (och typvärdet) ungefär detsamma?

A

Medelvärdet och medianen är ungefär detsamma om fördelningen av värden är ungefär symmetrisk.

Om de vanligaste värdena är i mitten är också typvärdet ungefär detsamma.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

När skiljer sig median, medelvärde och typvärde (och kan vara missvisande)?

A

När fördelningen av värden är skev.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Vad innebär det att stickprovsmedelvärdet är väntevärdesriktigt (unbiased)?

A

Att stickprovsmedelvärdet är väntevärdesriktigt betyder att medelvärdet av alla stickprovsmedelvärden i oändligt upprepade slumpmässigt dragna stickprov kommer vara lika med det sanna populationsmedelvärdet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Vad innebär det att stickprovsmedelvärdet är ett konsekvent estimat (consistent estimate)?

A

Att stickprovsmedelvärdet är ett konsekvent estimat innebär att stickprovsmedelvärdet kommer närma sig det sanna populationsmedelvärdet om vi samlar fler och fler observationer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Hur betecknas populationsmedelvärdet?

A

Populationsmedelvärdet betecknas ofta μ (mu) istället för x streck

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Spridningsmått/variationsmått

A

Mäter hur utspridda värdena på en variabel är.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Variationsbredd

A

Skillnaden mellan det högsta och lägsta värdet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Varians och standardavvikelse

A

Mått på genomsnittlig variation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Hur betecknas populations-standardavvikelsen?

A

Populations-standardavvikelsen betecknas ofta σ (sigma) istället för 𝑠

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Z-värden

A

Hur många standardavvikelser från medelvärdet som en observation är.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Vad innebär z x,i = 1.2?

A

z x,i = 1.2 betyder att observation i på x-variabeln är 1.2 x-standardavvikelser över x-medelvärdet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Vad innebär z y,i = -0.7?

A

z y,i = -0.7 betyder att observation i på y-variabeln är 0.7 y-standardavvikelser under y-medelvärdet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Vad ändrar z-värden på och vad ändrar de inte på?

A

Z-värden ändrar bara enheten på variabeln, inte ordning eller intervall. (standardiserar data och gör det enklare att jämföra variabler med varandra)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

När ger z-värden information om sannolikheten?

A

Om variabeln är ungefär normalfördelad.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Normalfördelning

A

Viktig fördelning för inferentiell statistik.

Många variabler är ungefär normalfördelade, t.ex. längd och reaktionshastighet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Vad bestäms normalfördelningen av?

A

Dess medelvärde och standardavvikelse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Vad vet vi om vi vet en normalfördelad observations z-värde?

A

Då vet vi hur vanligt det är att få observationer längre ifrån medelvärdet än detta.T.ex. om z=-2 är det bara 2.3% chans att få en lägre observation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Det är 95% chans att få ett z-värde mellan (om variabeln är normalfördelad):

A

Det är 95% chans att få ett z-värde mellan -1.96 och +1.96 om variabeln är normalfördelad.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Frihetsgrader

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Barplot

A

Är en frekvensgraf.

Antalet observationer för varje värde på en begränsad kategorisk variabel. Har mellanrum mellan staplarna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Kategorisk variabel

A

Kan bara anta ett visst antal (ofta litet) antal värden, t.ex. antal: 0, 1, 2 osv

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Histogram

A

Är en frekvensgraf.

Antalet observationer i olika spann av värden för en (mer) kontinuerlig variabel. Har inga mellanrum.

Används även för kategoriska variabler med många möjliga värden där det underlättar tolkningen att dela in det i spann av värden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Kontinuerlig variabel

A

En variabel vars värden kan anta alla värden inom ett spann.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Boxplot (lådagram)

A

Delas upp i kvartiler och percentiler, mitten är medianen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

Percentiler och kvartiler

A

En percentil (P) är det värde vilket en viss procentandel av fördelningen ligger.

De percentiler som delar datamängden i fjärdedelar kallas kvartiler (Q1, Q2, Q3).

50:e percentilen = medianen
25:e percentilen (P25) = 1:a kvartilen (Q1), kallas den undre
75:e percentilen (P75) = 3:e kvartilen (Q3)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

Första kvartilen (Q1)

A

25:e percentilen (P25). 25% av värdena är under Q1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

50:e percentilen (andra kvartilen (Q2) )

A

50:e percentilen är lika med medianen. 50% av värdena är under Q2 (medianen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

Tredje kvartilen (Q3)

A

75:e percentilen (P75). 75% av värdena är under Q3.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
50
Q

Interquartile range (IQR)

A

50% procent av värdena är mellan Q1 och Q3.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
51
Q

Scatterplot

A

Visar värden på två variabler samtidigt, bra för att se samband.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
52
Q

Korrelation

A

Ett mått på samvariation, hur mycket två variabler hänger ihop med varandra. Kan vara positiv (högre värden på en variabel hänger samman med högre värden på en annan variabel) eller negativ (högre värden på en variabel hänger samman med lägre värden på en annan).

Ju närmare korrelation är 0, desto svagare är sambandet. Ju närmare korrelationen är –1 eller +1, desto starkare är sambandet.

Ju mer “samlade” prickarna är desto starkare är korrelationen, och ju mer “spridda” prickarna är desto svagare är den.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
53
Q

Pearsons produktmomentkorrelationskoefficent (r)

A

Mäter styrkan på linjära samband mellan variabler. Kan maximalt vara –1 eller +1, beroende på om sambandet är negativt respektive positivt. Ju närmare korrelation är 0, desto svagare är sambandet. Ju närmare korrelationen är –1 eller +1, desto starkare är sambandet. Om det inte finns något samband närmar sig r = 0.

Mäter endast linjära samband.

Påverkas mycket av extremvärden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
54
Q

Vad påverkas Pearsons produktmomentkorrelationskoefficent (r) mycket av?

A

Pearsons produktmomentkorrelationskoefficent (r) påverkas mycket av extremvärden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
55
Q

Vad kräver Pearsons produktmomentkorrelationskoefficent (r) ?

A

Pearsons produktmomentkorrelationskoefficent (r) kräver tillräckligt med variation i båda variablerna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
56
Q

Vad är enligt Cohen en svag, medelstark och stark korrelation?

A

Svag korrelation: r > 0.10
Medelstark korrelation: r > 0.30
Stark korrelation: r > 0.50

(är dock godtyckligt, korrelationernas praktiska betydelse beror på vilka variablerna är)

Är relevant om korrelationerna är statistiskt signifikant!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
57
Q

Statistisk signifikans

A

Ifall resultatet (exempelvis korrelationen) är betydelsefull eller inte.

När en skillnad eller ett samband är statistiskt signifikant kan man säga att skillnaden eller sambandet inte kan förklaras av slumpen, och därför är det sannolikt att skillnaden eller sambandet är verkligt. Används för att avgöra om resultatet i en studie är betydelsefullt eller inte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
58
Q

Vad beror gränsvärde på?

A

Gränsvärdet beror på antalet frihetsgrader (som för korrelationer är n-2).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
59
Q

Vad ger större frihetsgrader?

A

Desto större frihetsgrader, desto närmare kan stickprovskorrelationen vara noll och ändå vara statistiskt signifikant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
60
Q

p-värde

A

Man använder sig av p-värdet gör att avgöra om en skillnad eller ett samband är statistiskt signifikant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
61
Q

Vad är p-värdet ett mått på?

A

P-värdet är en mått på hur sannolikt det är att observationen är en slump, och det beräknas genom att jämföra resultatet från studien med vad man skulle förvänta sig att se om alla förutsättningar för studien är sanna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
62
Q

Vad anger p-värdet?

A

P-värdet är en procentsiffra och anger hur sannolikt det är att nollhypotesen är sann. (Nollhypotesen anger att det inte finns någon skillnad eller att det inte finns något samband. )

63
Q

Signifikansnivå, alfanivå

A

Signifikansnivå är sannolikheten att vid en prövning förkasta nollhypotesen om den är sann.

Som regel använder man sig av en gräns på 5% för att avgöra om ett fynd är statistiskt signifikant.

Om p-värdet är lägre än 5% betyder det att det finns en mycket liten sannolikhet (<5%) att observationen är en slump, och därför är den statistiskt signifikant - därmed förkastas nollhypotsen.

Om p-värdet är 5% eller högre (≥5%) kan observationen vara en slump och därför behålls nollhypotesen.

64
Q

Spearmans rangordningskoefficent (rs)

A

Baseras på observationers rangordning. Lägsta observation har rang 1, nästa rang 2 osv. Om två eller flera observationer är lika delar de lika på sin rangsumma. T.ex. (2+3)/2 = 2.5

Påverkas mindre av extremvärden än Pearsons korrelationskoefficent (r).

65
Q

Vad påverkas Spearmans rangordningskoefficent (rs) mindre av än Pearsons korrelationskoefficent (r)?

A

Spearmans rangordningskoefficent (rs) påverkas mindre av extremvärden än Pearsons korrelationskoefficent (r).

66
Q

När används Spearmans rangordningskoefficent (rs)?

A

Spearmans rangordningskoeffiecnet används när data:

  • är på ordinalskala (kan rangordnas men det går inte att ange avstånd mellan värdena)
  • inte är normalfördelat
  • när det förekommer extremvärden.
67
Q

Regression

A

Används för att predicera värdet på en variabel y utifrån värdet på en annan variabel x.

Innebär att man ser vilken rät linje som bäst fångar sambandet mellan variablerna.

Beror på Pearson’s r, och påverkas därmed också av extremvärden.

68
Q

Hur skattas regressionslinjen?

A

Regressionslinjen skattas med minstakvadratmetoden.

69
Q

Regressionslinje - intercept

A

Interceptet b0 definierar var regressionslinjen skär y-axeln.

70
Q

Regressionslinje - lutning

A

Hur många steg i y-led längsmed linjen som motsvaras av ett steg i x-led.

71
Q

Regressionskoefficenten b 1

A

Regressionskoefficenten b 1 definierar regressionslinjens lutning.

72
Q

Enkel linjär regression

A

En variabel prediceras av endast en annan variabel.

73
Q

Extrapolering

A

Förutsäga värden som inte existerar eller är långt utanför det observerade som man har data på.

Extrapolering kan vara riskabelt eftersom det bygger på antagandet att den observerade trenden fortsätter, vilket inte alltid är fallet.

74
Q

Sanna hypoteser och falska hypoteser

A

Sanna hypoteser är de där en effekt går i den förväntade riktningen.

Falska hypoteser är de där en effekt inte går i den förväntade riktningen.

H0 (ingen effekt) testas mot H1 (en effekt i förväntad riktning).

75
Q

Hypotesprövning

A

Nollhypotesen H0 (ingen effekt) testas mot mothypotes H1 (en effekt i förväntad riktning).

76
Q

Samplingfördelning

A

Samplingfördelningen för utfallen är sannolikheten hos olika utfall under H0 (ingen effekt).

Samplingfördelningen är fördelningen mellan stickproven.

Samplingfördelningen är en viss uppskattning av hur mycket estimat i stickprov (särskilt medelvärdet) av en viss storlek (=n) från en viss population varierar.

77
Q

Centrala gränsvärdessatsen (CLT)

A

Desto större stickprov, desto närmare kommer den variation mellan stickprov som finns kvar att följa en normalfördelning.

Om ett stickprov med n observationer är draget slumpmässigt från populationen, och om variabeln som mäts hos de observationerna har en ändlig standardavvikelse, så kommer fördelningen för medelvärdet mellan stickproven att närma sig en normalfördelning när n ökar än vad orginal-fördelningen är för variabeln.

Detta gäller alltså medelvärdet mellan stickproven: fördelningen mellan dem blir mer normalfördelade desto större n/större stickprov.

När storleken på ett stickprov ökar, tenderar fördelningen av stickprovsmedelvärden att närma sig en normalfördelning.

78
Q

Stora talens lag

A

Desto större stickprov , desto närmare kommer stickprovsmedelvärdena vara till det sanna medelvärdet. (populationsmedelvärdena)

79
Q

Vad gör att vara skattningar kommer närmare det sanna värdet desto större stickprov?

A

Centrala gmänsvärdessatsen och stora talens lag - utveckla!

80
Q

Standardfelet (standard error - SE)

A

Standardavvikelsen i samplingfördelningen, hur enskilda estimat mellan stickprov varierar.

(standardavvikelse är hur enskilda observationer för variablerna vi mäter varierar)

Vi vet inte exakt hur stort standardfelet är, men stickprovets standardavvikelse ger en bra uppskattning. Vi kan uppskatta variationen i samplingfördelningen (standardfelet; SE) med hjälp av variationen i vårt stickprov (standardavvikelsen; s).

81
Q

Hur kan vi ta reda på hur stor sannolikhet det är att få ett estimat i ett stickprov över/under ett visst värde?

A

Samplingfördelningen är normalfördelad vilket innebär att den har samma egenskaper som alla normalfördelningar (En normalfördelning ger oss information om sannolikhet). Det innebär att standardfelet avgränsar specifika percentiler.

Eftersom vi vet hur stor andel av värden (dvs stickprov) som hamnar under/över ett visst värde vet vi också hur stor sannolikhet det är att få ett estimat i ett stickprov över/under ett visst värde.

82
Q

Hur uppskattar vi variationen i samplingfördelningen?

A

Vi vet inte exakt hur stort standardfelet är, men stickprovets standardavvikelse ger en bra uppskattning.

Vi kan uppskatta variationen i samplingfördelningen (standardfelet; SE) med hjälp av variationen i vårt stickprov (standardavvikelsen; s).

83
Q

Vad kan samplingfördelningen användas för?

A

Samplingfördelningen kan användas för att uppskatta hur pålitligt vårt stickprov är; ju mindre standardfel, desto mer sannolikt att medelvärdet i vårt stickprov befinner sig nära populationens medelvärde.

(Standardfel = standardavvikelsen i samplingsfördelningen; hur enskilda estimat mellan stickprov varierar)

84
Q

Konfidensintervall

A

En metod där samplingfördelningen används för att skapa intervall så att t.ex. 95% av alla de intervallen kommer att innehålla det sanna populationsmedelvärdet.

Konfidensintervall är alltså skapade på ett sådant sätt att om vi tog flera stickprov skulle en viss vald andel (t.ex. 95%) innehålla det sanna värdet vi vill mäta (t.ex. medelvärdet).

Kan även användas för hypotestestning.

95% konfidensintervall innebär att om vi räknar ut 95%-iga konfidensintervall i många olika stickprov så kommer 95% av de intervallen innehålla det sanna medelvärdet.

85
Q

T-fördelning

A

Används när vi använder s (stickprovs-standardavvikelse) istället för σ (sigma) (populations-standardavvikelsen) för att skatta standardfelet.

Har samma form som normalfördelningen, men representerar högre osäkerhet.

T-fördelningens exakta form beror på antalet frihetsgrader: ju fler frihetsgrader desto mer liknar den normalfördelningen.

86
Q

Frihetsgrader

A
87
Q

T-värde

A

Används istället för z-värden när vi skattar standardfelet med stickprovets standardavvikelse (s) istället för populations-standardavvikelsen (σ - sigma).

Tdf = t-värde med viss frihetsgrad = df = n-1 (för medelvärden) vilket man hittar i tabeller.

88
Q

Vad avgränsar konfidensintervallet?

A

Konfidensintervall avgränsar ett intervall inom vilket vi kan vara “ganska säkra” på att populationens medelvärde innehåller.

89
Q

Vad är den vanligaste konfidensnivån?

Vad innebär det?

A

Den vanligaste konfidensnivån är 95%

Det innebär att om vi räknade ut 100 sådana konfidensintervall i olika stickprov från samma population skulle ungefär 95 stycken innefatta populationens medelvärde.

Och om vi skapade ett konfidensintervall i öändligt många stickprov så skulle exakt 95% av dem innefatta populationens medelvärde (förutsatt att antagandet om normalfördelning är korrekt).

90
Q

Signifikanstestning

A

Handlar om ett testa ett visst populationsmedelvärde

91
Q

Nollhypotestestning

A

Beräkna sannolikheten att våra resultat skulle uppstå givet att H0 stämmer.

Handlar om att vi vill testa ett visst populationsmedelvärde (definierat av nollhypotesen H0).

Tittar på hur ovanligt resultatet i vårt stickprov är om H0 är sann. Detta ges av p-värdet.

Vanligen: (populations)medelvärdet är 0 (men kan även vara t.ex. H0: medelvärdet är 0.2)

92
Q

Vad innebär det om p-värdet är tillräckligt lågt (ofta lägre än 0.05= 5%, motsvarar alfanivån)?

A

Om p-värdet är tillräckligt lågt (ofta lägre än 0.05= 5%, motsvarar alfanivån) sägs resultatet vara statistiskt signifikant, då det är tillräckligt ovanligt att observera om H0 var sann. Vi tar det alltså som stöd att H0 inte är sann.

93
Q

Ensidig och tvåsidig prövning

A

Hypotestning görs antingen ensidigt eller tvåsidigt.

Nollyhypotes H0: t.ex. medelvärdet är 0

Ensidig/riktad (alternativ) hypotes H1: medelvärdet är HÖGRE än 0 (alt medelvärdet är LÄGRE än 0 - säger om riktning)

Tvåsidig/oriktad (alternativ) hypotes H1: medelvärdet är INTE 0 (säger inget om riktning)

Vanligtvis används tvåsidiga hypotestest även när vår hypotes är riktad.

Riktade hypoteser har lägre kritiska gränser för signifikans i och med att de bara testar åt ett håll.

94
Q

Ensidig hypotesprövning

A

Ensidig hypotesprövning innebär att vi vill veta om det finns en effekt i en viss riktning.

Vid riktad hypotesttestning testas om vårt resultat är tillräckligt högt (alternativt lågt) för att det ska vara max 5% chans att observera det eller ett högre värde om H0 stämmer.

95
Q

Ge exempel på en tvåsidig/oriktad (alternativ) hypotes H1 och en nollhypoies H0

A

H1: studenter som studerar mer än 2 h om dagen har ett annat resultat än de som studerar mindre än 2 h om dagen.

H0: studenter som studerar mer än 2 h om dagen har inte ett annat resultat än de som studerar mindre än 2 h om dagen.

96
Q

Tvåsidig hypotesprövning

A

Tvåsidig hypotesprövning innebär att vi vill veta om det finns en effekt eller inte.

Vid oriktad hypotesprövning testas om vårt resultat är tillräckligt långt ifrån H0 (oavsett riktning) för att det ska vara max 5% chans att observera det eller ett mer extremt värde om H0 stämmer.

Vanligtvis görs tvåsidiga test.

97
Q

Ge exempel på en ensidig/riktad (alternativ) hypotes H1 och en nollhypotes H0

A

H1: studenter som studerar 2 h om dagen har ett bättre resultat än de som studerar mindre än 2 h om dagen.

H0: studenter som studerar mer än 2 h om dagen har inte ett bättre resultat än de som studerar mindre än 2 h om dagen.

98
Q

Alfanivå

A

Bestämmer hur ovanligt ett resultat ska vara för att vara statistiskt signifikanta och anses ge bevis mot H0 (ofta 5%) så att den förkastas.

99
Q

Typ-1 fel

A

Att förkasta H0 trots att H0 gäller,

Sannolikheten att göra ett Typ-1 fel är lika med alfanivån.

Att sänka alfanivån gör Typ-1 fel mindre sannolika men gör å andra sidan Typ-2 fel mer sannolika.

100
Q

Typ-2 fel

A

Att behålla H0 trots att H1 gäller.

Sannolikheten för Typ-2 fel påverkas av stickprovsstorlek, effektstorlek, felvarians och beroende mätningar.

101
Q

Förkasta nollhypotesen

A

Om våra resultat är tillräckligt osannolika givet nollhypotesen antar vi att nollhypotesen inte gäller - vi förkastar den.

102
Q
A

Nollhypotestestning säger oss ingenting om hur sannolika alternativhypotesen H1 och nollhypotesen H0

103
Q

T-test

A

Testar om ett medelvärde skiljer sig från ett visst värde (ofta 0).

Används oftast för att testa om två medelvärden skiljer sig från varandra.

104
Q

Hur fungerar t-test?

A

Skiljer sig de två medelvärdena vi vill jämföra (H1) eller inte (H0)?

Vi räknar ut hur osannolika våra observationer vore om H0 stämmer (att de har samma medelvärde). Om vårt resultat är tillräckligt osannolikt (lägre än 5%) förkastar vi H0.

105
Q

Oberoende t-test

A

T-test för jämförelse av två olika grupper.

Vi vill se hur många standardfel bort från H0 som vår observation är (differensen mellan våra medelvärden). Om tillräckligt många är det ovanligt att observera och vi tar det som stöd mot H0.

106
Q

Större t-värde

A

Större t-värde innebär att det är mer osannolikt att observera om H0 stämmer

107
Q

Vad ger ett större t-värde?

A

Större skillnad i medelvärde ger större t-värde och större antal observationer ger större t-värde.

108
Q

Vad ger ett mindre t-värde?

A

Större standardavvikelser ger mindre t-värde

109
Q

Vad innebär det om observerat t-värde (differensen mellan medelvärden) är större än kritiskt t-värde?

A

Om observerat värde är större än kritiskt t-värde är resultatet signifikant.

110
Q

Vad innebär ett signifikant resultat?

A

Ett signifikant resultat innebär att resultatet i stickprovet vore mer osannolikt än alfanivån (vanligen 5%) om det egentligen inte fanns någon skillnad i populationen.

111
Q
A

Statistiskt signifikant betyder dock inte att resultatet är praktiskt signifikant, eftersom även en väldigt liten skillnad kan bli signifikant med tillräckligt stort stickprov.

Det är därför viktigt att titta på hur stor skillnaden är - antingen genom att titta på skillnaden i stickprovs-medelvärden eller genom att räkna ut effektstorlek.

112
Q

Beroende t-test

A

T-test för jämförelse av två olika mätningar inom samma grupp.

Brukar ha högre power än oberoende t-test eftersom man slipper en del brus p.g.a. individuella variationer.

113
Q

Ge exempel på ett beroende t-test

A

Om vi vill undersöka om en ny behandlingsmetod ger resultat kan vi använda ett beroende t-test för att jämföra symptom före och efter behandling (på samma deltagare).

114
Q

Parametriska test

A

Parametriska test är de vanligaste testen som används - ses ofta som “standard”.

Gör antaganden om att data antingen är på intervallskala eller kvotskala, dvs förutsätter att data är på intervallskala eller kvotskala.

De vanligaste testen som används antar också att variablerna är normalfördelade.

115
Q

Antaganden - normalfördelning

A

De vanligaste parametriska testen som används antar också att variablerna är normalfördelade (kan dock frångås när vi har stora stickprov tack vare centrala gränsvärdessatsen).

116
Q

Antaganden - skalnivåer

A

Inom psykologi är det vanligt att använda parametriska test även för ordinalskala förutsatt att:
- det finns tillräckligt många skalsteg
- det finns skäl att anta att alla skalsteg är ungefär ekvivalenta
Exempel: vissa mått av Big Five personlighetsdrag

117
Q

Antaganden - homogen populationsvarians

A

Det innebär att variansen för grupperna ska vara ungefär densamma. Det är viktigt för test som jämför (medel)värdena mellan grupper - oberoende t-test.

Variansen i en grupp ska vara max 3 gånger så stor som variansen i en annan.

(oberoende t-test dock robust om:
- stickprovet är tillräckligt stort
- grupperna är lika stora)

118
Q

Icke-parametriska test

A

Om det inte går att uppfylla antaganden tillräckligt går det att använda icke-parametriska alternativ av testen istället, som gör färre antaganden än parametriska test. (alla test har dock inte icke-parametiska varianter)

Går i allmänhet ut på att beräkna testen utifrån observationernas rang istället.

Går att använda när data inte uppfyller kraven på intervall/kvotskala, normalfördelning och homogen varians.

Har högre power när data inte är normalfördelad, men lägre när data är normalfördelad.

119
Q

När har icke-parametriska test högre/lägre power än parametriska test?

A

De har högre power (och mer korrekt alfanivå i små stickprov) när data inte är normalfördelad.

De har lägre power när data är normalfördelad.

120
Q

När kan man använda icke-parametriska test?

A

Om det inte går att uppfylla antaganden tillräckligt går det att använda icke-parametriska alternativ av testen istället, som gör färre antaganden än parametriska test.

Går att använda när data inte uppfyller kraven på intervall/kvotskala, normalfördelning och homogen varians.

121
Q

Ge exempel på icke-parametiska test

A

Spearmansrangordningskoefficent (istället för Pearons korrelationskoefficent som är ett parametiskt test)

Mann-Whitney U (istället för oberoende t-test)

Wilcoxon (istället för beroende t-test)

122
Q

Antaganden vid oberoende t-test

A
  • Minst intervalldata (intervall eller kvotskala)
  • normalfördelningsantagandet uppfyllt (normalfördelade populationsvärden)
  • homogena populationsvarianser (lika varianser i grupperna)
  • Oberoende mätningar
  • inga extremvärden - t-test kan påverkas mycket av det
123
Q

Antaganden vid beroende t-test

A
  • Minst intervalldata (intervall eller kvotskala)
  • Normalfördelningsantagandet uppfyllt (normalfördelade populationsvärden)
  • Oberoende mätningar
  • Inga extremvärden - t-test kan påverkas mycket av det
124
Q

Antaganden vid Pearson’s korrelationskoefficent

A
  • Intervall- eller kvotskala
  • Parvisa mätningar
  • (Bivariat) normalfördelade populationsvärden
  • Linjärt samband
  • Inga extremvärden
125
Q

Mann-Whitney U

A

Icke-parametriskt alternativ till oberoende t-test.

Jämför två grupper på en (gemensamt) rangordnad variabel. Testar alltså om rangerna i en grupp tenderar att vara högre än rangerna i den andra gruppen.

Datan måste minst vara på ordinalskalenivå eftersom man behöver kunna rangordna den.

126
Q

Ge exempel på H0 och H1 (tvåsidig/oriktad) för Mann-Whitney U

A

H0: Det finns ingen skillnad i rang mellan grupperna (i populationen)

H1 (tvåsidig/oriktad): Det finns en skillnad i rang mellan grupperna (i populationen)

127
Q

Wilcoxon

A

Icke-parametiskt alternativ till beroende t-test.

Jämför två mätningar (t.ex. före/efter) på samma deltagare där differensen mellan mätningarna rangordnas.

Testar om det tenderar att finnas fler/högre positiva ranger än negativa ranger (eller tvärtom).

Alla differenser rangordnas tillsammans utan att bry sig om ifall det är positiva eller negativa värden.

Datan måste minst vara på ordinalskalenivå eftersom man behöver kunna rangordna den.

128
Q

Chi-två test

A

Används om man vill titta på samband mellan två variabler eller skillnader i en variabel som hänger samman med skillnader i en annan variabel, men när dessa variabler bara är på nominalskalenivå.

I Chi-två test är data upplagd i en frekvenstabell.
Kan bara testas tvåsidigt

129
Q

Hur kan väldigt små (och kanske meningslösa) effekter bli signifikanta?

A

Signifikanstest undersöker om våra resultat är ovanliga om H0 stämmer. Desto större stickprov, desto närmare kommer våra estimat vara det sanna värdet. När stickprovsstorleken ökar minskar standardfelet

Standardfelet minskar när Därmed kommer allt mindre effekter att bli signifikanta.

130
Q

Vad är faran med för stora stickprov?

A

I stora stickprov kan nästan vilken liten effekt som helst bli statistiskt signifikant, även om effekten saknar praktisk betydelse. Därför är det viktigt att inte bara fokusera på statistisk signifikans, utan också att titta på effektstorleken och avgöra om effekten är meningsfull i praktiken. Statistisk signifikans säger bara att effekten inte beror på slumpen, medan effektstorleken säger hur stor och relevant den effekten faktiskt är.

131
Q

Effektstorlek

A

Effektstorlek är ett standardiserat mått på storleken av en effekt. Det är användbart då man har variabler vars tolkning inte är uppenbar.

Olika test har olika sätt att beräkna effektstorlek.

Exempelvis korrelationskoefficienten (r) som effektstorlek för korrelation och Cohens d som effektstorlek för skillnader.

132
Q

Vad används som mått på effektstorlek för korrelationer?

A

Korrelationskoefficienten (r)

133
Q

Vad används som mått på effektstorlek för skillnader?

A

Vi kan använda Cohens d.

134
Q

Statistisk power

A

Statistisk power är hur ofta ett statistiskt test klassificerar sanna effekter som sanna - dvs korrekt upptäcker en sann effekt eller att det förkastar nollhypotesen när den är falsk). Dvs förmågan att undvika en typ 2-fel (falskt negativt resultat).

Power representerar sannolikheten att få statistiskt signifikanta resultat givet att en effekt (av en viss storlek) finns att hitta.

Beror på flera faktorer - saker vi har och inte har kontroll över. Det vi inte har någon kontroll över är den sanna effekten och standardavvikelsen.

Power mäts vanligen som ett tal mellan 0 och 1, där en högre power innebär större sannolikhet att upptäcka en verklig effekt. Vanligtvis eftersöker man minst 80% statistisk power.

Power kan också tolkas som hur vanligt det är att få ett signifikant resultat under H1.

135
Q

Alfanivå

A

Hur ofta testet klassificerar falska hypoteser som sanna - dvs sannolikheten att begå ett typ 1-fel.

136
Q

Typ 2-fel

A

Typ 2-fel (även kallat falskt negativt resultat) inträffar när man inte förkastar nollhypotesen, trots att den faktiskt är falsk. Med andra ord misslyckas testet med att upptäcka en effekt eller skillnad som faktiskt finns.

136
Q

Typ 1-fel

A

Typ I-fel (även kallat falskt positivt resultat) inträffar när man felaktigt förkastar nollhypotesen, trots att den egentligen är sann. Det innebär att man drar slutsatsen att det finns en effekt eller skillnad när det i själva verket inte finns någon.

137
Q

Vad innebär det att test har hög statistisk power?

A

Det innebär att testet har hög förmåga att upptäcka sanna effekter.

138
Q

Vilka faktorer som påverkar statistisk power går att kontrollera?

A
  • Stickprovsstorlek (n) (vid större stickprov kan mindre effekter bli signifikanta - ökar power)
  • Alfanivå (högre alfanivå ger högre statistisk power)

-Studiedesign (designer som får bort mer brus i data ger högre power - t.ex. beroende mätning som får bort individuell variation mellan deltagarna - inomgruppsdesign)

  • Typ av test (parametiska test har ofta något högre power än icke-parametiska test givet att deras antagande är uppfyllda)
139
Q

Prior

A

Hur ofta vi testar sanna hypoteser.

140
Q

Extremvärden

A

Extremvärden kan ofta ha oproportionerligt stor påverkan på statistiska test. En vanlig tumregel för att identifiera extremvärden är att sätta en gräns tre standardavvikelser från medelvärdet.

141
Q

Möjliga lösningar för extremvärden

A

Ta bort värdena eller använda icke-parametriska test

142
Q

Vad är det enklaste sättet att öka power?

A

Det enklaste sättet att öka power är för det mesta ett större stickprov.

143
Q
A

Eftersom vi inte vet prior - hur ofta vi testar sanna effekter, så kan vi inte uttala oss om sannolikheten att få ett signifikant resultat är en sann effekt.

144
Q

Massignifikans

A

Vid signifikansprövning av många hypoteser på en given signifikansnivå finns en betydande risk för att man felaktigt förkastar en eller flera sanna nollhypoteser.
Kan korrigeras med hjälp av Bonferroni-korrigering.

145
Q

Vilka skäl ligger bakom replikationskrisen?

A
  • Publikationsbias
  • p-hacking
  • HARKing
  • Felanvänd statistik

(alla dessa hänger ihop med massignifikans)

146
Q

Bonferroni-korrigering

A

Dela alfanivån (a) med antalet test som görs (k), då kommer sannolikheten för minst ett signifikant resultat (om alla test testar sanna H0) som mest vara (a) igen.

147
Q

Publikationsbias

A

Publikationsbias är tendensen att publicera endast de forskningsresultat som visar signifikanta eller “positiva” effekter, medan studier med icke-signifikanta eller negativa resultat ofta förblir opublicerade.

148
Q

p-hacking

A

P-hacking refererar till metoder där forskare manipulerar sina data eller analysmetoder för att uppnå ett signifikant p-värde (ofta under 0,05) och hitta statistiskt signifikanta resultat i sin studie.

Detta är en form av datamanipulation som kan leda till publicering av falskt positiva resultat

Detta kan inkludera att testa många olika hypoteser, justera datainsamlingen, eller använda olika analysmetoder tills man hittar ett “positivt” resultat.

149
Q

HARKing (Hypothesising after the results are known)

A

HARKing innebär att forskare formulerar hypoteser efter att resultaten har erhållits, och sedan presenterar dessa hypoteser som om de hade formulerats i förväg.

150
Q

P-hacking

A

En term som används för att beskriva olika tekniker som forskare kan använda för att öka chanserna att hitta statistiskt signifikanta resultat i sin studie, även om resultaten faktiskt inte är meningsfulla.
Detta är en form av datamanipulation som kan leda till publicering av falskt positiva resultat

151
Q

Regressionsfelslutet (regression mot medelvärdet)

A

Om vi väljer ut de deltagare som fått högst (eller lägst) resultat på ett test, då kommer deras resultat på nästa test hamna närmare medelvärdet.
Exempelvis: Om vi slår en massa tärningar och väljer ut de som slog 6 och sedan slår igen kommer de få ett lägre resultat i snitt.
Så länge det finns någon grad av slumpmässighet kommer det att finnas någon grad av regression mot medelvärdet.

152
Q

Percentiler och kvartiler

A

En percentil (P) är det värde vilket en viss procentandel av fördelningen ligger.

De percentiler som delar datamängden i fjärdedelar kallas kvartiler (Q1, Q2, Q3).

50:e percentilen = medianen
25:e percentilen (P25) = 1:a kvartilen (Q1), kallas den undre
75:e percentilen (P75) = 3:e kvartilen (Q3)