Statistik Flashcards

Question

Vad innebär det att stickprovsmedelvärdet är ett konsekvent estimat (consistent estimate)?

Answer 1

Att stickprovsmedelvärdet är ett konsekvent estimat innebär att stickprovsmedelvärdet kommer närma sig det sanna populationsmedelvärdet om vi samlar fler och fler observationer.

Answer 2

Populationsmedelvärdet betecknas ofta μ (mu) istället för x streck

Answer 3

Mäter hur utspridda värdena på en variabel är.

Answer 4

Skillnaden mellan det högsta och lägsta värdet.

Answer 5

Mått på genomsnittlig variation.

Answer 6

Populations-standardavvikelsen betecknas ofta σ (sigma) istället för 𝑠

Answer 7

Hur många standardavvikelser från medelvärdet som en observation är.

Answer 8

z x,i = 1.2 betyder att observation i på x-variabeln är 1.2 x-standardavvikelser över x-medelvärdet

Answer 9

z y,i = -0.7 betyder att observation i på y-variabeln är 0.7 y-standardavvikelser under y-medelvärdet.

Answer 10

Z-värden ändrar bara enheten på variabeln, inte ordning eller intervall. (standardiserar data och gör det enklare att jämföra variabler med varandra)

Answer 11

Om variabeln är ungefär normalfördelad.

Answer 12

Viktig fördelning för inferentiell statistik. Många variabler är ungefär normalfördelade, t.ex. längd och reaktionshastighet.

Answer 13

Dess medelvärde och standardavvikelse.

Answer 14

Då vet vi hur vanligt det är att få observationer längre ifrån medelvärdet än detta.T.ex. om z=-2 är det bara 2.3% chans att få en lägre observation.

Answer 15

Det är 95% chans att få ett z-värde mellan -1.96 och +1.96 om variabeln är normalfördelad.

Answer 16

Är en frekvensgraf. Antalet observationer för varje värde på en begränsad kategorisk variabel. Har mellanrum mellan staplarna.

Answer 17

Kan bara anta ett visst antal (ofta litet) antal värden, t.ex. antal: 0, 1, 2 osv

Answer 18

Är en frekvensgraf. Antalet observationer i olika spann av värden för en (mer) kontinuerlig variabel. Har inga mellanrum. Används även för kategoriska variabler med många möjliga värden där det underlättar tolkningen att dela in det i spann av värden.

Answer 19

En variabel vars värden kan anta alla värden inom ett spann.

Answer 20

Delas upp i kvartiler och percentiler, mitten är medianen.

Answer 21

En percentil (P) är det värde vilket en viss procentandel av fördelningen ligger. De percentiler som delar datamängden i fjärdedelar kallas kvartiler (Q1, Q2, Q3). 50:e percentilen = medianen 25:e percentilen (P25) = 1:a kvartilen (Q1), kallas den undre 75:e percentilen (P75) = 3:e kvartilen (Q3)

Answer 22

25:e percentilen (P25). 25% av värdena är under Q1.

Answer 23

50:e percentilen är lika med medianen. 50% av värdena är under Q2 (medianen).

Answer 24

75:e percentilen (P75). 75% av värdena är under Q3.

Answer 25

50% procent av värdena är mellan Q1 och Q3.

Answer 26

Visar värden på två variabler samtidigt, bra för att se samband.

Answer 27

Ett mått på samvariation, hur mycket två variabler hänger ihop med varandra. Kan vara positiv (högre värden på en variabel hänger samman med högre värden på en annan variabel) eller negativ (högre värden på en variabel hänger samman med lägre värden på en annan). Ju närmare korrelation är 0, desto svagare är sambandet. Ju närmare korrelationen är –1 eller +1, desto starkare är sambandet. Ju mer "samlade" prickarna är desto starkare är korrelationen, och ju mer "spridda" prickarna är desto svagare är den.

Answer 28

Mäter styrkan på linjära samband mellan variabler. Kan maximalt vara –1 eller +1, beroende på om sambandet är negativt respektive positivt. Ju närmare korrelation är 0, desto svagare är sambandet. Ju närmare korrelationen är –1 eller +1, desto starkare är sambandet. Om det inte finns något samband närmar sig r = 0. Mäter endast linjära samband. Påverkas mycket av extremvärden.

Answer 29

Pearsons produktmomentkorrelationskoefficent (r) påverkas mycket av extremvärden.

Answer 30

Pearsons produktmomentkorrelationskoefficent (r) kräver tillräckligt med variation i båda variablerna.

Answer 31

Svag korrelation: r > 0.10 Medelstark korrelation: r > 0.30 Stark korrelation: r > 0.50 (är dock godtyckligt, korrelationernas praktiska betydelse beror på vilka variablerna är) Är relevant om korrelationerna är statistiskt signifikant!

Answer 32

Ifall resultatet (exempelvis korrelationen) är betydelsefull eller inte. När en skillnad eller ett samband är statistiskt signifikant kan man säga att skillnaden eller sambandet inte kan förklaras av slumpen, och därför är det sannolikt att skillnaden eller sambandet är verkligt. Används för att avgöra om resultatet i en studie är betydelsefullt eller inte.

Answer 33

Gränsvärdet beror på antalet frihetsgrader (som för korrelationer är n-2).

Answer 34

Desto större frihetsgrader, desto närmare kan stickprovskorrelationen vara noll och ändå vara statistiskt signifikant.

Answer 35

Man använder sig av p-värdet gör att avgöra om en skillnad eller ett samband är statistiskt signifikant.

Answer 36

P-värdet är en mått på hur sannolikt det är att observationen är en slump, och det beräknas genom att jämföra resultatet från studien med vad man skulle förvänta sig att se om alla förutsättningar för studien är sanna.

Answer 37

P-värdet är en procentsiffra och anger hur sannolikt det är att nollhypotesen är sann. (Nollhypotesen anger att det inte finns någon skillnad eller att det inte finns något samband. )

Answer 38

Signifikansnivå är sannolikheten att vid en prövning förkasta nollhypotesen om den är sann. Som regel använder man sig av en gräns på 5% för att avgöra om ett fynd är statistiskt signifikant. Om p-värdet är lägre än 5% betyder det att det finns en mycket liten sannolikhet (<5%) att observationen är en slump, och därför är den statistiskt signifikant - därmed förkastas nollhypotsen. Om p-värdet är 5% eller högre (≥5%) kan observationen vara en slump och därför behålls nollhypotesen.

Answer 39

Baseras på observationers rangordning. Lägsta observation har rang 1, nästa rang 2 osv. Om två eller flera observationer är lika delar de lika på sin rangsumma. T.ex. (2+3)/2 = 2.5 Påverkas mindre av extremvärden än Pearsons korrelationskoefficent (r).

Answer 40

Spearmans rangordningskoefficent (rs) påverkas mindre av extremvärden än Pearsons korrelationskoefficent (r).

Answer 41

Spearmans rangordningskoeffiecnet används när data: - är på ordinalskala (kan rangordnas men det går inte att ange avstånd mellan värdena) - inte är normalfördelat - när det förekommer extremvärden.

Answer 42

Används för att predicera värdet på en variabel y utifrån värdet på en annan variabel x. Innebär att man ser vilken rät linje som bäst fångar sambandet mellan variablerna. Beror på Pearson's r, och påverkas därmed också av extremvärden.

Answer 43

Regressionslinjen skattas med minstakvadratmetoden.

Answer 44

Interceptet b0 definierar var regressionslinjen skär y-axeln.

Answer 45

Hur många steg i y-led längsmed linjen som motsvaras av ett steg i x-led.

Answer 46

Regressionskoefficenten b 1 definierar regressionslinjens lutning.

Answer 47

En variabel prediceras av endast en annan variabel.

Answer 48

Förutsäga värden som inte existerar eller är långt utanför det observerade som man har data på. Extrapolering kan vara riskabelt eftersom det bygger på antagandet att den observerade trenden fortsätter, vilket inte alltid är fallet.

Answer 49

Sanna hypoteser är de där en effekt går i den förväntade riktningen. Falska hypoteser är de där en effekt inte går i den förväntade riktningen. H0 (ingen effekt) testas mot H1 (en effekt i förväntad riktning).

Answer 50

Nollhypotesen H0 (ingen effekt) testas mot mothypotes H1 (en effekt i förväntad riktning).

Answer 51

Samplingfördelningen för utfallen är sannolikheten hos olika utfall under H0 (ingen effekt). Samplingfördelningen är fördelningen mellan stickproven. Samplingfördelningen är en viss uppskattning av hur mycket estimat i stickprov (särskilt medelvärdet) av en viss storlek (=n) från en viss population varierar.

Answer 52

Desto större stickprov, desto närmare kommer den variation mellan stickprov som finns kvar att följa en normalfördelning. Om ett stickprov med n observationer är draget slumpmässigt från populationen, och om variabeln som mäts hos de observationerna har en ändlig standardavvikelse, så kommer fördelningen för medelvärdet mellan stickproven att närma sig en normalfördelning när n ökar än vad orginal-fördelningen är för variabeln. Detta gäller alltså medelvärdet mellan stickproven: fördelningen mellan dem blir mer normalfördelade desto större n/större stickprov. När storleken på ett stickprov ökar, tenderar fördelningen av stickprovsmedelvärden att närma sig en normalfördelning.

Answer 53

Desto större stickprov , desto närmare kommer stickprovsmedelvärdena vara till det sanna medelvärdet. (populationsmedelvärdena)

Answer 54

Centrala gmänsvärdessatsen och stora talens lag - utveckla!

Answer 55

Standardavvikelsen i samplingfördelningen, hur enskilda estimat mellan stickprov varierar. (standardavvikelse är hur enskilda observationer för variablerna vi mäter varierar) Vi vet inte exakt hur stort standardfelet är, men stickprovets standardavvikelse ger en bra uppskattning. Vi kan uppskatta variationen i samplingfördelningen (standardfelet; SE) med hjälp av variationen i vårt stickprov (standardavvikelsen; s).

Answer 56

Samplingfördelningen är normalfördelad vilket innebär att den har samma egenskaper som alla normalfördelningar (En normalfördelning ger oss information om sannolikhet). Det innebär att standardfelet avgränsar specifika percentiler. Eftersom vi vet hur stor andel av värden (dvs stickprov) som hamnar under/över ett visst värde vet vi också hur stor sannolikhet det är att få ett estimat i ett stickprov över/under ett visst värde.

Answer 57

Vi vet inte exakt hur stort standardfelet är, men stickprovets standardavvikelse ger en bra uppskattning. Vi kan uppskatta variationen i samplingfördelningen (standardfelet; SE) med hjälp av variationen i vårt stickprov (standardavvikelsen; s).

Answer 58

Samplingfördelningen kan användas för att uppskatta hur pålitligt vårt stickprov är; ju mindre standardfel, desto mer sannolikt att medelvärdet i vårt stickprov befinner sig nära populationens medelvärde. (Standardfel = standardavvikelsen i samplingsfördelningen; hur enskilda estimat mellan stickprov varierar)

Answer 59

En metod där samplingfördelningen används för att skapa intervall så att t.ex. 95% av alla de intervallen kommer att innehålla det sanna populationsmedelvärdet. Konfidensintervall är alltså skapade på ett sådant sätt att om vi tog flera stickprov skulle en viss vald andel (t.ex. 95%) innehålla det sanna värdet vi vill mäta (t.ex. medelvärdet). Kan även användas för hypotestestning. 95% konfidensintervall innebär att om vi räknar ut 95%-iga konfidensintervall i många olika stickprov så kommer 95% av de intervallen innehålla det sanna medelvärdet.

Answer 60

Används när vi använder s (stickprovs-standardavvikelse) istället för σ (sigma) (populations-standardavvikelsen) för att skatta standardfelet. Har samma form som normalfördelningen, men representerar högre osäkerhet. T-fördelningens exakta form beror på antalet frihetsgrader: ju fler frihetsgrader desto mer liknar den normalfördelningen.

Answer 61

Används istället för z-värden när vi skattar standardfelet med stickprovets standardavvikelse (s) istället för populations-standardavvikelsen (σ - sigma). Tdf = t-värde med viss frihetsgrad = df = n-1 (för medelvärden) vilket man hittar i tabeller.

Answer 62

Konfidensintervall avgränsar ett intervall inom vilket vi kan vara "ganska säkra" på att populationens medelvärde innehåller.

Answer 63

Den vanligaste konfidensnivån är 95% Det innebär att om vi räknade ut 100 sådana konfidensintervall i olika stickprov från samma population skulle ungefär 95 stycken innefatta populationens medelvärde. Och om vi skapade ett konfidensintervall i öändligt många stickprov så skulle exakt 95% av dem innefatta populationens medelvärde (förutsatt att antagandet om normalfördelning är korrekt).

Answer 64

Handlar om ett testa ett visst populationsmedelvärde

Answer 65

Beräkna sannolikheten att våra resultat skulle uppstå givet att H0 stämmer. Handlar om att vi vill testa ett visst populationsmedelvärde (definierat av nollhypotesen H0). Tittar på hur ovanligt resultatet i vårt stickprov är om H0 är sann. Detta ges av p-värdet. Vanligen: (populations)medelvärdet är 0 (men kan även vara t.ex. H0: medelvärdet är 0.2)

Answer 66

Om p-värdet är tillräckligt lågt (ofta lägre än 0.05= 5%, motsvarar alfanivån) sägs resultatet vara statistiskt signifikant, då det är tillräckligt ovanligt att observera om H0 var sann. Vi tar det alltså som stöd att H0 inte är sann.

Answer 67

Hypotestning görs antingen ensidigt eller tvåsidigt. Nollyhypotes H0: t.ex. medelvärdet är 0 Ensidig/riktad (alternativ) hypotes H1: medelvärdet är HÖGRE än 0 (alt medelvärdet är LÄGRE än 0 - säger om riktning) Tvåsidig/oriktad (alternativ) hypotes H1: medelvärdet är INTE 0 (säger inget om riktning) Vanligtvis används tvåsidiga hypotestest även när vår hypotes är riktad. Riktade hypoteser har lägre kritiska gränser för signifikans i och med att de bara testar åt ett håll.

Answer 68

Ensidig hypotesprövning innebär att vi vill veta om det finns en effekt i en viss riktning. Vid riktad hypotesttestning testas om vårt resultat är tillräckligt högt (alternativt lågt) för att det ska vara max 5% chans att observera det eller ett högre värde om H0 stämmer.

Answer 69

H1: studenter som studerar mer än 2 h om dagen har ett annat resultat än de som studerar mindre än 2 h om dagen. H0: studenter som studerar mer än 2 h om dagen har inte ett annat resultat än de som studerar mindre än 2 h om dagen.

Answer 70

Tvåsidig hypotesprövning innebär att vi vill veta om det finns en effekt eller inte. Vid oriktad hypotesprövning testas om vårt resultat är tillräckligt långt ifrån H0 (oavsett riktning) för att det ska vara max 5% chans att observera det eller ett mer extremt värde om H0 stämmer. Vanligtvis görs tvåsidiga test.

Answer 71

H1: studenter som studerar 2 h om dagen har ett bättre resultat än de som studerar mindre än 2 h om dagen. H0: studenter som studerar mer än 2 h om dagen har inte ett bättre resultat än de som studerar mindre än 2 h om dagen.

Answer 72

Bestämmer hur ovanligt ett resultat ska vara för att vara statistiskt signifikanta och anses ge bevis mot H0 (ofta 5%) så att den förkastas.

Answer 73

Att förkasta H0 trots att H0 gäller, Sannolikheten att göra ett Typ-1 fel är lika med alfanivån. Att sänka alfanivån gör Typ-1 fel mindre sannolika men gör å andra sidan Typ-2 fel mer sannolika.

Answer 74

Att behålla H0 trots att H1 gäller. Sannolikheten för Typ-2 fel påverkas av stickprovsstorlek, effektstorlek, felvarians och beroende mätningar.

Answer 75

Om våra resultat är tillräckligt osannolika givet nollhypotesen antar vi att nollhypotesen inte gäller - vi förkastar den.

Answer 76

Nollhypotestestning säger oss ingenting om hur sannolika alternativhypotesen H1 och nollhypotesen H0

Answer 77

Testar om ett medelvärde skiljer sig från ett visst värde (ofta 0). Används oftast för att testa om två medelvärden skiljer sig från varandra.

Answer 78

Skiljer sig de två medelvärdena vi vill jämföra (H1) eller inte (H0)? Vi räknar ut hur osannolika våra observationer vore om H0 stämmer (att de har samma medelvärde). Om vårt resultat är tillräckligt osannolikt (lägre än 5%) förkastar vi H0.

Answer 79

T-test för jämförelse av två olika grupper. Vi vill se hur många standardfel bort från H0 som vår observation är (differensen mellan våra medelvärden). Om tillräckligt många är det ovanligt att observera och vi tar det som stöd mot H0.

Answer 80

Större t-värde innebär att det är mer osannolikt att observera om H0 stämmer

Answer 81

Större skillnad i medelvärde ger större t-värde och större antal observationer ger större t-värde.

Answer 82

Större standardavvikelser ger mindre t-värde

Answer 83

Om observerat värde är större än kritiskt t-värde är resultatet signifikant.

Answer 84

Ett signifikant resultat innebär att resultatet i stickprovet vore mer osannolikt än alfanivån (vanligen 5%) om det egentligen inte fanns någon skillnad i populationen.

Answer 85

Statistiskt signifikant betyder dock inte att resultatet är praktiskt signifikant, eftersom även en väldigt liten skillnad kan bli signifikant med tillräckligt stort stickprov. Det är därför viktigt att titta på hur stor skillnaden är - antingen genom att titta på skillnaden i stickprovs-medelvärden eller genom att räkna ut effektstorlek.

Answer 86

T-test för jämförelse av två olika mätningar inom samma grupp. Brukar ha högre power än oberoende t-test eftersom man slipper en del brus p.g.a. individuella variationer.

Answer 87

Om vi vill undersöka om en ny behandlingsmetod ger resultat kan vi använda ett beroende t-test för att jämföra symptom före och efter behandling (på samma deltagare).

Answer 88

Parametriska test är de vanligaste testen som används - ses ofta som "standard". Gör antaganden om att data antingen är på intervallskala eller kvotskala, dvs förutsätter att data är på intervallskala eller kvotskala. De vanligaste testen som används antar också att variablerna är normalfördelade.

Answer 89

De vanligaste parametriska testen som används antar också att variablerna är normalfördelade (kan dock frångås när vi har stora stickprov tack vare centrala gränsvärdessatsen).

Answer 90

Inom psykologi är det vanligt att använda parametriska test även för ordinalskala förutsatt att: - det finns tillräckligt många skalsteg - det finns skäl att anta att alla skalsteg är ungefär ekvivalenta Exempel: vissa mått av Big Five personlighetsdrag

Answer 91

Det innebär att variansen för grupperna ska vara ungefär densamma. Det är viktigt för test som jämför (medel)värdena mellan grupper - oberoende t-test. Variansen i en grupp ska vara max 3 gånger så stor som variansen i en annan. (oberoende t-test dock robust om: - stickprovet är tillräckligt stort - grupperna är lika stora)

Answer 92

Om det inte går att uppfylla antaganden tillräckligt går det att använda icke-parametriska alternativ av testen istället, som gör färre antaganden än parametriska test. (alla test har dock inte icke-parametiska varianter) Går i allmänhet ut på att beräkna testen utifrån observationernas rang istället. Går att använda när data inte uppfyller kraven på intervall/kvotskala, normalfördelning och homogen varians. Har högre power när data inte är normalfördelad, men lägre när data är normalfördelad.

Answer 93

De har högre power (och mer korrekt alfanivå i små stickprov) när data inte är normalfördelad. De har lägre power när data är normalfördelad.

Answer 94

Om det inte går att uppfylla antaganden tillräckligt går det att använda icke-parametriska alternativ av testen istället, som gör färre antaganden än parametriska test. Går att använda när data inte uppfyller kraven på intervall/kvotskala, normalfördelning och homogen varians.

Answer 95

Spearmansrangordningskoefficent (istället för Pearons korrelationskoefficent som är ett parametiskt test) Mann-Whitney U (istället för oberoende t-test) Wilcoxon (istället för beroende t-test)

Answer 96

- Minst intervalldata (intervall eller kvotskala) - normalfördelningsantagandet uppfyllt (normalfördelade populationsvärden) - homogena populationsvarianser (lika varianser i grupperna) - Oberoende mätningar - inga extremvärden - t-test kan påverkas mycket av det

Answer 97

- Minst intervalldata (intervall eller kvotskala) - Normalfördelningsantagandet uppfyllt (normalfördelade populationsvärden) - Oberoende mätningar - Inga extremvärden - t-test kan påverkas mycket av det

Answer 98

- Intervall- eller kvotskala - Parvisa mätningar - (Bivariat) normalfördelade populationsvärden - Linjärt samband - Inga extremvärden

Answer 99

Icke-parametriskt alternativ till oberoende t-test. Jämför två grupper på en (gemensamt) rangordnad variabel. Testar alltså om rangerna i en grupp tenderar att vara högre än rangerna i den andra gruppen. Datan måste minst vara på ordinalskalenivå eftersom man behöver kunna rangordna den.

Answer 100

H0: Det finns ingen skillnad i rang mellan grupperna (i populationen) H1 (tvåsidig/oriktad): Det finns en skillnad i rang mellan grupperna (i populationen)

Answer 101

Icke-parametiskt alternativ till beroende t-test. Jämför två mätningar (t.ex. före/efter) på samma deltagare där differensen mellan mätningarna rangordnas. Testar om det tenderar att finnas fler/högre positiva ranger än negativa ranger (eller tvärtom). Alla differenser rangordnas tillsammans utan att bry sig om ifall det är positiva eller negativa värden. Datan måste minst vara på ordinalskalenivå eftersom man behöver kunna rangordna den.

Answer 102

Används om man vill titta på samband mellan två variabler eller skillnader i en variabel som hänger samman med skillnader i en annan variabel, men när dessa variabler bara är på nominalskalenivå. I Chi-två test är data upplagd i en frekvenstabell. Kan bara testas tvåsidigt

Answer 103

Signifikanstest undersöker om våra resultat är ovanliga om H0 stämmer. Desto större stickprov, desto närmare kommer våra estimat vara det sanna värdet. När stickprovsstorleken ökar minskar standardfelet Standardfelet minskar när Därmed kommer allt mindre effekter att bli signifikanta.

Answer 104

I stora stickprov kan nästan vilken liten effekt som helst bli statistiskt signifikant, även om effekten saknar praktisk betydelse. Därför är det viktigt att inte bara fokusera på statistisk signifikans, utan också att titta på effektstorleken och avgöra om effekten är meningsfull i praktiken. Statistisk signifikans säger bara att effekten inte beror på slumpen, medan effektstorleken säger hur stor och relevant den effekten faktiskt är.

Answer 105

Effektstorlek är ett standardiserat mått på storleken av en effekt. Det är användbart då man har variabler vars tolkning inte är uppenbar. Olika test har olika sätt att beräkna effektstorlek. Exempelvis korrelationskoefficienten (r) som effektstorlek för korrelation och Cohens d som effektstorlek för skillnader.

Answer 106

Korrelationskoefficienten (r)

Answer 107

Vi kan använda Cohens d.

Answer 108

Statistisk power är hur ofta ett statistiskt test klassificerar sanna effekter som sanna - dvs korrekt upptäcker en sann effekt eller att det förkastar nollhypotesen när den är falsk). Dvs förmågan att undvika en typ 2-fel (falskt negativt resultat). Power representerar sannolikheten att få statistiskt signifikanta resultat givet att en effekt (av en viss storlek) finns att hitta. Beror på flera faktorer - saker vi har och inte har kontroll över. Det vi inte har någon kontroll över är den sanna effekten och standardavvikelsen. Power mäts vanligen som ett tal mellan 0 och 1, där en högre power innebär större sannolikhet att upptäcka en verklig effekt. Vanligtvis eftersöker man minst 80% statistisk power. Power kan också tolkas som hur vanligt det är att få ett signifikant resultat under H1.

Answer 109

Hur ofta testet klassificerar falska hypoteser som sanna - dvs sannolikheten att begå ett typ 1-fel.

Answer 110

Typ 2-fel (även kallat falskt negativt resultat) inträffar när man inte förkastar nollhypotesen, trots att den faktiskt är falsk. Med andra ord misslyckas testet med att upptäcka en effekt eller skillnad som faktiskt finns.

Answer 111

Typ I-fel (även kallat falskt positivt resultat) inträffar när man felaktigt förkastar nollhypotesen, trots att den egentligen är sann. Det innebär att man drar slutsatsen att det finns en effekt eller skillnad när det i själva verket inte finns någon.

Answer 112

Det innebär att testet har hög förmåga att upptäcka sanna effekter.

Answer 113

- Stickprovsstorlek (n) (vid större stickprov kan mindre effekter bli signifikanta - ökar power) - Alfanivå (högre alfanivå ger högre statistisk power) -Studiedesign (designer som får bort mer brus i data ger högre power - t.ex. beroende mätning som får bort individuell variation mellan deltagarna - inomgruppsdesign) - Typ av test (parametiska test har ofta något högre power än icke-parametiska test givet att deras antagande är uppfyllda)

Answer 114

Hur ofta vi testar sanna hypoteser.

Answer 115

Extremvärden kan ofta ha oproportionerligt stor påverkan på statistiska test. En vanlig tumregel för att identifiera extremvärden är att sätta en gräns tre standardavvikelser från medelvärdet.

Answer 116

Ta bort värdena eller använda icke-parametriska test

Answer 117

Det enklaste sättet att öka power är för det mesta ett större stickprov.

Answer 118

Eftersom vi inte vet prior - hur ofta vi testar sanna effekter, så kan vi inte uttala oss om sannolikheten att få ett signifikant resultat är en sann effekt.

Answer 119

Vid signifikansprövning av många hypoteser på en given signifikansnivå finns en betydande risk för att man felaktigt förkastar en eller flera sanna nollhypoteser. Kan korrigeras med hjälp av Bonferroni-korrigering.

Answer 120

- Publikationsbias - p-hacking - HARKing - Felanvänd statistik (alla dessa hänger ihop med massignifikans)

Answer 121

Dela alfanivån (a) med antalet test som görs (k), då kommer sannolikheten för minst ett signifikant resultat (om alla test testar sanna H0) som mest vara (a) igen.

Answer 122

Publikationsbias är tendensen att publicera endast de forskningsresultat som visar signifikanta eller "positiva" effekter, medan studier med icke-signifikanta eller negativa resultat ofta förblir opublicerade.

Answer 123

P-hacking refererar till metoder där forskare manipulerar sina data eller analysmetoder för att uppnå ett signifikant p-värde (ofta under 0,05) och hitta statistiskt signifikanta resultat i sin studie. Detta är en form av datamanipulation som kan leda till publicering av falskt positiva resultat Detta kan inkludera att testa många olika hypoteser, justera datainsamlingen, eller använda olika analysmetoder tills man hittar ett "positivt" resultat.

Answer 124

HARKing innebär att forskare formulerar hypoteser efter att resultaten har erhållits, och sedan presenterar dessa hypoteser som om de hade formulerats i förväg.

Answer 125

En term som används för att beskriva olika tekniker som forskare kan använda för att öka chanserna att hitta statistiskt signifikanta resultat i sin studie, även om resultaten faktiskt inte är meningsfulla. Detta är en form av datamanipulation som kan leda till publicering av falskt positiva resultat

Answer 126

Om vi väljer ut de deltagare som fått högst (eller lägst) resultat på ett test, då kommer deras resultat på nästa test hamna närmare medelvärdet. Exempelvis: Om vi slår en massa tärningar och väljer ut de som slog 6 och sedan slår igen kommer de få ett lägre resultat i snitt. Så länge det finns någon grad av slumpmässighet kommer det att finnas någon grad av regression mot medelvärdet.

Answer 127

En percentil (P) är det värde vilket en viss procentandel av fördelningen ligger. De percentiler som delar datamängden i fjärdedelar kallas kvartiler (Q1, Q2, Q3). 50:e percentilen = medianen 25:e percentilen (P25) = 1:a kvartilen (Q1), kallas den undre 75:e percentilen (P75) = 3:e kvartilen (Q3)

Statistik Flashcards

(153 cards)