statestik 2 Flashcards

1
Q

t-test:

A

Testar om medelvärde skiljer sig från ett visst värde (oftast 0). Logiken bakom: Skiljer sig de två medelvärdena vi vill jämföra (H1) eller inte (H0)? Vi vill veta om de två olika observationerna har samma fördelning (i termer av medelvärdet) eller inte. För att göra det räknar vi ut hur osannolika våra observationer vore om H0 stämmer (att de har samma medelvärde). Om vårt resultat är tillräckligt osannolikt (lägre än 5%) ”förkastar” vi H0. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

T-fördelning

A

Handlar om beräkning av konfidensintervall när vi har en okänd standardavvikelse. När standardavvikelsen är okänd använder vi t-fördelningen för att beräkna konfidensintervall, som har samma form men representerar större osäkerhet. t-fördelningens exakta form beror på antalet frihetsgrader (degrees of freedom = df), ju fler frihetsgrader desto mer lik den normalfördelningen. t-värden i en t-fördelning motsvarar z-värden i en normalfördelning. t-fördelningen används för att göra t-test. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

stickprov

A

De deltagare vi faktiskt observerar och gör mätningar på.


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Signifikanstesting

A


Signifikanstestning: Även kallat nollhypotestestning. Handlar om att vi vill testa ett visst populationsmedelvärde definierat av nollhypotesen H0. Vi tittar på hur ovanligt resultatet är i vårt stickprov (eller mer extrema resultat) är om H0 var sann. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

scaterplot

A

Värdet på två variabler samtidigt, bra att se samband. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

sampelfördelning

A

Fördelningen mellan stickprov. Kan även användas för annat än medelvärdet tex korrelation. Handlar om resultatet som helhet, sammanfattat av något estimat som beror på alla observationer – inte om enskilda observationer. Därför vill vi veta hur det estimatet fördelar sig över olika stickprov – är resultatet i vårt stickprov ovanligt under H0 tar vi det som ett tecken på att H0 inte stämmer. Använder även ”stora talens lag” (law of large numbers) som säger att (bra) estimat kommer tendera att hamna närmare det sanna populationsvärdet desto större n är. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Riktad hypotes

A

Vi säger att effekten kommer gå åt ett visst håll. Tex ”Grupp 2 har högre poäng på variabeln än grupp 1”. Riktade hypoteser har lägre kritiska gränser (som motsvarar alfanivå tex 1,96 för tvåsidig alfanivå 0,05) eftersom de bara gränsar åt ett håll. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Power

A

Hur ofta testet klassificerar sanna hypoteser som sanna. Påverkas av bland annat alfanivån, typ av test, stickprovets storlek, studiedesignen, effektstorleken i populationen och standardavvikelsen i populationen. 



How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Posterior

A

Sannolikheten att en effekt vi tror på (alltså en signifikant effekt) är sann på y-axeln. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Population

A

Alla möjliga ”deltagare” av det vi är intresserade av (tex högskolestudenter i Sverige), ofta omöjligt att studera till fullo. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

P-hacking

A

Ett statistiskt problem som är kopplat till replikationskrisen och massignifikans. Endast signifikanta resultat publiceras. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Percentiel/kvartiler

A

Hur många procent/kvartiler av värdena som ligger under det värdet. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Pearson’s korrelationskoefficient

A

arametiskt test. Mäter styrkan på linjära samband mellan variabler. Antaganden: Intervall eller kvotskala, parvisa mätningar (bivariant), normalfördelade populationsvärden, linjärt samband och inga extremvärden. Påverkas mycket av extremvärden. Desto starkare korrelation, desto närmare kommer observationerna följa en rak linje, när korrelationen är svagare kommer observationerna vara mer utspridda utanför linjen. 
Eftersom det hamnar mellan -1 och +1 är det en standardisering av korrelation. Här vill vi se hur ovanligt det vore att få minst en så pass stark korrelation vi har fått i stickprovet om korrelationen i populationen var lika med noll. Om tillräckligt ovanligt (vanligtvis lägre än 5% chans) så tas detta som en indikation på att korrelationen i populationen inte är noll. 



How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Parametrisk test

A

Ett typ av test som förutsätter vissa saker hos datan. Exempelvis att datan är på intervall- eller kvotskala samt att det är normalfördelade populationsvärden. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Parameter

A

Ett ”sant” värde i populationen tex sanna medelvärdet för populationen. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Ryktad hypotes

A

Om inferentiell statistik: vad är vår hypotes? Oriktad hypotes innebär att man inte specificerar en särskild riktning för effekten. Tex ”det finns skillnad mellan två grupper i variabeln”. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Ordinalskala

A

Här har vi data där vi kan rangordna och jämföra, men skillnaden mellan varje enhet är inte konstant eller definierad. Exemplet inkluderar betygsskala (tex låg, medel, hög) eller enkäter med svarsalternativ som ”mycket oenig, oenig, neutral, enig, mycket enig”. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Oberoende t-test

A

Parametiskt test. Vi vill jämföra två olika grupper. Antaganden: Intervall- eller kvotskala, oberoende mätningar, normalfördelade populationsvärden och homogena populationsvarianser. Vi vill se hur många standardfel bort från H0 som vår observation är (differensen mellan våra medelvärden), om tillräckligt många är det ovanligt att observera, och vi tar stöd mot H0. Större t-värde än kritiskt värde = statistiskt signifikant. 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Normalfördelning

A

Viktig för fördelning av inferentiell statistik. Normalfördelningen bestäms av dess medelvärde och standardavvikelse. Vet vi en normalfördelad observationens z-värde så vet vi hur vanligt det är att få observationer längre ifrån medelvärdet än detta. De vanligaste testen som används antar att variabler är normalfördelade. 


20
Q

Nominalskala

A

Detta är den enklaste formen av mätning där data bara kan sorteras i kategorier eller grupper. Exempelvis kön eller färg. Man kan bara säga om två värden är lika eller olika men det finns ingen naturlig rangordning. 


21
Q

Nollhypotesen

A

Säger att det inte finns någon skillnad. Det är denna hypotes som vi förkastar när vi får ett statistiskt signifikant resultat.

22
Q

Median

A

Det mittersta värdet av data. Kräver minst ordinalskala. 


23
Q

Medelvärdet

A

Det genomsnittliga värdet i datan. 


24
Q

Massignifikant

A

Ett begrepp inom statistiken som innebär att när man utför många signifikansprövningar samtidigt på en given signifikansnivå (tex 5%) finns en ökad risk att felaktigt förkasta en eller flera sanna nollhypoteser. Detta innebär att man kan dra felaktiga slutsatser om det faktiska sambandet eller skillnaden mellan variabler på grund av den stora mängden tester. 



25
Q

Mann-Whitney

A

Icke-parametiskt test. Jämför två grupper på en (gemensamt) rangordnad variabel. Testar alltså om rangerna i en grupp tenderar att vara högre än rangerna i den andra. Dvs H0: Det finns ingen skillnad i rang mellan grupperna (i populationen), H1 (tvåsidig): Det finne en skillnad i rang mellan grupperna. 


26
Q

Kvotskala

A

Här har vi mätningar där både skillnader mellan värdena och den absoluta nollpunkten är meningsfulla. Tex längd, vikt och tid. Skillnaden mellan 10 och 20 kg är lika stor som mellan 30 och 40 kg och noll kg representerar frånvaro av vikt. 


27
Q

Korrelation

A

Ett mått på samvariation. Desto starkare sambandet är, ju närmre är korrelationen 1 (för positiva korrelationer) eller -1 (för negativa korrelationer). 


28
Q


Intervallskala

A

Denna skala har mätningar där skillnaderna mellan värdena är konstanta, men det finns ingen absolut nollpunkt. Temperatur i Celsius är ett exempel på en variabel med intervallskala – 10 grader Celsius är inte variabel med intervallskala – 10 grader Celsius är inte ”dubbelt så varmt” som 5 grader Celsius. Här kan vi räkna ut medelvärde, standardavvikelse osv. 



29
Q

Inferentiel statistik:

A

Säga något om den större populationen som stickprovet är draget ifrån. Använder statistiska test, p-värden och konfidensintervall. 


30
Q

Hypotestestning

A

I allmänhet brukar man i statistik dela upp sina hypoteser i om en effekt går i en riktning eller inte (men kan även göras mer allmänt, tex om effekten är större än 0,4 eller inte). Sanna hypoteser blir de där en effekt går i den förväntade riktningen, medan falska hypoteser är att det inte går i den riktningen. Om vi inte har 100% säkra test vill vi veta hur säker kunskap vi får av testet. Kräver kunskap om tre saker: power, prior och alfanivå. När vi sätter H0 till ett visst värde (tex ingen effekt) så vi kan skapa test med en viss alfanivå förutsatt att testets antaganden stämmer. 


31
Q

Histogram

A

Antalet observationer i olika spann av värden för en (mer) kontinuerlig variabel. Förutsätter att vi har rangordning i datan (dvs minst ordinalnivå). 


32
Q

HARking

A

Ett statistiskt problem som är kopplat till repliktionskrisen och massignifikans. Hypotesen skapas i efterhand. 


33
Q

Effektstorlek

A

Standardiserade mått på styrkan hos effekter. Användbart då man har variabler vars tolkning inte är uppenbar.

34
Q

Deskripitv statestik

A

Deskriptiv statistik handlar om att beskriva och summera data från ett stickprov på ett sätt som ger en översiktlig bild av dess egenskaper. Det fokuserar på att ge en översikt av datans centrala egenskaper och spridning.

Statistik som beskriver variablerna som mäts i ens stickprov. Handlar mycket om centralmått ex median och medelvärde och grafer ex histogram och boxplot.


35
Q


Chi-två test

A

Icke-parametiskt test. Har inte något motsvarande parametiskt test. Används om man vill titta på samband mellan två variabler/skillnader i en variabel hänger samman med skillnader i en annan variabel, men dessa variabler bara är på nominalskalenivå. I chi-två test är data upplagt i en frekvenstabell. 


36
Q

Centralmått

A

Mäter den övergripande ”positionen”/”läget” för en variabel. Kallas ibland därför för lägesmått. 


37
Q

Centrala gränsvärdessatsen:

A

”Om ett stickprov med n observationer är draget slumpmässigt från populationen och om variabeln som mäts hos de observationerna har en ändlig varians, så kommer fördelningen för medelvärdet mellan stickproven närma sig en normalfördelning när n ökar vad än original-fördelningen är för variabeln”. Ju större stickprov, desto närmare normalfördelning. Variabeln behöver inte vara normalfördelad i populationen, men medelvärdet av de olika stickprovens medelvärde kommer bli normalfördelad.


38
Q

Estimat

A

Ett estimat är det värde eller den uppskattning som beräknas från ett stickprov och som används för att försöka närma sig eller uppskatta en parameter i populationen. Till exempel kan medelvärdet för de studenter du faktiskt har mätt betraktas som ett estimat av det sanna medelvärdet i populationen.

39
Q

Vad är z-värde?

A

Z-värden är ett mått som används inom statistik för att kvantifiera avvikelsen mellan en specifik datapunkt och medelvärdet i en datamängd, uttryckt i termer av standardavvikelsen. Z-värdet används i samband med normalfördelningen (även känd som Gaussisk fördelning) och är en viktig komponent inom statistik och inferentiell statistik. Det hjälper oss att förstå hur avlägsen en observation är från genomsnittet i termer av standardavvikelsen och ger oss ett sätt att jämföra observationer på olika skalor.

40
Q

Regression

A

Regression är en statistisk metod som används för att modellera sambandet mellan två variabler, vanligtvis en beroende variabel (Y) och en oberoende variabel (X). Den mest grundläggande formen av regression kallas enkel linjär regression

41
Q

Standardavvikelsen

A

Standardavvikelsen mäter spridningen eller variationen av datan.
Den beräknas genom att ta roten ur varians (genomsnittlig kvadrerad avvikelse från medelvärdet).
En hög standardavvikelse indikerar att datan är mer spridd från medelvärdet, medan en låg standardavvikelse indikerar att datan är närmare medelvärdet.
Standardavvikelsen används ofta för att bedöma spridningen i en normalfördelning.

42
Q

Typvärde

A

Typvärdet är det värde som förekommer oftast i en datamängd.
En datamängd kan ha en modus (unimodal), flera modus (multimodal), eller inga modus alls om alla värden är unika.
Typvärdet är särskilt användbart för att beskriva frekvensen av kategoriska eller diskreta värden.

43
Q

Extremvärden

A

Extremvärden, även kända som utliggare eller avvikande värden, är observationer i en datamängd som avviker signifikant från de övriga observationerna. Dessa värden ligger långt från det genomsnittliga eller förväntade värdet i datan och kan påverka analyser och resultat om de inte hanteras korrekt.

44
Q

Varationsbredd

A

:Ett sätt att mäta spridningen är att beräkna skillnaden mellan det största och minsta värdet. Detta mått kallas variationsbredd. Det beräknas genom att subtrahera det minsta värdet från det största.
Variationsbredd=största värdet - minsta värdet

45
Q

Spearmans rangkorrelationskoefficient

A

Spearmans rangkorrelationskoefficient: Mäter graden av monoton (icke-linjär) samband mellan två variabler.
Använder rankade värden istället för de faktiska observationerna, vilket gör den mindre känslig för extremvärden.
Mindre kraftfull än Pearsons korrelation för att upptäcka linjära samband men mer flexibel för att identifiera andra typer av samband.