FORSKNINGSMETODIK STATISTIK Flashcards
Vad är deskriptiv statistik?
sammanfattande värden centralmått ex aritmetiskt medelvärde, typvärde, median, z-värden, korrelation, spridningsmått (variationsbredd, perceptiler/kvartiler, standardavvikelse/varians), grafisk redovisning av variablerna ex barplot (frekvensgraf), histogram (frekvensgraf), boxplot, scatterplot
- används för att beskriva variablerna i ett stickprov
- ska redovisas även om målet är inferentiell statistik
- viktigt att få en bild av stickprovet (finns det spridning? uppenbara mätfel? skillnader i grupper?)
Vad är inferentiell statistik?
statistiska test, hypotestestning, p-värden, konfidensintervall
- dra slutsatser om populationen utifrån stickprovet
Vad är en parameter?
ett “sant” värde i populationen, ex sanna medelvärdet för alla studenter i Sverige (praktiskt “omöjligt” att veta ett sant värde pga kan inte testa på alla invånare + ovidkommande variaber)
Vad menas med estimat?
värdet vi observerar i stickprovet ex medelvärde för deltagare (värdet vi estimerar i stickprovet)
Vad är ett spridningsmått?
mäter hur utspridda värdena på en variabel är
variationsbredd: skillnad mellan högsta och lägsta värdet
percentiler/kvartiler: ett sätt att dela upp data i en serie i 4 lika stora delar, hjälper oss att se hur data är fördelad
standardavvikelse/varians: mått på genomsnittlig variation
- standardavvikelse beskriver hur mycket data i ett dataset varierar kring medelvärdet, desto högre standardavvikelse ju mer utspridda värden. Låg= desto närmare är det medelvärdet
- relevant pga: kan dra mer detaljerade slutsatser om data
vad innebär att standardisera?
omvandla data så de har ett gemensamt medelvärde och gemensam standardavvikelse.
Relevant pga: gör det möjligt att jämföra olika data på samma skala (gör dock inte data normalfördelad om den inte var det från början???
Vad menas med z-värden?
konverterar till samma enhet, mått som beskriver hur långt ifrån medelvärdet en observation befinner sig i data uttryckt i antal standardavvikelser. Ett z-värde på 0 = samma som medelvärdet, z-värde på -1 = ligger 1 standardavvikelse under medelvärdet
- används för att standardisera värden och jämföra dem även om det är variabler med olika skalor/enheter
- ju större negativt/positivt z-värde ju längre är observationen från medelvärdet
- det är 95% chans att få ett z-värde mellan -&+ 1.96
- används pga lättare att jämföra olika observationer
Vad innebär normalfördelning?
vanlig fördelning som beskriver hur data är fördelat runt ett medelvärde, flesta observationer ligger kring medelvärdet och färre länge ifrån. symmetrisk klockformad kurva
- medelvärde, median och typvärde är samma i en normalfördelning
- avståndet från medelvärdet mäts i standardavvikelser ca 68% av värdena ligger inom en standardavvikelse från medelvärde och 95% inom två standardavvikelser (chattis)
- relevant pga: gör det möjligt att använda bra statistiska verktyg ex hypotesprövning, konfidensintervall eftersom det bygger på att data är normalfördelade, en grundsten i statistik för att dra säkra slutsatser om data
Vad är korrelation?
mäter hur 2 variabler är relaterade till varandra, ett mått som beskriver styrka och riktning av sambandet mellan dem.
- relevant pga: grundläggande verktyg i sttistik, identifierar och mäter samband mellan variabler, kan ge värdefulla insikter, förutsägelser, kan vara utgångspunkt för ytterligare forskningsfråga
Pearsons produktmomentkorrelationskoefficient r?
mäter styrkan på linjära samband mellan variabler, går från -1 till +1. 0 = inget samband. Mäter endast linjära samband, påverkas mycket av extremvärde, kräver tillräckligt med variation i båda variabler (parametriskt test)
Spearmans rangkorrelationskoefficient rs?
mäter sambandet mellan två variabler baserat på deras rangordning, används när data inte är normalfördelad (alltså inte uppfyller kraven för pearsons r), påverkas mindre av extremvärden, kan upptäcka både linjära och icke linjära samband. (icke-parametriskt test)
Vad är regression?
undersöker hur en variabel påverkas av en eller fler andra variabler och används för att predicera framtida värden. Linjär regression är den enklaste formen där sambandet mellan variablerna visas med en rak linje.
- Ex: undersöker sambandet mellan antalet timmar man studerar och provresultat, kan vi med hjälp av regression försöka förutsäga ditt resultat baserat på hur många timmar du studerar. (beror på pearons r och därmed också påverkad av extremvärden)
- Regression hjälper oss att analysera och förutsäga hur en variabel påverkas av andra variabler
Vad menas med väntevärdesriktigt?
en väntevärdesriktig skattning ger i genomsnitt “rätt” värde av en parameter och är fri från systematiska fel.
- Ex: uppskatta medelåldern i Uppsala, tar stickprov på 100 pers och beräknar genomsnittsåldern, väntevärdesriktighet: om stickprovsmedelvärdet i genomsnitt stämmer överrens med sanna medelåldern i stan är metoden väntevärdesriktig. Icke-väntevärdesriktig: om metoden systematistk ger en felaktig ålder (obs ex från chat)
Vad är statistisk signifikans?
ger data stöd för att förkasta nollhypotesen?
mäts ofta med ett p-värde som anger sannolikheten att få det resultat vi fått, eller ett mer avvikande och extremt utfall - anger sannolikheten för resultatet om nollhypotesen är “sann”. Om p-värde < 0,05 förkastas H0.
Omformulera?
Vad är alfanivå?
förutbestämd gräns för statistisk signifikans i ett test ofta 0,05. Om man höjer alfanivå = kan det leda till mer risk för typ I-fel