Forskningsmetod: Statistik (2,5 hp) Flashcards
Vad är deskriptiv statistik?
Deskriptiv statistik beskriver variablerna som mätts i ett stickprov. Detta görs genom att använda sammanfattande värden (t.ex. medelvärde) och grafer (t.ex. histogram/boxplot).
Vad är en population?
En population är alla möjliga “deltagare” av det vi är intresserade av (t.ex. alla högskolestudenter i Sverige).
Vad är inferentiell statistik?
Inferentiell statistik försöker använda stickprovet för att dra slutsatser om population.
Använder statistiska test, p-värden, konfidensintervall.
Redovisa deskriptiva statistiken (centralmått/spridningsmått) även om målet är inferentiell statistik.
Vad är ett stickprov?
Ett stickprov är de deltagare från populationen som vi faktiskt observerar och gör mätningar på.
- Låg representativitet → svårt dra inferentiella slutsatser
- Mätfel i stickprovet → även svårt att ge bra deskriptiv statistik (Kan bero på felaktiga mätinstrument, felaktig datainsamling, eller att deltagarna i stickprovet inte svarar ärligt eller korrekt.)
Vad bör man kontrollera för i ett stickprov?
-
Mätfel eller orimliga värden:
Finns det felaktiga data som behöver korrigeras eller tas bort? -
Representativitet:
Är stickprovet representativt för den population du vill studera? -
Confounding variabler:
Finns det andra faktorer som kan påverka resultaten och behöver kontrolleras för?
Vad är en variabel?
En variabel är något vi mäter i vårt stickprov, t.ex. kön, längd eller resultat på en personlighetsskala.
Vad är en parameter?
En parameter är ett ”sant” värde i populationen, t.ex. sanna medelvärdet för alla
högskolestudenter i Sverige.
Vad är populationsmedelvärde (μ)?
Populationsmedelvärde (μ) är det sanna genomsnittliga värdet för en viss variabel i en hel population.
Exempel på parameter.
Vad är populationsstandardavvikelse (σ)?
Populationsstandardavvikelse (σ) är det sanna måttet på spridningen av en variabel i hela populationen. Den visar hur mycket värdena i populationen i genomsnitt avviker från populationsmedelvärdet (μ).
Exempel på parameter.
Vad är ett estimat?
Ett estimat är en uppskattning av en parameter i populationen, baserat på data från stickprovet. Till exempel är stickprovsmedelvärdet ett estimat av populationsmedelvärdet.
Vad är nominalskala?
Nominalskala är den enklaste skalnivån och används för att kategorisera data utan någon inneboende ordning, t.ex. kön (man, kvinna).
Vad är ordinalskala?
Ordinalskala innebär att data kan rangordnas, men avståndet mellan olika rangordningar är inte meningsfullt, t.ex. placering i en tävling (1:a, 2:a, 3:a).
Vad är intervallskala?
Intervallskala innebär att data kan rangordnas och avståndet mellan olika värden är meningsfullt, men det finns ingen absolut nollpunkt, t.ex. temperatur i celsius.
Vad är kvotskala?
Kvotskala innebär att data kan rangordnas och att avstånden mellan värden är meningsfulla, samt att skalan har en absolut nollpunkt, t.ex. längd i centimeter.
Vad är centralmått?
Ett centralmått beskriver den övergripande positionen eller “tyngdpunkten” i en datamängd. Vanliga centralmått är typvärde, median och medelvärde.
Vad är ett typvärde?
Typvärdet är det värde som förekommer flest gånger i en datamängd.
Beskriver vilket värde som är mest representativt eller vanligast.
Vad är median?
Medianen är det mittersta värdet i en sorterad datamängd.
Vad är medelvärde?
Ett medelvärde är det genomsnittliga värdet i en datamängd, man summerar alla värden och dividerar resultatet med antalet värden.
Vad är spridningsmått?
Ett spridningsmått (samlingsnamn) beskriver hur utspridda värdena är i en datamängd/variabel.
Vanliga spridningsmått är variationsbredd, percentiler, kvartiler, standardavvikelse och varians.
Vad är variationsbredd?
Variationsbredden är skillnaden mellan det högsta och det lägsta värdet i en datamängd.
Vad är percentiler?
Percentiler delar en ordnad datamängd i 100 lika stora delar. Varje percentil motsvarar en specifik position i data, till exempel anger den 90
percentilen att 90 % av värdena ligger under detta värde och 10 % ligger över.
Vad är kvartiler?
Kvartiler delar en ordnad datamängd i fyra lika stora delar.
De viktigaste kvartilerna är:
- Första kvartilen (Q1): 25 % av värdena är lägre än detta värde.
- Andra kvartilen (Q2): Motsvarar medianen, där 50 % av värdena är lägre.
- Tredje kvartilen (Q3): 75 % av värdena är lägre än detta värde.
Vad är z-värde?
Z-värde visar hur många standardavvikelser en observation ligger från medelvärdet i en normalfördelad variabel.
Vad är varians?
Varians är ett mått på hur spridda värdena i en datamängd är runt medelvärdet. Det beräknas som medelvärdet av de kvadrerade avvikelserna från medelvärdet.
Om variansen är liten, är alla värden nära medelvärdet.
Om den är stor, är värdena utspridda långt från medelvärdet.
För att räkna ut variansen:
- Ta varje värde och räkna ut hur långt det är från medelvärdet (detta kallas avvikelsen).
- Kvadrera dessa avvikelser (gör dem positiva).
- Räkna ut medelvärdet av de kvadrerade avvikelserna.
Vad är standardavvikelse?
Standardavvikelsen är ett mått på den genomsnittliga variationen i en datamängd, det vill säga hur mycket värdena avviker från medelvärdet.
Vad är normalfördelning?
Normalfördelningen är en viktig statistisk fördelning som är symmetrisk och klockformad.
Många variabler i naturen är ungefär normalfördelade, t.ex. längd och IQ är ungefär normalfördelade.
Vilka är stegen i en statistisk analys?
- Klargör syftet med analysen.
- Definiera mått/skala, statistiskt verktyg och stickprov.
- Redovisa deskriptiv statistik för variablerna i stickprovet.
- Genomför inferentiell statistik (om det är målet med analysen).
- Tolka resultaten.
Hur påverkar skalnivån valet av statistik/statistiska tester?
Skalnivån på dina data påverkar vilka statistiska test som är lämpliga att använda:
Lägre skalnivåer (nominal och ordinal)
- Använder oftast icke-parametriska test. Kräver inga antaganden.
Högre skalnivåer (intervall och kvot)
- Tillåter användning av parametriska test, som kräver mer information om data. Kräver att datan är normalfördelad, med homogen varians.
Vad är ett histogram?
Ett histogram visar fördelningen av en kontinuerlig variabel genom att dela in datan i intervall och visa antalet observationer i varje intervall.
Vad är en barplot (stapeldiagram)?
En barplot visar frekvensen eller antalet observationer för varje kategori av en kategorisk variabel.
T.ex. människor med olika yrken
Vad är en scatterplot (spridningsdiagram)?
En scatterplot visar sambandet mellan två variabler genom att plotta varje observation som en punkt i ett diagram.
Vad är en boxplot (lådagram)?
En boxplot visar medianen, kvartilerna, och extremvärden i en datamängd, vilket ger en överblick över datans fördelning.
Hur tolkar man en korrelation?
Korrelationens styrka mäts från -1 till +1. En korrelation nära +1 indikerar ett starkt positivt samband, nära -1 ett starkt negativt samband, och nära 0 ett svagt eller inget samband.
Vad är Pearsons korrelationskoefficient (r)?
Pearsons r mäter styrkan och riktningen på ett linjärt samband mellan två variabler.
När är Spearmans rangkorrelation lämplig att använda?
Spearmans rangkorrelation används när:
- Data inte är normalfördelad
- När det finns extremvärden
- När data är på ordinalskala (data kan rangordnas, avståndet meningslöst, utan absolut nollpunkt).
Vad innebär det att ett stickprovsmedelvärde är väntevärdesriktigt?
Det innebär att medelvärdet för stickprovet är lika med populationens medelvärde.
Vad innebär det att ett estimat är konsekvent?
Att estimatet närmar sig parameterns sanna värde när stickprovsstorleken ökar.
Vad är en riktad/ensidig hypotes?
En ensidig/riktad hypotes förutsäger riktningen på effekten (t.ex., grupp A kommer prestera bättre än grupp B).
Vad är en oriktad/tvåsidig hypotes?
En oriktad/tvåsidig hypotes förutsäger en skillnad men specificerar inte riktningen (t.ex., det kommer vara en skillnad i prestation mellan grupp A och B).
Vad är alfanivå (α)?
Alfanivån är sannolikheten att man felaktigt förkastar nollhypotesen. När den egentligen är sann (Typ I-fel). Vanligtvis satt till 0.05 eller 5%.
Vad innebär replikering?
Att upprepa en studie för att se om resultaten är tillförlitliga och kan generaliseras.
Vad är en confounding variable/förväxlingsvariabel?
Bakomliggande störvariabeln
En confounding variabel är en tredje variabel som påverkar både den oberoende och beroende variabeln och kan snedvrida resultaten.
Skensamband: korrelation mellan X, Y är orsakad av en tredje variabel Z.
Ex: det positiva samband mellan glassätande och drunkningsolyckor. Ju mer glass som äts, desto fler människor drunknar. Vad är confounding variable? Z i det här exemplet, vädertyp.
Vad är skillnaden mellan deskriptiv och inferentiell statistik?
Deskriptiv statistik beskriver stickprovets data, medan inferentiell statistik drar slutsatser om populationen utifrån stickprovet.
När är median och medelvärde ungefär samma?
Om fördelningen av värden är ungefär symmetrisk så är median och medelvärde ungefär detsamma. Om de vanligaste värdena är i mitten är även typvärdet ungefär detsamma.
Vad är skev fördelning i data?
En skev fördelning är när en datamängd inte är symmetriskt fördelad kring medelvärdet.
Datapunkterna är mer samlade på ena sidan av medelvärdet, vilket resulterar i en “svans” som sträcker sig längre åt ena hållet.
Hur uppstår skev fördelning i data?
Skev fördelning uppstår ofta på grund av:
- Extremvärden: Några få ovanligt höga eller låga värden drar fördelningen åt ena hållet.
- Variabelns begränsningar: När en variabel inte kan ha värden under eller över en viss gräns (t.ex. inga negativa värden), kan skevhet uppstå.
- Asymmetrisk population: Fler observationer samlas på ena sidan av skalan (dålig representativitet hos stickprovet).
- Mätfel eller bias: Fel i datainsamling eller urval leder till snedvridning.