Statistik Flashcards
Deskriptiv statistik
Beskriver varieblerna som mätts i ett stickprov.
Det kan handla om sammanfattande värden, t.ex. medelvärde eller korrelation.
Eller grafisk redovisning av variablerna, t.ex. histogram och boxplots.
Inferentiell statistik
Försöker använda stickprovet för att dra slutsatser om populationen man vill undersöka.
Använder statistiska test, p-värden, konfidensintervall.
Vad kräver inferentiell statistik?
För att kunna säga något om den större populationen som stickprovet är taget ifrån krävs ett slumpmässigt draget stickprov, så att alla i populationen har samma chans att hamna i stickprovet.
Population
Alla möjliga deltagare av det vi är intresserade av (t.ex. alla högstadieelever i Sverige), ofta omöjligt att studera till fullo.
Stickprov
De deltagare av populationen vi faktiskt observerar och gör mätningar på.
Parameter
Ett “sant” värde i populationen av en viss egenskap, t.ex. det sanna medelvärdet för alla högstadieelever i Sverige.
Estimat
Värdet vi observerar i stickprovet, t.ex. medelvärdet för våra deltagare.
Variabel
Något som vi mäter i vårt stickprov.
Riktad hypotes
Oriktad hypotes
Nominalskala
Grupperar bara
Ordinalskala
Nominalskala + rangordning
Intervallskala
Ordinalskala + har jämna skalsteg
Kvotskala
Intervallskala + har absolut nollpunkt
Hur påverkar låg representativitet stickprovet?
Det gör det svårt att dra inferentiella slutsatser
Hur påverkar mätfel stickprovet?
Det gör det svårt att ge bra deskriptiv statistik.
På vilka sätt är det viktigt att få en bra bild av stickprovet på?
- om det finns någon spridning i variabeln
- om det finns uppenbara mätfel
- om det finns skillnader mellan grupper
- om det finns andra confounding variabler som kan ha påverkat resultaten
Centralmått
Mått på något normalt (typiskt, genomsnittligt).
Typvärde
Det vanligaste värdet.
Är det enda centralmåttet som går att göras på nominalskala (kan kategoriseras men inte rangordnas).
Median
Det “mittersta” värdet. Delar in fördelningen i två lika stora delar aka den “50e percentilen”.
Aritmetiskt medelvärde
Det genomsnittliga värdet.
Summan av alla observationer på en variabel delat med antalet observationer.
När är medelvärdet och medianen (och typvärdet) ungefär detsamma?
Medelvärdet och medianen är ungefär detsamma om fördelningen av värden är ungefär symmetrisk.
Om de vanligaste värdena är i mitten är också typvärdet ungefär detsamma.
När skiljer sig median, medelvärde och typvärde (och kan vara missvisande)?
När fördelningen av värden är skev.
Vad innebär det att stickprovsmedelvärdet är väntevärdesriktigt (unbiased)?
Att stickprovsmedelvärdet är väntevärdesriktigt betyder att medelvärdet av alla stickprovsmedelvärden i oändligt upprepade slumpmässigt dragna stickprov kommer vara lika med det sanna populationsmedelvärdet.
Vad innebär det att stickprovsmedelvärdet är ett konsekvent estimat (consistent estimate)?
Att stickprovsmedelvärdet är ett konsekvent estimat innebär att stickprovsmedelvärdet kommer närma sig det sanna populationsmedelvärdet om vi samlar fler och fler observationer.
Hur betecknas populationsmedelvärdet?
Populationsmedelvärdet betecknas ofta μ (mu) istället för x streck
Spridningsmått/variationsmått
Mäter hur utspridda värdena på en variabel är.
Variationsbredd
Skillnaden mellan det högsta och lägsta värdet.
Varians och standardavvikelse
Mått på genomsnittlig variation.
Hur betecknas populations-standardavvikelsen?
Populations-standardavvikelsen betecknas ofta σ (sigma) istället för 𝑠
Z-värden
Hur många standardavvikelser från medelvärdet som en observation är.
Vad innebär z x,i = 1.2?
z x,i = 1.2 betyder att observation i på x-variabeln är 1.2 x-standardavvikelser över x-medelvärdet
Vad innebär z y,i = -0.7?
z y,i = -0.7 betyder att observation i på y-variabeln är 0.7 y-standardavvikelser under y-medelvärdet.
Vad ändrar z-värden på och vad ändrar de inte på?
Z-värden ändrar bara enheten på variabeln, inte ordning eller intervall. (standardiserar data och gör det enklare att jämföra variabler med varandra)
När ger z-värden information om sannolikheten?
Om variabeln är ungefär normalfördelad.
Normalfördelning
Viktig fördelning för inferentiell statistik.
Många variabler är ungefär normalfördelade, t.ex. längd och reaktionshastighet.
Vad bestäms normalfördelningen av?
Dess medelvärde och standardavvikelse.
Vad vet vi om vi vet en normalfördelad observations z-värde?
Då vet vi hur vanligt det är att få observationer längre ifrån medelvärdet än detta.T.ex. om z=-2 är det bara 2.3% chans att få en lägre observation.
Det är 95% chans att få ett z-värde mellan (om variabeln är normalfördelad):
Det är 95% chans att få ett z-värde mellan -1.96 och +1.96 om variabeln är normalfördelad.
Frihetsgrader
Barplot
Är en frekvensgraf.
Antalet observationer för varje värde på en begränsad kategorisk variabel. Har mellanrum mellan staplarna.
Kategorisk variabel
Kan bara anta ett visst antal (ofta litet) antal värden, t.ex. antal: 0, 1, 2 osv
Histogram
Är en frekvensgraf.
Antalet observationer i olika spann av värden för en (mer) kontinuerlig variabel. Har inga mellanrum.
Används även för kategoriska variabler med många möjliga värden där det underlättar tolkningen att dela in det i spann av värden.
Kontinuerlig variabel
En variabel vars värden kan anta alla värden inom ett spann.
Boxplot (lådagram)
Delas upp i kvartiler och percentiler, mitten är medianen.
Percentiler och kvartiler
En percentil (P) är det värde vilket en viss procentandel av fördelningen ligger.
De percentiler som delar datamängden i fjärdedelar kallas kvartiler (Q1, Q2, Q3).
50:e percentilen = medianen
25:e percentilen (P25) = 1:a kvartilen (Q1), kallas den undre
75:e percentilen (P75) = 3:e kvartilen (Q3)
Första kvartilen (Q1)
25:e percentilen (P25). 25% av värdena är under Q1.
50:e percentilen (andra kvartilen (Q2) )
50:e percentilen är lika med medianen. 50% av värdena är under Q2 (medianen).
Tredje kvartilen (Q3)
75:e percentilen (P75). 75% av värdena är under Q3.
Interquartile range (IQR)
50% procent av värdena är mellan Q1 och Q3.
Scatterplot
Visar värden på två variabler samtidigt, bra för att se samband.
Korrelation
Ett mått på samvariation, hur mycket två variabler hänger ihop med varandra. Kan vara positiv (högre värden på en variabel hänger samman med högre värden på en annan variabel) eller negativ (högre värden på en variabel hänger samman med lägre värden på en annan).
Ju närmare korrelation är 0, desto svagare är sambandet. Ju närmare korrelationen är –1 eller +1, desto starkare är sambandet.
Ju mer “samlade” prickarna är desto starkare är korrelationen, och ju mer “spridda” prickarna är desto svagare är den.
Pearsons produktmomentkorrelationskoefficent (r)
Mäter styrkan på linjära samband mellan variabler. Kan maximalt vara –1 eller +1, beroende på om sambandet är negativt respektive positivt. Ju närmare korrelation är 0, desto svagare är sambandet. Ju närmare korrelationen är –1 eller +1, desto starkare är sambandet. Om det inte finns något samband närmar sig r = 0.
Mäter endast linjära samband.
Påverkas mycket av extremvärden.
Vad påverkas Pearsons produktmomentkorrelationskoefficent (r) mycket av?
Pearsons produktmomentkorrelationskoefficent (r) påverkas mycket av extremvärden.
Vad kräver Pearsons produktmomentkorrelationskoefficent (r) ?
Pearsons produktmomentkorrelationskoefficent (r) kräver tillräckligt med variation i båda variablerna.
Vad är enligt Cohen en svag, medelstark och stark korrelation?
Svag korrelation: r > 0.10
Medelstark korrelation: r > 0.30
Stark korrelation: r > 0.50
(är dock godtyckligt, korrelationernas praktiska betydelse beror på vilka variablerna är)
Är relevant om korrelationerna är statistiskt signifikant!
Statistisk signifikans
Ifall resultatet (exempelvis korrelationen) är betydelsefull eller inte.
När en skillnad eller ett samband är statistiskt signifikant kan man säga att skillnaden eller sambandet inte kan förklaras av slumpen, och därför är det sannolikt att skillnaden eller sambandet är verkligt. Används för att avgöra om resultatet i en studie är betydelsefullt eller inte.
Vad beror gränsvärde på?
Gränsvärdet beror på antalet frihetsgrader (som för korrelationer är n-2).
Vad ger större frihetsgrader?
Desto större frihetsgrader, desto närmare kan stickprovskorrelationen vara noll och ändå vara statistiskt signifikant.
p-värde
Man använder sig av p-värdet gör att avgöra om en skillnad eller ett samband är statistiskt signifikant.
Vad är p-värdet ett mått på?
P-värdet är en mått på hur sannolikt det är att observationen är en slump, och det beräknas genom att jämföra resultatet från studien med vad man skulle förvänta sig att se om alla förutsättningar för studien är sanna.