statistik Flashcards
Pearsons correlation coefficient
ett mått på graden av samvariation mellan två variabler
Förkortas r för stickprov och p för population.
Vanligaste sättet att beräkna en korrelation och mäter graden av linjär samvariation. Ger ett värde mellan -1 och 1.
Yerkes-Dodsons lag
Ett av psykologins äldsta fynd. Postulerar att det råder ett upp-och nedvänt U-samband mellan arousal och prestation. En konsekvens av denna lag blir att varken låg eller hög arousal för optimala förutsättningar för ett gott resultat.
Enligt Pearson r med data skulle vi erhålla en korrelation på 0,001 dvs mycket nära noll, men det stämmer ju inte alls för det finns ju ett starkt samband däremellan. Svaret är att detta samband inte är linjärt och kan därför inte fångas med Pearsons korrelations koefficient
Yerkes-Dodsons lag - är ett icke-linjärt samband.
z-poäng
På samma sätt som vi kan jämföra värdet av två olika valutor (USD och GBP) genom att översätta dom till en gemensam norm, ex svenska kronor, kan vi jämföra värden på helt olika skalor genom att översätta dom till z-poäng (standardpoäng)
Z-poäng - universell norm som kan användas på sådant som är normalfördelat. Ex: om vi översätter vikt och längd till z-poäng kan vi jämföra dom och till exempel säga vilken som är störst.
När används paried-samples t-test? Ange en konkret frågeställning som skulle kunna testas med detta test.
Används när vi vill testa om två olika varabler antas ha samma medelvärde i en population.
Ex: Gillar alla barn i åldern 5 glass lika mycket som de gillar godis?
oberoende variabel
den variabeln som manipuleras eller betraktas som orsaksvariabel. OV
Betecknas ofta med X
Beroende variabel
den variabel som mäts som en effekt av den oberoende variabeln. BV
betecknas ofta Y
olika samband riktningar
Enkelriktat - ökad längd, ökad vikt
Dubbelriktat - studieresultat och hälsa
Samband med mellanliggande variabel (M) - reklam - löning - konsumtion
Skensamband - orsakat av en bakomliggande variabel (z)
Ålder (z)
byxlängd (x) IQ (y)
Punktdiagram
visar sambandet mellan två variabler. Varje individs värden på variablerna x och y ritas som punkter, cirklar, kryss, fyrkanter, etx i ett koordinatsystem.
Scatterplot diagram
Vad är ett svagt, medelstarkt och starkt samband enligt Cohens riktlinjer?
r = 0,10 svagt
r = 0,30 medelstarkt
r = 0,50 starkt samband
determinationskoefficienten
om man kvadrerar r får man dk (r^2) som anger proportion förklarad varians
Spearmans rangkorrelationskoefficient
Är lämplig då man vill beräkna korrelationen mellan snedfördelade variabler, särskilt om stickprovet är litet
kvalitativ metod
data ofta i form av språkliga enheter, bearbetningen är beskrivande och kategoriserande
kvantitativ metod
insamling av siffermässiga data, bearbetningen är matematisk/statistisk
undesökningsdesign
research method
försöksupplägg
experiment
kännetecknas av kontroll över OV och randomisering av undersökningsdeltagare till betingelser
kvasi-experiment
kännetecknas av kontroll över OV men inge randomisering av undersökningsdeltagare till betingelser
icke-experiment
så kallade korrelationsstudier. Varken kontroll över OV eller randomisering av individer till betingelser
undersökningens validitet
i vilken utsträckning man kan lita på slutsatserna från undersökningen
intern validitet
handlar om att man verkligen kan lita på att det var OV och ingenting annat som påverkade BV.
Riktningsproblemet och bakomliggande-variabel-problemet måste beaktas.
extern validitet
Handlar om giltigheten i att göra generaliseringar från det samband mellan OV och BV som påvisats.
Dels till andra sätt att mäta OV och BV, dels till andra miljöer, dels till andra individer än de undersökta.
urvalsmetoder
speciellt vid större frågeformulärsundersökningar (surveys) är det viktigt att man är noggrann med hur man slumpmässigt väljer undersökningsdeltagare till stickprovet.
mätdata
uppmätta variabelvärden
mätinstrumentets reliabilitet
handlar om hur pålitligt instrumentet är för att mäta det som det avser att mäta. Hur litet det påverkas av slumpmässiga fel.
mätinstrumentets validitet
handlar om huruvida instrumentet verkligen mäter det som det ska mäta. Dess giltighet.
dikotom
kan endast anta två värden
kvalitativ
icke numerisk, till exempel en variabel vars variabelvärden uttrycks med ord.
kvantitativ
numerisk, variabel uttrycks med siffror
diskret
sägs om en variabel som bara kan anta vissa värden, ex heltalsvärden
kontinuerlig
sägs om en variabel som kan anta alla värden inom ett intervall
nominaldata
ordinaldata
intervalldata
kvotdata
nominaldata - gäller för kvalitativa variabelvärden som endast kan gruppers. Ex: färger, kön, bostadsort
ordinaldata - gäller för variabler som är uppmätta med en ordinalskala och vilkas variabelvärden endast kan rangordnas. Ingen ekvididtans. ex längd
intervalldata - gäller för variabler som är uppmätta med en intervallskala och vilkas variabelvärden har lika stora steg, men ingen absolut nollpunkt. Ex grader celcius
kvotdata - gäller för variaber som är uppmätta med kvotskala och vilkas variabelvärden har lika stora steg, samt en absolut nollpunkt. ex: läng, vikt (inget negativt värde)
statistisk inferens
slutledning
spridningsmått
sammanfattande mått över hur mätvärdena är utspridda i datamängden
variationsbredd
range
det högsta och det lägsta värdet i datamängden
kvartilavstånd
Beräknas som differensen mellan den tredje och den första kvartilen. I en symmetrisk fördelning beskriver medianen +- kvartilavvikelsen det avstånd som täcker in 50 % av observationerna runt medianen.
standardavvikelse
är på sätt och vis ett mått på observationernas genomsnittliga avstånd från medelvärdet.
Standardavvikelsen är kvadratroten ur variansen.
Stickprovsvariansen är det väntevärdesriktiga estimatet av populationsvariansen.
frihetsgrader
antal frihetsgrader är det antal värden som återstår, som har frihet att variera, när man subtraherat det totala antalet restriktioner från antalet värden. En restriktion eller begränsning orsakas av ett mått som beräknats från värdena (till exempel medelvärdet)
variationskoefficienten
Kallas också för den relativa spridningen, och anges ofta i procent.
spridningsmått eller variationsmått
+ de vanligaste spridningemåtten 4x
de mått som beskriver spridningen
1. variationsbredd (range)
2. kvartilavvikelse
3. standardavvikelse
4. varians
Vilket spridningsmått man bör välja hänger dels samman med vilken datatyp variabelvärdena har (nominal, ordinal, intervall eller kvotdata), dels med fördelningsformen utseende.
Variationsbredd (range)
range = X max - X min
Ex: För kardiolog är det av intresse att veta en individs enskilda frekvensvärde och sätta i relation till individens variationsbredd i hjärtfrekvens.
percentiler, kvartiler och kvartilavvikelse
En percentil är det värde under vilket en viss procentandel av fördelningen ligger och brukar betecknas med stora P.
T.ex: medianen utgör den den 50:e percentilen, P50 och den 10:e, P10, o.s.v.
De percentiler som delar datamängden i fjärdedelar kallar kvartiler. (q1, q2, q3). Medianen P50 motsvarar q2, q1 är P25 och q3 är P75.
q1 och q3 är medianer i nedre och övre hälften
kvartilavstånd
ett spridningsmått som utnyttjar kvartilerna (q3-q1)
kvartilavvikelse: (q3-q1)/2
median
Vad handlar inferentiell statistik eller hypotesprövningar om?
Det handlar om att dra slutsatser om populationer utifrån observationer i stickprov.
Vad går logiken bakom hypotesprövning ut på?
- Man ställer upp en alternativhypotes, H1, som säger att det finns ett visst samband eller skillnad eller effekt mellan två eller fler variabler.
- Man gör om alternativhypotesen till en nollhypotes H0, som säger att det inte finns något samband eller skillnad eller effekt mellan dessa variabler.
- Sedan utgår man från att nollhypotesen är sann. Man samlar in data från ett stickprov och gör beräkningar på dessa data och tar reda på om data är förenliga med nollhypotesen (ingen skillnad). Är data oförenliga med nollhypotesen förkastar man nollhypotesen och säger sig ha fått stöd för alternativhypotesen.
Ett exempel:
- Alternativhypotes: Jag tror att fler träningspass i veckan gör det gladare.
- Nollhypotes: Antal träningspass i veckan har ingen effekt på din lin upplevda lycka.
- Startläge: Nollhypotes = sann
Stickprovsdata för att ta reda på om data är förenliga med nollhypotesen eller oförenlig med data. Då bör vi förkasta nollhypotesen. Människor blir gladare av att träna fler gånger i veckan. Vi har stöd för alternativhypotesen.
Vad betyder att ett resultat är signifikant?
det betyder att resultatet troligen inte har har uppkommit av en slump.
Om man förkastar nollhypotesen säger man att resultatet är signifikant.
vad säger alfa?
säger exakt hur osannolikt resultatet ska vara för att man ska förkasta nollhypotesen. Normalt= 0.05
Vad är samplingsfördelning?
Det är en frekvensfördelning över någon stickprovsegenskap, t.ex. stickprovsmedelvärden, och visar hur slumpen kan ge olika värden på stickprovsegenskapen i olika stickprov.
Samplingsfördelningar av medelvärden blir mer normalfördelade än ursprungspopulationen, får samma medelvärde som ursprungspopulationen och får en SD som är lika med pop SD delat med roten ur stickprovsstorleken (=medelfelet)
konfidensintervall
vi vill uppskatta pop medelvärdet, med hjälp av den kunskap vi kan få från stickprovet genom stickprovsmedelvärdet. Vi vill estimera my med hjälp av x bar
Vad anger ett medelfel?
Hur mycket värden, t.ex. medelvärden, framräknade i stickprov i genomsnitt avviker från motsvarande värde i den population som stickprovet är draget ur.
När används one-sample t-test? Ange en konkret frågeställning som skulle kunna testas med one-sample t-test. (2p)
Man testar om ett visst värde kan antas vara medelvärde i den population som stickprovet har blivit draget ur. Utifrån värdena i fråga 1 skulle vi t.ex. kunna testa om det genomsnittliga systoliska blodtrycket på julafton i populationen (svenskar) skulle kunna vara lika med 120.
När används independent samples t-test? Ange en konkret frågeställning som skulle kunna testas med ett sådant test.
Används när vi vill ta reda på om två populationer har samma populationsmedelvärde på en variabel.
ex: Tittar män och kvinnor i genomsnitt lika mycket på tv?
Man vill att deras konfidensintervall ska överlappa varandra. Om ej, förkasta H0
t eller z?
När används Paired samples t-test? Ange en konkret frågeställning som skulle kunna testas med ett sådant test.
när man vill veta om medelvärdet på två olika variabler kan antas vara detsamma i en viss population.
Ex: Kan vi anta att vuxna svenska män kastar pil lika bra med jämfört med utan alkohol i kroppen.
z eller t?
Vad säger noll- respektive alternativhypotesen vid paired-samples t-test? Ge ett konkret exempel.
Paired samples t-test
H0: medelvärdena för de två olika variblerna antas vara det samma i en viss population.
Ex: Lika bra på att kasta bil med och utan alkohol i kroppen = samma populationsmedelvärde
H1: populationsmedelvärdet är inte lika med x och y bar.
Ex: Män kastar sämre med pil sämre med alkohol i kroppen.
Svar:
Nollhypotesen: Det finns ingen skillnad mellan de två variablernas medelvärde i populationen som stickprovet representerar, den genomsnittliga skillnaden är alltså lika med noll.
Alternativhypotesen: Det finns en skillnad mellan de två variablernas medelvärde i populationen, den genomsnittliga skillnaden är alltså inte lika med noll.
Exempel: Vi har mätt graden av depression bland ett antal patienter före och efter en ny behandling X.
Nollhypotesen: Om alla patienter i populationen skulle få behandling X så skulle den genomsnittliga graden av depression vara den samma före och efter behandling, den genomsnittliga förändringen skulle alltså vara lika med noll.
Alternativhypotesen: Om alla patienter skulle få behandling X så skulle den genomsnittliga graden av depression inte vara den samma före jämfört med efter behandling, den genomsnittliga förändringen skulle alltså inte vara lika med noll.
Ange två faktorer som minskar risken för typ 2-fel.
T.ex. ökad stickprovsstorlek och ökad precision i mätningarna.
Beskriv de fyra datanivåerna (med namn, vad som karakteriserar dem och med exempel på variabler på de olika nivåerna).
(1) Nominaldata: Olika värden kan förekomma, men dessa kan inte rangordnas. T.ex. födelseland.
(2) Ordinaldata: Olika värden kan förekomma och dessa kan rangordnas men det råder inte ekvidistans, vilket innebär att en ökning med ett inte alltid innebär en lika stor förändring i egenskapen. T.ex. placering i mål i ett maratonlopp som ett mått på löphastighet.
(3) Intervalldata: Olika värden kan förekomma, dessa kan rangordnas och har ekvidistans. Däremot saknas en absolut nollpunkt, vilket innebär att det inte finns ett värde noll (0) som innebär avsaknad av egenskapen. T.ex. Celsius-skalan som mått på temperatur.
(4) Kvotdata: Olika värden kan förekomma, dessa kan rangordnas, har ekvidistans och det finns en absolut nollpunkt. T.ex. längd i centimeter.
Ange två faktorer som minskar risken för typ 2-fel.
T.ex. ökad stickprovsstorlek och ökad precision i mätningarna.
när använda z och när använda t-värden?
Z: När du ska jämföra en persons ålder med medelåldern av alla personer i mätpopulationen.
T: När du ska jämföra mäns medelålder med kvinnors medelålder.
Visualisera uträkning för en paired samples t-test
visualisera uträkning för CI
visualisera uträkning för korrelation
visualisera uträkning för One-sample t-test
visualisera uträkning för Independent Samples t-test
OP df
a carefully worded statement of the exact procedures (operations) used in a research study. Ex: happiness is defined as certain score on a test