Statistiska test Flashcards
Skalnivåer
anger vilka värden vi kan få och vilka transformeringar/beräknignar som är möjliga på en viss datatyp
Sampling bias
= när stickprovet inte är representativt för hela populationen.
Observer bias
= tendens hos observatören att förnimma och registrera förväntade beteenden och missa oförväntade beteenden.
Beroende variabel
= mått på beteende som används för att kunna bedöma om den oberoende variabeln har haft någon effekt, t.ex. behandlignsutfall
Oberoende variabel
= den variabel vi i vår undersökning varierat/manipulerat och som vi vill veta gör någon skillnad i den beroende variabeln
Felkällor / Ovidkommande variabler / Extraneous variables / Control variables
= en annan variabel än den oberoende variabeln (OBV) som kunde ha en effekt på den mätta beroende variabeln (BV). Man önskar hålla dessa variabler konstanta så att alla förändringar i BVn kan tillskrivas förändringar i OBVn. Om de kontrolleras kallas de för ”kontrollvariabler”.
Störvariabler / Confounding variables
= En variabel som sytematiskt varierar tillsammans med OBV som är ens huvudintresse, och som då orsakar systematiska fel som gör att man inte vet om det var störvariabeln eller OBV som orsakade skillnaden. T.ex. förväntanseffekter eller social önskvärdhet.
Operationalisering
Operationalisering
= Att konkretisera psykologiska konstrukt/variabler till något direkt observerbart. Operationaliseringar till många konstrukt finns ofta definierade forskningslitteraturen i form av olika skalor. Men vi måste alltid förhålla oss till dess operationaliseringar: Ibland kan de visa sig vara felaktiga eller att de överlappar med andra begrepp som vi egentligen inte vill undersöka.
Medierande variabler
?
Modererande variabler
?
Kvasiexperiment
= Innebär ingen randomisering av deltagare till experiment- och kontrollgrupper vilket innebär att vi inte kan knotrollera för gruppskillnader. Detta gör sambanden mellan BV och OBV minder än i äkta experiment. Däremot är det inte alltid möjligt att göra äkta experiment.
Slumpmässiga fel / Random error
= fel orsakade av ovidkommande variabler som påverkar alla betingelser likadant. En komponent av mätfelet som varierar slumpmässigt om upprepade mätningar görs av samma objekt men som i genomsnitt tenderar att ta ut varandra.
Systematiska fel
= fel orsakade av störvariabler som påverkar vissa betingelser mer än andra.
Reliabilitet
= Hur noggrann eller tillförlitlig (pålitlig) mätningen är. Om vi får samma resultat vid olika tidpunkter och i olika situationer (mätresultat kan replikeras). Hur litet det påverkas av slumpmässiga mätfel. Hög reliabilitet innebär låg grad av slumpmässig variation (låg andel mätfel). Värden över ca 0,8 betraktas som bra.
Validitet
= Giltighet, om mätinstrumentet (t.ex. ett minnestest) mäter det begrepp (egenskap) som det är avsett att mäta, att det mäter rätt saker. Hög validitet innebär låg grad av systematiska mätfel.
Reichenbachs princip (om korrelation)
= Om vi enbart vet att händelserna A och B är statistiskt korrelerade, så kan vi endast sluta oss till att
(1) A är en orsak till B eller
(2) B är en orsak till A eller
(3) A och B har en gemensam (en tredje variabel) orsak.
Intern validitet
= huruvida vi kan dra säkra slutsatser om kausalitet utifrån vår data. Vid hög intern validitet så är det OV som gett effekten på BV och inget annat t.ex. dåligt urval/individuella skillnader hos deltagarna, mätfel, eller regression mot medelvärdet.
Extern/Ekologisk validitet
= Kan vi generalisera resultaten till att gälla andra situationer/platser, andra personer, andra tidpunkter eller andra utfall och mått. Dvs om vi gör om studien men ändrar något av ovanstående skulle resultaten fortfarande hålla?
Testvaliditet: Innehållsvaliditet
= Hur väl täcker de beroende variablerna det man vill mäta i bredd och djup?
Testvaliditet: Begreppsvaliditet
= En form av kriterievaliditet som grundar sig på teoretiska antaganden om hur olika variabler bör förhålla sig till varandra. När innehållet av ett test motsvarar innehållet av konstruktet den var tänkt att avbilda.
Vilka är de 3 hörnstenarna i ett sant experiment?
- Manipulering: Bra möjligheter att kontrollera och manipulera variabler - Forskaren manipulerar / ingriper i skeendet (I icke-experiment ingriper forskaren inte)
2.Randomisering: Försökspersonerna slumpas till experiment- eller kontrollgrupp - Kontroll: Forskaren kontrollerar störande faktorer genom att göra experiment- och kontrollgrupp så homogena som möjligt, hålla störande faktorer konstanta , eller korrigera för dem statistiskt.
- Man kan uttala sig om orsak/verkan (kausaliet)!!!!
Vad är korrelationsstudie för typ av experimentdesign?
= en icke-esperimentell design (och egentligen mer en analysmetod än ett forskningsupplägg)
Syftet med deskriptiv statistik
= Att summera, organisera och förenkla information.
Syftet med inferentiell statistik
= Hypotesprövande statistik. Att dra slutsatser om hur troligt det är att stickprovet av en av ren slump skulle kunna komma från en och samma population, eller om vi kan anta att det är skilda populationer med gott samvete, dvs. är det vi ser i stickproven förenligt med slumpen eller kan det tänkas gälla för hela populationen. Metoder t.ex. t-test och ANOVA .
Nollhypotesen
= Det finns inget samband, effekt eller skillnad mellan grupperna/stickproven/populationerna
Alternativhypotesen
= Det finns ett samband, effekt eller skillnad (eftersom grupperna/stickproven/populationerna skiljer sig åt inte utav en slump).
Nominalskala
= Kategorisk, ingen rangordning. Ingen egentlig skala – data kan bara kategoriseras och grupperas, men inte jämföras i termer av t.ex. storlek. Vi kan bara räkna frekvenser. T.ex. kön, civilstånd, bilmärke.
Ordinalskala
= Rangordning, okänd intervall. Man kan t.ex. inte säga att det är lika långt mellan “Oftast” och “Ibland” som “Ibland och “Sällan”. Vi kan rangordna data men det är inte lika långt mellan skalstegen. T.ex. Social klass, betygsskalor och likertskalor av typen alltid, ofta, sällan, aldrig.
Intervallskala
= Numerisk, ekvidistans, och kan anta negativa värden men även om siffran 0 förekommer på skala nfinns ingen absolut nollpunkt (dvs. avsaknad av X). Vi kan rangordna data och det är lika långt mellan skalstegen. Det innebär att vi kan addera och subtrahera och tala om skillnader, men inte dividera eller multiplicera. T.ex. temperatur.
Kvotskala
= Intervall + nollpunkt. Variabelvärdena kan rangordnas, har ekvidistans, kan anta negativa samt decimalvärden, och det finns en absolut nollpunkt (avsaknad av X). Det innebär att vi kan dividera och multiplicera data. T.ex. vikt, puls, reaktionstid.
Spridningsmått
= Beskriver hur mycket värdena i en variabel varierar.
Variationsbredd / Range
= Skillnaden mellan högsta (max) och lägsta värdet (min). Enklaste sättet att beskriva variationen i data, men är inte så informativt för hur spridningen ser ut för alla våra observationer. Ekvation: (Högsta värdet - lägsta) Variationsbredd (range)= Xmax – Xmin.
Samplingsfördelning
= Den spridning som mätningarna av en viss egenskap har,, alltså en frekvensfördelning av t.ex. medelvärdet/variansen hos ett oändligt antal stickprover. Vad det rent konkret innebär är att om man tog ett stickprov av en viss storlek slumpmässigt ur populationen, noterar egenskapen (t.ex. medelvärdet) av de personer man mätt, lägger tillbaka personerna i populationen, tar ett nytt stickprov och upprepar steg oändligt många gånger så kommer du att få en frekvensfördelning på hur vanligt olika värden på egenskapen är. Samplingsfördelningen talar om, att givet att nollhypotesen är sann, hur sannolikt det är att få det stickprovsvärdet vi fått.Vi kan inte ha samplingsfördelningar för alla tänkbara egenskaper, så därför använder vi teoretiska samplingsfördelningar som statistiker tagit fram, t.ex. z-fördelningen och t-fördelningen.
Standardavvikelse
= Det vanligaste måttet på varians, som ofta rapporteras tillsammans med medelvärdet, och som talar om hur mycket värdena i genomsnitt varierar kring medelvärdet. En standardavvikelse på 1,22 innebär alltså att värdena i snitt varierar med 1,22 standardiserade poäng kring medelvärdet. Om variabeln är snedfördelad ger standardavvikelsen missvisande bild av variabelns spridning och då är det bättre att använda ett annat spridningsmått.
Standardfel
= standardavvikelsen i en samplingfördelning, och säger något om hur stor osäkerheten är för det stickprovsvärde man fått fram. Lågt värde innebär att alla värden kommer ligga nära medelvärdet, ett stort värde innebär att enskilda värden kan variera väldigt mycket från medelvärdet. Gäller det istället samplingsfördelning av medelvärdet brukar man säga medelfelet/standard error of the mean. Ju mindre medelfel, desto närmare kommer stickprovsmedelvärdet kunna uppskatta motsvarande populationsmedelvärde.
Parametrar
= Medelvärde, varians och standardavvikelse som tillhör populationen, men som i princip alltid är okända för oss. Därför använder vi beräkningarna från stickprovet till att skatta populationsparametrarna.
Centraltendens / Centralmått
= Ett statistiskt mått som ska vara representativt för hur en frekvensdistribution. Vilket mått som passar bäst beror på hur frekvensdistributionen ser ut och vilken skaltyp datan befinner sig på.
Typvärde / Mode
= det värde som är vanligast, dvs. oftast förekommande
Median
= det värde som ligger i mitten, dvs. hälften ligger under och hälften över
Medelvärde / Mean
= summan av alla värdena dividerat med antalet värden.
z-poäng
= används för att jämföra resultat från olika tester med olika skalor/poängsystem.
Vad z-poäng gör: standardiserar alla test till samma medelvärde (0) och SD (1), och talar om på ett standardiserat sätt var individen befinner sig i distributionen.
Kan också används för att jämföra en enskild individs värde med resten av stickprovet eller med populationen (när vi känner till populationsmedelvärdet).
Räknas ut genom att dra populationens medlevärde ur individens värde och sedan dividera med populationens SD.
Vilka är de 4 frekvensfördelningsformerna?
- Normalfördelning = Symmetriskt klockformad fördelning. Medelvärde, median och typvärde blir samma. Innebär att de flesta har ett värde som ligger runt medelvärdet, och att det finns få som har ett värde som ligger långt över/under medelvärdet.
- Bimodalfördelning = En fördelning med två toppar. Det finns två typvärden, men median och medelvärde är desamma.
- Positiv snedfördelning = En svans som sträcker sig mot höga värden. Typvärdet blir lägst, sedan medianen, och sedan medelvärdet.
- Negativ snedfördelning = En svans som sträcker sig mot låga värden. Medelvärdet blir lägst, sedan medianen, och sist typvärdet.
Vi tenderar at övertolka p-värdet. Vad är det ett p-värde visar och inte visar?
p-värdet säger BARA något om sannolikheten att observera de resultat som vi har i vårt stickprov, givet att nollhypotesen stämmer i populationen. Det visar INTE att nollyhpotesen eller alternativhypotesen är sanneller falsk, och inte heller något om risken att vi förkastat nollhypotsen trots att den är sann (det är alfavärdet)
Typ I-fel
= Vi accepterar alternativhypotesen trots att nollhypotesen gäller i verkligheten, dvs. vi hävdar att vi gör skillnad med vår intervention trots att vi inte gjort det.
Typ II-fel
= Vi väljer att acceptera nollhypotesen trots att alternativhypotesen gäller i verkligheten, dvs. det finns en skillnad mellan grupperna som vi inte har fångat upp.
Homogena populationsvarianser
= Varianserna inom grupperna skall vara lika i de olika grupperna. Prövas i SPSS genom Leven’s test for Equality of Variances
df
= Frihetsgrader.
För bereonde t-test: df = (n – 1), där n = antal mätningar.
Levene’s Test (for Equality of Variances)
= ett förtest till t-test som undersöker om det föreligger signifikant skillnad mellan
gruppernas varianser. Om Levene’s test är STÖRRE ÄN 0.5 kan man gå vidare med sitt t-test. Om Levene’s testet visar signifikant skillnad (p < .05, alltså p är MINDRE ÄN .05) då är varianserna inte lika och man bör man läsa av raden ”Equal Variances not Assumed”
Hur kan man minska risken för typ I-fel?
skärpa alpha-nivån tex. 0.001. OBS! ökar risken för Typ II-fel (eller öka antal deltagare)
Hur kan man minska risken för typ II-fel?
Öka styrka/power på OBV, ELLER minska felvarians genom att använda sig av beroende mätningar (eller öka antal deltagare)
Vilket centraltendens/centralmått är det du ska rapportera egentligen?
Medelvärdet är att föredra, med vissa undantag. Om det finns en snedfördelning, eller det är ordinalskalenivå på datan så redovisas median. Typvärde används för nominala variabler.
Så, du har fått ett signifikant p-värde i din envägs ANOVA-analys – det FINNS en skillnad mellan grupper. Men varför är det inte så viktigt?
Därför att p-värdet inte säger något om styrkan på skillnaden mellan grupper! Denna styrka mäts istället med ”eta-två” (ser ut som ett n^2)
Eta två
= Styrkan i skillnaden mellan 2 grupper! Räknas ut genom att dela Sum of Swuares BEtween med Sum of Squares Total, och då får man ut en procentandel som förklarar andelen variation i X som beror av Y.
Effektstyrka
estimerar styrkan i ett samband, dvs. hur stor skillnaden det är mellan två gruppers medelvärden. Mäts i Cohens d, där 0.20=Liten effektstorlek, 0.50=Medium effektstorlek, 0.80=Stor effektstorlek. Effektstyrkan är (relativt) oberoende av samplets storlek, till skillnad från Power! Olika test har olika effektstorlekar kopplade till sig, men det är viktigt att ALLTID ange effektstorlekar (även om många forskare slarvar med det).
Vilka 3 skäl har vi för att beräkna effektstyrkan på ett samband?
- Det underlättar tolkning av den praktiska betydelsen av studiens resultat. Ska vi t.ex. jubla om den nya behandlingsmetoden bara ger 3 poäng mindre på något mått, även om resultatet är statistiskt signifikant? Troligtvis inte, men tyvärr är de flesta effekterna i pskyologisk forskning mindre än 0.5. Det är lätt hänt att man vill använda sig av p-värdet för att bedöma styrkan i ett samband men detta kan bli extremt missvisande då signifikansprövningen påverkas av sampelstorleken: ett starkt samband kan bli icke-signifikant med ett för litet sample, och ett svagt samband kan plötsligt bli signifikant med ett stort sample.
- Förväntad effektstorlek ger viktig information om hur många deltagare man bör ha i sin studie för att få en viss power.
- Möjliggör jämförelser av resultat från olika studier (dvs. metaaanalyser). Saknas populationsparametrar får vi använda stickprovsestimat istället.
Vad är för- och nackdelen med icke-parametriska test?
Icke-parametrisk statistik ställer mindre krav på data, men eftersom de inte räknar med data utan med ranger är de också mindre kraftfulla än de parametriska testerna. De har mindre power jämfört med parametriska test, dvs. svårare att upptäcka signifikanta skillnader.
De 3 typerna av icke-parametriska test vi gått igenom på kursen
- Chi-två
- Mann-Whitney U-test
- Wilcoxons teckenrangtest
När använder man icke-parametriska test?
När de 2 antagandena för parametriska test inte är uppfyllda
1. Normalfördelad variabel i populationen (dvs. variabeln är inte normalfördelad i befolkningen)
2. Homogena populationsvarianser (dvs. varianserna är heterogena)
Icke-parametriska test bygger inte på rådata. Vad är istället ens första steg när man ska genomföra icke-parametriska test?
Att transformera sina rådata till ranger i stigande ordning från låg till hög. Varje poäng får en rang, och om samma poäng förekommer flera gånger så blir rangne medelvärdet av rangerna.
Mann-Whitney U-test
= Icke-parametriskt alternativ till t-test för oberoende grupper.
Wilcoxon teckenrangtest
= Icke-parametriskt alternativ till t-test för beroende grupper.
Vilket steg i summeringen av rangerna får man inte glömma bort i Wilcoxon teckenrangtest?
Att summera de positiva och negativa rangerna för sig!
Vilka variabler/nummer redovisas efter ett Mann-Whitney U-test?
- Om skillnaden var signifikant eller inte (t.ex. Det fanns en signifikant skillnad i restid mellan färdsätten)
- U-poäng (t.ex. U = 5)
- Z-poäng (t.ex. z = -2.09)
- Signifikansnivå (t.ex. p = .041)