Statistiska test Flashcards

1
Q

Skalnivåer

A

anger vilka värden vi kan få och vilka transformeringar/beräknignar som är möjliga på en viss datatyp

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Sampling bias

A

= när stickprovet inte är representativt för hela populationen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Observer bias

A

= tendens hos observatören att förnimma och registrera förväntade beteenden och missa oförväntade beteenden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Beroende variabel

A

= mått på beteende som används för att kunna bedöma om den oberoende variabeln har haft någon effekt, t.ex. behandlignsutfall

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Oberoende variabel

A

= den variabel vi i vår undersökning varierat/manipulerat och som vi vill veta gör någon skillnad i den beroende variabeln

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Felkällor / Ovidkommande variabler / Extraneous variables / Control variables

A

= en annan variabel än den oberoende variabeln (OBV) som kunde ha en effekt på den mätta beroende variabeln (BV). Man önskar hålla dessa variabler konstanta så att alla förändringar i BVn kan tillskrivas förändringar i OBVn. Om de kontrolleras kallas de för ”kontrollvariabler”.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Störvariabler / Confounding variables

A

= En variabel som sytematiskt varierar tillsammans med OBV som är ens huvudintresse, och som då orsakar systematiska fel som gör att man inte vet om det var störvariabeln eller OBV som orsakade skillnaden. T.ex. förväntanseffekter eller social önskvärdhet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Operationalisering

A

Operationalisering
= Att konkretisera psykologiska konstrukt/variabler till något direkt observerbart. Operationaliseringar till många konstrukt finns ofta definierade forskningslitteraturen i form av olika skalor. Men vi måste alltid förhålla oss till dess operationaliseringar: Ibland kan de visa sig vara felaktiga eller att de överlappar med andra begrepp som vi egentligen inte vill undersöka.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Medierande variabler

A

?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Modererande variabler

A

?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Kvasiexperiment

A

= Innebär ingen randomisering av deltagare till experiment- och kontrollgrupper vilket innebär att vi inte kan knotrollera för gruppskillnader. Detta gör sambanden mellan BV och OBV minder än i äkta experiment. Däremot är det inte alltid möjligt att göra äkta experiment.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Slumpmässiga fel / Random error

A

= fel orsakade av ovidkommande variabler som påverkar alla betingelser likadant. En komponent av mätfelet som varierar slumpmässigt om upprepade mätningar görs av samma objekt men som i genomsnitt tenderar att ta ut varandra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Systematiska fel

A

= fel orsakade av störvariabler som påverkar vissa betingelser mer än andra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Reliabilitet

A

= Hur noggrann eller tillförlitlig (pålitlig) mätningen är. Om vi får samma resultat vid olika tidpunkter och i olika situationer (mätresultat kan replikeras). Hur litet det påverkas av slumpmässiga mätfel. Hög reliabilitet innebär låg grad av slumpmässig variation (låg andel mätfel). Värden över ca 0,8 betraktas som bra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Validitet

A

= Giltighet, om mätinstrumentet (t.ex. ett minnestest) mäter det begrepp (egenskap) som det är avsett att mäta, att det mäter rätt saker. Hög validitet innebär låg grad av systematiska mätfel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Reichenbachs princip (om korrelation)

A

= Om vi enbart vet att händelserna A och B är statistiskt korrelerade, så kan vi endast sluta oss till att
(1) A är en orsak till B eller
(2) B är en orsak till A eller
(3) A och B har en gemensam (en tredje variabel) orsak.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Intern validitet

A

= huruvida vi kan dra säkra slutsatser om kausalitet utifrån vår data. Vid hög intern validitet så är det OV som gett effekten på BV och inget annat t.ex. dåligt urval/individuella skillnader hos deltagarna, mätfel, eller regression mot medelvärdet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Extern/Ekologisk validitet

A

= Kan vi generalisera resultaten till att gälla andra situationer/platser, andra personer, andra tidpunkter eller andra utfall och mått. Dvs om vi gör om studien men ändrar något av ovanstående skulle resultaten fortfarande hålla?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Testvaliditet: Innehållsvaliditet

A

= Hur väl täcker de beroende variablerna det man vill mäta i bredd och djup?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Testvaliditet: Begreppsvaliditet

A

= En form av kriterievaliditet som grundar sig på teoretiska antaganden om hur olika variabler bör förhålla sig till varandra. När innehållet av ett test motsvarar innehållet av konstruktet den var tänkt att avbilda.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Vilka är de 3 hörnstenarna i ett sant experiment?

A
  1. Manipulering: Bra möjligheter att kontrollera och manipulera variabler - Forskaren manipulerar / ingriper i skeendet (I icke-experiment ingriper forskaren inte)
    2.Randomisering: Försökspersonerna slumpas till experiment- eller kontrollgrupp
  2. Kontroll: Forskaren kontrollerar störande faktorer genom att göra experiment- och kontrollgrupp så homogena som möjligt, hålla störande faktorer konstanta , eller korrigera för dem statistiskt.
  3. Man kan uttala sig om orsak/verkan (kausaliet)!!!!
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Vad är korrelationsstudie för typ av experimentdesign?

A

= en icke-esperimentell design (och egentligen mer en analysmetod än ett forskningsupplägg)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Syftet med deskriptiv statistik

A

= Att summera, organisera och förenkla information.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Syftet med inferentiell statistik

A

= Hypotesprövande statistik. Att dra slutsatser om hur troligt det är att stickprovet av en av ren slump skulle kunna komma från en och samma population, eller om vi kan anta att det är skilda populationer med gott samvete, dvs. är det vi ser i stickproven förenligt med slumpen eller kan det tänkas gälla för hela populationen. Metoder t.ex. t-test och ANOVA .

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Nollhypotesen

A

= Det finns inget samband, effekt eller skillnad mellan grupperna/stickproven/populationerna

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Alternativhypotesen

A

= Det finns ett samband, effekt eller skillnad (eftersom grupperna/stickproven/populationerna skiljer sig åt inte utav en slump).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Nominalskala

A

= Kategorisk, ingen rangordning. Ingen egentlig skala – data kan bara kategoriseras och grupperas, men inte jämföras i termer av t.ex. storlek. Vi kan bara räkna frekvenser. T.ex. kön, civilstånd, bilmärke.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Ordinalskala

A

= Rangordning, okänd intervall. Man kan t.ex. inte säga att det är lika långt mellan “Oftast” och “Ibland” som “Ibland och “Sällan”. Vi kan rangordna data men det är inte lika långt mellan skalstegen. T.ex. Social klass, betygsskalor och likertskalor av typen alltid, ofta, sällan, aldrig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Intervallskala

A

= Numerisk, ekvidistans, och kan anta negativa värden men även om siffran 0 förekommer på skala nfinns ingen absolut nollpunkt (dvs. avsaknad av X). Vi kan rangordna data och det är lika långt mellan skalstegen. Det innebär att vi kan addera och subtrahera och tala om skillnader, men inte dividera eller multiplicera. T.ex. temperatur.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Kvotskala

A

= Intervall + nollpunkt. Variabelvärdena kan rangordnas, har ekvidistans, kan anta negativa samt decimalvärden, och det finns en absolut nollpunkt (avsaknad av X). Det innebär att vi kan dividera och multiplicera data. T.ex. vikt, puls, reaktionstid.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Spridningsmått

A

= Beskriver hur mycket värdena i en variabel varierar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Variationsbredd / Range

A

= Skillnaden mellan högsta (max) och lägsta värdet (min). Enklaste sättet att beskriva variationen i data, men är inte så informativt för hur spridningen ser ut för alla våra observationer. Ekvation: (Högsta värdet - lägsta) Variationsbredd (range)= Xmax – Xmin.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Samplingsfördelning

A

= Den spridning som mätningarna av en viss egenskap har,, alltså en frekvensfördelning av t.ex. medelvärdet/variansen hos ett oändligt antal stickprover. Vad det rent konkret innebär är att om man tog ett stickprov av en viss storlek slumpmässigt ur populationen, noterar egenskapen (t.ex. medelvärdet) av de personer man mätt, lägger tillbaka personerna i populationen, tar ett nytt stickprov och upprepar steg oändligt många gånger så kommer du att få en frekvensfördelning på hur vanligt olika värden på egenskapen är. Samplingsfördelningen talar om, att givet att nollhypotesen är sann, hur sannolikt det är att få det stickprovsvärdet vi fått.Vi kan inte ha samplingsfördelningar för alla tänkbara egenskaper, så därför använder vi teoretiska samplingsfördelningar som statistiker tagit fram, t.ex. z-fördelningen och t-fördelningen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Standardavvikelse

A

= Det vanligaste måttet på varians, som ofta rapporteras tillsammans med medelvärdet, och som talar om hur mycket värdena i genomsnitt varierar kring medelvärdet. En standardavvikelse på 1,22 innebär alltså att värdena i snitt varierar med 1,22 standardiserade poäng kring medelvärdet. Om variabeln är snedfördelad ger standardavvikelsen missvisande bild av variabelns spridning och då är det bättre att använda ett annat spridningsmått.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Standardfel

A

= standardavvikelsen i en samplingfördelning, och säger något om hur stor osäkerheten är för det stickprovsvärde man fått fram. Lågt värde innebär att alla värden kommer ligga nära medelvärdet, ett stort värde innebär att enskilda värden kan variera väldigt mycket från medelvärdet. Gäller det istället samplingsfördelning av medelvärdet brukar man säga medelfelet/standard error of the mean. Ju mindre medelfel, desto närmare kommer stickprovsmedelvärdet kunna uppskatta motsvarande populationsmedelvärde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Parametrar

A

= Medelvärde, varians och standardavvikelse som tillhör populationen, men som i princip alltid är okända för oss. Därför använder vi beräkningarna från stickprovet till att skatta populationsparametrarna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Centraltendens / Centralmått

A

= Ett statistiskt mått som ska vara representativt för hur en frekvensdistribution. Vilket mått som passar bäst beror på hur frekvensdistributionen ser ut och vilken skaltyp datan befinner sig på.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Typvärde / Mode

A

= det värde som är vanligast, dvs. oftast förekommande

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Median

A

= det värde som ligger i mitten, dvs. hälften ligger under och hälften över

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Medelvärde / Mean

A

= summan av alla värdena dividerat med antalet värden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

z-poäng

A

= används för att jämföra resultat från olika tester med olika skalor/poängsystem.
Vad z-poäng gör: standardiserar alla test till samma medelvärde (0) och SD (1), och talar om på ett standardiserat sätt var individen befinner sig i distributionen.
Kan också används för att jämföra en enskild individs värde med resten av stickprovet eller med populationen (när vi känner till populationsmedelvärdet).
Räknas ut genom att dra populationens medlevärde ur individens värde och sedan dividera med populationens SD.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Vilka är de 4 frekvensfördelningsformerna?

A
  • Normalfördelning = Symmetriskt klockformad fördelning. Medelvärde, median och typvärde blir samma. Innebär att de flesta har ett värde som ligger runt medelvärdet, och att det finns få som har ett värde som ligger långt över/under medelvärdet.
  • Bimodalfördelning = En fördelning med två toppar. Det finns två typvärden, men median och medelvärde är desamma.
  • Positiv snedfördelning = En svans som sträcker sig mot höga värden. Typvärdet blir lägst, sedan medianen, och sedan medelvärdet.
  • Negativ snedfördelning = En svans som sträcker sig mot låga värden. Medelvärdet blir lägst, sedan medianen, och sist typvärdet.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Vi tenderar at övertolka p-värdet. Vad är det ett p-värde visar och inte visar?

A

p-värdet säger BARA något om sannolikheten att observera de resultat som vi har i vårt stickprov, givet att nollhypotesen stämmer i populationen. Det visar INTE att nollyhpotesen eller alternativhypotesen är sanneller falsk, och inte heller något om risken att vi förkastat nollhypotsen trots att den är sann (det är alfavärdet)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Typ I-fel

A

= Vi accepterar alternativhypotesen trots att nollhypotesen gäller i verkligheten, dvs. vi hävdar att vi gör skillnad med vår intervention trots att vi inte gjort det.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Typ II-fel

A

= Vi väljer att acceptera nollhypotesen trots att alternativhypotesen gäller i verkligheten, dvs. det finns en skillnad mellan grupperna som vi inte har fångat upp.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

Homogena populationsvarianser

A

= Varianserna inom grupperna skall vara lika i de olika grupperna. Prövas i SPSS genom Leven’s test for Equality of Variances

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

df

A

= Frihetsgrader.
För bereonde t-test: df = (n – 1), där n = antal mätningar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

Levene’s Test (for Equality of Variances)

A

= ett förtest till t-test som undersöker om det föreligger signifikant skillnad mellan
gruppernas varianser. Om Levene’s test är STÖRRE ÄN 0.5 kan man gå vidare med sitt t-test. Om Levene’s testet visar signifikant skillnad (p < .05, alltså p är MINDRE ÄN .05) då är varianserna inte lika och man bör man läsa av raden ”Equal Variances not Assumed”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

Hur kan man minska risken för typ I-fel?

A

skärpa alpha-nivån tex. 0.001. OBS! ökar risken för Typ II-fel (eller öka antal deltagare)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
50
Q

Hur kan man minska risken för typ II-fel?

A

Öka styrka/power på OBV, ELLER minska felvarians genom att använda sig av beroende mätningar (eller öka antal deltagare)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
51
Q

Vilket centraltendens/centralmått är det du ska rapportera egentligen?

A

Medelvärdet är att föredra, med vissa undantag. Om det finns en snedfördelning, eller det är ordinalskalenivå på datan så redovisas median. Typvärde används för nominala variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
52
Q

Så, du har fått ett signifikant p-värde i din envägs ANOVA-analys – det FINNS en skillnad mellan grupper. Men varför är det inte så viktigt?

A

Därför att p-värdet inte säger något om styrkan på skillnaden mellan grupper! Denna styrka mäts istället med ”eta-två” (ser ut som ett n^2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
53
Q

Eta två

A

= Styrkan i skillnaden mellan 2 grupper! Räknas ut genom att dela Sum of Swuares BEtween med Sum of Squares Total, och då får man ut en procentandel som förklarar andelen variation i X som beror av Y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
54
Q

Effektstyrka

A

estimerar styrkan i ett samband, dvs. hur stor skillnaden det är mellan två gruppers medelvärden. Mäts i Cohens d, där 0.20=Liten effektstorlek, 0.50=Medium effektstorlek, 0.80=Stor effektstorlek. Effektstyrkan är (relativt) oberoende av samplets storlek, till skillnad från Power! Olika test har olika effektstorlekar kopplade till sig, men det är viktigt att ALLTID ange effektstorlekar (även om många forskare slarvar med det).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
55
Q

Vilka 3 skäl har vi för att beräkna effektstyrkan på ett samband?

A
  1. Det underlättar tolkning av den praktiska betydelsen av studiens resultat. Ska vi t.ex. jubla om den nya behandlingsmetoden bara ger 3 poäng mindre på något mått, även om resultatet är statistiskt signifikant? Troligtvis inte, men tyvärr är de flesta effekterna i pskyologisk forskning mindre än 0.5. Det är lätt hänt att man vill använda sig av p-värdet för att bedöma styrkan i ett samband men detta kan bli extremt missvisande då signifikansprövningen påverkas av sampelstorleken: ett starkt samband kan bli icke-signifikant med ett för litet sample, och ett svagt samband kan plötsligt bli signifikant med ett stort sample.
  2. Förväntad effektstorlek ger viktig information om hur många deltagare man bör ha i sin studie för att få en viss power.
  3. Möjliggör jämförelser av resultat från olika studier (dvs. metaaanalyser). Saknas populationsparametrar får vi använda stickprovsestimat istället.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
56
Q

Vad är för- och nackdelen med icke-parametriska test?

A

Icke-parametrisk statistik ställer mindre krav på data, men eftersom de inte räknar med data utan med ranger är de också mindre kraftfulla än de parametriska testerna. De har mindre power jämfört med parametriska test, dvs. svårare att upptäcka signifikanta skillnader.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
57
Q

De 3 typerna av icke-parametriska test vi gått igenom på kursen

A
  1. Chi-två
  2. Mann-Whitney U-test
  3. Wilcoxons teckenrangtest
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
58
Q

När använder man icke-parametriska test?

A

När de 2 antagandena för parametriska test inte är uppfyllda
1. Normalfördelad variabel i populationen (dvs. variabeln är inte normalfördelad i befolkningen)
2. Homogena populationsvarianser (dvs. varianserna är heterogena)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
59
Q

Icke-parametriska test bygger inte på rådata. Vad är istället ens första steg när man ska genomföra icke-parametriska test?

A

Att transformera sina rådata till ranger i stigande ordning från låg till hög. Varje poäng får en rang, och om samma poäng förekommer flera gånger så blir rangne medelvärdet av rangerna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
60
Q

Mann-Whitney U-test

A

= Icke-parametriskt alternativ till t-test för oberoende grupper.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
61
Q

Wilcoxon teckenrangtest

A

= Icke-parametriskt alternativ till t-test för beroende grupper.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
62
Q

Vilket steg i summeringen av rangerna får man inte glömma bort i Wilcoxon teckenrangtest?

A

Att summera de positiva och negativa rangerna för sig!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
63
Q

Vilka variabler/nummer redovisas efter ett Mann-Whitney U-test?

A
  1. Om skillnaden var signifikant eller inte (t.ex. Det fanns en signifikant skillnad i restid mellan färdsätten)
  2. U-poäng (t.ex. U = 5)
  3. Z-poäng (t.ex. z = -2.09)
  4. Signifikansnivå (t.ex. p = .041)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
64
Q

Vilka variabler/nummer redovisas efter ett Wilcoxon teckenrangtest?

A
  1. Om skillnaden var signifikant eller inte (t.ex. Det fanns en signifikant skillnad i restid mellan färdsätten)
  2. T-poäng (t.ex. T = 6)
  3. Z-poäng (t.ex. z = -1.99)
  4. Signifikansnivå (t.ex. p = .046)
65
Q

När gör man ett Chi-två-test?

A

När vi vill jämföra grupper på en variabel som är på nominalskalenivå T (dvs. som vi bara kan räkna frekvenserna på!). Testet går ut på jämföra ett observerat värde med ett förväntat värde, och ett kritiskt värde i en viss fördelning ska överstigas för att vi ska förkasta nollhypotesen. t.ex. ”Vilken behandlingsmetod föredrar patienter, A eller B?”

66
Q

Vilka är de två sorternas chi-två-test man kan göra?

A

1) En variabel chi-två = Jämför en observerad fördelning mot en teoretisk fördelning, alltså om den observerade fördelningen är inom ramen för slumpvariation. Här är det förväntade värdet en lika fördelning av N till kategorierna (dvs. 50-50 vid två kategorier, men kan också vara ett teoretiskt givet värde eller ett känt populationsvärde). T.ex. Det brukar vara 70% män och 30% kvinnor som får medel från ett visst forskningsråd. Vid senaste ansökningsomgången var det 67% män (240) och 33% kvinnor (120) som fick medel. Är detta i linje med tidigare fördelning?
2) Tvåvägs chi-två = Görs i en korstabell. Observerad frekvens (O) jämförs med den frekvens vi skulle få om det inte fanns ett samband mellan variablerna (e) (dvs. slumpmässig variation). Denna använder samma formel för att räkna fram chi-två som tidigare.

67
Q

Vilka variabler/nummer redovisas efter ett Chi-två test?

A

1) Om skillnaden var signifikant eller inte (t.ex. Det fanns en signifikant skillnad i restid mellan färdsätten)
2) X^2-värdet (dvs. chi-två-värdet, t.ex. =1.90)
3) P-värdet (t.ex. p>.05)

68
Q

Hur många frihetsgrader ska man ha i ett tvåvägs chi-två test?

A

df: (r – 1)(k – 1)
r = antal rader, k = antal kolumner

69
Q

Power

A

Sannolikheten att upptäcka en signifikant skillnad i ditt stickprov när skillnaden finns i populationen. Ofta strävar man efter power = 0.8, dvs. om H1 gäller i populationen har vi en 80% chans att hitta den signifikanta effekten.

70
Q

Hur man beräknar man power?

A

Power = 1-beta, där beta är sannolikheten att göra ett typ 2-fel. Power räknas oftast genom program och är extremt knöligt att räkna för hand.

71
Q

Vilka 4 saker är det som påverkar power i en undersökning?

A

A. Alfanivån – desto högre alfa desto högre power
B. Den sanna effekten av interventionen(skillnaden mellan H0 och H1, t.ex. medelvärdena i två stickprov) - Desto större effekt desto högre power
C. Om stickprovsstorleken ökar = Högre power
D. Om variansen minskar = Högre power

72
Q

Hur vet vi vilken power vi bör förvänta oss?

A

Vi beräknar hur många deltagare vi behöver utifrån design och vilken
effekt vi förväntar oss (alternativt tycker är viktig). Men hur vet vi
vilken effekt vi bör förvänta oss?
* Litteraturstudier
* Resonemang
* Pilotstudier

73
Q

Vad är de fördelen med beroende och oberoende ANOVA-test jämfört med t-test?

A

Vi kan jämföra fler än 2 grupper.

74
Q

Vad är de fördelen med tvåvägs ANOVA-test jämfört med andra statistiska test

A

Vi kan undersöka fler än 1 oberoende variabel/faktor.

75
Q

Vad är de fördelen med en mixed ANOVA jämfört med andra ANOVor?

A

Vi kan blanda mellangrupps- och inomgruppsdesign, dvs. både jämföra olika grupper och samma grupp över tid.

76
Q

Vad är de fördelen med MANOVA jämfört med andra ANOVor?

A

Vi kan undersöka fler än 1 beroende variabel.

77
Q

Vad handlar variansanalys om egentligen

A

Att jämföra inte bara medelvärdena, utan också varians/spridning/SD INOM och MELLAN grupperna för att avgöra om mellangruppsvariansen är större än inomgruppsvariansen.

78
Q

Bivariat korrelationsanalys

A

involverar två variabler (vanligen skrivna som X, och Y,) dessa ämnar den bivariata analysen att undersöka ett empiriskt samband mellan.

79
Q

Vad är skillnaden mellan en simultan regression (även kallad enter) och en hieriarkisk regression och när använder man vilken typ?

A

?

80
Q

Vad gör man om man har en multivariat outlier?

A

?

81
Q

Vad innebär antagandet om normalfördelade residualer?

A

?

82
Q

Hög tolerans i multipel regression, vad innebär det?

A

?

83
Q

Vilken funktion fyller samplingsfördelningen vid en hypotesprövning?

A

?

84
Q

Låg tolernas i multipel regression, vad innebär det?

A

?

85
Q

Vad innebär antagandet om homogena varianser?

A

?

86
Q

Vad innebär antagandet av homoskedasticitet?

A

?

87
Q

Om man försökt göra en mätning på två oberoende grupper i en RCT-studie, men bara får in extremt få deltagare, vilket statistiskt test bör man använda för att undersöka resultaten?

A

Chi-två?

88
Q

Vad kan det bero på att ett samband är signifikant i steg 1 i en hierarkisk regressionsanalys, men slutar vara signifikant i steg två?

A

Att man läst ut ett Adjusted R^2 som innebär att den eller de faktorer som man lagt till i steg 2 innebär att … jag vet inte??

89
Q

Vad kan det bero på att man inte hittar en faktisk (redan etablerat) samband mellan två faktorer?

A

Att man inte har tillräckligt hög power i sin undersökningsdesign?

90
Q

Förklara vad det statistiska begreppet power innebär och hur det är kopplat till effektstyrka?

A

?

91
Q

Varför är det (oftast) eftersträvansvärt med hög tolerans i samband med multipel regressionsanalys? Förklara.

A

??

92
Q

Du vill undersöka sambandet mellan två faktorer och väljer att göra en enkel regressionsanalys istället för en bivariat korrelationsanalys. Motivera varför och ge ett exempel.

A

??

93
Q

Jämför antagandet om homogena varianser med antagandet om homoskedacticitet.

A

???

94
Q

När vi gör en korrelation eller regressionsanalys kan vi ange r . Vad kallas detta värde och på
vilket sätt hjälper det oss att tolka analysen? (2 p)

A

?

95
Q

Förklara vad en samplingsfördelning är och vilken funktion den fyller vid en hypotesprövning,
(4p).

A

?

96
Q

Vilka är de 3 förutsättningarna för att kunna göra ett ANOVA-test?

A
  1. Data på intervall/kvotnivå
  2. Normalfördelade populationer
  3. Homogena populationsvarianser
    Meeeeen oftast kan man bryta mot dessa och klara sig ändå.
97
Q

Vilken är nollhypotesen och alternativhypotesen när vi genomför en ANOVA-analys?

A

Nollhypotesen = Vi gör minst fel om vi ser vår data som en grupp (ett medelvärde). Om inomgruppsvariansen är större än mellangruppsvariansen accepterar vi H0.
Alternativhypotesen = Vi gör minst fel om vi ser vår data som flera grupper (flera medelvärden). Om mellangruppsvariansen är större än inomgruppsvariansen förkastar vi H0 och accepterar H1.

98
Q

Vilken skalnivå behöver OBV och BV vara på när man ska göra ANOVA-analyser?

A

OBV = Nominal eller ordinsalskala
Beroende variabel = Intervall eller kvotskala (vore de inte det hade vi gjort icke-parametriska test istället).

99
Q

Vilka steg går man igenom för att göra en ANOVA-analys?

A
  1. Räkna ut medelvärdet för båda grupperna
  2. Räkna ut all varians (Sum of Squares total)
  3. Räkna ut all inomgruppsvarians för respektive grupper
  4. Räkna ut all varians mellan grupperna
  5. Dividera mellangruppsvariansen med inomgruppsvariansen för att få ut ett F-värde
100
Q

Mellangruppsvariansen

A

= Variansen mellan varje grupps M och totalmedelvärdet.

101
Q

Inomgruppsvarians

A

= Den sammanlagda variansen inom varje grupp.

102
Q

Sum of Squares Total (Kvadratsumma)

A

= den totala variansen som vi har i all vår data. SUMMAN AV Within och Between! OBS: Samtliga värden på x kvadreras för att eliminera de negativa värdena. Behövs för att beräkna hur stor effekten är, men inte för att veta om effekten är signifikant i ett ANOVA-test.

103
Q

Sum of Squares Between (Kvadratsumma)

A

= Variansen mellan grupperna. Ju större skillnad mellan grupperna, desto högre SSBetween. Beror av systematisk varians ,dv.s behandlingseffekt.

104
Q

Sum of Squares Within (Kvadratsumma)

A

= Variansen inom grupperna i ett ANOVA-test. Ju större variation/skillnad inom grupperna, desto större SSWithin Beror av slumpvarians

105
Q

Mean Square Between (MS_B)

A

= medelkvadratsumman mellan grupper, dvs. Sum of Squares Between delat med antal df_B (J-1, där J är antalet grupper). Ju större MS_B blir, desto större är mellangruppsvariationen.

106
Q

Mean Square Within (MS_W)

A

= medelkvadratsumman inom grupper dvs. Sum of Squares Within delat med df (totala antalet individer – (minus) antal grupper) . Ju större MS_W, desto större är inomgruppsvariansen.

107
Q

Slumpvarians

A

= Individuella skillnader + mätfel. Det fel som orsakar skillnader inom grupper i ett ANOVA-test

108
Q

Systematisk varians

A

= Behandlingseffekt / Manipulation av OBV. Det fel som orsakar skillnader mellan grupper i ett ANOVA-test.

109
Q

F-kvoten

A

= kvoten av alla mellangruppsvarianser GENOM inomgruppsvarianserna, dvs. resultatet av att räkna ut en ANOVA. Det erhållna F-värdet jäämförs sedan med en F-tabell för att avgöra signifikans.
Ett signifikant F-värde är ett ”overallresultat”, det visar att minst två av de jämförda grupperna skiljer sig åt

110
Q

Flervägs ANOVA / Faktoriell design

A

= vi testar fler än en OBV’s inverkan på BV. En flervägs ANOVa gör det möjligt att 1) ha ett stort antal OBV, 2) blanda inomgrupps- och mellangruppsfaktorer, samt 3) visualisera huvud- och interaktionseffekter.

111
Q

Varför kan man inte bara göra 3 t-test istället för ett ANOVA-test?

A

Därför att ju fler test man gör på en 5%-ig alfanivå, desto större blir risken för typ 1-fel!
Vid signifikant F-test jämförs sedan grupperna med post-hoc test. Detta korrigerar för inflation av p-värden. För varje test gångrar man 0.95 med sig själv och subtraherar den summan från 1 för att få risken för typ 1-fel).

112
Q

Huvudeffekt

A

= Ett begrepp som används vid en tvåvägs ANOVA. Vi har en huvudeffekt för respektive faktor/OBV i vår ANOVA-analys, men vi har också interaktionseffekter mellan faktorerna.

113
Q

Hur ser vi enkelt en signifikant huvudeffekt i ett linjediagram, men inga interaktionseffekter?

A

Det finns två parallella linjer, antingen A) vågräta och parallella, eller B) lutade och parallella.

114
Q

Hur ser vi bristen på huvudeffekt i ett linjediagram?

A

Linjerna är vågräta och parallella och en icke-signifikant distans ifrån varandra (dvs. nästan på samma ställe)

115
Q

Interaktionseffekt

A

= Den variation som inte kan förklas av faktor A eller B var för sig, utan interaktioner mellan faktor A och faktor B. DVS. effekten som Z (OBV) på X (BV) beror på Y. Innebär att man gör flera olika F-tester men med bibehållen alfanivå. Antalet interaktionseffekter ökar exponentiellt, dvs. med två OBV i 2x2 flervägs ANOVA finns 3 interaktionseffekter (1OBV-2OBV, 1OBV-BV, 2OBV-BV).

116
Q

Hur ser vi enkelt i ett stapeldiagram om det finns en interaktionseffekt?

A

= Att staplarna inte blir parallella på något vis.

117
Q

Kan vi lägga till hur många oberoende variabler som helst i ett tvåvägs ANOVA-test?

A

Nej! Det blir ALLDELES för många huvudeffekter, post-hoc-test, och interaktionseffekter. Huvudet kommer explodera!

118
Q

När använder man Post-hoc-test?

A

= Så fort vi har fler än två grupper i vår ANOVA-analys (tvåvägs- eller trevägs ANOVA)!

119
Q

Varför gör man Post-hoc-test?

A

= Ett signifikant F-värde är ett ”overallresultat”, det visar att minst två av de jämförda grupperna skiljer sig åt. För att få veta exakt var skillnaderna finns, dvs. vilken av grupperna som bidrar till skillnaden vid en flervägs ANOVa, gör man ett post-hoc-test. Det finns ett antal olika post-hoc-tester utvecklade för olika situationer. Beroende på vilket post-hoc-test man använder så kan man mer liberalt eller mer konservativt byta värde på alfa (a) för att minska risken för typ 1-fel (men då ökar ju risken också för typ 2-fel).

120
Q

Hur räknar vi ut antal frihetsgrader i ett ANOVA-test?

A

Två frihgetsgader redovisas i parentesen efter F-värdet, t.ex. F(2,27).
Df 1 between = antal grupper i en studien - 1
Df 2 within = antal individer i studien – (minus) antal grupper

121
Q

Korrelationskoefficienten (r)

A

= Beskriver det sambandet mellan två egenskaper/variabler. Benämns r i stickprovet och p i populationen. Passar BARA linjära samband, så plotta alltid upp värdena innan ni beräknar korrelation! Ett av de vanligaste formerna för att beskriva statistiska samband är med hjälp av korrelationer. Beroende på vilken skalnivå dina variabler är på används olika korrelationskoefficienter: Ordinalskalevariabler = Spearmans r, dikotoma variabler = Phi-koefficienten, intervall- och nominalskalevariabler = phi-biserial-koefficienten.

122
Q

Vilka 4 antaganden måste vara uppfyllda för regressionsanalyser?

A

1) Linjära samband
2) Ingen kollinearitet eller multikollinearitet
3) Homoskedasticitet
4) Normalfördelade residualer
5) Inga outliers

123
Q

Hur räknar man ut Pearsons r?

A
  1. Beräkna medelvärdena för X och Y
  2. Beräkna s för X och Y
  3. Beräkna XY för varje försöksperson och summera
  4. Stoppa in i din valda formel.
124
Q

Vad är ett starkt och vad är ett svagt r?

A

Cohens riktlinjer för tolkning av samband:
Svagt r = .10
Medelstarkt r = .30
Starkt r = .50
Fullständigt godtyckligt egentligen, det viktiga är vad det finns för förväntningar!

125
Q

Determinationskoefficienten (r^2)

A

= anger andel förklarad varians, dvs. hur mycket av variationen i Y som kan förklaras av variationen i X. Förklarad varians beskrivs med R2 för regressionen = determinationskofficienten. Vid enkel regression är R2 = r2.
T.ex. vi vet att fysisk aktivitet och BMI korrelerar med r =-0,37 och då kvadrerar vi detta för att få ut determinaitonskoefficienten.

126
Q

Vad kan den oförklarade variansen i en regressionsanalys bero på?

A
  • Mätfel
  • Variabler som inte är mätta (störvariabler/konfounding variables)
  • Felspecificering (t.ex. edet är ett kurvilinjärt samband)
127
Q

Homoskedasticitet

A

= spridningen i Y ska vara lika stor för alla värden på X, dvs. det ska i ett punktdiagram inte se ut som en ”tratt” från origo och mot övre högra hörnet.

128
Q

Bivariat normalfördelning

A

= för varje värde på X är motsvarande värde på Y normalfördelat, och för varje värde på Y är motsvarande värde på X normalfördelat.

129
Q

Restriction of range

A

= Ibland finns det bara samband inom ett visst intervlal för värden på X, dvs. vi bör ha lite spridning på värdena på X (t.ex. bara bland 6-åringar och inte bland 3-9-åringar). Dålig spridning gör det svårt att upptäcka samband. Om vi endast observerat utfall inom det givna intervallet ovan hade vi aldrig upptäckt det starka positiva sambandet.

130
Q

Outlier

A

= En observation som skiljer sig betydligt från de andra observationerna i ett dataset, vilket kan påverka våra korrelationer. Dessa upptäcks vanligtvis genom att göra ett punktdiagram i SPSS.
Univariat outlier – ett extremvärde i en variabel tex någon är 120 år gammal i en ålders variabel
Multivariat outlier – ett extremväde baserat på flera variabler som tex i en korrelation eller regression.

131
Q

Cooks distans

A

= ett inflytandemått vi använder vid regressionsanalys för att undersöka den påverkan som en multivariat outlier har på våra resultat. Innebär i praktisken att en ny vairabel skapas där värden över 1 är problematiska och kan misstänkas ha ett substantiellt inflytande på statistiken.

132
Q

Vad ska vi göra om vi upptäckt att vi har en outlier?

A
  1. Kolla efter felinmatningar – går det inte att lista ut rätt värde, radera datapunkten.
  2. Om värdet är sant, hur kommer det sig? Har vi operaitonaliserat variablerna ordentligt, t.ex. inkomst? Var personen verkligen engagerad i experimentet?
  3. Om det inte verkar vara någon felmatning och allt verkar stämma med teori och procedur så finns det bara två alternativ kvar att göra (där det första ofta är det bästa): 1) Du kör vidare med analysen inklusive outliers med vetskapen om att det kommer påverka estimatet (dvs. du modellerar alla data lite halvdåligt), 2) Du tar bort outliern – och får en risk för snöbollseffekt där du får en ny outlier, och tar du bort den så får du en ny… (dvs. du modellerar bara en begränsad del av datan väldigt bra).
133
Q

Regressionsanalys innebär att

A

Vi försöker skapa en prediktionslinje vi kan utgå ifrån för att vid ett visst värde på X kunna predicera värdet på Y.

134
Q

Regressionskoefficienten (b1x)

A

= Visar lutningen på en regressionslinje.

135
Q

Residualer

A

= Skillnaden mellan de observerade värdena och regressionslinjen, vilken ska vara så liten som möjligt för bästa förklaringsvärde. Ju större residualspridning, desto osäkrare prediktion.

136
Q

Den standardiserade regressionskoefficienten

A

= Uttrycker relationen mellan x och y i termer av s. Gör att man kan jämföra flera regressionskofficienter med varandra.

137
Q

Multipel regression

A

= Att förklara variationen i en BV med hjälp av flera OBV, t.ex. vilka prediktorer det är som förklarar framgång på nationella provet?

138
Q

Multipel regression

A

= Att förklara variationen i en BV med hjälp av flera OBV, t.ex. vilka prediktorer det är som förklarar framgång på nationella provet?

139
Q

Vilka 2 användningsområden har multipel regression?

A

A. PREDIKTION = Att förutse t.ex. vem som kommer insjukna i en sjukdom. Här vill vi få ett så stort R^2 som möjligt, och vi vill inkludera så många variabler som möjligt (tills vi nästan inte har någon power kvar). Använder ofta ENTER-metoden.
B. FÖRSTÅELSE = Vilka X som förklarar Y. då är vi måttligt intresserade av R^2. Vi måste då också vara noga med vilka variabler vi väljer ut utifrån teori och empiri, samt att få med de bakomliggande variablerna som förklarar OV och BV. Använder ofta STEPWISE-METODEN.

140
Q

Simultanregression / ENTER

A

= Alla OBV läggs till samtidigt i regressionsanalysen, så att du ser den unika effekten av varje prediktor och får en prediktionsformel.

141
Q

Fördelarna och nackdelarna med ENTER-metoden

A

FÖRDELAR: Bra när vi inte vet i vilken ordning vissa prediktorer påverkar utfallet samt ger en bra förklaring om den kombineras med teori.
NACKDELAR: Vi får bara se de direkta effekterna, och dessa kan förändras beroende på vilka variabler som är med i modellen.

142
Q

Hierarkisk regression / Sekveniell regression / Stepwise

A

= OBV läggs till i flera steg i regressionsanalysen för att förstå om variabeln är viktigt för utfallet (dvs. signifikant höjer R^2)

143
Q

Födelarna och nackdelarna Hierarkisk/Stegvis regression

A

FÖRDELAR: Användbart när vi testar kurvlinjära effekter och interaktionseffekter (t.ex. vissa OBV har positiv inverkan och andra har negativ inverkan), samt kan undersöka hur mycket en enskild variabel förklarar variansen.
NACKDEL: Den delade variansen tillfaller den variabel som läggs in först, dvs. hur mycket en enskild variabel bidrar beror på i vilken ordning du lägger in den i modellen! Dvs. du måste noga tänka över i vilken ordning du tänker lägga till OBV i analysen.

144
Q

Vilka sätt kan du välja ordningen i vilken du lägger till OBV i en hierarkisk regression?

A

I grund och botten bör det vara tidigare teori och forskning som guidar en.
1. Kronologisk/Tidsmässig ordning
2. Bakgrundsvariabler först, sedan variabler av intresse (Ofta ligger alla bakgrundsvariabler i samma steg precis i början)
3. Statistiska variabler först, sedan manipulerade variabler.
Är du osäker på när du ska lägga in en variabel – lägg in den i samma steg.

145
Q

Vad är skillnaden mellan r^2 och R^2?

A

De båda står för determinationskoefficienten, men när det stavas med stort R är det för multipel regressionanalys. Om vi bara har 1 OBV som vi vill undersöka så blir r^2 = R^2.

146
Q

Vad är fördelarna med multipel regressionsanalys framför ANOVA?

A
  1. Vi kan använda oss av både kontinuerliga och kategoriska OV
  2. Vi behöver inte omvandla våra kontinuerliga OV till kategoriska
  3. Vi kan lätt lägga in flera OV samtidigt i modellen
  4. Man kan analysera både experimentell och icke-experimentell data
147
Q

Vad är fördelarna med ANOVA framför multipel regressionsanalys?

A
  1. Om du arbetar med kategoriska variabler är det att föredra
  2. Om du har mycket få oberoende variabler (som t.ex. vid ett experiment) är det att föredra
  3. Bättre med ANOVA om du förväntar dig att se flera interaktionseffekter.
148
Q

Vad händer om vi lägger till fler och fler prediktorer i en multipel regressionanalys?

A

1) Du får större R^2, dvs. förklarad varians.
2) MEN du kommer förlora power, dvs. du får svårare att upptäcka signifikanta prediktorer.

149
Q

Adjusted R^2

A

= Problemet med vanliga R^2 är att det ökar med antalet variabler, alldeles oavsett om variablerna tillför något till modellen eller ej - en modell med många prediktorer alltid ha ett högre R^2. Därför har vi ett adjusted R^2 som till skillnad från vanliga R^2 minskar om prediktorerna inte tillför något till regressionsmodellen.

150
Q

Kollinearitet

A

= Sambandet/Överlappet mellan två variabler, som upptäcks i vanlig regressionsanalys.

151
Q

Multikollinearitet

A

= Sambandet/Överlappet mellan flera variabler, som gör att det unika bidraget av OBV på BV minskar. Detta måste räknas ut med ett särskilt test. Räknas ut med hjälp av VIF och Toleransvärde.

152
Q

VIF

A

= Motsatsen till toleransvärdet, och ett sätt att bedöma multikollinearitet. Dvs. hur mycket varians som förklaras av dina OBV. Gärna så nära 1 som möjligt, bra värden är <5.

153
Q

VIF

A

= Motsatsen till toleransvärdet, och ett sätt att bedöma multikollinearitet. Dvs. hur mycket varians som förklaras av dina OBV. Gärna så nära 1 som möjligt, bra värden är <5.

154
Q

Toleransvärde

A

= Ett sätt att bedöma multikollinearitet. Hur mycket varians som INTE förklaras av dina
OBV. Bra värden är > 0.20.

155
Q

Vilka problem får vi om vi har hög multikollinearitet i vår multipla regressionsanalys?

A
  1. Vi får svårt att tolka resultaten, alltså det unika bidraget från en prediktor.
  2. Du riskerar att få helt andra resultat med ett annat stickprov (Minskad tillförlitlighet hos regressionsekvationen)
  3. Sannolikheten minskar för att ytterligare prediktorer bidrar med något nytt
156
Q

Hur kan vi lösa problemen vi får med multikollinearitet?

A

ANTINGEN öka power för de små unika effekterna genom att öka vårt urval ELLER minska antalet variabler som korrelerar högt (exkludera dem, göra faktoranalys vilket är komplicerat, eller göra ett index som också är komplicerat)

157
Q

Antagandet om Normalfördelade residualer

A

= Vid varje värde av vår BV ska distributionen av residualer vara normalfördelad.

158
Q

Dummykodning

A

= Den omkodning man gör om man har kategoriska variabler i en multipel regressionsanalys. När man skapat nya variabler lägger man till dessa i regressionen som en prediktor istället för de gamla.

159
Q

Hur påverkas din dummykodning av antalet kategorier man har på sina kategoriska variabler?

A

Med bara 2 kategorier på den kategoriska variabeln är dummykodning enkelt, men med 3 kategorier eller fler blir det svårare. Då får vi helt enkelt skapa nya variabler med Recode-funktionen i SPSS. Antalet variabler man skapar blir då antalet kategorier man hade -1, och lämpligen blir vår kontrollgrupp/referensgrupp den som blir kodad som 0. De två andra variablerna blir nya variabler där 1 indikerar närvaro och 0 indikerar frånvaro från gruppen. Vill du sätta två behandlingsmetoder mot varandra får du göra om din dummykodning så att en av metoderna är referensgrupp, den andre är 1, och så får du köra analysen igen.