kvantitativ metod Flashcards

1
Q

Vad är skillnaden mellan ett parametriskt och ett icke-parametriskt test?

A

Parametriska tester används när:
- Data är kvantitativ (intervall- eller kvotskala)
- Data är normalfördelad
- Grupper har liknande varians (homogen varians)

Fördelar: starkare statistisk kraft (färre observationer behövs för att hitta en effekt). Kan ge mer exakta resultat om antaganden är uppfyllda
Nackdelar: Fungerar dåligt om datan inte uppfyller normalfördelningskravet
Parametriska tester: ex Pearsons korrelation, t-test, z-test

Icke-parametriska tester används när:
- Data inte är normalfördelad
- Data är ordinal (rangordnad) eller har extremvärden
- Variansen är olik mellan grupper

Fördelar: Kräver färre antaganden om data, fungerar bra vid små stickprov
Nackdelar: Mindre statistisk kraft (kan kräva fler observationer för att hitta en effekt). Ger ofta endast en rangordning snarare än exakta värden
Icke-parametriska tester: Mann-Whitney U-test, Wilcoxon och Spearmans korrelation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vad är statistik?

A

Statistik är ett sätt att bearbeta och analysera numerisk data (data som på något sätt kan uttryckas i siffror). Statistik är en stomme (en grundläggande komponent) inom den kvantitativ metodiken eftersom det används för att analysera data (analysmetod).

Det finns i huvudsak två sorters statistik:
Beskrivande (deskriptiv) statistik är vi använder statistiska mått (medelvärde, frekvenser etc) för att beskriva en grupps egenskaper
Inferentiell statistik där vi använder statistiska jämförelser för att dra slutsatser om en populations egenskaper - man utgår från stickprov

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vad är en variabel?

A

En egenskap, beteende, känsla m.m. hos personer eller saker som kan variera.
Exempelvis kan egenskapsvariabeln “kön”variera mellan “man” och “kvinna” eller “annat”. Känslovariabeln “lycka” kan variera mellan “inte alls lycklig” till “extremt lycklig”.

När vi i forskning använder oss av variabler refererar vi alltså till det vi mäter. Användandet av variabler istället för “beteende”, “känsla” standardiserar vårt språk och underlättar forskningsprocessen.

Vi delar upp variabler på olika sätt beroende på dess funktion. När vi vill veta mer om sambandet mellan två variabler kallar vi den variabeln som vi tror orsakar förändring för den andra variabeln (för den beroende) för oberoende variabel och den som påverkas för beroende variabel

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Skillnaden mellan kvanitativa och kvalitativa varibeler?

A

Kvantitativa variabler: variabler vi kan uttrycka numeriskt, ex ålder

Kvalitativa variabler: Variabler vi inte kan uttrycka numeriskt, ex kön

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Beskriv de fyra olika skalnivåerna

A

En skalnivå beskriver den typ av data som samlas in och hur dessa data kan mätas eller rangordnas. Det finns fyra huvudsakliga skalnivåer, och de styr vilken typ av statistiska analyser som är möjliga att göra:

  1. Nominalskala - klassificerar händelser utifrån kategorisering, saknar rangordning
  2. Ordinalskala - möjligheten att rangordna men avstånden mellan svarsalternativen kan inte avgöras (t.ex betyg, kategorivariabler: aldrig, sällan, ofta) Ingen absolut nollpunkt
  3. Intervallskala - svarsalternativen är rangordnade och har specifika avstånd till varandra, men det finns ingen given nollpunkt. Exempelvis celsius eller fahrenheit (t.ex. 0°C är inte “ingen temperatur”, det är bara en specifik punkt på skalan).
  4. Kvotskala: svarsalternativen är rangordnade med specifika avstånd till varandra och det finns en given nollpunkt - det gör det möjligt att jämföra värden genom att bilda kvoter (t.ex “detta är dubbelt så mycket som det andra”) Exempel på kvotskalor: längd, tid, vikt, snödjup.
  • Absolut nollpunkt: en punkt som motsvarar värdet 0 av det som mäts: (ex. längd och tid)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Beskriv de tre centralmått som finns

A

Typvärde: Det vanligaste mätvärdet i en uppsättning. Används på alla skalnivåer.
Fallgropar:
- Kan vara känsligt för slumpen och variera - mycket mellan stickprov.
Kan finnas flera typvärden i en mätning ⇒ bimodala fördelningar

Median: Det mittersta värdet i en ordnad uppsättning siffror. Används på alla skalor utom nominalskala.
Fallgropar:
- Bra för att visa “typisk” individ men påverkas av slumpen.
- Kan inte användas för att beräkna sammanlagd median från olika grupper.

Medelvärde: Summan av alla observationer delat med antalet observationer. Bra för att vi kan generalisera från våra resultat, det är ett väntevärdesriktigt estimat, d.v.s. att om vi tar medelvärdet av många olika grupper och beräknar medelvärdet av dessa värden så tar varje felaktighet ut varandra.
Fallgropar:
- Påverkas mycket av extremvärden och kan bli missvisande om det finns stora variationer.
- Bättre vid enhetliga grupper, men mindre bra när åsikterna varierar kraftigt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Förklara varför vi bör använda medelvärdet istället för medianen vid statistiska parametriska analyser

A

I en normalfördelad population är medelvärdet den bästa skattningen av central tendens eftersom det ligger i mitten av fördelningen. Medelvärdet gör det möjligt att generalisera resultaten och dra slutsatser om populationens medelvärde. Dessutom används medelvärdet vid beräkning av standardavvikelse och varians, vilket är en viktig komponent i parametriska analyser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

När bör vi använda median istället för medelvärdet vid en statistisk analys. Ge ett eller flera exempel.

A
  • Vi bör använda medianen istället för medelvärdet när datan är snedfördelad, innehåller extremvärden eller är på ordinalskalenivå. Alltså när gruppen tycker väldigt olika.
  • När vi vill ha den “typiska” individens resultat
  • När det är stora extremvärden, outliers som påverkar resultatet mycket vid medelvärde
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vilken information ger oss ett spridningsmått? Förklara med enkla ord.

A

Spridningsmått ger oss en uppfattning om hur säkert ett centralmått är och hur de enskilda individernas testresultat sprider sig kring detta centralmått. Det finns tre olika typer av spridningsmått, ett för varje centralmått:
- Spridningen kring typvärde kallas variationsbredd (range)
- Spridningen kring median kallas kvartilavstånd eller kvartilavvikelse
- Spridningen kring medelvärdet kallas varians eller standardavvikelse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vad är skillnaden mellan stickprovets och populationens varians och standardavvikelse?

A

Stickprovets estimat: Varians (s²) och standardavvikelse (s) används för att uppskatta populationens parametrar.

Populationens parametrar: Varians (σ²) och standardavvikelse (σ) är teoretiska värden som är okända och inte kan beräknas direkt.
Stickprovets värden används för att göra uppskattningar om populationens egenskaper

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Varför görs korrigeringen n-1 vid standardavvikelse?

A

Samplets standardavvikelse (s) är inte så bra skattning på populationens standardavvikelse (σ)
Eftersom spridningen är känslig för hur stort stickprovet är (storleken på n), därmed korrigering

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vad är fördelningar?

A

En fördelning av mätvärden visar hur människors mätvärden (kan vara attityder, beteenden m.m.) frekvensmässigt faller ut längs en skala. Fördelningen kan exempelvis vara normalfördelad, där samtliga centralmått är i mitten av fördelningen.

Andra fördelningsformer kan vara: bimodal fördelning, positiv snedfördelning och negativ snedfördelning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vad är normalfördelning?

A

Den teoretiska normalfördelningen har en rad speciella egenskaper
- den är klockformad, ser likadan ut på båda sidorna (symmetriskt)
- den har alltis största värdet i mitten
- eftersom den är symmetrisk kan man alltid hitta samma proportioner av observationer mellan två punkter på x-axeln

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vad finns på y-axeln i en normalfördelning?

A

Y-axeln beskriver en frekvensfördelning och benämner därmed alltid ANTAL

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Vad innebär en z-transformering?

A

Att z-transformera mätvärden är som att översätta olika språk till ett. Vi kan plötsligt jämföra variabler mätta med olika skalor eller kanske till och med helt olika natur. Vi kan till exempel jämföra en persons längd med en annan persons vikt.

Vad vi gör när vi z-transformerar (gör om våra testpoäng till z-poäng) är att vi byter skala från antal poäng till antal standardavvikelser från medelvärdet.
En z-transformerad variabel får medelvärdet 0 och standardavvikelsen 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hur fungerar Z-poäng (standardpoäng)?

A

När vi beräknar z-poäng (standardpoäng) vill vi veta hur mycket en individ avviker från medelvärdet i gruppen uttryckt i standardavvikelser. Detta gör att vi kan använda vilken skala som helst då vi ändå
”översätter” mätresultaten till avvikelse från medelvärdet uttryckt i antal
standardavvikelser

En z-transformerad variabel får medelvärdet 0 och standardavvikelsen 1. Därmed:
Z = 0 → Värdet är exakt vid medelvärdet.
Z = +1 → Värdet är en standardavvikelse över medelvärdet.
Z = -1 → Värdet är en standardavvikelse under medelvärdet.
Z = +2 → Två standardavvikelser över medelvärdet (ovanligt högt värde).
Z = -2 → Två standardavvikelser under medelvärdet (ovanligt lågt värde)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

När använder vi korrelationer?

A

När vi vill hitta ett samband mellan två variabler eller egenskaper. Om något förändras beroende av varandra så säger vi att det finns en korrelation. De samband vi undersöker måste vara linjära. Hur stark korrelationer är mäts med en korrelationskoefficient ⇒ R
R talar om hur mycket den ena variabeln förändras i förhållande till den andra
Två olika korrelationskoefficienter (R) = Pearsons och Spearmans

r varierar mellan -1 och 1 där -1 är ett komplett negativt samband
(När x ökar så minskar y) och 1 är ett komplett positivt samband
(När x ökar så ökar y). Om r är 0 finns inget samband och vi kan då
inte säga att det finns ett mätbart samband mellan x och y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Vad är en hög/bra korrelation?

A

Ju närmare 0 desto svagare samband
Ju närmare 1 eller -1 desto starkare samband

Cohens riktlinjer för tolkning av samband:
- Svag r = 1.0
- Medelstark r = 3.0
- Starkt r = 5.0

Det finns en stor godtycklighet i dessa siffror och hur viktigt eller bra en korrelation är bestäms av studiens upplägg och frågeställning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Vilka grundläggande problem finns det med korrelationsanalyser?

A

Kausalitet: När vi gör korrelationsstudier har vi svårt att avgöra om x påverkar y eller y påverkar x. Vi vet att de samvarierar men kan inte uttala oss om orsaksriktning

Bakomliggande-variabel-problemet: Samvariation mellan två variabler kan vara en konsekvens av en tredje variabelns påverkan. Denna variabel kallas för en confound

Extremvärden (outliers): Korrelationer är känsliga för extremvärden och vi bör vara medvetna om de effekter som en individs extrema svar kan göra för korrelationen. Gäller Pearson och inte Spearman

20
Q

Vad kan det finnas för olika visuella presentationer av samband?

A

Inget samband: resultat överallt
Positivt samband: startar lågt på y, men växer både på y och x när x växer
Negativt samband: startar högt på y, och minskar på y när x växer
Kurvlinjärt samband: ser typ ut som en normalfördelning

21
Q

Beskriv determinationskoefficienten

A

Vårt R värde beskriver hur starkt samband vi har mellan våra variabler.

Ett bättre mått på styrkan i sambandet får vi om vi kvadrerar vårt r-värde (multiplicerar r-värdet med sig själv) ⇒ determinationskoefficenten r^2

Med hjälp av detta kan vi uttala oss om hur många procent av variansen (variationen) delas av de båda variablerna.

22
Q

När bör vi använda Spearmans korrelationsanalys istället för Pearson korrelationsanalys?

A

Spearmans rangkorrelationskoefficent bör användas istället för Pearsons korrelationskoefficent när:
1. Data inte är normalfördelad - Spearman kräver inte normalfördelning men det gör Pearson
2. Det finns outliers - Spearman är mindre känslig för extremvärden eftersom den baseras på rangordning snarare än faktiska värden
3. Data är på ordinalskalenivå - Om variablerna endast kan rangordnas (t.ex betyg), plats i en tävling) fungerar Spearman bättre än Pearson, som kräver intervall- eller kvotskala.
4. Sambandet är icke-linjärt men monotont - Spearnman kan upptäcka samband där en variabel ökar eller minskar konsekvent, även om relationen inte är linjär.

Alltså bör man använda pearson när:
1. Data är normalfördelad
2. Variablerna är på intervall- eller kvotskala
3. Sambandet är linjärt
4. Det inte finns extrema outliers

23
Q

Vad är inferentiell statistik?

A

När vi fokuserar vår statistik på vårt stickprov och med olika mått vill beskriva hur vårt stickprov ser ut kallas vi detta deskriptiv statistik. Men, mycket av det vi gör är inte bara intressant för vårt stickprov. Istället vill vi kunna dra slutsatser på populationsnivå och generalisera våra resultat. När vi vill generalisera våra fynd till en population kallar vi de statistiska metoder som används för inferentiell statistik.

24
Q

Vad är hypoteser inom psykologi?

A

Nollhypotes och alternativhypotes är de hypoteser som används inom forskning
- (H0) Nollhypotesen innebär att det inte finns en skillnad, att det inte finns ett samband eller att det inte finns en effekt
- (H1) Alternativhypotesen innebär att det finns en skillnad, ett samband eller en effekt

Vi använder oss av populationsmått när vi konstruerar hypoteserna. I en population kallar vi medelvärdet μ.
μa = μb → nollhypotesen
μa ≠ μb → alternativhypotesen

25
Q

Skillnaden mellan icke-signifikans resultat och signifikans resultat?

A

Icke signifikant resultat: Om vi inte kan utesluta att slumpen orsakar ett resultat så “behåller” vi H0
Signifikant resultat: Om vi utesluter att slumpen orsakat resultatet “förkastar” vi H0, vi ser en effekt

26
Q

Vad är en samplingfördelning?

A

Fördelning av medelvärden från flera sampel av samma storlek dragna från en population. En teoretisk fördelning som vi använder vid statistisk uteslutning. Samplingfördelning är en nyckelfördelning som hjälper oss vid hypotesprövningen. Användningen av medelvärden i samplingfördelningen tar bort slumpmässiga felaktigheter, vilket gör att den alltid (nästan) blir normalfördelad.

27
Q

Vad är den centrala gränsvärdessatsen?

A

Samplingfördelning: Om vi beräknas medelvärdet av ett stort antal slumpmässigt fördelade tal så kommer detta medelvärde att närma sig en normalfördelning, oavsett hur fördelning för de enskilda talen ser ut

28
Q

Vad innebär alfanivå?

A

Alfanivån (skrivs α) kallas den gräns där ett resultat blir så osannolikt att vi kan förkasta nollhypotesen och hävda att det finns en effekt. Denna nivå bestäms av forskaren beroende på vad som undersöks men inom psykologisk forskning är 5 procent mycket vanligt.

Sannolikheten att hitta en effekt varierar också med om vi gör en ensidig (en variabel är bara intressant om den ökar ELLER minskar) eller tvåsidig hypotesprövning (både en ökning OCH en minskning är intressant)

Om vårt stickprovsmedelvärde får ett z-värde som är större än 1,96 eller mindre än -1,96 (vid tvåsidig prövning) så är det så extremt att vi kan förkasta H0

29
Q

Vad är typ 1 respektive typ 2-fel?

A

Typ I-fel: Vi förkastar noll-hypotesen trots att det inte finns någon effekt.
Risken för detta är densamma som alfanivån. Om vi sätter alfanivån till fem procent kommer vi i fem procent av fallen att förkasta Ho fast den är sann. Risken betecknas formellt a, alfa.

Typ II-fel: Vi förkastar INTE nollhypotesen trots att det finns en effekt. Svårt att exakt veta hur stor risken är men är kopplad till alfanivån. Risken för typ II-fel kan minskas genom bl.a. genom att höja alfanivån och ha fler deltagare i undersökningen. Risken betecknas formellt β, beta.

30
Q

Vad är sannolikheten att vi begår ett typ 1-fel om vi sätter alfa-nivån till 5 %?

A

Vi kommer i fem procent av fallen förkasta H0 trots att den är sann

31
Q

När använder vi ett z-test?

A

Z-test används om vi har ett stickprovsmedelvärde och vill se om detta stickprovsmedelvärde skiljer sig från populationsmedelvärdet.
x̄ = gruppens medelvärde
μ total = populationens medelvärde
6 total = standardavvikelsen från populationen
n = antalet individer i gruppen

32
Q

Varför finns det olika t-fördelningar men endast en z-fördelning?

A

T-fördelningen är en uppskattning av z-fördelningen då vi inte vet populationens standardavvikelse. Det kritiska gränsvärdet skiljer sig åt. Det finns en fördelning för varje frihetsgrad. Ju större stickprov, desto mer lik blir t-fördelningen z-fördelningen. Alltså, t-fördelningar varierar med n (frihetsgraderna df).

33
Q

Vad är en frihetsgrad?

A

Frihetsgrader är ett uttryck för hur många deltagare vi har i en studie. Antalet deltagare har betydelse för utfallet av t-testet. Med många deltagare ställs lägre krav på t-värdet. Titta i tabellen:
När df = 5 måste t vara större än 2.57 för att vara signifikant
När df = 25 måste t vara större än 2.06 för att vara signifikant
df beräknas lite olika beroende på vad vi skall göra

34
Q

Vad är ett kritiskt gränsvärde för t?

A

Det kritiska gränsvärdet för t beror på frihetsgrader (df) och signifikansnivån (a), men det kan exempelvis vara df = 5, t-värde = 2,57

35
Q

När använder vi t-test för oberoende mätningar respektive för beroende mätningar?

A

Det finns två sorters t-test, beroende på vilka värden vi har att tillgå kan vi välja det mest passande.
* t-test för oberoende mätningar – Vi har varken populationsmedelvärde eller populationsstandardavvikelse och vill mäta medelvärdesskillnad mellan två olika grupper
* t-test för beroende mätningar – Vi har varken populationsmedelvärde eller populationsstandardavvikelse och vill mäta medelvärdesskillnad i samma grupp vid två olika tillfällen.

36
Q

Vilka förutsättningar finns för t-testet?

A
  • Data måste vara normalfördelad
  • Varianserna inom de två grupperna måste vara lika stora (homogena)
37
Q

Vad berättar Levenes test för oss?

A

Det undersöker om det föreligger signifikant skillnad mellan gruppernas varians

38
Q

Varför är det viktigt att rapportera effektstyrka och inte bara p-värde?

A

Effektstyrka talar om hur stark den effekten vi observerar är. Signifikansvärdet gör INTE detta utan det talar “endast” om hur säkra vi kan vara på att det finns en effekt. Cohens d är den effektstyrka vi kommer att fokusera på och riktlinjerna kring tolkning av denna ser ut som följer: Effektstyrka d
- Liten 0,20
- Måttlig 0,50
- Stor 0,80

39
Q

Vad är Cohens d?

A

Cohens d räknas ut genom att vi räknar ut differensen mellan våra medelvärden och sedan dividerar detta värde med den genomsnittliga standardavvikelsen för våra båda grupper

Det viktiga är att Cohens d alltså beskriver hur stor effekt vår observerade effekt har och att Cohens d är en en effekt av relationen mellan skillnaden i medelvärden och standardavvikelser

40
Q

Vad styr valet av statistiskt test vid hypotesprövning?

A

Först och främst typen av variabeln som skall analyseras:
- Kvantitativ variabel: medelvärdeprövningar med t-test eller ANOVA (överkurs)
- Kvalitativ variabel: Skillnader i frekvenser prövas med chi-två test
En annan aspekt är hur data är fördelad:
- normalfördelad: Parametriskt test
- Ej normalfördelad: icke parametriskt test

41
Q

Vilka test ska vi använda beroende på skalnivå?

A

Den här tabellen visar vilken typ av statistiskt test som passar beroende på variabelnivån på den beroende variabeln och testets power (förmågan att upptäcka verkliga effekter).

  • Parametriska tester (z-test, t-test, Pearson korrelation) kräver att den beroende variabeln data är på minst intervallnivå - och har högst power
  • Icke-parametriska tester (Mann-Whitney, Wilcoxon, Spearmans rho) kräver att den beroende variabelns data är på minst ordinalnivå - men har lägre power
  • Chi-två test (envägs- och tvåvägs, icke-parametriska tester) kräver endast data på nominalskalenivå vilket gör att dessa båda går att göra med variabler på samtliga skalnivåer. Men, tänk på att icke-parametriska tester har lägre power än parametriska tester och alltså ökar risken för Typ II-fel.
42
Q

Vad är ett chi-två-test?

A

Chi-två-testet (χ²-test) är ett icke-parametriskt test som används för att analysera kategoriska data (nominaldata). Det hjälper oss att avgöra om det finns ett samband mellan två kategoriska variabler eller om observerade och förväntade frekvenser skiljer sig åt mer än vad som kan förklaras av slumpen. Kritiskt värde i en viss fördelning skall överstigas för att vi skall förkasta H0

43
Q

Vad bestämmer vilket chi-två test som ska användas?

A

En variabel (Envägs Chi-två-test)
- Jämför en observerad fördelning mot en teoretisk. Exempelvis om fördelning män och kvinnor i en bolagsstyrelse skiljer sig från en förväntad fördelning.

Två variabler (Tvåvägs Chi-två-test)
- Testar om två kvalitativa variabler samvarierar. Exempelvis om nöjdhet med äktenskap varierar beroende på om Du är kvinna eller man

44
Q

Vad är skillnaden på observerad och förväntad frekvens?

A

Observerad (O) frekvens är den frekvens vi får fram baserad på vår studie, O finns i vår data

Förväntad (E) frekvens är den frekvens man skulle kunna förvänta sig om det inte fanns ett samband mellan de två variablerna vi undersöker (slumpmässig variation), E måste vi beräkna för varje cell

45
Q

Vad är ett Mann-Whitney U-test?

A

Ett icke-parametriskt alternativ till t-testet. Det är det oberoende t-testets syster.
Används t.ex när data inte är normalfördelad eller när varianserna inom grupperna är olika. Beräkningarna bygger inte på rådata utan rangordning. Annars samma principer som vid t-testet.

46
Q

Vad är ett Wilcoxons test?

A

Ett icke-parametriskt test för beroende samspel, dvs när det är samma individer i båda grupperna. Det är det beroende t-testet syster. Bygger på samma princip som Mann-Whitney, dvs. rangordning, fast här rangordnas differenserna (d). Parametern från de summerade rangordningarna kallas T