Reliabilitet Flashcards

1
Q

Items

A
  • Item = en uppgift i ett test. Ett psykometriskt test består vanligen av items som är inriktade på att mäta en viss egenskap/förmåga och när items summeras belyser de den underliggande egenskapen/förmågan.
  • Summan av alla items i ett test = summan för testet (eller deltestet).
  • Varje uppgift i ett test kallas item
  • Det kan handla om uppgifter, frågor eller påståenden
  • Testsvar på items kan räknas samman till en summa för hela testet/deltestet
  • Items används som indikatorer på en underliggande dimension som man avser mäta
  • Homogena dimensioner innebär att de items som ingår i dimensionen mäter samma förmåga/färdighet/egenskap
  • Flera dimensioner kan utgöra en domän
  • Exempel: intelligens består av flera dimensioner/faktorer t.ex. verbal, spatial och numerisk förmåga
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Variabel

A

Allt som mäts – data, ordnas i variabler inför databearbetning. En variabel måste variera – alltså måste den anta minst två värden.

Kvantitativ variabel
- Diskret: Tar bara hela värden, t.ex. antal studenter i rummet
- Kontinuerlig: Tar alla värden, t.ex. temperatur (+/-, decimaler)

Kvalitativ variabel
- Dikotom: Tar endast två värden, t.ex. ja / nej (yrsel)
- Kategorisk: Tar flera värden, t.ex. nationalitet, humör, betyg

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Frekvenstabeller

A

Inom psykometrin summeras svar på items/indikatorer till dimensioner.

Testresultatet kommer att få en frekvensfördelning som kan visas grafiskt i ett histogram.

För att beskriva hur fördelningen ser ut används centralmått och spridningsmått.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Centralmått

A

Typvärde: det värde som är vanligast, dvs. oftast förekommande

Median: det värde som ligger i mitten, dvs. hälften ligger under och hälften över

Medelvärde: summan av alla värdena dividerat med antalet värden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Normalfördelad data

A

Om värdena är normalfördelade då gäller: medelvärdet = median = typvärdet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Spridningsmått

A

Beskriver hur mycket värdena i en variabel varierar. Exempelvis:

Variationsbredd (range):
- högsta värdet minus lägsta värdet.

Percentiler och kvartiler:
- En percentil är ett värde under vilket en viss procentandel av värdena ligger (ex. 50:e percentilen markerar gränsen under vilken hälften av värdena ligger). De percentiler som delar värdena i fjärdedelar kallas kvartiler.

Standardavvikelse:
- Ett vanligt mått på spridning är standardavvikelsen (s). Talar om hur mycket värdena (i genomsnitt) varierar kring medelvärdet (medelvärdet skrivs som X med ett streck över). z-värde visar hur många standardavvikelser ett rådata är från medelvärdet (skalans medelvärde är alltid lika med 0, standardavvikelsen är alltid lika med 1).

Varians:
- Variansen är lika med standardavvikelsen i kvadrat (s^2).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Fördelningsformer

A

Normalfördelning: en symmetrisk klockformat fördelning på kurvan.

Bimodalfördelning: en kurva med 2 toppar. Vanligtvis att man mäter två olika saker / två olika gruppers resultat.

Positiv skev fördelning: en kurva med en svans som sträcker sig mot höga värden.

Negativ skev fördelning: en kurva med en svans som sträcker sig mot låga värden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Korrelation

A

Beskriver sambandet mellan två egenskaper/variabler. Säger om två egenskaper/variabler samvarierar – rör sig tillsammans (om det sker en förändring i den ena då sker det också förändring i den andra). Korrelation visar bara att variablerna har ett samband, men de går inte att dra för långa slutsatser (var vaksam på kausalitet, skensamband / bakomliggande variabler, slumpmässiga samband).

Enkelriktat samband: den ena variabeln påverkar den andra (ex aktivitet → hjärtfrekvens).
Dubbelriktat samband: de två variablerna påverkar varandra (ex prestation ←→ självförtroende).

Korrelationer är grunden för många andra statistiska analyser (ex faktoranalys & regressionsanalys).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Korrelationskoefficienten

A

Korrelation kan uttryckas i siffror för att få ett mått på hur mycket två variabler samvarierar. Korrelationskoefficienten r talar om hur starkt sambandet är. r varierar mellan –1 och +1. r beskriver linjära samband, ej kurvlinjära.

  • Korrelation kan uttryckas i siffror för att få ett mått på hur mycket två variabler samvarierar
  • Korrelationskoefficienten r talar om hur starkt sambandet är
  • Det finns många typer av korrelationskoefficienter där den vanligaste är Pearsons korrelationskoefficienten (r)
  • r varierar mellan –1 och +1
  • Positivt: ökning (med längd ökar vikt)
  • Negativt: minskning (med ålder minskar …)
  • r beskriver linjära samband, ej kurvlinjära
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vad är ett z-värde?

A
  • z visar hur många standardavvikelser ett rådata är från medelvärdet
  • Eftersom z-värdet är ett standardvärde kan vi jämföra mätvärden från olika skalor

För z-värdena gäller:
- Skalans medelvärdet är alltid lika med noll
- Skalans standardavvikelsen är alltid lika med 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Reliabilitet

A

Ett psykometriskt test består vanligen av items som är inriktade på att mäta en viss egenskap/förmåga och när items summeras belyser de den underliggande egenskapen/förmågan.

Reliabilitet är ett statistiskt mått på testets och mätning tillförlitlighet, eftersom vi litar på den mätning som gjorts.
- Hur väl kan vi lita på instrumentet

Hög reliabilitet innebär att får samma resultat under samma testförhållanden.
- Samma resultat om vi mäter samma person under samma förhållanden vid upprepade tillfällen

Hot mot reliabiliteten är mätfel
- Systematiska fel – kan bero på fel i metod eller mätinstrument (felkonstruerat item, fel i manualen)
- Försöker undvikas genom en lång process av att granska och pröva testet, undersöker att tex frågorna är relevanta för undersökningen. Även felaktigheter i manualen eller rätttningsinstruktioner. Ambitionen är att dessa fel ska ha eliminerats i färdiga tester. I teori utgår man ofta från att dessa ej finns.
- Slumpmässiga fel – beror på tillfälligheter och kan gå åt vilket håll som helst
- Kan ha att göra med testpersonen, testledaren, omständigheterna etc.

“Förmåga hos ett test att (i en given population) mäta det som testet mäter” – Fokus på skalan, är den sammanhållen / är det ett bra mätinstrument (de frågor som vi har – hänger de ihop). Hög reliabilitet innebär att får samma resultat under samma testförhållanden (vid olika tillfällen). Högre antal frågor tenderar att öka reliabiliteten / reliabilitetskoefficienten (i alla fall när det gäller intern konsistens. Spearman-Browns formel kan räkna ut hur mycket reliabiliteten skulle förbättras om man exempelvis dubblar antalet frågor.).

En hög så reliabilitetskoefficient som möjligt = så lite slumpmässiga fel som möjligt (koefficienten varierar mellan 0 till 1). Exempel: En reliabilitet på 0.8 innebär att 80% av testresultatet förklaras av “sann” variation för den egenskap man vill mäta, och 20% förklaras av mätfel.

Rxx > 0.9 = utmärkt reliabilitet
Rxx > 0.8-0.9 = bra
Rxx > 0.7-0.8 = ok

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Mätfel

A

Mätfel innebär att något går fel i mätning, det kan antingen vara ett systematiskt fel (t.ex. fel i metod och mätinstrument / felkonstruerat item, fel i manualen) eller ett slumpmässigt fel (beror på tillfälligheter och kan gå åt vilket håll som helst, exempelvis om att den som testas är stressad, upplever fysisk smärta, är emotionell, risk för bias etc…). Man utgår från att det finns mätfel, vilket man vill rätta till när man utformar och testar testet (dvs systematiska fel), innan det börjar användas inom vården.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Klassisk testteori

A

Grundantagandet i klassisk testteori är att för varje testad person finns ett sant värde som testet har för avsikt att finna vid mätningen, men testresultatet blir ett sant värde plus ett mätfel:
X = t + e
X = erhållet värde / observerat värde (t ex testpoäng)
t = sant värde (okänt)
e = slumpmässigt mätfel (negativt eller positivt)

Vid hög reliabilitet är det sanna värdet ungefär lika stort som det observerade värdet. Låg reliabilitet = slumpfelet är stort.

Sanna påståenden utifrån den klassiska testteorin:
- Reliabiliteten blir vanligtvis högre ju fler item som ingår i skalan.
- Om ett test inte är reliabelt, kan det heller inte ha hög validitet.
- Reliabilitet omfattar både stabilitet och intern konsistens.
- Validiteten beskriver ett tests förmåga att mäta på ett konsekvent sätt.
- För att beräkna den enskilda mätningens standardfel behöver man känna till testets reliabilitet och standardavvikelse.
- Reliabiliteten beskriver ett tests förmåga att mäta på ett konsekvent sätt i en viss population.
- Validiteten beskriver ett tests förmåga att mäta det testet avser att mäta.
- Reliabiliteten beskriver ett tests förmåga att under samma testförhållanden ge samma resultat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Olika metoder för skattning av reliabilitet

A

Stabilitet
- Test-retest

Parallelltestmetoden

Intern konsistens
- Split-half
- Kuder-Richardson
- Cronbachs alfa

Interbedömarreliabilitet
- Cohens kappa
- Intraclass Correlation Coefficient (kontinuerlig)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Stabilitet

A

För att visa hur stabilt ett resultat i ett test är kan man använda sig av test-retest. Test-retest innebär att samma test ges till en representativ grupp av personer vid två tillfällen. Sambandet mellan mätningarna utgör den uppskattade reliabilitetskoefficienten. Hög reliabilitet inom det här måttet innebär att mätresultatet inte är beroende av dagsform eller andra faktorer som kan orsaka variation i mätning över tid. Om det finns risk för träningseffekter är detta mått problematiskt. Test-retest, kombinerat med hög inre konsistens, har i studier visat sig ge starkt stöd för mätinstrumentets reliabilitet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Test-retest

A

Reliabilitet över tid, stabilitet.
- Samma test ges till en representativ grupp av personer vid två tillfällen
- Sambandet mellan mätningarna utgör den uppskattade reliabilitetenkoefficeinten
– Hög korrelation mellan tillfällena = samma mått, resultatet ska inte vara så påverkat av slumpmässiga fel såsom dagsform.
- Hög reliabilitet innebär att mätresultatet inte är beroende av dagsform eller andra faktorer som kan orsaka variation i mätning över tid.
- Om det finns risk för träningseffekter är detta mått problematiskt
- Om det finns studier som visar hög test-retest i tillägg till hög inre konsistens är det starkare stöd för mätinstrumentets reliabilitet.

Test-retest intervall
- Tillräckligt kort för att personen inte ändras
- Tillräckligt långt så personen inte minns sina tidigare svar
– För korta test (t.ex., < 50 items), vanligen 10-14 dagar; för längre test, kan intervallen vara kortare
– Längre för egenskaper (t.ex., extraversion) än states (mood)

17
Q

Parallelltestmetoden

A

Två likvärdiga test ges till en och samma grupp och vid samma tidpunkt. Testen är konstruerade att mäta samma sak, men med olika frågor, därav är de parallella. Korrelationen mellan de parallella testen ger en uppskattning av reliabilitetskoefficienten (hög = testen mäter samma sak).

18
Q

Intern konsistens

A

= Samstämmighet mellan de items som ingår i skalan.

19
Q

Split-half

A

Split-half är ett test som ges vid ett tillfälle, men items/frågorna grupperas i två delar (t.ex. frågor med udda nummer och jämna nummer) som summeras. Därefter beräknas sambandet mellan dessa två summavariabler (och vi får fram reliabilitetskoefficienten). Split-half ger ett mått på samstämmigheten / homogeniteten mellan de två delarna i testet.

20
Q

Kuder-Richardson

A

Används vi dikotoma items, dvs items som enbart har två svar. Ger ett mått på samstämmigheten mellan samtliga items i ett test (bygger på homogenitet) – hur väl de mäter samma dimension. Ger reliabilitestkoefficienten KR-20 eller KR-21, som visar hur väl frågorna mäter samma sak (inter konsistens), t.ex. en specifik dimension, från gång till gång.

21
Q

Cronbachs alfa

A

Används för kontinuerliga items, till skillnad från KR med sina dikotoma. Cronbachs alfa svarar på frågan: Hur mycket av variationen i mätresultatet kommer av det som deluppgifterna mäter gemensamt, till skillnad från variationen som är unik för varje deluppgift? Alltså samma som Kuder-Richardson som också mäter samstämmigheten mellan samtliga items i ett test (inre konsistens). Cronbachs alfa används även som ett mått på generaliserbarhet.

22
Q

Interbedömarreliabilitet

A

Avser i hur stor utsträckning två bedömare (kodare, skattare, intervjuare, testledare) kan göra samma kvantitativa bedömning. Sambandet mellan mätningar gjorda av två olika bedömare redovisas ofta med intraklasskorrelationen (ICC) för kontinuerliga variabler och kappa för kategoriska variabler. För alla metoder när mätresultaten är beroende av bedömare är denna typ av skattning viktig (t.ex. kodning av samspel, observationer). Hög interbedömarreliabilitet är beroende av tydliga definitioner och kriterier för bedömningen, bedömarens utbildning och erfarenhet. Vad som anses som tillräckligt hög interbedömarreliabilitet avgörs till stor del av hur svår bedömningsuppgiften är, det kan vara lite olika.

Ett exempel på interbedömarreliabilitet är Cohens Kappa. Exempelvis kan det testas med två lärare som rättar samma uppsatser, med Cohens Kappa kan man räkna ut hur sannolikt det är att lärarna kommer godkänna uppsatserna.

23
Q

Den enskilda mätningens standardfel (SEM)

A

Den enskilda mätningens standardfel (SEM) ger oss standardavvikelsen för den statistiska fördelningen som mätfelet utgör, dvs i vilket genomsnitt mätfelen varierar. Standardfelet samlar upp ostrukturerat överblivet innehåll som blir kvar när vi skattat reliabiliteten. Ju lägre värde på standardfelet, desto bättre prognos för testet (alltså hur mycket vi kan “lita” på individens testresultat). Det är användbart vid tolkning av resultat, personbedömning, rekommendationer och beslut. Man kan räkna ut ett förväntat standardfel för individens testresultat på given reliabilitetsnivå. Högre reliabilitet ger bättre tillförlitlighet, och mindre standardfel – det erhållna testvärdet ligger nära det sanna värdet vilket ger testet bättre prognosvärde.

För att kunna beräkna den enskilda mätningens medelfel behöver vi ha tillgång till testets standardavvikelse och reliabilitet. För att räkna ut det “sanna värdet” med ett förväntat standardfel (SEM) kan man tänka följande:
Säg att resultatet är 35 och SEM är 3. Om vi vill säga vad den “sanna poängen” för en elev är med 68% säkerhet räknar vi 1 standardavvikelse, dvs 3 poäng upp och 3 poäng ner. Det “sanna värdet” vid 35 poäng med 68% säkerhet är alltså 32-38. För 95% säkerhet är det istället 2 standardavvikelser, dvs 6 poäng upp och 6 poäng ner. Det “sanna värdet” vid 35 poäng med 95% säkerhet är alltså 29-41.

24
Q

Högre reliabilitet med fler items

A

Reliabiliteten för inre konsistens påverkas av antalet items eftersom de ingår i formeln för uträkning – fler items ökar reliabilitetskoefficienten (även om detta givetvis också är beroende av frågornas kvalitet).

Spearman-Browns formel kan räkna ut hur mycket reliabiliteten skulle förbättras om man exempelvis dubblar antalet frågor.

Kan också användas för att beräkna hur mycket reliabiliteten skulle öka med dubbelt så många frågor eller för att förkorta test.