Reliabilitet Flashcards
Reliabilitet och hot
Reliabilitet är ett statistiskt mått på testets och mätningens tillförlitlighet, dvs att vi litar på den mätning som gjorts (hur väl kan vi lita på måttet/instrumentet)
Hög reliabilitet innebär att vi får samma resultat under samma testförhållanden.
Hot mot reliabiliteten är mätfel:
Systematiska fel – kan bero på fel i metod eller mätinstrument (felkonstruerat item, fel i manualen)
Slumpmässiga fel – beror på tillfälligheter och kan gå åt vilket håll som helst, ex. testsituation, miljö eller testperson
Klassisk testeori
t = sant värde (okänt)
X = erhållet värde (t ex testpoäng)
e = slumpmässigt mätfel (negativt eller positivt)
X = t + e
det erhållna värdet är summan av sant och fel
Mätfelens orsaker
- Testets egenskaper: svårbegripligt, tvetydigt
- Yttre omständigheter: störande faktorer etc. buller
- Testtagarens
Stress inför testet
Kapacitet och vilja att följa instruktionerna
Fysisk smärta och emotionell upprördhet
Fysisk påverkan efter att inte ha sovit eller ätit tillräckligt
Hur alert man är
Benägenhet/tendens att hålla med (eller tvärt om)
Förkunskap om testet
Behov av att framställa sig i god dager - Relationen mellan den som testas och den som testar
Hot mot rättvisa svar
Om det är ett långt frågeformulär, om individerna inte känner sig motiverade att svara
Människor tenderar generellt att hålla med, hellre än att säga emot
Vissa svar uppfattas som socialt önskvärda
Kan vilja framställa sig i negativ dager för att undvika något
Frågan kan vara otydlig eller svårbegriplig
Olika metoder för skattning av reliabilitet
Stabilitet
- Test-retest
Parallelltestmetoden
Intern konsistens
- Split-half
- Kuder-Richardson (kategori)
- Cronbachs alfa (kontinuerlig)
Interbedömarreliabilitet
- Kappa (kategori)
- Intraclass Correlation Coefficient (kontinuerlig)
Test-retest
Samma test ges till en representativ grupp av personer vid två tillfällen.
Sambandet mellan mätningarna utgör den uppskattade reliabilitetskoefficienten.
Hög reliabilitet innebär att mätresultatet inte är beroende av dagsform eller andra faktorer som kan orsaka variation i mätning över tid.
Om det finns risk för träningseffekter är detta mått problematiskt iom att det är samma person som ska genomföra testet vid de två tillfällena.
Om det finns studier som visar hög test-retest i tillägg till hög inre konsistens är det starkare stöd för mätinstrumentets reliabilitet.
utvärderingen av förändring → kan var lämpligt att ha lågt på test-retest (behöver alltså inte ha hög stabilitet)
Parallelltest
Två likvärdiga test ges till samma grupp personer vid samma tillfälle.
Testen är konstruerade att mäta samma sak, men med olika frågor.
Korrelationen mellan de parallella testen ger en uppskattning av reliabilitetskoefficienten.
Hög korrelationskoefficient tyder på att testen mäter samma sak
Split-half
Ett test ges vid ett tillfälle, items/frågorna grupperas i två delar (t.ex. udda och jämna frågor) som summeras. Därefter beräknas sambandet mellan dessa två summavariabler.
Ger ett mått på samstämmigheten mellan de två delarna i testet.
Redovisas sällan och anses mer begränsat visa på inre konsistens
Kuder-Richardson
Används vid dikotoma items.
Bygger på att homogenitet ger ett mått på samstämmighet – det som kallas inre/intern konsistens (internal consistency) - likt cronbachs alfa.
Ger ett mått på samstämmigheten mellan samtliga items i ett test – hur väl de mäter samma underliggande dimension.
Ger reliabilitetskoefficienten KR-20 eller KR-21.
Cronbachs alfa
Används för kontinuerliga items.
Hur mycket av variationen i mätresultatet kommer av det som deluppgifterna mäter gemensamt, till skillnad från variationen som är unik för varje deluppgift?
Anger kvoten mellan summan av itemvarianserna delat med variansen för totalsumman för hela testet.
Mått på inre konsistens, samstämmighet mellan samtliga item i ett test.
Är tekniskt lätt att beräkna och information om inre konsistens bör finnas i manualer eller publikationer om testet.
Reliabilitetskoefficienten
Koefficienten går från 0 till 1.
0.9 - utmärkt
0.8-0.9 - bra
0.7-0.8 - ok
Det går inte att räkna ut den teoretiska formeln, därför använder man andra reliabilitetskoefficienter som uppskattar reliabiliteten – olika metoder kan användas.
Reliabiliteten för inre konsistens påverkas av antalet items eftersom de ingår i formeln för uträkning – fler items ökar reliabilitetskoefficienten (även om detta givetvis också är beroende av frågornas kvalitet).
Spearman-Browns formel kan räkna ut hur mycket reliabiliteten skulle förbättras om man exempelvis dubblar antalet frågor.
Kan också användas för att beräkna hur mycket reliabiliteten skulle öka med dubbelt så många frågor eller för att förkorta test.
Har man fastställt reliabilitetskoefficienten kan man räkna fram standardfelet (SEM) – man utgår ifrån standardavvikelsen på testet och dess reliabilitet.
Interbedömarreliabilitet
Avser i hur stor utsträckning två bedömare (kodare, skattare, intervjuare, testledare) kan göra samma kvantitativa bedömning.
Sambandet mellan mätningar gjorda av två olika bedömare redovisas ofta med intraklasskorrelationen (ICC) för kontinuerliga variabler och kappa för kategoriska variabler.
För alla metoder när mätresultaten är beroende av bedömare är denna typ av skattning viktig.
Exempel kan vara kodning av samspel, observationer
Hög interbedömarreliabilitet är beroende av tydliga definitioner och kriterier för bedömningen, bedömarens utbildning och erfarenhet.
Vad som anses som tillräckligt hög interbedömarreliabilitet avgörs till stor del av hur svår bedömningsuppgiften är.
Intra-Class Correlations
Cohens kappa är ett exempel (lärare)
Standard error of measurement, SEM
Den enskilda mätningens standardfel ger oss standardavvikelsen för den statistiska fördelningen som mätfelet utgör, hur mycket i genomsnitt mätfelen varierar.
Är användbart vid tolkning av resultat, personbedömning, rekommendationer och beslut, när vi sitter med en enskild individ - troligtvis finns det mätfel, vet vi reliabiliteten så vet vi att det finns ett spann (reliabiliteten är oftast lite lägre än 1).
Man kan räkna ut ett förväntat standardfel för individens testresultat på given reliabilitetsnivå.
Högre reliabilitet ger bättre tillförlitlighet, och mindre standardfel – det erhållna testvärdet ligger nära det sanna värdet vilket ger testet bättre prognosvärde.
Exempel:
SEM på prov med reliabilitet på 0.85, där man kan få 50 poäng och där s är 7.5, där blir SEM = 2.9. Med 68% sannolikhet ligger en individ med 35 poäng mellan 32-38 poäng.
Faktorer som påverkar reliabiliteten
Antalet items – fler ger högre reliabilitet, men är också beroende av items kvalitet (psykometrisk kvalitet)
Brett eller smalt begrepp som ska undersökas.
Vilken population som testats
Innehållet i testet
Rättningen av testet
För att komma tillrätta med dessa faktorer är det viktigt att göra pilotstudier och räkna på reliabiliteten
Miljön där testet utförs
Testpersonens dagsform
Administratörens skicklighet