Validitet Flashcards
Validitet
- Hög reliabilitet är en förutsättning för hög empirisk validitet
- Reliabiliteten sätter en övre gräns för testets möjliga validitet
- Traditionellt beskrivs validitet som ett tests förmåga att (i en given
population) mäta det som testet avser att mäta - Är inte en egenskap hos testet i sig, utan avgörs i relation till den
testade populationen
– Validiteten beror på test, respondent och omständigheter runt
testningen
Olika typer av validitet
- Innehållsvaliditet (content): hur innehållet i frågor relaterar till syftet
med testet, avgörs ofta kvalitativt
– Ytvaliditet (face): testet uppfatts rimligt i förhållande till sitt syfte, hur
respondenterna uppfattar frågorna, om de tar dem seriöst - Kriterievaliditet (criterion): undersöks empiriskt
– Samtidig validitet (concurrent): korrelation med annat test eller
bedömning av samma fenomen som görs vid samma tidpunkt
– Prediktiv validitet (predictive): korrelation mellan testet med ett kriterie
som föreligger först vid senare tillfälle - Begreppsvaliditet (construct): I vilken mån testet kan sägas mäta
en teoretiskt definierad psykisk dimension. Undersöks genom att visa
på samband med andra mått eller med hjälp av faktoranalys.
Definition validitet
- Fram till ~ 1980:
“Mäter testet vad det är avsett att mäta?”
– Olika validiteter hade beskrivits - Efter 1980 (Messick): Begreppsvaliditet/construct validity (inre/intern
validitet) lyftes fram som överordnad
– Nytta/användbarhet (extern validitet) - Validitet för ett testinstrument innebär att man har observationer och
resultat i studier som verifierar instrumentets effektivitet vid diagnos
och prognos
Hur undersöker man ett tests validitet?
- De statistiska analysmetoder som används är korrelationer,
faktoranalys och regressionsanalys. - Ett tests validitet kan bestämmas genom studier av all systematisk
och vetenskaplig evidens för testets tillförlitlighet. - Vi måste dock vara medvetna om att vi aldrig helt kan vara säkra
på att våra analyser identifierar dimensionen vi arbetar med – vi
gör uppskattningar.
Validitetskoefficienten
- Validitetskoefficienten, rxy är korrelationen mellan ett testresultat och
ett lämpligt kriterium som man kan validera testet emot, t.ex. ett ”gold-
standard” test (begreppsvaliditet) eller ett mätbart kriterium på utfall
(prediktiv validitet). - Determinationskoefficienten, rxy2 anger proportionen förklarad varians i
förhållande till total varians
– Förklarad varians anses vara bästa sättet att bedöma effektivitet i
prediktionen - Mindre urval ger lägre validitet och lägre koefficienter
Att undersöka begreppsvaliditet
- Mäter testet de dimensioner som
domänen/konstruktet/begreppet har i enlighet med vår teori? - Korrelation beräknas mellan index-test och referens-test.
- Kan även undersökas med hjälp av faktoranalys
- Är en viktig del av undersökningen av ett tests validitet
- Även ett verktyg i utvecklingen av test
Faktoranalys
- Bestämmer funktionella relationer mellan variabler.
- Analysen tar hänsyn till graden av gemensam
information i variablerna. - Faktoranalys innebär att man förklarar strukturen i ett material, var det finns höga faktorladdningar.
- Testkonstruktören har en viktig del i att finna de
fraktorer som är teoretiskt meningsfulla
Principalkomponentanalys (PCA)
- Används ofta som första steg i
faktoranalys - Deskriptiv metod
- Tar fram oberoende (orthogonala)
komponenter - Varje komponent innehåller variabler
med så stor förklarad varians som
möjligt samtidigt som ortogonal mot
tidigare komponenter - Gemensam/delad varians och unik varians
Explorativ faktoranalys (EFA)
- Använder bara gemensam/delad
varians - Underlag för reduktion av item med
oklar faktortillhörighet - Indikation på att fler variabler
behövs inom ”liten” faktor
Konfirmatorisk faktoranalys (CFA)
- Testar hypotes om struktur – var
höga laddningar mellan faktorer ska
förekomma, dvs vilka variabler som
är indikatorer på vilka faktorer - Bygger på SEM (Strukturell
ekvationsmodellering)
Från idé till färdigt test
- Analys av fenomenet: beskrivning från olika perspektiv av det
fenomen som man vill mäta - Konstruktion av testitems: fenomenet omsätts till konkreta
testitems med en lämplig svarsskala.
– Pröva på ett litet bekvämlighetsurval för synpunker på formulering - Itemstatistik: undersök svarsfördelning på enskilda items – har
hela skalan (range) använts? Är fördelningarna symmetriska eller
sneda? Fortsatta beräkningar förutsätter symmetriska fördelningar. - Samband mellan testitems: beräkning av reliabilitet,
faktoranalys, logistisk itemanalys (IRT). Hittar de items som behöver
tas bort. - Summavariabeln: när man får fram tillfredställande reliabilitet
mätt med ex Cronbachs alpha, kan skalan anses vara tillförlitlig. - Validitet, finns inga entydiga regler
* Korsvalidering – pröva reliabilitet i två eller fler sample
* Begreppsvaliditet – har eller saknar testet samband med andra test
* Samtidig eller prognostisk validitet – finns samband med kriterium nu
eller i framtiden
* Inkrementell validitet – visa att det nya testet ökar validitet i
bedömning
Vilken skala ska frågan besvaras med?
- Lämpligt antal steg?
- Jämt eller ojämnt antal?
- Ankarvärden eller värden på alla skalsteg?
- Ska det neutrala värdet vara i mitten på skalan?
- Spelar siffrorna någon roll?
- Ska man vända ordningen på några item?
- Påverkar frågor varandra?
Frågor att undvika
- Ledande frågor
- Tvetydiga frågor
- Fler frågor i samma fråga
- Frågor som förutsätter speciell kunskap
- Krångligt språk
- Långa frågor med flera led/ komplexa frågor
- Nedlåtande frågor
- Negationer
Att tänka på vid val av items
- När man konstruerar ett test eftersträvar man
redan från början stor interindividuell spridning - Detta uppnås genom att välja items som olika
personer svarar på olika sätt – uppgifter som har
varierande lösningsfrekvens - Syftet är att skapa dimensioner där samtliga items inom varje
dimension bidrar till
– homogenitet (mäter samma förmåga/färdighet)
– kommunalitet (har gemensam varians) - Genom att studera effekten på reliabiliteten av att ändra
antalet items kan man arbeta med att förbättra den - Ofta bra skapa fler items än man tänkt sig att använda och
sedan reducera antalet och välja de som fungerar bäst
Standardisering av mätinstrument
- Innebär att testet har utprövats i den population som den är
avsedd för – ett representativt stickprov. - Är testpoängen normalfördelad har man beräknat medelvärde,
standardavvikelse och korrelationer av intresse som beskriver
testets egenskaper i den aktuella populationen. - Viktigt att det finns information om hur test standardiserats för att
ta ställning till om hur rimligt det är att jämföra testpersonens
resultat med normen. - Barntest: viktigt med normgrupper för olika åldrar
Standardisering kan också syfta mer specifikt på:
Att proceduren eller administrationen av mätmetoden är väldefinierad
när det kommer till
– Instruktioner
– Träning av intervjuare, testledare, observatörer eller liknande
* Alla relevanta detaljer för att utföra testningen på det avsedda sättet
finns i en manual eller liknande
* När ett test översätts från ett annat språk är det viktigt att se över
anpassning till språk och kultur – mätmetoden ska vara relevant och
acceptabel för de som ska svara på den
Att översätta existerande test
- Översättning och ”åter-översättning”
- Viktigt att ta ställning till
– Konceptuell ekvivalens – uppfattas fenomenet på samma sätt?
– Item ekvivalens – uppfattas enskilda item på samma sätt?
– Semantisk ekvivalens – betyder ett begrepp samma sak?
– Operationell ekvivalens – kan man fråga på samma sätt?
– Measurement equivalence – är de psykometriska egenskaperna
desamma? - Testning av begriplighet
- Eventuellt finns det kulturella skillnader som måste anpassas?
Item Response Theory (IRT): en modern testteori
Senaste århundradet har dominerats av klassiska testteorin, men finns problem med dessa:
* Statistik för item och skalor är beroende av den grupp som testats
* Om skalan kortas eller item ändras behöver man utvärdera på nytt
* Varje item bidrar lika mycket till totalpoängen (om mann inte viktar)
En modern testteori
* Vid testkonstruktion har klassisk testteori allt oftare kommit
att kombineras med Item Response Theory (IRT).
* Har fokus på enskilda items mätkvaliteter istället för testet som helhet.
* Avancerade matematiska modeller används för att pröva samband mellan latenta (icke-observerbara) egenskaper och
attribut och deras manifesta uttryck (observerbara svar, utfall
och prestationer).
Vad är item response theory?
* Övergripande begrepp för ett antal olika modeller
– I kursboken används exemplet Logististisk itemanalys
* Latent trait models
– Item responses/testsvar är observerade manifestationer av hypotetiska
egenskaper, konstrukt eller attribut
* Dessa modeller ger mer precis information om enskilda items
Antaganden inom IRT
- Den latenta variabeln (exempelvis upplevd stress, en viss attityd
eller färdighet) och testuppgifterna kan placeras längs ett
kontinuum från låg till hög nivå – vi vill veta var individen
befinner sig på detta kontinuum. - Den latenta variabeln utgår man ifrån är endimensionell och att
det är denna latenta variabel/egenskap som reflekteras i varje
testsvar. - Förutsatt att antagandena stämmer så beror skillnader i testsvar
mellan olika individer på skillnader i den latenta variabeln
Lite om terminologin(IRT)
- Sannolikheten att man avger ett visst svar är relaterad till ett items
svårighetsgrad (difficulty)
– Ett svårt item besvaras korrekt bara av de som har mycket av
egenskapen - En persons proficiency (färdighet) avgör vilket svar som väljs
– Motsvarar hur mycket en person har av den latent variabeln
– Både intelligens och depression ses båda som “färdigheter” - En persons förmåga, proficiency, betecknas theta (Θ)
- Transformeras till ett värde som liknar z-värde
– Genomsnittlig person Θ = 0
– Kan varierera mellan ~ -3.0 to ~ +3.0 - Även svårighet (b) transformeras på liknande sätt
The item characteristic curve
- Beskriver relationen mellan en
persons färdighet (Ꝋ) och
sannolikheten att man svarar “rätt” - Sannolikheteten 0,5 motsvarar
50% chans att man svarar “rätt”
Sannolikhet ICC
- Sannolikheten att “svara rätt” är skillnaden mellan en persons
förmåga och ett items svårighetsgrad
– Om en persons förmåga = item’s svårighetsgrad så är sannolikheten
för en “korrekt” respons = 50%
– Om förmågan > svårigheten, sannolikheten > 50%
– Om förmågan < svårigheten, sannolikheten < 50%
Fördelar och nackdelar med IRT
Fördelar:
* Kan ge korta skalor med hög reliabilitet
* Ger precisa estimat för varje item
* Kan jämföra individer även om de svarat på olika item
* Har använts mer inom folkhälsovetenskap och vid konstruktion av
kunskapstest, men användning inom psykologi ökar.
– Exempel: SDQ har undersökts med IRT-ansats som visat att
instrumentet trots sitt korta format (5 frågor/delskala) fångar olika
problemdimensioner (Hagqvist, 2007)
Nackdelar
* Svårt att beräkna med vanliga statistikprogram
* Oklart om det alltid är värt det extra arbetet