Validitet Flashcards
Validitet
Validitet är det andra steget i testning av psykometriska tester (alltså efter reliabilitet).
Hög reliabilitet är en förutsättning för hög empirisk validitet
Empirisk validitet = att man har forskat på det, dvs använt statistiska metoder vid utformning av test.
Reliabiliteten sätter en övre gräns för testets möjliga validitet
Ex: om frågorna sinsemellan är väldigt olika belyser de olika dimensioner → lägre reliabilitet (låg samstämmighet) → mäter sannolikt inte samma egenskap → validiteten blir lägre, då testet inte mäter en viss egenskap utan mäter något “spretigt”
Traditionellt beskrivs validitet som ett tests förmåga att (i en given population) mäta det som testet avser att mäta
Är inte en egenskap hos testet i sig, utan avgörs i relation till den testade populationen
Validiteten beror på test, respondent och omständigheter runt testningen
Fram till ~ 1980: “Mäter testet vad det är avsett att mäta?”
Olika validiteter hade beskrivits
Efter 1980 (Messick): Begreppsvaliditet/construct validity (inre/intern validitet) lyftes fram som överordnad, för att förstå vad vi beskriver.
Nytta/användbarhet (extern validitet)
Validitet för ett testinstrument innebär att man har observationer och resultat i studier som verifierar instrumentets effektivitet vid diagnos och prognos
“Förmåga hos ett test att (i en given population) mäta det som testet avser mäta”. En fördjupad förståelse för om begreppet som skalan mäter är det som vi vill mäta. Dvs finns det någon meningsfullhet i det som vi mäter (kopplat till en teori / det vi vill förstå mer om). Exempelvis om vi ska mäta depression så innebär en hög validitet att vi faktiskt mäter just depression. Hög reliabilitet är en förutsättning för hög empirisk validitet. Reliabiliteten sätter en övre gräns för testets möjliga validitet.
Högre urval tenderar att ge högre validitet / koefficienter.
Begreppsvaliditet
I vilken mån testet kan sägas mäta en teoretiskt definierad psykisk dimension. Undersöks genom att visa på samband med andra mått eller med hjälp av faktoranalys.
Ligger nära samtidig validitet då ett sätt att visa begreppsvaliditet är att jämföra med samtida mått.
I vilken nivå av säkerhetsgrad testet kan sägas mäta en teoretiskt definierad psykisk dimension, exempelvis intelligens, koncentrationsförmåga, fördomsfullhet, verbal förmåga, neuroticism etc.
Är testuppgifterna / frågorna sådana att de är konkreta exempel på det man menar med det som testet/frågeformuläret mäter, till exempel kognitiv förmåga till skillnad från intelligens?
Detta undersöks genom att visa på samband med andra mått eller med hjälp av en faktoranalys. Ligger nära samtidig validitet då ett sätt att visa begreppsvaliditet är att jämföra med samtida mått.
Innehållsvaliditet (content):
Hur innehållet i frågor relaterar till syftet med testet, avgörs ofta kvalitativt (dvs att man gör en bedömning, ofta i dialog med de som är med och utformar testet / testas).
Inre validitet: begreppsvaliditet, med vilken säkerhetsgrad kan man säga att måttet mäter det som avses att mäta.
Yttre validitet: i vilken grad det man mäter verkligen är till nytta, exempelvis i urvals- sammanhang genom att det hjälper samhället eller ett företag att få rätt person på rätt plats.
Ytvaliditet (face): testet uppfattas rimligt i förhållande till sitt syfte, hur respondenterna uppfattar frågorna / frågorna är formulerade, om de tar dem seriöst
Kriterievaliditet (criterion):
undersöks empiriskt, hur relaterar testet till andra test / något yttre
Samtidig validitet (concurrent): korrelation med annat test eller bedömning av samma fenomen som görs vid samma tidpunkt. Använder sig alltså av olika test vid samma tillfälle, dels testet man själv utformat och dels ett test som belyser samma sak som man vill att ens eget test ska belysa.
Prediktiv validitet (predictive): korrelation mellan testet med ett kriterie som föreligger först vid senare tillfälle. Kan man uttala sig om hur det kommer bli i framtiden utifrån det test som man fått fram från sitt test? = det man vill mäta med prediktiv validitet. Alltså testets möjligheter att säga något om en senare utveckling / behov / reaktion / prestation.
- Ex: Högskoleprovet har viss prediktiv validitet för förmågan att avgränsa dem som kommer att klara kommande högskolestudier. Annat exempel är vid rekrytering till försvarsmakten, där man vill ha prediktiv validitet i testen för att kunna sålla bort de som inte kommer orka med jobbet.
Med “samtidig validitet” avser man prestationer eller reaktionssätt som testpersonerna kan uppvisa vid samma tidpunkt som mätningarna utförs. Med “prediktiv validitet” (“prognostisk validitet”) avser man förutsägelser om hur personerna kommer att prestera eller reagera vid en framtida tidpunkt.
Att undersöka ett tests validitet
Kan göras på flera olika sätt, bland annat används korrelationer, faktoranalys och regressionsanalys.
Vi måste dock vara medvetna om att vi aldrig kan vara helt säkra på att våra analyser identifierar dimensionen vi arbetar med – vi gör uppskattningar.
Validitetskoefficienten
Validitetskoefficienten, rxy är korrelationen mellan ett testresultat och ett lämpligt kriterium som man kan validera testet emot, exempelvis:
- Ett ”gold standard” test / referenstest (begreppsvaliditet). Man korrelerar det alltså med ett test som man vet mäter egenskapen ens egna test ska mäta (gold standard testet är alltså det test som anses mäta egenskapen bäst)
– Exempelvis SDQ (Strengths and Difficulties Questionnaire) som är ett brett test för att mäta allmän psykisk hälsa hos barn och unga. WAIS och WISC är också gold standard när det gäller att mäta intelligens.
- Ett mätbart kriterium på utfall (prediktiv validitet, kommer individen in på en utbildning / får individen en specifik diagnos i framtiden).
Determinationskoefficienten, rxy^2 anger proportionen förklarad varians i förhållande till total varians som uppmätts i testet. I vilken mån kan testet förklara det man avser sig att mäta. Förklarad varians anses vara bästa sättet att bedöma effektivitet i prediktionen.
Mindre urval ger lägre validitet och lägre koefficienter.
Faktoranalys
Faktoranalys innebär att man förklarar strukturen i ett material, var det finns höga faktorladdningar (en gruppering). Exempelvis kan en gruppering vara att vissa frågor (items) tycks mäta koncentration, medan andra tycks mäta depression. Analysen tar hänsyn till graden av gemensam information i variablerna, man vill se hur de grupperar sig. Testkonstruktören har en viktig del i att finna de faktorer som är teoretiskt meningsfulla.
Rotering: man är inte nöjd med de faktorer som programmet tagit fram och man ser att om man kan ändrar vissa delar. Exempelvis tittar man på de faktorer som har en gemensam varians. Man ser att man har en fråga som ligger mellan de faktorer man vill mäta = man kan välja att plocka bort frågan. Se grafen till höger.
Principalkomponentanalys (PCA)
Används ofta som första steg i faktoranalys. Det är en deskriptiv metod som tar fram oberoende (orthogonala: det vill säga att de är oberoende och inte har någon kovarians (eller korrelation)) komponenter. Varje komponent innehåller variabler med så stor förklarad varians som möjligt samtidigt som ortogonal mot tidigare komponenter. Det är vanligt att man använder PCA för att reducera antalet dimensioner i data. Eftersom komponenterna är valda efter storlek av oberoende varians antar man att man kan behålla mycket av informationen i data genom att använda enbart de komponenter som representerar en stor del av variansen.
- Gemensam/delad varians och unik varians.
Explorativ faktoranalys (EFA)
En faktoranalys där man inte definierat faktorerna på förhand = explorativ faktoranalys (motsatsen till det här är en konfirmatorisk faktoranalys). Vid explorativ faktoranalys analyserar man korrelationerna mellan de observerade variablerna och utifrån dessa får man fram antal faktorer samt laddningar. Man kan på så vis uttala sig om hur många faktorer som verkar ligga bakom de observerade variablerna, samt vilka variabler som laddar på vilka faktorer. Man kan både få fram underlag för reduktion av item med oklar faktortillhörighet och indikation på att fler variabler behövs inom ”liten” faktor.
- Använder bara gemensam / delad varians.
Vid explorativ faktoranalys tänker man sig att korrelationer mellan ett antal observerade variabler (exempelvis IQ-test) uppstår pga bakomliggande, latenta faktorer (exempelvis intelligensfaktorer). Faktorerna går inte att mäta direkt, de är latenta, men de går att mäta med indikatorer (exempelvis IQ-tester).
Konfirmatorisk faktoranalys (CFA)
Vid konfirmativ faktoranalys är inte syftet att ta reda på hur många faktorer som finns eller vilka variabler som laddar på vilka faktorer. Vi har en teori om vad testet ska undersöka, och så testar vi en på förhand bestämd struktur av testet. Man kan tex anta att det finns två intelligensfaktorer (tex fluid och crystallized intelligence) samt att vissa IQ-tester laddar på den ena av dessa faktorer och vissa andra IQ-tester laddar på den andra faktorn.
Ett annat exempel: vid konfirmatorisk faktoranalys prövas ett antal faktorer som bestämts på förhand och vilka frågor som hör till varje faktor. Exempelvis femfaktormodellen: vi har delat in det i 5 faktorer med specifika frågor som tillhör varje faktor.
Att konstruera test
- Analys av fenomenet: beskrivning från olika perspektiv av det fenomen som man vill mäta.
- Konstruktion av testitems: fenomenet omsätts till konkreta testitems (att formulera konkreta frågor) med en lämplig svarsskala. Ofta behöver man formulera många frågor i den här fasen och pröva dem på ett mindre urval.
- Itemstatistik: undersök svarsfördelning på enskilda items – har hela skalan (range) använts? Är fördelningarna symmetriska eller sneda? Fortsatta beräkningar förutsätter symmetriska fördelningar.
- Samband mellan testitems: beräkning av reliabilitet, faktoranalys, logistisk itemanalys (IRT). Hittar de items som behöver tas bort.
- Summa variabeln: när man får fram tillfredställande reliabilitet mätt med ex Cronbachs alpha, kan skalan anses vara tillförlitlig.
- Validitet, finns inga entydiga regler:
- Korsvalidering – pröva reliabilitet i två eller fler sample
- Begreppsvaliditet – har eller saknar testet samband med andra test
- Samtidig eller prognostisk validitet – finns samband med kriterium nu eller i framtiden
- Inkrementell validitet – visa att det nya testet ökar validitet i bedömning (testet verkar göra att vi förstår något bättre, säkerheten i bedömningar ökar om man använder sig av det nya testet)
Vilken skala ska frågan besvaras med?
Lämpligt antal steg?
Jämnt eller ojämnt antal?
Ankarvärden eller värden på alla skalsteg?
Ska det neutrala värdet vara i mitten på skalan?
Spelar siffrorna någon roll?
Ska man vända ordningen på några item?
Påverkar frågorna varandra?
Frågor att undvika
Ledande frågor
Tvetydiga frågor
Fler frågor i samma fråga
Frågor som förutsätter speciell kunskap
Krångligt språk
Långa frågor med flera led/ komplexa frågor
Nedlåtande frågor
Negationer
Att tänka på vid val av items
När man konstruerar ett test eftersträvar man redan från början stor interindividuell spridning
Detta uppnås genom att välja items som olika personer svarar på olika sätt – uppgifter som har varierande lösningsfrekvens
Syftet är att skapa dimensioner där samtliga items inom varje dimension bidrar till
homogenitet (mäter samma förmåga/färdighet)
kommunalitet (har gemensam varians)
Genom att studera effekten på reliabiliteten av att ändra antalet items kan man arbeta med att förbättra den
Ofta bra skapa fler items än man tänkt sig att använda och sedan reducera antalet och välja de som fungerar bäst
Standardisering av mätinstrument
Innebär att testet har utprövats i den population som den är avsedd för – ett representativt stickprov.
Är testpoängen normalfördelad har man beräknat medelvärde, standardavvikelse och korrelationer av intresse som beskriver testets egenskaper i den aktuella populationen.
Viktigt att det finns information om hur test standardiserats för att ta ställning till om hur rimligt det är att jämföra testpersonens resultat med normen.
Barntest: viktigt med normgrupper för olika åldrar
Standardisering kan också syfta mer specifikt på
- Att proceduren eller administrationen av mätmetoden är väldefinierad när det kommer till
– Instruktioner
– Träning av intervjuare, testledare, observatörer eller liknande
- Alla relevanta detaljer för att utföra testningen på det avsedda sättet finns i en manual eller liknande
- När ett test översätts från ett annat språk är det viktigt att se över anpassning till språk och kultur – mätmetoden ska vara relevant och acceptabel för de som ska svara på den.