Validitet Flashcards

1
Q

Validitet

A

Validitet är det andra steget i testning av psykometriska tester (alltså efter reliabilitet).

Hög reliabilitet är en förutsättning för hög empirisk validitet
Empirisk validitet = att man har forskat på det, dvs använt statistiska metoder vid utformning av test.
Reliabiliteten sätter en övre gräns för testets möjliga validitet
Ex: om frågorna sinsemellan är väldigt olika belyser de olika dimensioner → lägre reliabilitet (låg samstämmighet) → mäter sannolikt inte samma egenskap → validiteten blir lägre, då testet inte mäter en viss egenskap utan mäter något “spretigt”
Traditionellt beskrivs validitet som ett tests förmåga att (i en given population) mäta det som testet avser att mäta
Är inte en egenskap hos testet i sig, utan avgörs i relation till den testade populationen
Validiteten beror på test, respondent och omständigheter runt testningen

Fram till ~ 1980: “Mäter testet vad det är avsett att mäta?”
Olika validiteter hade beskrivits
Efter 1980 (Messick): Begreppsvaliditet/construct validity (inre/intern validitet) lyftes fram som överordnad, för att förstå vad vi beskriver.
Nytta/användbarhet (extern validitet)

Validitet för ett testinstrument innebär att man har observationer och resultat i studier som verifierar instrumentets effektivitet vid diagnos och prognos

“Förmåga hos ett test att (i en given population) mäta det som testet avser mäta”. En fördjupad förståelse för om begreppet som skalan mäter är det som vi vill mäta. Dvs finns det någon meningsfullhet i det som vi mäter (kopplat till en teori / det vi vill förstå mer om). Exempelvis om vi ska mäta depression så innebär en hög validitet att vi faktiskt mäter just depression. Hög reliabilitet är en förutsättning för hög empirisk validitet. Reliabiliteten sätter en övre gräns för testets möjliga validitet.

Högre urval tenderar att ge högre validitet / koefficienter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Begreppsvaliditet

A

I vilken mån testet kan sägas mäta en teoretiskt definierad psykisk dimension. Undersöks genom att visa på samband med andra mått eller med hjälp av faktoranalys.
Ligger nära samtidig validitet då ett sätt att visa begreppsvaliditet är att jämföra med samtida mått.

I vilken nivå av säkerhetsgrad testet kan sägas mäta en teoretiskt definierad psykisk dimension, exempelvis intelligens, koncentrationsförmåga, fördomsfullhet, verbal förmåga, neuroticism etc.

Är testuppgifterna / frågorna sådana att de är konkreta exempel på det man menar med det som testet/frågeformuläret mäter, till exempel kognitiv förmåga till skillnad från intelligens?

Detta undersöks genom att visa på samband med andra mått eller med hjälp av en faktoranalys. Ligger nära samtidig validitet då ett sätt att visa begreppsvaliditet är att jämföra med samtida mått.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Innehållsvaliditet (content):

A

Hur innehållet i frågor relaterar till syftet med testet, avgörs ofta kvalitativt (dvs att man gör en bedömning, ofta i dialog med de som är med och utformar testet / testas).

Inre validitet: begreppsvaliditet, med vilken säkerhetsgrad kan man säga att måttet mäter det som avses att mäta.

Yttre validitet: i vilken grad det man mäter verkligen är till nytta, exempelvis i urvals- sammanhang genom att det hjälper samhället eller ett företag att få rätt person på rätt plats.

Ytvaliditet (face): testet uppfattas rimligt i förhållande till sitt syfte, hur respondenterna uppfattar frågorna / frågorna är formulerade, om de tar dem seriöst

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Kriterievaliditet (criterion):

A

undersöks empiriskt, hur relaterar testet till andra test / något yttre

Samtidig validitet (concurrent): korrelation med annat test eller bedömning av samma fenomen som görs vid samma tidpunkt. Använder sig alltså av olika test vid samma tillfälle, dels testet man själv utformat och dels ett test som belyser samma sak som man vill att ens eget test ska belysa.

Prediktiv validitet (predictive): korrelation mellan testet med ett kriterie som föreligger först vid senare tillfälle. Kan man uttala sig om hur det kommer bli i framtiden utifrån det test som man fått fram från sitt test? = det man vill mäta med prediktiv validitet. Alltså testets möjligheter att säga något om en senare utveckling / behov / reaktion / prestation.
- Ex: Högskoleprovet har viss prediktiv validitet för förmågan att avgränsa dem som kommer att klara kommande högskolestudier. Annat exempel är vid rekrytering till försvarsmakten, där man vill ha prediktiv validitet i testen för att kunna sålla bort de som inte kommer orka med jobbet.

Med “samtidig validitet” avser man prestationer eller reaktionssätt som testpersonerna kan uppvisa vid samma tidpunkt som mätningarna utförs. Med “prediktiv validitet” (“prognostisk validitet”) avser man förutsägelser om hur personerna kommer att prestera eller reagera vid en framtida tidpunkt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Att undersöka ett tests validitet

A

Kan göras på flera olika sätt, bland annat används korrelationer, faktoranalys och regressionsanalys.

Vi måste dock vara medvetna om att vi aldrig kan vara helt säkra på att våra analyser identifierar dimensionen vi arbetar med – vi gör uppskattningar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Validitetskoefficienten

A

Validitetskoefficienten, rxy är korrelationen mellan ett testresultat och ett lämpligt kriterium som man kan validera testet emot, exempelvis:
- Ett ”gold standard” test / referenstest (begreppsvaliditet). Man korrelerar det alltså med ett test som man vet mäter egenskapen ens egna test ska mäta (gold standard testet är alltså det test som anses mäta egenskapen bäst)
– Exempelvis SDQ (Strengths and Difficulties Questionnaire) som är ett brett test för att mäta allmän psykisk hälsa hos barn och unga. WAIS och WISC är också gold standard när det gäller att mäta intelligens.
- Ett mätbart kriterium på utfall (prediktiv validitet, kommer individen in på en utbildning / får individen en specifik diagnos i framtiden).

Determinationskoefficienten, rxy^2 anger proportionen förklarad varians i förhållande till total varians som uppmätts i testet. I vilken mån kan testet förklara det man avser sig att mäta. Förklarad varians anses vara bästa sättet att bedöma effektivitet i prediktionen.

Mindre urval ger lägre validitet och lägre koefficienter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Faktoranalys

A

Faktoranalys innebär att man förklarar strukturen i ett material, var det finns höga faktorladdningar (en gruppering). Exempelvis kan en gruppering vara att vissa frågor (items) tycks mäta koncentration, medan andra tycks mäta depression. Analysen tar hänsyn till graden av gemensam information i variablerna, man vill se hur de grupperar sig. Testkonstruktören har en viktig del i att finna de faktorer som är teoretiskt meningsfulla.

Rotering: man är inte nöjd med de faktorer som programmet tagit fram och man ser att om man kan ändrar vissa delar. Exempelvis tittar man på de faktorer som har en gemensam varians. Man ser att man har en fråga som ligger mellan de faktorer man vill mäta = man kan välja att plocka bort frågan. Se grafen till höger.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Principalkomponentanalys (PCA)

A

Används ofta som första steg i faktoranalys. Det är en deskriptiv metod som tar fram oberoende (orthogonala: det vill säga att de är oberoende och inte har någon kovarians (eller korrelation)) komponenter. Varje komponent innehåller variabler med så stor förklarad varians som möjligt samtidigt som ortogonal mot tidigare komponenter. Det är vanligt att man använder PCA för att reducera antalet dimensioner i data. Eftersom komponenterna är valda efter storlek av oberoende varians antar man att man kan behålla mycket av informationen i data genom att använda enbart de komponenter som representerar en stor del av variansen.
- Gemensam/delad varians och unik varians.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Explorativ faktoranalys (EFA)

A

En faktoranalys där man inte definierat faktorerna på förhand = explorativ faktoranalys (motsatsen till det här är en konfirmatorisk faktoranalys). Vid explorativ faktoranalys analyserar man korrelationerna mellan de observerade variablerna och utifrån dessa får man fram antal faktorer samt laddningar. Man kan på så vis uttala sig om hur många faktorer som verkar ligga bakom de observerade variablerna, samt vilka variabler som laddar på vilka faktorer. Man kan både få fram underlag för reduktion av item med oklar faktortillhörighet och indikation på att fler variabler behövs inom ”liten” faktor.
- Använder bara gemensam / delad varians.

Vid explorativ faktoranalys tänker man sig att korrelationer mellan ett antal observerade variabler (exempelvis IQ-test) uppstår pga bakomliggande, latenta faktorer (exempelvis intelligensfaktorer). Faktorerna går inte att mäta direkt, de är latenta, men de går att mäta med indikatorer (exempelvis IQ-tester).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Konfirmatorisk faktoranalys (CFA)

A

Vid konfirmativ faktoranalys är inte syftet att ta reda på hur många faktorer som finns eller vilka variabler som laddar på vilka faktorer. Vi har en teori om vad testet ska undersöka, och så testar vi en på förhand bestämd struktur av testet. Man kan tex anta att det finns två intelligensfaktorer (tex fluid och crystallized intelligence) samt att vissa IQ-tester laddar på den ena av dessa faktorer och vissa andra IQ-tester laddar på den andra faktorn.

Ett annat exempel: vid konfirmatorisk faktoranalys prövas ett antal faktorer som bestämts på förhand och vilka frågor som hör till varje faktor. Exempelvis femfaktormodellen: vi har delat in det i 5 faktorer med specifika frågor som tillhör varje faktor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Att konstruera test

A
  1. Analys av fenomenet: beskrivning från olika perspektiv av det fenomen som man vill mäta.
  2. Konstruktion av testitems: fenomenet omsätts till konkreta testitems (att formulera konkreta frågor) med en lämplig svarsskala. Ofta behöver man formulera många frågor i den här fasen och pröva dem på ett mindre urval.
  3. Itemstatistik: undersök svarsfördelning på enskilda items – har hela skalan (range) använts? Är fördelningarna symmetriska eller sneda? Fortsatta beräkningar förutsätter symmetriska fördelningar.
  4. Samband mellan testitems: beräkning av reliabilitet, faktoranalys, logistisk itemanalys (IRT). Hittar de items som behöver tas bort.
  5. Summa variabeln: när man får fram tillfredställande reliabilitet mätt med ex Cronbachs alpha, kan skalan anses vara tillförlitlig.
  6. Validitet, finns inga entydiga regler:
    - Korsvalidering – pröva reliabilitet i två eller fler sample
    - Begreppsvaliditet – har eller saknar testet samband med andra test
    - Samtidig eller prognostisk validitet – finns samband med kriterium nu eller i framtiden
    - Inkrementell validitet – visa att det nya testet ökar validitet i bedömning (testet verkar göra att vi förstår något bättre, säkerheten i bedömningar ökar om man använder sig av det nya testet)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vilken skala ska frågan besvaras med?

A

Lämpligt antal steg?
Jämnt eller ojämnt antal?
Ankarvärden eller värden på alla skalsteg?
Ska det neutrala värdet vara i mitten på skalan?
Spelar siffrorna någon roll?
Ska man vända ordningen på några item?
Påverkar frågorna varandra?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Frågor att undvika

A

Ledande frågor
Tvetydiga frågor
Fler frågor i samma fråga
Frågor som förutsätter speciell kunskap
Krångligt språk
Långa frågor med flera led/ komplexa frågor
Nedlåtande frågor
Negationer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Att tänka på vid val av items

A

När man konstruerar ett test eftersträvar man redan från början stor interindividuell spridning

Detta uppnås genom att välja items som olika personer svarar på olika sätt – uppgifter som har varierande lösningsfrekvens

Syftet är att skapa dimensioner där samtliga items inom varje dimension bidrar till
homogenitet (mäter samma förmåga/färdighet)
kommunalitet (har gemensam varians)

Genom att studera effekten på reliabiliteten av att ändra antalet items kan man arbeta med att förbättra den

Ofta bra skapa fler items än man tänkt sig att använda och sedan reducera antalet och välja de som fungerar bäst

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Standardisering av mätinstrument

A

Innebär att testet har utprövats i den population som den är avsedd för – ett representativt stickprov.

Är testpoängen normalfördelad har man beräknat medelvärde, standardavvikelse och korrelationer av intresse som beskriver testets egenskaper i den aktuella populationen.

Viktigt att det finns information om hur test standardiserats för att ta ställning till om hur rimligt det är att jämföra testpersonens resultat med normen.

Barntest: viktigt med normgrupper för olika åldrar

Standardisering kan också syfta mer specifikt på
- Att proceduren eller administrationen av mätmetoden är väldefinierad när det kommer till
– Instruktioner
– Träning av intervjuare, testledare, observatörer eller liknande

  • Alla relevanta detaljer för att utföra testningen på det avsedda sättet finns i en manual eller liknande
  • När ett test översätts från ett annat språk är det viktigt att se över anpassning till språk och kultur – mätmetoden ska vara relevant och acceptabel för de som ska svara på den.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Item-respons teorin

A

Vid testkonstruktion har klassisk testteori allt oftare kommit att kombineras med Item Response Theory (IRT). Har fokus på enskilda items mätkvaliteter istället för testet som helhet (som klassisk testteori har fokus på). Avancerade matematiska modeller används för att pröva samband mellan latenta (icke-observerbara) egenskaper och attribut och deras manifesta uttryck (observerbara svar, utfall och prestationer).

I kursboken används exemplet Logististisk itemanalys

Vid testkonstruktion har klassisk testteori allt oftare kommit att kombineras med Item Response Theory (IRT).
Har fokus på enskilda items mätkvaliteter istället för testet som helhet (som klassisk testteori har fokus på).
Avancerade matematiska modeller används för att pröva samband mellan latenta (icke-observerbara) egenskaper och attribut och deras manifesta uttryck (observerbara svar, utfall och prestationer).

Vad är Item Response Theory?
Övergripande begrepp för ett antal olika modeller
I kursboken används exemplet Logististisk itemanalys
Latent trait models
Item responses / testsvar är observerade manifestationer av hypotetiska egenskaper, konstrukt eller attribut
Dessa modeller ger mer precis information om enskilda items – hur bra en viss fråga är på att belysa den latenta, bakomliggande egenskapen.

Antaganden inom IRT
Den latenta variabeln (exempelvis upplevd stress, en viss attityd eller färdighet) och testuppgifterna kan placeras längs ett kontinuum från låg till hög nivå – vi vill veta var individen befinner sig på detta kontinuum.
Den latenta variabeln utgår man ifrån är endimensionell och att det är denna latenta variabel/egenskap som reflekteras i varje testsvar.
Förutsatt att antagandena stämmer så beror skillnader i testsvar mellan olika individer på skillnader i den latenta variabeln.

17
Q

Att översätta existerande test

A

Översättning och ”åter-översättning” (många frågeformulär är skapade i andra länder = annan kultur och annat språk)
Ofta ska den översatta versionen godkännas av skaparen av testet och ofta så åter-översätts testet till originalspråket och ska godkännas ännu en gång.
Viktigt att ta ställning till
Konceptuell ekvivalens – uppfattas fenomenet på samma sätt?
Item ekvivalens – uppfattas enskilda item på samma sätt?
Semantisk ekvivalens – betyder ett begrepp samma sak?
Operationell ekvivalens – kan man fråga på samma sätt?
Measurement equivalence – är de psykometriska egenskaperna desamma?
Testning av begriplighet
Eventuellt finns det kulturella skillnader som måste anpassas?

18
Q

The Item Characteristic Curve

A

Beskriver relationen mellan en persons färdighet (Ꝋ) och sannolikheten att man svarar “rätt” – uträkningarna baseras på antalet “rätt” en individ har på skalan, jämfört med hur många som svarar rätt på itemen.

Det man tittar på är hur sannolikt det är att man svarar rätt. Sannolikheten 0,5 motsvarar 50% chans att man svarar “rätt” (dikotoma svar).

19
Q

Fördelar & nackedelar med IRT

A

Kan ge korta skalor med hög reliabilitet – man kan välja ut items på specifika sätt.
Ger precisa estimat för varje item – väldigt mycket information från varje item?
Kan jämföra individer även om de svarat på olika item

Har använts mer inom folkhälsovetenskap och vid konstruktion av kunskapstest, men användning inom psykologi ökar.
Exempel: SDQ har undersökts med IRT-ansats som visat att instrumentet trots sitt korta format (5 frågor/delskala) fångar olika problemdimensioner (Hagqvist, 2007)
Nackdelar
Svårt att beräkna med vanliga statistikprogram
Oklart om det alltid är värt det extra arbetet

20
Q

Klassisk testteori // Classical Test Theory (CTT)

A

Dominerat testkonstruktion det senaste århundradet (X = t + e)
Många av de metoder vi diskuterat har utgått från denna teori
Det finns dock en rad problem med CTT, exempelvis att:
Statistik för item och skalor är beroende av den grupp som testats
Om skalan kortas eller item ändras behöver man utvärdera på nytt
Varje item bidrar lika mycket till totalpoängen (om man inte viktar)