Validitet Flashcards

1
Q

Validitet

A

Ett tests förmåga att (i en given population) mäta det som testet avser att mäta. Mäter du något som inte avser rätt enhet så får du låg validitet, dåligt. Mäter du något som avser rätt får du hög validitet. Är inte en egenskap hos testet i sig utan avgörs i relation till den testade populationen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Innehållsvaliditet (content)

A

Hur innehållet i frågor relaterar till syftet med testet, avgörs ofta kvalitativt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Ytvaliditet (face)

A

Testet uppfatts rimligt i förhållande till sitt syfte, hur respondenterna uppfattar frågorna, om de tar dem seriöst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Kriterievaliditet (criterion)

A

Undersöks empiriskt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Samtidig validitet (concurrent)

A

Korrelation med annat test eller bedömning av samma fenomen som görs vid samma tidpunkt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Prediktiv validitet (predictive)

A

Korrelation mellan testet med ett kriterie som föreligger först vid senare tillfälle. Hur relaterar testet till andra test, något yttre/ett kriterium som man sätter upp.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Begreppsvaliditet (construct)

A

I vilken mån testet kan sägas mäta en teoretiskt definierad psykisk dimension. Undersöks genom att visa på samband med andra mått eller med hjälp av faktoranalys.
Samband med andra mått, syftet är att förankra det i en teori.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Intern validitet

A

I vilken utsträckning den oberoende variabeln (och ingenting annat) påverkar beroende variabeln (utfallet, de uppnådda resultaten).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Extern validitet

A

I vilken utsträckning resultaten kan generaliseras till andra individer, miljöer, situationer (förhållanden)?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Validitet för testinstrument

A

Observationer och resultat i studier som verifierar instrumentets effektivitet vid diagnos och prognos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hur påverkar reliabilitet validitet?

A

Hög reliabilitet är en förutsättning för empirisk validitet och reliabiliteten sätter en övre gräns för testets möjliga validitet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hur undersöker man ett tests validitet?

A

Genom korrelationer, faktoranalys och regressionsanalys. Validiteten kan bestämmas genom studier av all systematisk och vetenskaplig evidens för testets tillförlitlighet. Dock enbart uppskattningar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Validitetskoefficienten

A

Validitetskoefficienten, rxy är korrelationen mellan ett testresultat och ett lämpligt kriterium som man kan validera testet emot, t.ex. ett ”goldstandard” test (begreppsvaliditet) eller ett mätbart kriterium på utfall (prediktiv validitet). Mindre urval ger lägre validitet och lägre koefficienter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Determinationskoefficienten

A

Determinations-koefficienten anger hur stor del av variationen (mellan individer) i den beroende variabeln (y) som kan förklaras av att individerna har olika värden på den oberoende variabeln (x). rxy 2 anger proportionen förklarad varians i förhållande till total varians.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Att undersöka begreppsvaliditet

A

Mäter testet de dimensioner som domänen/konstruktet/begreppet har i enlighet med vår teori? Korrelation beräknas mellan index-test och referens-test. (test som ansågs mäta begreppet). Kan även undersökas med faktoranalys. Det är en viktig del av undersökningen av ett tests validitet och ett verktyg i utvecklingen av test.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Faktoranalys

A

Bestämmer funktionella relationer mellan variabler. Analysen tar hänsyn till graden av gemensam information i variablerna och innebär att man förklarar strukturen i ett material, var det finns höga faktorladdingar - grupperar sig frågorna och kan man hitta en struktur mellan olika frågor. Testkonstruktören har en viktig del i att finna de faktorer som är teoretiskt meningsfulla.

17
Q

Faktorladdningar

A

En gruppering av frågor. Grupperar sig frågorna på något sätt?

18
Q

Principalkomponentanalys (PCA)

A

Används ofta som första steg i faktoranalys och som en deskriptiv metod för att ta fram oberoende (ortogonala) komponenter. Varje komponent innehåller variabler med så stor förklarad varians som möjligt samtidigt som ortogonal mot tidigare komponenter. Handlar om gemensam/delad varians och unik varians.

19
Q

Explorativ faktoranalys (EFA)

A

Använder bara gemensam/Delad varians. Ett underlag för reduktion av item med oklar faktortillhörighet och är en indikation på att fler variabler behövs inom “liten” faktor. (se bild)

20
Q

Konfirmatorisk faktoranalys (CFA)

A

Testar hypotes om struktur – var höga laddningar mellan faktorer ska förekomma, dvs vilka variabler som är indikatorer på vilka faktorer. Bygger på SEM - strukturell ekvationsmodellering (se bild)

21
Q

Exempel på faktoranalyser

A

Wechslers intelligensskalor (WAIS) = Faktoranalytiska metoder har tydliggjort hur de olika deltestenförhåller sig till varandra. Genom att undersöka begreppsvaliditeten på detta sätt kan vi idag uttala oss om olika kognitiva funktioner

Personlighetstest (NEO-PI) = Det är en lång faktoranalytisk tradition som har utmynnat i femfaktormodellen
Modellen bygger på ett stort antal test och forskningsstudier.

22
Q

Att konstruera ett test

A
  1. Analys av fenomenet: beskrivning från olika perspektiv av det fenomen som man vill mäta
  2. Konstruktion av testitems: fenomenet omsätts till konkreta testitems med en lämplig svarsskala. Pröva på ett litet bekvämlighetsurval för synpunker på formulering
  3. Itemstatistik: undersök svarsfördelning på enskilda items – har hela skalan (range) använts? Är fördelningarna symmetriska eller sneda? Fortsatta beräkningar förutsätter symmetriska fördelningar.
  4. Samband mellan testitems: beräkning av reliabilitet, faktoranalys, logistisk itemanalys (IRT). Hittar de items som behöver tas bort.
  5. Summavariabeln: när man får fram tillfredställande reliabilitet mätt med ex Cronbachs alpha, kan skalan anses vara tillförlitlig.
  6. Validitet, finns inga entydiga regler
  7. Korsvalidering – pröva reliabilitet i två eller fler sample
  8. Begreppsvaliditet – har eller saknar testet samband med andra test
  9. Samtidig eller prognostisk validitet – finns samband med kriterium nu eller i framtiden
  10. Inkrementell validitet – visa att det nya testet ökar validitet i bedömning
23
Q

Vilken skala ska man välja?

A

Lämpligt antal steg?
Jämt eller ojämnt antal?
Ankarvärden eller värden på alla skalsteg?
Ska det neutrala värdet vara i mitten på skalan?
Spelar siffrorna någon roll?
Ska man vända ordningen på några item?
Påverkar frågor varandra?

24
Q

Frågor att undvika

A

Ledande frågor
Tvetydiga frågor
Fler frågor i samma fråga
Frågor som förutsätter speciell kunskap
Krångligt språk
Långa frågor med flera led/ komplexa frågor
Nedlåtande frågor
Negationer

25
Q

Vad ska man tänka på vid val av items?

A

När man konstruerar ett test eftersträvar man redan från början stor interindividuell spridning
Detta uppnås genom att välja items som olika personer svarar på olika sätt – uppgifter som har varierande lösningsfrekvens
Syftet är att skapa dimensioner där samtliga items inom varje dimension bidrar till
homogenitet (mäter samma förmåga/färdighet)
kommunalitet (har gemensam varians)
Genom att studera effekten på reliabiliteten av att ändra antalet items kan man arbeta med att förbättra den
Ofta bra skapa fler items än man tänkt sig att använda och sedan reducera antalet och välja de som fungerar bäst

26
Q

Vad innebär standardisering?

A

Innebär att testet har utprövats i den population som den är avsedd för – ett representativt stickprov.
Är testpoängen normalfördelad har man beräknat medelvärde, standardavvikelse och korrelationer av intresse som beskriver testets egenskaper i den aktuella populationen.
Viktigt att det finns information om hur test standardiserats för att ta ställning till om hur rimligt det är att jämföra testpersonens resultat med normen.
Barntest: viktigt med normgrupper för olika åldrar

27
Q

Standardisering kan mer specifikt syfta på…

A

…att proceduren eller administrationen av mätmetoden är väldefinierad när det kommer till instruktioner, träning av intervjuare, testledare etc. Samt att alla relevanta detaljer för att utföra testningen på det avsedda sättet finns i en manual eller liknande. Viktigt att anpassa till språk och kultur vi översättning - mätmetoden ska vara relevant för de som ska svara på den.

28
Q

Viktigt att ta ställning till - översätta existerande test

A

Viktigt att ta ställning till
– Konceptuell ekvivalens – uppfattas fenomenet på samma sätt?
– Item ekvivalens – uppfattas enskilda item på samma sätt?
– Semantisk ekvivalens – betyder ett begrepp samma sak?
– Operationell ekvivalens – kan man fråga på samma sätt?
– Measurement equivalence – är de psykometriska egenskaperna desamma?
Testning av begriplighet
Eventuellt finns det kulturella skillnader som måste anpassas?

29
Q

Item Response Theory (IRT)

A

En modern testteori. Övergripande begrepp för ett antal olika modeller
I kursboken används exemplet Logististisk itemanalys
Latent trait models
Item responses/testsvar är observerade manifestationer av hypotetiska egenskaper, konstrukt eller attribut
Dessa modeller ger mer precis information om enskilda items

30
Q

Klassisk testteori (CTT)

A

Dominerat testkonstruktion det senaste århundradet
Många av de metoder vi diskuterat har utgått från denna teori
Det finns dock en rad problem med CTT, exempelvis att:
– Statistik för item och skalor är beroende av den grupp som testats
– Om skalan kortas eller item ändras behöver man utvärdera på nytt
– Varje item bidrar lika mycket till totalpoängen (om man inte viktar)

31
Q

En modern testteori

A

Vid testkonstruktion har klassisk testteori allt oftare kommit att kombineras med Item Response Theory (IRT).
Har fokus på enskilda items mätkvaliteter istället för testet som helhet.
Avancerade matematiska modeller används för att pröva samband mellan latenta (icke-observerbara) egenskaper och attribut och deras manifesta uttryck (observerbara svar, utfall och prestationer).

32
Q

Antaganden om IRT

A

Den latenta variabeln (exempelvis upplevd stress, en viss attityd eller färdighet) och testuppgifterna kan placeras längs ett kontinuum från låg till hög nivå – vi vill veta var individen befinner sig på detta kontinuum.
Den latenta variabeln utgår man ifrån är endimensionell och att det är denna latenta variabel/egenskap som reflekteras i varje testsvar.
Förutsatt att antagandena stämmer så beror skillnader i testsvar mellan olika individer på skillnader i den latenta variabeln.

33
Q

Lite om terminologi

A

Sannolikheten att man avger ett visst svar är relaterad till ett items svårighetsgrad (difficulty)
Ett svårt item besvaras korrekt bara av de som har mycket av egenskapen
En persons proficiency (färdighet) avgör vilket svar som väljs
Motsvarar hur mycket en person har av den latent variabeln
Både intelligens och depression ses båda som “färdigheter”
En persons förmåga, proficiency, betecknas theta (Θ)
Transformeras till ett värde som liknar z-värde
Genomsnittlig person Θ = 0
Kan varierera mellan ~ -3.0 to ~ +3.0
Även svårighet (b) transformeras på liknande sätt

34
Q

The Item Characteristic Curve

A

Beskriver relationen mellan en persons färdighet (Ꝋ) och sannolikheten att man svarar “rätt”
Sannolikheteten 0,5 motsvarar 50% chans att man svarar “rätt”

Kurvan man får ut för ett enskilt item
X-axeln - individens färdighet som baseras på antalet rätt som en individ har totalt sett på en skala
Y-axeln - jämfört med sannolikheten att svara rätt
(se bild)

35
Q

Sannolikhet ICC

A
36
Q

Fördelar och nackdelar med IRT

A

Fördelar
Kan ge korta skalor med hög reliabilitet
Ger precisa estimat för varje item
Kan jämföra individer även om de svarat på olika item
Har använts mer inom folkhälsovetenskap och vid konstruktion av kunskapstest, men användning inom psykologi ökar.
– Exempel: SDQ har undersökts med IRT-ansats som visat att instrumentet trots sitt korta format (5 frågor/delskala) fångar olika problemdimensioner (Hagqvist, 2007)

Nackdelar
Svårt att beräkna med vanliga statistikprogram
Oklart om det alltid är värt det externa arbetet