Validitet Flashcards

1
Q

Validitet

A
  • Hög reliabilitet är en förutsättning för hög empirisk validitet
  • Reliabiliteten sätter en övre gräns för testets möjliga validitet
  • Traditionellt beskrivs validitet som ett tests förmåga att (i en given
    population) mäta det som testet avser att mäta
  • Är inte en egenskap hos testet i sig, utan avgörs i relation till den
    testade populationen
    – Validiteten beror på test, respondent och omständigheter runt
    testningen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Olika typer av validitet

A
  1. Innehållsvaliditet (content): hur innehållet i frågor relaterar till syftet
    med testet, avgörs ofta kvalitativt
    – Ytvaliditet (face): testet uppfatts rimligt i förhållande till sitt syfte, hur
    respondenterna uppfattar frågorna, om de tar dem seriöst
  2. Kriterievaliditet (criterion): undersöks empiriskt
    – Samtidig validitet (concurrent): korrelation med annat test eller
    bedömning av samma fenomen som görs vid samma tidpunkt
    – Prediktiv validitet (predictive): korrelation mellan testet med ett kriterie
    som föreligger först vid senare tillfälle
  3. Begreppsvaliditet (construct): I vilken mån testet kan sägas mäta
    en teoretiskt definierad psykisk dimension. Undersöks genom att visa
    på samband med andra mått eller med hjälp av faktoranalys.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Definition validitet

A
  • Fram till ~ 1980:
    “Mäter testet vad det är avsett att mäta?”
    – Olika validiteter hade beskrivits
  • Efter 1980 (Messick): Begreppsvaliditet/construct validity (inre/intern
    validitet) lyftes fram som överordnad
    – Nytta/användbarhet (extern validitet)
  • Validitet för ett testinstrument innebär att man har observationer och
    resultat i studier som verifierar instrumentets effektivitet vid diagnos
    och prognos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hur undersöker man ett tests validitet?

A
  • De statistiska analysmetoder som används är korrelationer,
    faktoranalys och regressionsanalys.
  • Ett tests validitet kan bestämmas genom studier av all systematisk
    och vetenskaplig evidens för testets tillförlitlighet.
  • Vi måste dock vara medvetna om att vi aldrig helt kan vara säkra
    på att våra analyser identifierar dimensionen vi arbetar med – vi
    gör uppskattningar.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Validitetskoefficienten

A
  • Validitetskoefficienten, rxy är korrelationen mellan ett testresultat och
    ett lämpligt kriterium som man kan validera testet emot, t.ex. ett ”gold-
    standard” test (begreppsvaliditet) eller ett mätbart kriterium på utfall
    (prediktiv validitet).
  • Determinationskoefficienten, rxy2 anger proportionen förklarad varians i
    förhållande till total varians
    – Förklarad varians anses vara bästa sättet att bedöma effektivitet i
    prediktionen
  • Mindre urval ger lägre validitet och lägre koefficienter
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Att undersöka begreppsvaliditet

A
  • Mäter testet de dimensioner som
    domänen/konstruktet/begreppet har i enlighet med vår teori?
  • Korrelation beräknas mellan index-test och referens-test.
  • Kan även undersökas med hjälp av faktoranalys
  • Är en viktig del av undersökningen av ett tests validitet
  • Även ett verktyg i utvecklingen av test
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Faktoranalys

A
  • Bestämmer funktionella relationer mellan variabler.
  • Analysen tar hänsyn till graden av gemensam
    information i variablerna.
  • Faktoranalys innebär att man förklarar strukturen i ett material, var det finns höga faktorladdningar.
  • Testkonstruktören har en viktig del i att finna de
    fraktorer som är teoretiskt meningsfulla
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Principalkomponentanalys (PCA)

A
  • Används ofta som första steg i
    faktoranalys
  • Deskriptiv metod
  • Tar fram oberoende (orthogonala)
    komponenter
  • Varje komponent innehåller variabler
    med så stor förklarad varians som
    möjligt samtidigt som ortogonal mot
    tidigare komponenter
  • Gemensam/delad varians och unik varians
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Explorativ faktoranalys (EFA)

A
  • Använder bara gemensam/delad
    varians
  • Underlag för reduktion av item med
    oklar faktortillhörighet
  • Indikation på att fler variabler
    behövs inom ”liten” faktor
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Konfirmatorisk faktoranalys (CFA)

A
  • Testar hypotes om struktur – var
    höga laddningar mellan faktorer ska
    förekomma, dvs vilka variabler som
    är indikatorer på vilka faktorer
  • Bygger på SEM (Strukturell
    ekvationsmodellering)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Från idé till färdigt test

A
  1. Analys av fenomenet: beskrivning från olika perspektiv av det
    fenomen som man vill mäta
  2. Konstruktion av testitems: fenomenet omsätts till konkreta
    testitems med en lämplig svarsskala.
    – Pröva på ett litet bekvämlighetsurval för synpunker på formulering
  3. Itemstatistik: undersök svarsfördelning på enskilda items – har
    hela skalan (range) använts? Är fördelningarna symmetriska eller
    sneda? Fortsatta beräkningar förutsätter symmetriska fördelningar.
  4. Samband mellan testitems: beräkning av reliabilitet,
    faktoranalys, logistisk itemanalys (IRT). Hittar de items som behöver
    tas bort.
  5. Summavariabeln: när man får fram tillfredställande reliabilitet
    mätt med ex Cronbachs alpha, kan skalan anses vara tillförlitlig.
  6. Validitet, finns inga entydiga regler
    * Korsvalidering – pröva reliabilitet i två eller fler sample
    * Begreppsvaliditet – har eller saknar testet samband med andra test
    * Samtidig eller prognostisk validitet – finns samband med kriterium nu
    eller i framtiden
    * Inkrementell validitet – visa att det nya testet ökar validitet i
    bedömning
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vilken skala ska frågan besvaras med?

A
  • Lämpligt antal steg?
  • Jämt eller ojämnt antal?
  • Ankarvärden eller värden på alla skalsteg?
  • Ska det neutrala värdet vara i mitten på skalan?
  • Spelar siffrorna någon roll?
  • Ska man vända ordningen på några item?
  • Påverkar frågor varandra?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Frågor att undvika

A
  • Ledande frågor
  • Tvetydiga frågor
  • Fler frågor i samma fråga
  • Frågor som förutsätter speciell kunskap
  • Krångligt språk
  • Långa frågor med flera led/ komplexa frågor
  • Nedlåtande frågor
  • Negationer
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Att tänka på vid val av items

A
  • När man konstruerar ett test eftersträvar man
    redan från början stor interindividuell spridning
  • Detta uppnås genom att välja items som olika
    personer svarar på olika sätt – uppgifter som har
    varierande lösningsfrekvens
  • Syftet är att skapa dimensioner där samtliga items inom varje
    dimension bidrar till
    – homogenitet (mäter samma förmåga/färdighet)
    – kommunalitet (har gemensam varians)
  • Genom att studera effekten på reliabiliteten av att ändra
    antalet items kan man arbeta med att förbättra den
  • Ofta bra skapa fler items än man tänkt sig att använda och
    sedan reducera antalet och välja de som fungerar bäst
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Standardisering av mätinstrument

A
  • Innebär att testet har utprövats i den population som den är
    avsedd för – ett representativt stickprov.
  • Är testpoängen normalfördelad har man beräknat medelvärde,
    standardavvikelse och korrelationer av intresse som beskriver
    testets egenskaper i den aktuella populationen.
  • Viktigt att det finns information om hur test standardiserats för att
    ta ställning till om hur rimligt det är att jämföra testpersonens
    resultat med normen.
  • Barntest: viktigt med normgrupper för olika åldrar

Standardisering kan också syfta mer specifikt på:
Att proceduren eller administrationen av mätmetoden är väldefinierad
när det kommer till
– Instruktioner
– Träning av intervjuare, testledare, observatörer eller liknande
* Alla relevanta detaljer för att utföra testningen på det avsedda sättet
finns i en manual eller liknande
* När ett test översätts från ett annat språk är det viktigt att se över
anpassning till språk och kultur – mätmetoden ska vara relevant och
acceptabel för de som ska svara på den

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Att översätta existerande test

A
  • Översättning och ”åter-översättning”
  • Viktigt att ta ställning till
    – Konceptuell ekvivalens – uppfattas fenomenet på samma sätt?
    – Item ekvivalens – uppfattas enskilda item på samma sätt?
    – Semantisk ekvivalens – betyder ett begrepp samma sak?
    – Operationell ekvivalens – kan man fråga på samma sätt?
    – Measurement equivalence – är de psykometriska egenskaperna
    desamma?
  • Testning av begriplighet
  • Eventuellt finns det kulturella skillnader som måste anpassas?
17
Q

Item Response Theory (IRT): en modern testteori

A

Senaste århundradet har dominerats av klassiska testteorin, men finns problem med dessa:
* Statistik för item och skalor är beroende av den grupp som testats
* Om skalan kortas eller item ändras behöver man utvärdera på nytt
* Varje item bidrar lika mycket till totalpoängen (om mann inte viktar)

En modern testteori
* Vid testkonstruktion har klassisk testteori allt oftare kommit
att kombineras med Item Response Theory (IRT).
* Har fokus på enskilda items mätkvaliteter istället för testet som helhet.
* Avancerade matematiska modeller används för att pröva samband mellan latenta (icke-observerbara) egenskaper och
attribut och deras manifesta uttryck (observerbara svar, utfall
och prestationer).

Vad är item response theory?
* Övergripande begrepp för ett antal olika modeller
– I kursboken används exemplet Logististisk itemanalys
* Latent trait models
– Item responses/testsvar är observerade manifestationer av hypotetiska
egenskaper, konstrukt eller attribut
* Dessa modeller ger mer precis information om enskilda items

18
Q

Antaganden inom IRT

A
  • Den latenta variabeln (exempelvis upplevd stress, en viss attityd
    eller färdighet) och testuppgifterna kan placeras längs ett
    kontinuum från låg till hög nivå – vi vill veta var individen
    befinner sig på detta kontinuum.
  • Den latenta variabeln utgår man ifrån är endimensionell och att
    det är denna latenta variabel/egenskap som reflekteras i varje
    testsvar.
  • Förutsatt att antagandena stämmer så beror skillnader i testsvar
    mellan olika individer på skillnader i den latenta variabeln
19
Q

Lite om terminologin(IRT)

A
  • Sannolikheten att man avger ett visst svar är relaterad till ett items
    svårighetsgrad (difficulty)
    – Ett svårt item besvaras korrekt bara av de som har mycket av
    egenskapen
  • En persons proficiency (färdighet) avgör vilket svar som väljs
    – Motsvarar hur mycket en person har av den latent variabeln
    – Både intelligens och depression ses båda som “färdigheter”
  • En persons förmåga, proficiency, betecknas theta (Θ)
  • Transformeras till ett värde som liknar z-värde
    – Genomsnittlig person Θ = 0
    – Kan varierera mellan ~ -3.0 to ~ +3.0
  • Även svårighet (b) transformeras på liknande sätt
20
Q

The item characteristic curve

A
  • Beskriver relationen mellan en
    persons färdighet (Ꝋ) och
    sannolikheten att man svarar “rätt”
  • Sannolikheteten 0,5 motsvarar
    50% chans att man svarar “rätt”
21
Q

Sannolikhet ICC

A
  • Sannolikheten att “svara rätt” är skillnaden mellan en persons
    förmåga och ett items svårighetsgrad
    – Om en persons förmåga = item’s svårighetsgrad så är sannolikheten
    för en “korrekt” respons = 50%
    – Om förmågan > svårigheten, sannolikheten > 50%
    – Om förmågan < svårigheten, sannolikheten < 50%
22
Q

Fördelar och nackdelar med IRT

A

Fördelar:
* Kan ge korta skalor med hög reliabilitet
* Ger precisa estimat för varje item
* Kan jämföra individer även om de svarat på olika item
* Har använts mer inom folkhälsovetenskap och vid konstruktion av
kunskapstest, men användning inom psykologi ökar.
– Exempel: SDQ har undersökts med IRT-ansats som visat att
instrumentet trots sitt korta format (5 frågor/delskala) fångar olika
problemdimensioner (Hagqvist, 2007)

Nackdelar
* Svårt att beräkna med vanliga statistikprogram
* Oklart om det alltid är värt det extra arbetet