Empiriska mått på reliabilitet (vi vet inte allt) Vad innebär parallella tester?

Om två tester mäter samma sak, och har samma felvarians, kan vi använda korrelationen mellan dem som ett mått på reliabilitet Problem – bygger på att vi vet att testerna har samma felvarians (fungerar inte praktiskt)

Att mäta det omätbara Flashcards by Nahuel Roemkens

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet! (Ondska ex) Hur gör vi detta?

Färdiga definitioner från litteratur ex
Definitioner från expertgrupper
Kriteriebaserade definitioner – ex vid psykiatriska åkommer

How well did you know this?

Not at all

Perfectly

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!

Vi måste kunna veta att testet är pålitligt

Vad innebär detta?

Ska ge samma resultat vid flera mätningar
Det ska verkligen mäta ondska och inget annat
Tänk om folk ljuger?

How well did you know this?

Not at all

Perfectly

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt

Vad finns gjort gällande test? – i detta fall inget test

Så hur kan vi ta fram frågor?

Skapa massa frågor (items) (för att sen ta bort vissa mindre lämpliga)
Källor på frågor
- Låna från andra existerande tester
- Från existerande litteratur
- Intervjuer med patienter eller experter som kan fenomenet
- Observationsstudier
- Teorier, hypoteser
  - Fler goda personer har hockeyfrisyr (ströks sen)
Nu sätter vi samman item-bank av frågor som innehåller frågor som kan ingå i testet

How well did you know this?

Not at all

Perfectly

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt
Vad finns gjort gällande test?

Itemgenerering via kvalitativa studier (ex intervjustudier)

Hur kan detta gå till?

Man försöker fånga alla aspekter av ett begrepp
Man försöker fånga de ordval som används av de man tänker använda frågeformuläret på
Man genererar items utan förutfattade meningar
För bättre helhetsbild av det begrepp vi vill undersöka

How well did you know this?

Not at all

Perfectly

Jag bär vapen ibland
Det spelas läskig musik omkring mig
Jag har sprängt en planet
Jag har huggit av någons arm
Jag har förslavat folk
Jag har inte hockeyfrisyr

Vad är detta exempel på?

Items efter itemgenerering

How well did you know this?

Not at all

Perfectly

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt
Vad finns gjort gällande test? – i detta fall inget test
Itemgenerering via kvalitativa studier

Hur många svarsalternativ

Vad finns det för alternativ och vad kan vara viktigt att tänka på?

Dikotom – ja/nej
Polytom – fler än två svarsalternativ
Jämt eller udda antal svarsalternativ?
- Ojämt antal så kan man alltid sätta mitten (tar inte ställning)
Hur namnge svarsalternativen
Ska mittenalternativet vara neutralt eller inte?

How well did you know this?

Not at all

Perfectly

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt
Vad finns gjort gällande test? – i detta fall inget test
Itemgenerering via kvalitativa studier (ex intervjustudier)
Hur många svarsalternativ

Bedömning av items

Hur kan detta gå till?

Är uppgifterna bra formulerade?
- Undvik frågor som kan tolkas på flera sätt
- Undvik frågor som innehåller flera led
  - ”Jag har många ovänner som jag brukar försätta i farliga situationer”
Omfattar frågorna alla aspekter av begreppet som du önskar undersöka?
- Livskvalitet, depression, ångest osv – fångar vi hela begreppet
Kan svaret på frågorna antas påverkas av annat än det du vill mäta?
- Vid många frågor kan folk tröttna

How well did you know this?

Not at all

Perfectly

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt
Vad finns gjort gällande test? – i detta fall inget test
Itemgenerering via kvalitativa studier (ex intervjustudier)
Hur många svarsalternativ
Bedömning av items

Testning av items: svarsfrekvens

Vad tittar vi på?

Finns det items som väldigt många inte svara alls på? I så fall varför?
- Oklart?
- Irrelevant?
- Känsligt?
Finns det items som nästan alla svara likadant på?
- Då kanske det inte bidrar så mkt
Eller som bara någon svarar ja på

How well did you know this?

Not at all

Perfectly

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt
Vad finns gjort gällande test? – i detta fall inget test
Itemgenerering via kvalitativa studier (ex intervjustudier)
Hur många svarsalternativ
Bedömning av items
Testning av items: svarsfrekvens

Testning av items: dimensionalitet

Vad innebär detta?

Handlar om frågorna mäter ett och samma bakomliggande koncept
Två frågor som mäter samma sak borde samvariera med varandra mer än två frågor som mäter olika saker
Vi kan göra upp en tabell som visar hur varje fråga samvarierar med varje annan

How well did you know this?

Not at all

Perfectly

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt
Vad finns gjort gällande test? – i detta fall inget test
Itemgenerering via kvalitativa studier (ex intervjustudier)
Hur många svarsalternativ
Bedömning av items
Testning av items: svarsfrekvens
Testning av items: dimensionalitet

Hittar frågor som folk svarar lika på (hör kanske samman då, mäter samma sak liksom)

Vad beskrivs ovan och hur görs det?

Faktoranalys

Metod som bygger på att leta efter underliggande faktorer som förklarar variationen i våra data
Forskaren måste välja hur många faktorer han/hon tror finns, samt namnge dessa
Dessa grupper av frågor (som mäter liknande saker) kallas för faktor

How well did you know this?

Not at all

Perfectly

How well did you know this?

Not at all

Perfectly

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt
Vad finns gjort gällande test? – i detta fall inget test
Itemgenerering via kvalitativa studier (ex intervjustudier)
Hur många svarsalternativ
Bedömning av items
Testning av items: svarsfrekvens
Testning av items: dimensionalitet
Mått på hur stor del av variationen i hur folk besvarar itemet som beror på att de verkligen är olika med avseende på de som testet mäter
- Två personer som fyller i angående livskvalitet så kommer en få bättre livskvalitet, en orsak kan vara olikhet i livskvalitet men en del i skillnaden är mätorsäkerhet
- Ju högre av “detta” desto mindre mätosäkerhet

Vad är detta?

Reliabilitet

How well did you know this?

Not at all

Perfectly

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt
Vad finns gjort gällande test? – i detta fall inget test
Itemgenerering via kvalitativa studier (ex intervjustudier)
Hur många svarsalternativ
Bedömning av items
Testning av items: svarsfrekvens
Testning av items: dimensionalitet
Reliabilitet
- För att definiera reliabilitet så tittar vi dels på patientens observerade poäng (den poäng som testet mäter) så tänker vi att det består av sann poäng som man skulle få på testet om det inte finns mätfel alls och dels ett mätfel
  - Nu mäter vi hur stor andel av den observerade poängen som beror på att folk varierar avseende sin sanna poäng
- Det enda vi vet är ju dock vad folk får på testet, så hur kan vi beräkna reliabiliteten om vi inte vet folks sanna poäng???
- Vi antar till höger att vi är allvetande, vi vet alltså exakt vad de skulle fått om det inte funnits fel
  - Ungefär 48 % av den variation som finns i testet beror på att de är olika i det som testet ska mäta
- Ju högre reliabilitet, desto större del av variationen i hur folk svarar på frågeformuläret beror verkligen på att de är olika
- Reliabiliteten för ett idealt test är 1 (100 %), men det är den aldrig i verkligheten, 0 så beror allt på slumpfel

Så hur kan vi öka reliabiliteten?

Ju fler items, desto högre reliabilitet, beror på att slumpfel slår åt bägge håll (lägre på vissa, högre på vissa)

How well did you know this?

Not at all

Perfectly

Varför är reliabilitet viktigt?

Vid låg reliabilitet blir den maximala korrelationen (vid jämförelse av andra utfall) som är teoretiskt möjlig att uppnå låg
Det blir svårare att tolka förändringar i testpoäng och konfidensintervallen blir bredare
- Vi vet inte om patienten blivit bättre av medicinen
Reliabiliteten kan användas för att förbättra testet genom att identifiera problematiska items

How well did you know this?

Not at all

Perfectly

Empiriska mått på reliabilitet (vi vet inte allt)

Vad innebär parallella tester?

Om två tester mäter samma sak, och har samma felvarians, kan vi använda korrelationen mellan dem som ett mått på reliabilitet
- Problem – bygger på att vi vet att testerna har samma felvarians (fungerar inte praktiskt)

How well did you know this?

Not at all

Perfectly

Empiriska mått på reliabilitet (vi vet inte allt)

Vad innebär test-retestreliabilitet?

Vi gör samma test två gånger på samma personer och korrelerar resultaten från omgång 1 med omgång 2? Hur väl korrelerar dessa resultat (ju högre desto reliabilitet)
- Problem: ändrade omständigheter, inlärningseffekter (IQ-test)

How well did you know this?

Not at all

Perfectly

Empiriska mått på reliabilitet (vi vet inte allt)

Vad innebär interbedömarreliabilitet?

Vi låter två oberoende bedömare bedöma samma testprestation och korrelerar deras bedömningar?
- Ex vid röntgenplåtar kan flera experter titta.

How well did you know this?

Not at all

Perfectly

Empiriska mått på reliabilitet (vi vet inte allt)

Vad innebär split half-reliabilitet?

Vi delar alla items i testet i två slumpvisa grupper, och låtsas att det är två olika tester. Sen korrelerar vi dem mot varandra
- Är korrelationen mindre än ett så är reliabiliteten inte helt perfekt (vilket den inte är förstås), kan utgöra värde på reliabilitet

Empiriska mått på reliabilitet (vi vet inte allt)

Vad innebär cronbachs alfa (koefficienten)?

Vanligaste reliabilitetsmåttet
Beräknas utifrån hur varje item samvarierar med varje annat item (fråga). Krångligt att räkna ut om man inte har dator
- Värde 0-1 (bättre)
Har blivit kritiserat i psykometrisk metodlitteratur

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt
Vad finns gjort gällande test? – i detta fall inget test
Itemgenerering via kvalitativa studier (ex intervjustudier)
Hur många svarsalternativ
Bedömning av items
Testning av items: svarsfrekvens
Testning av items: dimensionalitet
Reliabilitet

Vad innebär itemsvårighet?

Två items som mäter samma egenskap kan vara bra på att mäta olika grader av egenskapen. Vi säger att de är olika svåra
En person som har mycket av egenskapen vi mäter säger vi har en hög förmåga
- En fråga i ett intelligenstest är svår om man behöver ha mkt intelligens för att svara rätt
- I ett test för sömnighet så är frågan svår om man behöver vara mkt sömnig innan man får poäng i frågan för testet, den som är sömnig som fan har då hög förmåga (hög grad av egenskapen som testet mäter)
- Ex
  - Sannolikheten att svara poänggivande på itemet ” jag bär vapen ibland”, skiljer inte ut superhjältar så bra från de onda
  - Sannolikheten att svara poänggivande på itemet ” jag har sprängt en planet” – mkt onda!

Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?

Definiera begreppet!
Vi måste kunna veta att testet är pålitligt
Vad finns gjort gällande test? – i detta fall inget test
Itemgenerering via kvalitativa studier (ex intervjustudier)
Hur många svarsalternativ
Bedömning av items
Testning av items: svarsfrekvens
Testning av items: dimensionalitet
Reliabilitet
Itemsvårighet

Fördelning av itemsvårighet

Vi vill idealt ha items som är jämnt fördelade över skalan vad avser itemsvårighet, dvs både lätta, medelsvåra och svåra items

Vad innebär golv- respektive takeffekter?

Kan uppstå när items är för svåra eller för lätta för populationen vi vill använda testet på
- Golv – om alla testerna är svåra för den som svarar (0 p), testa en dement person med MENSA-test
- Tak – om alla testerna är för lätta (1 p), ex kognitiv förmåga hos friska genom att använda demensverktyg

* Mäts ofta genom att man korrelerar testet till resultatet på andra tester som antingen mäter samma egenskap, eller mäter egenskaper som enligt teorin borde samvariera med den avsedda egenskapen på ett tänkt sätt * Intelligenstest – kan vi tala om begåvning som en egenskap som vi kan mäta?

* Mäter testet alla aspekter av det vi vill mäta? * Testet ska inte heller fånga upp något irrelevant * Ingen aspekt ska tillmätas orimligt stor eller liten betydelse * Ex vi mätning av trötthet, mäter vi muskulär trötthet, hjärntrötthet osv? Ingen av dessa ska heller få för stor/liten viktning * ”Alla delar av det som ska examineras ska finnas i tentan, inget ska få onödigt stort utrymme” Innehållsvaliditet i tentan * Bedöms ofta av expertgrupper

* **Huruvida testet kan användas för att avgöra vilka personer som uppfyller visst kriterium eller inte** * Ex om läkare bedömer att patienten är depressiv eller inte, kan vårt test se detta???

* Om en lekman läser frågorna, tycker han att de är relevanta för det som testet avser mäta * Frågor som verkar relevanta kan ge mer motiverande respondenter * Ibland vill man inte visa vad testet avser mäta för att förhindra att folk anpassar sina svar, medvetet eller omedvetet

* Ex, en icke-rökare gör testet till höger * Ex ett test för depression kan ge höga poäng hos kroniskt sjuk (aptit osv)

**Konstruktion och utvärdering av frågeformulär. Vad behöver vi för att kunna konstruera ett formulär?** * Definiera begreppet! * Vi måste kunna veta att testet är pålitligt * Vad finns gjort gällande test? – i detta fall inget test * Itemgenerering via kvalitativa studier (ex intervjustudier) * Hur många svarsalternativ * Bedömning av items * Testning av items: svarsfrekvens * Testning av items: dimensionalitet * Reliabilitet * Itemsvårighet * Validitet * Ja-sägande respektive nejsägande * Vissa personer antas vara mer benägna att instämma i eller ta avstånd från påståenden * Vissa personer är mer eller mindre benägna att använda ytterlighetsalternativ * Social önskvärdhet (ofta mer omedvetet) eller ”faking good” * Kan vara omedveten eller medveten * Vissa tester innehåller speciella skalor för att fånga upp detta * Det har hänt att jag ljugit för att slippa göra något jag inte vill * Anonymitet minskar risken * Större risk om patienten har någon yttre motivation för att få ett visst resultat * Faking bad * Ofta när det finns någon for av vinst för patienten att ha besvär (försäkringsärende, sjukskrivning, RPU) * Finns motsvarande skalor för social önskvärdhet, fast tvärtom * Test of memory malingering (test för fejkare av minnesproblem) * Först visas man 50 bilder av vanliga föremål * Därefter visas man 50 bildpar, där det ena föremålet visats tidigare, och det andra är nytt * Man ska då identifiera det som visats tidigare * Om man inte minns något borde man ändå av slumpskäl få rätt hälften av gångerna * Personer som fejkar hjärnskador presterar mycket sämre än de med verkliga hjärnskador * Differential item functioning: items kan ha olika psykometriska egenskaper för olika grupper Vad är detta exempel på?

* **Systematiska svarsavvikelser**

* Ställ en fråga och patienten slår en tärning (denne får då svara enligt tärningen eller som den tycker), vi kan sen dra ifrån 1/3 nej och 1/3 ja och få det sanna svaret i mitten (ex 1/3 nej kvar)

* ”Jag har sprängt en planet” – sannolikheten att svara jakande för sf-skurkar jämfört med skurkar i fantasyfilmer * Fungerar alltså olika på olika grupper

**Konkreta exempel på tillämpningar** * **Intelligenstester** * Består ofta av delskalor som mäter olika typer av intelligens * Delskalorna delas ofta in i verbala och icke verbala * Giltigheten i resultatet beror också på koncentration, motivation och en mängd andra faktorer * Verbala delskalor är mer beroende av utbildningsbakgrund än icke verbala * **Personlighetstester** * (Själv- eller bedömar) skattningsskalor eller projektiva tester * Resultatet kan bli en ”personlighetstyp” eller ett antal poängvärden för delskalor som mäter olika personlighetsdrag (olika poäng på dessa delskalor) * Personlighetsdrag förväntas vara någorlunda stabila över tid och i olika situationer Beskriv en till som vi har nytta av ibland vid psykiatrisk bedömning och vad den innehåller

* Orientering till tid och plats. Olika frågor om plats * Komma ihåg tre ord: olika ord * Stava baklänges om man inte kan subtrahera sju: olika ord, olika rättningsregler * Test-retestreliabilitet: 0,8-0,95 * Poäng under 23 poäng är associerat med demens i ca 80 % av fallen * Detta beror dock på hur dementa testpersonerna är

Ge exempel på kritik till MMT

* Korrelerar med IQ-test (WAIS) i grupper med kognitiv svikt, ingen säker korrelation i kontrollgrupper * Har tidigt tak (alla rätt) för friska * Kopplat till instrumentell (betala räkningar, följa recept, planera resa), men inte fysisk, ADL * Korrelerat till antal Alzheimerplack i hjärnan hos AD-patienter

**ESS** * Mäter dagsömninghet i form av ofrivilliga insomnanden * 8 situationer som scoras på en 4-gradig Likertskala (0-3), där höga poäng är hög risk för att somna * Över 3000 citeringar av originalmanuskriptet och har i det närmaste blivit hegemoniskt för att mäta dagsömnighet * Kritik * Itemgenerering * Inte bra bskrivet * Item 4 (på ett allmänt möte) kommer från en posterpublicerad studie och handlade ursprungligen om risken att somna under gudstjänster * Itemen är valda för att skilja sig åt i grad av sömninducerande förmåga, men detaljerna beskrevs aldrig Itemtyngden varierar, jasså, ge ett exempel

* Jämför ex 5 (lätt) med 8 (svårt item) * 6 och 8 är svårare än övriga

ESS * Mäter dagsömninghet i form av ofrivilliga insomnanden * 8 situationer som scoras på en 4-gradig Likertskala (0-3), där höga poäng är hög risk för att somna * Över 3000 citeringar av originalmanuskriptet och har i det närmaste blivit hegemoniskt för att mäta dagsömnighet * Kritik * Itemgenerering * Inte bra bskrivet * Item 4 (på ett allmänt möte) kommer från en posterpublicerad studie och handlade ursprungligen om risken att somna under gudstjänster * Itemen är valda för att skilja sig åt i grad av sömninducerande förmåga, men detaljerna beskrevs aldrig * Itemtyngden varierar (jämför ex 5 (lätt) med 8 (svårt item) * 6 och 8 är svårare än övrig Vad kan hända om flera items har samma svårighetsgrad? Vad kan hända om det är långt mellan items?

* Om flera items har samma svårighetsgrad, kommer små förändringar i sömnighet ge upphov till stora skillnader i poäng * Om det är långt mellan items kommer små skillnader i poäng att motsvara potentiellt stora skillnader i sömnighet * Items är tätare fördelade mellan ESS 6-11 än vid högre ESS-värden (ex 19-24 motsvarar kraftig ökning av sömnighet), kan alltså variera även inom samma test

ESS * Mäter dagsömninghet i form av ofrivilliga insomnanden * 8 situationer som scoras på en 4-gradig Likertskala (0-3), där höga poäng är hög risk för att somna * Över 3000 citeringar av originalmanuskriptet och har i det närmaste blivit hegemoniskt för att mäta dagsömnighet * Kritik * Itemgenerering * Inte bra bskrivet * Item 4 (på ett allmänt möte) kommer från en posterpublicerad studie och handlade ursprungligen om risken att somna under gudstjänster * Itemen är valda för att skilja sig åt i grad av sömninducerande förmåga, men detaljerna beskrevs aldrig * Itemtyngden varierar (jämför ex 5 (lätt) med 8 (svårt item) * 6 och 8 är svårare än övriga * Om flera items har samma svårighetsgrad, kommer små förändringar i sömnighet ge upphov till stora skillnader i poäng * Om det är långt mellan items kommer små skillnader i poäng att motsvara potentiellt stora skillnader i sömnighet * Items är tätare fördelade mellan ESS 6-11 än vid högre ESS-värden (ex 19-24 motsvarar kraftig ökning av sömnighet) Differential item functioning, kan du se något sådant här?

* Ung och gammal tenderar svara olika på dessa frågor utifrån ålder och inte utefter sömnighet (3, 4 och 8) * Unga personer går i högre grad på allmänna möten än de äldre som istället tar en tupplur

Peka ut en fråga här som kan tolkas på olika sätt

* Somna i bilen – frågan specificerar aldrig om man kör själv eller är passagerare