1- Reliabilitet Flashcards by Ingrid Sørvik

Hvorfor trenger vi Reliabilitet?

Alle tester er full av feil. Når vi bruker en test må vi stille krav til nøyaktighet og presisjon. Reliabilitet gjør at vi kan vite hvor stor grad av sikkerhet vi har- det er relevant når vi skal ta en avgjørelse innenfor psykologien.
Forskjell når du skal avgjøre om personen skal bli tatt fra barna sine og når du tar en personlighetstrekk.

How well did you know this?

Not at all

Perfectly

Hva er Reliabilitet (definisjon)

“Andelen av total varians i en skåre som kan tilskrives varians i sanne skårer”

=Konsistent og pålitelig resultat av skårer på et måleinstrument.

How well did you know this?

Not at all

Perfectly

Dersom vi hadde hatt perfekt reliabilitet, hva ville vi fått da?

Den som testes oppnår samme skåre på testen ved flere målinger under ellers like forhold. Perfekt reliabilitet= fravær av målefeil

How well did you know this?

Not at all

Perfectly

Hva er klassisk testteori?

T er det vi egentlig ønsker å måle, men skåren man får på en test antas å være forurenset av målefeil (e)

How well did you know this?

Not at all

Perfectly

Vi kan dele inn målefeil i to. Eksempeler på hver?

Usystematiske: Misforsto spørsmålet, surv, dagsform, feil hos administrator

Systematisk: løgn, bias hos testadministrator, testen favoriserer

How well did you know this?

Not at all

Perfectly

Hvilken antagelse har vi om målefeil i klassisk testteori?

Vi antar at målefeil er tilfeldige fordi det er vanskelig å fange opp de systematiske feilene.

How well did you know this?

Not at all

Perfectly

Hvordan kan vi gå frem for å vite personens sanne skåre?

Teoretisk må vi teste personen uendelig mange ganger, sann skåre vil være gjennomsnittet av alle oppnådde skårer. (ikke mulig i praksis)
I praksis må flere personer skåres på samme test (eller parallelle former av denne) en eller to ganger. Tar du testen en gang må du ha flere spørsmål som spør om det samme begrepet slik at vi kan beregne reliabiliten.

How well did you know this?

Not at all

Perfectly

Hva er reliabilitetskoeffisienten et produkt av?

How well did you know this?

Not at all

Perfectly

Nevn alle måtene vi kan estimere reliabilitet.

Stabilitetstester
- Test-retest reliabilitet
-Alternativ form/paralelle former

Intern konsistensbaserte tester
-Split half reliabilitet
-Inter rater reliabilitet
-Inter item reliabilitet (Cronbachs alfa)

How well did you know this?

Not at all

Perfectly

Hva er stabilitetstester?

Estimerer reliabilitet. Relevant når vi skal måle stabile egenskaper. For stabilitet over tid/ulike versjoner av tester. Som feks IQ eller personlighet
En test nå og en om 1 år.

How well did you know this?

Not at all

Perfectly

Hva er test-retest? (stabilitetstester)

Man tester samme person to ganger ved ulike tidspunkt for å så korrelere svarene. Høy korrelasjon vil si høy reliabilitet. Feilkilder kan være at det har skjedd en reell endring, eller at man husker svaret fra sist gang

How well did you know this?

Not at all

Perfectly

Hva er alternativ form? (stabilitetstester)

Man tester samme person to ganger, men med litt ulike versjoner som egentlig måler det samme, feks eksamen v22 og h22. Feilkilder kan være at det har skjedd en reell endring, eller at man egentlig ikke måler det samme ved disse to ulike versjonene.

How well did you know this?

Not at all

Perfectly

Hva er Intern konsistensbasert tester?

Estimering av reliabilitet. Relevant når det vi skal måle ikke er stabilit over tid. Brukes for måling av en sumskåre på samme tidspunkt. Reliabilitet basert på kun en administrasjon av testen. Feks holdninger. Forutsetter at vi har flere indikatorer.

How well did you know this?

Not at all

Perfectly

Hva er inter-rater reliabilitet? (Intern konsistensbasert tester)

To eller flere personer obserververer samme person slik at vi har flere målinger samme “gang”. Ser om det er korrelasjon mellom disse.

How well did you know this?

Not at all

Perfectly

Hva er Split-halft? (Intern konsistensbasert tester)

Splitter testen i to. Forutsetter at du har flere indikatorer på det du skal måle. Lager sumskåre på de to delene (som er tilfeldig delt) og korrelerer de med hverandre. Så må du korrigere for at du kun har halve delen. (Spearman Brown korreksjon).
Gammel metode med flere ulemper.

How well did you know this?

Not at all

Perfectly

Du får en reliabilitet på .67. Hva betyr det?

67% av variasjonen i sumskårer tilskrives sann skåre. En del av variansen kan skyldes målefeil.

Hvorfor er Cronbachs alfa bedre enn splif half?

Er den gjennomsnittlige reliabiliteten beregnet ut i fra alle mulige split-half kombinasjoner

Hva er Inter rater reliabilitet alfa? (Intern konsistensbasert tester)

Summerer alle spørsmålene og målefeil til hver av de og summerer dissse.
Mange spørsmål/målinger på hver latente variabel. Beregnes ved Cronbachs alfa.
Viktig at de ulike spørsmålene korrelerer med hverandre, fordi om de ikke gjør det så måler de jo ikke det samme. (Trenger altså høy inter- item korrelasjon). Jo sterkere denne er desto bedre er reliabiliten.

=Vi trenger altså mange spørsmål på hver latente variabel og høy inter-rater
Får god reliabilitet fordi man i en test har målt den latente mange ganger.

Hva er en latent variabel?

Det vi ønsker å måle. Kan ikke observeres direkte, men kan måles ved å spørre om observerte skårer. Feks at angst er latent variabel og “ofte redd” observert skåre. Også det samme som en faktor.

Når det kommer til Cronbachs alfa har vi en ide om målefeil. Hva da?

Ideen er at målefeilene på hvert spørsmål er tilfeldig. Kanskje du overvurderer på et og undervurderer på et. Da vil til slutt målefeilene bli = 0. Har vi mange nok spørsmål/målinger på hver latente variebel så vil målefeilene bli mindre og mindre

Hva inkluderer Cronbachs alfa i vurderingen sin?

Hvor sterkt spørsmålene korrelerer (inter-item-correlation), altså gjennomsnittlig korrelasjon
Hvor mange spørsmål er det (antall testledd)

Hva er forutsetninger i klassisk testteori?

-Alle spørsmålene er like gode målinger av den latente variabelen(skjeldent i praksis)
-Hvert testledd skal se på som et repetert måling av den latente variablen
-Hvis hvert testledd måler den samme latente variabelen skal indikatorene korrelere med hverandre.
-Målefeil for hver indikator antas å være helt tilfeldig, derfor er ikke målefeilene korrelert mellom testleddene

Kan man bruke inter-item correlasjons matrise for å se om noen spørsmål er dårligere enn andre?

Ja. Feks sp 7 her korrelerer dårligere enn de andre.

Hva skjer med reliabiliteten når vi har flere testledd. Og hvorfor?

Den øker. Fordi mindre målefeil. Men nb vi bør ikke har for lange skalaer, fordi folk blir lei.

Når alfa blir feks 0.96, hva kan det bety? Er det et mål å alltid ha den høyeste mulige alfaen?

At spørsmålene stilles nesten er helt like, bare små nøyanser. Kan være at du måler veldig snevert. Ikke alltid målet, kanskje vi stiller litt for like spørmsål. Det kommer an på hva du skal bruke den til.

Hva kan være problemet ved for snevre spørsmål?

Fanger opp lite av det du prøver å måle.

Kan vi være 95% sikre på at en skåre på 90 og en på 105 er ulike?

Fordi 4,98 gjelder for 1 standardavvik og vi er ute etter å finne 2 standardavvik må vi gange dette med to. 4,98 *2= 9,96 2 *Svaret vi får er 9,96. Dette betyr at dersom to personer har mer enn 9,96 i forskjell, kan vi med 95% sikkerhet at de har en skåre som er forskjellig fra hverandre.*