Begrepp från Hunter Flashcards

1
Q

Olika typer av mätningar för att bekräfta kompetens

A

Normrelaterad mätning:
Testresultatet jämförs med en normgrupp

Kriterierelaterad mätning:
Testresultatet bekräftas av arbetsprestation.

Domänrelaterad mätning:
Testresultatet bekräftas av en viss färdighet som är central inom yrket. Ex. Språkfärdigheter

Inkorgsmetoden:
Testet är utformat såsom ett arbetsprov. Ett bra testresultatet är då detsamma såsom att klara av arbetet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Olika kulturers syn på intelligens

A

Västvärlden:
Logiska resonemang, spatial- och verbal förmåga

Afrika:
Färdigheten att upprätthålla relationer inom och mellan grupper.

Kina:
Färdigheten att agera ödmjukt och utefter rättvisa principer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Begåvningstesternas historia (någorlunda kronologiskt)

A

Spearman:
Uppfann 1907 faktoranalysen - vilket ledde fram till upptäckten av G-faktorn. Denna delade Cattell senare in i en gF och gC.

Binet och Stern:
Använde intelligensbegreppet för att utforma stödinsatser i skolan. Binet myntade begreppet mental ålder, som Stern senare utvecklade till IK.

Thurstone:
Förbättrade faktoranalysen med den s.k. multipla faktornanalysen. Utifrån denna analys fann Thurstone 7 primära faktorer som var oberoende av G.

Carrol:
Analyserade 450 olika studier av intelligenstester och fann då att intelligens bör ses som hierarkisk:
1. G faktor
2. 8 faktorer (liknande Thurstones, men korrelerade starkt till varandra och till G)
3. 90 olika faktorer (liten korrelation till varandra och G)

Gustafson:
Utvecklade den konfirmatoriska faktoranalysen (jfr. med explorativ eller traditionell analys). Gustafsson fann även hann en hierarkisk modell av intelligens.

Sternberg:
Såg på intelligens utefter 3 principer:
a) Intelligens är hur man bearbetar data, lär sig och utför saker
b) Intelligens är hur man kreativt löser och blir duktig på nya uppgifter
c) Intelligens är hur man styr nya situationer för att tillfredsställa egna behov

Traditionella tester mäter endast A och B och inte den sista C (= Street Smart).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Validiteten av begåvningstester

A

Generellt har begåvning, G-faktorn, hög kriterierelaterad validitet. Det räcker oftast att endast mäta G.

Desto mer komplexa yrken desto högre validitet.
- Komplexa: .56
- Mindre komplexa: .23

Statistiska metoder som kan anpassa för beskuren spridning höjer validiteten avsevärt.

Icke-verbala tester har högre validitet inom högkvalificerade yrken. Verbala tester fungerar i stället bättre inom lågkvalificerade yrken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Personlighetstesternas historia (någorlunda kronologiskt)

A

Woodworth:
Som en respons på 1:a världskriget fick Woodworth i uppdrag att skapa ett test som kunde välja ut duktiga krigare. Han skapade då under 1920-talet Personal Data Sheet. Det första personlighetsformuläret.

Allport och Odbert:
Tillämpade 1936 den allra första lexikala ansatsen av personlighet. De fann då 17 953 adjektiv i ett lexikon som de reducerade ned till 4504 utan synonymer. Slutligen kunde de särskilja 30 olika “traits”. Utgick alltså inte från någon övergripande teori om personlighet.

Cattell:
Följde upp Allports och Odberts arbeta genom på egen hand skapa traits ur dessa 4504 adjektiv. Cattell fann då 16 traits som gav grund till testet 16 PF.

Eysenck:
Skapade en egen teori om personlighet där han fann två grundläggande dimensioner: Extraversion och Neuroticism. Dessa grundade han även biologiskt.

Mischel:
Kritiserade personlighetsteoretiker med grund i den låga validiteten. Situationen förklarar 90% av en persons beteende. Vi väljer inte att agera utefter vad vi vill eller tycker utan vi gör det som är mest adaptivt i situationen.

McCrae och Costa:
Skapade FFM. Personlighetspsykologin var räddad.

Robert Hogan:
Skiljde på två typer av personlighet: Rénomme (andras bild av oss, hur vi framträder) och Identitet (vår syn på oss själva). Menade att FFM endast mäter Rénomme. Skapade senare HPI.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Validiteten av personlighetstester (utifrån FFM)

A

Generellt betydligt lägre validitet än begåvningstester, men har ett högre värde i specifika situationer och egenskaper.

Målmedvetenhet och Emotionell Stabilitet är de faktorer som har högst validitet sett över de flesta yrken. Öppenhet sämst.

Kombinationer av faktorer ger högre validitet. Ex. Målmedvetenhet + Extraversion + Emotionell Stabilitet har ett högt värde inom ledarroller (=. 42)

Typ av yrke påverkar vilka faktorer som är relevanta:
Försäljning: Målmedvetenhet
Vård: Vänlighet

Valet av kriterier för arbetsprestation påverkar också i stor grad validiteten. Ett kriterie skulle kunna vara att uppnå höga försäljningssiffror. Detta passar väl ihop med målmedvetenhet men inte vänlighet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hur kontrollerar vi social önskvärdhet/förställning?

A

Ipsativa skalor + Forced Choice:
Tvingar deltagaren att välja mellan två lika önskvärda alternativ. (Dåligt eftersom testen då blir ojämförbara)

Motivera till ärliga svar i början av testet

Kontrollskalor:
Inbakade items som kontrollerar ex. önskvärdhet.
“Jag har aldrig någonsin blivit arg”

Privacy Invasion:
Vi fuskar mindre på frågor som står oss närmre privat och vice versa.

Kritik: “High Stakes Situation”
I vissa fall kanske förställning inte är relevant. När det väl kommer till kritan gör vi ofta som vi bör göra och inte som vi vill. Exempelvis inom serviceyrket där vi oftast inte skäller ut kunden när den har fel, även om vi vill det.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Ipsativa skalor

A

En skala som sträcker sig över 2 domän. Kan utformas för att motverka förställning. Problemet med detta är att vi då inte kan jämföra resultatet mellan individer:
“Tycker du mest om pannkakor eller lägenheter?”
Anders och Berit valde både pannkakor därför placerar vi de i samma grupp. Men det vi inte vet är att Anders skattar pannkakor såsom 10/10 medan Berit endast skattar pannkakor som 3/10. Roger som i stället skattade pannkakor som 6/10 hamnade i lägenhetsgruppen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Impression Management

A

Syftar till Hogans begrepp rénomme. Hogan menade att vi kontrollerar hur vi vill framstå gentemot andra, vi styr vår rénomme = impression management.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Kvasi-Ipsativa skalor

A

Ett försök av Gordon att kombinera det bästa av båda världar. Jämförelse och motverkan av förställning. Skapade en kvasi-ipsativ skala med 4 svarsalternativ (2 bra och 2 dåliga). På detta sätt skulle jämförelse kunna göras och samtidigt skulle förställning motverkas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Integritetstestning

A

Det finns två olika typer av integritetstester:
- Genomskådliga = inställningen till integritetsfrågor
- Personliga = graden av personligintegritet

Genomskådliga tester mäter i huvudsak olika attityder moraliska dilemman. ex. att stjäla från jobbet.

Personlighetstester har i stället sin grund i målmedvetenhet, vänlighet och emotionell stabilitet ur FFM. Egenskaper som har en tydlig koppling till moral/ärlighet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Validiteten av integritetstester

A

Beskrivs ha lika hög kriterierelaterad validitet såsom personlighetstester. Alltså lika hög korrelation till arbetsprestation.

Men testerna har också hög diskriminativ validitet. Alltså säger de något utöver begåvning och personlighet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Psykometri

A

Vetenskapen om mätning och analys av människans beteende och egenskaper.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Normalfördelning

A

Alla psykologiska tester som utformas är baserade på antagandet att ett resultatet kommer att normalfördelas. Alltså kommer den stora majoriteten vara ganska medel och ett fåtal bättre eller sämre än denna majoritet. Detta har sin grund i att vikt och längd fördelas sig exakt så. Psykologiska testningar har dock visat sig ha betydande svårigheter med att skapa en bra normalfördelning.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Standardavvikelse

A

Ett mått på hur mycket ett värde avviker från medelvärdet i den enskilda gruppen. Beskrivs oftast i z-värden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Standard Error (of the mean) SEM

A

Med hjälp av flera stickprov kan vi uppskatta både medelvärdet och standardavvikelsen för populationen. Standard Error är en uppskattning populationens standardavvikelse, alltså avvikelsen beräknad för flera olika stickprov. Med detta kan vi uppskatta säkerheten (konfidensintervall) av stickprovets värde i förhållande till population.

17
Q

Standard Error (of the measurement) SEm

A

En annan form av standardfel som syftar till avvikelsen av det enskilda mätvärdet. Med detta kan vi uppskatta säkerheten/konfidensintervallet för ett enskilt testresultat inom stickprovet/gruppen. Alltså hur nära testresultatet är det sanna värdet för individen. Påverkas av testets standardavvikelse och reliabilitet.

18
Q

Standardpoäng

A

Råpoäng på deltester transformeras till standardpoäng för att möjliggöra jämförelse.
* Intelligenskvot = 55 – 145 (m = 100) (SD = 15)
* Z-poäng = -3 + 3 (m = 0) (SD = 1)
* T-värde = 20 – 80 (m = 50) (SD = 10)
* Weschler = 1 – 19 (m = 10) (SD = 3)
* Stanine9 = 1 – 9 (m = 5) (SD = 2)
* Sten10 = 1 – 10 (m = 5.5) (SD = 2)

19
Q

Skalnivåer

A
  1. Nominal
  2. Ordinal
  3. Intervall
  4. Kvot

De allra flesta psykologiska testningar ger data på intervallnivå eller lägre. Detta gör att vi endast kan uttala oss om hur individen förhåller sig till gruppen. Ex. 115 IK är över medel för gruppen och är lika “ovanligt” som 85 IK. Vi kan inte säga något om hur mycket bättre 115 IK är jämfört med 85 IK.

20
Q

Korrelation

A

Ett mått på sambandsstyrka i data. Om variabel A har låga värden vad har variabel B? Vanligast förekommande är Pearsons R.

21
Q

Reliabilitet

A

Frånvaron av slumpmässiga mätfel. Gränsvärde på 0.7 och ett högt värde ses som allting över 0.8.

22
Q

Vad påverkar reliabiliteten?

A

Stabilitet:
En egenskaps stabilitet över tid

Formulering:
Går det att tolka påståenden på flera olika sätt?
“Jag tycker om stora föreställningar”

Gissningar:
Är det möjligt att gissa vid en prestationsuppgift? Ges poängavdrag vid felaktiga svar?

Takhöjd: (påverkar framför allt split-half reliabilitet)
- Snabbhetstest: Hinner deltagaren med att göra så gott som alla uppgifter på den utsatta tiden?
- Styrketest: Är uppgifterna för svåra i början så att deltagare inte kan fortsätta?

Administrering och tolkning:
- Ordagranna/Likvärdiga instruktioner
- Tas tiden korrekt?
- Ges korrekta poäng
- Tolkas/Utvärderas resultatet korrekt

Face-Validity:
Påverkar exempelvis hur mycket deltagaren kommer att tänka efter på varje fråga.

Testdeltagarens dagsform!

23
Q

Split-Half Reliabilitet

A

En metod inom CTT för att mäta reliabilitet. Ena halvan av testet jämförs med andra halvan. Korrelerar de väl med varandra?

24
Q

Interbedömareliabilitet

A

Kommer två bedömare fram till samma resultat?

25
Q

Test-retest

A

Får deltagaren samma resultatet på testet en viss tid senare?

26
Q

Inter Konsistens (Homogenitet)

A

Hur väl mäter påståenden i testet samma sak? Går att mäta på två olika sätt:
- Split-Half (CTT)
- Cronbachs Alfa (IRT)

27
Q

Cronbachs Alfa

A

Mäter korrelationer emellan items. Hur väl mäter dessa items samma sak?

28
Q

Parallellformer - Reliabilitets mätning

A

Vid utformningen av ett test skapas även ett annat test med samma svårighetsgrad och uppbyggnad. Testet används lika mycket men har endast som syfte att bekräfta det första testets reliabilitet. Korrelationer jämförs alltså mellan testerna. Jfr. med Split-Half

29
Q

Validitet

A

Frånvaron av systematiska mätfel. Mäter vi det som vi utsatt att mäta? Kan vi predicera beteende med hjälp av vårt test? Täcker testet in allt det vi vill mäta?

Tumregel kring gränsvärde är 0.3 då är validiteten så hög att testet kan förklara ca. 10% (0.3^2) av beteendet.

30
Q

Face Validity

A

Testets tillförlitlighet vid första anblick. Kallas ibland för faith-validity. Ger ett sken av testets pålitlighet och är en förutsättning för god reliabilitet (som i sin tur är en förutsättning för god validitet). Har i sig inget prognosvärde.

31
Q

Begreppsvaliditet

A

Mäter testet det som det är utsatt att mäta? Vi bekräftar detta genom att jämföra med andra redan etablerade tester.

32
Q

Innehållsvaliditet

A

Täcker testet in alla de perspektiv/dimensioner som egenskapen har? Är testet representativt för egenskapen?

33
Q

Kriterierelaterad Validitet

A

Kan vi med testet predicera det som vi vill? Om testet är utformat för att välja arbetare borde testet också kunna förutsäga god arbetsprestation. För att testa detta har vi då också olika kriterier* på vad som är en god arbetsprestation. Vi jämför då vårt test med dessa kriterier, ex. försäljningssiffror eller chefsutvärdering.

Vi kan mäta detta på två olika sätt:
- Prognostisk/Prediktiv: Vi jämför resultatet med arbetslivet 1 år senare. (problem med beskuren spridning)
- Samtidig: Vi jämför resultatet med individer som redan presterar bra inom yrket.

En ytterligare utmaning inom denna validitet är att vi inte heller vill ha ett för högt värde. Ex. Om kriteriet för intelligenstestet är att predicera skolbetyg och vi finner en korrelation på 0.7 bör vi ställas oss frågan om vi nu inte längre mäter intelligens utan vi mäter skolbetyg.

34
Q

Beskuren Spridning

A

Vid tillämpningen av prognostisk eller prediktiv validitet möts vi ofta av problemet att alla de som genomfört testet inte får något jobb. Kanske får 5% av alla de vi testar ett jobb, om ens det. Detta medför lera problem vid analysen av resultatet eftersom att dessa 5% då kommer ligga till grund för hela normalfördelningen. När de egentligen endast tillhör den absoluta toppen av fördelningen, de som faktiskt fick ett jobb.
- Som tur är finns det idag dataprogram som kan justera för denna beskurna spridning

35
Q

Validitetsgeneralisering

A

En princip som testföretag åberopar när ett test för en viss egenskap inte är anpassad utefter den specifika miljön. Ex. när vi i Sverige behöver använda ett test som är översatt till svenska och normerat utefter en amerikansk population.

Med validitetsgeneralisering kan då testutförare hävda att testet fyller ett värde även i denna miljö och att testet har hög validitet även här. Exempelvis för att testet har påvisats ha hög validitet i flera andra miljöer.

Detta gör att vi slipper utforma ett nytt test för varje ny miljö och grupp. Som i sin tur ska testat i validitet och reliabilitet. Vi behöver inte heller göra en ny normering. Vi sparar tid och pengar.

36
Q

Kritik till validiteten av testningar

A

Generellt är validiteten ganska låg framför allt för personlighetstester. Det är således inte rimligt att välja ut arbetskandidater utefter dessa tester, det är inte rättvist.

Tidigare har också denna typ av kritik av låg validitet också snabbt gått vidare till en justering/höjning av validiteten. Ex. en metod för att justera för beskuren spridning. Dessa metoder kanske man skulle kommit på tidigare?

37
Q

Item Responsteori (IRT)

A

Item Reponsteori skiljer sig från CTT på så vis att den ger en personlig profil av testresultatet och kan uttala sig om säkerhet/faktiska värden även på itemnivå. Detta möjliggör mängder av jämförelser och funktioner för ett test. Ex. CAT och Itembank.

Problematisk med metoden är att den kräver enormt mycket information (förställning, svårighetsgrad, reliabilitet osv.) och testning av items.

38
Q

Klassisk Testteori (CTT)

A

Den klassiska testteorin vilar på ansatsen:
Observerade värdet = Sanna värdet + Felvärdet

Problemet med denna metod är att vi endast kan uttala oss om säkerhet på testnivå/gruppnivå. Vilket medför att individen endast kan jämföras i förhållande till sin normgrupp.

39
Q

Computer Adaptive Testing (CAT)

A

Webbifiering av tester har medfört framför allt två problem:
- Material/Innehåll av testerna sprids (inlärningseffekter)
- Andra personer testar än den som ska göra testet

Hur kan vi lösa dessa problem? Jo genom CAT:
CAT utgår från en itembank vilket möjliggör att varje individ för ett unikt test anpassad till sin svårighetsgrad. Om den som gör testet klarar uppgifter av en viss svårighetsgrad kan CAT då hoppa över vissa uppgifter och anpassar således testet utefter individens förmåga. När tillräckligt hög säkerhet i resultatet har uppnåtts kommer testet att avslutas.

Detta förhindrar då inlärningseffekter av att material sprids. Testet blir också kortare än vanligt då det individanpassat. Likaså möjliggör metoden för omtestning för att bekräfta att rätt person utfört testet.