2. Reliabilität, Validität, Soziale Validität MTMM, Eichmasstäbe Flashcards

1
Q

Definition von Test (Lienert, 1969):

A

„Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung“
• anzumerken bleibt, dass es nicht ausschließlich um quantitative Aussagen geht, sondern auch um klassifikatorische oder kategoriale Feststellungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Klassische Testtheorie Annahmen

A
  • Die Reliabilität gibt den Anteil der wahren Werte an der Varianz der beobachteten Werte an
  • die Varianz der beobachteten Werte ist die Summe der Varianz der wahren Werte und der Fehlerwerte Sxt2 = Swt2 + S et2
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Gütekriterien

A
  • Maßstäbe zur Beurteilung der möglichen Fehler, die man bei der Anwendung derartiger Tests machen kann
  • (numerische) Größen, die Aussagen darüber machen, wie gut ein Testverfahren ist
  • Aussagen darüber, wann man besser diesen Test nicht oder nur mit Vorsicht verwenden sollte
  • die Testkennwerte dienen als Hinweise, wo und wie man den Test verbessern kann
  • Reliabilität, Validität und Objektivität
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Objektivität

A

Objektivität
-> soll garantieren, dass die Ergebnisse unabhängig vom Testanwender sind

Soll sich auf alle drei Phasen einer Testdurchführung beziehen

  • Durchführungsobjektivität (in der Regel garantiert durch die Standardisierung der Testprozedur, mit Testmanual, Instruktionen etc.)
  • Auswertungsobjektivität (meist gegeben durch „schablonisierte“ Auswertungen oder aber Auswertungsschlüssel oder PC- Programme zur Testauswertung)
  • Interpretationsobjektivität (bezieht sich auf die Schlussfolgerungen, die aus den Testergebnissen gezogen werden können).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Testarten

A
  1. Leistungstests
    a. power test b. speed test
  2. Persönlichkeitstests
  3. Objektive Persönlichkeitstests
    (Verfahren, bei denen das Verhalten in einer standardisierten Situation erhoben wird, ohne dass der Befragte sich selbst beurteilen muss)
  4. Projektive Tests
  5. Situationsfragebögen („Stellen Sie sich vor, …“)
  6. Symptomlisten (Symptome z.B. gemäß ICD 10 oder DSM IV)
  7. Einstellungstests
  8. Motivations- und Interessenfragebögen
  9. Verhaltensfragebögen (Fragen nach tatsächlichem Verhalten)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Testkonstruktion in 8 Schritten:

1. Definition des „inhaltlichen Universums“ („universe of content“)

A
  1. Definition des „inhaltlichen Universums“ („universe of content“)
    - Welches Konstrukt, welches Verhalten soll in einem Test erfasst werden?
  • Welche Aussagen sollen überhaupt Berücksichtigung finden?:
  • Beispiel: Arbeitszufriedenheit
  • als Einstellung zur Arbeit? als Motivation? als Einstellungsfacetten?
  • mit oder ohne Berücksichtigung allgemeiner Lebenszufriedenheit?
  • unter Berücksichtigung der generellen Berufszufriedenheit?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Testkonstruktion in 8 Schritten:

2. Gewinnung einer Itemstichprobe/Formulierung von Items

A
  1. Gewinnung einer Itemstichprobe/Formulierung von Items
    • z.B. über Befragung von Experten und/oder Betroffenen
    • Berücksichtigung bereits vorhandener Verfahren
    • Formulierung einfacher Aussagen
    • Vorsicht vor sog. „Quantoren“ (einige/manche, manchmal/selten)
    -> werden in den Itemformulierungen nicht einheitlich interpretiert
    • Keine doppelten Verneinungen
    • keine Begründungen innerhalb von Items („ich habe einen tollen Job, weil ich vierzig Tage Urlaub habe“)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Testkonstruktion in 8 Schritten:

3. Auswahl der Antwortalternativen (Antwortformate)

A
  1. Auswahl der Antwortalternativen (Antwortformate)

-freie Antwortformate
(z.B. bei projektiven Verfahren, bestimmten Interviews, Kreativitätstests etc.àmüssen aber anschließend signiert bzw. inhaltsanalytisch ausgewertet werden)
-gebundene Antwortformate
(in Form von Kategorien, die entweder numerisch oder verbal beschrieben sind)
-Wichtig ist, ob die Ratingskalen unipolar oder bipolar sind

Beispiel:
„Ich bin für die Quotierung von Frauen im höheren Management“ Antwortalternative: lehne ich sehr ab - stimme sehr zu
„Vor einem Bewerbungsgespräch bin ich sehr aufgeregt“ Antwortalternative: sehr selten/oft/fast immer

• besondere Variante der gebundenen Antworten:
-> „multiple choice“ Fragen
– Es sind 3,4, oder mehr Antwortalternativen vorgegeben , von denen eine
oder aber mehrere richtig bzw. falsch sein können
– Wichtig ist die Auswahl der sog. Distraktoren, d.h. jener Alternativen, die falsch sind, aber dennoch plausibel sein sollten

Weitere generelle Probleme:

a) Die Zahl der Antwortalternativen (gerade vs. ungerade etc.)
b) Response set Probleme (Ja-Sage Tendenz)
c) Reihenfolgeeffekte (mögl. Zufallsreihenfolge; ev. Puffer-Items)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Testkonstruktion in 8 Schritten:

4. Selektion von Items

A
  1. Selektion von Items
  • Vorgehen im Rahmen der KTT:
  • > erste Vorform der Itemsammlung einer Personenstichprobe (Analysenstichprobe) vorlegen
  • > Sollte möglichst genau der Personengruppe gleichen, auf die der Test zugeschnitten werden soll
  • drei Kriterien für möglichst hohe Reliabilität/Validität:
  1. Itemschwierigkeit
    gibt den Prozentanteil derjenigen Personen an, die eine einzige Aufgabe (Item) „richtig“ gelöst haben
    Weder 100%ige Zustimmung, noch 100%ige Ablehnung aller Befragten ist für Differenzierung v. verschiedenen Personen zielführend
    Daumenregel: Schwierigkeitsindizes (oder p-Werte) sollten zwischen 20 und 80 liegen
    Maximale Differenzierung ist bei einem p=50 er-reicht. Items die außerhalb dieser Grenzen liegen, werden eliminiert.
  2. Trennschärfe der Items
    • Formal: Korrelation zwischen der Aufgabenantwort und dem Gesamttestwert
    • Inhaltlich: die Personen beantworten nach Möglichkeit jedes einzelne Item so, wie den gesamten Test
    • Trennschärfekoeffizient (Berechnung durch punktbiserialen Korrelationkoeffizienten) sagt auch etwas über die Homogenität des Testverfahrens aus
    -> damit auch über die Eindimensionalität des Messinstruments • Untergrenze für Trennschärfekoeffizient bei .30
  3. Interkorrelation der Items
    • Information über die Ähnlichkeit in der Beurteilungsstruktur der einzelnen Items
    • brauchbare Abschätzung der Dimensionalität des Messverfahrens und der Homogenität der zugrundeliegenden Beurteilungsdimension
    • Die Interkorrelationskoeffizienten sollten eine Größenordnung von .20 nicht unterschreiten
    -> sonst besteht Verdacht, dass zusätzlich zur intendierten inhaltlichen Ausrichtung des Test einzelne Items andere Dimensionen beinhalten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Testkonstruktion in 8 Schritten:

5. Bestimmung der Reliabilität des Tests

A
  1. Bestimmung der Reliabilität des Tests
    • = Zuverlässigkeit eines Tests
    • ist ein Maß für die Genauigkeit, mit der der Test ein Merkmal
    misst
    • Reliabilität als Indikator der Genauigkeit einer Messung lässt sich über verschiedene Methoden erheben, die jeweils unterschiedliche Aspekte der Zuverlässigkeit erfassen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Testkonstruktion in 8 Schritten:

5. Bestimmung der Reliabilität des Tests: 5.1 Retest-Reliabilität

A

5.1 Retest-Reliabilität
• überprüft nach einem bestimmten Zeitintervall bei den gleichen Personen die Übereinstimmung zwischen den Ergebnissen der ersten und zweiten Testanwendung
• wird als Korrelation zwischen erster und zweiter Messung ermittelt
• Die Zeitabstände zwischen erster und zweiter Messung sind je nach Testinhalt und Testumfang in ihren Auswirkungen
unterschiedlich (Lern-und Übungseffekte/ zwischenzeitliche Reifungs-und Veränderungsphasen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Testkonstruktion in 8 Schritten:

5. Bestimmung der Reliabilität des Tests: 5.2 Paralleltest-Reliabilität

A

5.2 Paralleltest-Reliabilität

-Es werden zwei Varianten eines Test konstruiert
die hinsichtlich der Mittelwerte und Standardabweichungen identisch sind
und deren Rohwerte hoch miteinander korrelieren
-Es müssen also zwei äquivalente Tests konstruiert werden, die man den Befragten zur Beantwortung vorlegen kann
-die Reliabilität kann man über die Übereinstimmung der beiden Messungen erfassen
-gleichzeitig kann aber auch (sofern man einen entsprechenden Zeitabstand gewählt hat) die Konsistenz der Testergebnisse erfasst werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Testkonstruktion in 8 Schritten:

5. Bestimmung der Reliabilität des Tests: 5.3 Testhalbierung

A

5.3 Testhalbierung

  • stellt eine „ökonomische“ Variante dar
  • der Test wird in zwei - äquivalente - Hälften geteilt
  • Wichtig: die Korrelation als Maß der Genauigkeit basiert nur auf der Hälfte der Zahl der Items!
  • Eine entsprechende Korrektur der Korrelation bei verdoppelter Itemzahl lässt sich aber durchführen
  • Die Aufteilung in zwei Hälften kann dabei

nach geraden und ungeraden Items
aufgrund einer Zufallsaufteilung
die erste gegen die zweite Hälfte
oder über gleiche Schwierigkeits- und Trennschärfeindizes erfolgen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Testkonstruktion in 8 Schritten:

5. Bestimmung der Reliabilität des Tests: 5.4 Konsistenzanalyse

A

5.4 Konsistenzanalyse
• ist eine Verallgemeinerung der Halbierungsmethode
• besteht darin, eine Testskala in so viele Teile zu zerlegen, wie es
Items gibt
• Das heute gängigste Maß dieser Internen Konsistenz ist Cronbach ́s α

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Testkonstruktion in 8 Schritten:

5. Bestimmung der Reliabilität des Tests: 5.4 Konsistenzanalyse

A

5.4 Konsistenzanalyse
• ist eine Verallgemeinerung der Halbierungsmethode
• besteht darin, eine Testskala in so viele Teile zu zerlegen, wie es
Items gibt
• Das heute gängigste Maß dieser Internen Konsistenz ist Cronbach ́s α

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Testkonstruktion in 8 Schritten:

6. Überprüfung der Dimensionalität eines Tests

A
  1. Überprüfung der Dimensionalität eines Tests
    • Mehrere Verfahren zur Prüfung der Homogenität möglich -> Faktorenanalyse:
    • über die Korrelationen bzw. Kovarianzen der Items lassen sich Gruppen von Items zusammenfassen, die aufgrund ihrer Ähnlichkeit (definiert über die Ähnlichkeit der Urteiler über diese Items) zusammengehören
    • versuchen in der Regel, zunächst einen Faktor zu finden, der maximal viel Varianz der Items aufklärt (Prinzip der Varianzmaximierung)
    • danach wird die übrige Varianz auf den nächsten Faktor verteilt etc.
16
Q

Ziel von Faktorenanalysen

A
  • aus einem Itempool eine reduzierte Anzahl von Faktoren gewinnen, die Aussagen über die Gruppierung der Items zulassen
  • Die Beschreibung dieser Dimensionen (Faktoren) ist allerdings dann ein interpretatorisches Kunststück und kein Produkt der Methode
  • Auch die Zahl der Faktoren und ihre Lage zueinander (ob orthogonal oder oblique) sind Festlegungen, die anhand bestimmter Kriterien durch den Untersucher getroffen werden
17
Q

Exploratorische Faktorenanalyse

A

-> Bildet eine Menge an Items einen Gegenstand der Untersuchung (Konstrukt) auf einer bestimmten Anzahl von Dimensionen ab?

18
Q

Konfirmatorische Faktorenanalyse

A

-> Testen von bereits vorliegenden Modelle zu testen oder Vergleich alternativer Modelle
à Keine Datenreduktion, sondern Strukturüberprüfung oder Überprüfung der Anpassung der Daten an das Modell
-> - benötigeneinerseitseinMessmodell,durchdasfestgelegtwird,welche beobachtbaren Variablen als Indikatoren für eine manifeste Variable gelten sollen
-außerdemeinStrukturmodell,indemdieBeziehungenzwischendiesen Variablen festgelegt werden

19
Q

Konfirmatorische Faktorenanalyse

A

Überprüfung des Resultates
-die empirisch beobachtete Kovarianzmatrix wird mit der Kovarianzmatrix verglichen, die durch das Modell impliziert ist

-Zur Überprüfung der Übereinstimmung sind eine Reihe von sog. Fit-Indices entwickelt worden
-Wenn Fit-Indices ungenügend ausfallen: auf das gesamte Modell verzichten
Modifikationen meines Modells vornehmen, um es dann erneut zu testen (weitaus häufiger praktiziert)
Konkurrierende Modelle vorziehen

20
Q

Testkonstruktion in 8 Schritten:

7. Validität eines Testverfahrens

A
  1. Validität eines Testverfahrens
    • = Gültigkeit eines Tests
    • kennzeichnet den Grad der Genauigkeit mit dem ein Test das
    misst, was er zu messen vorgibt.
    • Ist ein Test valide, kann man aufgrund der Ergebnisse in einem Test darauf schließen, dass das Testverhalten einen möglichst eindeutigen Schluss auf das Verhalten des Befragten zulässt
    • Die Generalisierbarkeit der Testergebnisse auf das tatsächliche Verhalten und Erleben der Person ist die eigentliche Kernaufgabe der Diagnostik
21
Q

Arten von Validität

A

„face validity“ (Augenscheinvalidität)
• ist eigentlich kein „echtes“ Validitätskriterium
• sehr eindrücklich, wenn jedem auf Anhieb klar wird, dass der Test oder das Verfahren sein Ziel erreicht

„content validity“ (Inhaltliche Gültigkeit oder Validität)
• ist dann maximal realisiert, wenn der Test selbst das Kriterium des Merkmals ist (z.B. eine Arbeitsprobe, ein Fremdsprachenleistungstest oder ein Reaktionstest)

Kriteriumsvalidität (kriteriumsbezogene Validität)
-definiert sich über die Korrelation des Testergebnisses mit einem Außenkriterium
-zwei Varianten:
-die Übereinstimmungsvalidität
concurrent validity, konkurrente Validität
Test & Kriterium werden fast gleichzeitig erhoben Bsp: Studienerfolgskriterien & Klausurnoten

prädiktive Validität
predictive validity, Vorhersagevalidität
Test & Kriterium werden zeitlich deutlich voneinander getrennt erhoben Bsp: Studienerfolg und Berufserfolg

22
Q

Testkonstruktion in 8 Schritten:

7.1 Konstrukte im nomologischen Netzwerk

A

-Abbildung v. Beziehungen zu vergleichbaren oder aber dezidiert unterschiedlichen Konstrukten
-Verfahren sollte seinen begründeten Platz finden
hoch korrelieren mit theoretisch vergleichbaren Konstrukten

(z.B. Arbeitszu-friedenheit/ Commitment/ Identifikation mit der Organisation)
– gering oder negativ korrelieren mit anderen Konstrukten (Transformationale Führung mit Bezahlung; Neurotizismus, Berufserfolg und graphologische Gutachtenergebnisse)

Überprüfung der Konstruktvalidität
• Es werden eine Reihe formal-statistischer Verfahren eingesetzt:
• z.B. die Faktorenanalyse, Clusteranalyse
• besonders geschätzt – die MTMM-Verfahren, die auf Campbell &
Fiske (1959) zurückgehen

23
Q

Testkonstruktion in 8 Schritten:

7.2 Das Multi-Trait-Multi-Method (MTMM)-Verfahren

A

Grundgedanke

bei der bekannten Methodenabhängigkeit der Ergebnisse psychologischer Forschung sollten
-Unterschiede zu Lasten der Methoden möglichst gering sein
-Konstrukte, denen ein hohes Ausmaß an Ähnlichkeit bzw. Unähnlichkeit zugesprochen wird, hoch bzw. niedrig miteinander korrelieren

Interpretation der MTMM-Matrix
• in sämtlichen Zellen sind Korrelationskoeffizienten eingetragen,
• in den Diagonalen sind die Reliabiliäten der einzelnen Verfahren eingetragen

24
Q

Beispiel-MTMM-Matrix (3 Traits und 3 Methoden)

A
24
Q

Beispiel-MTMM-Matrix (3 Traits und 3 Methoden)

A
25
Q

Verschiedenste Arten heute üblicher Eichmaßstäbe

A
26
Q

Testkonstruktion in 8 Schritten:

7.3. Soziale Validität

A

Schuler (2014) stellt das Konzept der sozialen Validität in einem Kapitel zu „Entscheidung und Evaluation“ vor.
Der Grundgedanke besteht darin, neben den numerischen Reliabilitäts-und Validitätskennziffern Aussagen darüber zu machen, wie die Testsituation insgesamt beurteilt werden kann.
Von primärer Bedeutung ist in diesem Zusammenhang die Perspektive des Bewerbers.
Immerhin geht es um die Einstellung oder Ablehnung eines Bewerbers und damit verbunden sind Status, Macht, Ressourcen, soziale Anerkennung.
Andererseits ist eine Personalauswahlsituation eine Konfliktsituation, in der sich die Bewerber, aber der potentielle Arbeitgeber
befindet,

Eine derartige Auswahlsituation, in der sich der Bewerber in der Regel sehr positiv und der Arbeitsgeber in der Regel daran interessiert einen qualifizierten Bewerber einzustellen, lässt sich als „sozialer Kontrakt“ bezeichnen,
Vor allem in gut-dotierten Positionen sind abgelehnte Bewerber immer auch Informanden über die Organisation, die sie abgelehnt haben.
Die soziale Validität ist vor allem die Validität der Auswahlsituation selbst – und wie sich zeigen wird, eine Frage der Ethik in Organisationen.
Welche Merkmale der Gestaltung der (Prüfungs-) Situation sind also zu berücksichtigen?. Schuler (2014, 370-371) schlägt folgende 4 Dimensionen vor: (gekürzte Wiedergabe)

27
Q

Welche Merkmale der Gestaltung der (Prüfungs-) Situation sind also zu berücksichtigen?. Schuler (2014, 370-371) schlägt folgende 4 Dimensionen vor: (gekürzte Wiedergabe)

A
  1. INFORMATION
    über die Aufgabenbereiche der Tätigkeit
    über erfolgskritische Anforderungen
    über die wichtigsten Organisationsmerkmale und –ziele
    über die Organisationskultur
    über Möglichkeiten persönlicher und beruflicher Entwicklung
  2. PARTIZIPATION/KONTROLLE
    Beteiligung an der Gestaltung der Auswahlsituation – oder instrumente
    Möglichkeit. Kontrolle über die Situation oder das eigne Verhalten auszuüben
  3. TRANSPARENZ
    der Auswahlsituation – über die Rollen, Intentionen und Kompetenzen der Anwesenden, inkl der Verhaltenserwartungen
    Bedeutung und Bezug der diagnostischen Instrumente des Bewertungsprozesses und der Bewertungskriterien
    des diagnostischen Prozesses (wie z.B. im AC durch direkten sozialen Vergleich mit Konkurrenten)
  4. URTEILSKOMMUNIKATION/FEEDBACK
    diagnostische Information durch die Verfahren und die Beurteiler ehrliche Antworten bezogen auf die Erfolgswahrscheinlichkeit formal verständlich, rücksichtsvoll, unterstützend
28
Q

Die Operationalisierung erfolgte z.B. über folgende Fragen bzw Items:

A

Ad 1: Mir ist klar, welche Anforderungen künftig an mich gestellt werden
Ad2: Ich konnte meine Stärken zum Einsatz bringen Ich fühle mich ernstgenommen und respektiert.
Ad3: Mir ist klar, welches Verhalten von mir erwartet wurde.
Ad4: Ich wurde fair und rücksichtsvoll über mein Abschneiden informiert.

29
Q

Weitere Konzepte, die in diesem Zusammenhang diskutiert werden sind:

A

Weitere Konzepte, die in diesem Zusammenhang diskutiert werden sind:

a. Soziale Akzeptanz
b. Prozedurale Gerechtigkeit
c. Fairness (oft gleichbedeutend mit organisationaler Gerechtigkeit)

29
Q

Weitere Konzepte, die in diesem Zusammenhang diskutiert werden sind:

A

Weitere Konzepte, die in diesem Zusammenhang diskutiert werden sind:

a. Soziale Akzeptanz
b. Prozedurale Gerechtigkeit
c. Fairness (oft gleichbedeutend mit organisationaler Gerechtigkeit)

30
Q

Görlich & Schuler (2014) unterscheiden bei der Fairness von Personalentscheidungen fünf Facetten:

A
  1. Statistische Fairness (prognostische Validität)
    z.B. Verwendung prognostisch valider Verfahren, Berücksichtigung von Quotenregelungen, Vermeidung einseitiger Auswahl
  2. Biografische Fairness (Konstruktvalidität)
    Prinzip der Eigenverantwortlichkeit (keine Berücksichtung z.B. des Berufs der Eltern); Einräumen einer neuen Chance
  3. Anforderungsbezogene Fairness (Konstruktvalidität) Beschränkung auf berufserfolgsrelevante Merkmale
    Repräsentativitätsprinzip
  4. Prozedurale Fairness (soziale Validität) s.d. 4 Dimensionen
  5. Gesellschaftliche Fairness (Austauschgerechtigkeit) Leistungsprinzip, Belohnung sozialen Engagements
31
Q

Testkonstruktion in 8 Schritten:

8. Die Testendform

A
  1. Die Testendform

-Erhebung von Testnormen an möglichst vielen repräsentativen Stichproben
-Bestimmung von „cut – off“ Werten, ab denen eine Qualifikation oder aber eine Störung oder eine Intervention erforderlich sollten
-Eichstichprobe (sollte repräsentativ sein für diejenigen Personen, die untersucht worden sind)
Die beste Methode der Normerstellung besteht, wenn alle Mitglieder der Population bekannt sind
aus dieser Population wird eine repräsentative Stichprobe gezogen
-die erhaltenen Rohwerte werden auf Normalverteilung geprüft
und anschließend standardisiert