Gütekriterien Flashcards

Question 1

Q

Überblick

Answer

A

An die Genauigkeit und Verlässlichkeit von Messergebnissen in der Diagnostik werden Anforderungen gestellt. Man hat Kriterien (ursprünglich nur für psychologische Tests - Lienert 1967) entwickelt, die es ermöglichen, die Qualität einer Messung zu beurteilen. Gütekriterien sind also Forderungen an die diagnostischen Verfahren bezüglich der:

> Testdurchführung: Transparenz, Zumutbarkeit, Störanfälligkeit, Verfälschbarkeit
> Testauswirkung: Auswertungsobjektivität, Reliabilität, Validität, Bandbreite, Änderungssensivität, 	Informationsausschöpfung
> Testevaluation: Ökonomie, Fairness, Akzeptanz, Vergleichbarkeit, Bewährung

Question 2

Q

Überblick über Haupt- und Nebengütekriterien für diagnostische Verfahren (nach Lienert 1967; ergänzt)

Answer

A

Gütekriterien
Hauptgütekriterien Nebengütekriterien

—> Objektivität —> Normierung
(Durchführung, Auswertung, Interpretation) —> Nützlichkeit & Zumutbarkeit
—> Reliabilität —> Ökonomie
(Wiederholungsrel., Split-Half-Rel., Paralleltestrel. —> Vergleichbarkeit
Konsistenzanalyse) —> Akzeptanz
—> Validität
(Inhaltsvalidität, Empirische Val., Konstruktval.
Testfairness)

—> Die Güte eines Verfahrens ist am größten, wenn dieses hohe Objektivität, Reliabilität und Validität aufweist!

Question 3

Q

Objektivität Definition

Answer

A

= Grad, in dem Ergebnisse eines Tests unabhängig vom Untersucher sind

Lienert 1967: Ein Test wäre vollkommen objektiv, wenn verschiedene Untersucher bei denselben Probanden zu gleichen Ergebnissen [Interpersonelle Übereinstimmung der Untersucher]

—> Intersubjektive Einflüsse sollen möglichst ausgeschaltet werden. Dazu müssen möglichst viele Arbeitsschritte im Beurteilungsverfahren genau festgelegt sein.

Beispiele für objektive tests: (theoretische) Führerscheinprüfung oder Intelligenztests
Gegenbeispiele (nicht-objektive Tests): sog. „Tintenklecks-Diagnostik“ oder „Rorschach-Test“, bei Persönlichkeit daraus interpretiert wird, was Proband in einem Tintenklecks sieht.

Objektivität ist (wie Reliabilität) ein formales Kriterium, es sagt nichts über den Inhalt aus!!!

Arten:
Durchführungsobjektivität, Interpretationsobjektivität, Auswertungsobjektivität

Question 4

Q

Durchführungsobjektivität

Answer

A

Gleiche Bedingungen für alle Prüflinge und die Untersuchung soll unabhängig von zufälligen und systematischen Verhaltensvariationen des Untersuchers sein.
Man versucht zu sichern, dass alle Lernenden bzw. Probanden den gleichen Anforderungen unter gleichen Bedingungen ausgesetzt sind.
> Situative Faktoren: Tageszeit, Hilfmittel, Intruktion, Lärm,…
> Personale Faktoren: Ermüdung, vorherige Beschäftigung

Herstellung von Durchführungsobjektivität
> Vereinhaltlichung der Aufgabenstellung, der Bearbeitungszeit, der Erläuterung der Aufgaben, der zulässigen Hilfsmittel („Bedingungskonstanz“)
> Gleichheit der Instruktionen für alle Prüflinge (z.B. schriftlich oder mit Tonband)
> Vergleichbare situative Faktoren
> Reduktion der sozialen Interaktion zwischen Proband und Untersucher aus Minimum
(manche Tests enthalten im Kommentar wiederkehrende Antworten mit zulässigen Standardantworten)
> Strikte Beachtung von Verfahrensregeln
z.B.: Beim Diagnostischen Rechtschreibtest (DRT 3) werden genaue Anleitungen zur Aussprache eines Wortes, zum Zeitraum der Testdurchführung und der Zeitdauer gegeben. Außerdem wird festgelegt, wie der Test einzuführen ist, wie die Sätze zu diktieren sind und wie oft ein Wort vorgelesen werden darf.
z.B.: vorgeschaltete Übungsaufgaben (fließen nicht in die Bewertung ein) —> Test, ob die Übungsaufgabe verstanden wurde

Schwierigkeiten:
> Personale Faktoren nur schwer beeinflussbar (z.B. Prüfungsangst, Tagesform)
> Verstehensprobleme bei formelhaften Vortragen der Anweisung
> Bei mündlichen Prfüfungen ist Durchführungsobjektivität automatisch niedriger, da keine Gleichzeitigkeit gegeben ist.

Question 5

Q

Auswertungsobjektivität

Answer

A

Diagnostische Ergebnisse (in Zahlen oder kategorialen Einordnungen) sollten unabhängig vom Untersucher sein. Verschiedene Beurteiler sollten also zu gleichen Ergebnissen gelangen. 
Die meisten Untersuchungen über die Schwächen traditioneller Leistungsbeurteilungen beziehen sich auf die mangelnde Auswertungsobjektivität.

Herstellung von Auswertungsobjektivität:
> Beurteilungsverfahren mit festgelegten Kriterien - für jede Aufgabe wird genau festgelegt, was bzw. Welche Lernergebnisse mit wie vielen Punkten bewertet wird bzw. Werden
> Kriterienkatalog
—> Nur Auszählung (z.B. Diktatfehler)
> Beurteilungsverfahren mit geschlossenen Antwortformen
z.B.: Erhebungsverfahren auf MC-Basis —> Auswertung mit Schablonen oder maschinell, störend nur Ablese- oder Rechenfehler

Schwierigkeiten:
> Bei Aufsätzen o.ä. Ist die Auswertungsobjektivität eher schwierig zu erreichen
(Bsp.: Über Satzbauqualität muss der Diagnostiker selbst entscheiden)
> HAWIK: manche Lösungen mit 0, 1 oder 2 Punkten bewerten —> Beispielantworten vorgegeben, um Auswertungsobjektivität zu erreichen, aber nicht immer eindeutig
(Bsp. Frage: Warum sollte man ein Versprechen halten?)
> Projektive Verfahren: Tests mit auslesungsfähigem Bildmaterial
z.B. Rorschachtest, Zeichentests, Handschriften

Question 6

Q

Interpretationsobjektivität

Answer

A

Aus gleichen Ergebnissen sollten auch die gleichen diagnostischen Schlüsse gezogen werden ( erst hier findet in der Schule Notengebung statt!). Verschiedene Beurteiler interpretieren das gleiche Auswertungsergebnis also gleich.
Interpretationsobjektivität ist schwieriger zu erreichen als Auswertungobjektivität.

Mangelnde Interpretationsobjektivität:
Schüler hat 12 Punkte erreicht —> ein Lehrer gibt Note 2, der andere Note 4
Ein Teilergebnis kann grundsätzlich nach vorliegenden Normentabellen in die Leistungsverteilung oder in das erreichte Lernniveau eingeordnet werden, es kann aber auch notwendig sein, Ergebnisse abzuwägen, zu gewichten und zu bewerten.
Z.B.: Schulleiter entscheidet, ob Kind eingeschult werden kann oder Zusätzförderung braucht - nach ärztlichen Gutachten, Angaben der Eltern…

Herstellung von Interpretationsobjektivität
> Existenz von festen Regeln für diagnostische Schlussfolgerungen (z.B. normierte Leistungstests, Fragebögen, Rohwerte aus Tabellen ablesen…)
> Möglichst umfassende Dokumentation von Datenerhebungen und -analysen

Schwierigkeiten
> Je unterschiedlicher die zu verarbeitenden Informationen und je zahlreicher sie sind, desto schwieriger ist es, sie objektiv, d.h. Unter Ausschaltung intersubjektiver Einflüsse, zu interpretieren
z.B.: bei Übertrittsgutachten: neben Schulnoten werden auch außerleistungsmäßige Faktoren wie Lernbereitschaft, Unterstützung der Eltern etc. In die Diagnose mit einfließen
> Affektive Beziehungen
> „Intuition“ des Diagnostikers oder Meinung, dass Diagnostik eine nicht schulmäßig erlernbare Kunst sei —> große Unsicherheit auf diesem Gebiet!
Objektivität ist die notwendige Voraussetzung für die Zuverlässigkeit und Gültigkeit einer Messung bzw. Eines Prüfsystems. Eine Messung, die nicht objektiv ist, kann auch nicht zuverlässig und gültig sein.

Question 7

Q

Reliabilität Definition

Answer

A

= Grad der formalen Messgenauigkeit

Definition Lienert 1967: Unter Reliabilität eines Tests versteht man den Grad der Genauigkeit, mit dem er ein bestimmtes Perönlichkeits- oder Verhaltensmerkmal misst.

Bei der Zuverlässigkeit einer Messung im sozialwissenschaftlichen Bereich muss bedacht werden, dass die Messung nicht zuverlässiger sein kann als die Stabilität des Merkmals. Die Messung eines labilen Merkmals (z.B. Stimmungen) ist also stets ungenauer als die eines stabilen (z.B. Persönlichkeitsmerkmale)

Reliabilität bezieht sich immer auf das Testverfahren und nicht auf die Probanden

Reliabilität ist (wie Objektivität) ein formales Kriterium, es sagt nichts über den Inhalt aus!

Question 8

Q

Zuverlässigkeitskoeffizient (Reliabilität)

Answer

A

Der Grad der Zuverlässigkeit einer Messung wird durch den Zuverlässigkeits- oder Realibitätskoeffizienten bestimmt.

Definition Lienert 1969:
Der Zuverlässigkeitskoeffizient r ist ein Korrelationskoeffizient, der angibt, in welchem Maße unter gleichen Bedingungen gewonnene Messwerte über ein und denselben Probanden übereinstimmen, in welchem Maße das Testergebnis als reproduzierbar ist.

Question 9

Q

Arten von Reliabilität

Answer

A

Wiederholungsreliabilität
Zeitliche Stabilität des Messwerts (Koeffizient der zeitlichen Stabilität)

Split-half-Reliabilität
Gleichwertigkeit von 2 Testhälften (Koeffizient der internen Konsistenz)

Paralleltest-Reliabilität
Gleichwertigkeit von 2 Paralleltests (Äquivalenzkoeffizient)

Konsistenz-Analyse
Homogenität von Testitems (Homogenitätskoeffizient)

—> Verschiedene Verfahren zur Reliabilitätsschätzung liefern verschiedene Reliabilitätskoeffizienten mit unterschiedlicher Bedeutung (keine Aussage über „die“ Reliabilität möglich)

Question 10

Q

Wiederholungsreliabilität (Test-Retest-Methode)

Answer

A

Nach einiger Zeit wird die gleiche Personengruppe mit dem gleichen Test erneut gemessen. Es wird mit den Ergebnissen der ersten Messung verglichen - dazu ist allerdings zeitliche Stabilität des Merkmals nötig.

—> Bildung eines Reliabilitätskoeffizienten: Koeffizient der zeitlichen Stabilität

Schwierigkeiten:
> wird bei der Leistungsmessung selten angewendet, da man bei Wiederholung mit Übungseffekt rechnen muss! —> verfälscht die Messung
> Bei Lernleistung handelt es sich nicht um ein zeitstabiles Merkmal
> Bei selegierten Stichproben (Bsp.: Kinder, Kranke) ergeben sich wegen der geringen Varianz der Stichprobe automatisch geringere Korrelationskoeffizienten
> Bei großen Zeitabständen zwischen den Messvorgängen können mehrere nichtvorhersagbare Veränderungen auftreten (Bsp.: Rückgang der stabilisierenden Gedächtniseffekte)

Question 11

Q

Split-Half-Reliabilität (Testhalbierungsmethode)

Answer

A

Um nicht die zeitliche Stabilität fordern zu müssen, wird beim der Split-Half-Methode von einer Personengruppe der gesamte Test bearbeitet, dann aber die Aufgabenzusammenstellung halbiert und getrennt ausgewertet. Die Ergebnisse der beiden Hälften werden korreliert und es ergibt sich der Koeffizient der internen Konsistenz
Z.B. Leistung bei Aufgaben 1-10 und 11-20 vergleichen. Danach lässt sich der Zusammenhang beider Testhälften brechen

Der Reliabilitätskoeffizient gibt an, ob die jeweiligen Testhälften gleichwertig sind
> Speed-Test (mit einfachen Items; diese können von allen bearbeitet werden; Leistungsstärken lassen sich durch unterschiedliche Bearbeitungszeit erkennen):
Testergebnisse werden nach der Testzeit geteilt und miteinander korreliert
> Power-/Niveau-Test (Tests mit Aufgaben zu verschiedenem Schwierigkeitsgrad):
Ergebnisse bei gradzahligen und ungradzahligen Items getrennt berechnen und miteinander korrelieren (Odd-even-Methode)

Schwierigkeiten:
> Flukationen in der Zuwendung, Ermüdung und dynamischen Bearbeitungsbereitschaft wirken bei Odd-Even-Methode verkleinernd, wenn sie nicht länger dauern als die Bearbeitung eines Items. Diese funktioniert nur bei konsistenten Tests, keine Staffelung nach Schwierigkeit
> Aufmerksamkeitsschwankungen über einen längeren Zeitraum führen dazu, dass die Fehlerkomponenten beider Testhälften miteinander korrelieren (Widerspruch zu klassischen Testtheorie)
> Je größer die Speed-Komponente, desto irreführender ist die Reliabilitätsabschätzung aufgrund der Testhalbierung

Question 12

Q

Prallelitätsreliabilität

Answer

A

Hier werden zwei oder mehrere verschiedene, aber gleichwertige (parallele) Aufgabensammlungen verwendet, die sich inhaltlich möglichst ähnlich sind. Sie werden gleichzeitig, unmittelbar nacheinander oder mit einigem zeitlichen Abstand von der gleichen Personengruppe bearbeitet.
Z.B. gleichwertige Angaben A und B in einer Schulaufgabe (Mathe: Aufgaben mit gleichen Rechenwegen, aber verschiedene Zahlen)

Der Zusammenhang der Ergebnisse kann berechnet werden. Der entstehende Äquivalenzkoeffizient gibt an, wie gleichwertig die beiden Tests sind.

Schwierigkeiten:
> Gleichwertigkeit mehrerer verschiedenen Tests ist kaum möglich

Stärken der Methode:
> Bekanntheit, Erinnerung, Sättigung,… spielen eine nicht so große Rolle wie bei der Wiederholungsmethode

Question 13

Q

Konsistenzanalyse

Answer

A

Ein Test wird in seine einzelnen Items, die dazu die gleichen Fähigkeiten messen müssen, zerlegt und aus dem Zusammenhang zwischen den Itembeantwortungen wird auf die Messgenauigkeit rückgeschlossen.

Dies ist sinnvoll, wenn ein diagnostisches Verfahren aus mehreren Items besteht, die alle dieselben Fähigkeiten messen. Es ist dagegen nicht sinnvoll wenn ein diagnostisches Verfahren aus strukturähnlichen, heterogenen Items besteht

Der Zusammenhang der Ergebnisse wird im Homogenitätskoeffizienten ausgedrückt.

Schwierigkeiten:
> Einfluss durch methodische Aspekte:
z.B.: wenige Items zur Verfügung —> Koeffizienz kleiner
oder weitgefächerte Antworten und somit Varianzvergrößerung oder gleiches Antwortschema —> Koeffizient erhöht
> Instrument muss homogen sein (keine untersch. Themen/Lernzielhierarchien)

Question 14

Q

Zusammenführung und Herstellung von Reliabilität

Answer

A

Aus diesen 4 Methoden können Koeffizienten berechnet werden, die zur Abschätzung des Messfehlers herangezogen werden. Die Reliabilität bzw. Der Standardmessfehler sind wichtige Angaben für die Messgenauigkeit eines Verfahrens. (Es lässt sich ein Vertrauensintervall um das konkrete Testergebnis berechnen, in dem der unverfälschte Wert des Probanden liegt)

Faktoren, die sich auf die Messgenauigkeit und somit auf die Reliabilität eines Tests negativ auswirken können:
> Ungenauigkeit des Messinstruments (z.B. Stichprobenfehler, die bei der Auswahl der Testaufgaben entstehen können —> Vorteile / Nachteile bei bestehenden Aufgabentypen)
> Umgebungsfaktoren (z.B. unzureichenden gelüftete Räume, Lärmpegel, Beleuchtung, abgebrochene Bleistifte,…) —> Diese Mängel sind vom Testleiter durch sorgfältige Planung auszuschalten!
> Temporäre Veränderungen des Probanden (z.B. Krankheit, Müdigkeit, Desinteresse, Sorgen, Stimmungen…
> Ungenaue Durchführung und Auswertung durch den Versuchsleiter (z.B. ungenaue, nicht eindeutige Arbeitsanweisungen, unklar formulierte Aufgaben)

Diese Faktoren gilt es zu optimieren, um möglichst gute Reliabilität zu erreichen

Es ist unmittelbar einleuchten, dass Zuverlässigkeitskoeffizient z.T. Je etwas anderes messen. Je größer der Zeitabstand zwischen den Messungen ist, desto stärker können sich Einflüsse auswirken (Motivierung, zwischenzeitliche Lernergebnisse,…) die nicht mangelnder Zuverlässigkeit des Messinstruments angelastet werden können

Bei sonst gleicher Aufgabenzahl und -qualität können wir daher nach der Methode der Konsistenzanalyse die höchsten (r >= 0,90) und nach der Methode der zu verschiedenen

Zeiten durchgeführte Prallelformen die niedrigsten (r >= 0,80) Zuverlässigkeitskoeffizienten erwarten (Ingekamp 2005)

Die Reliabilität einer Messung sagt nur etwas darüber aus, wie genau gemessen wird, aber nicht, was gemessen wird.
Aber sie ist Voraussetzung für die Gültigkeit eines Verfahrens!

Question 15

Q

Validität Definition

Answer

A

Die Validität eines Verfahrens sagt etwas darüber aus, ob tatsächlich das gemessen wird, was man messen will und nicht irgendetwas anderes (Ingekamp 2005)

Lienert 1967:
„Die Validität eines Tests gibt den Grad der Genauigkeit an, mit dem dieser Test dasjenige Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen soll oder zu messen vorgibt, auch tatsächlich misst.
Ein Test ist demnach vollkommen valide, wenn seine Ergebnisse einen unmittelbaren und fehlerfreien Rückschluss auf den Ausprägungsgrad des zu erfassenden Persönlichkeits- oder Verhaltensmerkmal zulassen, wenn also der individuelle Testpunktewert eines Probanden diesen auf der Merkmalskala eindeutig lokalisiert.“

Validität ist keine generelle Eigenschaft, ein Test kann für einen bestimmten Zweck valide sein und für einen anderen nicht.

Validität ist (im Gegensatz zu Objektivität und Reliabilität) ein inhaltliches Kriterium!

Validität darf nicht mit Reliabilität verwechselt werden, z.B. Versuch, Intelligenz mit Meterstab zu messen —> Es ergibt sich mehrfach das gleiche Ergebnis (z.B. 173cm) —> Reliabilität ist gegeben. Aber natürlich kann Intelligenz so nicht gemessen werden.

Question 16

Q

Arten von Validität

Answer

A

Um festzustellen, ob man tatsächlich das gemessen hat, was man messen wollte, braucht man allerdings ein Kriterium. Je nach Art des Kriteriums unterscheidet man im Allgemeinen drei bzw. vier Arten von Validität in der Testmethodik:
Validität
Inhalts-Validität Empirische Validität Konstruktvalidität (Testfairness)

Question 17

Q

Inhaltsvalidität

Answer

A

Definition Lukesch 1998:
„Spricht man von inhaltlicher Validität, so nimmt man an, dass ein Test oder dessen Elemente so beschaffen sind, dass sie das in Frage stehende Persönlichkeitsmerkmal und dergleichen in optimaler Weise repräsentieren, dass also der Test selbst das optimale Kriterium für das Persönlichkeitsmerkmal ist.“

Inhaltsvalidität ist zentral in der Schule:
Ein valider Test muss eine repräsentative Stichprobe derjenigen Unterrichtsinhalte umfassen, deren Kenntnis es zu prüfen gilt. Der Lehrer muss vorher eine inhaltliche Analyse durchführen:
> Diagnostiziert der Test, inwieweit Unterrichtsziele erreicht worden sind?
> Werden Ziele durch Testaufgaben angemessen repräsentiert?
Bsp:
> in einem Test über Groß- und Kleinschreibung von Verben dürfen keine schwierigen Wörter mit „ie“ oder „ß“ vorkommen
> In Rechenaufgaben mit Text sollten keine zu hohen Anforderungen an Leseverständnis gestellt werden, da mathematische Fähigkeiten getestet werden
> Zur allgemeinen Überprüfung der Mathematikkenntnisse in der 10. Klasse sollte man in einen Test nicht nur Algebra-Aufgaben einbauen, sondern auch Geometrie

Schwierigkeiten:
> Inhaltsvalidität ist sehr schwer festzustellen
> Testaufgaben nicht durchschaubar zu gestalten (Transparenz eines Tests)
—> Berufung auf inhaltliche Validität ist kein endgültiger Beleg für dessen praktische Brauchbarkeit

Question 18

Q

Empirische Validität

Answer

A

Bei der Feststellung der empirischen Validität (auch Kriteriumsvalidität genannt) steht nicht im Vordergrund, welche Eigenschaften oder Strukturen durch den Test gemessen werden sollen, sondern ob aus dem Testverhalten ein bestimmtes Verhalten vorhergesagt werden kann. Sie ist rein auf das Empirische ausgerichtet (Lukesch)

Nach Crombach 1970 wird die empirische Validität in eine „predictive validity“ (Vorhersagevalidität) und eine „concurrent validity“ (Gleichzeitigkeitsvalidität) unterteilt, je nachdem ob das Verhalten, auf das geschlossen wird, in der Zukunft liegt, oder gleichzeitig (außerhalb der Testsituation nachweisbar)

In beiden Fällen ist eine Voraussage involviert: einmal zeitlicher Längsschnitt und einmal zeitlicher Querschnitt

Man spricht von…
… innerer Validität, wenn das Kriterium selbst wieder ein Test ist
… äußerer Validität, wenn das Kriterium kein Test, sondern ein anderer Verhaltensaspekt ist

Question 19

Q

Empirische Validität Zusammenfassung

Answer

A

Empirische Validität (Kriteriumsvalidität)
> Gleichzeitigkeitsvalidität (konkurrente Validität)
o innere Validität (Kriterium ist ein anderer Test)
o äußere Validität (Kriterium ist ein anderer Verhaltensaspekt)

> Vorhersagevalidität (prädikative Validität)
	o innere Validität (Kriterium ist ein anderer zu einem späteren Zeitpunkt durchgeführter Test)
	o äußere Validität (Kriterium ist ein anderer in der Zukunft liegender Verhaltensaspekt)

Z.B.: Gleichzeitigkeitsvalidität und innere Validität
Inelligenztest A sollte Ergebnisse von Intelligenztest B vorhersagen können

Gleichzeitigkeitsvalidität und äußere Validität:
Gültigkeit von Schultests wird mit dem Grad der Übereinstimmung ihrer Ergebnisse mit Schulnoten ermittelt —> Vorgehen problematisch, da Schultests ja gerade aus Unzugänglichkeit der Schulnoten verwendet werden sollen

Vorhersagevalidität:
Test in der Grundschule (z.B. Empfehlung des Grundschullehrers, Intelligenztest) soll den Oberschulerfolg (z.B. Erfolg/Intelligenz in der 10. Klasse) vorhersagen

Schwierigkeiten:
> Bei Validitätsuntersuchungen können kaum alle Bedingungen kontrolliert werden
> Oft ist ein Verfahren für bestimmte Stichproben geeignet und bei einer anderen liefert es unbefriedigende Ergebnisse (Situations-, Personenbedingt)
> z.B. Intelligenztestverfahren mit dem Ziel, eine Bewährungsprognose für die Schullaufbahn zu diagnostizieren:
o am Ende der Grundschule: gute Validitätskoeffizienten, da hier eine Stichprobe aus der gesamten Schülerpopulation gezogen wurde
o zu Beginn der Gymnasialzeit: keine guten Validitätskoeffizienten, aufgrund der Homogenität der Stichprobe (aufgrund der Gymnasialzuweisung)

Fazit: ein Test, der Verhalten zu 100% vorhersagen kann, ist kaum konstruierbar

Question 20

Q

Konstruktvalidität

Answer

A

Ein Konstrukt ist eine relativ stabile, theoretisch angenommene Eigenschaft, die nicht beobachtbar ist (z.B. Prüfungsangst, Intelligenz…) Die Erfassung von Konstrukten ist nur durch die Erstellung von Theorien möglich, die festlegen, wodurch sich Konstrukte auf der beobachtbaren Ebene zeigen

> Beispiel Prüfungsangst
	Prüfungsangst - Wir können z.B. mit einem Fragebogen „Prüfungsangst“ messen. Ob sie valide 		gemessen wurde, können wir nur abschätzen, wenn wir überprüfen, ob sich theoretisch 		erwartete positive oder negative Beziehungen nachweisen lassen. 
	Fällt zB. Bei einem Probanden mit hoher Prüfungsangst unter Zeitdruck der Leistungserfolg 		besonders stark ab, reagieren intelligente Prüfungsängstliche anders als weniger intelligente, 		lassen sich körperliche Begleiterscheinungen (wie Schwitzen oder Zittern) nachweisen?
> Beispiel Intelligenz
	Durch die Erhebung von messbaren Fähigkeiten (z.B. mentales Rotieren, Ängstlichkeit…) und 		die darauffolgenden Einbettung der Ergebnisse in ein Netzwerk von Konstrukt-spezifischen 		Theorien („normologisches Netzwerk“) lassen sich Konstrukte nachweisen
	Man kann nur beobachtbare Fähigkeiten messen und daraus auf die Ausprägung der 		Intelligenz schließen
> Faktorenanalyse
	Methode, bei der viele Variablen zu wenigen, wesentlichen Variablen verdichtet werden+		—> Ziel: voneinander unabhängige Einflussfaktoren ermitteln (Informationsreduktion)
	Das Instrument ist daran konstruktvalide, wenn die tatsächlich gefundenen Beziehungen mit 		dem theoretischen Modell hohe Übereinstimmung zeigen

Question 21

Q

Schwierigkeiten der Konstruktvalidität

Answer

A

Da Konstrukte nicht direkt beobachtbar sind, kann nur schwer festgelegt werden, welche beobachtbaren Kennzeichen für sie typisch sind
Verfälschungstendenzen (individuelle Kontrolle der Probanden über die Testantworten):
> Soziale Erwünschtheit: jeder Proband versucht, ein sozial erwünschtes Bild von sich abzugeben (intervention durch Lügenskalen, Itempaare, welche das gleiche Konstrukt erfassen)
> Eigenschaften des Messinstrumentes: wenn eine andere Präsentation der Inhalte zu anderen Antworten führt
z.B. unklare Formulierungen —> Tendenz, eher „ja“ zu sagen;
> Simulationen: Bewusste Vortäuschung von Symptomen
z.B. mit Absicht Rechtschreibfehler machen, um die Vorteile von LRS zu erhalten

Question 22

Q

Testfairness

Answer

A

Weiterhin sollte bei diagnostischen Verfahren auf Testfairness geachtet werden. Testitems dürfen keine Probanden oder keine Probandengruppe benachteiligen

Beispiele:
> Benachteiligung von ausländischen Testperson bei sprachgebundenen Intelligenztest
> Kulturgebundenheit von Intelligenztests (culture fair tests: möglichst unabhängig von Kultur, Bildungsgrad und verbaler Kompetenz)
> Zulassungstest zu medizinischen Studienplätzen sollen keine bestimmten Geschlechter bevorzugen

Schwierigkeiten;
> Kulturabhängigkeit nur schwer möglich

Question 23

Q

Herstellung von Validität

Answer

A

Um hohe Validität herzustellen, sollten folgende Punkte beachtet bzw. Eingehalten werden:
> Übereinstimmung von Test- und Unterrichtsinhalt
> Eindeutige Arbeitsanweisungen und klar formulierte Aufgaben
> Operationalisierung der Lernziele (genaue Angaben über die notwendige Lehrtätigkeit, die Inhaltsbeschreibung, das angestrebte Endverhalten mit den Bedingungen, unter denen es gezeigt werden soll, und den Maßstab, an dem es gemessen werden soll
> Lehrer sollte inhaltliche Analyse durchführen (Diagnostiziert der Test, inwieweit die von ihm ausgewählten Unterrichtziele erreicht worden sind? Werden diese Ziele durch die Testaufgaben angemessen repräsentiert?
> Genaue Festlegung, welches Verhalten als Kriterium fungieren soll
—> Validitätsfrage des Tests auf Validitätsfrage des Kriteriums
> nicht direkt auf Verhalten schließen, sondern auf eine Eigenschaft, die sich in verschiedenen, aber funktionell ähnlicher Weise im Verhalten äußern kann

Korrelationskoeffizienten alleine sind unzureichendes Maß für die Brauchbarkeit eines Verfahrens. Wesentlich für die praktische Umsetzung sind außerdem
> die Selektionsrate (wie viele von den getesteten Probanden sollen aufgenommen/abgewiesen werden)
> die Verteilung von Eignungstest- und Nichteignungsquoten in der Population
Z.B. auch ein gut validiertes Verfahren kann nichts zur Verbesserung der Güte einer Entscheidung beitragen, wenn die Zahl der Positionen niedriger ist, als die Zahl der Bewerber

Die Validität ist das einzige inhaltliche Kriterium und macht eine Aussage darüber, ob gemessen wird, was gemessen werden soll. Sie ist ein sehr wichtiges Kriterium für die Güte einer diagnostischen Messung.

Question 24

Q

Nebengütekriterien

Answer

A

Neben den drei großen Hauptgütekriterien Objektivität, Reliabilität und Validität ist es wünschenswert, dass ein guter Test auch die weniger wichtigen Nebengütekriterien möglichst gut erfüllt. Diese dürfen die Hauptgütekriterien aber nicht dominieren.

Nebengütekriterien:
	> Normierung
	> Nützlichkeit & Zumutbarkeit
	> Ökonomie
	> Vergleichbarkeit
	> Akzeptanz

Question 25

Q

Normierung

Answer

A

Das bezeichnet die Einordnung der Ergebnisse in ein Bezugssystem. Ergebnisse sind nicht aus sich selbst heraus interpretierbar, d.h. Schlüsse können nur durch Vergleich mit anderen Ergebnissen gezogen werden. Dazu stehen drei Bezugsgruppen zur Verfügung:
> individuelle (intraindividuelle) Bezugsnorm: Vergleich mit früheren Leistungen derselben Person; z.B. Leistungsentwicklung
> Soziale (interindividuelle) Bezugsnorm: Vergleich mit Vergleichsgruppe; z.B.: normorientierte Schulleistungstests, Leistungsvergleiche aufgrund eines alters-, Schulstufen- oder schulartrepräsentativen Stichprobe)
> Kriteriale (ideale, objektive, Lehrzielorientierte) Bezugsnorm: Vergleich mit gesetztem Kriterium, z.B: Vergleich mit den Anforderungen eines Lernziels

Vorteile von gleichen Normskalen
> Ergebnisse von Probanden können bei verschiedenen Tests miteinander verglichen werden
> Probanden aus verschiedenen Populationen können miteinander verglichen werden

Question 26

Q

Nützlichkeit (Utilität) und Zumutbarkeit

Answer

A

Ein Test ist nützlich, wenn er ein Persönlichkeitsmerkmal misst, für dessen Untersuchung ein praktisches Bedürfnis besteht. Hohe Nützlichkeit bedeutet also, dass kein anderer Test dasselbe ebenso gut misst (Lienert 1967)

Die Zumutbarkeit ist ein subjektives Pendent zur Nützlichkeit/subjektives Merkmal - sie ist das Ausmaß, in dem ein Test die getestete Person in zeitlicher, psychischer sowie körperlicher Hinsicht beansprucht (Testkuratorium 1986)

Question 27

Q

Ökonomie

Answer

A

Nach Lienert 1967 ist ein Test nur dann ökonomisch, wenn er:

a) eine kurze Durchführungszeit beansprucht
b) wenig Material verbraucht
c) einfach zu handhaben ist 
d) als Gruppentest durchführbar ist 
e) schnell und bequem auswertbar ist

Dieses Kriterium darf die anderen jedoch keinesfalls dominieren

Question 28

Q

Vergleichbarkeit

Answer

A

Ein Test ist vergleichbar, wenn

1. eine oder mehrere Pralleltestformen vorhanden sind oder
2. validitätsähnliche Tests verfügbar sind (Überprüfen ähnliche Merkmale)

Vergleichbarkeit ist das Ausmaß der partiellen Übereinstimmung (eines Tests) mit anderen Untersuchungsverfahren, Schwerpunkten oder Inhalten. (Testkuratorium 1986)
Vergleichbarkeit dient der Reliabilität und Validität, ist jedoch nicht zwingend notwendig

Question 29

Q

Akzeptanz

Answer

A

Die Güte eines Tests wird auch von der Öffentlichkeit beeinflusst. Diagnostische Verfahren haben ein breites Interesse der Öffentlichkeit geweckt, da von diesen Ergebnissen weitreichende individuelle Konsequenzen abgeleitet werden können.
Z.B. Berufswahl, Einstellungstest, LRS-Test…

Akzeptanz bezeichnet das Ausmaß, in dem subjektive Meinungen, Bewertungen oder gesellschaftspolitische Überzeugung gegen einen Test angeführt werden (Testkuratorium 1986)

Beispiel: Absinken der Verkaufszahlen von formellen Schulleistungstest in den 90ern.