M1 F7 Flashcards

Question

Was ist die Retest-Reliabilität?

Answer 1

Die Retest-Reliabilität schließlich, ist eine Retest-Korrelation, die auf der wiederholten Vorgabe einund desselben Tests bei denselben Probanden basiert. Die Retest-Reliabilität ist insbesondere in der Persönlichkeitspsychologie relevant, weil damit die differentielle zeitliche Stabilität von Persönlichkeitsmerkmalen empirisch gestützt werden kann. Die zeitliche Stabilität gehört neben der schwieriger nachzuweisenden transsituativen Konsistenz zu den entscheidenden Prüfsteinen, die ein Merkmal als Persönlichkeitsmerkmal qualifizieren. Das Konzept der differentiellen zeitlichen Stabilität basiert auf der Annahme, dass sich die Rangreihe der Personen im Hinblick auf die Ausprägungen eines Merkmals über die Zeit nicht oder nicht entscheidend verändert. Wenn zum Messzeitpunkt t1 Person A z.B. einen höheren Extraversionswert aufweist als die Personen B, C und D; B wiederum einen höheren Wert als C und D sowie C einen höheren Wert als D, dann wäre die Retest-Korrelation +1, wenn diese Rangreihe bei einer zweiten Messung t2 exakt erhalten bleibt. Wichtig ist, sich klarzumachen, dass sich dabei die absoluten Extraversionswerte jeder einzelnen Person verändern können, was an der perfekten Korrelation von rtt = +1 nichts ändert, so lange die Rangreihe der Probanden erhalten bleibt. So könnte es sein, dass zum Messzeitpunkt t2 jede Person einen höheren absoluten Extraversionsmesswert aufweist als zu t1, was aber die Rangreihe der Personen im Hinblick auf Extraversion nicht unbedingt verändert.

Answer 2

Die Validität eines Tests betrifft das Ausmaß, in dem ein Test das misst, was er messen soll. So kann man z.B. die Frage stellen, ob mit einem Intelligenztest überhaupt Intelligenz gemessen wird (zu einer Kontroverse hierzu vgl. Dörner & Kreuzig, 1983). Die Frage nach der Validität mag auf den ersten Blick etwas merkwürdig erscheinen, sie ist aber komplexer und schwieriger zu beantworten, als im Falle der Objektivität und Reliabilität. So gibt es für das Ausmaß der Validität kein einzelnes quantitatives Maß wie für die Reliabilität. Hartig, Frey und Jude (2008) haben Messick (1989) und Kane (2001) folgend darauf hingewiesen, dass es angemessener ist, von der Validität verschiedener Interpretationen der Ergebnisse eines Tests zu sprechen. Sie unterscheiden Interpretationen, die sich auf die Bewertung, Verallgemeinerung, Extrapolation, (kausale) Erklärung von Testergebnissen sowie auf Entscheidungen auf der Basis von Testergebnissen beziehen. Die Bewertung eines Testergebnisses erfolgt durch den Vergleich eines individuellen Testwerts mit einer Vergleichsgruppe und resultiert in Interpretationen wie „durchschnittlich, überdurchschnittlich oder unterdurchschnittlich intelligent, ängstlich, extravertiert etc.“. Interpretieren im Sinne von Verallgemeinern und Extrapolieren meint eine Übertragung des Testergebnisses auf ähnliche Testaufgaben bzw. konstruktnahe Leistungen in Bereichen außerhalb der Testsituation. So würde man mit einer gewissen Wahrscheinlichkeit erwarten, dass ein Proband mit einer überdurchschnittlich ausgeprägten Intelligenz auch in einem anderen Intelligenztest bzw. relevanten Bereichen außerhalb der Testsituation (z.B. Schule und Studium) überdurchschnittliche Leistungen erzielt. Kausale Erklärungen von Testergebnissen können sich auf explikative Konstrukte innerhalb von Intelligenztheorien beziehen, z.B. die Geschwindigkeit der Informationsverarbeitung oder genetische Faktoren als Bedingungen für hohe Intelligenz. Entscheidungen auf der Basis von Testergebnissen schließlich sind Interpretationen, die beispielweise die Eignung einer Person für einen bestimmten Studien- oder Arbeitsplatz implizieren. Die Validität dieser unterschiedlichen Interpretationen von Testergebnissen bedarf der theoretischen und empirischen Überprüfung innerhalb eines Validierungsprozesses, in den verschiedene Studien und Methoden eingehen können und sollten.

Answer 3

Inhaltsvalidität Kriteriumsvalidität Konstruktvalidität Konkurrente, prädiktive oder prognostische Validität (wobei sich die prädiktive und die konkurrente Validität im Folgenden unter dem Begriff Kriteriumsvalidität subsummieren lassen)

Answer 4

Die Inhaltsvalidität ist das Ausmaß, in dem die Aufgaben bzw. Items eines Tests das interessierende Konstrukt inhaltlich repräsentieren. Damit einher geht die Annahme eines Aufgabenbzw. Itemuniversums, das ein latentes Konstrukt inhaltlich indiziert. Inhaltsvalidität ist dann gegeben, wenn eine ausgewählte Stichprobe der Aufgaben bzw. Items dieses Universum hinreichend repräsentiert. Die Inhaltsvalidität wird durch die Urteile von Experten abgeschätzt. Experten sind Wissenschaftler, die in dem Bereich, zu dem ein neuer Test konstruiert werden soll, ausgewiesen sind. Mehreren solchen Experten wird ein Itempool vorgelegt. Die Experten sollen nun darüber urteilen, ob ein Item für das Konstrukt inhaltlich repräsentativ ist. Diese Urteile können auch quantitativ erfolgen, was den Vorteil hat, dass die Beurteilerübereinstimmung der Experten mithilfe einer Maßzahl abgeschätzt werden kann. Oft werden die Expertenurteile aber innerhalb eines argumentativen Diskurses abgegeben. Die Inhaltsvalidität darf nicht mit der sogenannten Augenscheinvalidität verwechselt werden (vgl. Moosbrugger & Kelava, 2008), die angibt, inwieweit das mit einem Test zu erfassende Merkmal auch für Laien evident ist. Die Augenscheinvalidität ist für die Akzeptanz eines Tests wichtig. Wenn z.B. angekündigt wird, dass ein Intelligenztest durchgeführt wird, dann sollte für die Probanden auch einsichtig sein, dass die damit verbundenen Aufgaben auch etwas mit Intelligenz zu tun haben.

Answer 5

Kriteriumsvalidität kennzeichnet den Zusammenhang zwischen dem Testergebnis und einem Kriterium außerhalb der Testsituation. Statistisch wird dieser Zusammenhang korrelativ bzw. regressionsanalytisch ermittelt. Wenn das Kriterium zeitgleich mit der Testung vorliegt, wird von konkurrenter Validität bzw. Übereinstimmungsvalidität gesprochen. In diesem Fall kann das bereits vorliegende Außenkriterium fast gleichzeitig mit dem Testwert gemessen werden, also entweder (unmittelbar) vor oder (unmittelbar) nach der Durchführung des Tests. Cronbach und Meehl (1955) sprechen von konkurrenter Validität, wenn ein (neuer) Test einen anderen, bereits vorliegenden Test, der dasselbe Merkmal erfasst, ersetzen soll oder wenn ein Test mit einem vorliegenden Kriterium, z.B. einer klinisch-psychologischen Diagnose, korreliert. So kann es z.B. sinnvoll sein, die Übereinstimmungsvalidität einer Multiple-Choice-Klausur mit einer konventionellen Klausur oder mündlichen Prüfung zu ermitteln. Wenn ein neuer Intelligenztest entwickelt wird, dann sollten die damit gemessenen Testwerte mit den entsprechenden Werten vorliegender Intelligenztests hoch korrelieren. Prädiktive oder prognostische Validität meint dagegen den Zusammenhang zwischen dem Testergebnis und einem Außenkriterium, das in der Zukunft liegt und ergo durch die Testung vorhergesagt wird, wie z.B. Studien- oder Berufserfolg. Die Kriteriumsvalidität kann am besten dann gestützt werden, wenn ein einigermaßen zweifelsfrei gültiges Außenkriterium (z.B. aggressives Verhalten) vorliegt, was aber zumeist nicht der Fall ist bzw. sein kann (z.B. bei Selbstkonzepten, die das bereichsspezifische Wissen einer Person über sich selbst kennzeichnen). Aus diesem Grund erfolgt die Validierung eines Tests zumeist im Hinblick auf mehrere Kriterien. Die Kriteriumsvalidität betrifft Interpretationen von Testergebnissen im Sinne der oben erläuterten Extrapolation und Entscheidung.

Answer 6

Während die Inhaltsvalidität lediglich aufgrund von theoretischen Argumenten und Expertenurteilen angibt, ob die Aufgaben bzw. Items das latente Merkmal inhaltlich hinreichend repräsentieren, geht es bei der Konstruktvalidität im Kern um die umfassende empirische Überprüfung und Weiterentwicklung der theoretischen Annahmen, die mit dem gemessenen Konstrukt verbunden sind. Die Konstruktvalidität als umfassendes Konzept, das alle anderen Validitätsarten einschließt, wurde in einem klassischen Artikel von Cronbach und Meehl (1955) hervorgehoben. Dabei ist das Konzept des nomologischen Netzwerks zentral, das ein zusammenhängendes System von Gesetzmäßigkeiten kennzeichnet. Die (deterministischen oder probabilistischen) Gesetzmäßigkeiten in einem nomologischen Netzwerk können Beziehungen (a) beobachtbarer Variablen zu anderen beobachtbaren Variablen, (b) theoretischer Konstrukte zu beobachtbaren Variablen oder (c) theoretischer Konstrukte untereinander betreffen. Rufen wir uns nun noch einmal in Erinnerung, worum es bei der Validität geht: Misst ein Test das, was er messen soll? Was ein Test messen soll, ist ein bestimmtes hypothetisches Konstrukt. Um feststellen zu können, was es mit einem bestimmten Konstrukt auf sich hat, was es „ist“ bzw. bedeutet, müssen nach Cronbach und Meehl (1955, p. 146ff) die Gesetzmäßigkeiten angegeben werden, die das Konstrukt betreffen. Anders ausgedrückt muss ein Konstrukt, um als wissenschaftlich akzeptabel gelten zu können, in einem nomologischen Netzwerk vorkommen, in dem zumindest einige Gesetzmäßigkeiten beobachtbare Variablen beinhalten. Die Konstruktvalidität kennzeichnet nun die Zusammenhänge des Testscores innerhalb dieses nomologischen Netzes. Die Konstruktvalidität ist niemals abgeschlossen, sondern als fortlaufender Validierungsprozess zu verstehen, in dem mit verschiedenen experimentellen, korrelativen u.a. Methoden Hypothesen geprüft werden. Können deutliche positive Beziehungen zu Tests, die dasselbe oder ein sehr ähnliches Merkmal messen, nachgewiesen werden, wird von konvergenter Validität gesprochen. Die konvergente Validität ist mit der Übereinstimmungsvalidität gleichbedeutend, wenn es tatsächlich um Beziehungen zu Tests geht, die dasselbe Merkmal erfassen. Divergente oder diskriminante Validität bezeichnet dagegen die Unabhängigkeit (Nullkorrelation oder sehr niedrige Korrelation) der Testwerte von Testwerten von Konstrukten, die sich von dem zu messenden Konstrukt theoretisch unterscheiden.

Answer 7

Objektivität, Reliabilität und Validität (z.B. bei Lienert & Raatz, 1998). Die Validität ist ohne Zweifel das wichtigste Kriterium, denn wenn ein Test nicht das misst, was er messen soll, dann ist es auch sinnlos, wenn er das objektiv und reliabel tut.

Answer 8

Außer den sogenannten Hauptgütekriterien werden eine Reihe von Nebengütekriterien genannt, bei denen es zumeist darum geht, die Qualität der Anwendung bzw. Anwendbarkeit eines Tests zu bewerten. Besonders wichtig ist das Kriterium der Normierung oder Eichung eines Tests. Ein Test ist normiert, wenn ein Bezugssystem vorliegt, vor dessen Hintergrund die Testwerte einer einzelnen Person eingeordnet und interpretiert werden können. Bei dem Bezugssystem handelt es sich um die Werte einer Vergleichsstichprobe von Personen, die mit der getesteten Person im Hinblick auf relevante Kriterien (mindestens Geschlecht und Alter) vergleichbar sind. In der psychometrischen Einzelfalldiagnostik erfolgt die Interpretation eines individuellen Testwerts dann durch den Vergleich mit den Normwerten und resultiert in einer basalen Interpretation (durchschnittliche, überoder unterdurchschnittlich Merkmalsausprägung im Vergleich zur Normstichprobe). Weitere Gütekriterien zur Beurteilung der Anwendungsqualität eines Tests betreffen z.B. die Testfairness, die gegeben ist, wenn bei einer Testung eine Benachteiligung bestimmter ethnischer, soziokultureller oder geschlechtsspezifischer Gruppen ausgeschlossen ist. Weiterhin zu nennen ist die Testökonomie, die Relation der zeitlichen und finanziellen Kosten einer Testdurchführung im Vergleich zum Nutzen der Erkenntnisse, die aus einem Testergebnis abgeleitet werden können. Eine Darstellung weiterer anwendungsbezogener Gütekriterien eines Tests liefern Kubinger (2003) sowie Moosbrugger und Kelava (2008).

Answer 9

Hier soll nur verdeutlicht werden, 1) • dass der Bereich der Evaluation ein wichtiger beruflicher Handlungsbereich für Psychologinnen und Psychologen ist (wie auch für entsprechend empirisch ausgebildeten Sozialwissenschaftler/innen); 2) • dass der Konzeption und Evaluation von Interventionsmaßnahmen eine hohe Verantwortung zukommt für die eingesetzten Mittel und insbesondere für die Schlussfolgerungen, da letztere wiederum Konsequenzen für weitere Entscheidungen über Bildungs-, Förderungs-, Interventionsoder auch Selektionsmaßnahmen haben können, von denen hunderte (im Extremfall gar hunderttausende) Personen betroffen sein können; 3) • dass kausale Schlussfolgerungen zwar oft ein Ziel von Evaluationsstudien sind, um daraus Schlussfolgerungen für weiteres Handeln abzuleiten, dass aber die Rahmenbedingungen der meisten Evaluationsuntersuchungen nicht die für kausale Interpretationen notwendigen experimentellen Designs erlauben, sodass quasi-experimentelle oder „ex-post-facto-Untersuchungen“ durchgeführt werden mit entsprechend begrenzter interner Validität; 4) • dass Prinzipien der Planung und Auswertung von Untersuchungsdesigns, die hier in Kapitel 7 dargestellt werden, dennoch soweit wie es organisatorisch, rechtlich und finanziell realisierbar ist angewendet werden sollten, um die Güte möglicher Aussagen über Effekte der evaluierten Maßnahme(n) zu optimieren; 5) • dass beide Perspektiven, die den hier erläuterten Untersuchungsdesigns zugrunde liegen, bei der Planung und Interpretation von Evaluationen im Auge behalten werden sollten: einerseits die Unterschiede zwischen den verschiedenen Untersuchungsgruppen (insbesondere zwischen Versuchsund Kontrollgruppe), andererseits die interindividuellen Unterschiede innerhalb der einzelnen Gruppen, die (a) globalen Aussagen über „die Effekte des Treatments“ Grenzen setzen, und (b) die Signifikanz von Effekten der Treatments beeinträchtigen, aber bei Designs mit wiederholten Messungen aus der Fehlervarianz eliminiert werden können.

Answer 10

“Welche Programme sollen angesichts der limitierten Mittel evaluiert werden?“ Dabei kann es aus der Sicht wissenschaftlicher Beratung andere Kriterien für die Auswahl geben als aus Sicht der Praxis. Aus Sicht derjenigen, die eine bestimmte Interventionsmaßnahme konzipieren, umsetzen und verantworten müssen, ist ein wichtiges Auswahlkriterium, wie „schwerwiegend“ deren Effekte sein können, d.h. welche Breitenwirkung und welche Nachhaltigkeit bzgl. der intendierten sowie bzgl. der unerwünschten Effekte die Maßnahme haben kann: Sind nur Personen einer lokalen Organisation betroffen oder tausende einer größeren Organisation oder Region? Sind unerwünschte Effekte zu erwarten? Treten sie kurzoder langfristig auf? Je schwerer die möglichen Konsequenzen der Anwendung (oder Nichtanwendung) einer Interventionsmaßnahme wiegen, desto eher ist eine wissenschaftliche Evaluation erforderlich und desto höher müssen die Standards für die Evaluation gesetzt werden. (Patry & Hager, 2003, S. 260).

Answer 11

Da Patry und Hager (2000, S. 263 ff.) – wie auch die Autoren dieses Studientextes – die Auffassung vertreten, dass wissenschaftliches Vorgehen bei der Planung und Evaluation von Interventionsmaßnahmen eine Voraussetzung für deren möglichst objektive Bewertung ist, formulieren sie für die Evaluation von Interventionsversuchen eine Zielsetzung, die dem Realisationsprinzip bei Experimenten vergleichbar ist: Das Ziel wissenschaftlicher Evaluationsversuche kann auf einer abstrakten Ebene also darin gesehen werden, vor und während eines Versuchs die Wahrscheinlichkeit zu maximieren, dass eine zutreffende Hypothese sich bewähren kann, und dass eine nicht-zutreffende Hypothese sich nicht bewähren kann (S. 264) – also falsifiziert werden kann. Daraus folgern Patry und Hager (2000), dass jede Evaluation systematisch geplant und dokumentiert werden muss – insbesondere das Treatment sowie die Vielzahl der Bedingungen, unter denen die Evaluation stattgefunden hat (inkl. der institutionellen Vorgaben), die eventuellen zwischenzeitlichen Ereignisse und die Eigenschaften der Durchführenden. Zum letzteren Aspekt geben sie den Hinweis aus der Praxis, dass jede Intervention nur so gut sein kann, wie die mit der Durchführung beauftragten Personen dafür auch qualifiziert (worden) sind (z.B. Lehrer/innen für neue Unterrichtsstile oder für die Nutzung neuer Unterrichtsmedien). Unabhängig davon empfehlen sie, eine Randomisierung der Probanden anzustreben, um eine Gleichverteilung der nicht kontrollierten Bedingungen zu erreichen.

Answer 12

Dieses methodologische Dilemma betrifft sowohl die Konzeption als auch die Evaluation einer Interventionsmaßnahme: Je abstrakter die Formulierung ist, desto weiter kann der potentielle Anwendungsbereich einer Interventionsmaßnahme angesehen werden, wobei sich allerdings bei jeder Anwendung die Frage stellt, in welcher Form man die abstrakten (...) Handlungsanweisungen konkretisiert bzw. operationalisiert ... . (Patry & Hager, 2003, S. 269) Auf der anderen Seite weisen sehr konkrete gehaltene Handlungsanweisungen den Nachtteil auf, dass das Programm nur unter ganz bestimmten Randbedingungen anwendbar ist, nämlich denen, für die die konkreten Handlungsanweisungen gedacht sind bzw. in denen sie untersucht wurden. (Patry & Hager, 2003, S. 269) Je konkreter beispielsweise die Anweisungen für ein Training zur Stressbewältigung sind, desto weniger kann der Trainer bzw. die Trainerin auf die konkrete Art der beruflichen Stressbelastung der einzelnen Teilnehmer/innen eingehen. Ob durch Konkretisierung auch einheitlichere Effekte bei verschiedenen Adressatengruppen erreicht werden, ist eine andere Frage. Bleibt aber die Vorgehensweise im Training zu offen, so können und müssen die Trainer/innen jeweils ihren eigenen Interpretationen und Präferenzen entsprechend arbeiten – sodass aber kein einheitliches Treatment in allen Gruppen vorliegen kann. Es wäre geradezu notwendig, die jeweiligen Vorgehensweisen zu dokumentieren, um eventuell auftretende Gruppenunterschiede erklären zu können, wenn schon keine Standardisierung des Treatments erreicht werden kann.

Answer 13

Das Dilemma der Allgemeinheit versus Konkretheit ist eng verbunden mit dem generellen Kontroll-Dilemma, das von Patry & Hager (2003, S. 271) für die Implementation und Evaluation von Interventions- bzw. Innovationsmaßnahmen im Bildungsbereich konstatiert wird: „Angesichts der Komplexität der Unterrichtssituation ( ... ) und der Länge der Intervention ( ... ) ist es allerdings nicht möglich“, die Forderung nach Kontrolle von Störfaktoren durch Standardisierung „nur annähernd zu erfüllen“ (S.271). Natürlich könnten– z.B. nach Methoden systematischer Verhaltensbeobachtung – die Trainingsstile und die Interaktionen der Teilnehmer/innen erhoben und ausgewertet werden (z.B. bzgl. ihrer Problemorientierung und gegenseitigen Unterstützung mit Hilfe des Kategoriensystems von Bales 1962, vgl. Kromrey 2006, Kap. 7.2). Aber solche detaillierte Protokollierung des Interaktionsverhaltens wäre mit erheblichem zusätzlichem Aufwand für die Erhebung und Auswertung solcher Daten verbunden. Patry und Hager (2003, S. 273) kommen für Evaluationsuntersuchungen zu der Schlussfolgerung, dass „man im konkreten Einzelfall entscheiden muss, welche Standards und Kriterien man für welche Zwecke als vorrangig wichtig ansieht.“

Answer 14

Die Standards umfassen die folgenden vier Dimension: Nützlichkeit, Durchführbarkeit, Fairness und Genauigkeit, die jeweils durch eine Vielzahl von einzelnen Kriterien konkretisiert wurden.

Answer 15

1 Klärung der Evaluationszwecke 2 Identifizierung der Beteiligten und Betroffenen 3 Glaubwürdigkeit und Kompetenz des Evaluators 4 Auswahl und Umfang der Informationen 5 Vollständigkeit und Klarheit der Berichterstattung 6 Rechtzeitigkeit der Evaluation 7 Transparenz von Werten 8 Nutzung und Nutzen der Evaluation

Answer 16

Angemessene Verfahren Diplomatisches Vorgehen Effizienz von Evaluation

Answer 17

``` Formale Vereinbarung Unparteiische Durchführung und Berichterstattung Schutz individueller Rechte Offenlegung der Ergebnisse Vollständige und faire Überprüfung ```

Answer 18

``` 1 Beschreibung des Evaluationsgegenstands 2 Beschreibung von Zwecken und Vorgehen 3 Begründete Schlussfolgerungen 4 Kontextanalyse 5 Angabe von Informationsquellen 6 Valide und reliable Informationen 7 Analyse qualitativer und quantitativer Informationen 8 Systematische Fehlerprüfung 9 Meta-Evaluation ```

M1 F7 Flashcards

(42 cards)