M1 F7 Flashcards

1
Q

Warum sind Fechners Experimente so bedeutend?

A

Im Jahr 1786 stellte kein Geringerer als Immanuel Kant kategorisch fest, dass die „empirische Seelenlehre“ keine „Seelenwissenschaft“ sein kann, weil psychische Phänomene weder messbar noch experimentell analysierbar seien. Kant war gegen Ende des 18. Jahrhundert bereits ein außerordentlich einflussreicher Philosoph, dessen Worte großes Gewicht hatten. Es ist deshalb als einer der wichtigsten Meilensteine in der Geschichte der Etablierung der Psychologie als eigenständiger Wissenschaft zu werten, dass Gustav Theodor Fechner 1860 den Nachweis der Messbarkeit psychischer Phänomene erbringen konnte. Fechner ist es gelungen, die subjektive Empfindungsstärke gegenüber physikalischen Reizen (z.B. Tönen, Lichtintensitäten) zu messen und in eine mathematische Beziehung zu bringen. Die sogenannte psychophysische Funktion, auch als „Weber-Fechnersches Gesetz“ bekannt, besagt, dass die Stärke einer subjektiven Empfindung gegenüber einem physikalischen Reiz nicht linear mit der Reizstärke anwächst, sondern gemäß einer logarithmischen Funktion.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist Messen?

A

Messen ist die Zuordnung von Zahlen zu Merkmalsausprägungen von Objekten; in der Psychologie sind die „Objekte“ in der Regel Personen. Die Zuordnung von Zahlen muss nach bestimmten Regeln erfolgen, so dass sich die empirischen Relationen zwischen den Objekten in den numerischen Relationen zwischen den Zahlen widerspiegeln (Orth, 1974, Gigerenzer, 1981; Steyer & Eid, 2001; Stevens, 1951): Formal ausgedrückt sollen sich die empirischen Relationen (A ist doppelt so schwer wie B) in den numerischen Relationen (A wiegt 90 Kilogramm, B wiegt 45 Kilogramm) widerspiegeln.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wenn Person A einen IQ von 70 aufweist und Person B einen IQ von 140, dann ist B doppelt so intelligent wie A - richtig?

A

Da wir bei der alltäglichen Messung von physikalischen Größen wie Gewicht und Zeit daran gewöhnt sind, die Verhältnisrelation (doppelt/halb so schnell bzw. schwer) anzuwenden, besteht die Tendenz, diese Relation auch auf die Messwerte bestimmter psychologischer Konstrukte, wie z.B. Intelligenz oder Ängstlichkeit, zu übertragen. Wenn also Person A einen IQ von 70 aufweist und Person B einen IQ von 140, dann ist B doch doppelt so intelligent wie A, oder? Letzteres ist falsch, weil die Messung von Persönlichkeitsmerkmalen auf einem anderen Skalenniveau erfolgt als die Messung von Gewicht und Zeit. Das Skalenniveau einer Messung hängt mit drei messtheoretischen Kardinalproblemen, insbesondere mit dem Eindeutigkeitsproblem, zusammen, die wir im Folgenden etwas genauer erläutern möchten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist in der Messtheorie eine Abbildung?

A

Die in der Definition genannte Zuordnung von Zahlen zu den Merkmalsausprägungen von Objekten wird in der Messtheorie als Abbildung bezeichnet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist ein numerisches, was ein empirisches Relativ? Wann ist eine Abbildung homomorph?

A

Eine Menge von Zahlen und deren mathematische Beziehungen wird numerisches Relativ genannt; eine Menge von Objekten und deren beobachtbare Beziehungen empirisches Relativ. In der obigen Definition wird weiterhin betont, dass den Beziehungen zwischen den Zahlen analoge empirische Beziehungen zwischen den Objekten entsprechen müssen. Anders ausgedrückt muss die Struktur der empirischen Relationen bei der Abbildung in ein numerisches Relativ erhalten bleiben. Eine solche strukturerhaltende Abbildung wird homomorph genannt. Formal lässt sich Messen dann als die homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ definieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Beschreibe das Repräsentationsproblem!

A

Wenn Messen die homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ ist, dann stellt sich zuallererst die Grundfrage: Gibt es eine solche homomorphe Abbildung überhaupt? Einfacher ausgedrückt: Ist ein Merkmal überhaupt messbar? Lässt sich ein gegebenes empirisches Relativ durch ein numerisches Relativ repräsentieren? Diese Grundfrage jedes Messvorgangs ist Gegenstand des sogenannten Repräsentationsproblems: Können relevante empirische Relationen zwischen den Merkmalsausprägungen verschiedener Untersuchungsobjekte erfasst und in Messwerten abgebildet werden? Im sogenannten Repräsentationstheorem werden bestimmte Grundannahmen bzw. Axiome formuliert, in denen Eigenschaften des empirischen Relativs angegeben sind, die erfüllt sein müssen, damit eine Repräsentation in einem numerischen System möglich ist. Eine Eigenschaft des empirischen Relativs kann z.B. die Transitivität sein. Dieses Axiom trifft zu, wenn gilt: wenn a > b und b > c, dann auch a > c. Bei physikalischen Messungen ist Transitivität gegeben: Wenn Person A schwerer ist als Person B und Person B schwerer als Person C, dann ist auch A schwerer als C.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Nenne ein Beispiel für Intransitivität!

A

Ein gutes Beispiel für Intransitivität findet sich bei Sedlmeier und Renkewitz:
Nehmen wir aber an, wir wollen die Spielstärke dreier Fußballteams messen. Zu diesem Zweck betrachten wir die Ergebnisse von Spielen zwischen diesen Teams. Das Team A hat das Team B geschlagen. Zudem hat Team B gegen das Team C gewonnen. Nun wäre es aller Erfahrung nach durchaus möglich, dass das Team A dennoch gegen Team C verliert. Augenscheinlich bestünde in diesem Fall also keine „echte“ Ordnungsrelation zwischen den drei Teams hinsichtlich ihrer Spielstärke. Demgemäß kann diese Relation auch nicht ins numerische Relativ abgebildet werden (Sedlmeier & Renkewitz, 2008, S. 58).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist eine Skala?

A

Wenn das Repräsentationsproblem gelöst ist, dann liegen für eine Messung ein empirisches Relativ E, ein numerisches Relativ N und eine Zuordnungsregel bzw. Abbildungsfunktion f vor. E, N und f konstituieren eine Skala. Im einfachsten Fall einer Messung, d.h. homomorphen Abbildung, des Geschlechts auf dem Nominalskalenniveau (siehe den folgenden Abschnitt 5.2), werden dem empirischen Relativ männlich, weiblich z.B. die beiden Zahlen 1 und 2 zugeordnet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist das Eindeutigkeitsproblem beim Messen?

A

Welche Transformationen der Messwerte zulässig sind, ohne dass die abzubildenden Relationen verändert werden, ist Gegenstand des Eindeutigkeitsproblems. Eine Messung ist umso eindeutiger, je weniger Transformationen möglich sind. Bei der angegebenen Längenmessung ist offensichtlich die Multiplikation mit einer positiven ganzen Zahl zulässig, weil dadurch die Relation „der Vater ist doppelt so groß wie der Sohn“ erhalten bleibt. Würde man dagegen eine beliebige ganze Zahl zu der ursprünglichen Längenmessung addieren, so würde diese Relation nicht mehr gelten. Die möglichen Transformationen der Messwerte konstituieren das sogenannte Skalenniveau der Messung (vgl. 5.2).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist das Bedeutsamkeitsproblem beim Messen?

A

Beim Bedeutsamkeitsproblem schließlich geht es um die Frage, welche mathematischen Operationen zu empirisch sinnvollen Aussagen führen. Das Bedeutsamkeitsproblem stellt sich erst im Anschluss an eine Messung und betrifft den „rechten Umgang“ mit den Messwerten (Gigerenzer, 1981, S. 54). So macht es z.B. keinen Sinn, auf Nominalskalenniveau kodierte Werte für die Geschlechtszugehörigkeit (z.B. weiblich = 1; männlich = 2) zu mitteln. Ein Mittelwert für Geschlecht ist keine empirisch sinnvolle Aussage. Mit dem Bedeutsamkeitsproblem verbunden ist die Frage, welche statistischen Verfahren bei der weiteren Analyse der Daten sinnvoll angewendet werden können. Auch diese Frage betrifft das Skalenniveau der Messwerte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist das Skalenniveau - und wieviele Skalenniveaus kann man unterscheiden?

A

Das Skalenniveau gibt an, welche Transformationen der Messwerte zulässig sind und welche weiterführenden statistischen Analysen durchgeführt werden können. Anders gedreht: Die Menge der zulässigen Transformationen einer Messung einerseits und die dazu „inverse“ Menge der zulässigen statistischen Operationen, die zu bedeutsamen Ergebnissen führen, andererseits, konstituieren das Skalenniveau einer Messung.
In der Psychologie werden fünf Skalenniveaus unterschieden: (1) Nominalskala, (2) Rangskala, (3) Intervallskala, (4) Verhältnisskala und (5) Absolutskala. Von (1) nach (5) nimmt die Anzahl der zulässigen Transformationen ab und die Anzahl der möglichen mathematischen Operationen (statistischen Analysemöglichkeiten) zu.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Erkläre die Nominalskala!

A

Niveau: Nominalskala
Beobachtbare Relationen / bedeutsame Aussagen: Äquivalenzrelation: Gleichheit/Ungleichheit
Beispiele: Kategorien: Geschlecht, Studienfächer
Zulässige Transformationen: Ein-eindeutige
Mögliche statistische Operationen (Beispiele): Modus
Eine Nominalskala ordnet empirischen Objekten Zahlen gemäß der Äquivalenzrelation zu. Dabei wird lediglich die Gleichheit bzw. Ungleichheit von Objekten abgebildet. Um die Gleichheit oder Ungleichheit von Objekten abzubilden, braucht man nicht unbedingt Zahlen; es können auch andere unterscheidbare Symbole verwendet werden. Beispiele für nominalskalierbare Merkmale sind das Geschlecht oder Studienfächer sowie weitere kategorial vorliegende Entitäten, z.B. Nationalitäten, Parteien, Fernsehsender, klinisch-psychologische Störungsbilder etc. Da es nur darauf ankommt, die (Un)Gleichheit von Merkmalsausprägungen abzubilden, ist eine Nominalskala fast beliebig transformierbar; es sind sogenannte ein-eindeutige Transformationen möglich. Anstelle der oben vorgenommenen Zuordnung der Geschlechter mit 1 = männlich und 2 = weiblich, können auch beliebige andere Zahlen verwendet werden, solange sie sich unterscheiden, z.B. männlich = 3456 und weiblich = 7. Letzteres ist möglich, da es – wie betont – nur auf die Verschiedenheit der Zahlen ankommt; alle weiteren Assoziationen, die wir gewöhnlich mit den Zahlen 1 und 2 bzw. 3456 und 7 verbinden, z.B. 1 ist kleiner als 2, 2 ist doppelt so viel wie 1 bzw. 3456 ist viel größer als 7 führen auf Nominalskalenniveau zu sinnlosen Aussagen, weil männlich nicht kleiner oder halb so viel wie weiblich ist. Wie oben bereits erwähnt, macht es ebenso wenig Sinn, nominalskalierte Daten für Geschlechtszugehörigkeit zu mitteln, weil es kein mittleres Geschlecht gibt. Welche statistischen Operationen führen dann bei nominalskalierten Merkmalen überhaupt zu sinnvollen bzw. bedeutsamen Aussagen? Möglich und sinnvoll ist ein Abzählen der Häufigkeiten mit der bestimmte nominalskalisierte Merkmalsausprägungen in einer Stichprobe oder Grundgesamtheit vorkommen. So kann es bedeutsam sein festzustellen, wie viele Männer und wie viele Frauen ein bestimmtes Fach studieren, welches Studienfach an einer Universität am häufigsten belegt wird oder welche Partei in welcher Region die meisten Mitglieder hat. Eine damit zusammenhängende sinnvolle Statistik ist der Modus, das ist diejenige Merkmalsausprägung mit der größten Häufigkeit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Erkläre die Ordinalskala!

A

Niveau: Ordinalskala
Beobachtbare Relationen / bedeutsame Aussagen: Ordnungsrelation: größer/kleiner (besser/schlechter)
Beispiele: Rangreihen: Schulnoten, akademische Abschlüsse
Zulässige Transformationen: streng monoton steigende
Mögliche statistische Operationen (Beispiele): Median

Eine Ordinalskala ordnet empirischen Objekten Zahlen gemäß der Ordnungsrelation zu. Dabei wird mit Hilfe von Zahlen neben der Gleichheit bzw. Ungleichheit zusätzlich eine Rangreihe der Objekte abgebildet. Damit verbunden sind Aussagen wie größer/kleiner als oder besser/schlechter als etc. Beispiele für ordinalskalierte Merkmale sind Schulnoten oder akademische Abschlüsse. Die Note 1 ist besser als die Noten 2, 3, 4, 5 und 6; die Note 2 ist besser als 3, 4, 5 und 6 usw. Ein M.Sc. in Psychologie ist ein höherer Abschluss als ein B.Sc. in Psychologie und ein Doktorgrad in Psychologie ist höher als die beiden zuerst genannten Abschlüsse. Damit die Ordnungsrelation erhalten bleibt, müssen bei einer homomorphen Abbildung der akademischen Grade in das numerische Relativ die Zahlen die empirische Rangreihe abbilden. Bei den Schulnoten wird diese Abbildung durch die Verwendung der natürlichen Zahlen von 1 bis 6 erreicht. Bei den genannten Abschlüssen könnte man analog dazu die Zahlen 1, 2 und 3 verwenden. Die Ordnungsrelation bzw. die Rangreihe der empirischen Merkmalsausprägungen bleibt auch dann erhalten, wenn wir streng monoton steigende Transformationen der Messwerte vornehmen. Man könnte die akademischen Abschlüsse auch den Zahlen B.Sc = 1, M.Sc. = 17 und Dr. = 329 zuordnen, entscheidend ist, dass die empirische Rangreihe erhalten bleibt, was bei den Zahlen 1, 17 und 329 der Fall ist. Überdeutlich ist dabei natürlich, dass sich die Abstände bzw. Differenzen zwischen den Zahlen erheblich unterscheiden. Auf Ordinalskalenniveau führen diese Unterschiede aber nicht zu bedeutsamen Aussagen. Die Aussage, der Unterschied zwischen dem B.Sc. und dem M.Sc. wäre genauso groß wie der Unterschied zwischen dem M.Sc. und dem Doktorgrad (wie es eine Skalierung von 1 nach 3 nahelegt) ist empirisch nicht haltbar und auch nicht bedeutsam. Gleiche Differenzen zwischen den Messwerten sind erst auf Intervallskalenniveau bedeutsam. Diesbezüglich gibt es unterschiedliche Auffassungen bzgl. des Skalenniveaus der Schulnoten, denen z.T. Ordinalund z.T. Intervallskalenniveau zugeschrieben wird. Da Lehrerinnen und Lehrer die Endnote im Zeugnis durch Mittelung und u.U. Gewichtung mehrerer Noten eines Schülers ermitteln, unterstellen sie damit implizit Intervallskalenniveau, weil der Mittelwert erst auf diesem Niveau als statistische Operation möglich und sinnvoll ist. Dann müssten Lehrerinnen und Lehrer allerdings auch empirisch die Äquidistanz zwischen ihren Noten nachweisen können, d.h. der Abstand zwischen einer 1 und 2 müsste genauso groß sein wie zwischen einer 2 und einer 3, einer 3 und 4, 4 und 5 bzw. 5 und 6. Wenn dem nicht so wäre, wenn wir also von einem ordinalskalierten Merkmal ausgehen, dann wäre es statistisch lediglich sinnvoll, außer dem Modus, den sogenannten Median zu bestimmen, das ist derjenige Wert innerhalb einer Rangreihe, der diese Rangreihe in 2 gleich große Hälften teilt. Bei einer ungeraden Anzahl von Messwerten ist der Median eindeutig, bei einer geraden Anzahl werden die beiden mittleren Zahlen gemittelt. Nehmen wir an, ein Schüler würde extrem heterogene Leistungen aufweisen und im Laufe eines Halbjahres die Noten 1, 2, 3, 4, 5 erzielen. Der Median dieser Verteilung ist 3 und ebenso der Mittelwert. Bei einer Notenverteilung von 2, 2, 3, 6, 6 wäre der Median dagegen ebenfalls 3, der Mittelwert dagegen 3,8. Zur Prüfung von Zusammenhangsund Unterschiedshypothesen bei ordinalskalierten Merkmalen liegen eigene statistische Verfahren vor (vgl. Bortz & Schuster, 2010).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Erkläre die Intervallskala!

A

Niveau: Intervallskala
Beobachtbare Relationen / bedeutsame Aussagen: Äquidistanz: Gleichheit von Differenzen
Beispiele: IQ-Skala Ratingskalen
Zulässige Transformationen: Positiv lineare y=a·x+b
Mögliche statistische Operationen (Beispiele): Mittelwert

Eine Intervallskala ordnet empirischen Objekten Zahlen so zu, dass Äquidistanz zwischen den Zahlen vorliegt; die Abstände bzw. Differenzen zwischen den Zahlen sind also gleich groß. Zudem werden mit Hilfe von Zahlen die (Un)Gleichheit und eine Rangreihe der Objekte abgebildet. In der Psychologie gelten die IQSkala und auch alle Rating-Skalen (z.B. 1 = trifft gar nicht zu, 2 = trifft etwas zu, 3 = trifft weitgehend zu, 4 = trifft vollständig zu) als intervallskaliert. Wenn also zwei Probanden A und B IQs von 90 und 95 aufweisen und zwei weitere Probanden C und D IQs 100 und 110, dann ist die Aussage, der IQ-Unterschied zwischen C und D ist doppelt so groß wie zwischen A und B möglich und sinnvoll. Aussagen über IQ-Verhältnisse, z.B. der IQ von E (140) ist doppelt so groß wie der IQ von F (70), sind allerdings nicht möglich, da auf Intervallskalen-Niveau kein Nullpunkt definiert ist. Intervallskalierte Daten können linear transformiert werden. Zudem sind die Berechnung von Mittelwerten und alle sogenannten parametrischen Verfahren auf Intervallskalen-Niveau möglich.
Sedlmeier und Renkewitz (2008; S. 63f) haben zu Recht darauf hingewiesen, dass die Annahme, Rating-Skalen seien intervallskaliert, umstritten ist. Gerade das Beispiel in Klammern legt nahe, dass die verbale Verankerung zwischen 2 = trifft etwas zu und 3 = trifft weitgehend zu einen größeren Abstand zu implizieren scheint als 1 = trifft gar nicht zu und 2 = trifft etwas zu. Aber selbst wenn zwischen den verbalen Ankern ähnliche semantische Abstände realisiert sein sollten, bleibt die Annahme, Probanden würden beim Ausfüllen eines Fragebogens, gleiche Abstände zwischen den Zahlen einer Rating-Skala umsetzen, äußerst fraglich. Dennoch werden in der Psychologie Daten, die auf Rating-Skalen basieren, mit statistischen Verfahren verrechnet, die Intervallskalen-Niveau voraussetzen. Ein Grund dafür ist, dass sich die Ergebnisse der Verfahren für Ordinalskalen-Niveau zumeist nicht wesentlich von den Ergebnissen der Verfahren für Intervallskalenniveau unterscheiden. Ein weiterer Grund ist, dass für Intervalldaten mehr statistische Verfahren zur Verfügung stehen, die auch weitergehende Prüfungen ermöglichen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Erkläre die Verhältnisskala!

A

Niveau: Verhältnisskala
Beobachtbare Relationen / bedeutsame Aussagen: Verhältnisrelation: doppelt, dreimal… so schnell wie…(natürlicher Nullpunkt)
Beispiele: Zeitmaße, Einkommen
Zulässige Transformationen: Ähnlichkeitstransformationen y=a·x
Mögliche statistische Operationen (Beispiele): Geometrisches Mittel

Neben (Un)Gleichheit, Rangordnung und Gleichheit von Differenzen sind Variablen auf Verhältnisskalen-Niveau durch einen sinnvollen Nullpunkt gekennzeichnet. Beispiele für verhältnisskalierte Variablen sind Zeitmaße und das Einkommen, aber auch andere physikalische Merkmale, wie z.B. das Gewicht und Längenmaße. In psychologischen Studien werden mitunter Reaktionszeiten gemessen, die Probanden benötigen, um auf einen Reiz zu reagieren. Wenn ein Proband A 50 ms und ein anderer Proband B 100 ms braucht, um nach Darbietung eines Reizes eine Taste zu drücken (Reaktion), dann ist die Aussage „B braucht doppelt so lang wie A“ möglich und sinnvoll. Auf Verhältnisskalen-Niveau sind also – wie der Name schon sagt – Aussagen über Verhältnisse (n-mal so groß/klein; schnell/langsam etc.) von Merkmalsausprägungen möglich. Verhältnisskalierte Daten können ähnlichkeitsstransformiert werden und es sind alle statistischen Verfahren anwendbar, die bereits auf Intervallskalen-Niveau möglich sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Erkläre die Absolutskala!

A

Niveau: Absolutskala
Beobachtbare Relationen / bedeutsame Aussagen: Natürliche Maßeinheit
Beispiele: Häufigkeiten
Zulässige Transformationen: keine
Mögliche statistische Operationen (Beispiele): alle

Zusätzlich zu allen anderen Kennzeichen (Gleichheit/Ungleichheit, Rangordnung …) weist eine Absolutskala eine natürliche Maßeinheit auf. Die Zeit, die Länge oder das Gewicht können in verschiedenen Maßeinheiten angegeben werden, die Zeit z.B. in Millisekunden, Sekunden, Minuten, Stunden, Tagen, Wochen… Die Maßeinheit der Zeit ist also nicht festgelegt und kann durch Multiplikation mit einer Zahl (Ähnlichkeitstransformation) in eine andere Maßeinheit umgerechnet werden (z.B. min = 60 x sec.). Bei absolutskalierten Variablen dürfen keine Transformationen vorgenommen werden. Eine Absolutskala liegt vor, wenn Häufigkeiten erfasst werden, was in psychologischen Studien z.B. der Fall ist, wenn die Anzahl von Personalpronomen (als Indikatoren für Narzissmus) gezählt werden, die eine Person in einer Selbstbeschreibung verwendet. Aber auch bei vielen anderen Erlebensund Verhaltensweisen sind die Häufigkeiten von Interesse, z.B. wenn es um bestimmte nonund paraverbale Ausdruckssignale (Blickkontakt, Verlegenheitsgesten, Lächeln, Versprecher…) geht oder um die Anzahl der Unterbrechungen/Störungen an einem Arbeitsplatz.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Wie hängen Kardinalprobleme, Skalenniveaus und die Qualität von Messungen zusammen? In welcher Theorie wurden Gütekriterien für die Qualität von Messungen entwickelt?

A

Während im Rahmen der Kardinalprobleme und Skalenniveaus festgelegt wird, ob überhaupt und mit welchem Informationsgehalt gemessen werden kann, erlauben die drei Kriterien der Objektivität, Reliabilität und Validität eine Beurteilung der Qualität bzw. Güte der Messungen psychologischer Konstrukte. Diese drei Gütekriterien wurden im Rahmen der sogenannten Klassischen Testtheorie entwickelt (vgl. Liennert & Raatz, 1998).

18
Q

Definiere “Test”!

A

Der Begriff Test wird in der Psychologie mehrdeutig verwendet. Einigkeit besteht lediglich darin, dass es sich bei einem Test um ein Verfahren zur Gewinnung diagnostisch relevanter Daten handelt. In einem engen Sinn ist ein Test ein Verfahren, mit dem Daten unabhängig von den subjektiven Urteilen und Einschätzungen der Probanden erhoben werden können. Lediglich Fähigkeits- und Leistungstests sowie objektive Tests im Sinne von Cattell (vgl. Cattell & Warburton, 1967), deren Messintention für einen Probanden nicht per Augenschein erschließbar ist, die also “undurchschaubar” sind, genügen diesem Kriterium. Dagegen lässt sich aus einer Definition von Lienert und Raatz (1998, S. 1) eine breitere Verwendung des Begriffs „psychologischer Test“ ableiten. Demnach handelt es sich bei einem psychologischen Test um “ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.”
Tests dienen also der Erfassung von Persönlichkeitsmerkmalen, die in den meisten Fällen mit Hilfe von Fragebögen zur subjektiven Selbsteinschätzung erfolgt (vgl. Kapitel 6).

19
Q

Warum ist ein Test ein wissenschaftliches Routineverfahren?

A

Ein wissenschaftliches Routineverfahren ist ein Test deshalb, weil es bestimmten Testgütekriterien genügt und weil die Durchführung, Auswertung und zum Teil auch die Interpretation der erhobenen Daten standardisiert erfolgt und routinemäßig wiederholt werden kann. Ein Test liefert eine quantitative Aussage über ein interessierendes Merkmal, da die Antworten eines Probanden mit Zahlen verknüpft und zu einem Gesamtwert (Score) zusammengefasst werden. Der relative Grad der individuellen Merkmalsausprägung kann aus diesem Gesamtwert ermittelt werden, indem er zu einer Vergleichsgruppe (sogenannte Normbzw. Eichstichprobe) von Probanden, die möglichst ähnliche soziodemografische Merkmale aufweisen (mindestens Geschlecht und Alter) oder einem Kriterium (z.B. eine bestimmte Anzahl gelöster Aufgaben) in Beziehung gesetzt wird.

20
Q

Beschreibe die Objektivität als Gütekriterium eines Tests!

A

Objektivität als Gütekriterium meint die Unabhängigkeit der Ergebnisse einer Messung bzw. eines Tests von der Person, die den Test anwendet. Die Testanwendung lässt sich in drei Phasen gliedern: Durchführung, Auswertung und Interpretation. Dementsprechend werden Durchführungs-, Auswertungs-, und Interpretationsobjektivität unterschieden.

21
Q

Warum sind diese drei Objektivitätsarten wichtig und ein Indikator für die Qualität einer Messung bzw. eines damit verbundenen Tests?

A

Nehmen wir einmal an, Sie sollen eine Prognose über die Erfolgswahrscheinlichkeit eines Schülers im Hinblick auf den anstehenden Besuch eines Gymnasiums abgeben. Nehmen wir weiterhin an, dass Sie davon ausgehen, dass dabei die Intelligenz ein wichtiger Prädiktor ist. Sie führen einen Intelligenztest durch, werten ihn aus und interpretieren das Ergebnis. Es wäre nun außerordentlich ungünstig, wenn andere Psychologinnen und Psychologen, die denselben Test bei derselben Person durchführen, zu völlig anderen Ergebnissen kommen würden (die Stabilität von Intelligenz als Persönlichkeitsmerkmal einmal vorausgesetzt). Wie soll dann entschieden werden, wessen Befund der richtige ist? Soll man dann dem Psychologen mit der längsten „Erfahrung“ oder der größten „Autorität“ glauben? Aber warum sollte gerade dessen Befund der richtige sein. Um derartige Probleme von vorneherein vermeiden zu können, ist die Durchführungs, Auswertungs-, und Interpretationsobjektivität einer Messung wichtig. Damit diese drei „Objektivitäten“ gesichert werden können, ist die Durchführung, Auswertung und auch eine basale Interpretation (durchschnittlich, unteroder überdurchschnittlich intelligent, vgl. Modul 6) hoch standardisiert und in einem sogenannten Testmanual so genau beschrieben, dass ein ausgebildeter Psychologe bzw. eine ausgebildete Psychologin genau nachvollziehen können, was zu tun ist. Vor diesem Hintergrund ist dann Objektivität im Sinne intersubjektiver Übereinstimmung bei der Durchführung, Auswertung und basalen Interpretation einer Messung mit Hilfe eines Tests möglich.

22
Q

Beschreibe die Reliabilität als Gütekriterium eines Tests!

A

Die Reliabilität eines Tests kennzeichnet die Messgenauigkeit, unabhängig davon was inhaltlich gemessen wird, also unabhängig von der Frage, ob mit einem Test tatsächlich das gemessen wird, was gemessen werden soll (z.B. Intelligenz). In der Einführung zu diesem Unterabschnitt wurde angedeutet, dass ein Test mehrere Aufgaben bzw. Items (Feststellungen, denen der Proband auf einer mehrstufigen Antwortskala zustimmen soll) umfasst, die dann zu einem Gesamtscore aggregiert werden, etwa durch Summierung oder Mittelung der Einzelmessungen. Die Erfassung eines latenten Konstrukts wie z.B. Intelligenz mit Hilfe von mehreren Aufgaben zielt auf eine Erhöhung der Messgenauigkeit ab (vgl. hierzu Rushton, Brainerd & Pressley, 1983). Wenn etwa die mathematische Intelligenz eines Probanden erfasst werden soll, dann wird dies genauer möglich sein, wenn unser Proband nicht nur eine einzige Mathematikaufgabe löst, sondern mehrere. Bei der Lösung einer einzigen Aufgabe können viele Zufallsund Störquellen (vorübergehender Lärm, Konzentrationsschwächen etc.) das Ergebnis beeinträchtigen. Gemäß der klassischen Testtheorie mitteln sich solche Fehler aus, wenn mehrere Messungen desselben Konstrukts durchgeführt werden (formal: die Summe aller Fehlereinflüsse ist Null). Insofern geht eine hohe Messgenauigkeit immer auch mit einem niedrigen Ausmaß an Messfehlern einher.
Die Reliabilität eines Tests (mehrerer Einzel-Messungen desselben Konstrukts) lässt sich vor dem Hintergrund verschiedener Modelle schätzen und mit Hilfe eines Koeffizienten quantifizieren, der in der Regel zwischen 0 und + 1 schwanken kann (in bestimmten Fällen können allerdings auch negative Werte resultieren). Gute Intelligenztests erreichen Reliabilitäten > .90, gute Persönlichkeitstests Reliabilitäten > .80.

23
Q

Beschreibe die Split-Half-Methode!

A

Bei der Reliabilitätsschätzung gemäß der Split-Half- oder Halbierungsmethode wird ein Test in zwei gleich große Hälften aufgeteilt und die Korrelation dieser Hälften als Reliabilitätsmaß interpretiert. Mit der Testhalbierungsmethode wird aber eigentlich nur die Reliabilität eines Tests halber Länge geschätzt. Günstiger ist deshalb die Paralleltestmethode, bei der zwei identische Tests mit derselben Anzahl von Items vorliegen und wiederum die Korrelation der beiden parallelen Tests als Reliabilitätsmaß bestimmt wird. Allerdings ist es schwierig und aufwändig exakt parallele Tests zu konstruieren.

24
Q

Beschreibe den Cronbach-Alpha-Koeffizienten!

A

Als Verallgemeinerung der Testhalbierungs- und Paralleltestreliabilität kommt der internen Konsistenz und insbesondere dem Cronbach-Alpha-Koeffizienten besondere Bedeutung zu. Cronbachs Alpha basiert auf der Idee, dass bei einem Test, mit dem ein eindimensionales Merkmal erfasst werden soll, jedes Item als eigener Testteil interpretiert werden kann. Cronbachs Alpha liefert dann die mittlere Konsistenz über alle möglichen Testaufteilungen (Items).

25
Q

Was ist die Retest-Reliabilität?

A

Die Retest-Reliabilität schließlich, ist eine Retest-Korrelation, die auf der wiederholten Vorgabe einund desselben Tests bei denselben Probanden basiert. Die Retest-Reliabilität ist insbesondere in der Persönlichkeitspsychologie relevant, weil damit die differentielle zeitliche Stabilität von Persönlichkeitsmerkmalen empirisch gestützt werden kann. Die zeitliche Stabilität gehört neben der schwieriger nachzuweisenden transsituativen Konsistenz zu den entscheidenden Prüfsteinen, die ein Merkmal als Persönlichkeitsmerkmal qualifizieren. Das Konzept der differentiellen zeitlichen Stabilität basiert auf der Annahme, dass sich die Rangreihe der Personen im Hinblick auf die Ausprägungen eines Merkmals über die Zeit nicht oder nicht entscheidend verändert. Wenn zum Messzeitpunkt t1 Person A z.B. einen höheren Extraversionswert aufweist als die Personen B, C und D; B wiederum einen höheren Wert als C und D sowie C einen höheren Wert als D, dann wäre die Retest-Korrelation +1, wenn diese Rangreihe bei einer zweiten Messung t2 exakt erhalten bleibt. Wichtig ist, sich klarzumachen, dass sich dabei die absoluten Extraversionswerte jeder einzelnen Person verändern können, was an der perfekten Korrelation von rtt = +1 nichts ändert, so lange die Rangreihe der Probanden erhalten bleibt. So könnte es sein, dass zum Messzeitpunkt t2 jede Person einen höheren absoluten Extraversionsmesswert aufweist als zu t1, was aber die Rangreihe der Personen im Hinblick auf Extraversion nicht unbedingt verändert.

26
Q

Was ist die Validität eines Tests?

A

Die Validität eines Tests betrifft das Ausmaß, in dem ein Test das misst, was er messen soll. So kann man z.B. die Frage stellen, ob mit einem Intelligenztest überhaupt Intelligenz gemessen wird (zu einer Kontroverse hierzu vgl. Dörner & Kreuzig, 1983). Die Frage nach der Validität mag auf den ersten Blick etwas merkwürdig erscheinen, sie ist aber komplexer und schwieriger zu beantworten, als im Falle der Objektivität und Reliabilität. So gibt es für das Ausmaß der Validität kein einzelnes quantitatives Maß wie für die Reliabilität. Hartig, Frey und Jude (2008) haben Messick (1989) und Kane (2001) folgend darauf hingewiesen, dass es angemessener ist, von der Validität verschiedener Interpretationen der Ergebnisse eines Tests zu sprechen. Sie unterscheiden Interpretationen, die sich auf die Bewertung, Verallgemeinerung, Extrapolation, (kausale) Erklärung von Testergebnissen sowie auf Entscheidungen auf der Basis von Testergebnissen beziehen. Die Bewertung eines Testergebnisses erfolgt durch den Vergleich eines individuellen Testwerts mit einer Vergleichsgruppe und resultiert in Interpretationen wie „durchschnittlich, überdurchschnittlich oder unterdurchschnittlich intelligent, ängstlich, extravertiert etc.“. Interpretieren im Sinne von Verallgemeinern und Extrapolieren meint eine Übertragung des Testergebnisses auf ähnliche Testaufgaben bzw. konstruktnahe Leistungen in Bereichen außerhalb der Testsituation. So würde man mit einer gewissen Wahrscheinlichkeit erwarten, dass ein Proband mit einer überdurchschnittlich ausgeprägten Intelligenz auch in einem anderen Intelligenztest bzw. relevanten Bereichen außerhalb der Testsituation (z.B. Schule und Studium) überdurchschnittliche Leistungen erzielt. Kausale Erklärungen von Testergebnissen können sich auf explikative Konstrukte innerhalb von Intelligenztheorien beziehen, z.B. die Geschwindigkeit der Informationsverarbeitung oder genetische Faktoren als Bedingungen für hohe Intelligenz. Entscheidungen auf der Basis von Testergebnissen schließlich sind Interpretationen, die beispielweise die Eignung einer Person für einen bestimmten Studien- oder Arbeitsplatz implizieren. Die Validität dieser unterschiedlichen Interpretationen von Testergebnissen bedarf der theoretischen und empirischen Überprüfung innerhalb eines Validierungsprozesses, in den verschiedene Studien und Methoden eingehen können und sollten.

27
Q

In einem klassischen und auch im Internet verfügbaren Artikel (Cronbach & Meehl, 1955) werden die folgenden vier Validitätstypen unterschieden:

A

Inhaltsvalidität
Kriteriumsvalidität
Konstruktvalidität
Konkurrente, prädiktive oder prognostische Validität
(wobei sich die prädiktive und die konkurrente Validität im Folgenden unter dem Begriff Kriteriumsvalidität subsummieren lassen)

28
Q

Was ist die Inhaltsvalidität?

A

Die Inhaltsvalidität ist das Ausmaß, in dem die Aufgaben bzw. Items eines Tests das interessierende Konstrukt inhaltlich repräsentieren. Damit einher geht die Annahme eines Aufgabenbzw. Itemuniversums, das ein latentes Konstrukt inhaltlich indiziert. Inhaltsvalidität ist dann gegeben, wenn eine ausgewählte Stichprobe der Aufgaben bzw. Items dieses Universum hinreichend repräsentiert. Die Inhaltsvalidität wird durch die Urteile von Experten abgeschätzt. Experten sind Wissenschaftler, die in dem Bereich, zu dem ein neuer Test konstruiert werden soll, ausgewiesen sind. Mehreren solchen Experten wird ein Itempool vorgelegt. Die Experten sollen nun darüber urteilen, ob ein Item für das Konstrukt inhaltlich repräsentativ ist. Diese Urteile können auch quantitativ erfolgen, was den Vorteil hat, dass die Beurteilerübereinstimmung der Experten mithilfe einer Maßzahl abgeschätzt werden kann. Oft werden die Expertenurteile aber innerhalb eines argumentativen Diskurses abgegeben. Die Inhaltsvalidität darf nicht mit der sogenannten Augenscheinvalidität verwechselt werden (vgl. Moosbrugger & Kelava, 2008), die angibt, inwieweit das mit einem Test zu erfassende Merkmal auch für Laien evident ist. Die Augenscheinvalidität ist für die Akzeptanz eines Tests wichtig. Wenn z.B. angekündigt wird, dass ein Intelligenztest durchgeführt wird, dann sollte für die Probanden auch einsichtig sein, dass die damit verbundenen Aufgaben auch etwas mit Intelligenz zu tun haben.

29
Q

Was ist die Kriteriumsvalidität?

A

Kriteriumsvalidität kennzeichnet den Zusammenhang zwischen dem Testergebnis und einem Kriterium außerhalb der Testsituation. Statistisch wird dieser Zusammenhang korrelativ bzw. regressionsanalytisch ermittelt. Wenn das Kriterium zeitgleich mit der Testung vorliegt, wird von konkurrenter Validität bzw. Übereinstimmungsvalidität gesprochen. In diesem Fall kann das bereits vorliegende Außenkriterium fast gleichzeitig mit dem Testwert gemessen werden, also entweder (unmittelbar) vor oder (unmittelbar) nach der Durchführung des Tests. Cronbach und Meehl (1955) sprechen von konkurrenter Validität, wenn ein (neuer) Test einen anderen, bereits vorliegenden Test, der dasselbe Merkmal erfasst, ersetzen soll oder wenn ein Test mit einem vorliegenden Kriterium, z.B. einer klinisch-psychologischen Diagnose, korreliert. So kann es z.B. sinnvoll sein, die Übereinstimmungsvalidität einer Multiple-Choice-Klausur mit einer konventionellen Klausur oder mündlichen Prüfung zu ermitteln. Wenn ein neuer Intelligenztest entwickelt wird, dann sollten die damit gemessenen Testwerte mit den entsprechenden Werten vorliegender Intelligenztests hoch korrelieren.
Prädiktive oder prognostische Validität meint dagegen den Zusammenhang zwischen dem Testergebnis und einem Außenkriterium, das in der Zukunft liegt und ergo durch die Testung vorhergesagt wird, wie z.B. Studien- oder Berufserfolg. Die Kriteriumsvalidität kann am besten dann gestützt werden, wenn ein einigermaßen zweifelsfrei gültiges Außenkriterium (z.B. aggressives Verhalten) vorliegt, was aber zumeist nicht der Fall ist bzw. sein kann (z.B. bei Selbstkonzepten, die das bereichsspezifische Wissen einer Person über sich selbst kennzeichnen). Aus diesem Grund erfolgt die Validierung eines Tests zumeist im Hinblick auf mehrere Kriterien.
Die Kriteriumsvalidität betrifft Interpretationen von Testergebnissen im Sinne der oben erläuterten Extrapolation und Entscheidung.

30
Q

Was ist die Konstruktvalidität?

A

Während die Inhaltsvalidität lediglich aufgrund von theoretischen Argumenten und Expertenurteilen angibt, ob die Aufgaben bzw. Items das latente Merkmal inhaltlich hinreichend repräsentieren, geht es bei der Konstruktvalidität im Kern um die umfassende empirische Überprüfung und Weiterentwicklung der theoretischen Annahmen, die mit dem gemessenen Konstrukt verbunden sind. Die Konstruktvalidität als umfassendes Konzept, das alle anderen Validitätsarten einschließt, wurde in einem klassischen Artikel von Cronbach und Meehl (1955) hervorgehoben. Dabei ist das Konzept des nomologischen Netzwerks zentral, das ein zusammenhängendes System von Gesetzmäßigkeiten kennzeichnet. Die (deterministischen oder probabilistischen) Gesetzmäßigkeiten in einem nomologischen Netzwerk können Beziehungen (a) beobachtbarer Variablen zu anderen beobachtbaren Variablen, (b) theoretischer Konstrukte zu beobachtbaren Variablen oder (c) theoretischer Konstrukte untereinander betreffen. Rufen wir uns nun noch einmal in Erinnerung, worum es bei der Validität geht: Misst ein Test das, was er messen soll? Was ein Test messen soll, ist ein bestimmtes hypothetisches Konstrukt. Um feststellen zu können, was es mit einem bestimmten Konstrukt auf sich hat, was es „ist“ bzw. bedeutet, müssen nach Cronbach und Meehl (1955, p. 146ff) die Gesetzmäßigkeiten angegeben werden, die das Konstrukt betreffen. Anders ausgedrückt muss ein Konstrukt, um als wissenschaftlich akzeptabel gelten zu können, in einem nomologischen Netzwerk vorkommen, in dem zumindest einige Gesetzmäßigkeiten beobachtbare Variablen beinhalten. Die Konstruktvalidität kennzeichnet nun die Zusammenhänge des Testscores innerhalb dieses nomologischen Netzes. Die Konstruktvalidität ist niemals abgeschlossen, sondern als fortlaufender Validierungsprozess zu verstehen, in dem mit verschiedenen experimentellen, korrelativen u.a. Methoden Hypothesen geprüft werden. Können deutliche positive Beziehungen zu Tests, die dasselbe oder ein sehr ähnliches Merkmal messen, nachgewiesen werden, wird von konvergenter Validität gesprochen. Die konvergente Validität ist mit der Übereinstimmungsvalidität gleichbedeutend, wenn es tatsächlich um Beziehungen zu Tests geht, die dasselbe Merkmal erfassen. Divergente oder diskriminante Validität bezeichnet dagegen die Unabhängigkeit (Nullkorrelation oder sehr niedrige Korrelation) der Testwerte von Testwerten von Konstrukten, die sich von dem zu messenden Konstrukt theoretisch unterscheiden.

31
Q

Was wird in vielen Publikationen als die drei psychometrischen Hauptgütekriterien bezeichnet?

A

Objektivität, Reliabilität und Validität (z.B. bei Lienert & Raatz, 1998). Die Validität ist ohne Zweifel das wichtigste Kriterium, denn wenn ein Test nicht das misst, was er messen soll, dann ist es auch sinnlos, wenn er das objektiv und reliabel tut.

32
Q

Nenne Nebengütekriterien von Tests!

A

Außer den sogenannten Hauptgütekriterien werden eine Reihe von Nebengütekriterien genannt, bei denen es zumeist darum geht, die Qualität der Anwendung bzw. Anwendbarkeit eines Tests zu bewerten. Besonders wichtig ist das Kriterium der Normierung oder Eichung eines Tests. Ein Test ist normiert, wenn ein Bezugssystem vorliegt, vor dessen Hintergrund die Testwerte einer einzelnen Person eingeordnet und interpretiert werden können. Bei dem Bezugssystem handelt es sich um die Werte einer Vergleichsstichprobe von Personen, die mit der getesteten Person im Hinblick auf relevante Kriterien (mindestens Geschlecht und Alter) vergleichbar sind. In der psychometrischen Einzelfalldiagnostik erfolgt die Interpretation eines individuellen Testwerts dann durch den Vergleich mit den Normwerten und resultiert in einer basalen Interpretation (durchschnittliche, überoder unterdurchschnittlich Merkmalsausprägung im Vergleich zur Normstichprobe). Weitere Gütekriterien zur Beurteilung der Anwendungsqualität eines Tests betreffen z.B. die Testfairness, die gegeben ist, wenn bei einer Testung eine Benachteiligung bestimmter ethnischer, soziokultureller oder geschlechtsspezifischer Gruppen ausgeschlossen ist. Weiterhin zu nennen ist die Testökonomie, die Relation der zeitlichen und finanziellen Kosten einer Testdurchführung im Vergleich zum Nutzen der Erkenntnisse, die aus einem Testergebnis abgeleitet werden können. Eine Darstellung weiterer anwendungsbezogener Gütekriterien eines Tests liefern Kubinger (2003) sowie Moosbrugger und Kelava (2008).

33
Q

Nenne die 5 wichtigsten Punkte zur Evalutationsforschung!

A

Hier soll nur verdeutlicht werden,

1) • dass der Bereich der Evaluation ein wichtiger beruflicher Handlungsbereich für Psychologinnen und Psychologen ist (wie auch für entsprechend empirisch ausgebildeten Sozialwissenschaftler/innen);
2) • dass der Konzeption und Evaluation von Interventionsmaßnahmen eine hohe Verantwortung zukommt für die eingesetzten Mittel und insbesondere für die Schlussfolgerungen, da letztere wiederum Konsequenzen für weitere Entscheidungen über Bildungs-, Förderungs-, Interventionsoder auch Selektionsmaßnahmen haben können, von denen hunderte (im Extremfall gar hunderttausende) Personen betroffen sein können;
3) • dass kausale Schlussfolgerungen zwar oft ein Ziel von Evaluationsstudien sind, um daraus Schlussfolgerungen für weiteres Handeln abzuleiten, dass aber die Rahmenbedingungen der meisten Evaluationsuntersuchungen nicht die für kausale Interpretationen notwendigen experimentellen Designs erlauben, sodass quasi-experimentelle oder „ex-post-facto-Untersuchungen“ durchgeführt werden mit entsprechend begrenzter interner Validität;
4) • dass Prinzipien der Planung und Auswertung von Untersuchungsdesigns, die hier in Kapitel 7 dargestellt werden, dennoch soweit wie es organisatorisch, rechtlich und finanziell realisierbar ist angewendet werden sollten, um die Güte möglicher Aussagen über Effekte der evaluierten Maßnahme(n) zu optimieren;
5) • dass beide Perspektiven, die den hier erläuterten Untersuchungsdesigns zugrunde liegen, bei der Planung und Interpretation von Evaluationen im Auge behalten werden sollten: einerseits die Unterschiede zwischen den verschiedenen Untersuchungsgruppen (insbesondere zwischen Versuchsund Kontrollgruppe), andererseits die interindividuellen Unterschiede innerhalb der einzelnen Gruppen, die (a) globalen Aussagen über „die Effekte des Treatments“ Grenzen setzen, und (b) die Signifikanz von Effekten der Treatments beeinträchtigen, aber bei Designs mit wiederholten Messungen aus der Fehlervarianz eliminiert werden können.

34
Q

Beschreibe Auswahl-Dilemma der Evaluationsforschung nach Patry und Hager!

A

“Welche Programme sollen angesichts der limitierten Mittel evaluiert werden?“ Dabei kann es aus der Sicht wissenschaftlicher Beratung andere Kriterien für die Auswahl geben als aus Sicht der Praxis. Aus Sicht derjenigen, die eine bestimmte Interventionsmaßnahme konzipieren, umsetzen und verantworten müssen, ist ein wichtiges Auswahlkriterium, wie „schwerwiegend“ deren Effekte sein können, d.h. welche Breitenwirkung und welche Nachhaltigkeit bzgl. der intendierten sowie bzgl. der unerwünschten Effekte die Maßnahme haben kann:
Sind nur Personen einer lokalen Organisation betroffen oder tausende einer größeren Organisation oder Region?

Sind unerwünschte Effekte zu erwarten? Treten sie kurzoder langfristig auf?
Je schwerer die möglichen Konsequenzen der Anwendung (oder Nichtanwendung) einer Interventionsmaßnahme wiegen, desto eher ist eine wissenschaftliche Evaluation erforderlich und desto höher müssen die Standards für die Evaluation gesetzt werden. (Patry & Hager, 2003, S. 260).

35
Q

Beschreibe das Dilemma der Wissenschaftlichkeit nach Patry und Hager!

A

Da Patry und Hager (2000, S. 263 ff.) – wie auch die Autoren dieses Studientextes – die Auffassung vertreten, dass wissenschaftliches Vorgehen bei der Planung und Evaluation von Interventionsmaßnahmen eine Voraussetzung für deren möglichst objektive Bewertung ist, formulieren sie für die Evaluation von Interventionsversuchen eine Zielsetzung, die dem Realisationsprinzip bei Experimenten vergleichbar ist:
Das Ziel wissenschaftlicher Evaluationsversuche kann auf einer abstrakten Ebene also darin gesehen werden, vor und während eines Versuchs die Wahrscheinlichkeit zu maximieren, dass eine zutreffende Hypothese sich bewähren kann, und dass eine nicht-zutreffende Hypothese sich nicht bewähren kann (S. 264) – also falsifiziert werden kann.

Daraus folgern Patry und Hager (2000), dass jede Evaluation systematisch geplant und dokumentiert werden muss – insbesondere das Treatment sowie die Vielzahl der Bedingungen, unter denen die Evaluation stattgefunden hat (inkl. der institutionellen Vorgaben), die eventuellen zwischenzeitlichen Ereignisse und die Eigenschaften der Durchführenden. Zum letzteren Aspekt geben sie den Hinweis aus der Praxis, dass jede Intervention nur so gut sein kann, wie die mit der Durchführung beauftragten Personen dafür auch qualifiziert (worden) sind (z.B. Lehrer/innen für neue Unterrichtsstile oder für die Nutzung neuer Unterrichtsmedien). Unabhängig davon empfehlen sie, eine Randomisierung der Probanden anzustreben, um eine Gleichverteilung der nicht kontrollierten Bedingungen zu erreichen.

36
Q

Beschreibe das Dilemma der Allgemeinheit versus Konkretheit nach Patry und Hager!

A

Dieses methodologische Dilemma betrifft sowohl die Konzeption als auch die Evaluation einer Interventionsmaßnahme:
Je abstrakter die Formulierung ist, desto weiter kann der potentielle Anwendungsbereich einer Interventionsmaßnahme angesehen werden, wobei sich allerdings bei jeder Anwendung die Frage stellt, in welcher Form man die abstrakten (…) Handlungsanweisungen konkretisiert bzw. operationalisiert … . (Patry & Hager, 2003, S. 269)
Auf der anderen Seite weisen sehr konkrete gehaltene Handlungsanweisungen den Nachtteil auf, dass das Programm nur unter ganz bestimmten Randbedingungen anwendbar ist, nämlich denen, für die die konkreten Handlungsanweisungen gedacht sind bzw. in denen sie untersucht wurden. (Patry & Hager, 2003, S. 269)

Je konkreter beispielsweise die Anweisungen für ein Training zur Stressbewältigung sind, desto weniger kann der Trainer bzw. die Trainerin auf die konkrete Art der beruflichen Stressbelastung der einzelnen Teilnehmer/innen eingehen. Ob durch Konkretisierung auch einheitlichere Effekte bei verschiedenen Adressatengruppen erreicht werden, ist eine andere Frage. Bleibt aber die Vorgehensweise im Training zu offen, so können und müssen die Trainer/innen jeweils ihren eigenen Interpretationen und Präferenzen entsprechend arbeiten – sodass aber kein einheitliches Treatment in allen Gruppen vorliegen kann. Es wäre geradezu notwendig, die jeweiligen Vorgehensweisen zu dokumentieren, um eventuell auftretende Gruppenunterschiede erklären zu können, wenn schon keine Standardisierung des Treatments erreicht werden kann.

37
Q

Beschreibe das Kontroll-Dilemma nach Patry und Hager!

A

Das Dilemma der Allgemeinheit versus Konkretheit ist eng verbunden mit dem generellen Kontroll-Dilemma, das von Patry & Hager (2003, S. 271) für die Implementation und Evaluation von Interventions- bzw. Innovationsmaßnahmen im Bildungsbereich konstatiert wird: „Angesichts der Komplexität der Unterrichtssituation ( … ) und der Länge der Intervention ( … ) ist es allerdings nicht möglich“, die Forderung nach Kontrolle von Störfaktoren durch Standardisierung „nur annähernd zu erfüllen“ (S.271).
Natürlich könnten– z.B. nach Methoden systematischer Verhaltensbeobachtung – die Trainingsstile und die Interaktionen der Teilnehmer/innen erhoben und ausgewertet werden (z.B. bzgl. ihrer Problemorientierung und gegenseitigen Unterstützung mit Hilfe des Kategoriensystems von Bales 1962, vgl. Kromrey 2006, Kap. 7.2). Aber solche detaillierte Protokollierung des Interaktionsverhaltens wäre mit erheblichem zusätzlichem Aufwand für die Erhebung und Auswertung solcher Daten verbunden.
Patry und Hager (2003, S. 273) kommen für Evaluationsuntersuchungen zu der Schlussfolgerung, dass „man im konkreten Einzelfall entscheiden muss, welche Standards und Kriterien man für welche Zwecke als vorrangig wichtig ansieht.“

38
Q

Was sind die Standards der Deutschen Gesellschaft für Evaluation?

A

Die Standards umfassen die folgenden vier Dimension: Nützlichkeit, Durchführbarkeit, Fairness und Genauigkeit, die jeweils durch eine Vielzahl von einzelnen Kriterien konkretisiert wurden.

39
Q

Beschreibe die Dimension der Nützlichkeit bei den Standards für Evaluation der Deutschen Gesellschaft für Evaluation (2002) und nenne die wichtigsten Kriterien!

A

1 Klärung der Evaluationszwecke
2 Identifizierung der Beteiligten und Betroffenen
3 Glaubwürdigkeit und Kompetenz des Evaluators
4 Auswahl und Umfang der Informationen
5 Vollständigkeit und Klarheit der Berichterstattung
6 Rechtzeitigkeit der Evaluation
7 Transparenz von Werten
8 Nutzung und Nutzen der Evaluation

40
Q

Beschreibe die Dimension der Durchführbarkeit bei den Standards für Evaluation der Deutschen Gesellschaft für Evaluation (2002) und nenne die wichtigsten Kriterien!

A

Angemessene Verfahren
Diplomatisches Vorgehen
Effizienz von Evaluation

41
Q

Beschreibe die Dimension der Fairness bei den Standards für Evaluation der Deutschen Gesellschaft für Evaluation (2002) und nenne die wichtigsten Kriterien!

A
Formale Vereinbarung 
Unparteiische Durchführung und Berichterstattung 
Schutz individueller Rechte 
Offenlegung der Ergebnisse
Vollständige und faire Überprüfung
42
Q

Beschreibe die Dimension der Genauigkeit bei den Standards für Evaluation der Deutschen Gesellschaft für Evaluation (2002) und nenne die wichtigsten Kriterien!

A
1 Beschreibung des Evaluationsgegenstands 
2 Beschreibung von Zwecken und Vorgehen 
3 Begründete Schlussfolgerungen 
4 Kontextanalyse 
5 Angabe von Informationsquellen
6 Valide und reliable Informationen 
7 Analyse qualitativer und quantitativer Informationen 
8 Systematische Fehlerprüfung 
9 Meta-Evaluation