M1 F7 Flashcards
Warum sind Fechners Experimente so bedeutend?
Im Jahr 1786 stellte kein Geringerer als Immanuel Kant kategorisch fest, dass die „empirische Seelenlehre“ keine „Seelenwissenschaft“ sein kann, weil psychische Phänomene weder messbar noch experimentell analysierbar seien. Kant war gegen Ende des 18. Jahrhundert bereits ein außerordentlich einflussreicher Philosoph, dessen Worte großes Gewicht hatten. Es ist deshalb als einer der wichtigsten Meilensteine in der Geschichte der Etablierung der Psychologie als eigenständiger Wissenschaft zu werten, dass Gustav Theodor Fechner 1860 den Nachweis der Messbarkeit psychischer Phänomene erbringen konnte. Fechner ist es gelungen, die subjektive Empfindungsstärke gegenüber physikalischen Reizen (z.B. Tönen, Lichtintensitäten) zu messen und in eine mathematische Beziehung zu bringen. Die sogenannte psychophysische Funktion, auch als „Weber-Fechnersches Gesetz“ bekannt, besagt, dass die Stärke einer subjektiven Empfindung gegenüber einem physikalischen Reiz nicht linear mit der Reizstärke anwächst, sondern gemäß einer logarithmischen Funktion.
Was ist Messen?
Messen ist die Zuordnung von Zahlen zu Merkmalsausprägungen von Objekten; in der Psychologie sind die „Objekte“ in der Regel Personen. Die Zuordnung von Zahlen muss nach bestimmten Regeln erfolgen, so dass sich die empirischen Relationen zwischen den Objekten in den numerischen Relationen zwischen den Zahlen widerspiegeln (Orth, 1974, Gigerenzer, 1981; Steyer & Eid, 2001; Stevens, 1951): Formal ausgedrückt sollen sich die empirischen Relationen (A ist doppelt so schwer wie B) in den numerischen Relationen (A wiegt 90 Kilogramm, B wiegt 45 Kilogramm) widerspiegeln.
Wenn Person A einen IQ von 70 aufweist und Person B einen IQ von 140, dann ist B doppelt so intelligent wie A - richtig?
Da wir bei der alltäglichen Messung von physikalischen Größen wie Gewicht und Zeit daran gewöhnt sind, die Verhältnisrelation (doppelt/halb so schnell bzw. schwer) anzuwenden, besteht die Tendenz, diese Relation auch auf die Messwerte bestimmter psychologischer Konstrukte, wie z.B. Intelligenz oder Ängstlichkeit, zu übertragen. Wenn also Person A einen IQ von 70 aufweist und Person B einen IQ von 140, dann ist B doch doppelt so intelligent wie A, oder? Letzteres ist falsch, weil die Messung von Persönlichkeitsmerkmalen auf einem anderen Skalenniveau erfolgt als die Messung von Gewicht und Zeit. Das Skalenniveau einer Messung hängt mit drei messtheoretischen Kardinalproblemen, insbesondere mit dem Eindeutigkeitsproblem, zusammen, die wir im Folgenden etwas genauer erläutern möchten.
Was ist in der Messtheorie eine Abbildung?
Die in der Definition genannte Zuordnung von Zahlen zu den Merkmalsausprägungen von Objekten wird in der Messtheorie als Abbildung bezeichnet.
Was ist ein numerisches, was ein empirisches Relativ? Wann ist eine Abbildung homomorph?
Eine Menge von Zahlen und deren mathematische Beziehungen wird numerisches Relativ genannt; eine Menge von Objekten und deren beobachtbare Beziehungen empirisches Relativ. In der obigen Definition wird weiterhin betont, dass den Beziehungen zwischen den Zahlen analoge empirische Beziehungen zwischen den Objekten entsprechen müssen. Anders ausgedrückt muss die Struktur der empirischen Relationen bei der Abbildung in ein numerisches Relativ erhalten bleiben. Eine solche strukturerhaltende Abbildung wird homomorph genannt. Formal lässt sich Messen dann als die homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ definieren.
Beschreibe das Repräsentationsproblem!
Wenn Messen die homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ ist, dann stellt sich zuallererst die Grundfrage: Gibt es eine solche homomorphe Abbildung überhaupt? Einfacher ausgedrückt: Ist ein Merkmal überhaupt messbar? Lässt sich ein gegebenes empirisches Relativ durch ein numerisches Relativ repräsentieren? Diese Grundfrage jedes Messvorgangs ist Gegenstand des sogenannten Repräsentationsproblems: Können relevante empirische Relationen zwischen den Merkmalsausprägungen verschiedener Untersuchungsobjekte erfasst und in Messwerten abgebildet werden? Im sogenannten Repräsentationstheorem werden bestimmte Grundannahmen bzw. Axiome formuliert, in denen Eigenschaften des empirischen Relativs angegeben sind, die erfüllt sein müssen, damit eine Repräsentation in einem numerischen System möglich ist. Eine Eigenschaft des empirischen Relativs kann z.B. die Transitivität sein. Dieses Axiom trifft zu, wenn gilt: wenn a > b und b > c, dann auch a > c. Bei physikalischen Messungen ist Transitivität gegeben: Wenn Person A schwerer ist als Person B und Person B schwerer als Person C, dann ist auch A schwerer als C.
Nenne ein Beispiel für Intransitivität!
Ein gutes Beispiel für Intransitivität findet sich bei Sedlmeier und Renkewitz:
Nehmen wir aber an, wir wollen die Spielstärke dreier Fußballteams messen. Zu diesem Zweck betrachten wir die Ergebnisse von Spielen zwischen diesen Teams. Das Team A hat das Team B geschlagen. Zudem hat Team B gegen das Team C gewonnen. Nun wäre es aller Erfahrung nach durchaus möglich, dass das Team A dennoch gegen Team C verliert. Augenscheinlich bestünde in diesem Fall also keine „echte“ Ordnungsrelation zwischen den drei Teams hinsichtlich ihrer Spielstärke. Demgemäß kann diese Relation auch nicht ins numerische Relativ abgebildet werden (Sedlmeier & Renkewitz, 2008, S. 58).
Was ist eine Skala?
Wenn das Repräsentationsproblem gelöst ist, dann liegen für eine Messung ein empirisches Relativ E, ein numerisches Relativ N und eine Zuordnungsregel bzw. Abbildungsfunktion f vor. E, N und f konstituieren eine Skala. Im einfachsten Fall einer Messung, d.h. homomorphen Abbildung, des Geschlechts auf dem Nominalskalenniveau (siehe den folgenden Abschnitt 5.2), werden dem empirischen Relativ männlich, weiblich z.B. die beiden Zahlen 1 und 2 zugeordnet.
Was ist das Eindeutigkeitsproblem beim Messen?
Welche Transformationen der Messwerte zulässig sind, ohne dass die abzubildenden Relationen verändert werden, ist Gegenstand des Eindeutigkeitsproblems. Eine Messung ist umso eindeutiger, je weniger Transformationen möglich sind. Bei der angegebenen Längenmessung ist offensichtlich die Multiplikation mit einer positiven ganzen Zahl zulässig, weil dadurch die Relation „der Vater ist doppelt so groß wie der Sohn“ erhalten bleibt. Würde man dagegen eine beliebige ganze Zahl zu der ursprünglichen Längenmessung addieren, so würde diese Relation nicht mehr gelten. Die möglichen Transformationen der Messwerte konstituieren das sogenannte Skalenniveau der Messung (vgl. 5.2).
Was ist das Bedeutsamkeitsproblem beim Messen?
Beim Bedeutsamkeitsproblem schließlich geht es um die Frage, welche mathematischen Operationen zu empirisch sinnvollen Aussagen führen. Das Bedeutsamkeitsproblem stellt sich erst im Anschluss an eine Messung und betrifft den „rechten Umgang“ mit den Messwerten (Gigerenzer, 1981, S. 54). So macht es z.B. keinen Sinn, auf Nominalskalenniveau kodierte Werte für die Geschlechtszugehörigkeit (z.B. weiblich = 1; männlich = 2) zu mitteln. Ein Mittelwert für Geschlecht ist keine empirisch sinnvolle Aussage. Mit dem Bedeutsamkeitsproblem verbunden ist die Frage, welche statistischen Verfahren bei der weiteren Analyse der Daten sinnvoll angewendet werden können. Auch diese Frage betrifft das Skalenniveau der Messwerte.
Was ist das Skalenniveau - und wieviele Skalenniveaus kann man unterscheiden?
Das Skalenniveau gibt an, welche Transformationen der Messwerte zulässig sind und welche weiterführenden statistischen Analysen durchgeführt werden können. Anders gedreht: Die Menge der zulässigen Transformationen einer Messung einerseits und die dazu „inverse“ Menge der zulässigen statistischen Operationen, die zu bedeutsamen Ergebnissen führen, andererseits, konstituieren das Skalenniveau einer Messung.
In der Psychologie werden fünf Skalenniveaus unterschieden: (1) Nominalskala, (2) Rangskala, (3) Intervallskala, (4) Verhältnisskala und (5) Absolutskala. Von (1) nach (5) nimmt die Anzahl der zulässigen Transformationen ab und die Anzahl der möglichen mathematischen Operationen (statistischen Analysemöglichkeiten) zu.
Erkläre die Nominalskala!
Niveau: Nominalskala
Beobachtbare Relationen / bedeutsame Aussagen: Äquivalenzrelation: Gleichheit/Ungleichheit
Beispiele: Kategorien: Geschlecht, Studienfächer
Zulässige Transformationen: Ein-eindeutige
Mögliche statistische Operationen (Beispiele): Modus
Eine Nominalskala ordnet empirischen Objekten Zahlen gemäß der Äquivalenzrelation zu. Dabei wird lediglich die Gleichheit bzw. Ungleichheit von Objekten abgebildet. Um die Gleichheit oder Ungleichheit von Objekten abzubilden, braucht man nicht unbedingt Zahlen; es können auch andere unterscheidbare Symbole verwendet werden. Beispiele für nominalskalierbare Merkmale sind das Geschlecht oder Studienfächer sowie weitere kategorial vorliegende Entitäten, z.B. Nationalitäten, Parteien, Fernsehsender, klinisch-psychologische Störungsbilder etc. Da es nur darauf ankommt, die (Un)Gleichheit von Merkmalsausprägungen abzubilden, ist eine Nominalskala fast beliebig transformierbar; es sind sogenannte ein-eindeutige Transformationen möglich. Anstelle der oben vorgenommenen Zuordnung der Geschlechter mit 1 = männlich und 2 = weiblich, können auch beliebige andere Zahlen verwendet werden, solange sie sich unterscheiden, z.B. männlich = 3456 und weiblich = 7. Letzteres ist möglich, da es – wie betont – nur auf die Verschiedenheit der Zahlen ankommt; alle weiteren Assoziationen, die wir gewöhnlich mit den Zahlen 1 und 2 bzw. 3456 und 7 verbinden, z.B. 1 ist kleiner als 2, 2 ist doppelt so viel wie 1 bzw. 3456 ist viel größer als 7 führen auf Nominalskalenniveau zu sinnlosen Aussagen, weil männlich nicht kleiner oder halb so viel wie weiblich ist. Wie oben bereits erwähnt, macht es ebenso wenig Sinn, nominalskalierte Daten für Geschlechtszugehörigkeit zu mitteln, weil es kein mittleres Geschlecht gibt. Welche statistischen Operationen führen dann bei nominalskalierten Merkmalen überhaupt zu sinnvollen bzw. bedeutsamen Aussagen? Möglich und sinnvoll ist ein Abzählen der Häufigkeiten mit der bestimmte nominalskalisierte Merkmalsausprägungen in einer Stichprobe oder Grundgesamtheit vorkommen. So kann es bedeutsam sein festzustellen, wie viele Männer und wie viele Frauen ein bestimmtes Fach studieren, welches Studienfach an einer Universität am häufigsten belegt wird oder welche Partei in welcher Region die meisten Mitglieder hat. Eine damit zusammenhängende sinnvolle Statistik ist der Modus, das ist diejenige Merkmalsausprägung mit der größten Häufigkeit.
Erkläre die Ordinalskala!
Niveau: Ordinalskala
Beobachtbare Relationen / bedeutsame Aussagen: Ordnungsrelation: größer/kleiner (besser/schlechter)
Beispiele: Rangreihen: Schulnoten, akademische Abschlüsse
Zulässige Transformationen: streng monoton steigende
Mögliche statistische Operationen (Beispiele): Median
Eine Ordinalskala ordnet empirischen Objekten Zahlen gemäß der Ordnungsrelation zu. Dabei wird mit Hilfe von Zahlen neben der Gleichheit bzw. Ungleichheit zusätzlich eine Rangreihe der Objekte abgebildet. Damit verbunden sind Aussagen wie größer/kleiner als oder besser/schlechter als etc. Beispiele für ordinalskalierte Merkmale sind Schulnoten oder akademische Abschlüsse. Die Note 1 ist besser als die Noten 2, 3, 4, 5 und 6; die Note 2 ist besser als 3, 4, 5 und 6 usw. Ein M.Sc. in Psychologie ist ein höherer Abschluss als ein B.Sc. in Psychologie und ein Doktorgrad in Psychologie ist höher als die beiden zuerst genannten Abschlüsse. Damit die Ordnungsrelation erhalten bleibt, müssen bei einer homomorphen Abbildung der akademischen Grade in das numerische Relativ die Zahlen die empirische Rangreihe abbilden. Bei den Schulnoten wird diese Abbildung durch die Verwendung der natürlichen Zahlen von 1 bis 6 erreicht. Bei den genannten Abschlüssen könnte man analog dazu die Zahlen 1, 2 und 3 verwenden. Die Ordnungsrelation bzw. die Rangreihe der empirischen Merkmalsausprägungen bleibt auch dann erhalten, wenn wir streng monoton steigende Transformationen der Messwerte vornehmen. Man könnte die akademischen Abschlüsse auch den Zahlen B.Sc = 1, M.Sc. = 17 und Dr. = 329 zuordnen, entscheidend ist, dass die empirische Rangreihe erhalten bleibt, was bei den Zahlen 1, 17 und 329 der Fall ist. Überdeutlich ist dabei natürlich, dass sich die Abstände bzw. Differenzen zwischen den Zahlen erheblich unterscheiden. Auf Ordinalskalenniveau führen diese Unterschiede aber nicht zu bedeutsamen Aussagen. Die Aussage, der Unterschied zwischen dem B.Sc. und dem M.Sc. wäre genauso groß wie der Unterschied zwischen dem M.Sc. und dem Doktorgrad (wie es eine Skalierung von 1 nach 3 nahelegt) ist empirisch nicht haltbar und auch nicht bedeutsam. Gleiche Differenzen zwischen den Messwerten sind erst auf Intervallskalenniveau bedeutsam. Diesbezüglich gibt es unterschiedliche Auffassungen bzgl. des Skalenniveaus der Schulnoten, denen z.T. Ordinalund z.T. Intervallskalenniveau zugeschrieben wird. Da Lehrerinnen und Lehrer die Endnote im Zeugnis durch Mittelung und u.U. Gewichtung mehrerer Noten eines Schülers ermitteln, unterstellen sie damit implizit Intervallskalenniveau, weil der Mittelwert erst auf diesem Niveau als statistische Operation möglich und sinnvoll ist. Dann müssten Lehrerinnen und Lehrer allerdings auch empirisch die Äquidistanz zwischen ihren Noten nachweisen können, d.h. der Abstand zwischen einer 1 und 2 müsste genauso groß sein wie zwischen einer 2 und einer 3, einer 3 und 4, 4 und 5 bzw. 5 und 6. Wenn dem nicht so wäre, wenn wir also von einem ordinalskalierten Merkmal ausgehen, dann wäre es statistisch lediglich sinnvoll, außer dem Modus, den sogenannten Median zu bestimmen, das ist derjenige Wert innerhalb einer Rangreihe, der diese Rangreihe in 2 gleich große Hälften teilt. Bei einer ungeraden Anzahl von Messwerten ist der Median eindeutig, bei einer geraden Anzahl werden die beiden mittleren Zahlen gemittelt. Nehmen wir an, ein Schüler würde extrem heterogene Leistungen aufweisen und im Laufe eines Halbjahres die Noten 1, 2, 3, 4, 5 erzielen. Der Median dieser Verteilung ist 3 und ebenso der Mittelwert. Bei einer Notenverteilung von 2, 2, 3, 6, 6 wäre der Median dagegen ebenfalls 3, der Mittelwert dagegen 3,8. Zur Prüfung von Zusammenhangsund Unterschiedshypothesen bei ordinalskalierten Merkmalen liegen eigene statistische Verfahren vor (vgl. Bortz & Schuster, 2010).
Erkläre die Intervallskala!
Niveau: Intervallskala
Beobachtbare Relationen / bedeutsame Aussagen: Äquidistanz: Gleichheit von Differenzen
Beispiele: IQ-Skala Ratingskalen
Zulässige Transformationen: Positiv lineare y=a·x+b
Mögliche statistische Operationen (Beispiele): Mittelwert
Eine Intervallskala ordnet empirischen Objekten Zahlen so zu, dass Äquidistanz zwischen den Zahlen vorliegt; die Abstände bzw. Differenzen zwischen den Zahlen sind also gleich groß. Zudem werden mit Hilfe von Zahlen die (Un)Gleichheit und eine Rangreihe der Objekte abgebildet. In der Psychologie gelten die IQSkala und auch alle Rating-Skalen (z.B. 1 = trifft gar nicht zu, 2 = trifft etwas zu, 3 = trifft weitgehend zu, 4 = trifft vollständig zu) als intervallskaliert. Wenn also zwei Probanden A und B IQs von 90 und 95 aufweisen und zwei weitere Probanden C und D IQs 100 und 110, dann ist die Aussage, der IQ-Unterschied zwischen C und D ist doppelt so groß wie zwischen A und B möglich und sinnvoll. Aussagen über IQ-Verhältnisse, z.B. der IQ von E (140) ist doppelt so groß wie der IQ von F (70), sind allerdings nicht möglich, da auf Intervallskalen-Niveau kein Nullpunkt definiert ist. Intervallskalierte Daten können linear transformiert werden. Zudem sind die Berechnung von Mittelwerten und alle sogenannten parametrischen Verfahren auf Intervallskalen-Niveau möglich.
Sedlmeier und Renkewitz (2008; S. 63f) haben zu Recht darauf hingewiesen, dass die Annahme, Rating-Skalen seien intervallskaliert, umstritten ist. Gerade das Beispiel in Klammern legt nahe, dass die verbale Verankerung zwischen 2 = trifft etwas zu und 3 = trifft weitgehend zu einen größeren Abstand zu implizieren scheint als 1 = trifft gar nicht zu und 2 = trifft etwas zu. Aber selbst wenn zwischen den verbalen Ankern ähnliche semantische Abstände realisiert sein sollten, bleibt die Annahme, Probanden würden beim Ausfüllen eines Fragebogens, gleiche Abstände zwischen den Zahlen einer Rating-Skala umsetzen, äußerst fraglich. Dennoch werden in der Psychologie Daten, die auf Rating-Skalen basieren, mit statistischen Verfahren verrechnet, die Intervallskalen-Niveau voraussetzen. Ein Grund dafür ist, dass sich die Ergebnisse der Verfahren für Ordinalskalen-Niveau zumeist nicht wesentlich von den Ergebnissen der Verfahren für Intervallskalenniveau unterscheiden. Ein weiterer Grund ist, dass für Intervalldaten mehr statistische Verfahren zur Verfügung stehen, die auch weitergehende Prüfungen ermöglichen.
Erkläre die Verhältnisskala!
Niveau: Verhältnisskala
Beobachtbare Relationen / bedeutsame Aussagen: Verhältnisrelation: doppelt, dreimal… so schnell wie…(natürlicher Nullpunkt)
Beispiele: Zeitmaße, Einkommen
Zulässige Transformationen: Ähnlichkeitstransformationen y=a·x
Mögliche statistische Operationen (Beispiele): Geometrisches Mittel
Neben (Un)Gleichheit, Rangordnung und Gleichheit von Differenzen sind Variablen auf Verhältnisskalen-Niveau durch einen sinnvollen Nullpunkt gekennzeichnet. Beispiele für verhältnisskalierte Variablen sind Zeitmaße und das Einkommen, aber auch andere physikalische Merkmale, wie z.B. das Gewicht und Längenmaße. In psychologischen Studien werden mitunter Reaktionszeiten gemessen, die Probanden benötigen, um auf einen Reiz zu reagieren. Wenn ein Proband A 50 ms und ein anderer Proband B 100 ms braucht, um nach Darbietung eines Reizes eine Taste zu drücken (Reaktion), dann ist die Aussage „B braucht doppelt so lang wie A“ möglich und sinnvoll. Auf Verhältnisskalen-Niveau sind also – wie der Name schon sagt – Aussagen über Verhältnisse (n-mal so groß/klein; schnell/langsam etc.) von Merkmalsausprägungen möglich. Verhältnisskalierte Daten können ähnlichkeitsstransformiert werden und es sind alle statistischen Verfahren anwendbar, die bereits auf Intervallskalen-Niveau möglich sind.
Erkläre die Absolutskala!
Niveau: Absolutskala
Beobachtbare Relationen / bedeutsame Aussagen: Natürliche Maßeinheit
Beispiele: Häufigkeiten
Zulässige Transformationen: keine
Mögliche statistische Operationen (Beispiele): alle
Zusätzlich zu allen anderen Kennzeichen (Gleichheit/Ungleichheit, Rangordnung …) weist eine Absolutskala eine natürliche Maßeinheit auf. Die Zeit, die Länge oder das Gewicht können in verschiedenen Maßeinheiten angegeben werden, die Zeit z.B. in Millisekunden, Sekunden, Minuten, Stunden, Tagen, Wochen… Die Maßeinheit der Zeit ist also nicht festgelegt und kann durch Multiplikation mit einer Zahl (Ähnlichkeitstransformation) in eine andere Maßeinheit umgerechnet werden (z.B. min = 60 x sec.). Bei absolutskalierten Variablen dürfen keine Transformationen vorgenommen werden. Eine Absolutskala liegt vor, wenn Häufigkeiten erfasst werden, was in psychologischen Studien z.B. der Fall ist, wenn die Anzahl von Personalpronomen (als Indikatoren für Narzissmus) gezählt werden, die eine Person in einer Selbstbeschreibung verwendet. Aber auch bei vielen anderen Erlebensund Verhaltensweisen sind die Häufigkeiten von Interesse, z.B. wenn es um bestimmte nonund paraverbale Ausdruckssignale (Blickkontakt, Verlegenheitsgesten, Lächeln, Versprecher…) geht oder um die Anzahl der Unterbrechungen/Störungen an einem Arbeitsplatz.
Wie hängen Kardinalprobleme, Skalenniveaus und die Qualität von Messungen zusammen? In welcher Theorie wurden Gütekriterien für die Qualität von Messungen entwickelt?
Während im Rahmen der Kardinalprobleme und Skalenniveaus festgelegt wird, ob überhaupt und mit welchem Informationsgehalt gemessen werden kann, erlauben die drei Kriterien der Objektivität, Reliabilität und Validität eine Beurteilung der Qualität bzw. Güte der Messungen psychologischer Konstrukte. Diese drei Gütekriterien wurden im Rahmen der sogenannten Klassischen Testtheorie entwickelt (vgl. Liennert & Raatz, 1998).
Definiere “Test”!
Der Begriff Test wird in der Psychologie mehrdeutig verwendet. Einigkeit besteht lediglich darin, dass es sich bei einem Test um ein Verfahren zur Gewinnung diagnostisch relevanter Daten handelt. In einem engen Sinn ist ein Test ein Verfahren, mit dem Daten unabhängig von den subjektiven Urteilen und Einschätzungen der Probanden erhoben werden können. Lediglich Fähigkeits- und Leistungstests sowie objektive Tests im Sinne von Cattell (vgl. Cattell & Warburton, 1967), deren Messintention für einen Probanden nicht per Augenschein erschließbar ist, die also “undurchschaubar” sind, genügen diesem Kriterium. Dagegen lässt sich aus einer Definition von Lienert und Raatz (1998, S. 1) eine breitere Verwendung des Begriffs „psychologischer Test“ ableiten. Demnach handelt es sich bei einem psychologischen Test um “ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.”
Tests dienen also der Erfassung von Persönlichkeitsmerkmalen, die in den meisten Fällen mit Hilfe von Fragebögen zur subjektiven Selbsteinschätzung erfolgt (vgl. Kapitel 6).
Warum ist ein Test ein wissenschaftliches Routineverfahren?
Ein wissenschaftliches Routineverfahren ist ein Test deshalb, weil es bestimmten Testgütekriterien genügt und weil die Durchführung, Auswertung und zum Teil auch die Interpretation der erhobenen Daten standardisiert erfolgt und routinemäßig wiederholt werden kann. Ein Test liefert eine quantitative Aussage über ein interessierendes Merkmal, da die Antworten eines Probanden mit Zahlen verknüpft und zu einem Gesamtwert (Score) zusammengefasst werden. Der relative Grad der individuellen Merkmalsausprägung kann aus diesem Gesamtwert ermittelt werden, indem er zu einer Vergleichsgruppe (sogenannte Normbzw. Eichstichprobe) von Probanden, die möglichst ähnliche soziodemografische Merkmale aufweisen (mindestens Geschlecht und Alter) oder einem Kriterium (z.B. eine bestimmte Anzahl gelöster Aufgaben) in Beziehung gesetzt wird.
Beschreibe die Objektivität als Gütekriterium eines Tests!
Objektivität als Gütekriterium meint die Unabhängigkeit der Ergebnisse einer Messung bzw. eines Tests von der Person, die den Test anwendet. Die Testanwendung lässt sich in drei Phasen gliedern: Durchführung, Auswertung und Interpretation. Dementsprechend werden Durchführungs-, Auswertungs-, und Interpretationsobjektivität unterschieden.
Warum sind diese drei Objektivitätsarten wichtig und ein Indikator für die Qualität einer Messung bzw. eines damit verbundenen Tests?
Nehmen wir einmal an, Sie sollen eine Prognose über die Erfolgswahrscheinlichkeit eines Schülers im Hinblick auf den anstehenden Besuch eines Gymnasiums abgeben. Nehmen wir weiterhin an, dass Sie davon ausgehen, dass dabei die Intelligenz ein wichtiger Prädiktor ist. Sie führen einen Intelligenztest durch, werten ihn aus und interpretieren das Ergebnis. Es wäre nun außerordentlich ungünstig, wenn andere Psychologinnen und Psychologen, die denselben Test bei derselben Person durchführen, zu völlig anderen Ergebnissen kommen würden (die Stabilität von Intelligenz als Persönlichkeitsmerkmal einmal vorausgesetzt). Wie soll dann entschieden werden, wessen Befund der richtige ist? Soll man dann dem Psychologen mit der längsten „Erfahrung“ oder der größten „Autorität“ glauben? Aber warum sollte gerade dessen Befund der richtige sein. Um derartige Probleme von vorneherein vermeiden zu können, ist die Durchführungs, Auswertungs-, und Interpretationsobjektivität einer Messung wichtig. Damit diese drei „Objektivitäten“ gesichert werden können, ist die Durchführung, Auswertung und auch eine basale Interpretation (durchschnittlich, unteroder überdurchschnittlich intelligent, vgl. Modul 6) hoch standardisiert und in einem sogenannten Testmanual so genau beschrieben, dass ein ausgebildeter Psychologe bzw. eine ausgebildete Psychologin genau nachvollziehen können, was zu tun ist. Vor diesem Hintergrund ist dann Objektivität im Sinne intersubjektiver Übereinstimmung bei der Durchführung, Auswertung und basalen Interpretation einer Messung mit Hilfe eines Tests möglich.
Beschreibe die Reliabilität als Gütekriterium eines Tests!
Die Reliabilität eines Tests kennzeichnet die Messgenauigkeit, unabhängig davon was inhaltlich gemessen wird, also unabhängig von der Frage, ob mit einem Test tatsächlich das gemessen wird, was gemessen werden soll (z.B. Intelligenz). In der Einführung zu diesem Unterabschnitt wurde angedeutet, dass ein Test mehrere Aufgaben bzw. Items (Feststellungen, denen der Proband auf einer mehrstufigen Antwortskala zustimmen soll) umfasst, die dann zu einem Gesamtscore aggregiert werden, etwa durch Summierung oder Mittelung der Einzelmessungen. Die Erfassung eines latenten Konstrukts wie z.B. Intelligenz mit Hilfe von mehreren Aufgaben zielt auf eine Erhöhung der Messgenauigkeit ab (vgl. hierzu Rushton, Brainerd & Pressley, 1983). Wenn etwa die mathematische Intelligenz eines Probanden erfasst werden soll, dann wird dies genauer möglich sein, wenn unser Proband nicht nur eine einzige Mathematikaufgabe löst, sondern mehrere. Bei der Lösung einer einzigen Aufgabe können viele Zufallsund Störquellen (vorübergehender Lärm, Konzentrationsschwächen etc.) das Ergebnis beeinträchtigen. Gemäß der klassischen Testtheorie mitteln sich solche Fehler aus, wenn mehrere Messungen desselben Konstrukts durchgeführt werden (formal: die Summe aller Fehlereinflüsse ist Null). Insofern geht eine hohe Messgenauigkeit immer auch mit einem niedrigen Ausmaß an Messfehlern einher.
Die Reliabilität eines Tests (mehrerer Einzel-Messungen desselben Konstrukts) lässt sich vor dem Hintergrund verschiedener Modelle schätzen und mit Hilfe eines Koeffizienten quantifizieren, der in der Regel zwischen 0 und + 1 schwanken kann (in bestimmten Fällen können allerdings auch negative Werte resultieren). Gute Intelligenztests erreichen Reliabilitäten > .90, gute Persönlichkeitstests Reliabilitäten > .80.
Beschreibe die Split-Half-Methode!
Bei der Reliabilitätsschätzung gemäß der Split-Half- oder Halbierungsmethode wird ein Test in zwei gleich große Hälften aufgeteilt und die Korrelation dieser Hälften als Reliabilitätsmaß interpretiert. Mit der Testhalbierungsmethode wird aber eigentlich nur die Reliabilität eines Tests halber Länge geschätzt. Günstiger ist deshalb die Paralleltestmethode, bei der zwei identische Tests mit derselben Anzahl von Items vorliegen und wiederum die Korrelation der beiden parallelen Tests als Reliabilitätsmaß bestimmt wird. Allerdings ist es schwierig und aufwändig exakt parallele Tests zu konstruieren.
Beschreibe den Cronbach-Alpha-Koeffizienten!
Als Verallgemeinerung der Testhalbierungs- und Paralleltestreliabilität kommt der internen Konsistenz und insbesondere dem Cronbach-Alpha-Koeffizienten besondere Bedeutung zu. Cronbachs Alpha basiert auf der Idee, dass bei einem Test, mit dem ein eindimensionales Merkmal erfasst werden soll, jedes Item als eigener Testteil interpretiert werden kann. Cronbachs Alpha liefert dann die mittlere Konsistenz über alle möglichen Testaufteilungen (Items).