Einführung Flashcards
Was ist der Inhalt der Vorlesung?
- Grundlagen der Testtheorie
2. Grundlagen der Testkonstruktion
Warum sind Testtheorie und Testkonstruktion wichtig?
- Vielfältiger Einsatz von Testverfahren, z.B. Forschung, Psychologie, Medizin
- Für viele Fragestellungen existitieren FG, für spezielle Fragen aber häufig noch nicht
- Umgang mit Testverfahren als Schlüsselqualifikation (Konstruktion, Beurteilung anhand der Gütekrieterien)
Was ist ein Test?
Ein Test ist ein wissenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über der Grad der individuellen Merkmalsausprägung.
- Tests basieren auf einer theoretischen Vorstellung des zu erfassenden Merkmals
- Tests müssen bestimmte Qualitätstandards erfüllen
Was ist ein Fragebogen?
Mehrere Bedeutungen:
- Ähnliche Bedeutung und Qualitätsanforderung, wie ein Test
- Es gibt vielfältige Formen schriftlicher Befragungen in unterschiedlichen inhaltlichen Bereichen (z.B. biographisch, medizinisch)
- > FG sind nicht immer testtheoretisch fundiert, auch die Gütekriterien sind nicht immer erüllt
Beschrieben Sie den Grundlegenden Aufbau eines Tests.
Tests bestehen aus Items mit einem bestimmten Antwortformat und Itemscore.
Was sind Items?
- Über die Items soll die Ausprägung des jeweiligen Merkmals erfasst werden.
- Items können z.B. aus Matheaufgaben (4x16=548) oder Aussagen bestehen (Manche Leute halten mich für kalt und berechend).
Was ist das Antwortformat?
- Das Antfortformat ist die Art in der die Items beantwortet werden können.
- Es können z.B. mehrere Lösungen angeboten werden, von denen das richtige angekreuzt werden soll.
- Es kann eine Skala geben, auf der die Person ankreuzen soll, wie sehr sie einer Aussage zustimmt.
Was ist der Itemscore?
- Mit dem Itemscore werden die Antworten der Personen kodiert um sie auswerten zu können.
- Es kann z.B. für eine richtige Antwort 1 Punkt gezählt werden und für eine falsche Antwort 0 Punkte.
- Bei invertierten Items müssen die Punkte umgedreht werden. Dann wird z.B. eine Ausprägung von 5 mit einem 1 gezählt und eine Ausprägung von 1 mit 5 Punkten gezählt.
Was ist der Summenscore?
- Der Summenscore wird aus allen Itemscores zusammengesetzt.
- Ein Test besteht aus verschiedenen Skalen (Skala 1, Skala 2) zu den Items aus verschiedenen Subskalen gehören. Skala 1 kann z.B. aus Item 2,4,5 und 9 bestehen.
Womit beschäftigt sich eine Testheorie?
- Mit dem Zusammenhang zwischen dem Testverhalten und zu erfassendem psychischen Merkmal.
- > Item-Response-Theorie - Mit den Bestandteilen von Messwerten
- > Klassische Testtheorie
Welche Phasen der Testkonstruktion gibt es?
- Planungsstadium (Gültigkeits- und Geltungsbreich, Testkonzept)
- Testentwurf und Itemkonstruktion (Merkmalsanalyse, Items formulieren)
- Itemanalsyse (Testbearbeitung in Analysestichprobe, Schwierigkeit, Trennschärfe)
- Verwertung der Analysedaten (Itemselektion und -revision, Testendform)
- Empirisches Kontrollstadium (Kontrolle der Gütekriterien)
- Testeichung/ Normierug (Analyse der Eichstichprobenverteilung, Wahl der Normmaße)
Welche Konstruktionsstrategien für die Testentwicklung gibt es?
- Intuitive Konstruktion
- Rationale Konstruktion (z.B. Wechsler Intelligenztest für Erwachsene)
- Externale/ kriteriumsorientierte Konstruktion (z.B. Minnesota Multiphasic Personality Inventory 2)
- Internale/ faktorenanalytische Konstruktion (z.B. Freiburger Persönlichkeitsinventar R)
Welche Dimensionen von Merkmalsarten gibt es?
- Qualitativ vs Quantitativ
- Unidimensional vs Multidimensional
- Zeitlich stabil vs Zeitlich veränderbar
Beschreibe die Dimension “Qualitativ vs Quantitativ” der Merkmalsarten.
Qualitativ:
- Einordnung in Kategorien möglich
- Nominalskalenniveau
Quantitativ:
- graduell abgestufte Merkmalskategorien
- Ordinal-, Interval- und Verhältnisskalenniveau
Beschreibe die Dimension “Unidimensional vs Multidimensional” der Merkmalsarten.
Unidimensional:
1. Merkmal repräsentiert nur 1 Konstrukt
Multidimensional:
- Merkmal umfasst mindestens 2 Konstrukte
- Erfassung: Konstruktion eines Subtests für jede Dimension
Beschreibe die Dimension “Zeitlich stabil vs Zeitlich veränderbar” der Merkmalsarten.
Zeitlich stabil:
- Traits
- Persönlichkeitsmerkmale
Zeitlich veränderbar:
- States
- situationsabhängig
Beispiel: State Trait Ärgerausdruck Inventar
Welche Testarten gibt es?
- Apparative Tests
- Computerbasierte Tests
- Adaptive Tests
Was sind apparative Tests?
- AT erheben sensorische und motorische Merkmale, zum Teil auch Wahrnehmungs- und kognitive Fähigkeiten
- Beispiele: Sensumotorische Koordinationstests, Montage- und Handtiertests
Was sind computerbasierte Tests?
- CT umfassen spezielle Varianten von Persönlichkeits- und Leistungstests
- die Darbietung und Auswertung läuft über Computer
Was sind adaptive Tests?
- bei AT wird das Antwortverhalten des Probanden zur Steuerung der weiteren Itenwahl genutzt
- ökonomische Testdurchführung
- Beispiel: Frankfurter Adaptiver Konzentrationsleistungs-Test
Was ist der Geltungsbereich?
- Der Geltungsbereich betrifft die Anwendungsmöglichkeiten.
- Gibt es eine Übereinstimmung zwischen Merkmal und Operationalisierung?
- Welche Kriterien sollen vorhergesagt werden?
Beschreibe den Zusammenhang zwischen der breite des Geltungsbereichs und der Art der Aufgaben.
- Je breiter der Geltungsbereich festgelegt wird, desto mehr Informationen müssen erhoben werden und desto schwieriger wird es, diese in einem unidimensionalen Testwert auszudrücken.
- enger Geltungsbereich -> homogene Aufgaben
- breiter Geltungsbereich -> heterogene Aufgaben
Je breiter der Geltungsbereich festgelegt wird, desto weniger Informationen müssen erhoben werden und desto schwieriger wird es, diese in einem multidimensionalen Testwert auszudrücken.
Richtig oder falsch?
Falsch
Je breiter der Geltungsbereich festgelegt wird, desto mehr Informationen müssen erhoben werden und desto schwieriger wird es, diese in einem unidimensionalen Testwert auszudrücken.
Richtig oder falsch?
Richtig
Was ist die Zielgruppe?
- Der Personenkreis über den Aussagen getroffen werden sollen.
- Beispiel: Einschulungstest für Kinder, Einstufungstest für Fluglotsen
Beschreibe den Zusammenhang zwischen der Breite der Zielgruppe und der Art der Aufgaben.
- Je breiter die Zielgruppe, desto heterogener müssen die Aufgaben hinsichtlich Schwierigkeitsgrad und Inhalt konzipiert werden, um möglichst viele Merkmalsausprägungen abdecken zu können.
Je breiter die Zielgruppe, desto homogener müssen die Aufgaben hinsichtlich Schwierigkeitsgrad und Inhalt konzipiert werden, um möglichst viele Merkmalsausprägungen abdecken zu können.
Richtig oder falsch?
Falsch
Je breiter die Zielgruppe, desto heterogener müssen die Aufgaben hinsichtlich Schwierigkeitsgrad und Inhalt konzipiert werden, um möglichst viele Merkmalsausprägungen abdecken zu können.
Richtig oder falsch?
Richtig
Worauf hat die Wahl der Zielgruppe Konsequenzen?
- Wahl der Analysestichprobe für die Erprobung des Tests
2. Zusammensetzung der Eichstichprobe, Normentabellen
Wie viele Items sollte ein Test enthalten?
Zur zuverlässigen, messgenauen Erfassung eines Konstrukts reicht ein Item i.d.R. nicht aus. Mehrere Items erlauben eine Abschätzung der Reliabilität (und die Erfassung mehrerer Facetten eines Merkmals).
Warum sollte ein Test mehrere Items enthalten?
- Mehrere Items erlauben die Abschätzung der Reliabilität
- mehrere Items erlauben die Erfassung mehrerer Facetten eines Merkmals
Was bedeutet Reliabilität?
Ein Test ist dann reliabel, wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst..
Was ist ein unidimensionaler Test?
Unidimensionale Tests erfassen ein einzelnes Merkmal.
Was ist ein multidimensionaler Test?
- Multidimensionale Tests erfassen mehrere Merkmale. - Sie bestehen aus verschiedenen Subtests, die jeweils unidimensional aufgebaut sind.
- Beispiele: Persönlichkeits-Struktur-Tests, Testbatterien
Was gibt die Testlänge an?
Itemzahl
Was gibt die Testzeit an?
Testdauer
Wovon ist die passende Testlänge eines Tests abhängig?
- die passende Testlänge ist abhängig von dem Geltungsbereich des zu erfassenden Merkmals
- homogene Merkmalsausptägung: wenig Items
- verschiedene Facetten: mehr Items
- Beispiel: Screening Verfahren (kurz) vs differenzierte Individualdiagnose (lang)
Beschreibe den Zusammenhang zwischen Testlänge und Reliabilität.
Das Testergebnis wird mit zunehmender Anzahl an Items präziser. Mit zunehmender Testlänge steigt die Reliabilität (interne Konsistenz).
Was ist interne Konsistenz?
Die Konsistenzanalyse stellt eine Verallgemeinerung der Testhalbierungsmethode in der Weise dar, dass jedes Item eines Tests als eigenständiger Testteil betrachtet wird. Je stärker die Testteile untereinander positiv korrelieren, desto höher ist die interne Konsistenz des Verfahrens.
Was ist neben dem Gültigkeitsbereich für die Festlegung einer angemessenen Testlänge von Bedeutung?
- Praktikabilität des Tests
- Konzentrationsfähigkeit der Pbn
- Motivationslage der Pbn
- > Geltungsbereich (screening vs individualdiagnose), Testart (speed vs power), Zielgruppe (Schule vs Uni)
Was ist Testadministration?
Die Art und Weise der Testdarbietung.
Welche Kategorien hat das Format der Testadministration?
- Paper-Pencil
- Standardverfahren, weit verbreitet - Computergestützt
- Ökonomischer, vereinfachte Auswertung
- Neue Möglichkeiten der Itemauswahl und Itemgenerierung
Welche Kategorien hat die Form der Testadministration?
- Einzeltestung
- jeweils nur 1 Pb, aufwendig
- Erfassung von Nebendaten möglich - Gruppentestung
- mehrere Pbn zeitgleich, ökonomischer
- anfälliger für Fehler, weil keine direkte Beob. möglich ist
Nenne ein Beispiel für eine computergestützte Testadministration.
Wiener Testsystem