Reaktivierung Flashcards
Wie ist “psychologische Diagnostik” gemäß Schmidt-Atzert et al. (2021) definiert?
- Psychologische Diagnostik ist eine Teildisziplin der Psychologie.
= Sie dient der Beantwortung von Fragestellungen, die sich auf die Beschreibung, Klassifikation, Erklärung oder Vorhersage menschlichen Verhaltens und Erlebens beziehen. - > Sie schließt die gezielte Erhebung von Informationen über das Verhalten und Erleben eines oder mehrerer Menschen sowie deren relevanter Bedingungen ein.
- > Die erhobenen Informationen werden für die Beantwortung der Fragestellung interpretiert.
- Das diagnostische Handeln wird von psychologischem Wissen geleitet.
- Zur Erhebung von Informationen werden Methoden verwendet, die wissenschaftlichen Standards genügen.
Was sind die Gegensatzpaare zu den Arten der Diagnostik ?
- Eigenschafts- vs. Verhaltensdiagnostik
- Status- vs. Veränderungsdiagnostik
- Selektions- vs. Modifikationsdiagnostik
Welchen Nutzen bringt gute psychologische Diagnostik?
• Wirtschaftlicher Nutzen (z.B. Berufseignungsdiagnostik)
• Gesellschaftlicher Nutzen (z.B.Verkehrseignungsdiagnostik)
• Individueller Nutzen
(z.B. Diagnostik von Psychopathologie)
korrekte Diagnostik einer vorliegenden psychischen Erkrankung führt zur Zuordnung zur passenden Therapie; korrekte Diagnostik von beruflichen Interessen und Fähigkeiten kann zur individuellen Berufswahl beitragen
= Beispiel für Individuellen Nutzen
Berufseignungsdiagnostik führt zur Auswahl geeigneter Mitarbeitender (es werden keine Ressourcen verbraucht für die Einarbeitung von ungeeigneten Mitarbeitenden, geeignete Mitarbeitende tragen zum Unternehmenserfolg bei, geeignete Mitarbeitende haben wahrscheinlich weniger Krankheitstage)
= Beispiel für Wirtschaftlichen nutzen
Diagnostik der Verkehrseignung (z.B. Idiotentest) erhöht Sicherheit im Straßenverkehr; Rückfallprogose von Straftätern kann verhindern, dass für Allgemeinheit gefährliche Menschen in Sicherheitsverwahrung bleiben
= beispiel für wirtschfaftlichen Nutzen
Was sind die einzelnen Schritte des diagnostischen Prozess?
- Globale Fragestellung
- Psychologische Fragen
- Auswahl Diagnostischer Instrumente
- Diagnostische Untersuchung
- Integration der Ergebnisse
• Präzisieren, Modifizieren, Annehmen• Ablehnen
= Globale Fragestellung
• Teilfragen• Allgemeingültige, wiss. Kenntnisse, Fachwissen, Berufserfahrung• Vorinformationen
= Psychologische Fragen
• Mindestens 2 je Frage• Passung zu Fragen und Klient*innen• Qualitativ hochwertig (Gütekriterien)
= Auswahl diagnoastischer Instrumente
Professionelle Anwendung der Messinstrumente (Durchführung, Auswertung, Interpretation)
= Diagnostische Untersuchung
• Diagnostische Urteilsbildung, Entscheidungsmodelle & -strategien
• Entscheidungsfehler
= Integration der Ergebnisse
- Je höher die Reliabilität einer Messung ist, desto geringer ist der Anteil der Messfehler.
- Es ist der Grad an Genauigkeit, mit der ein Test etwas misst.
Richtige Aussagen über die Realibilität
Wofür bieten Testtheorien eine Erklärung?
= Testtheorien bieten eine Erklärung bzw. ein Grundprinzip, wie gezeigtes Verhalten in einem Test mit dem dahinterliegenden Konstrukt in Beziehung steht.
Wie lautet diese Erklärung im Sinne der Klassischen Testtheorie?
= Die Summe bzw. der Mittelwert der Antworten auf die Items eines Tests ist die Schätzung des wahren Wertes einer Person im dem vom Test gemessenen Konstrukt. Der wahre Wert der Person im Konstrukt befindet sich innerhalb eines Konfidenzintervalls/Vertrauensintervalls um diesen Summen- bzw. Mittelwert.
Wie lauten die Axiome der Klassischen Testtheorie?
- Xi = Ti + Ei (der beobachtete Wert einer Person ergibt sich aus dem wahren Wert der Person und dem Messfehler bei der Messung dieser Person.)
- Messfehler sind zuällig und daher
- > E(Ei) = 0 (Der Erwartungswert des Messfehlers ist Null. Das heißt, wenn man einen Test unendlich oft durchführen würde, würde sich der Messfehler zu Null mitteln, da es beim beobachteten Wert mal Abweichungen vom wahren Wert nach oben und mal nach unten gibt.)
- > Corr (Ei, Ti) = 0, Corr (EA, EB) = 0, Corr (EA, TB) = 0 (Da der Messfehler [Ei, EA] in einem Test zufällig ist, kann er mit nichts korrelieren: nicht mit dem wahren Wert einer Person [Ti], nicht mit dem Messfehler in einem anderen Test [EB] und nicht mit dem wahren Wert einer Person in einem anderen Test [TB]).
Wie helfen diese Axiome, die Reliabilität (Messgenauigkeit) eines Tests zu bestimmen?
- Die Reliabilität entspricht dem Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte.
- Da Messfehler unsystematisch sind, entsprechen alle gefundenen Zusammenhänge/Korrelationen zwischen den beobachteten Werten dem Zusammenhang der wahren Werte.
- Die Varianz der wahren Werte eines Tests kann folglich als Kovarianz der beobachteten Werte X und X ́ geschätzt werden.
- Die Reliabilität eines Tests kann daher beispielsweise über den Zusammenhang von Testwerten bei einer Messwiederholung geschätzt werden.
Welche Arten der Reliabilität haben Sie kennengelernt?
- Retestreliabilität,
- Paralleltestreliablität,
- Testhalbierungsreliabilität,
- Interne Konsistenz
Wie wird die Retestreliabilität bestimmt ?
= eine Stichprobe von Versuchspersonen bearbeitet den Test, dessen Reliabilität bestimmt werden soll, zu zwei verschiedenen Zeitpunkten
- > die Korrelation der Testwerte zu den beiden Messzeitpunkten ist der Reliabilitätskoeffizient
Wie wird die Paralleltestreliablität bestimmt ?
= eine Stichprobe von Versuchspersonen bearbeitet zwei parallele Testversionen (nicht identische, aber inhaltlich äquivalente Testversionen) eines Tests, dessen Reliabilität bestimmt werden soll
- > die Korrelation der Testwerte der beiden Testversionen ist der Reliabilitätskoeffizient
Wie wird die Testhalbierungsreliabilität bestimmt ?
- eine Stichprobe von Versuchspersonen bearbeitet den Test, dessen Reliabilität bestimmt werden soll, einmal
- die Testitems werden in zwei Hälften aufgeteilt (z.B. 1. vs. 2. Hälfte der Items, ungerade vs. gerade Itemnummer, entsprechend von Itemkennwerten)
- die Korrelation der Testwerte der beiden Testhälften ist der Reliabilitätskoeffizient
- > weil aber die Itemanzahl durch die Teilung reduziert ist, würde diese Korrelation die Reliabilität des Tests unterschätzen, daher wendet man noch die Spearman-Brown-Formel der Testverlängerung an, um den Reliabilitätskoeffizienten für die Gesamttestlänge zu berechnen
Wie wird die Interne Konsistenz bestimmt ?
- “Vorwort”: Verallgemeinerung der Testhalbierungsreliabilität, da es sich bei der internen Konsistenz um den Zusammenhang aller Items eines Tests handelt (statt um den Zusammenhang von zwei Testhälften)
- eine Stichprobe von Versuchspersonen bearbeitet den Test, dessen Reliabilität bestimmt werden soll, einmal
- es gibt verschiedene Möglichkeiten/Formeln, die interne Konsistenz zu berechnen; z.B. mittels Cronbachs Alpha oder Omega-Koeffizient -> das sind Reliabilitätskoeffizienten
Welche Einflussfaktoren auf die Höhe von Reliabilitätskoeffizienen haben Sie kennengelernt?
- Art des Merkmals (State vs. Trait, homogen vs. heterogen, Konstrukt: Persönlichkeit vs. Intelligenz)
- Art des Tests (Power- vs. Speed-Test)
- Länge des Retestintervalls
- Anzahl der Items/Testlänge
- Stichprobenzusammensetzung bei der Überprüfung der Reliabilität (homogene vs. heterogene Stichprobe)
- Itemqualität
- Objektivität
Arten der Validität
- Inhaltsvalidität
- Kriteriumsvalidität
- Konstruktvalidität
Unterarten der Inhaltsvalidität
- Übereinstimmungsvalidität/ konkurrente Validität
- Vorhersagevalidität/ Prognostischevalidität
- Inkrementelle Validität
Unterarten der Konstruktvalidität
- konvergente Validität
- diskiminante Validität
Was ist Inhaltvalidität ?
= Unter Inhaltsvalidität versteht man, wie repräsentativ die Items/Aufgaben eines Tests/Fragebogens für das zu messende Merkmal sind.
Was ist Kriteriumsvalidität?
= Unter Kriteriumsvalidität versteht man den Zusammenhang zwischen dem Testergebnis und konkreten Leistungen oder Verhaltensweisen außerhalb der Testsituation.
Was ist Konstruktvalidität?
= Unter Konstruktvalidität versteht man empirische Belege dafür, dass ein Test das [theoretische] Konstrukt erfasst, welches er messen soll – und nicht ein anderes.
Expert*innen schätzen ein, wie repräsentativ die Items eines Fragebogens für das Konstrukt Teamwork sind. Je höher die Repräsentativitätseinschätzungen und die Übereinstimmung, desto höher ist die:
= Inhaltsvalidität
Für die Validierung eines Fragebogens zur Messung von Hoffnung bearbeiten die Versuchspersonen direkt nach der Bearbeitung des Fragebogens eine knifflige Aufgabe. Hoffnungsvollere Personen sollten länger versuchen, diese Aufgabe zu lösen als weniger hoffnungsvolle Personen. Die Korrelation zwischen dem Testwert im Fragebogen und die Bearbeitungsdauer bei der kniffligen Aufgabe entspricht der:
= Übereinstimmungsvalidität/ konkurrente Validität
Die Testwerte in einem Studierfähigkeitstest, der zu Beginn des Studiums ausgefüllt wurde, wurde mit den Noten im Abschlusszeugnis des Studiums korreliert. Je höher die Korrelation, desto höher ist die:
= Vorhersagevalidität/ prognostische Validität
Ein zu validierender Fragebogen zur Erfassung von “Choking under pressure” erklärt zusätzlich zu einem Fitness-Test Varianz in den Leistungen von Sportler*innen bei Wettkämpfen.
= inkrementelle Validität
Für 150 Personen liegen Selbst- und Fremdeinschätzungen in einem Fragebogen zur Erfassung von Depressivität vor. Die Testwerte in den Selbst- und Fremdeinschätzungen korrelieren hoch miteinander
= konvergente (Konstrukt-)Validität
Ein Test zur Erfassung von Rechenfähigkeiten von Auszubildenden erfordert zum Teil Kopfrechnen, soll aber möglichst wenig mit einem Test zur Erfassung von Gedächtnisleistungen korrelieren. In einer Stichprobe von 200 Auszubildenden verschiedene Berufe zeigt sich eine geringe Korrelation.
= diskriminante (Konstrukt-)Validität
- Normen liefern ein Bezugssystem, um einen erzieltes Testergebnis einzuordnen.
- Normen werden immer für die Einzelfalldiagnostik benötigt.
- Test-/Rohwerte werden in transformierte Werte (= Normwerte) überführt.
- Normen basieren auf großen, repräsentativen Stichproben.
Richtige Aussagen zu Normen
Welche drei verschiedenen soziale Bezugsnormen gibt es ?
- Äquivalentnormen
- Abweichungsnormen (= Variabilitätsnormen)
- Prozentrangnormen
- Ermöglichen Zuordnung der Test-/Rohwerte zu bestimmten Referenzgruppen (Durchschnittswerte in Referenzgruppen)
- Ein Beispiel ist das Entwicklungsalter
- Führen beispielsweise zu folgender Interpretation der Testwerte eines Kindes: Das untersuchte siebenjährige Kind hat einen Leistungsstand, der für neunjährige Kinder typisch ist
= Bsp für Äquivalentnormen
- Der Normwert einer Person gibt an, wie weit diese Person mit ihrem Testwert unter oder über dem Mittelwert einer Vergleichsgruppe liegt
- Verlangen normalverteilte Daten in der Normierungsstichprobe
- Beispiele sind Altersnormen, Geschlechtsnormen und bildungsspezifische Normen
= Abweichungsnormen
- Verlangen keine Normalverteilung in den Daten der Normierungsstichprobe
- Geben die relative Position des Testwerts auf der nach Größe ranggereihten Messwerte der Bezugsgruppe an
- Weisen alle Einschränkungen auf, die auch auf Ordinal-/Rangskalen zutreffen
= Prozentrangnormen
Wie beeinflussen Objektivität und Reliabilität einen Tests?
= Ein Verfahren kann nur reliabel/zuverlässig sein, wenn es objektiv ist
Wie beeinflussen Validität und Reliabilität einen Tests?
= Ein Verfahren kann nur valide sein, wenn es zuverlässig ist (ein unzuverlässiger Test misst bei wiederholten Messungen Verschiedenes – er misst also nicht nur das, was er messen soll)
=> Nur wenn möglichst wenig Messfehler in den Testwerten enthalten sind (hohe Reliabilität), dann enthalten die Testwerte viel wahre Information, die bestenfalls dem zu messenden Konstrukt entspreche (= Validität eines Tests)
Wie beeinflussen Validität den Nutzen eines Tests?
= Nur ein valider Test misst, was er messen soll und eignet sich entsprechend zur Vorhersage von Kriterien. Sind diese praktisch relevant, dann hat ein Test auch einen Nutzen.
Wenn Sie im Rahmen Ihrer Tätigkeit ein neues Testverfahren beschaffen wollen, welche Quellen können Sie nutzen?
- Testverlage (Testverfahren)
- Repositorien (Open-Source angebote für Testverfahren)
Wo können Studierende der MSH hingehen, um sich eine große Auswahl psychologischer Testverfahren anzuschauen?
= Testothek
Was bedeutet Testen im weiten Sinne?
Im weiten Sinne ist das ein Oberbegriff für alle psychologisch-diagnostischen Verfahren, die beim psychologischen Diagnostizieren eingesetzt werden.
Was bedeutet Testen im engen Sinne?
- Es werden auf standardisierte Art und Weise Leistungsmerkmale (Fähigkeiten, Fertigkeiten und/oder Wissen) erfasst.
- Es gibt richtige und falsche Antworten.
- Es wird maximal mögliches Verhalten erfasst (im Gegensatz zu Persönlichkeitsfragebogen, in denen typischerweise gezeigtes Verhalten erfasst wird).
Bei Tests (im engen Sinne) werden verschiedene Arten von Tests unterschieden. Welche Arten sind das?
- Speed- vs. Power-/Niveautests
- Tests zur Erfassung von Fähigkeiten vs. Fertigkeiten vs. Wissen
- Aufmerksamkeitstests vs. Konzentrationstests vs. Intelligenztests
Welche Formen von Beobachtung gibt es und wie unterscheidet man diese?
- frei/unsystematisch vs. systematisch
- direkt vs. indirekt
- in natürlicher Umgebung/im Feld vs. im Labor
- verdeckt vs. offen
- teilnehmend vs. nicht teilnehmend
- Selbst- vs. Fremdbeobachtung
Welche Formen der Beobachtung kommen im folgenden Beispiel zur Anwendung?
Mehrere Bewerberinnen nehmen an einem Assessment Center teil. In mehreren Aufgaben stellen sie unter anderem ihre Teamfähigkeit unter Beweis. Während der Bearbeitung der Aufgaben (z.B. Gruppendiskussionen und gemeinsames Aufbauen eines komplizierten Zeltes mit den anderen Bewerberinnen) werden Sie von geschulten Beobachter*innen beobachtet, die ihre Beobachtungen anhand eines Ratingverfahrens notieren.
- systematisch (Erklärung: Es wird Ratingverfahren verwendet.)
- direkt (Erklärung: Die Beobachter*innen raten in der Beobachtungssituation und nicht anhand von Videoaufnahmen.)
- im Labor (Erklärung: Ein Assessment Center ist eine Laborsituation.)
- offen (Erklärung: Die Bewerberinnen wissen, dass sie an einem Assessment Center teilnehmen und von den Beoachterinnen im Raum bewertet werden.)
- nicht teilnehmend (Erklärung: Die Beobachter*innen nehmen nicht an den Aufgaben teil.)
- Fremdbeobachtung (Erklärung: Die Beobachterinnen beobachten die Bewerberinnen.)
Sie haben weitere Methoden der Informationsgewinnung neben Testen, Befragen und Beobachten kennengelernt. Welche dieser weiteren Methoden weisen häufig psychometrische Probleme auf?
- Implizite/indirekte Maße
- Projektive Verfahren
Nennen Sie je zwei Vertreter/Beispiele für apparative Tests und psychophyiologische Methoden!
- apparative Tests: siehe Folie 35 in den Vorlesungsfolien zur Sitzung 09
- psychophyiologische Methoden: siehe Folie 37 in den Vorlesungsfolien zur Sitzung 09
Welche Aussagen zur psychometrischen Einzelfalldiagnostik treffen zu?
- Psychometrische Einzelfalldiagnostik behandelt die Frage, in welchem Bereich der wahre Wert einer Person in einem Merkmal liegt.
- Zentrale Begriffe der psychometrischen Einzelfalldiagnostik sind beispielsweise Standardmessfehler und Sicherheitswahrscheinlichkeit.
- Im Rahmen der psychometrischen Einzelfalldiagnostik werden individuelle Befunde zufallskritisch beurteilt.
Bitte definieren Sie die Begriffe “Konfidenzintervall” und “kritische Differenz”!
- Konfidenzintervall = Das Konfidenzintervall gibt den Bereich an, in dem der wahre Testwert einer Person bei einer zuvor festgelegten Sicherheits- bzw. Irrtumswahrscheinlichkeit liegt.
- kritische Differenz = Nötig zum Vergleich zweier Testwerte innerhalb einer Person (z.B. eines multidimensionalen Intelligenztests -> verbal, figural, numerisch) oder zwischen mehreren Personen (z.B. Auswahlverfahren)
= > Gibt an, wie groß eine Differenz sein muss, um nicht alleine mit dem Messfehler erklärt werden zu können
Welche der folgenden Aussagen zum Zusammenspiel von Konfidenzintervall und kritischer Differenz mit der Reliabilität eines Tests, der Sicherheitswahrscheinlichkeit und der Irrtumswahrscheinlichkeit sind richtig?
- Je höher die Reliabilität eines Tests, desto enger das Konfidenzintervall und desto kleiner die kritische Differenz. (Erklärung: Bei einer höheren Reliabilität ist der Messfehler entsprechend geringer, sodass das Konfidenzintervall schmaler und die kritische Differenz kleiner sein können.)
- Je geringer die Sicherheitswahrscheinlichkeit, desto enger das Konfidenzintervall und desto kleiner die kritische Differenz. (Erklärung: Je weniger sicher man sich sein “möchte”, dass der wahre Wert im Konfidenzintervall liegt und die gefundene Differenz signifikant [also nicht durch Messfehler verursacht ist], desto schmaler kann das Konfidenzintervall und kleiner kann die kritische Differenz sein.)
- Je höher die Irrtumswahrscheinlichkeit, desto enger das Konfidenzintervall und desto kleiner die kritische Differenz. (Erklärung: Irrtumswahrscheinlichkeit ist das Gegenstück zur Sicherheitswahrscheinlichkeit. Die Irrtumswahrscheinlichkeit beträgt beispielsweise 5% bei einer 95% Sicherheitswahrscheinlichkeit und 10% bei einer 90% Sicherheitswahrscheinlichkeit. Es gilt im Prinzip die gleiche Erklärung wie bei einer geringeren Sicherheitswahrscheinlichkeit.)
Wie geht man bei einer Profilinterpretation vor ?
- Überprüfung der Profilreliabilität: Wenn diese mindestens .50 beträgt, kann man mit der Profilinterpretation fortfahren. Einflussgrößen sind die Reliabilitäten der einzelnen Subtests, die im Profil vorkommen und die Interkorrelationen der Subtests im Profil. Je höher die Reliabilitäten der Subtests und je geringer die Interkorrelationen der Subtests, desto höher ist die Profilreliabilität.
- Berechnung der Profilhöhe (Mittelwert der Profilpunkte) und zufallkritische Absicherung der Profilhöhe (Konfidenzintervall der Profilhöhe; Einflussgrößen sind die Reliabiltät der Subtests und die gewählte Sicherheitswahrscheinlichkeit), um einen Überblick über die mittlere Höhe/Lage des Profils zu bekommen.
- Zufallkritische Absicherung der Profilstreuung: Hier wird überprüft, ob die in einem Profil gefundene Streuung „echt“ ist oder ob sie vor allen auf Messfehler basiert (geprüft wird mittels Chi-Quadrat-Test). Ist der empirische Chi-Quadrat-Wert größer als der kritische Chi-Quadrat-Wert, liegt ein echtes Profil vor und der nächste Schritt der Profilinterpretation kann durchgeführt werden.
- Überprüfung der Profilgestalt: Mittels paarweiser Vergleiche einzelner, ausgewählter Profilpunkte (je nach Fragestellung und psychologischer Fragen) können unter Verwendung der kritischen Differenz besonders hoch oder gering ausgeprägte Profilwerte identifiziert werden.
Welche Arten der Urteilsbildung haben Sie kennengelernt?
- klinische Urteilsbildung
- mechanische Urteilsbildung
- statistische Urteilsbildung
Eine Schulpsychologin entscheidet nach Sichtung der Testergebnisse in einem Intelligenztest, Motivationsfragebogen und Elterninterview zur sozialen Unterstützung aufgrund ihrer Berufserfahrung, dass eine Schülerin für die gymnasiale Oberstufe geeignet ist.
- Welche Art der Urteilsbildung ?
= klinische Urteilsbildung
Eine Therapeutin verwendet den Goldberg-Index zur Auswertung des MMPI und zur Diagnose von Psychosen bei seinen/ihren Patient*innen.
- Welche Art der Urteilsbildung ?
= mechanische Urteilsbildung
Eine A&O-Psychologin nutzt bei der Auswahl der Auszubildenden im Unternehmen die in umfangreichen Studien ermittelte und kreuzvalidierte Formel zur Gewichtung der im Assessment-Center gewonnenen Informationen zur Berechnung der Eignung der Bewerber*innen.
- Welche Art der Urteilsbildung ?
= statistische Urteilsbildung
Welchen Arten diagnostischer Entscheidungen kommen in den Beispielen zur Anwendung?
Zur Besetzung einer offenen Stelle geht ein Unternehmen wie folgt vor: Zunächst werden die Bewerbungsunterlagen aller Bewerberinnen hinsichtlich der fachlichen Qualifikationen gesichtet, danach werden einige dieser Bewerberinnen zu einem Telefoninterview eingeladen unter anderem zur Besprechung der Erwartungen an den neuen Job und anschließend wird eine kleine Gruppe der besten Bewerber*innen zu einem Assessment Center eingeladen, in dem neben der Intelligenz auch die Teamfähigkeit erfasst wird. Die am meisten geeignete Person wird am Ende eingestellt.
- Nutzen für Institution (das Unternehmen)
- Annahmequote ist festgelegt (es ist eine offene Stelle)
- Behandlung ist multipel (verschiedene Maßnahmen werden durchgeführt)
- Ablehnungen sind möglich (ja, es finden Ablehnungen von Bewerber*innen statt)
- multivariate Informationsdimension (mehrere Informationsdimensionen werden genutzt; z.B. fachliche Qualifikation, Intelligenz, Teamfähigkeit)
- investigatorische Entscheidung (es ist ein mehrstufiges Entscheidungsverfahren)
Welchen Arten diagnostischer Entscheidungen kommen in den Beispielen zur Anwendung?
Im Rahmen der Berufs- und Laufbahnberatung hilft eine Psychologin allen Klient*innen unter anderem mit Hilfe von multidimensionalen Intelligenztests, Beruflichen Interessenstests und verschiedenen Schnupperarbeitstagen einen passenden Ausbildungsberuf und -betrieb zu finden.
- Nutzen für Individuum (die Klient*innen)
- Annahmequote ist variabel (allen Klient*innen wird in dieser Form geholfen)
- Behandlung ist multipel (verschiedene Maßnahmen werden durchgeführt)
- Ablehnungen sind nicht möglich (allen Klient*innen wird in dieser Form geholfen; niemand wird abgewiesen)
- multivariate Informationsdimension (z.B. multidimensionalen Intelligenztests, Beruflichen Interessenstests und Erfahrungen an verschiedenen Schnupperarbeitstagen)
- investigatorische Entscheidung (es ist ein mehrstufiges Entscheidungsverfahren)
Welche Entscheidungsmodelle haben Sie kennengelernt?
- kompensatorisches Modell mit Gleichgewichtung der Prädiktoren
- kompensatorisches Modell mit Un-Gleichgewichtung der Prädiktoren
- kompensatorisches Modell mit Oder-Strategie
- konjuktives Modell (Und-Strategie)
Welche Entscheidungsstrategien haben Sie kennengelernt?
- einstufiges (terminales) Vorgehen: nichtsequentielle Batterie
- einstufiges (terminales) Vorgehen: Single Screen (Einzeltest)
- Sequentielles (mehrstufiges, investigatorisches) Vorgehen: Vorauswahl-Strategie (Pre-reject-Strategie)
- Sequentielles (mehrstufiges, investigatorisches) Vorgehen: Vorentscheidungs-Strategie (Pre-accept-Strategie)
- Sequentielles (mehrstufiges, investigatorisches) Vorgehen: Vollständige sequentielle Strategie
Manche Universitäten führen s.g. „Medizinertests“ durch, um ihre Medizinstudierenden auszuwählen. Diese Testungen bestehen aus mehreren Einzeltests, die neben dem Allgemeinwissen auch medizinrelevantes Wissen abfragen können. All diejenigen Bewerber, die einen Gesamtwert (gebildet aus allen Einzeltests) von mindestens 150 erreichen, erhalten einen Studienplatz.
- Welches Entscheidungsmodell und welche Entscheidungsstrategie wurden im folgenden Beispiel angewendet?
- Entscheidungsmodell = kompensatorisches Modell mit Gleichgewichtung der Prädiktoren
- Entscheidungsstrategie = nichtsequentielle Batterie
Was gehört zur Basisrate?
- Relativer Anteil der Personen, die tatsächlich das Kriterium erfüllen, gemessen an der Gesamtzahl der Personen
- Grundrate, [natürlicher] Eignungsquotient, Eignungsquote
Was Gehört zur Selektionsrate?
- Relativer Anteil an Personen, der ausgewählt wird, gemessen an der Gesamtzahl an Personen
- Anteil an Personen, die den Grenzwert im Test überschreiten
Was gehört zur Vorhersagerichtigkeit
- Anteil richtiger Entscheidungen an allen Entscheidungen
Was gehört zur Sensitivität ?
- Trefferquote
- Anteil der „richtig“ Positiven in der Gruppe der Geeigneten/Kranken
Was gehört zur Spezifität?
- Anteil der „richtig“ Negativen in der Gruppe der Ungeeigneten/Gesunden
Was gehört zur positiver Prädiktionswert ?
- Anteil der „richtig“ Positiven an den als positiv/geeignet/krank Diagnostizierten
Was gehört zur negativen Prädiktionswert?
- Anteil der „richtig“ Negativen an den als negativ/ungeeignet/gesund Diagnostizierten
Welche der folgenden Verfahrensgruppen fällt gemäß der Definition des Testkuratoriums von 2010 nicht unter diesen Oberbegriff?
= Alle gelisteten Verfahrensgruppen fallen unter diesen Oberbegriff.
Wofür bieten Testtheorien eine Erklärung?
= Testtheorien bieten eine Erklärung bzw. ein Grundprinzip, wie gezeigtes Verhalten in einem Test mit dem dahinterliegenden Konstrukt in Beziehung steht
Wie wird der wahre Wert einer Person entsprechend der klassischen Testtheorie (KTT) geschätzt?
= Die Summe bzw. der Mittelwert der Itemantworten entspricht der Schätzung des wahren Wertes einer Person in einem gemessenen Merkmal.
Wie läuft eine Testkonstruktion grob ab?
- Testplanung
- Konstruktion der Items
- Erstellung der vorläufigen Testversion
- Überprüfung der vorläufigen Testversion inkl. Revision(en)
- Empirische Überprüfung inkl. Revision(en)
- Normierung und/oder Bestimmung Cut-Off-Wert
Wie läuft eine Testadaptation grob ab?
- Sicherstellung relevanter Vorbedingungen
- Adaptation des Tests (Items, Instruktion und Antwortanker)
- Erstellung der vorläufigen Testversion
- Überprüfung der vorläufigen Testversion inkl. Revision(en)
- Empirische Überprüfung inkl. Revision(en)
- Normierung und/oder Bestimmung Cut-Off-Wert
Welche Schritte muss man während der Testplanung gehen?
- Eingrenzen des Konstruktes (Definition, Indikatoren, Merkmalsart)
- Testart festlegen
- Testanwendungsbereich bestimmen
- Geltungsbereich und Zielgruppe festlegen
- Strukturellen Aufbau überlegen
- Testlänge und -zeit
- Administration
Was ist das nomologische Netz(werk) eines Konstruktes?
- Ein nomologisches Netz stellt ein Beziehungsgeflecht zwischen (latenten) Konstrukten und beobachtbaren Testvariablen dar. Die beiden Ebenen werden mit theoretischen Annahmen bzw. empirischen Evidenzen beschrieben und durch Korrespondenzregeln miteinander verbunden
- Unter einem nomologischen Netzwerk werden Aussagen oder Gesetze verstanden, die die Beziehung zwischen (a) beobachtbaren Merkmalen, (b) theoretischen Konstrukten und Beobachtbarem oder (c) verschiedenen theoretischen Konstrukten beschreiben. Es kann sich dabei um feste, deterministische Zusammenhänge handeln oder auch um statistische.
- Ein nomologisches Netz beschreibt also, welche Anknüpfungspunkte und Überlappungsbereiche das interessierende Konstrukt mit anderen Konstrukten hat. Es zeigt, welche anderen Konstrukte “verwandt” mit dem interessierenden Konstrukt sind bzw. Ähnlichkeiten aufweisen, aber dennoch inhaltlich verschieden sind.
Warum ist das nomologische Netz(werk) eines Konstruktes wichtig? Wozu macht man das?
- Das nomologische Netz gibt Hinweise darauf, wo das interessierende Konstrukt “anfängt und aufhört”.
- > Damit erhält man im Rahmen der Testentwicklung wichtige Hinweise für die Validierung eines Tests. Beispielsweise soll ein Intelligenztest Intelligenz erfassen, aber nicht Konzentration, obwohl Konzentration natürlich einen Einfluss auf die Testleistung haben kann. In der Validierungsstudie würde man also zwischen einem Intelligenztest und einem Konzentrationstest positive Korrelationen erwarten, die aber nicht allzu hoch sein dürfen.
Welche Arten von Merkmalen kann man unterscheiden und welchen Einfluss hat das auf die Messung?
- qualitativ vs. quantitativ
- unidimensional vs. multidimensional
- zeitlich stabil vs. veränderbar
Was ist mit Geltungsbereich gemeint?
- Breite des gemessenen Merkmals/der gemessenen Merkmale
- Menge an vorhergesagten Kriterien
Warum macht es Sinn, zwei Tests für dasselbe Konstrukt zu entwickeln, wenn zwei verschiedene Geltungsbereiche relevant sind?
- Je breiter der Geltungsbereich, desto mehr Informationen müssen erfasst werden und desto schwieriger wird es, alle Informationen in einem unidimensionalen Testwert auszudrücken.
- Es ist testtheoretisch besser, den Geltungsbereich eng zu definieren und auf nur ein Kriterium zu fokussieren.
Welche der folgenden Aussagen treffen auf Aufgaben mit freiem Antwortformat zu?
- Auswertungsobjektivität kann umso mehr eingeschränkt sein, je länger die Antworten sind.
- Es werden mindestens zwei Antwortalternativen vorgegeben. (Erklärung: Bei Aufgaben mit freiem Antwortformat werden keine Antwortalternativen vorgegeben.)
- Beim Antworten sind lediglich Wiedererkennensleistungen nötig. (Erklärung: Da keine Antworten vorgegeben werden, gibt es nichts zum Wiedererkennen. Es ist also eine Reproduktion des Wissens nötig.)
- Weniger sprachlich begabte Probanden haben bei diesem Antwortformat einen Vorteil. (Erkärung: Weil selbst eine Antwort produziert werden muss, können Personen, die sich sprachlich nicht so gut ausdrücken können, Probleme haben)
= Auswertungsobjektivität kann umso mehr eingeschränkt sein, je länger die Antworten sind.
Was sind die 3. Arten von Aufgaben mit gebundenem Antwortformat und deren untergeordnete Aufgabenart
- Aufgabenart 1: Ordnungsaufgaben
Unterart 1: Zuordnungsaufgaben
Unterart 2: Umordnungsaufgaben - Aufgabenart 2: Auswahlaufgaben
Unterart 1: dichotome Aufgaben
Unterart 2: Mehrfachwahlaufgaben - Aufgabenart 3: Beurteilungsaufgaben
Unterart 1: Analogskala-Aufgaben
Unterart 2: Ratingskala-Aufgaben
Welche Aussagen zu Vor- bzw. Nachteilen verschiedener Aufgabentypen und Antwortformate treffen zu?
- Vorteil - Ergänzungsaufgaben verlangen hauptsächlich die Reproduktion von Wissen.
- Nachteil - Ordnungsaufgaben verlangen nur eine Wiedererkennensleistung.
- Vorteil - Kurzaufsatzaufgaben sind einfach, ökonomisch und objektiv auszuwerten. (Erklärung: Bearbeitung und Auswertung erfordern viel Zeit. Die Auswertungsobjektivität ist umso stärker eingeschränkt, je länger und komplexer die Antworten auf Kurzaufsatzaufgaben, da viel Text und Mehrdeutigkeiten zu berücksichtigen sind.)
- Vorteil - Mehrfachwahlaufgaben verlangen hauptsächlich die Reproduktion von Wissen. (Erklärung: Bei Mehrfachwahlaufgaben werden die Antworten vorgegeben, sodass keine Reproduktion von Wissen sondern nur Wiedererkennensleistungen nötig sind.)
- Nachteil - Umordnungsaufgaben sind nur auf verbales Material beschränkt. (Erklärung: Bei Umordnungsaufgaben müssen z.B. Worte, Satzteile, Zahlen, Bilder oder Gegenstände in eine sinnvolle Reihenfolge gebracht werden. Man kann also auch nonverbales Material wie Bilder oder Gegenstände verwenden.)
- Vorteil - Ergänzungsaufgaben verlangen hauptsächlich die Reproduktion von Wissen. RICHTIG: Vorteil - Ergänzungsaufgaben verlangen hauptsächlich die Reproduktion von Wissen
- Nachteil - Ordnungsaufgaben verlangen nur eine Wiedererkennensleistung.
Welche Konstruktionsstrategien haben Sie kennengelernt?
- Intuitiv
- Rational/deduktiv
- External/kriteriumsorientiert/ kriteriumsbezogen
- Internal/faktorenanalytisch/induktiv
- Prototypenansatz
Welche Konstruktionsstrategie wurde jeweils angewendet?
(1) An einem Institut wurde ein Messinstrument zur Erfassung der allgemeinen Intelligenz entwickelt. Aufbauend auf dem Berliner Intelligenzstrukturmodell verfassten Experten unabhängig voneinander Items zu den verschiedenen Subskalen. Aus diesen Items wurden diejenigen für den endgültigen Fragebogen ausgewählt, die die besten Itemkennwerte in einer repräsentativen Stichprobe aufwiesen.
_ Rational/deduktiv
(Erklärung: Das Messinstrument wurde basierend auf einer Theorie/einem Modell zu Intelligenz entwickelt.)
Welche Konstruktionsstrategie wurde jeweils angewendet?
(2) Für die Entwicklung eines Persönlichkeitsfragebogens wurde zunächst eine Liste von Items mit Bezug auf bestimme Symptome erstellt. Diese Items wurden verschiedenen Gruppen straffälliger Personen sowie einer Gruppe nicht straffälliger zur Beantwortung vorgelegt. Nach der Auswertung wurden für den endgültigen Fragebogen nur jene Items ausgewählt, die am besten zwischen den Gruppen differenzieren konnten.
= External/kriteriumsorientiert/ kriteriumsbezogen
(Erklärung: Es wurden diejenigen Items ausgewählt, die zwischen den im Beispiel relevatem Personengruppem diskriminieren können.)
Welche Konstruktionsstrategie wurde jeweils angewendet?
Für die Entwicklung eines Extraversionsfragebogens wurde eine Gruppe von Personen der Normalbevölkerung zunächst gebeten, sich eine Person vorzustellen, die sie gut kennen und die interessierende Eigenschaft besonders stark verkörpert. Anschließend sollten sie diejenigen Verhaltensweisen der vorgestellten Person beschreiben, die zeigen, dass die interessierende Eigenschaft besonders stark ausgeprägt ist. Für den Fragebogen wurden am Ende diejenigen Verhaltensweisen ausgewählt, die von einer anderen Gruppe von Personen als besonders beispielhaft für die interessierende Eigenschaft eingeschätzt wurden.
Prototypenansatz
(Erklärung: Es wurde der Act-Frequency-Approach verwendet.)
Welche der folgenden Aussagen treffen auf den Vergleich verschiedener Konstruktionsstrategien zu?
- Oftmals werden im Rahmen einer Testkonstruktion mehrere Konstruktionsstrategien angewendet. (Erkärung: Um die verschiedenen Vorteile der einzelnen Konstruktionsstrategien zu nutzen und die verschiedenen Nachteile auszugleichen, lohnt es sich mehrere Strategien miteinander zu kombinieren. In unterschiedlichen Konstruktionsphasen können also unterschiedliche Strategien zur Anwendung kommen. Siehe auch Ausführungen im Video zur Folie 27 der Vorlesung 2 Sitzung 4)
- Keine der Konstruktionsstrategien ist grundsätzlich besser als die anderen. (Erklärung: Je nach spezifischer Sachlage während der Entwicklung eines Tests können einzelne Strategien mehr oder weniger geeignet sein [z.B. Vorliegen einer Theorie oder neues Forschungsfeld].)
- Die Methode der Faktorenanalyse findet nur bei einer der Konstruktionsstrategien Anwendung. (Erklärung: Faktorenanalysen können jederzeit zum Einsatz kommen, wenn die Dimensionalität der Items geprüft werden soll. Bei internaler/faktorenanalytischer/induktiver Konstruktion werden aber immer Faktorenanalysen gerechnet.)
- Jede der Konstruktionsstrategien baut auf einer Theorie zum zu erfassenden Konstrukt auf. (Erklärung: Die intuitive Konstruktionsstrategie ist per Definition NICHT theoriegeleitet.)
- RICHTIG: Oftmals werden im Rahmen einer Testkonstruktion mehrere Konstruktionsstrategien angewendet. (Erkärung: Um die verschiedenen Vorteile der einzelnen Konstruktionsstrategien zu nutzen und die verschiedenen Nachteile auszugleichen, lohnt es sich mehrere Strategien miteinander zu kombinieren. In unterschiedlichen Konstruktionsphasen können also unterschiedliche Strategien zur Anwendung kommen. Siehe auch Ausführungen im Video zur Folie 27 der Vorlesung 2 Sitzung 4)
- RICHTIG: Keine der Konstruktionsstrategien ist grundsätzlich besser als die anderen. (Erklärung: Je nach spezifischer Sachlage während der Entwicklung eines Tests können einzelne Strategien mehr oder weniger geeignet sein [z.B. Vorliegen einer Theorie oder neues Forschungsfeld].)
Welcher Fehler wurde bei diesen Item gemacht?
- Ich bin nicht häufig kein guter Zuhörer.
= Doppelte Verneinung (Erklärung: “nicht” und “kein” kombiniert, um auszusagen, dass man häufig gut zuhören kann.)
Welcher Fehler wurde bei diesen Item gemacht?
- In letzter Zeit habe ich mich häufig traurig gefühlt.
= Unklare Zeitspanne (Erklärung: “in letzter Zeit” wird von unterschiedlichen Personen unterschiedlich lang verstanden [z.B. in den letzten 4 Wochen, in den letzten 3 Monaten].)
Welcher Fehler wurde bei diesen Item gemacht?
- Andere Menschen, die denken, sie wären etwas Besseres, also sich über andere erheben, verärgern mich.
= Komplizierte Satzkonstruktion (Erkärung: zu viele Kommata und Verschachtelungen)
Welche Fehler tretten hier in der Itembeantwortung auf ?
- Äußern von Meinungen und Einstellungen, von denen angenommen wird, dass sie mit sozialen Normen und Werten der Gesellschaft übereinstimmen
- Verneinen weit verbreiteter Verhaltensweisen, die auf Ablehnung stoßen
= soziale Erwünschtheit
Welche Fehler tretten hier in der Itembeantwortung auf ?
- Tendenz, den vorgegebenen Items unkritisch (unabhängig vom Inhalt) zuzustimmen
= Akquieszenz/ja-Sage-Tendenz/ Zustimmungstendenz
Welche Fehler tretten hier in der Itembeantwortung auf ?
- Bewusste oder unbewusste Bevorzugung der mittleren Antwortkategorien
= Tendenz zur Mitte
Welche Fehler tretten hier in der Itembeantwortung auf ?
- Bewusste oder unbewusste Bevorzugung der äußeren Antwortkategorien
= Tendenz zum extremen Urteil
Welche Fehler tretten hier in der Itembeantwortung auf ?
- Wenn ein vorangegangenes Item Hinweise für die Beantwortung des aktuellen Items liefert oder einen Rahmen darstellt und die Beantwortung deshalb beeinflusst
= Ankereffekte
Welche Fehler tretten hier in der Itembeantwortung auf ?
- Wenn aufeinanderfolgende Items ähnlicher beantwortet werden, als wenn diese Items getrennt gefragt worden wären
= Konsistenzeffekte/Assimilationseffekte
Welche Fehler tretten hier in der Itembeantwortung auf ?
- Wenn aufeinanderfolgende Items unähnlicher beantwortet werden, als wenn diese Items getrennt gefragt worden wären
= Kontrasteffekte
Welche Fehler tretten hier in der Itembeantwortung auf ?
- Wenn nach einer oder mehreren spezifischen Fragen eine allgemeinere Frage kommt, bei der die Testperson, dann von sich aus bei der Beantwortung die Inhalte/Kontexte der spezifischen Items ausklammert
= Substraktionseffekte
Welche Fehler tretten hier in der Itembeantwortung auf ?
- Wenn mehrere Fragen zu einem gemeinsamen Itemstamm gestellt werden und richtige oder falsche Antworten auf eine der Fragen die Beantwortung der verbliebenen Fragen beeinflusst
= Testlet-Effekte
Was kann man bei der Testentwicklung tun um die Wahrscheinlichkeit des auftretens der Soziale Erwünschtheit zu vermeiden ?
- Aufklärung über Untersuchungsgegenstand und Belohnung von Ehrlichkeit (z.B. Feedback ist nur dann sinnvoll nutzbar)
- Zusicherung der Anonymität (keine Weitergabe personalisierter Daten an Dritte)
Was kann man bei der Testentwicklung tun um die Wahrscheinlichkeit des auftretens der Akquieszenz zu vermeiden ?
- Invertierung von Items (ABER: Methodeneffekte [artifizielle Faktorstruktur] möglich)
- mehr Antwortalternativen als nur ja/nein
- Pausen einplanen, um Ermüdung der Testpersonen zu vermeiden
- Befragung so persönlich wie möglich und sinnvoll gestalten
Was kann man bei der Testentwicklung tun um die Wahrscheinlichkeit des auftretens der Tendenz zur Mitte zu vermeiden ?
- Keine neutrale [Mittel-]Kategorie
- Nicht zu extreme Bezeichnungen der Pole
- „Weiß nicht“-Kategorie anbieten
- auf gut passende Antwortalternativen achten
Was kann man bei der Testentwicklung tun um die Wahrscheinlichkeit des auftretens der Effekte der Itemreihenfolge - Ankereffekte/Konsistenzeffekte zu vermeiden ?
- Items verschiedener Dimensionen randomisieren
- Pufferaufgaben
- Ausbalancierung der Reihenfolge
Was kann man bei der Testentwicklung tun um die Wahrscheinlichkeit des auftretens der Effekte der Itemreihenfolge - Substraktionseffekte zu vermeiden ?
- Reihenfolge der Items beachten (erst allgemein, dann spezifisch)
- Items nicht direkt nacheinander
Was kann man bei der Testentwicklung tun um die Wahrscheinlichkeit des auftretens der Effekte der Itemreihenfolge - Testlet-Effekte zu vermeiden ?
- oft nicht direkt zu vermeiden, aber: Kontrolle des Effekts mittels entsprechender psychometrischer Testlet-Modelle
- erst leichte Items, dann schwierigere Items präsentieren
Zu welcher Erprobungsform für eine vorläufige Testversion passt diese Aussage?
- nach der Bearbeitung des Tests werden die Proband*innen bezüglich problematischer Items befragt
= retrospektive Befragung
Zu welcher Erprobungsform für eine vorläufige Testversion passt diese Aussage?
- im Anschluss an Testbearbeitung werden die Proband*innen interviewt, um die von der Testleitung beobachteten Probleme zu erörtern
= Debriefing
Zu welcher Erprobungsform für eine vorläufige Testversion passt diese Aussage?
- Testsituation von einer dritten Person beobachtet zur Überprüfung, ob und wann sich Testleiterin oder Probandin nicht instruktionsgemäß oder erwartungsgemäß verhalten
= Verhaltenskodierun/behavior decoding
Zu welcher Erprobungsform für eine vorläufige Testversion passt diese Aussage?
- Ermittlung der Gedanken, die den Proband*innen WÄHREND der Bearbeitung der einzelnen Items durch den Kopf gehen
= Kognitives Vortesten - Think aloud method
Zu welcher Erprobungsform für eine vorläufige Testversion passt diese Aussage?
- Ermittlung der Gedanken, die den Proband*innen NACH der Bearbeitung der einzelnen Items durch den Kopf gehen
= Kognitives Vortesten - Probing
Welche Itemkennwerte betrachtet man im Rahmen von Itemanalysen gemäß der Klassischen Testtheorie?
= Itemschwierigkeit, Itemvarianz, Trennschärfe
Welche Aussagen zur Itemschwierigkeit treffen zu?
- Itemschwierigkeit gibt den Anteil von Personen an, die ein Item lösen.
- Itemschwierigkeit ist stichprobenabhängig.
Welche Aussagen treffen auf die Itemvarianz zu?
Die Itemvarianz hängt eng mit der Itemschwierigkeit zusammen.
Welche Aussagen zur Trennschärfe treffen zu?
- Extrem trennscharfe Items führen zu hoch reliablen Skalen, deren Validität jedoch beeinträchtigt sein kann.
Welche der folgenden Aussagen treffen auf psychometrisch gute Items zu?
- Die Trennschärfen sollten Werte zwischen .40 und .70 haben.
Womit beschäftigt man sich im Rahmen von Skalenanalysen?
- Reliabilität, Testwerteverteilung und Validität der Skala/Skalen des neuen Tests
Welche Kennwerte schaut man sich im Rahmen der Überprüfung der Testwerteverteilung häufig an?
- Mittelwert (M), Standardabweichung (SD), Minimum (Min) und Maximum (Max), Schiefe (S) und Kurtosis (K; bzw. Exzess) der Skala/Skalen des neuen Tests
Was sind die Zielgrößen der Kennwerte der Testwerteverteilung von Skalen und warum?
- Mittelwert (M):
nahe dem Skalenmittelwert, denn das bedeutet, dass der Test insgesamt im mittleren Schwierigkeitsbereich liegt und somit potenziell sehr gut zwischen Personen unterschiedlicher Merkmalsausprägungen gut differenzieren kann (das gilt aber nur, wenn man sicher stellt, dass die Items unterschiedliche Schwierigkeitsindices aufweisen, die in einem Bereich zwischen 20 und 80 liegen) - Standardabweichung (SD):
abhängig vom Antwortformat, im Vergleich zu ähnlichen Messinstrumenten möglichst gleich hoch oder höher; wir wollen ja viel Varianz in den Daten, da dies darauf hinweist, dass sich die Versuchspersonen in ihrer Merkmalsausprägung unterscheiden - Minimum (Min) & Maximum (Max):
entsprechend kleinster & größter Antwortalternative; stellt sicher, dass keine Varianzeinschränkung (z.B. Bodeneffekte, Deckeneffekte, Tendenz zur Mitte) vorliegt; wir wollen ja, dass der potenziell mögliche Wertebereich unser Testwerte ausgeschöpft ist - Schiefe (S) & Kurtosis (K; K-3 = Exzess):
S/SDS & K/SDK = ±2 bzw. S & K = ±1; bei normalverteilten Merkmalen möchten wir auch normalverteilte Daten und diese Kennwerte weisen auf normalverteilte Daten hin
Wozu dient eine Faktorenanalyse im Rahmen einer Testkonstruktion?
- Überprüfung der Konstruktvalidität (faktorielle Validität)
- Kritik an KTT: Trennschärfe reicht nicht aus, um zu überprüfen, ob Items eines Tests das gleiche Merkmal messen und ob sich mehrere Skalen auch empirisch voneinander trennen lassen
- Das prüft aber die Faktorenanalyse
Welcher Grundbegriff der Faktorenanalyse ist hier jeweils beschrieben?
- Interpretierbar als Korrelation zwischen Variable/Item und Faktor
= Faktorladung
Welcher Grundbegriff der Faktorenanalyse ist hier jeweils beschrieben?
- Anteil der Varianz einer Variablen/eines Items, der durch die Gesamtheit der Faktoren aufgeklärt wird
= Kommunalität
Welcher Grundbegriff der Faktorenanalyse ist hier jeweils beschrieben?
- Gibt an, welcher Anteil der Gesamtvarianz aller Variablen/Items durch einen Faktor Fk aufgeklärt wird
= Eigenwert
Welcher Grundbegriff der Faktorenanalyse ist hier jeweils beschrieben?
- Ausprägungsgrad einer Person v auf einem Faktor Fk
= Faktorwert
Welche der folgenden Aussagen zur Hauptkomponentenanalyse (PCA) und zur Hauptachsenanalyse (PFA) ist richtig?
= Bei der PFA wird angenommen, dass Variablen wahre Varianz und Fehlervarianz aufweisen.
Welche der Aussagen treffen auf die Zusammenstellung der Eichstichprobe im Rahmen der Testnormierung zu?
- Je feinstufiger die Norm sein soll, desto größer muss die Stichprobe sein.
- Je höher die Reliabilität ist, umso feinstufiger können die Normen sein.
Welche Aussagen treffen auf die Receiver-Operating-Characteristics-Analyse (ROC-Analyse) zur Bestimmung von Cut-Offs zu?
= Für jeden potentiellen Schwellenwert werden Sensitivität und Spezifität berechnet.
Mit Hilfe des Youden-Index kann man den optimalen Schwellenwert identifizieren.
Welche Aussagen treffen auf die Angoff-Methode zur Bestimmung von Cut-Offs zu?
= Rater*innen müssen die Wahrscheinlichkeit einschätzen, mit der eine MAP eine Aufgabe richtig löst.
Nennen Sie den Kritikpunkt, dem die Item-Response-Theorie (IRT) als eine Ergänzung der KTT entgegnen soll?
- Es ist unklar, ob es gerechtfertigt ist, die Reaktionen auf verschiedene Items zu einem Testwert zusammenzufassen, denn dies setzt voraus, dass alle Items dasselbe Merkmal messen und kein anderes. Diese Voraussetzung ist erfüllt, wenn Itemhomogenität vorliegt. Die Analysen entsprechend der KTT im engen Sinne überprüfen das Vorliegen von Itemhomogenität nicht. Es wird nur geprüft, ob die Items miteinander korrelieren.
- Die Axiome der KTT sind nicht überprüfbar. Aufgrund der Verwendung mathematischer Gleichungen/Funktionen zur Abbildung der Annahmen über die Beziehung zwischen dem manifesten Antwortverhalten in den Items und der Ausprägung im latenten Trait im Rahmen der IRT, liegen empirisch überprüfbare Annahmen vor.
Welche Aussagen treffen auf die Itemhomogenität im Kontext der Item-Response-Theorie zu?
- Itemhomogenität bedeutet, dass das Antwortverhalten in verschiedenen Items eines Tests ausschließlich von der zugrunde liegenden latenten Variablen systematisch beeinflusst wird.
- Die Itemhomogenität ist ein Gütekriterium für die einheitliche Skalierung aller Items eines Tests. (Erklärung: Skalierung und Itemhomogenität haben in diesem Kontext nichts miteinander zu tun.)
- Itemhomogenität bedeutet, dass das zu erfassende Merkmal in all seinen Aspekten vollständig abgebildet wird. (Erklärung: Das ist die Inhaltsvalidität.)
= RICHTIG: Itemhomogenität bedeutet, dass das Antwortverhalten in verschiedenen Items eines Tests ausschließlich von der zugrunde liegenden latenten Variablen systematisch beeinflusst wird.
Wie wird der individuelle Testwert einer Person im Rahmen der IRT berechnet?
= Der individuelle Testwert wird im Rahmen der Analysen in Form des Personenparameters iterativ geschätzt
Welche der folgenden Aussagen zum adaptiven Testen treffen zu?
- Auf Basis sich wiederholender Personenfähigkeitsschätzungen wird aus einer großen Zahl kalibrierter Items dasjenige Item vorgegeben, das die höchste Iteminformation enthält.
- Weil das erste Item nur einen geringen Einfluss auf den resultierenden Testwert hat, wird meist mit dem schwersten Item im Itempool begonnen. (Erklärung: Das erste Item ist meist mittelschwer oder in der Funktion eines Eisbrechers sogar eher leicht.)
- Wenn ein Item gelöst wird, folgt dann als nächstes ein etwas leichteres Item, um zu überprüfen, ob die Fähigkeit wirklich gegeben ist. (Erklärung: Das Prinzip ist genau umgekehrt; wird ein Item gelöst, folgt als nächstes ein schwereres Item, um abstecken zu können, wie hoch die Merkmalsausprägung ist; wird ein Item nicht gelöst, folgt als nächstes ein leichteres Item, um abstecken zu können, wie niedrig die Merkmalsausprägung ist.)
- Im Vergleich zu klassischen Testungen dauern adaptive Testungen länger, weil sie aufwendiger und komplizierter sind. (Erklärung: Die Entwicklung adaptiver Tests ist aufwendiger und komplizierter als die Entwicklung von klassischen Tests. Die Testdauer adaptiver Tests ist aber kürzer als die klassischer Tests zum gleichen Konstrukt, da nicht alle Items vorgegeben werden, sondern nur diejenigen Items, die relevant für die Testperson. relevant = siehe richtige Antwort)
- Keine dieser Antwortalternativen ist richtig. (Erklärung: Es gab eine richtige Antwort; siehe oben.)
= RICHTIG: Auf Basis sich wiederholender Personenfähigkeitsschätzungen wird aus einer großen Zahl kalibrierter Items dasjenige Item vorgegeben, das die höchste Iteminformation enthält.
Sie haben im Rahmen der Vorlesung Studien zur Vergleichbarkeit der Personen- und Itemkennwerte entsprechend der KTT und IRT kennengelernt. Bitte skizzieren Sie kurz, welche Datenbasis dafür notwendig ist.
= Es liegen Daten vor zu einem Testverfahren, das von vielen Probanden ausgefüllt wurde.
Im Ausgangsdatensatz sind die Personen in den Zeilen und die Items in den Spalten.
Sie haben im Rahmen der Vorlesung Studien zur Vergleichbarkeit der Personen- und Itemkennwerte entsprechend der KTT und IRT kennengelernt. Bitte skizzieren Sie kurz die Logik/den Ablauf der relevanten Datenauswertungen zur Überprüfung der Vergleichbarkeit der Personen- und Itemkennwerte.
- Mittels der in der vorherigen Frage/Antwort beschriebenen Stichprobe (oder auch für Substichproben) werden die Personen- und Itemkennwerte nach KTT und IRT berechnet.
- Die ermittelten Personen- und Itemkennwerte aus KTT und IRT werden miteinander korreliert; je höher die Korrelation, desto vergleichbarer die Kennwerte.
Welche der folgenden Aussagen trifft auf die Ergebnisse empirischer Studien zum Vergleich von Klassischer Testtheorie (KTT) und Item-Response-Theorie (IRT) zu?
- Die gemäß KTT und IRT ermittelten Personenkennwerte sind deutlich vergleichbar.
- Die gemäß KTT und IRT ermittelten Itemschwierigkeiten sind nicht vergleichbar. (Erklärung: Die gemäß KTT und IRT ermittelten Itemschwierigkeiten korrelieren sehr hoch miteinander und sind deshalb deutlich vergleichbar.)
- Die ermittelten Trennschärfen und Itemdiskriminationsparameter sind deutlich vergleichbar. (Erklärung: Die ermittelten Trennschärfen und Itemdiskriminationsparameter sind teils nur eingeschränkt bzw. gar nicht vergleichbar. Dies zeigen die zum Teil sehr niedrigen Korrelationen.)
- Keine dieser Antwortalternativen ist richtig. (Erklärung: Es gab eine richtige Antwort; siehe oben.)
= RICHTIG: Die gemäß KTT und IRT ermittelten Personenkennwerte sind deutlich vergleichbar.
Wann ist es besonders sinnvoll eine Testentwicklung unter Bezugnahme der IRT durchzuführen?
- Immer dann, wenn ein Test entwickelt werden soll, für dessen Überprüfung der Qualität die Vorteile der IRT unabdingbar sind.
- Das heißt, wenn man mit dem Test adaptive Testen möchte und/oder Paralleltests (z.B. Form A und B) entwickeln möchte und/oder einen Test für internationale Vergleichsstudien entwickeln möchte.