04321 Flashcards
Definition psychologischer Test (2 Elemente)
- wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale
- Ziel ist eine möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung
Definition psychologischer Test - Definition Wissenschaftlichkeit (3 Elemente)
- Merkmale eindeutig definiert und nachweisbar relevant
- Konstruktion baut auf statistische Modelle psychologischer Testtheorie auf
- bewaehrt gegenueber psychometrischen Guetekriterien
Was ist ein typisches Kennzeichen das ein Test wissenschaftlich fundiert ist?
Vorhandensein eines Testmanuals (aka Handanweisungen)
Definition psychologischer Test - Definition Routineverfahren
Inhalt, Verfahrensablauf und Bewertung des Tests sind genau vorgegeben und so routinemaessig wiederholbar
Definition psychologischer Test - Definition Persoenlichkeitsmerkmal
weit gefasst - schließt im Grunde alle Arten interindividueller Differenzen ein
Was sind zwei Kriterien die man beim Einsatz eines psychologischen/psychometrischen Tests bedenken muss?
- Ist der Test gut (wissenschaftlich etc.)
2. Passt der Test zur Fragestellung!
Nach welchen 3 Dimensionen werden Tests oft klassifiziert?
- Inhalt
- Testungsstrategien
- formale Gesichtspunkte
Klassifizierung von Tests - Dimension Inhalt - 3 Unterkategorien
- Leistungstests
- Psychometrische Persönlichkeitstests
- Persönlichkeits-Entfaltungsverfahren
Klassifizierung von Tests - Dimension Inhalt - Leistungstests -5 Beispiele
Entwicklungstests, Intelligenztests, Allgemeine Leistungstests, Schultests, spezielle Funktionsprüfungs- und Eignungstests
Klassifizierung von Tests - Dimension Inhalt - Leistungstests -Beschreibung - 2 Dimensionen
- geben Aufschluss über Fähigkeiten und Fertigkeiten eines Individuums
- bestehen in der Regel aus einer Vielzahl von Problemlöseaufgaben, deren Beantwortung als richtig oder als falsch eingestuft wird
Klassifizierung von Testst - Dimension Inhalt - Psychometrische Persönlichkeitstests -3 Beispiele
- Persönlichkeits-Struktur-Tests
- Einstellungs- und Interessentests
- Klinische Tests
Klassifizierung von Testst - Dimension Inhalt - Psychometrische Persönlichkeitstests -Beschreibung - 3 Dimensionen
- Fragen, die sich auf Gefühle, Vorlieben, Abneigungen, Interessen und Meinungen der Probanden beziehen
- Antworten sind subjektive Selbstbeurteilung oder Selbstbeschreibung
- Es gibt kein richtig oder falsch
Klassifizierung von Tests - Dimension Inhalt - Psychometrische Persönlichkeitstests -Definition Inventar
Fragebogen, der mehrere Merkmale erfasst und so aus verschiedenen Subtests besteht
Klassifizierung von Tests - Dimension Inhalt - Persönlichkeits-Entfaltungsverfahren- 3 Beispiele
- Formdeuteverfahren
- Verbal-thematische Verfahren
- Zeichnerische und Gestaltungsverfahren
Klassifizierung von Testst - Dimension Inhalt - Persönlichkeits-Entfaltungsverfahren- Beschreibung der Durchfuehrung (2 Dimensionen)
- Projektive Verfahren, die weitgehend aus unstrukturierten Materialien bestehen (e.g., Farbkleckse, Satzanfänge, Spielmaterial, mehrdeutige Bilder)
- Proband muss vollenden oder deuten
Klassifizierung von Tests - Dimension Inhalt - Persönlichkeits-Entfaltungsverfahren- underlying assumption
Annahme, dass Testpersonen bei der Strukturierung unbewusste Motive, Gefühle oder Einstellungen in die Geschichte oder das Bild projizieren
Klassifizierung von Testst - Dimension Inhalt - Persönlichkeits-Entfaltungsverfahren- projektive vs semi-projektive Tests - Unterschied re: Testtheorie
Projektive Tests - oft nicht testtheoretisch konstruiert, zu wenig Struktur
semi-projektive Tests - mit Standardisierung verbunden, eher als Tests identifizierbar
Klassifizierung von Tests - Dimension Testungsstrategie - 2 Unterkategorien
- normorientierte Konstrukttests
2. kriterienorientierte Tests
Klassifizierung von Tests - Dimension Testungsstrategie - - normorientierte Konstrukttests - Definition Element 1: Konstrukt(test)
erlauben wissenschaftlich begründbaren Rückschluss vom Testverhalten auf dahinter liegende Eigenschaften und Fähigkeiten (Konstrukte).
Klassifizierung von Testst - Dimension Testungsstrategie - normorientierten Konstrukttests - Definition Element 2: normorientiert
Testergebnis einer Person wird relativ zur durchschnittlichen Ausprägung (= Norm) einer Bezugsgruppe gesehen
Klassifizierung von Tests - Dimension Testungsstrategie - kriterienorientierte Tests - Grundidee
Vergleich der Testleistung mit einer Idealnorm
Klassifizierung von Testst - Dimension Testungsstrategie - kriterienorientierte Tests - klassisches Beispiel
hat Schueler/Student das Lehrziel erreicht?
Klassifizierung von Tests - Dimension formale Gesichtspunkte- 5 Unterkategorien
- Zeitbeschraenkung?
- Zahl der Dimensionen
- Durchfuehrung (Gruppen-/Individualtest)
- Sprachgebundenheit (verbal/nonverbal)
- Technologie/Medium (Papier, Computer etc., incl adaptiv)
Klassifizierung von Tests - Dimension formale Gesichtspunkte - Gesichtspunkt Zeitbeschraenkung -2 moegliche Auspraegungen
- mit Zeitbeschraenkung: Schnelligkeitstests (Speedtests)
2. ohne Zeitbeschraenkung: Niveautests (Powertests)
Was steht im Zentrum der psychologischen Testtheorie (2 ideas)?
- Zusammenhang psychologischer Merkmale mit dem Testverhalten (in psychologischen Tests)
- Schlüsse, die aufgrund der Antworten im Test auf die zugrunde liegenden Merkmale gezogen werden duerfen
worum geht es bei der psychologischen Testtheorie NICHT (2 Ideeen)?
- Theorie der psychologischen Merkmale (Konstrukte)
2. Klassifikation psychologischer Merkmale
Was ist das kleinste Element eines psychologischen Tests?
ein einzelnes item (aka Aufgabe)
Was ist die Grundannahme, die ein Item (und die dazugehoerige Antwort) relevant machen?
item ist beobachtbarer Indikator (manifeste Variable) fuer ein zugrundeliegendes nicht beobachtbares Konstrukt (latente Variable)
Def. Skala (Kontext - psychologischer Test)
nach einer festgelegten Vorschrift, meist durch
einfache Aufsummierung oder Durchschnittsbildung, berechnete Gesamtwert mehrerer Items
Was sind die beiden Bereiche eines Tests?
latenter Bereich, manifester Bereich
Testtheorie - Merksatz
In der Testtheorie geht es um die Beurteilung sowohl des Gesamtwerts im Test als auch von dessen Bestandteilen hinsichtlich des Zusammenhangs zwischen
Testverhalten und psychologischen Merkmalen.
Was sind zwei mathematisch-statistische Ansaetze zur Testtheorie?
- Klassische Testtheorie (KTT)
2. ProbabilistischeTesttheorie (PTT)
Welcher der zwei mathematisch-statistischen Ansaetze der Testtheorie dominiert in der Praxis?
KTT; nach Rost (1999) basieren 95 Prozent aller Tests auf der KTT
Was ist der Hauptvorteil der KTT (ggueber PTT)?
Einfachere mathematische Anwendbarkeit
Wie gut haben sich die auf der KTT beruhenden Tests bewaehrt?
allgemein gut!
Worum geht es im Prinzip in der KTT?
KTT: Theorie der Messfehler (aka Reliabilitaet!)
KTT: Was sind 2 moegliche Gruende, dass Testergebnisse einer Person zu verschiedenen Messzeitpunkten variieren koennen? Bsp - Klausur
- Uebungs- und Transfereffekte (Lernen!) - systematisch!
2. unsystematische Einfluesse - auessere (Laerm), innere (Krankheit)
KTT: systematische vs. unsystematische Fehler, welche Fehler sind im KTT Fehlerbegriff inbegriffen?
nur UNsystematische Fehler (KTT unterstellt Zufallsziehung und Zufallsfehler)
KTT: Was ist der Ausgangspunkt der Überlegungen?
Varianz von Messwerten
KTT: Was sind die 3 Quellen der Varianz von Messwerten?
- Interitemvarianz: Testung einer einzelnen Person bei einer einzigen Gelegenheit zwischen den Items eines Tests
- intraindividuell, wenn dieselbe Person mehrfach mit dem gleichen Verfahren getestet wird
- interindividuell zwischen verschiedenen Teilnehmern einer einzelnen Testung
KTT: Definition wahrer Wert Ti (von Englisch: true score)
Mittelwert der (hypothetischen) Normalverteilung die sich ergaebe, wenn Person i den gleichen Test unter gleichen Bedingungen beliebig oft ablegte; aka Existenzaxiom
KTT: Definition zentrales Grundaxiom der KTT
Xi = Ti + Ei (Grundannahme der KTT), mit Ei - Fehlerkomponente
KTT: 4 zentrale Annahmen re: Fehlerterm Ei
- Mittelwert Null
- Wahrer Wert und Fehler unkorreliert
- Fehler verschiedener Tests unkorreliert
- Kreuzweise Unkorreliertheit von Fehlern und wahren Werten verschiedener Tests
KTT: Definition Reliabilitaet rtt
Anteil der wahren Varianz (S-squared true) an der gedamten beobachteten Varianz (S-squared X)
KTT: Wie laesst sich die beobachtete Varianz (S-squared X) auch ausdruecken? warum?
(S-squared true) plus (S-squared E); warum - Unkorreliertheit von Xi und Ei
KTT: wie wird die Grundgleichung um systematicshe Verzerrungen erweitert?
Xi = Ci + Bi + Ei; Bi bedeutet bias (systematische Verzerrung)
KTT: Worum geht es in der Validitaet (in Abgrenzung zur Reliabilitaet)?
um die Gültigkeit inhaltlicher Aussagen auf der Grundlage von Testergebnissen.
KTT: Validitaet, formale Definition
Rtc=(s-quared construct)/sum{(S-squared construct +S-squared bias +(S-squared error)}
note - equation assumes that bias, construct uncorrelated
KTT: 6 kritische Anmerkungen
- nicht intendierte systematixche Varianzanteile (bias) werden dem wahren Wert zugeordnet
- Keine Verbindung zwischen Markmal und Itembeantwortung her
- Ist wahrer Wert wirklich konstant und unabhaengig?
- Messungen in Extrembereichen ungenau
- Annahme der Eindimensionalitaet - haltbar?
- Stichprobehabhaengigkeit der Testwerte
PTT: Grundidee (in Abgrenzung zur KTT)
Zusammenhang zwischen der Fähigkeit (oder Eigenschaft) einer Person und der Wahrscheinlichkeit, mit der diese Person eine Aufgabe löst (oder z.B. einer Aussage zustimmt), die besagte Fähigkeit bzw. Eigenschaft messen soll.
PTT: Was ist der (wissenschaftsgeschichtliche) Ursprung?
Intelligenztests
PTT: Was ist das bekannteste Modell?
Rasch Modell (1960)
PTT: Rash Model - von welchen zwei Faktoren haengt die Loesungswahrsheinlichtkeit ab?
(1) von der Fähigkeit oder Eigenschaftsausprägung einer Person (person parameter)
(2) der Schwierigkeit eines Items (item parameter)
PTT: Ist beziehung zwischen Personenfähigkeit und Itemlösungswahrscheinlichkeit deterministisch oder probabilistisch?
Probabilistisch! I.E., jeder Teilnehmer hat eine positive Wahrscheinlichkeit fuer jede Antwort
PTT: Was ist ein wichtiger theoretischer Vorteil der PTT ggueber der PTT?
PTT erlaubt Durchfuehrung eines Modelltests der die Erfuellung der voraussetzungen prueft (i.e., Zulaessigkeit der Summation der Itemwerte, Eindimensionalitaet)
PTT: Was bedeutet dass der Itemsummenwert eine erschoepfende Statistik der Personenfaehigkeit ist?
der Summenwert einer Person liefert alle Informationen über die Fähigkeitsausprägung der Person; aka präzise Definition von Itemhomogenität
PTT: Definition der Itemhomogenitaet - wie ist das formalisiert?
lokale stochastische Unabhängigkeit, die im Prinzip besagt, dass man die Lösungswahrscheinlichkeiten der Items für alle Personen multiplizieren darf
Welche 2 Fragen stehen am Anfang der Testkonstruktion?
- Merkmalsbereich: Was soll der Test messen?
2. Geltungsbereich: Wo, bei wem und wofür soll der Test eingesetzt werden?
Abgrenzung des Mermalsbereichs - 5 wichtige Verfahren/tools?
- Theoretische Ableitung
- Literaturrecherche
- explorative Verfahren der Datenerhebung
- Befragung von Experten (qualititative Interviews)
- Strukturierte Varianten der Merkmalsabgrenzung
Abgrenzung des Merkmalsbereichs -Strukturierte Varianten der Merkmalsabgrenzung - 3 Techniken
- Facettentheorie (Guttman, 1959)
- act frequency approach (AFA; Buss & Craik, 1983)
- Methode der kritischen Ereignisse bzw. critical incident technique (CIT, Flanagan, 1954)
Abgrenzung des Merkmalsbereichs -Strukturierte Varianten der Merkmalsabgrenzung -Facettentheorie - n Ueberlegungen
- Methode zur Systematisierung wissenschaftlicher Fragestellungen
- stellt Werkzeuge zur Verfügung, um einen Merkmalsbereich
a) vollständig einzugrenzen
b) in Teilmerkmale und Ausprägungen zu zergliedern
c) Beziehungen zwischen Facetten darzustellen zu skalieren
Arbeitsdefinition - typische Rolle in der Itementwicklung (AFA, CIT and beyond)?
AFA, CIT - Keine Arbeitsdefinition; Definition und Itemformulierung in einem Schritt;
otherwise: Arbeitsdefinition ist der Anfang
Geltungsbereich - worum geht es hier?
Zweck, Zielgruppe und Kontext des Testeinsatzes
Geltungsbereich 2 thoughts
- oft durch Spezifikationen des Auftraggebers eingeschränkt.
- Researcher must always think (ethics, illegal questions, inherent conflicts…)
Geltungsbereich - example for inherent conflict
Verwendung einer betrieblichen Leistungsbeurteilung für Festlegung von Gehaltsbestandteilen UND als Infor-mationsgrundlage der Personalentwicklung
5 grundlegende Vorgehensweisen zur Testkonstruktion
- Rational (deduktiv, theoriegeleitet)
- External (empirisch, kriteriumsorientiert)
- Internal (induktiv, faktorenanalytisch)
- typologisierend
- Prototypen
rationale Konstruktion: Ausgangspunkt (2 thoughts)
- geeignete theoretische Definition des Zielkonstrukts
2. deduktive Ableitung spezifischer Indikatoren
bekanntes Beispiel fuer rational entwickelten Test mit mehreren hierarchischen Ebenen
Berliner Intelligenz-struktur-Test (BIS-Test, Jäger, Süß & Beauducel, 1997)
rationale Konstruktion: Rolle der Empirie/Daten in der Itementwicklung?
Nicht Formulierung von Items, aber Testung, Validierung und Eliminierung von Items
Externale Strategie: Grundidee
Item-Auswahl zur Maximierung des empirischen Zusammenhangs mit einem Kriterium (what makes a good sales rep…); kriterienorientier
Externale Strategie: Rolle der Theorie?
Allgemein gering; Extremfall - theoriefrei (dust bowl empiricism); how about our predictive models?
Externale Strategie - welche Methode ist prinzipiell verwandt?
multiple Regression…!
Externale Strategie - 3 typische Probleme
- schwer interpretierbare Skalen (theoriefrei…)
- grosse Stichproben noetig
- unabhaengige Validierung (cross validation needed)
Externale Strategie - principieller Vorteil
praktischer Nutzen durch kriteriumsbezogene Validitaet
Externale Strategie - 2 bekannte Beispiel
Minnesota Multiphasic Personality Inventory, California Psychological Inventory
Externale Strategien - Beispiel Minnesota Multiphasic Personality Inventory - worum geht es?
klinischer Test, Unterscheidung zwischen psychisch unauffälligen und z.B. als schizophren, manisch usw. eingestuften Gruppen
Externale Strategien - Beispiel California Psychological Inventory - worum geht es?
auf Normalbereich bezogen; Subskala Socialization auf Praedisposition zu kriminellem Verhalten bezogen
Induktive Strategien - Grundidee
Generiere breiten Itempool, teste mit (kleiner) Stichprobe, generiere (homogene) Subskalen durch Faktorenanalyse
Induktive Strategien - bekanntes Beispiel
- Primärfaktorenmodell der Intelligenz (Thurstone & Thurstone, 1941)
- Fünf-Faktoren-Modells (OCEAN!)
Typologisierende Strategie - Grundidee
Identifikation von Gruppen von Personen oder Objekten auf der Grundlage empirischer Information
Typologisierende Strategie - typische Methode
Clusteranalyse
Typologisierende Strategie -Beispiel
Myers-Briggs-Type Indicator, MBTI
Typologisierende Strategie - common concern
auf empirische Fundierung und Prüfung wird oft verzichtet
Prototypenansatz - Grundidee
Vorgabe eines kognitiven Ankerreizes (Prototyp) und Einschaetzung von Objekten im Vergleich zum Prototyp
Prototypenansatz - Bezug zu AFA
AFA - prototypische Verhaltensweisen werden unmittelbar zur Abgrenzung des Merkmalsbereichs und der Itemgenerierung genutzt
Vergleichende Bewertung der 3 Hauptvarianten (intern, extern, rational)? 3 thoughts; summary see Tabelle 2.1
- kaum systematische Validitätsvorteile fuer eine Strategie
2 .kriterienbezogenen Validität: leichte Vorteile rational, Nachteile internal - Rational unschlagbar re: theoretische Fundierung, Interpretierbarkeit der Testergebnisse.
Generierung von Items (aka Aufgaben), 2 grundlegende Aspekte
- Inhaltlich (was fragen)
2. formal (wie fragen - Formulierung und Antwortformat)
7 inhaltliche Kategorien fuer Persoenlichkeitsitems
- Beschreibung von Reaktionen (beobachtbar, intern, physische Reaktion)
- Eigenschaftszuschreibungen
- Wünsche und Interessen
- Biografische Fakten
- Einstellungen und Überzeugungen
- Reaktionen anderer auf die eigene Person
- Bizarre items (jemand will mich vergisten)
Wofuer steht IPIP und was ist es?
International Personality Item Pool; frei verfuegbarer umfangreicher Itempool
Wofuer steht AFA?
act frequency approach (Buss & Craik, 1983)
AFA - Grundidee (2 elements)
- Metatheorie der Persönlichkeit
- Dispositionen als kognitive Kategorien aufgefasst, in denen Verhaltensweisen nach der Häufigkeit ihres Auftretens zusammengefasst werden.
AFA - Grundidee Beispiel: “Maria ist arrogant”
- Maria hat in einem gegebenen Zeitraum relativ zu einer sozialen Norm eine große Zahl arroganter Verhaltensweisen gezeigt
- Note - Grenzen des Konstrukts und Frequenz/threshold nicht klar definiert
AFA - Vorgehensweise bei der Generierung von Items; 2 steps
- Vpn (set 1) geben typische Verhaltensweisen fuer Menschen an, die Zieleigenschaft in hohem Masse besitzen; generiert items
- Vpn (set 2) schaetzen ab, wie typisch items fuer die Eigenschaft sind
AFA - assessment (2 elements)
- Gut: Beurteilung der Protypizitaet und empirische Befunde stimmen i.d.R. gut ueberein, Skalen lassen sich gut entwickeln
- Problem: allgemeiner Unterschied im Aktivitaetslevel (across Vpn)
AFA - Problem allgemeine Unterschiede im Aktivitaetslevel - what does that mean
Manche Versuchspersonen geben häufiger als andere an, dass sie Verhalten jeglicher Art gezeigt haben (oder sind tatsächlich generell aktiver), verzerrt Korrelationen
CIT - wofuer steht die Abkuerzung?
critical incident technique (CIT, Flanagan, 1954)
CIT - geschichtlicher Hintergund
Organisationspsychologie; ursprünglich als Verfahren der beruflichen Leistungsbeurteilung konzipiert
CIT und Itemgenerierung - Ansatzpunkt
Gedanke, dass sich gute oder unbefriedigende Leistungen in konkreten erfolgskritischen Ereignissen niederschlagen
CIT und Itemgenerierung - Ansatzpunkt - Beispiel
Nichteinhaltung von Wartungsintervallen durch einen Maschinenbediener kann zu einem kostspieligen Stillstand führen
CIT und Itemgenerierung - Vorgehensweise - 2 Schritte
- Use one set of SMEs to identify critical incidents
2. Validate list with different set of SMEs
CIT und Itemgenerierung - Vergleich zu AFA
- Prinzipiell aehnlich
2. Hauptunterschied - “acts” in AFA sind oft enger definiert als “incidents” in CIT
CIT - allgemeine Bewertung - general idea (1 positive, 1 negative)
- Positiv: kriterienbezogener Einsatz ist allgemein gut bewaehrt
- Negativ: Entwicklungsaufwand erheblich, Verhaltensbeispiele für mittlere Leistung schwer zu finden, Sammlung kritischer Ereignisse ergibt nicht immer homogene, interpretierbare Konstrukte
Was sind formal die 3 Bestandteile eines jeden Items?
- Itemstamm - eigentliche Frage, Aufgabe oder Reiz
- Antwortformat - moegliche Reaktionen
- Reihenfolge der items im Fragebogen
Wie wichtig sind Vortests zur Vorpruefung von Formulierungen
SEHR WICHTIG
Taxonomie von 8 Antworttypen (auf 2-3 Hierarchiebenen - think tree)
- frei: Ergaenzung, Kurzaufsatz
- gebunden
- Ordnung: Zuordnung, Umordnung
- Auswahl: Dichtomie, Mehrfachahl
- Beurteilung: Analogskala, Ratingskala - also - atypische Formate
thought on Leistungstests und freie Antworten
can work, given that there is usually one (or a limited set of) correct answer(s). e.g., In welchem Land liegt die Stadt Lima)
Nachteil re: freie Antworten - 3 ideas
- fehlende Standardisierung der Antworten; oft Notwendigkeit der Schaffung erschöpfender Musterlösungen
- Risiko von Folgefehlern (bad for stoch. independence)
- Auswertungsaufwand hoch
Definition gebundenes Antwortformat
alle Antwortmöglichkeiten vollständig vorgegeben
Gebundene Antwortformate - 2 Vorteile
- schnelle Auswertung (oft automatisch)
2. kein Interpretationsspielraum fuer Auswerter
Gebundene Antwortformate - Nachteil
unterschiedliche Interpretation der Antwortvorgaben (von verschiedenen Teilnehmern)
Was ist das haeufigste Antwortformat in der Persönlichkeits- und Einstellungsforschung?
die Einstufungs- oder Ratingskala (z.B. von „trifft zu“ bis „trifft nicht zu“ oder von „sehr gut“ bis „sehr schlecht“)
Ratingskalen - was sind die 3 Gestaltungselemente?
- Abstufung (n Stufen, n=?)
- Polarität
- Verankerung
Ratingskalen - Zahl der Abstufungen - was ist praktisch das psychometrische Optimum?
5-9 Stufen (zu wenige Stufen - zu wenig information; zu viele - ueberfordern VPN)
Ratingskalen - Zahl der Abstufungen - gerade vs ungerade Zahl von Stufen - 2 thoughts
- n=ungerade: gut, wenn neutrale Mittelstufe angeboten werden soll
- n=gerade: gut, wenn Proband sich entscheiden muessen soll
Ratingskalen - Abstufungen - thoughts on Ausweichkategorie (“weiss nicht”, “keine Angabe”)?
Kann Akzeptanz erhoehen, wird wegen der Erhöhung des Anteils fehlender Werte mit Auswertungsproblemen erkauft
Ratingskalen - Polaritaet - Definition unipolar/bipolar
- unipolar - Existenz eines logischen Minimums (e.g., „nie“)
- Bipolar: Extremauspraegungen durch gegensätzliche Begriffe gekennzeichnet
Ratingskalen - Verankerung
- Was sind Endpunkte?
- Wie sind Endpunkte identifiziert/beschrieben - Zahlen, Gesichterskala (think pain!), Worte (fast immer/fast nie)
- Sind nur Endpunkte oder auch alle Zwischenwerte klar identifiziert?
Ratingskalen - welches Skalenniveau messen sie? 2 thoughts
- Allgemein messen Ratingskalen nur Ordinalskalen
2. Oft Annahme dass Auswertung als Intervallskala ok ist
Ratingskalen - was sind Eigenschaften die Auswertung als Intervallskala erlauben?
(1) je mehr Skalenstufen je Item
(2) je mehr Items aggregiert werden
(3) je gleichmäßiger die Abstände zwischen den Skalenstufen von den Testteilnehmern empfunden werden
Ratingskalen - in welchen Situationen werden oft asymmetrische abstufungen gewaehlt/unterstellt?
um bei seltenen/sozial erwünschten Merkmalen in solchen Bereichen der Skala besser differenzieren zu können, in denen sich die Antworten sonst häufen würden
Ratingskalen und Anfälligkeit für Antworttendenzen - 3 causes for concern
- Antwort i.S., der sozialen Erwuenschtheit
- generelle Tendenz zur Zustimmung oder Ablehnung von Aussagen
- Bevorzugung bestimmter Skalenbereiche wie der Mitte oder den Extremen
Ratingskalen und dichotome Auswahlaufgaben - wichtiges Auswertungsproblem?
50% Chance der richtigen Antwort beim Raten… Erfordert deswegen viele Aufgaben… just don’t use them!
Mehrfachauswahlaufgabe - what is an important consideration when evaluating the alternative answers (particularly when only 1 option is allowed)?
sind die Antwortalternativen disjunkt
Mehrfachauswahlaufgaben in Leistungstests - Definition Distraktoren
falsche Antwortalternativen
Mehrfachauswahlaufgaben in Leistungstests - Distraktoren - Einfluss auf Schwierigkeit des Tests?
Schwierigkeit des Items hängt ganz wesentlich auch von der Wahl der Distraktoren ab
Mehrfachauswahlaufgaben bei Persönlichkeits- und Einstellungstests - forced-choice item, how do they work?
Praesentiere Antwortalternativen zusammen, die bei freier Auswahl ähnlich häufig bevorzugt würden, mit der Instruktion, genau eine davon auszuwählen
Mehrfachauswahlaufgaben bei Persönlichkeits- und Einstellungstests - forced-choice item, when are they usually considered?
Wirkt gegen die Tendenz zu sozial erwünschtem Antwortverhalten (Auswahl zwischen Alternativen die entweder beide allg. gut oder allg. schlecht sind)
Mehrfachauswahlaufgaben bei Persönlichkeits- und Einstellungstests - forced-choice item - 2 caveats
- Aufwand bei der Konstruktion erheblich
2. Verbesserung der Güte (e.g., Personalauswahlverfahren) empirisch nicht klar
Mehrfachauswahlaufgaben - Def. ipsative Messung
Forced Choice item bei dem die Antwortalternativen verschiedenen Merkmalen zugeordnet sind (statt verschiedenen Auspraegungen eines einzelnen Merkmals)
Mehrfachauswahlaufgaben - ipsative Messung - statistisches caveat
fehlende stochastische Unabhängigkeit der Antwortalternativen (implizit - Wahl von A ist Entscheidung gegen Alternativen, fuehrt zu künstlichen negativen Korrelationen zwischen Merkmalen)
Ordnungsaufgaben - wann sind sie besonders geeignet?
zur Abfrage von Wissen und Kennt-nissen in sehr kompakter und ökonomischer Form
Ordnungsaufgaben - was macht sie problematisch (2 thoughts)?
- Erhoehte Ratewahrscheinlichkeit durch sukzessiven Ausschluss von Antwortmöglichkeiten
- Wahrscheinlichkeit von Folgefehlern mit jeder Zuordnung innerhalb eines Items
Was sind 2 wichtige Reihenfolgeeffekte bei der Zusammenstellung von items in einem Fragebogen?
Assimilationseffekt
Kontrasteffekt
Reihenfolgeeffekte - was sind Strategien, dagegen?
- zufällige Reihung der items
- Platzierung inhaltlich zusammenhaengender items weit weg von einander (e.g., OCEAN-OCEAN)
- Powertest - Ordnung in ansteigender Schwierigkeit (wirkt gegen Entmutigung)
Wann haben wir einen Rohtest?
erste geordnete Itemsammlung
Was sind die 3 Ziele eines Pretests?
Pruefung der Items auf
- Verständlichkeit
- Eindeutigkeit
- Akzeptanz
Wie vergleichen sich Pretest und “echter” Test?
gleiche Zielgruppe
kleinere Stichprobe
ggf. Moeglichkeit, qualitativen feedback zu items zu geben
Fuer welches Inventar ist BFI die Abkuerzung?
Big Five Inventory; (BFI, John & Srivastava; deutsch von Lang, Lüdt-ke & Asendorpf, 1999)
KTT: Welche zwei Werte sind besonders wichtig in der Itemanalyse?
Itemschwierigkeit
Trennschaerfe (des Items mit dem gesamten Test)
KTT: Deskriptive Analyse des Datensatzes - erster Schritt?
Rekodierung
KTT: Rekodierung - was ist es und warum muessen wir es machen?
- Warum: Items sind oft unterschiedlich gepolt; d.h. hohe Werte stehen manchmal für hohe, manchmal für niedrige Ausprägungen des jeweiligen Merkmals
was: umdrehen
KTT: Rekodierung - wie komme ich zum SPSS Befehl (p59)?
TRANSFORMIEREN -> UMKODIEREN IN DIE-SELBEN VARIABLEN
oder
UMKODIEREN IN ANDERE VARIABLEN
SPSS 101: was sind die zwei Optionen fuer die Ausfuehrung eines jeden Befehls?
- hit “OK”: execute immediately
- hit “EINFUEGEN”: creates syntax document, can execute using arrow
ALWAYS CHOOSE option #2!!
SPSS: Wie komme ich zur deskriptiven Datenanalyse (Tabellenoutput)?
ANALYSIEREN -> DESKRIPTIVE STATISTIKEN -> DESKRIPTIVE STATISTIK, OPTIONEN wahlen
SPSS: Wie komme ich zur deskriptiven Datenanalyse (graphischer output, e.g., Histogramme)?
ANALY-SIEREN -> DESKRIPTIVE STATISTIKEN -> EXPLORATIVE DATENANA-LYSE -> DIAGRAMME
Explorative Datenanalyse, deskriptive Statistik, was bedeutet Schiefe
rechtssteile Verteilung
Explorative Datenanalyse, deskriptive Statistik, was bedeutet Exzess (Kurtosis)
breitgipflige Verteilung
Explorative Datenanalyse, deskriptive Statistik, welcher Test besagt of die Daten normalverteilt sind?
Kolmogorov-Smirnov-Tests (über EXPLORATIVE DATENANALYSE)
Explorative Datenanalyse, deskriptive Statistik, welcher Wert informiert ueber die Itemschwierigkeit?
Mittelwert
Explorative Datenanalyse, deskriptive Statistik, wie ist Itemschwierigkeit formal definiert?
P=Nr/N*100
Nr= Anzahl der Probanden, die Aufgabe richtig (i.S. des Aufgabenkriteriums)
gelöst haben
P: Schwierigkeitsindex ohne Korrektur
Explorative Datenanalyse, deskriptive Statistik, wie ist Itemschwierigkeit bei Persoenlichkeitstests zu interpretieren?
Anteil der i.S. einer hohen Ausprägung des Konstrukts
gegebenen Antworten
Explorative Datenanalyse, deskriptive Statistik, Schwierigkeitsindex mit Zufallskorrektur, formale Definition
Pzk={Nr-Nf/(m-1)}*(100/N)
PZK = Schwierigkeitsindex mit Zufallskorrektur Nf= # falsche Antworten
Schwierigkeitsindex - Modifikation wenn nicht alle Fragen beantwortet sind (Zeitbegrenzung)?
benutze im Nenner Nb (statt N), Nb= Anzahl der berbeiteten items; Index heisst dann Schwierigkeitsindex mit Inangriffnahmekorrektur
Schwierigkeitsindex - Transformation und Schwierigkeitsanalyse bei Ratingskalen
Transformierung der Antwortskala so, dass das theoretische Minimum den Wert Null annimmt (analog zu null richtigen Lösungen)
Schwierigkeitsindex - Zusammenhang Itemschwierigkeit und Informationshaltigkeit
ist Itemschwierigkeit im Durchschnitt gleich dem Mittelwert der Skala, ist Trennschaerfe maximal (reverse - if avg=max or min, no information… duh)
Definition Skala
Anazahl aufsummierter oder gemittelter Items; sollen dieselbe Eigenschaft/ Fähigkeit erfassen
(Eigen-)Trennschaerfe und Bedeutung in der KTT
der wichtigste Indikator , wie gut jedes einzelne Item das zugrunde liegende Merkmal abbildet (Prototypikalitaet)
(Eigen-) Trennschaerfe - statistische Definition/Approach
korrigierte Korrelation (Part-whole-Korrektur) einer Aufgabe mit einer Skala
Fremdtrennschaerfe, Definition
Korrelationen von Items mit den Skalen oder Testwerten anderer Fragebögen oder mit Kriterien (e.g., Berufserfolg)
Fremdtrennschaerfe - wann ist sie konzeptionell besonders wichtig?
externale Skalenkonstruktion
Berechnung der Trennschärfe mit der Skala, Part-whole-Korrektur - Motivation
Item geht in Skala ein; fuehrt ohne Korrektur zu Ueberschaetzung der Trennschaerfe
Berechnung der Trennschärfe mit der Skala nach Part-whole-Korrektur - formula
Produkt-Moment-Korrelation
nach Part-Whole-Korrektur, p69
Trennschaerfe - part-whole Korrektur - wann ist sie besonders wichtig (2 drivers)?
- je kuerzer Skala (few items)
2. Je heterogener die Skala ist
Wann wird eine Skala als homogen bezeichnet?
wenn items hoch positiv korreliert sind
Skalenhomogenitaet und - heterogenitaet, link to item selection/ exclusion (2 considerations)
- Zu homogen -Redundanz (dreimal das gleiche fragen - not smart)?
- negative Trennschaerfe - definitiv Ausschluss aus der Skala
Trennschaerfe - statistical concerns to watch for
- Trennschaerfe ist Korrelation - alles, was Varianzen beeinflusst, kann verzerren
- Watch out for extreme value (rare here, given limite selections in a Ratingskala), bimodal distributions
- niedrive Varianz dank schiefer Verteilung
What kind of considerations matter most when selecting items - statistics or substantive considerations
INHALTLICH; blinde Anwendung von Trennschaerfe-Analyse ist sehr gefaehrlich
Trennschaerfeanalyse in SPSS - Befehle
ANALYSIEREN -> SKALIERUNG -> RELIABILITÄTSANALYSE, p. 70
Trennschaefeanalyse - welcher Wert wird oft als Faustregel fuer min acceptable gesehen (Faustregel)
0.3; if less, consider eliminating item (but - always think first…)
Item selection - before making the final call - which 4 factors should you consider together?
- Item-Schwierigkeit
- Trennschaerfen
- andere deskriptive Statistiken (Varianz, Korrelationen mit Aussenkriterien etc.)
- inhaltliche Gesichtspunkte
Was ist das am weitsten verbreitete Modell der PTT Testkonstruktion?
Rasch-Modell
PTT - was ist die Grundfrage, welche die Modelle beantworten wollen?
wie kommen Antworten auf Items zustande; macht Untersuchung von Antwortmustern wichtig
PTT - Rasch-Modell - von welchen zwei Parametern haengt die Lösungswahrscheinlichkeit für ein bestimmtes Item ab?
- Fähigkeit oder Eigenschaftsausprägung einer Person
2. Schwierigkeit eines Items
PTT - Rasch Modell - wie ist die Beziehung zwischen Person Parameter, Item Parameter und Itemanwort?
probabilistisch
PTT - Rasch-Modell - statistische Interpretation des ungewichteten Summerwertes der Itemantworten?
ist erschoepfende Statistik (korrekt nur wenn Rasch-Modell nicht durch Modelltests abgelehnt wurde)
Def. erschoepfende Statistik (bzgl. ungewichteter Summenwerte der Itemantworten im Rasch-Modell)?
Summenwert einer Person liefert alle Informationen über die Fähigkeitsausprägung der Person
PTT - Rasch-Modell - wie viele Dimensionen hat ein item?
eine; i.e., Antwort auf ein Item ist komplett auf eine einzige Fähigkeits- oder Eigenschaftsausprägung zurückzuführen (nut bei Gueltigkeit des Modells)
PTT - Rasch-Modell - Eindimensionalitaet - formelle Definition, weniger strikte Variante?
Korrelation zwischen den Items eines Tests verschwindet nach Auspartialisierung der latenten Eigenschaft (d.h. bei deren konstanter Ausprägung); lokale Unabhängigkeit.
PTT - Rasch-Modell - Eindimensionalitaet - formelle Definition, striktere Variante?
lokale stochastische Unabhängigkeit; ist gegeben, wenn für jede einzelne Person die Lösungswahrscheinlichkeiten zweier bel. Items multipliziert werden dürfen um kombinierte Lösungswahrscheinlichkeit beider Items zu ermitteln
PTT - Rasch-Modell - 3 Eigenschaften
- Summenwert ist erschoepfende Statistik
- Eindimensionalitaet
- Spezifische Objektivitaet
PTT - Rasch-Modell - Def. spezifische Objektivitaet
Objektivitaet der Vergleiche zwischen verschiedenen Personen ist gegeben (unter Geltung des Rasch-Modells)
PTT - Rasch-Modell - spezifische Objektivitaet - 2 Invarianzen
- über die spezifischen Items und Maße, die verwendet werden
- über die spezifischen Personen, an denen die Items kalibriert werden
PTT - Rasch-Modell - griechischer Buchstabe fuer Personen Parameter?
theta
PTT - Rasch-Modell - griechischer Buchstabe fuer Item Parameter?
sigma
PTT- Rasch-Modell - logische Beziehung zwischen Person Parameter und der latenten Variable
die beiden sind identisch; e.g., Intelligenz
PTT - Rasch Modell - logische Abfolge in Schaetzung von Item- und Personenperameter?
Schätzung der Personenparameter setzt die Kenntnis der Itemparameter voraus
PTT-Rasch-Modell - mit welcher Methode werden Item-Parameter normalerweise geschaetzt?
conditional Maximum-Likelihood-Methode (cML)
PTT - Rasch-Modell - was ist die Skalierung der Personen-Faehigkeit?
Differenzskalenniveau (logarithmierte Verhältnisskala)
PTT - Rasch-Modell - Personen-Faehigkeit - was ist die Messeinheit?
Logit-Einheit (abstrakte Einheit); explanatory methaphor - how many Orangen does ist take to make one liter of orange juice?
PTT - Rasch-Modell - Personen-Faehigkeit - Messeinheit - welche Transformation fuehrt zur Logit-Einheit
Logit-Transformation (duh); note - Intelligenzskala ist KEINE Logit Transformation, sondern T-Wert Transformation
PTT - Rasch-Modell - in welchem Bereich liegen Personen- und Itemparameter normalerweise?
zwischen -3 und +3 (aber prinzipiell minus/plus unendlich)
PTT - Rasch-Modell - Personen- und Itemparameter - wie interpretieren wir niedrige (hohe) Werte?
niedrig: leichte items, geringere Faehigkeit
hoch: schwierige items, hoehere Faehigkeit
PTT - Rasch-Modell - Personen- und Itemparameter - mathematische Verknuepfung, Interpretation
- verknuepft durch Division von theta (Person parameter) durch sigma (Schwierigkeit)
- Quotient ist Wahrscheinlichkeit, das Problem zu loesen in Abhaengigkeit von PersPar., It.Par.
PTT - Rasch-Modell - Personen- und Itemparameter - mathematische Verknuepfung - graphische Darstellung
x-Axis: ratio (or difference) theta (person parameter) and sigma (it.par.); note: this assumes identical units…!
y-Axis: Probability to solve problem
graph: like S-curve, called item-characteristic curve (ICC)
PTT - Rasch-Modell - item-characteristic curve (ICC) - Ermittlung der Itemschwierigkeit
Step 1: Find where y=0.5 (odds to answer item correctly are 50:50)
Step 2: go right from x-axis until hit curve
Step 3: drop straight down to x-axis to find theta/sigma
PTT - Rasch-Modell - ist Normstichprobe erforderlich zur Interpretation der Ergebnisse?
NEIN - kann Loesungswahrscheinlichkeit direkt berechnen
PTT - Rasch-Modell - wo finde ich die Formel zur berechnung der Loesungswahrscheinlichkeit eines items?
p83
PTT - Rasch-Modell - Modelltest - was ist die einfachste Methode (erste Methode)?
der Grafische Modelltest
PTT - Rasch-Modell - Modelltest - Grafischer Modelltest
Streudiagramm; Schaetzung der Itemparameter aus zwei Teilstichproben; wenn Modell gueltig ist, sind itemparameter unabhaengig von Stichprobe, alle Werte auf Winkelhalbierenden (y-x), see Abb. 3.16