Einführung Flashcards
Definitionen, Gütekriterien, Begriffe
Was ist ein Test?
- ein wissenschaftliches Routineverfahren
- Erfassung abgrenzbarer psy Merkmale
- Ziel: quantitative Aussage über Merkmalsausprägung
Routineverfahren= - so detailiert, dass es andere Testleitende einsetzen können
- an großer Stichprobe erprobt
Was ist mit Wissenschaftlichkeit gemeint?
- es muss eine Theorie geben unter welchen Bedingungen welche Aussagen anhand Testergebnisse ableitbar sind
= genaue Vorstellung über das Merkmal, Qualitätsansprüche
Was sind die primären Aufgabengebiete der Testtheorie?
- Formulierung theoretischer Hintergrund
- Festlegung und Quantifizierung von Qualitätsansprüchen
Was ist ein psychologisches Merkmal?
Überbegriff:
- Traits oder Eigenschaften = zeitlich stabil
- States = zeitlich begrenzte biolog, emo & kog Zustände
- Erlebens- und Verhaltensweisen
latent/beobachtbar -> latente Merkmale durch messbare Sachverhalte “erschlossen”
Was bedeutet Messen?
einem Objekt (empirisches Relativ) einen Zahlenwert (numerisches Relativ) so zuordnen, dass zumindest eine Eigenschaft des numerischen Relativs auch für das empirische Relativ gilt
-> Zahlenwerte vergleichbar
-> je nach theoretischer Fundierung unterschiedliches Skalenniveau
Was ist ein Fragebogen?
- wird für unterschiedliches verwendet:
- schriftliche Befragung zur Erhebung von demoskopischen, schulischen, medizinischen, etc. Daten
- Instrument zur “Selbst- oder Fremdeinschätzung” zB Persönlichkeitstest
Welche Testarten kennen wir?
- Leistungstests
- Persönlichkeits- und Interessenstests
- objektive Persönlichkeitstests
- projektive Verfahren
- apparative Tests
Was sind Leistungstests?
- erfassen Konstrukte die sich auf kognitive Leistungen beziehen
- es soll die maximale Leistung unter den jeweiligen Testbedingungen erfasst werden
- die Antworten haben falsche und richtige Antworten
Was sind Persönlichkeitsfragebögen?
- verfolgen das Ziel für eine Person typisches Verhalten zu erfassen
- verwenden mehrere Fragen pro Persönlichkeitsmerkmal
- keine richtigen und falschen Antworten
- im Allgemeinen leicht verfälschbar
Was sind Objektive Persönlichkeitstests?
- versuchen das Ausmaß an Verfälschbarkeit zu reduzieren zB soziale Erwünschtheit
- indem Persönlichkeitsmerkmal nicht durch subjektive Urteile sondern über Verhalten in standardisierten Situationen erfragt wird
Was sind Projektive Tests?
- versuchen Persönlichkeits as Ganzes zu erfassen
- nimmt Rücksicht auf individuelle Erlebnis- und Bedürfnisstrukturen
- nutzt mehrdeutiges Material zB BIlder um unbewusste oder verdrängte Bewusstseinsinhalte zu erfassen
- oft explorativen Charakter
Was sind Apparative Tests?
- 2 Arten:
- Tests für sensorische/motorische Merkmale zB Muskelkraft, Geschicklichkeit, sensomotorische Koordination
- computerbasierte Tests, spezialisierte Varianten von Leistungs- und Persönlichkeitsfragebögen sind
Was sind die Testgütekriterien?
Hauptgütekriterien: Objektivität, Reliabilität, Validität
Nebengütekriterien: Skalierung, Normierung, Ökonomie, Nützlichkeit, Zumutbarkeit, Unverfälschbarkeit, Fairness
Wann ist ein Test objektiv?
- wenn er das Merkmal unabhängig von der Testsituation und der testleitenden Person (Durchführungsobjektivität, Testleiter:innenunabhängigkeit), der auswertenden Person (Auswertungsobjektivität, Verrechnussicherheit) und der interpretierenden Person (Interpretationsobjektivität, Interpretationseindeutigkeit) misst.
Was ist die Durchführungsobjektivität und wie kann sie gewährleistet werden?
- Ergebnis unabhängig von Testleiter:in und Situation
- mögl standardisierte Bedingungen
- schriftliche, klare Instruktionen für Testleiter:in -> Konstanz der Fragen/Aufgaben
- geringe soziale Interaktion zwischen Testleiter:in und getesteter Person
- möglichst ähnliche Untersuchungssituation
-> Angabe der vorgesehenen Zeitdauer
-> Testverhalten der Versuchsperson soll nur von der individuellen Merkmalsausprägung abhängen
Was ist die Auswertungsobjektivität und wie kann sie gewährleistet werden?
- verschiedene Auswerter:innen kommen beim Vorliegen der Antworten zum selben numerischen Ergebnis
- Vermeidung freier Antwortformate
- klare Auswertungsregeln
- Verwendung von MC-Format
- kann berechnet werden: zB Cohens Kappa, Fleiss Kappa, Konkordanzkoeffizienten nach Kendall
Was ist die Interpretationsobjektivität und wie kann sie gewährleistet werden?
- beim Vorliegen der Testergebnisse kommen unterschiedliche Anwender:innen zum selben Schluss
- klare Interpretationsregeln
- Vorhandensein von Normen und Normwerten -> normorientierte Interpretation
- Verwendung von Prozenträngen
Was gibt der Prozentrang (PR) an?
wie viele Prozent der Referenzpopulation diesen oder einen schlechteren Testwert erzielen
Wann ist ein Test reliabel?
- wenn er das Merkmal zuverlässig daher exakt, ohne Messfehler, misst.
Welche Skalenniveaus gibt es und welche Rechenmethoden sind erlaubt?
- Nominal: x=y, x=/=y zB Gender
- Ordinal: x<y, x>y zB Zieleinlauf
- Intervall: x+y, x-y zB Celsius
- Verhältnis: Nullpunkt, x*y,x/y zB Kelvin
Was ist eine Population?
Menge aller potenzieller Untersuchungsobjekte
µ = Mittelwert der Population
σ² = Varianz der Population
ρ(x,y) = Populationskorrelation (rho)
Was ist eine normierte Testwertinterpretation?
z-Werte, t-Werte etc
Was ist eine kriteriumsorientierte Testwertinterpretation?
an kriterium gebunden
Wie kann laut KTT die Reliabilität gemessen werden?
Reliabilität = Quotient aus wahrer Varianz & Gesamtvarianz der Testwerte
Messfehlervarianz = Unreliabilität des Messinstuments -> Maßband aus Gummi
Was ist der Reliabilitätskoeffizient? Wie hoch sollte der Reliabilitätskoeffizient bei einem guten Test sein?
Rel = zwischen 0 und 1
1 = frei von Messfehler
0 = Wert nur Messfehler
guter Test: .7
-> mehrere klassische Verfahren: bauen auf KTT auf, strenge Annahmen
Was ist die Retest Reliabilität?
- schätzt Reliabilität als Korrelation zwischen Testwerten der 1. und 2. Messung
- Problem dabei: zB Übungseffekte, tatsächliche Veränderungen der Testwerte werden anhand der LST-Theorie identifiziert bzw. berücksichtigt
Was ist die paralleltest Reliabilität?
- kontrolliert Übungseffekte, Erinnerungseffekte, Merkmalsveränderungen
- zB Itemzwillinge -> 2 Testformen
- anhand faktorenanalytischer Verfahren geprüft
Was ist die Testhalbierungs- (Split-half) Reliabilität?
statt Testwiederholung 2 Testhälften
Halbtestkorrelation ist geringer als Gesamtreliabilität -> Korrekturformel (Spearman-Brown-Formel) nötig um Halbtestkorrelation auf Gesamtreliabilität der ursprünglichen Testlänge hochzurechnen
Was ist Crohnbachs Alpha?
- Verallgemeinerung der Testhalbierungsmethode:
- jedes Item wird als eigenständiger Testteil angesehen, je stärker jedes Item miteinander korreliert desto mehr reliabel ist der Test
- Voraussetzung: Annahme dass die Kovarianzen zwischen Items identisch sind -> prüfbar anhand CFA
- Kritik: problematisch dass so strenge Annahmen nötig sind
- von unkritischer Verwendung ist abzuraten
Welche modellbasierten Methode der Reliabilitätsschätzung kennen wir?
- Omega Koeffizient:
mehrdimensionale Konstrukte möglich
CFA bestimmt ob Voraussetzungen erfüllt - auf Basis der KTT
- weniger strenge Annahmen
Wann ist ein Test valide?
= gültigkeit
= wenn er das misst, was gemessen werden soll -> in der Praxis am wichtigsten
Konstruktvalidität, Kriteriumsvalidität, Augenscheinvalidität, Inhaltsvalidität
Was ist die Konstruktvalidität?
Ist Zusammenhangsstruktur zwischen Testitems und interessierenden Persönlichkeitsmerkmalen (Konstrukt) wissenschaftlich fundiert?
Struktursuchende und strukturprüfende Verfahren
Was sind struktursuchende faktorenanalytische Verfahren? Wozu werden sie angewendet?
- helfen dabei geeignete Dimensionalität aufzustellen
- exploratorische Faktorenanalyse (EFA): Hypothesen über Dimensionalität (ein- oder mehrdimensional) der Merkmalsstruktur
- Faktorladungen geben Auskunft über Homogenität des Tests
- einordnung in nomologisches Netzwerk: Zusammenhänge zu anderen Tests
- Testergebnisse empirisch hinsichtlich Ähnlichkeit verglichen (konvergenter und diskriminanter Validität)
Was ist konvergente Validität?
gibt an ob Test gewolltes Merkmal misst
Vgl. mit konstruktnahem Test -> Ergebnisse ähnlich?
Was ist diskriminante Validität?
gibt an ob das Merkmal abgrenzbar ist
Vgl: mit konstrkutfernem Test -> Ergebnisse unähnlich?
-> Bestätigung dass es ein abgegrenztes Konzept ist
-> Multitrait-Multimethod-Analysen (MTMM-Analyse)
Was ist die konfirmatorische Faktorenanalyse (CFA)?
Kreuzvalidierung, inferenzstatistische Absicherung der anhand EFA gefundenen dimensionalen Strukturen der Testitems anhand von neuen Daten
Was überprüft die Multitrait-Multimethod-Analyse?
überprüft Zusammenhang unterschiedlicher Merkmalen (Traits) unter Herauspartialisierung der Methodeneinflüsse strukturprüfend
Was ist Kriteriumsvalidität?
wie gut kann Testkennwert erfolgreich ein Kriterium (Verhaltensweise) außerhalb der Testsituation extrapolieren (vorhersagen)?
Was ist Kriteriumsvalidität?
wie gut kann Testkennwert erfolgreich ein Kriterium (Verhaltensweise) außerhalb der Testsituation extrapolieren (vorhersagen)?
-> valide hinsichtlich des Kriteriums
* an keine besonderen testtheoretischen Annahmen gebunden
*abhängig von zeitlicher Verfügbarkeit:
- Übereinstimmungsvalidität (=konkurrente Validität) = zeitgleich
- Verhersagevalidität (=prognostische Validität) = prognose
Was ist die Augenscheinvalidität?
- inwieweit Gültigkeitsanspruch eines Tests vom bloßen Augenschein her einem Laien gerechtfertigt ist
- wichtig für Akzeptanz
zB Intelligenztests
Was ist die Inhaltsvalidität?
- Testitems bilden das interessierende Merkmal repräsentativ ab
- in der Regel nicht numerisch sondern durch logische und fachliche Überlegung
- erfüllt wenn Merkmal vollständig erfasst werden konnte
- Bewertung von Expert:innen
- einfachste Methode: simulationsorientierte Zugangsweise: Items geben unmittelbar Auskunft über Verhaltensbereich zB Rechtschreibkenntnisse anhand Diktat prüfen, Fahrkenntnisse anhand Autofahren prüfen
Was ist der argumentationsbasierte Validierungsansatz?
- Weiterentwicklung des Validitätsverständnis
- früher: Eigenschaft eines Tests; heute: Interpretation
- Validität integriert Infos aus verschiedenen Quellen, fortwährend argumenativer Prozess
- jede intendierte Testwertinterpretation benötigt eine seperate Validierung
- Interpretationen festlegen, formulieren, empirische Grundannahmen identifizieren -> stützen/widerlegen. Evidenzquellen: Testinhalte, bei der beantwortung ablaufende Prozesse, interne Struktur der Testdaten, Beziehung von Testvariablen zu anderen Konstrukten
-> abschließende zusammenfassende Bewertung: valide, wenn keine der zugrunde liegenden Annahmen widerlegt werden konnte
Was ist das Gütekriterium Skalierung?
- wenn die laut Verrechnungsregel resultierenden Testwerte (numerisches Relativ)die tatsächlichen Merkmalsrelationen (empirisches Relativ) adäquat abbilden
- im Rahmen der IRT ist man nicht darauf angewiesen das Skalenniveau mit externen Kriterien zu bestimmen -> Gütekriterium der Skalierung kann anhand von IRT Modellen statistisch überprüft werden
Was ist Normierung (Eichung)?
- welche Population?
- verschiedene Testanwender verschiedene Testwerte von verschiedenen Testpersonen bezüglich des gleichen Merkmals in gleicher Weise interpretieren
-> Bezugssysteme -> repräsentativ - Normwerte zB IQ, z-Wert, t-Wert
-> Bezug auf Abstand des Testwerts Yx vom Mittelwert der Testergebnisse
-> normalverteilt, Interpretation über Flächenanteile der Standardnormalverteilung
-> wenn nicht normalverteilt Prozentränge, Flächentransformation
1. Eichtabellen gültig (alle 8 Jahre prüfen, Neonormierung zB Lerneffekte)
2. Population definiert
3. Stichprobe für Eichtabelle repräsentativ
Was ist die kriteriumsorientierte Testwertinterpretation?
Zuordnung von Testleistungen zu inhaltlich begründbaren Merkmalausprägungen -> Score erreicht -> Major Depression -> erhöht interpretationsobjektivität
Was ist Ökonomie?
Wie viel Zeit/Ressourcen habe ich?
2 Faktoren:
1. finanzieller Aufwand
2. zeitlicher Aufwand: Testzeit, Auswertung
Erkenntnisgewinn > Kosten
Computer erhöhen Ökonomie zB adaptives Testing
Was ist das Gütekriterium Nützlichkeit?
welchen Nutzen hat der Test im Sinne der Kriterumsvalidität?
Anwendungsmöglichkeiten?
Was ist das Gütekriterium Zumutbarkeit?
wie belastend ist der Test?
Zeit, psy, physischer Aufwand
betrifft ausschließlich Testperson
gesellschaftliche Normen, Akzeptanz
Warum sind Prozentränge cool?
- setzen keine Intervllskalierung der Testwerte voraus
- setzen keine Normalverteilung der Testwerte voraus
- sind eine einfache inhaltliche Interpretation der Testergebnisse
Was sind z-Werte?
- Standardmesswert
- intervallskaliert + normalverteilte Testwerte
- definiert durch:
z=(x-x̄)/ô(X)~NV (0,1)
mit x̄~µ(x) und ô(X)~σ(X) - legen relative Position des Testkennwerts der getesteten Person bezogen auf die Referenzpopulation dar
- positiv bei überdurchschnittlichen Ergebnissen
- negativ bei unterdurchschnittlichen Ergebnissen
- jeder z-Wert ≙ ein Prozentrang -> z-Tabelle
-> Flächentransformation: intervallkalierte aber nicht normalverteilte Testkennwerte können mit Hilfe von z-Werten in normalverteilte Kennwerte transformiert werden
Welche Schritte gibt es in der Testkonstruktion?
- Planung
- Itemkonstruktion
- Erstellung der vorläufigen Testversion
- Erprobung an Stichprobe
- Itemanalyse und Überarbeitung
- Normierung
Welche Fragen fragen wir bei der Planung der Testkonstruktion?
-wer? Zielgruppe: KInder/Erwachsene
-wie? Struktur: Fragen?
-was? welches Merkmal?
-wo? welchen Geltungsbereich?
-wie lange?
Welche Strategien sind bei der Itemkonstruktion zu beachten?
unterschiedliche Strategien:
- intuitive Konstruktion
- rationale Konstruktion
- externale (kriteriumsorientierte) Konstruktion
- internale (faktorenanalytisch) Konstruktion
Wie läuft die intuitive Itemkonstruktion ab und was sollte dabei beachtet werden?
- Items intuitiv von Testkonstrukteur:in ausgewählt
- nur wenn theoretischer Erkenntnisstand gering ist
Wie läuft die rationale Itemkonstruktion ab und was sollte dabei beachtet werden?
- Merkmal wird differenziert und spezifiziert
- Verhaltensindikatoren festgelegt
- elaborierte Theorie über Differenziertheit von Personen hinsichtlich des interessierenden Merkmals besteht bereits
Wie läuft die externale (kriteriumsorientierte) Itemkonstruktion ab und was sollte dabei beachtet werden?
- großer Itempool Personen vorgegeben die sich im externen Merkmal (Kriterium) stark unterscheiden
- Items ausgewählt die gut zwischen Gruppen mit unterschiedlichen Ausprägungen im Kriterium diskriminieren
- Diskriminierungsfähigkeit der Items wird anhand anderer Stichprobe überprüft
Wie läuft die internale (faktorenanalytische) Itemkonstruktion ab?
- Items werden konstruiert die eine hypothetische Verhaltensdimension erfassen sollen
- Stichprobe vorgegeben
- Faktorenanalyse -> Ergebnisse zu Skalen zusammengefasst
Was muss bei der Berechnung des Testwerts beachtet werden?
X=Σxi
- gut wenn vorher anhand Modelltests festgestellt wurde, dass die strengen Messtheoretischen Voraussetzungen zur Eindimensionalität und der Unkorreliertheit der Messfehler erfüllt ist