Praxis der Testkonstruktion - Normierung Flashcards
Ermittlung eines Testrohwerts
Muss man nicht immer machen.
z.B.: nicht nötig wenn ein Test nur für die Forschung verwendet werden soll.
Ermittlung eines Testrohwerts: Ein Testergebnis liegt zunächst als Rohwert vor
• i.d.R.: Summe der Itemwerte
• z.B.: Leistungstests: Anzahl der richtig gelösten Aufgaben
• z.B.: Persönlichkeitstests:
o Anmerkung: negativ gepolte Items müssen zunächst in Indexrichtung umgepolt werden
o Bei Ja-Nein-Items: Anzahl der (in Indexrichtung) bejahten Items
o Ratingskalen: Summer der jeweiligen Ratings für die Items.
• Selten: Gewichtung der Items
Geschieht bei Tests, die für die diagnostische Praxis gemacht werden, eher selten, weil Gewichtung sehr aufwendig ist. Bei computerbasierten Tests ist das natürlich einfacher.
Interpretation des Testrohwerts
Interpretation des Testrohwerts
• Problem: Testrohwerte sind nicht unbedingt direkt aussagekräftig
• Beispiel:
o Schüler nimmt an Rechentest und Vokabeltest teil
o Rechentest: Er löst 18 von 20 Aufgaben (90%)
o Vokabeltest: Er löst 21 von 30 Aufgaben (70%)
Ist er wirklich im Rechnen besser?
Hängt von der jeweiligen Aufgabenauswahl ab…
Zur Beurteilung wird ein sinnvoller Vergleichsmaßstab benötigt.
• Grundsätzlich kommen als Vergleichsmaßstab in Frage:
o Testrohwerte bei vergleichbaren Personen (normorientierte Interpretation)
o Abgleich mit psychologisch-inhaltlichen Beschreibungen, die die Bedeutung der Testrohwerte charakterisieren (kriteriumsorientierte Interpretation) z.B.: Bestehensgrenze eines Tests bei einer bestimmten Punktzahl
• Normorientierte Interpretation: Eine normorientierte Interpretation liegt bereits vor, wenn ein individueller Testrohwert zum durchschnittlichen Rohwert (Mittelwert) einer Vergleichsgruppe in Bezug gesetzt wird. Beispiel:
o Schüler A löst 21 Vokabelaufgaben
o Mitschüler lösen M = 16 Aufgaben (SD = 4)
Die Leistung von Schüler A ist überdurchschnittlich
• Nachteil der Arbeit mit Rohwertpunkten: Testwerte nicht direkt über verschiedene Testverfahren hinweg vergleichbar Übersetzung der Rohwerte in Normwerte
Normierung von Testverfahren
Normierung von Testverfahren
• Bei der normorientierten Interpretation wird der Testrohwert eines einzelnen Testanden in einen Normwert übersetzt, der dann mit anderen Testleistungen vergleichbar ist.
• Dieser Normwert positioniert diese Person hinsichtlich ihrer Merkmalsausprägung innerhalb einer Bezugsgruppe. (z.B.: besser als die meisten…)
• Grundlage für die Ermittlung eines Normwertes ist die Normierung des Testverfahrens
• Die Normierung erfolgt üblicherweise an einer eigens gezogenen Eichstichprobe
wichtig: andere Stichprobe als Konstruktionsstichprobe (Werte der Konstruktionsstichprobe können nicht zur Normierung verwendet werden), weil der vollständige Test sich von dem Test, der der Konstruktionsstichprobe vorgelegt wurde, unterscheidet.
• Eichstichprobe
o Muss repräsentativ für die Population sein
o Muss hinreichend groß sein; abhängig von
Differenziertheit der angestrebten Normen
Heterogenität der Population; ggf. spezielle Normen für Untergruppen:
Je heterogener die Population, desto größer muss die Eichstichprobe sein.
Es lassen sich 3 grundsätzliche Arten von Normskalen unterscheiden:
- Äquivalenznormen
• Es wird betrachtet welcher Altersgruppe eine Leistung äquivalent ist
o Z.B. jemand löst so viele Intelligenzaufgaben wie ein 8jähriges Kind Intelligenzalter IA = 8
o Um das Intelligenzalter mit dem Lebensalter (LA) zu verbinden wurde von William Stern der IQ eingeführt: (Stern’scher) IQ = IA/LA (wird üblicherweise mit 100 multipliziert)
(nicht mit heutzutage gebräuchlichem Abweichungs-IQ verwechseln)
• Vorteil: sehr anschaulich
• Probleme:
o evtl. qualitative Unterschiede zw. Altersstufen
o können nur in einer Phase eingesetzt werden, in der Entwicklung nachgewiesen werden kann
o setzt voraus, das Altersunterschiede vorhanden sind
• Äquivalenznormen werden kaum mehr eingesetzt (Heute eher Variante 2. oder 3.) - Prozentränge (Flächennormen)
• Prozentrang (PR) = Wie viel Prozent der Vergleichspopulation wiesen eine geringere oder max. gleiche Merkmalsausprägung auf
z.B.: PR = 40 40% der Population haben geringeren oder gleichen Testwert, 60% höheren
• Es handelt sich um eine nicht-lineare Flächentransformation
• Bestimmung erfolgt über die kumulierte Häufigkeitsverteilung:
fcum
PR = ∙ 100
N
Bei kategorisierten Rohwertklassen (bzw. genauere Form): fcum – fi/2 PR = ∙ 100 N • Prozentrangnorm
• Vorteile:
o Relativ anschaulich (auch für Laien)
o Verteilungsunabhängig
• Nachteil: Prozentränge sind nicht intervallskaliert, d.h. der Unterschied zwischen Prozenträngen kann nicht ohne weiteres interpretiert werden.
o Z.B. Abstand zwischen PR = 45 & PR = 55 ist i.d.R. geringer als Abstand zwischen PR = 5 & PR = 15
5 15 45 55 3. Abweichungsnormen (auch: Variabilitätsnormen) • Abweichungsnormen geben an wie weit ein bestimmter Testwert vom Populationsdurchschnitt entfernt ist • Vorteil (gegenüber Prozentrangnormen): Intervallskalierung • Es gibt eine Reihe häufig verwendeter Normskalen • Verwendete Normskala und konkretes Vorgehen hängt von Rohwerteverteilung ab: o Normalverteilte Rohwerte Standardnormen (z.B.: IQ, Standardwert) o Keine normalverteilten Rohwerte Standardnormäquivalente (z.B.: T-Wert, Stanine) • übliche Normskalen
• Abweichungsnormen bei normalverteilten Rohwerten
o Normierung erfolgt über Standardnormalverteilung
x- M
z =
SD
o Z-Wert wäre eigentlich schon sinnvolle Normskala; ist aber unpraktisch, weil
negative Werte
ausreichende Differenzierung erfordert Dezimalzahlen
weitere Transformation in Standardnormskalen: allgemein:
Normwert = μ + σ ∙ z z.B.: IQ = 100 + 15 ∙z (μ = Mittelwert; σ = Streuung)
o Auswahl einer Normskala abhängig von
Gewünschter Differenzierungsfähigkeit (hoch: IQ; niedrig: Stanine): Bei klinischen Skalen eher Stanine
Genauigkeit der Messung: Je genauer die Messung ist, desto feiner kann man sich erlauben zu differenzieren. Bei ungenauer Messung ist fein differenzierte Normskala unsinnvoll.
Größe der Eichstichprobe. Ist die Eichstichprobe klein, ist feine Differenzierung unsinnvoll
o Erstellung einer Normtabelle: Berechnung für jeden einzelnen Rohwert
o Bei normalverteilten Rohwerten werden Prozentränge dann i.d.R. über die Standardnormalverteilung vergeben ermittelt. (Ausgehen von theoretischen Daten)
• Abweichungsnormen bei nicht normalverteilten Rohwerten
o Bei nicht normalverteilten Rohwerten ist die Standardnormierung so nicht durchführbar
o Mögliche Gründe für Abweichung von NormV:
Merkmal ist nicht normalverteilt Verwendung von Prozentrangnormen (verteilungsfrei)
Heterogene Analysestichproben es sollten Subgruppennormen erstellt werden
Einseitige Itemschwierigkeiten evtl. Normalisierung sinnvoll
o Nur sinnvoll, wenn davon ausgegangen werden kann, dass das Merkmal an sich normalverteilt ist „Normalisierung“ über eine Flächentransformation
o Erfolgt über Prozentränge:
1. Berechnung von Prozentrangnormen
2. Überführen der PR in z-Werte (Standardnormalverteilungstabelle)
3. Transformation der z-Werte in Standardnormäquivalente (T-Werte) um zu verdeutlichen, dass die Werte nachträglich normalisiert wurden
o In Schritt 2. ergibt sich die Normalisierung: die Rohwerteverteilung wird „gezerrt“ und „gestaucht“
o Normalisierung einer Rohwerteverteilung – Beispiel
Flächenanteile der Balken bleiben gleich
Balken werden entweder gestreckt oder gedrängt
Normorientiert versus Kriteriumsorientiert
• Verbreitete psychologische Standard-Testverfahren meist normorientiert
Im Fokus steht der Vergleich einer Person mit anderen Personen hinsichtlich des Merkmals
• Bei kriteriumsorientierten Tests wird der Testwert dagegen nicht am Durchschnitt der Anderen beurteilt, sondern an vorher festgelegtem Kriterium
o Kriterienbezogene Tests zielen nicht auf die Erfassung individueller Differenzen, also nicht auf die Ermittlung des Rangplatzes eines Probanden in einer vergleichbaren Personengruppe, sondern auf die Feststellung der Leistung eines Probanden bezüglich eines spezifizierten Aufgabenbereiches (z.B.: eines Therapie- oder Lernziels)
o Um zu bestehen, muss der Prüfling – z.B.: bei der Führerscheinprüfung – einen bestimmten Punktewert erreichen, der seinerseits inhaltliche Kriterien repräsentiert.
o Z.B. theoretische Führerscheinprüfung; Depressionsskala in Bezug auf Vorliegen einer Major Depression; Klausuren/Prüfungen
o Besonders relevant im pädagogischen Bereich
• Normorientiert vs. kriteriumsorientiert ist kein grundsätzlicher Gegensatz
o Viele Testverfahren können sowohl in Bezug auf eine Gruppennorm als auch auf ein Kriterium interpretiert werden. Beispiel: Klausuren
o Einfach zwei unterschiedliche Maßstäbe
o Kriterium als „Idealnorm“, die sich oft in irgendeiner Form am „Typischen“ (also Gruppennorm) orientiert
• Dennoch unterscheidet sich die Konstruktion kriteriumsorientierter Tests im Fokus, der auf verschiedene Schritte gelegt wird