Vorlesung 5 Flashcards
Zur Methodologie groß angelegter Schulleistungstudien
Begriffsbestimmung
- Methodologie
- Lehre von den wissenschaftlichen Methoden (Methodenlehre)
- Metawissenschaft als Teildisziplin der Wissenschaftstheorie
- Wissenschaftstheoretische Grundlage der Erkenntnisgewinnung
- Systematik
- Rationalismus (Induktion & Deduktion)
- Empirismus
- Synthetizismus (Dialektik, kritischer Rationalismus)
- Konstruktivismus
- Fachspezifische Unterschiede des wissenschaftstheoretischen Ansatzes
- Nutzung unterschiedlicher Methoden innerhalb wissenschaftstheoretischer Ansätze
Begriffsbestimmung (Fortsetzung)
- Ziel ist Ableitung von repräsentativen Schlüssen
- Über welche mathematische Kompetenz verfügen 15‐jährige Schülerinnen und Schüler in Deutschland?
- Wie hoch ist der Zusammenhang zwischen dem sozio‐ökonomischen Hintergrund des Elternhauses und Lesekompetenz in den USA im Vergleich zu Indonesien?
- Wie verändert sich die naturwissenschaftliche Kompetenz weltweit über die Zeit?
- Beantwortung durch Testung und Befragung
- Quantitativ‐empirischer Zugang
Groß angelegte Schulleistungsstudien
- Groß angelegte Schulleistungsstudien werden auf nationaler und internationaler Ebene durchgeführt
- Zentrale Aspekte
- Basierend auf theoretischer Rahmenkonzeption
- Standardisierte Testinstrumente und Prozeduren
- Empirische Untersuchung großer Stichproben
- Statistische Analyse mit State of the Art‐Methoden
- Rückmeldung i.d.R. auf Gruppenebene, nicht für einzelne Individuen
- Keine Ableitung kausaler Schlüsse
- Vielmehr Generierung von Steuerungswissen für Entscheidungsträger
Mathematische Kompetenz 2003‐2009 in Deutschland
Aus: Mildner, Hochweber & Frey, 2013, S. 164
Mathematische Kompetenz 2003‐2009 in Schweden
Zwischenfazit PISA
- Ergebnisse von PISA 2000 haben zu intensiven Diskussionen in Deutschland geführt.
- Nach zunächst ernüchternden Ergebnissen nun Kompetenzen der Schülerinnen und Schüler in Deutschland über OECD‐Durchschnitt
- Zusammenhang zwischen Schülerkompetenzen und sozio‐ökonomischem Hintergrund gesunken aber noch recht hoch
- In anderen Industrienationen deutlich schlechtere Entwicklung
Aber:
- Sind die angestellten Vergleiche valide interpretierbar?
- Mit welchen Methoden wird dies angestrebt und ggf. sichergestellt?
ITEM‐RESPONSE‐THEORIE (Problemstellung)
Problemstellung
- Bei PISA sollen Kompetenzen im Lesen, in Mathematik und in Naturwissenschaften
- zwischen Staaten
- zwischen Subpopulation in Staaten
- sowie über mehrere Erhebungen verglichen werden.
- Zusätzlich Aussagen darüber, was Schülerinnen und Schüler wissen und können
- Psychometrisch gesehen anspruchsvolle Aufgaben
- Angemessene Umsetzung aufgrund hoher gesellschaftlicher Relevanz notwendig
Skalierung
- Kompetenzen werden aus Antworten auf Aufgaben geschlossen
- Benötigt wird Skala, auf der Personen lokalisiert werden können.
- Für Personen soll ausgesagt werden können, was sie wissen und können
- Lokalisation von Personen und Aufgaben auf gemeinsamer Skala
Saklierung (Fortsetzung)
- Skala soll über Staaten vergleichbar sein
- Gleiche Testaufgaben in allen Staaten
Item‐Response‐Theorie (IRT)
- GenerellerAnsatzzurstatistischenModellierungder Interaktion von Personen mit Testaufgaben
- Häufig eingesetztes IRT‐Modellistdaseinparametrige logistische Testmodell (1PL).
- Zuerst beschrieben von Rasch (1960)
- Deshalb häufig auf „Rasch‐Modell“
Das IRT‐Modell bei PISA
- Bei PISA wird generalisiertes multidimensionales Rasch‐Modell verwendet
- Sparsames Modell
- Für spezielle Fragestellungen existieren deutlich komplexere IRT‐ Modelle
- Das bei PISA genutzte IRT‐Modell erlaubt
- Vergleiche zwischen Staaten,
- zwischen Subpopulationen in Staaten und
- zwischen Erhebungen
- Zusätzlich: Kriteriumsorientierte Interpretationen
Kompetenzstufe VI
Schülerinnen und Schüler auf dieser Stufe können Informationen, die sie aus der Modellierung komplexer Problemsituationen erhalten, konzeptualisieren, verallgemeinern und auf neue Situationen anwenden. Sie können verschiedene Informationsquellen und Kompetenzstufen Darstellungen miteinander verknüpfen und flexibel zwischen diesen hin und her wechseln. Sie können ihre Überlegungen, die zu ihren Erkenntnissen, Interpretationen und Argumentationen geführt haben, präzise beschreiben und kommunizieren.
Kompetenzstufe I
Schülerinnen und Schüler auf dieser Stufe können auf Fragen zu vertrauten Kontexten antworten, bei denen alle relevanten Informationen gegeben und die Fragen klar definiert sind. Sie können Routineverfahren in unmittelbar zugänglichen Situationen anwenden.
Berücksichtigung von Hintergrundvariablen
- IRT‐Modelle für Kompetenzskalen genutzt
- Möglich sind normorientierte und kriteriumsorientierte Interpretationen
- Alleiniger Leistungsvergleich würde Vielschichtigkeit des Bildungssystem nicht gerecht werden.
- Bildungsergebnisse kommen durch Zusammenwirken zahlreicher Faktoren zustande
- Sehr wichtig: Familiärer Hintergrund, Migrationshintergrund, Merkmale der Schule
Hintergrundmodell (Probleme)
- Naheliegend wäre, Punktschätzer für einzelne Schülerinnen und Schüler zu aggregieren und Gruppenstatistiken zu vergleichen
-
Punktschätzer (MLE, WLE, EAP)
- auf Individualebene optimal
- auf Populationsebene systematische Verzerrungen (z.B. OECD, 2009)
- Insb. streuungsabhängigen Statistiken
-
Beispiele
- Überschätzung (ML) bzw. Unterschätzung (Bayes) der Anteile von Schülerinnen und Schülern auf Kompetenzstufen
- Unterschätzung (ML) bzw. Überschätzung (Bayes) des Zusammenhangs zwischen sozio‐ökonomischem von Schülerinnen und Schülern und Lesekompetenz
- Fokus bei groß angelegten Schulleistungsstudien auf Population, Individuen interessieren nicht
- Probleme durch Punktschätzer vermeidbar durch direkte Schätzung und Analyse der interessierenden multidimensionalen a‐posteriori‐Verteilung
- Genau dies geschieht bei groß angelegten Schulleistungsstudien.
Hintergrundmodell
- Kombination von Antwort‐ und Populationsmodell
- Populationsmodell dient der Modellierung der latenten a‐posteriori Merkmalsverteilung.
- Grundlegende Annahme einer multivariaten Normalverteilung für die a‐posteriori‐Dichtefunktion
- Erwartungstreue Schätzung von Gesamtmittelwerten
- Für Subgruppen jedoch nicht angemessen
- Bspw. Unterschätzung von Gruppenunterschieden
- Hinzunahme der zu analysierenden Hintergrundmerkmale
- Beispiel: Unterschiede zwischen Mädchen und Jungen
- Zugrundeliegende Populationsverteilung ist Mischung aus zwei Normalverteilungen mit unterschiedlichen Mittelwerten μ1 und μ2 .