Kritik An Der Schulischen Zensurgebung Flashcards
Schriftliche Prüfungen: Durchführungsobjektivität
- Bei Schulaufgaben aufgrund des Gruppenbezugs und des transsituativen Chrakters relativ günstig und besser als bei mündlichen Prüfungen, schlechter als bei Tests (Standardisierung fehlt)
- z.B. Diktate: kaum durchführungsobjektiv, da unterschiedliches Sprechtempo etc.
Schriftliche Prüfungen: Auswertungsobjektivität
- Williams (1933): Mathematikaufgabe sollte von Lehrkräften mit 0 bis 100 Punkten beurteilt werden
—> Beurteilung schwankte zwischen 16 und 96 Punkten - Starch & Ellliot (1913): Examensarbeit in Mathematik sollte von ca. 130 Schulen mit 0 bis 100 Punkten bewerten werden
—> Streuung von 28 bis 92 Punkte für dieselbe ArbeitMögliche Gründe
> Unterschiedliche Bestehensgrenze und Bepunktung der Aufgaben
> Bewertungsmaßstäbe (z.B. in Mathematik)
o Erziehung zur Genauigkeit: Mängel jeder Art heißt Aufgabe falsch
o Betonung des Verständnisses: Flüchtigkeitsfehler ignoriert
o Kompromiss: teilweise richtige Lösung - Replikationsstudie nach Birkel und Birkel 2002
> Wiederholung der identischen Studie von Weiss (1960er) im Jahr 1999
> 89 Grundschullehrer beurteilen 4 Aufsätze in zwei Versionen, präpariert mit unterschiedlich vielen Fehlern, unterschiedlicher Länge
> Ergebnis:
o Qualität wurde durchaus erkannt
o hohe Zahl von Rechtschreibfehlern: ein Drittel schlechter
o längster Text: am besten bewertet
o Ergebnis der Beurteiler: „Noten von 1 bis zu glatten 5“
> Bedeutung: die Probleme der Auswertungsobjektivität sind noch aktuell - Weiterer Einflussfaktoren: Reihenfolge der Korrektur (Baurmann, 1995)
Schriftliche Prüfungen: Interpretationsobjektivität
- Klasseninternes Bezugssystem (Ingenkamp 1969): Orientierung am Leistungsniveau der Klasse —> Abhängigkeit der Zensuren von Klasse und Lehrer, nicht eigener Leistung
- Studie von Ingenkamp (1969, 1995)
> Untersuchung aller Sechstklässler in einem Berliner Bezirk mit einem validen Mathematiktest
> Vergleich Mathe-Note der Schüler vs. Testergebnis
> z.B. zwei verschiedene Klassen: in Klasse A hat ein Schüler mit Note 2 im Test durchschnittlich 53.5 Punkte, in Klasse B nur 30.9 Punkte; in Klasse C haben Schüler mit 44.8 Punkten eine 4!
> Ergebnis: Noten sind vor allem vom Klassenbezug beeinflusst - Gründe für mangelnde Objektivität
> Uneinheitliche Bewertungskriterien (Unterschiedliche Vorstellung der Lehrer, inwieweit z.B. Schriftbild und Rechtschreibfehler in Aufsatzbeurteilung eingehen)
> Wesentliche Kriterien der Beurteilung sind nicht eindeutig definierbar (z.B. Klarheit des Stils)
—> „Halo-Effekt“, d.h. Man schreibt Person mit schlechter Handschrift unbewusst auch schlechten Sprachstil zu
> Persönlichkeit des Lehrers (unterschiedliche Ausschöpfung der Notenskala, unterschiedlich streng etc.)
—> Beurteilungsfehler möglich
Schriftliche Prüfungen: Wiederholungsreliabilität
- Bewertung ist nur unzureichend stabil
- Korrelation zwischen Korrektur einer Mathematikarbeit nach drei Monaten: r = .46 (Decker 1977)
- Finlayson (1951): 6 Beurteiler sollten 2 Aufsätze benoten und nach 2 Monaten erneut; Ergebnisse: Lehrer urteilt individuell auf unterschiedlichen Strengeniveaus, Korrelation zwischen der 1. und 2. Bewertung zwischen .68 und .96
—> Wiederholungsreliabilität ist eine individuelle Größe - Hartog & Rhodes (1936): 15 Prüfungsarbeiten wurden nach 12-19 Monaten erneut bewertet
> Ergebnisse: Mittelwerte und Variationsbreiten waren entsprechend gleich, beträchtliche Unterschiede im Einzelfall (44% der ursprünglich positiv Bewerteten galten nach der 2. Beurteilung als „nicht bestanden“)
> nur 1 von den 15 Prüfer war außergewöhnlich konsistent - Eells (1930, 1995):
Kurzaufsätze in Geografie wurden von n = 63 Lehrern nach zweimal mit 11 Wochen Abstand korrigiert; Korrelation r = .25, wobei beispielsweise eine Leistung, die zunächst mit 6 Punkten bewertet worden war, in der zweiten Testung mit 10-13 Punkten bewertet wurde (von 18 Punkten)
Schriftliche Prüfungen: Gründe für mangelnde Reliabilität
In Prüfungs- und Bewertungssituationen spielen auch Zufall, Konzentrationsmangel, Leichtsinn, Motivation, Wohlbefinden des Schülers und des Lehrers etc. Eine Rolle.
—> Schulnoten geben selten genauen Ausschluss über tatsächliches Wissen des Schülers, sondern eher über in einmaliger Situation reproduziertes Wissen.
Schriftliche Prüfungen: Inhaltsvalidität
- curriculare Validität und Lerngelegenheit in der Regel berücksichtigt
- beachte auch: mangelnde Objektivität und Reliabilität führt zu mangelnder Validität
- besser als bei mündlichen Prüfungen auf Grund des transsituativen Charakters, schlechter als bei Tests Konstruktvalidität
- Beurteilung wird durch verschiedenste sachfremde Faktoren beeinflusst
> Durch Sympathie:
Hadley (1954): beliebte SchülerInnen erhielten im Vergleich zu Unbeliebten in den Testergebnissen zu 50% bessere Noten, als angemessen wäre und umgekehrt
> Durch Vorinformation:
Weiss (1965)
> Durch Länge der Arbeit, Handschrift, Rechtschreibfehler
Weiss (1965) - Gründe für mangelnde Inhaltsvalidität
> Es ist kaum möglich, ausschließlich das zu überprüfende Stoffgebiet zu testen (Grundwissen: z.B. Grundlagen in der Rechtschreibung)
> Inhaltsvalidität ist nur zu erreichen, wenn ein Test operationalisierbare Lernziele überprüft, was aber nicht bei allen im Lehrplan formulierten Lernzielen der Fall ist (z.B. Entwicklung von Musikverständnis)
Schriftliche Prüfungen: Vorhersagevalidität/empirische Validität
Schulnoten sollten - um empirische valide zu sein - Prognosen über den weiteren schulische Lebensweg (Gymnasium), den Bildungsweg (Studium) oder die berufliche Ausbildung geben können.
Empirische Befunde
> Nach Ingenkamp (1976) ergaben Untersuchung, dass 33% der Schüler mit „geeignetem“ bzw. „Sehr geeignetem“ Übertrittszeugnis aus der Grundschule die Vorhersage in keine tatsächlich erfolgreiche Schullaufbahn im Gymnasium umsetzen können. Es ergab sich außerdem, dass die Abiturnote lediglich eine Korrelation von .19 bis .49 mit dem Studienerfolg zeigt.
—> Notengebung erfüllt Vorhersagevalidität nicht besonders gut
> Von Tent (1969): Geringere prognostische Validität von Noten im Vergleich zu Leistungstests (r=.50)
> Meta-Analyse (Baron-Boldt, 1988): Abitur-Note und Studienerfolg hat eine Korrelation von r= .456
> Empfehlungen der GrundschullehrerInnen bestätigen sich zu 60% (Sommer, 1983)
> aber: kaum Zusammenhänge zwischen Noten und Berufserfolg (Althoff, 1986)
Gründe für mangelnde Vorhersagevalidität
Es gibt viele andere Faktoren (außer Schulnoten), die über einen erfolgreichen Übertritt von Grundschule auf Gymnasium bzw. Studienerfolg entscheiden: Entwicklung der Persönlichkeit (Pubertät), Qualität der Vermittlung, neue Umgebung,…
Schriftliche Prüfungen: Kriterienbezogene Validität
Die Kriterienbezognene Validität sagt etwas darüber aus, inwieweit die Schulnote Aufschluss darüber gibt, ob das Unterrichtsziel erreicht wurde.
Sie ist höhrer, wenn das Lernziel operationalisierbar ist. In Mathetests ist sie mit Kriterien wie Rechenweg, -fehler, -ergebnis leichter zu gewährleisten al in der Aufsatzbeurteilung - wenn also bestimmte, vorab definierte bzw. Stillschweigend anerkannte Kriterien Maßstab für die Beurteilung sind.
Gründe für mangelnde kriterienbezogene Validität
> Beurteilungskriterien sind oft nur vage bestimmt
> Bei Aufsatzbeurteilung (Was ist guter / schlechter Ausatz?) und im Sport (Individueller Einsatz / körperliche Voraussetzungen mit einbeziehen?) besonders schwierig
> Unterschiedliche Auffassung (bedingt durch unterschiedliche Ausbildung, fachdidaktische Position, verschiedene Fortbildungen, berufliche Erfahrung…) gehen in die Bewertung mit ein.
Bedeutung von Gütekriterien in der Schule
Mietzel (2007) stellt dar, dass die Gütekriterien (insbesondere Objektivität und Reliabilität) in der Schule oft aus pädagogischen Gründen zurückgestellt werden müssen und nicht oberste Priorität haben sollten. Als Gründe nennt er
> Objektiv sind nur Aufgaben wie MC Tests. Hier geht aber Komplexität des Lerninhalts eindeutig verloren (nach Lindquist 1951)
> Problemsituation in Alltag sind selten eindeutig und kontextfrei —> strenge Befolgung der Gütekriterien schafft nicht authentische Probleme (Wiggins 1993)
> Wiggins (1994) fasst zusammen: Oberste Ziel muss Gültigkeit der Tests sein, zu Ungunsten von Reliabilität und Objektivität; diese müssen aber in einem Mindestmaß vorhanden sein
Verbesserungsmöglichkeiten für schriftliche Tests: Objektivität
- radikalster Standpunkt: Abschaffung der Notengebung
Durchführungsobjektivität
> gleiche Hilfsmittel für alle Prüflinge
> Individualisierung bei Prüfungsängstlichen
Auswertungs- & Interpretationsobjektivität
> Erarbeitung eines Kriterienkatalogs vor der Bewertung (v.a. Im Aufsatzbereich)
> bei freien Arbeiten: Teamauswertung nach Globaleindruck & Kriterienkatalog
> Mehrere Bewerter / Lehrer sollten eine Arbeit beurteilen —> sichereres Urteil und gegenseitige Kontrolle
> Entwiclung eines schulinternen Bezugssystems
> Möglichst viele Leistungsüberprüfungen und Ergänzung der Schulleistungstests
Verbesserungsmöglichkeiten für schriftliche Tests: Reliabilität
- z.B. Orientierung an Kriterienkatalogen, um Übereinstimmung zwischen Prüfern und zwischen zeitlich versetzte Prüfungen zu sichern
Verbesserungsmöglichkeiten für schriftliche Tests: Validität
- Inhaltsvalidität
> Experten-Ratings der Fragen
> Berücksichtigung der Lerngelegenheiten - empirische Validität
> Überprüfung des Zusammenhangs mit anderen Kriterien wie weiteren schriftlichen Prüfungen, mündlichen Prüfungen, Tests, usw. - Konstruktvalidität
> Pluralismus der Prüfungsmethoden —> Wahlmöglichkeit
> Bewusstheit über Verzerrungseffekte
> Transparenz der Anforderungen: Lehrziele festlegen, klarer Prüfungsverlauf
> geschlossene Antwortformate verwenden —> geringere Inferenz
> neue Formen der Leistungsbeurteilung berücksichtigen
> Anonymisierung einführen —> verhindert Sympathie- und Erwartungseffekte
> Prüfungen nach erster Durchsicht in andere Reihenfolge bringen und erneut korrigieren —> vermeidet Kontrasteffekte
Kritik an mündlichen Prüfung
- Sozailpsychologischer Aspekt
Prüfungssituation: asymmetrische Sozialsituation: die einen definieren die Prüfungsnorm, die anderen haben sich anzupassen (Lautmann, 1971)
—> soziale Situation nicht durch Inhalte definiert, sondern auch durch Ersteindruck etc. - Psychoanalystischer Aspekt
Ähnlichkeit zu Initiationsriten und Statuszuweisung —> stark angstbesetzt
Widerspruch: Prüfung soll Leistung messen, verhindert das aber selbst durch Angstauslösung (Moeller 1972) - Angstauslöser bei Prüfungen
> Situation der Trennung (Prüfung als Abschluss eines Lebensabschnitts)
> Situation der Kränkung (keine Bestätigung der Intellektuellen leistung möglich)
> Situation der Bestrafung (Prüfung als jüngstes Gericht)
> Situation der Versuchung (aggressive Versuchung)
Mündliche Prüfungen: Objektivität
Durchführungsobjektivität:
mangelhaft, da nicht alle Prüflinge dieselben Fragen gestellt bekommen (adaptiv - situativ), nicht zur selben Zeit geprüft werden usw. (Zeitlich unbestimmt)
Auswertungsobjektivität:
wegen situativem Charakter oft unzureichend; Kriterien für richtig / falsch sind oft nur vage definiert
Interpretationsobjektivität
großes Ausmaß an Nicht-Übereinstimmung (Objektivitätskoeffizienten zwischen .40 und .80, Häufung bei .60)
Brikel & Pritz (1980): von einer mündlichen Geografieprüfung, die mit Note 3 bewertet worden war, wurden 2 Videoversionen erstellt; 1 x schnell, flüssig, 1 x langsam, stockend. —> Beurteilung durch 81 Lehrkräfte, denen Vorinformationnen über bisherige Leistungen in Geografie oder anderen Fächern gegeben wurde —> Objektivitätskoeffizient von .35 (Noten schwanken von 1 bis 5) —> Höheres Sprachtempo wird mit höherer Kompetenz assoziiert —> Halo-Effekt: schneller sprechender Kandidat wurde als intelligenter, sympathischer usw. Eingeschätzt —> Erwartungseffekte: bei positiver Vorinformation über die Geografienote wurde die bessere Note vergeben
Mündliche Prüfungen: Reliabilität
- Wiederholungsreliabilität
> Prüfer prüft Kandidaten nach einiger Zeit erneut; kaum Untersuchungen vorhanden (Koeffizienten etwas höher als bei Paralleltest)
> in der Schule nicht vorgesehen
> grundätzliches Problem bei Leistungsbeurteilung: Prüfer ist zugleich Messinstrument
> Messinstrument ist nicht stabil - Paralleltest-Reliabilität
Prüfen eines Prüflings durch 2 Prüfer kurz hintereinander bzw. Zeitgleich, koeffizient zwischen .00 und .60, Häufung bei .45