Kritik An Der Schulischen Zensurgebung Flashcards
Schriftliche Prüfungen: Durchführungsobjektivität
- Bei Schulaufgaben aufgrund des Gruppenbezugs und des transsituativen Chrakters relativ günstig und besser als bei mündlichen Prüfungen, schlechter als bei Tests (Standardisierung fehlt)
- z.B. Diktate: kaum durchführungsobjektiv, da unterschiedliches Sprechtempo etc.
Schriftliche Prüfungen: Auswertungsobjektivität
- Williams (1933): Mathematikaufgabe sollte von Lehrkräften mit 0 bis 100 Punkten beurteilt werden
—> Beurteilung schwankte zwischen 16 und 96 Punkten - Starch & Ellliot (1913): Examensarbeit in Mathematik sollte von ca. 130 Schulen mit 0 bis 100 Punkten bewerten werden
—> Streuung von 28 bis 92 Punkte für dieselbe ArbeitMögliche Gründe
> Unterschiedliche Bestehensgrenze und Bepunktung der Aufgaben
> Bewertungsmaßstäbe (z.B. in Mathematik)
o Erziehung zur Genauigkeit: Mängel jeder Art heißt Aufgabe falsch
o Betonung des Verständnisses: Flüchtigkeitsfehler ignoriert
o Kompromiss: teilweise richtige Lösung - Replikationsstudie nach Birkel und Birkel 2002
> Wiederholung der identischen Studie von Weiss (1960er) im Jahr 1999
> 89 Grundschullehrer beurteilen 4 Aufsätze in zwei Versionen, präpariert mit unterschiedlich vielen Fehlern, unterschiedlicher Länge
> Ergebnis:
o Qualität wurde durchaus erkannt
o hohe Zahl von Rechtschreibfehlern: ein Drittel schlechter
o längster Text: am besten bewertet
o Ergebnis der Beurteiler: „Noten von 1 bis zu glatten 5“
> Bedeutung: die Probleme der Auswertungsobjektivität sind noch aktuell - Weiterer Einflussfaktoren: Reihenfolge der Korrektur (Baurmann, 1995)
Schriftliche Prüfungen: Interpretationsobjektivität
- Klasseninternes Bezugssystem (Ingenkamp 1969): Orientierung am Leistungsniveau der Klasse —> Abhängigkeit der Zensuren von Klasse und Lehrer, nicht eigener Leistung
- Studie von Ingenkamp (1969, 1995)
> Untersuchung aller Sechstklässler in einem Berliner Bezirk mit einem validen Mathematiktest
> Vergleich Mathe-Note der Schüler vs. Testergebnis
> z.B. zwei verschiedene Klassen: in Klasse A hat ein Schüler mit Note 2 im Test durchschnittlich 53.5 Punkte, in Klasse B nur 30.9 Punkte; in Klasse C haben Schüler mit 44.8 Punkten eine 4!
> Ergebnis: Noten sind vor allem vom Klassenbezug beeinflusst - Gründe für mangelnde Objektivität
> Uneinheitliche Bewertungskriterien (Unterschiedliche Vorstellung der Lehrer, inwieweit z.B. Schriftbild und Rechtschreibfehler in Aufsatzbeurteilung eingehen)
> Wesentliche Kriterien der Beurteilung sind nicht eindeutig definierbar (z.B. Klarheit des Stils)
—> „Halo-Effekt“, d.h. Man schreibt Person mit schlechter Handschrift unbewusst auch schlechten Sprachstil zu
> Persönlichkeit des Lehrers (unterschiedliche Ausschöpfung der Notenskala, unterschiedlich streng etc.)
—> Beurteilungsfehler möglich
Schriftliche Prüfungen: Wiederholungsreliabilität
- Bewertung ist nur unzureichend stabil
- Korrelation zwischen Korrektur einer Mathematikarbeit nach drei Monaten: r = .46 (Decker 1977)
- Finlayson (1951): 6 Beurteiler sollten 2 Aufsätze benoten und nach 2 Monaten erneut; Ergebnisse: Lehrer urteilt individuell auf unterschiedlichen Strengeniveaus, Korrelation zwischen der 1. und 2. Bewertung zwischen .68 und .96
—> Wiederholungsreliabilität ist eine individuelle Größe - Hartog & Rhodes (1936): 15 Prüfungsarbeiten wurden nach 12-19 Monaten erneut bewertet
> Ergebnisse: Mittelwerte und Variationsbreiten waren entsprechend gleich, beträchtliche Unterschiede im Einzelfall (44% der ursprünglich positiv Bewerteten galten nach der 2. Beurteilung als „nicht bestanden“)
> nur 1 von den 15 Prüfer war außergewöhnlich konsistent - Eells (1930, 1995):
Kurzaufsätze in Geografie wurden von n = 63 Lehrern nach zweimal mit 11 Wochen Abstand korrigiert; Korrelation r = .25, wobei beispielsweise eine Leistung, die zunächst mit 6 Punkten bewertet worden war, in der zweiten Testung mit 10-13 Punkten bewertet wurde (von 18 Punkten)
Schriftliche Prüfungen: Gründe für mangelnde Reliabilität
In Prüfungs- und Bewertungssituationen spielen auch Zufall, Konzentrationsmangel, Leichtsinn, Motivation, Wohlbefinden des Schülers und des Lehrers etc. Eine Rolle.
—> Schulnoten geben selten genauen Ausschluss über tatsächliches Wissen des Schülers, sondern eher über in einmaliger Situation reproduziertes Wissen.
Schriftliche Prüfungen: Inhaltsvalidität
- curriculare Validität und Lerngelegenheit in der Regel berücksichtigt
- beachte auch: mangelnde Objektivität und Reliabilität führt zu mangelnder Validität
- besser als bei mündlichen Prüfungen auf Grund des transsituativen Charakters, schlechter als bei Tests Konstruktvalidität
- Beurteilung wird durch verschiedenste sachfremde Faktoren beeinflusst
> Durch Sympathie:
Hadley (1954): beliebte SchülerInnen erhielten im Vergleich zu Unbeliebten in den Testergebnissen zu 50% bessere Noten, als angemessen wäre und umgekehrt
> Durch Vorinformation:
Weiss (1965)
> Durch Länge der Arbeit, Handschrift, Rechtschreibfehler
Weiss (1965) - Gründe für mangelnde Inhaltsvalidität
> Es ist kaum möglich, ausschließlich das zu überprüfende Stoffgebiet zu testen (Grundwissen: z.B. Grundlagen in der Rechtschreibung)
> Inhaltsvalidität ist nur zu erreichen, wenn ein Test operationalisierbare Lernziele überprüft, was aber nicht bei allen im Lehrplan formulierten Lernzielen der Fall ist (z.B. Entwicklung von Musikverständnis)
Schriftliche Prüfungen: Vorhersagevalidität/empirische Validität
Schulnoten sollten - um empirische valide zu sein - Prognosen über den weiteren schulische Lebensweg (Gymnasium), den Bildungsweg (Studium) oder die berufliche Ausbildung geben können.
Empirische Befunde
> Nach Ingenkamp (1976) ergaben Untersuchung, dass 33% der Schüler mit „geeignetem“ bzw. „Sehr geeignetem“ Übertrittszeugnis aus der Grundschule die Vorhersage in keine tatsächlich erfolgreiche Schullaufbahn im Gymnasium umsetzen können. Es ergab sich außerdem, dass die Abiturnote lediglich eine Korrelation von .19 bis .49 mit dem Studienerfolg zeigt.
—> Notengebung erfüllt Vorhersagevalidität nicht besonders gut
> Von Tent (1969): Geringere prognostische Validität von Noten im Vergleich zu Leistungstests (r=.50)
> Meta-Analyse (Baron-Boldt, 1988): Abitur-Note und Studienerfolg hat eine Korrelation von r= .456
> Empfehlungen der GrundschullehrerInnen bestätigen sich zu 60% (Sommer, 1983)
> aber: kaum Zusammenhänge zwischen Noten und Berufserfolg (Althoff, 1986)
Gründe für mangelnde Vorhersagevalidität
Es gibt viele andere Faktoren (außer Schulnoten), die über einen erfolgreichen Übertritt von Grundschule auf Gymnasium bzw. Studienerfolg entscheiden: Entwicklung der Persönlichkeit (Pubertät), Qualität der Vermittlung, neue Umgebung,…
Schriftliche Prüfungen: Kriterienbezogene Validität
Die Kriterienbezognene Validität sagt etwas darüber aus, inwieweit die Schulnote Aufschluss darüber gibt, ob das Unterrichtsziel erreicht wurde.
Sie ist höhrer, wenn das Lernziel operationalisierbar ist. In Mathetests ist sie mit Kriterien wie Rechenweg, -fehler, -ergebnis leichter zu gewährleisten al in der Aufsatzbeurteilung - wenn also bestimmte, vorab definierte bzw. Stillschweigend anerkannte Kriterien Maßstab für die Beurteilung sind.
Gründe für mangelnde kriterienbezogene Validität
> Beurteilungskriterien sind oft nur vage bestimmt
> Bei Aufsatzbeurteilung (Was ist guter / schlechter Ausatz?) und im Sport (Individueller Einsatz / körperliche Voraussetzungen mit einbeziehen?) besonders schwierig
> Unterschiedliche Auffassung (bedingt durch unterschiedliche Ausbildung, fachdidaktische Position, verschiedene Fortbildungen, berufliche Erfahrung…) gehen in die Bewertung mit ein.
Bedeutung von Gütekriterien in der Schule
Mietzel (2007) stellt dar, dass die Gütekriterien (insbesondere Objektivität und Reliabilität) in der Schule oft aus pädagogischen Gründen zurückgestellt werden müssen und nicht oberste Priorität haben sollten. Als Gründe nennt er
> Objektiv sind nur Aufgaben wie MC Tests. Hier geht aber Komplexität des Lerninhalts eindeutig verloren (nach Lindquist 1951)
> Problemsituation in Alltag sind selten eindeutig und kontextfrei —> strenge Befolgung der Gütekriterien schafft nicht authentische Probleme (Wiggins 1993)
> Wiggins (1994) fasst zusammen: Oberste Ziel muss Gültigkeit der Tests sein, zu Ungunsten von Reliabilität und Objektivität; diese müssen aber in einem Mindestmaß vorhanden sein
Verbesserungsmöglichkeiten für schriftliche Tests: Objektivität
- radikalster Standpunkt: Abschaffung der Notengebung
Durchführungsobjektivität
> gleiche Hilfsmittel für alle Prüflinge
> Individualisierung bei Prüfungsängstlichen
Auswertungs- & Interpretationsobjektivität
> Erarbeitung eines Kriterienkatalogs vor der Bewertung (v.a. Im Aufsatzbereich)
> bei freien Arbeiten: Teamauswertung nach Globaleindruck & Kriterienkatalog
> Mehrere Bewerter / Lehrer sollten eine Arbeit beurteilen —> sichereres Urteil und gegenseitige Kontrolle
> Entwiclung eines schulinternen Bezugssystems
> Möglichst viele Leistungsüberprüfungen und Ergänzung der Schulleistungstests
Verbesserungsmöglichkeiten für schriftliche Tests: Reliabilität
- z.B. Orientierung an Kriterienkatalogen, um Übereinstimmung zwischen Prüfern und zwischen zeitlich versetzte Prüfungen zu sichern
Verbesserungsmöglichkeiten für schriftliche Tests: Validität
- Inhaltsvalidität
> Experten-Ratings der Fragen
> Berücksichtigung der Lerngelegenheiten - empirische Validität
> Überprüfung des Zusammenhangs mit anderen Kriterien wie weiteren schriftlichen Prüfungen, mündlichen Prüfungen, Tests, usw. - Konstruktvalidität
> Pluralismus der Prüfungsmethoden —> Wahlmöglichkeit
> Bewusstheit über Verzerrungseffekte
> Transparenz der Anforderungen: Lehrziele festlegen, klarer Prüfungsverlauf
> geschlossene Antwortformate verwenden —> geringere Inferenz
> neue Formen der Leistungsbeurteilung berücksichtigen
> Anonymisierung einführen —> verhindert Sympathie- und Erwartungseffekte
> Prüfungen nach erster Durchsicht in andere Reihenfolge bringen und erneut korrigieren —> vermeidet Kontrasteffekte
Kritik an mündlichen Prüfung
- Sozailpsychologischer Aspekt
Prüfungssituation: asymmetrische Sozialsituation: die einen definieren die Prüfungsnorm, die anderen haben sich anzupassen (Lautmann, 1971)
—> soziale Situation nicht durch Inhalte definiert, sondern auch durch Ersteindruck etc. - Psychoanalystischer Aspekt
Ähnlichkeit zu Initiationsriten und Statuszuweisung —> stark angstbesetzt
Widerspruch: Prüfung soll Leistung messen, verhindert das aber selbst durch Angstauslösung (Moeller 1972) - Angstauslöser bei Prüfungen
> Situation der Trennung (Prüfung als Abschluss eines Lebensabschnitts)
> Situation der Kränkung (keine Bestätigung der Intellektuellen leistung möglich)
> Situation der Bestrafung (Prüfung als jüngstes Gericht)
> Situation der Versuchung (aggressive Versuchung)
Mündliche Prüfungen: Objektivität
Durchführungsobjektivität:
mangelhaft, da nicht alle Prüflinge dieselben Fragen gestellt bekommen (adaptiv - situativ), nicht zur selben Zeit geprüft werden usw. (Zeitlich unbestimmt)
Auswertungsobjektivität:
wegen situativem Charakter oft unzureichend; Kriterien für richtig / falsch sind oft nur vage definiert
Interpretationsobjektivität
großes Ausmaß an Nicht-Übereinstimmung (Objektivitätskoeffizienten zwischen .40 und .80, Häufung bei .60)
Brikel & Pritz (1980): von einer mündlichen Geografieprüfung, die mit Note 3 bewertet worden war, wurden 2 Videoversionen erstellt; 1 x schnell, flüssig, 1 x langsam, stockend. —> Beurteilung durch 81 Lehrkräfte, denen Vorinformationnen über bisherige Leistungen in Geografie oder anderen Fächern gegeben wurde —> Objektivitätskoeffizient von .35 (Noten schwanken von 1 bis 5) —> Höheres Sprachtempo wird mit höherer Kompetenz assoziiert —> Halo-Effekt: schneller sprechender Kandidat wurde als intelligenter, sympathischer usw. Eingeschätzt —> Erwartungseffekte: bei positiver Vorinformation über die Geografienote wurde die bessere Note vergeben
Mündliche Prüfungen: Reliabilität
- Wiederholungsreliabilität
> Prüfer prüft Kandidaten nach einiger Zeit erneut; kaum Untersuchungen vorhanden (Koeffizienten etwas höher als bei Paralleltest)
> in der Schule nicht vorgesehen
> grundätzliches Problem bei Leistungsbeurteilung: Prüfer ist zugleich Messinstrument
> Messinstrument ist nicht stabil - Paralleltest-Reliabilität
Prüfen eines Prüflings durch 2 Prüfer kurz hintereinander bzw. Zeitgleich, koeffizient zwischen .00 und .60, Häufung bei .45
Mündliche Prüfung: Validität
- Inhaltsvalidität
> beeinträchtigung durch situativen Charakter
> Fragen sind z.T. Nicht repräsentativ, keine Staffelung nach Schwierigkeit,…
> aber: i.d.R. Curriculare Validität / Lerngelegenheit berücksichtigt - empirische Validität
Übereinstimmung zwischen mündlichen und schriftlichen Prüfungen nur .30; Zusammenhänge mit Dozentengutachten u.Ä. Mäßig - Konstruktvalidität
durch Interaktionseffekte beeinträchtigt
Birkel (1976): Videos von zwei mündlichen Deutschprüfungen wurden ca. 150 Lehrer zur Beurteilung vorgelegt; Kandidat A absolvierte eine harmonsiche Prüfung, Kandidat B war durch überdurchschnittlich hohen Schwierigkeitsgrad überfordert
> Reihenfolge der Darbietung wurde variiert
> Vorinformation über Leistung im Abituraufsatz wurde variiert (1/5/keine info)
> Kontraeffekte: guter Kandidat wurde noch besser beurteilt, wenn zuerst schlechte dargeboten wurde und umgekehrt
> Erwartungseffekte: Bei Angabe der Aufsatznote 1 lag die Zensur von Kandidat durchschnittliche bei 3.01, bei Angabe der Aufsatznote 5 durchschnittlich bei 3.56
> personale Variablen: Lehrkräfte mit mehr Prüfungserfahrung tendieren zu strengeren Noten
Verbesserungsmöglichkeiten mündliche Prüfungen: Allgemein
- Formaler Rahmen: keine Wartezeit, gute Sitzgekegenheiten…
- Positive Momente: Flexibilität des Prüfers, Ermutigungsstrategien…
- Hohe Transparenz der Anforderungen:
> Festlegung der Lehrziele
> Kriterienkatalog
> klare Fragen
> Trennung von Leistungsfeststellung und -bewertung
> Mehrere Beurteiler
> Keine Ballung von Prüfungen
> Evtl. Vorbereitungszeit nach Frage
> Pluralismus der Prüfungswahl
Verbesserungsmöglichkeiten mündliche Prüfungen: Objektivität
- Durchführungsobjektivität:
> korrekter formaler Rahmen: pünktlicher Beginn, Freundlichkeit usw. (Keine unnötige Betonung der Prüfermacht)
> Auslosen der schriftlichen Prüfungsfragen
> Ermutigungsstrategien & Funktionsfragen einsetzen
> Vorbereitungszeit gewähren, Reihenfolge frei wählen lassen
> Kontrolle der Prüfung durch Prüfling ermöglichen - Auswertungs- & Interpretationsobjektivität
> Kriterienkataloge einsetzen
> getrennte Beurteilung durch Zweitprüfer
> Entwicklung eines schulinternen Bezugssystems
Verbesserungsmöglichkeiten mündliche Prüfungen: Validität
- Inhaltsvalidität
> Formulierung von Prüfungsfragen im Voraus
> Experten-Rating der Fragen
> Berücksichtigung der Lerngelegenheit - empirische Validität
Überprüfung des Zusammenhangs mit anderen Kriterien, wie z.B. weiteren mündlichen Prüfungen, schriftlichen Prüfungen, Tests usw. - Konstruktvalidität
> nur mündlich prüfen, wenn Sprache der Gegenstand der Prüfung ist
> Pluralismus der Prüfungsmethoden —> Wahlmöglichkeit
> Bewusstheit über Verzerrungseffekte
> Transparenz der Anforderungen: Lehrziele festlegen, klarer Prüfungsverlauf
> Abwechseln von Übersichts- und Detailfragen
> nicht zu viele Prüfungen hintereinander (Vermeidung von Kontrasteffekten)
> besser mehrere Einzelprüfungen statt einer einzelnen Prüfung
Sachfremder Einfluss: Benotung und Sympathiebeziehung zwischen Lehrer und Schüler
Sympathie/Antipathie für einen Schüler kann den Lehrer bei seiner Benotung beeinflussen
Empirische Befunde
> Hadley (1954): relativ hoher Zusammenhang zwiscen Sympathiebeurteilung und den Schulnoten (r <= .92)
> Aus Gruppe der beliebtesten Schüler erhielten 50% bessere Noten als die ihren Testleistungen entsprechenden
> Aus Gruppe der unbeliebtesten Schüler erhielten 50% schlechtere Noten als ihren Testleistungen entsprechenden
> Höherer Zusammenhang zwischen Benotung und objektiver Testleistung bei Lehrern (im Vergleich zu Lehrerinnen), d.h. Lehrer sind objektiver
Sachfremder Einfluss: Vorinformationen über den Schüler - soziale Stereotype
Wissen über den Schüler kann den Lehrer bei seiner Benotung beeinflussen
Empirische Befunde
> Weiss (1965): 92 Lehrer bekamen Vorinformationen zu Aufsätzen (positiv: sprachbegabt, Sohn eines Redakteurs; negativ: durchschnittlich, berufstätige Eltern)
o Durchschnittliche Noten: 2.08 vs. 2.83 (keine einzige 1 für „schlechtere“ Schüler, 16% der Noten 1 für „bessere“
o Auch bei Rechtschreibleistung deutliche Unterschiede
o Ohne soziale Information (i.e. nur auf Leistung bezogen) geringerer Einfluss (Baurmann 1995)
Sachfremder Einfluss: Geschlecht des Lehrers und des Schülers
Das Geschlecht des Schülers o. Lehrers kann die Lehrerbeurteilung beeinflussen
Empirische Befunde:
> Carter (1952): Jungen erhalten strengere Zensuren als Mädchen bei gleicher Begabung und gleichem Wissen, Lehrerurteile sind strenger als die von Lehrerinnen, am besten werden Schülerinnern und Lehrerinnen bewertet
> Bleck und Teichmann (1978): Altersabhängigkeit der geschlechterspezifischen Note, besonders deutliche Unterschiede zugunsten der Mädchen in 5.-8. Klasse in sprachlichen Leistungsbereichen, (Ursachen: reifungsbedingte Entwicklungsvorsprünge der Mädchen, größere „Schulwilligkeit“), kaum Geschlechtsunterschiede in weiterführenden Examina (Medizin, Jura) und beim Schulabschluss
Sachfremder Einfluss: Klassengröße und Benotung
Die Klassengröße kann sich auf die Schülerleistung und somit Benotung auswirken.
Empirische Befunde:
> Meta-Analyse: In 60% der Fälle waren die Schülerleistungen aus kleineren Klassen besser als aus größeren Klassen
> Kühn (2986): Starker Trend, dass in kleineren Klassen bessere Durchschnittszensuren vorliegen
—> Zufällige Platzierung in kleine oder große Klasse ist von großer Bedeutung für späteres Leben
Sachfremder Einfluss: Fachfremde Beurteilungskriterien
Beispiel: Einbezug von Rechtschreibergebnisse und Sauberkeit bei der Benotung einer schriftlichen Mathematikleistung
Empirische Befunde
> Marshall (1967): Bei inhaltsgleichen Geschichtsarbeiten wurden diejenigen mit Grammatik- und Rechtschreibfehler schlechter beurteilt