Kritik An Der Schulischen Zensurgebung Flashcards by Egon Cikri

Schriftliche Prüfungen: Durchführungsobjektivität

Bei Schulaufgaben aufgrund des Gruppenbezugs und des transsituativen Chrakters relativ günstig und besser als bei mündlichen Prüfungen, schlechter als bei Tests (Standardisierung fehlt)
z.B. Diktate: kaum durchführungsobjektiv, da unterschiedliches Sprechtempo etc.

How well did you know this?

Not at all

Perfectly

Schriftliche Prüfungen: Auswertungsobjektivität

Williams (1933): Mathematikaufgabe sollte von Lehrkräften mit 0 bis 100 Punkten beurteilt werden
—> Beurteilung schwankte zwischen 16 und 96 Punkten
Starch & Ellliot (1913): Examensarbeit in Mathematik sollte von ca. 130 Schulen mit 0 bis 100 Punkten bewerten werden
—> Streuung von 28 bis 92 Punkte für dieselbe ArbeitMögliche Gründe
> Unterschiedliche Bestehensgrenze und Bepunktung der Aufgaben
> Bewertungsmaßstäbe (z.B. in Mathematik)
o Erziehung zur Genauigkeit: Mängel jeder Art heißt Aufgabe falsch
o Betonung des Verständnisses: Flüchtigkeitsfehler ignoriert
o Kompromiss: teilweise richtige Lösung
Replikationsstudie nach Birkel und Birkel 2002
> Wiederholung der identischen Studie von Weiss (1960er) im Jahr 1999
> 89 Grundschullehrer beurteilen 4 Aufsätze in zwei Versionen, präpariert mit unterschiedlich vielen Fehlern, unterschiedlicher Länge
> Ergebnis:
o Qualität wurde durchaus erkannt
o hohe Zahl von Rechtschreibfehlern: ein Drittel schlechter
o längster Text: am besten bewertet
o Ergebnis der Beurteiler: „Noten von 1 bis zu glatten 5“
> Bedeutung: die Probleme der Auswertungsobjektivität sind noch aktuell
Weiterer Einflussfaktoren: Reihenfolge der Korrektur (Baurmann, 1995)

How well did you know this?

Not at all

Perfectly

Schriftliche Prüfungen: Interpretationsobjektivität

Klasseninternes Bezugssystem (Ingenkamp 1969): Orientierung am Leistungsniveau der Klasse —> Abhängigkeit der Zensuren von Klasse und Lehrer, nicht eigener Leistung
Studie von Ingenkamp (1969, 1995)
> Untersuchung aller Sechstklässler in einem Berliner Bezirk mit einem validen Mathematiktest
> Vergleich Mathe-Note der Schüler vs. Testergebnis
> z.B. zwei verschiedene Klassen: in Klasse A hat ein Schüler mit Note 2 im Test durchschnittlich 53.5 Punkte, in Klasse B nur 30.9 Punkte; in Klasse C haben Schüler mit 44.8 Punkten eine 4!
> Ergebnis: Noten sind vor allem vom Klassenbezug beeinflusst
Gründe für mangelnde Objektivität
> Uneinheitliche Bewertungskriterien (Unterschiedliche Vorstellung der Lehrer, inwieweit z.B. Schriftbild und Rechtschreibfehler in Aufsatzbeurteilung eingehen)
> Wesentliche Kriterien der Beurteilung sind nicht eindeutig definierbar (z.B. Klarheit des Stils)
—> „Halo-Effekt“, d.h. Man schreibt Person mit schlechter Handschrift unbewusst auch schlechten Sprachstil zu
> Persönlichkeit des Lehrers (unterschiedliche Ausschöpfung der Notenskala, unterschiedlich streng etc.)
—> Beurteilungsfehler möglich

How well did you know this?

Not at all

Perfectly

Schriftliche Prüfungen: Wiederholungsreliabilität

Bewertung ist nur unzureichend stabil
Korrelation zwischen Korrektur einer Mathematikarbeit nach drei Monaten: r = .46 (Decker 1977)
Finlayson (1951): 6 Beurteiler sollten 2 Aufsätze benoten und nach 2 Monaten erneut; Ergebnisse: Lehrer urteilt individuell auf unterschiedlichen Strengeniveaus, Korrelation zwischen der 1. und 2. Bewertung zwischen .68 und .96
—> Wiederholungsreliabilität ist eine individuelle Größe
Hartog & Rhodes (1936): 15 Prüfungsarbeiten wurden nach 12-19 Monaten erneut bewertet
> Ergebnisse: Mittelwerte und Variationsbreiten waren entsprechend gleich, beträchtliche Unterschiede im Einzelfall (44% der ursprünglich positiv Bewerteten galten nach der 2. Beurteilung als „nicht bestanden“)
> nur 1 von den 15 Prüfer war außergewöhnlich konsistent
Eells (1930, 1995):
Kurzaufsätze in Geografie wurden von n = 63 Lehrern nach zweimal mit 11 Wochen Abstand korrigiert; Korrelation r = .25, wobei beispielsweise eine Leistung, die zunächst mit 6 Punkten bewertet worden war, in der zweiten Testung mit 10-13 Punkten bewertet wurde (von 18 Punkten)

How well did you know this?

Not at all

Perfectly

Schriftliche Prüfungen: Gründe für mangelnde Reliabilität

In Prüfungs- und Bewertungssituationen spielen auch Zufall, Konzentrationsmangel, Leichtsinn, Motivation, Wohlbefinden des Schülers und des Lehrers etc. Eine Rolle.
—> Schulnoten geben selten genauen Ausschluss über tatsächliches Wissen des Schülers, sondern eher über in einmaliger Situation reproduziertes Wissen.

How well did you know this?

Not at all

Perfectly

Schriftliche Prüfungen: Inhaltsvalidität

curriculare Validität und Lerngelegenheit in der Regel berücksichtigt
beachte auch: mangelnde Objektivität und Reliabilität führt zu mangelnder Validität
besser als bei mündlichen Prüfungen auf Grund des transsituativen Charakters, schlechter als bei Tests Konstruktvalidität
Beurteilung wird durch verschiedenste sachfremde Faktoren beeinflusst
> Durch Sympathie:
Hadley (1954): beliebte SchülerInnen erhielten im Vergleich zu Unbeliebten in den Testergebnissen zu 50% bessere Noten, als angemessen wäre und umgekehrt
> Durch Vorinformation:
Weiss (1965)
> Durch Länge der Arbeit, Handschrift, Rechtschreibfehler
Weiss (1965)
Gründe für mangelnde Inhaltsvalidität
> Es ist kaum möglich, ausschließlich das zu überprüfende Stoffgebiet zu testen (Grundwissen: z.B. Grundlagen in der Rechtschreibung)
> Inhaltsvalidität ist nur zu erreichen, wenn ein Test operationalisierbare Lernziele überprüft, was aber nicht bei allen im Lehrplan formulierten Lernzielen der Fall ist (z.B. Entwicklung von Musikverständnis)

How well did you know this?

Not at all

Perfectly

Schriftliche Prüfungen: Vorhersagevalidität/empirische Validität

Schulnoten sollten - um empirische valide zu sein - Prognosen über den weiteren schulische Lebensweg (Gymnasium), den Bildungsweg (Studium) oder die berufliche Ausbildung geben können.

Empirische Befunde
> Nach Ingenkamp (1976) ergaben Untersuchung, dass 33% der Schüler mit „geeignetem“ bzw. „Sehr geeignetem“ Übertrittszeugnis aus der Grundschule die Vorhersage in keine tatsächlich erfolgreiche Schullaufbahn im Gymnasium umsetzen können. Es ergab sich außerdem, dass die Abiturnote lediglich eine Korrelation von .19 bis .49 mit dem Studienerfolg zeigt.
—> Notengebung erfüllt Vorhersagevalidität nicht besonders gut
> Von Tent (1969): Geringere prognostische Validität von Noten im Vergleich zu Leistungstests (r=.50)
> Meta-Analyse (Baron-Boldt, 1988): Abitur-Note und Studienerfolg hat eine Korrelation von r= .456
> Empfehlungen der GrundschullehrerInnen bestätigen sich zu 60% (Sommer, 1983)
> aber: kaum Zusammenhänge zwischen Noten und Berufserfolg (Althoff, 1986)

Gründe für mangelnde Vorhersagevalidität
Es gibt viele andere Faktoren (außer Schulnoten), die über einen erfolgreichen Übertritt von Grundschule auf Gymnasium bzw. Studienerfolg entscheiden: Entwicklung der Persönlichkeit (Pubertät), Qualität der Vermittlung, neue Umgebung,…

How well did you know this?

Not at all

Perfectly

Schriftliche Prüfungen: Kriterienbezogene Validität

Die Kriterienbezognene Validität sagt etwas darüber aus, inwieweit die Schulnote Aufschluss darüber gibt, ob das Unterrichtsziel erreicht wurde.
Sie ist höhrer, wenn das Lernziel operationalisierbar ist. In Mathetests ist sie mit Kriterien wie Rechenweg, -fehler, -ergebnis leichter zu gewährleisten al in der Aufsatzbeurteilung - wenn also bestimmte, vorab definierte bzw. Stillschweigend anerkannte Kriterien Maßstab für die Beurteilung sind.

Gründe für mangelnde kriterienbezogene Validität
> Beurteilungskriterien sind oft nur vage bestimmt
> Bei Aufsatzbeurteilung (Was ist guter / schlechter Ausatz?) und im Sport (Individueller Einsatz / körperliche Voraussetzungen mit einbeziehen?) besonders schwierig
> Unterschiedliche Auffassung (bedingt durch unterschiedliche Ausbildung, fachdidaktische Position, verschiedene Fortbildungen, berufliche Erfahrung…) gehen in die Bewertung mit ein.

How well did you know this?

Not at all

Perfectly

Bedeutung von Gütekriterien in der Schule

Mietzel (2007) stellt dar, dass die Gütekriterien (insbesondere Objektivität und Reliabilität) in der Schule oft aus pädagogischen Gründen zurückgestellt werden müssen und nicht oberste Priorität haben sollten. Als Gründe nennt er
> Objektiv sind nur Aufgaben wie MC Tests. Hier geht aber Komplexität des Lerninhalts eindeutig verloren (nach Lindquist 1951)
> Problemsituation in Alltag sind selten eindeutig und kontextfrei —> strenge Befolgung der Gütekriterien schafft nicht authentische Probleme (Wiggins 1993)
> Wiggins (1994) fasst zusammen: Oberste Ziel muss Gültigkeit der Tests sein, zu Ungunsten von Reliabilität und Objektivität; diese müssen aber in einem Mindestmaß vorhanden sein

How well did you know this?

Not at all

Perfectly

Verbesserungsmöglichkeiten für schriftliche Tests: Objektivität

radikalster Standpunkt: Abschaffung der Notengebung

Durchführungsobjektivität
> gleiche Hilfsmittel für alle Prüflinge
> Individualisierung bei Prüfungsängstlichen

Auswertungs- & Interpretationsobjektivität
> Erarbeitung eines Kriterienkatalogs vor der Bewertung (v.a. Im Aufsatzbereich)
> bei freien Arbeiten: Teamauswertung nach Globaleindruck & Kriterienkatalog
> Mehrere Bewerter / Lehrer sollten eine Arbeit beurteilen —> sichereres Urteil und gegenseitige Kontrolle
> Entwiclung eines schulinternen Bezugssystems
> Möglichst viele Leistungsüberprüfungen und Ergänzung der Schulleistungstests

How well did you know this?

Not at all

Perfectly

Verbesserungsmöglichkeiten für schriftliche Tests: Reliabilität

z.B. Orientierung an Kriterienkatalogen, um Übereinstimmung zwischen Prüfern und zwischen zeitlich versetzte Prüfungen zu sichern

How well did you know this?

Not at all

Perfectly

Verbesserungsmöglichkeiten für schriftliche Tests: Validität

Inhaltsvalidität
> Experten-Ratings der Fragen
> Berücksichtigung der Lerngelegenheiten
empirische Validität
> Überprüfung des Zusammenhangs mit anderen Kriterien wie weiteren schriftlichen Prüfungen, mündlichen Prüfungen, Tests, usw.
Konstruktvalidität
> Pluralismus der Prüfungsmethoden —> Wahlmöglichkeit
> Bewusstheit über Verzerrungseffekte
> Transparenz der Anforderungen: Lehrziele festlegen, klarer Prüfungsverlauf
> geschlossene Antwortformate verwenden —> geringere Inferenz
> neue Formen der Leistungsbeurteilung berücksichtigen
> Anonymisierung einführen —> verhindert Sympathie- und Erwartungseffekte
> Prüfungen nach erster Durchsicht in andere Reihenfolge bringen und erneut korrigieren —> vermeidet Kontrasteffekte

How well did you know this?

Not at all

Perfectly

Kritik an mündlichen Prüfung

Sozailpsychologischer Aspekt
Prüfungssituation: asymmetrische Sozialsituation: die einen definieren die Prüfungsnorm, die anderen haben sich anzupassen (Lautmann, 1971)
—> soziale Situation nicht durch Inhalte definiert, sondern auch durch Ersteindruck etc.
Psychoanalystischer Aspekt
Ähnlichkeit zu Initiationsriten und Statuszuweisung —> stark angstbesetzt
Widerspruch: Prüfung soll Leistung messen, verhindert das aber selbst durch Angstauslösung (Moeller 1972)
Angstauslöser bei Prüfungen
> Situation der Trennung (Prüfung als Abschluss eines Lebensabschnitts)
> Situation der Kränkung (keine Bestätigung der Intellektuellen leistung möglich)
> Situation der Bestrafung (Prüfung als jüngstes Gericht)
> Situation der Versuchung (aggressive Versuchung)

How well did you know this?

Not at all

Perfectly

Mündliche Prüfungen: Objektivität

Durchführungsobjektivität:
mangelhaft, da nicht alle Prüflinge dieselben Fragen gestellt bekommen (adaptiv - situativ), nicht zur selben Zeit geprüft werden usw. (Zeitlich unbestimmt)

Auswertungsobjektivität:
wegen situativem Charakter oft unzureichend; Kriterien für richtig / falsch sind oft nur vage definiert

Interpretationsobjektivität
großes Ausmaß an Nicht-Übereinstimmung (Objektivitätskoeffizienten zwischen .40 und .80, Häufung bei .60)

Brikel & Pritz (1980): von einer mündlichen Geografieprüfung, die mit Note 3 bewertet worden 	war, wurden 2 Videoversionen erstellt; 1 x schnell, flüssig, 1 x langsam, stockend. 
—> Beurteilung durch 81 Lehrkräfte, denen Vorinformationnen über bisherige Leistungen in 	Geografie oder anderen Fächern gegeben wurde
—> Objektivitätskoeffizient von .35 (Noten schwanken von 1 bis 5)
—> Höheres Sprachtempo wird mit höherer Kompetenz assoziiert
—> Halo-Effekt: schneller sprechender Kandidat wurde als intelligenter, sympathischer usw. 	Eingeschätzt
—> Erwartungseffekte: bei positiver Vorinformation über die Geografienote wurde die bessere 	Note vergeben

How well did you know this?

Not at all

Perfectly

Mündliche Prüfungen: Reliabilität

Wiederholungsreliabilität
> Prüfer prüft Kandidaten nach einiger Zeit erneut; kaum Untersuchungen vorhanden (Koeffizienten etwas höher als bei Paralleltest)
> in der Schule nicht vorgesehen
> grundätzliches Problem bei Leistungsbeurteilung: Prüfer ist zugleich Messinstrument
> Messinstrument ist nicht stabil
Paralleltest-Reliabilität
Prüfen eines Prüflings durch 2 Prüfer kurz hintereinander bzw. Zeitgleich, koeffizient zwischen .00 und .60, Häufung bei .45

How well did you know this?

Not at all

Perfectly

Mündliche Prüfung: Validität

Inhaltsvalidität
> beeinträchtigung durch situativen Charakter
> Fragen sind z.T. Nicht repräsentativ, keine Staffelung nach Schwierigkeit,…
> aber: i.d.R. Curriculare Validität / Lerngelegenheit berücksichtigt
empirische Validität
Übereinstimmung zwischen mündlichen und schriftlichen Prüfungen nur .30; Zusammenhänge mit Dozentengutachten u.Ä. Mäßig
Konstruktvalidität
durch Interaktionseffekte beeinträchtigt

Birkel (1976): Videos von zwei mündlichen Deutschprüfungen wurden ca. 150 Lehrer zur Beurteilung vorgelegt; Kandidat A absolvierte eine harmonsiche Prüfung, Kandidat B war durch überdurchschnittlich hohen Schwierigkeitsgrad überfordert
> Reihenfolge der Darbietung wurde variiert
> Vorinformation über Leistung im Abituraufsatz wurde variiert (1/5/keine info)
> Kontraeffekte: guter Kandidat wurde noch besser beurteilt, wenn zuerst schlechte dargeboten wurde und umgekehrt
> Erwartungseffekte: Bei Angabe der Aufsatznote 1 lag die Zensur von Kandidat durchschnittliche bei 3.01, bei Angabe der Aufsatznote 5 durchschnittlich bei 3.56
> personale Variablen: Lehrkräfte mit mehr Prüfungserfahrung tendieren zu strengeren Noten

Verbesserungsmöglichkeiten mündliche Prüfungen: Allgemein

Formaler Rahmen: keine Wartezeit, gute Sitzgekegenheiten…
Positive Momente: Flexibilität des Prüfers, Ermutigungsstrategien…
Hohe Transparenz der Anforderungen:
> Festlegung der Lehrziele
> Kriterienkatalog
> klare Fragen
> Trennung von Leistungsfeststellung und -bewertung
> Mehrere Beurteiler
> Keine Ballung von Prüfungen
> Evtl. Vorbereitungszeit nach Frage
> Pluralismus der Prüfungswahl

Verbesserungsmöglichkeiten mündliche Prüfungen: Objektivität

Durchführungsobjektivität:
> korrekter formaler Rahmen: pünktlicher Beginn, Freundlichkeit usw. (Keine unnötige Betonung der Prüfermacht)
> Auslosen der schriftlichen Prüfungsfragen
> Ermutigungsstrategien & Funktionsfragen einsetzen
> Vorbereitungszeit gewähren, Reihenfolge frei wählen lassen
> Kontrolle der Prüfung durch Prüfling ermöglichen
Auswertungs- & Interpretationsobjektivität
> Kriterienkataloge einsetzen
> getrennte Beurteilung durch Zweitprüfer
> Entwicklung eines schulinternen Bezugssystems

Verbesserungsmöglichkeiten mündliche Prüfungen: Validität

Inhaltsvalidität
> Formulierung von Prüfungsfragen im Voraus
> Experten-Rating der Fragen
> Berücksichtigung der Lerngelegenheit
empirische Validität
Überprüfung des Zusammenhangs mit anderen Kriterien, wie z.B. weiteren mündlichen Prüfungen, schriftlichen Prüfungen, Tests usw.
Konstruktvalidität
> nur mündlich prüfen, wenn Sprache der Gegenstand der Prüfung ist
> Pluralismus der Prüfungsmethoden —> Wahlmöglichkeit
> Bewusstheit über Verzerrungseffekte
> Transparenz der Anforderungen: Lehrziele festlegen, klarer Prüfungsverlauf
> Abwechseln von Übersichts- und Detailfragen
> nicht zu viele Prüfungen hintereinander (Vermeidung von Kontrasteffekten)
> besser mehrere Einzelprüfungen statt einer einzelnen Prüfung

Sachfremder Einfluss: Benotung und Sympathiebeziehung zwischen Lehrer und Schüler

Sympathie/Antipathie für einen Schüler kann den Lehrer bei seiner Benotung beeinflussen

Empirische Befunde
> Hadley (1954): relativ hoher Zusammenhang zwiscen Sympathiebeurteilung und den Schulnoten (r <= .92)
> Aus Gruppe der beliebtesten Schüler erhielten 50% bessere Noten als die ihren Testleistungen entsprechenden
> Aus Gruppe der unbeliebtesten Schüler erhielten 50% schlechtere Noten als ihren Testleistungen entsprechenden
> Höherer Zusammenhang zwischen Benotung und objektiver Testleistung bei Lehrern (im Vergleich zu Lehrerinnen), d.h. Lehrer sind objektiver

Sachfremder Einfluss: Vorinformationen über den Schüler - soziale Stereotype

Wissen über den Schüler kann den Lehrer bei seiner Benotung beeinflussen

Empirische Befunde
> Weiss (1965): 92 Lehrer bekamen Vorinformationen zu Aufsätzen (positiv: sprachbegabt, Sohn eines Redakteurs; negativ: durchschnittlich, berufstätige Eltern)
o Durchschnittliche Noten: 2.08 vs. 2.83 (keine einzige 1 für „schlechtere“ Schüler, 16% der Noten 1 für „bessere“
o Auch bei Rechtschreibleistung deutliche Unterschiede
o Ohne soziale Information (i.e. nur auf Leistung bezogen) geringerer Einfluss (Baurmann 1995)

Sachfremder Einfluss: Geschlecht des Lehrers und des Schülers

Das Geschlecht des Schülers o. Lehrers kann die Lehrerbeurteilung beeinflussen

Empirische Befunde:
> Carter (1952): Jungen erhalten strengere Zensuren als Mädchen bei gleicher Begabung und gleichem Wissen, Lehrerurteile sind strenger als die von Lehrerinnen, am besten werden Schülerinnern und Lehrerinnen bewertet
> Bleck und Teichmann (1978): Altersabhängigkeit der geschlechterspezifischen Note, besonders deutliche Unterschiede zugunsten der Mädchen in 5.-8. Klasse in sprachlichen Leistungsbereichen, (Ursachen: reifungsbedingte Entwicklungsvorsprünge der Mädchen, größere „Schulwilligkeit“), kaum Geschlechtsunterschiede in weiterführenden Examina (Medizin, Jura) und beim Schulabschluss

Sachfremder Einfluss: Klassengröße und Benotung

Die Klassengröße kann sich auf die Schülerleistung und somit Benotung auswirken.

Empirische Befunde:
> Meta-Analyse: In 60% der Fälle waren die Schülerleistungen aus kleineren Klassen besser als aus größeren Klassen
> Kühn (2986): Starker Trend, dass in kleineren Klassen bessere Durchschnittszensuren vorliegen
—> Zufällige Platzierung in kleine oder große Klasse ist von großer Bedeutung für späteres Leben

Sachfremder Einfluss: Fachfremde Beurteilungskriterien

Beispiel: Einbezug von Rechtschreibergebnisse und Sauberkeit bei der Benotung einer schriftlichen Mathematikleistung

Empirische Befunde
> Marshall (1967): Bei inhaltsgleichen Geschichtsarbeiten wurden diejenigen mit Grammatik- und Rechtschreibfehler schlechter beurteilt

Sachfremde Einflüsse: Schulartspezifische Benotung

Einfluss der Schulart auf die Zensuren, unterschiedliche Bewertungsmaßstäbe Empirische Befunde > Weiss (1965): Durchschnittsnoten in der 8. Klasse in Mathematik: Gymnasium: 3,65; Hauptschule: 3,25; Volksschule; 2,35 > Je höher die weiterführende Schule, desto strenger ist die Benotung „Notenknick“ besonders in den Hauptfächern

Sachfremde Einflüsse: Fächerspezifische Benotung

Einfluss der Fächer auf die Benotung, aus der unterschiedlichen gesellschaftlichen Wertschätzung einzelner Fächer folgt ein ungleicher Einfluss, Beispiel: wenig Ansehen eines Musiklehrers an einem naturwissenschaftlichen Gymnasium. Empirische Befunde - Kiwitz (1964): Sehr strenge Bewertung der Hauptfächer (Mathematik, Deutsch, Englisch) an weiterführenden Schulen, relativ streng bei „Lernfächer“ (Geographie, Geschichte), milde äußerer Form und misischen Fächern (Religion, Musik) - oft werden nur 3 Noten vergeben! - Für die Niderlande (de Groot 1971): Unterschiedliche Benotung in Abhängigkeit davon, ob ein Fach als Haupt- oder Nebenfach unterrichtet wurde

Sachfremde Einflüsse: Schulstufenbezogene Zensurierungstendenzen

Einfluss der Schulstufe auf die Zensurierung Emprische Befunde > Hopp & Lienert (1965): Während der ersten 4 Schuljahre kommt es zur Verschärfung der Zensurengebung —> meist Verschlechterung der Durchschnittsnoten > Bleck & Teichmann (1979): 1 Jahr vor dem Schulabschluss ist die Bewertung besonders streng, aber bessere Zensuren beim Abschluss selbst

Sachfremde Einflüsse: Länderspezifsiche Differenzen

Einfluss der Bundesländer auf die Noten, Unterschiedliche Zensurierung bei den Abiturnoten in einzelnen Bundesländern Empirische Befunde > 1973: Abiturdurchschnittsnote in Bayern: 2,6 und in Berlin: 3,1 > Argument: Bayrische Abiturienten sind die „besten“, z.B. überproportional gutes Abschneiden bei „Jugend forscht“

Sachfremde Einflüsse: Klasseninterne Bezugssysteme

Einfluss der Klasse auf die Benotung Empirische Befunde > Ingenkamp (1969): Chance für gute Noten abhängig von Leistung der Mitschüler > Schiefele (1960): Benotung von klasseninternem Niveau abhängig, kein Zensurenvergleich zwischen verschiedenen Klassen möglich > Konsequenz: Abschlusszeugnis bezieht sich nicht auf vergleichbare Merkmale des Individuums, sondern gibt lediglich Auskunft über die Rangposition in entsprechender Klasse —> Verbesserung der Vergleichsmöglichkeiten: Verwendung identischer Beurteilungsraster in Parallelklassen

Sachfremde Einflüsse: Sozialschicht und Benotung

Einfluss der Sozialschicht auf die Benotung, fehlende Verwirklichung einer repräsentativen Chancengleichheit, soziale Selektivität des Schulsystems Empirische Befunde > Hanke, Lohmüller, Mandl (1975): Bevorzugung von Schülern aus höheren Schichten für das Gymnasium und bessere Benotung (Übertrittsquote ans Gymnasium und Betrachtung des Vaters: 43% Nichtarbeiter, 16% Facharbeiter, 13% Arbeiter) > Dreher (1979): Keine sozialschichtbezogene Benachteiligung an Gesamtschulen, im gegliederten Schulsystem am ende der Sekundarstufe 1 beträchtliche Selektivität dagegen, aber Rückgang der Ungleichheit Noten sind ein fester Bestandteil der Schule mit einigen wichtigen Funktionen, aber auch mit Problemen behaftet

Diagnostische Kompetenz Definition

Schrader 2001: Diagnostische Kompetenz ist die Fähigkeit, Personen treffend zu beurteilen. Sie ist Grundlage für die Genauigkeit diagnostischer Urteile. Erweiterung durch methodisches Wissen sowie konzeptuelles Wissen (Urteilsfehler etc.) und zutreffender Orientiertheit zur diagnostischen Expertise (Helmke 2007) Lehrberuf: vorwiegend informelle Diagnostik, d.h. Personenbezogene Urteile ohne wissenschaftliche Methoden; beiläufig im erzieherischen Handeln gewonnen. Wienert und Schrader: diagnostischer Optimismus: Noten müssen nicht zwingend Gütekriterien entsprechen, stattdessen 1. Vorsicht darin, dass Urteile stets vorläufig und revisionsbedürftig sind 2. Permanente Überprüfung und Anpassung 3. Rücksicht auf verschiedene Maßstäbe: individuumszentriert ist päd. Fruchtbar 4. Pädagogisch günstige Voreingenommenheit: für Schüler günstige Einstellung (und Attributionen) halten Handlungsreize (auch für Lehrer) —> Daher: leichte Überschätzung der Schüler ist häufig förderlich für Motivation und Lernverhalten

Dimensionen diagnostischer Urteile

Helmke 2007 > Personen- vs. Aufgabenmerkmale: Intelligenz, Vorwissen etc. Vs. Schwierigkeitsgrade, Erkennen von Fehlermustern > Fachlicher vs. Überfachlicher Bezug: Diagnose von Lernergebnissen vs. Schlüsselqualifikationen > Individuum vs. Klasse: interindividuelle Unterschiede nur anhand der ganzen Klasse feststellbar (vgl. Lerntempo) > Status vs. Potential: Ist-Zustand (für Zone nächster Entwicklung) vs. Leistungsmöglichkeit unter geeigneten Bedingungen > Bezugsnorm: Kriterien

Empirische Befunde Diagnostische Kompetenzen

- oftmals nicht objektiv, nicht reliabel und nicht valide; zu sehr klassenintern bezogen (Ingenkamp 1992/1971) - Leistungsbezogene Genauigkeit: Vorhersage der Leistungen i.d.R. Gut (aber hohe Unterschiede) (Helmke/Schrader 2002, Hoge/Coladarci 1989: r=.66) - Trift hohe diagnostische Kompetenz auf guten Einsatz von Strukturierungshilfen, so ergeben sich positive Lerneffekte - Intelligenz: allgemein relativ gute Einschätzung, ptoblematischer bei spezifischen Begabung; oft an Schulleistungen orientiert - Genauigkeit unabhängig von der Klassengröße

Spinath-Studie (2005) zur diagnostischen Kompetenz

Einschätzung von lernrelevanten Persönlichkeitsmerkmalen; Beurteilung von Schülern durch 43 Grundschullehrer in Bezug auf Intelligenz, Fähigkeitswahrnehmung, Motivation und Leistungsängstlichkeit; parallel Fragebogen Messung von drei Komponenten: > Niveaukomponente: Abweichung zwischen Mittelwert der Lehreruteile und Mittelwert der Testergebnisse [Schätzt der Öehrer durchschnittliche Intelligenz tatsächlich als durchschnittlich ein] > Differenzierungskomponente: reflektieren die Lehrerurteile die tatsächliche Streuung des Merkmals oder liegt z.B. eine Tendenz zur Mitte vor > Rangordnung der Schüler Ergebnis: > Niveaukomponente: Intelligenz treffend, Ängstlichkeit und Selbstwahrnehmung überschätzt und Motivation unterschätzt > Differenzierungskomponente: Streuung bei Intelligenz zu klein, sonst überschätzt > Akkuratheit: IQ und Selbstwahrnehmung moderat, sonst gering > Problem: Die Güte der Diagnose korreliert kaum zwischen den einzelnen Bereichen, d.h. Es gibt Lehrer, die Intelligenz sehr gut, Motivation aber eher schlecht einschätzen —> Fragwürdigkeit, ob von allgemeiner diagnostischer Kompetenz gesprochen werden kann > Kritik an der Studie: Selbstwahrnehmung von Grundschülern eher gering ausgeprägt; fehlende Übertragbarkeit auf andere Schularten

SALVE-Studie

SALVE-Studie (systematische Analyse des Lernverhaltens und des Verständnisses in Mathematik: Entwicklungstrends und Fördermöglichkeiten): Passung zwischen Einschätzung der Lehrer bezüglich Vorwissen, Motivation und Schülerleistung. Vorgehen: Schulartübergreifen wurden Schüler und Lehrer aus 30 fünften Klassen zu einer gefilmten Stunde bzgl. Verständnis, Motivation etc. Befragt Ergebnisse: > Anteil der Schüler, die Aufgaben lösen konnten: um ca. 18% überschätzt > Vergleichende Schwierigkeitseinschätzung verschiedener Aufgaben: recht gut > Aufmerksamkeit der Schüler: unterschätzt (—> Lehrer stets wachsam) > Unterschätzung in Bezug auf erworbenes Verständnis (Lehrer: 65% haben es verstanden, Schüler: 80% haben es verstanden) > Unterschätzung des Anteils, der unterfordert war > Starke Streuung der Ergebnisse zwischen einzelnen Lehrern Evalutation > Fragwürdigkeit der Selbsteinschätzung von 5. und 6. Klasslern > Tendenzielle Unterschätzung der Schüler positiv für flexiblen unterricht