Qualität von Noten

Noten sind das Ergebnis einer Leistungsmessung. Damit müssen Noten bestimmten Anforderungen – den Gütekriterien – genügen, die für Messungen jedweder Art gelten. Noten sollen möglichst objektiv und genau sein und eine Leistung gültig abbilden. Die wichtigsten Gütekriterien für Noten sind Objektivität, Reliabilität und Validität.
Gütekriterien für Noten
Forschungsergebnisse zur Güte von Noten
Verbesserungsmöglichkeiten der Güte von Noten

Gütekriterien für Noten

Objektivität bedeutet, dass die Note unabhängig von der beurteilenden Person ist. Unterschieden werden:
Durchführungsobjektivität: Inwieweit ist die Durchführung einer Leistungsüberprüfung
unabhängig von der Lehrkraft? Würden andere Lehrkräfte die Prüfung genauso gestalten (Aufgabenstellung, Bearbeitungszeit, Hilfestellungen, Hilfsmittel …)?
Auswertungsobjektivität: Inwieweit ist die Auswertung unabhängig von der jeweiligen Lehrkraft? Würden andere Lehrkräfte zum selben Auswertungsergebnis gelangen (Vorgehen bei der Korrektur, Feststellung von richtigen und falschen Antworten, Bewertung von Teilschritten …)?
Interpretationsobjektivität: Inwieweit ist die Interpretation der Ergebnisse unabhängig von der jeweiligen Lehrkraft? Würden andere Lehrkräfte vergleichbare Bewertungsrichtlinien anwenden und auf dieselbe Art bewerten bzw. dieselbe Note für die Leistung geben?
Reliabilität bedeutet, dass eine Note eine Leistung genau, ohne allzu große Verfälschung durch Messfehler, und zuverlässig abbildet. Wird zum Beispiel dieselbe Leistung zu unterschiedlichen Zeitpunkten immer gleich bewertet?
Validität bedeutet, dass eine Note wirklich das abbildet, um das es inhaltlich geht. Bezogen auf schulische Leistungsüberprüfungen: Misst die Prüfung, für die die Note vergeben wird, wirklich vor allem jene Fachkompetenz, die gemessen werden soll? Unterschieden werden vier Aspekte von Validität:
Inhaltsvalidität: Entspricht der geprüfte Inhalt dem Inhalt, der gemessen werden soll? Misst die Prüfung Kompetenzen, welche die Schüler/innen im Unterricht wirklich erwerben konnten?
Prognosevalidität: Können aus den Prüfungsergebnissen zutreffende Schlüsse auf zukünftige Leistungen und Lernerfolge gezogen werden?
Übereinstimmungsvalidität: Stimmen die mit verschiedenen Prüfungen gewonnenen Resultate überein? Dies kann man z.B. hinterfragen, wenn mündliche und schriftliche Prüfungsleistungen im selben Fach weit auf der Notenskala auseinanderliegen.
Konstruktvalidität: Berücksichtigt die Prüfung das in der Fachdiskussion gebräuchliche theoretische Modelle (z.B. Kompetenzmodelle) der zu prüfenden Leistung in allen ihren Bereichen und auf allen Niveaus?

Forschungsergebnisse zur Güte von Noten

Ergebnisse zur Objektivität

Objektivität ist gegeben, wenn Messungen unabhängig von der Person dessen sind, der sie durchführt. Das ist bei Noten nur bedingt der Fall. Beispielsweise sollten in einer Studie 73 Lehrkräfte den gleichen Aufsatz auf einer Skala von 0 bis 100 bewerten (Brimi, 2011). Die Bewertungen schwankten hierbei zwischen 50 und 96 Punkten.
Ähnliche Ergebnisse finden sich für das Fach Mathematik; auch hier fällt die Leistungsbeurteilung nicht objektiver aus (Ingenkamp & Lissmann, 2005). Dennoch liegen in vielen Studien, in denen mehrere Lehrkräfte die gleiche Leistung benoteten, die meisten Bewertungen recht nah beieinander.
Der Grad der Bewertungsübereinstimmung kann allgemein mit einem Koeffizienten mit einer Spanne von 0 „keine Übereinstimmung“ bis 1 „perfekte Übereinstimmung“ beziffert werden.
Für Schulnoten werden hier Werte im Bereich von 0.35 bis 0.85 erzielt (zum Vergleich: die Werte für Intelligenztests liegen etwa bei 0.95 bis 0.99; Sacher, 2014).
Ergebnisse zur Reliabilität
Lehrkräfte unterscheiden sich stark hinsichtlich der Genauigkeit und Zuverlässigkeit ihrer Notenvergabe (Brookhart et al., 2016). Dies gilt insbesondere für die Bewertung mittlerer Leistungen, während besonders gute oder besonders schlechte Leistungen insgesamt zuverlässiger benotet werden (Sacher, 2014).
Die Reliabilität kann auf einer Skala von 0 „gar nicht reliabel“ bis 1 „perfekt reliabel“ abgebildet werden. Die Reliabilität für die Bewertung schriftlicher Leistungen liegt zwischen 0.50 bis 0.80, die für mündliche Leistungen deutlich darunter (unter 0.50; zum Vergleich: die Werte für Intelligenztests liegen etwa bei 0.80 bis 0.95; Sacher, 2014). Insgesamt sind Notendurchschnitte (z.B. die mittlere Zeugnisnote oder der Durchschnitt aller Fachnoten eines Jahres) zuverlässiger als Einzelnoten.
Ergebnisse zur Validität
Leistungsbewertungen von Lehrkräften sind keine getreuen Abbilder von Schülerleistungen. Durchschnittlich liegt der Zusammenhang zwischen Lehrerurteil und tatsächlich erbrachter Leistung bei 0.63 auf einer Skala von -1 „umgekehrter Zusammenhang“ über 0 „gar kein Zusammenhang“ bis 1 „perfekter Zusammenhang“ (Südkamp, Kaiser & Möller 2012). Das bedeutet, dass sich lediglich ca. 40% der Unterschiede in den Lehrerurteilen durch tatsächliche Leistungsunterschiede der Schüler/innen erklären lassen und dass in einem erheblichen Umfang andere Faktoren als die Leistung die Notenvergabe beeinflussen (s.a. Einflussfaktoren auf die Notenvergabe).
Auch die prognostische Validität von Noten (das Zutreffen von Vorhersagen künftiger Leistungen aufgrund aktueller Noten) ist insgesamt recht bescheiden: Zwar wurde für die Schullaufbahnempfehlung nach dem vierten Schuljahr eine zufriedenstellende prognostische Validität festgestellt, denn für einen Großteil der Schüler/innen bewährt sich die Lehrerempfehlung (Scharenberg, Gröhlich, Guill & Bos, 2010). Aber für die Vorhersage späterer Studien- oder Berufsleistungen eignen sich Schulnoten nur bedingt. Der Zusammenhang von Abiturnote und Studiennote liegt in Deutschland durchschnittlich bei 0.34 (Bachelor) bzw. 0.25 (Master) (Trapmann, Hell, Weigand & Schuler, 2007). Befunde für den englischsprachigen Raum fallen ganz ähnlich aus (Geiser & Santelices, 2007). Der Zusammenhang von Schulnoten mit Berufsleistungen ist geringer und liegt zwischen 0.16 und 0.30 (Gasser, 2014; Roth, BeVier, Switzer & Schippmann, 1996).

Verbesserungsmöglichkeiten der Güte von Noten

Verbesserung der Objektivität
  • Prozeduren der Durchführung, Auswertung und Interpretation von Prüfungen sollten bewusstgemacht, beschrieben und im Kollegium abgestimmt werden.
  • Trainings im Kollegium helfen sicherzustellen, dass diese Prozeduren übereinstimmend angewandt werden.
  • Auswertung und Bewertung von Prüfungsleistungen sollten stets in klar voneinander getrennten Schritten erfolgen.
  • Vergleichsarbeiten oder standardisierte Tests (z.B. VERA) bieten die Möglichkeit, die eigene Prüfungs- und Beurteilungspraxis zu überprüfen und ggf. zu verbessern.
Verbesserung der Reliabilität
  • Prüfungen haben eine umso höhere Reliabilität, je mehr Aufgaben sie umfassen.
  • Mögliche Messfehler sollten bekannt sein und so weit wie möglich reduziert oder doch wenigstens bei Entscheidungen berücksichtigt werden (s. a. Messfehler bei der Notenvergabe und Gegenmaßnahmen).
Verbesserung der Validität 
  • In nichtsprachlichen Fächern (z.B. Sachunterricht) sollte man die Anforderungen an die Sprachkompetenz bei Leistungsüberprüfungen bewusst gering halten und sprachliche Leistung auf keinen Fall mitbewerten.
  • Man sollte zumindest manche Prüfungen so gestalten, dass Gedächtnisleistungen und Arbeitsgeschwindigkeit nicht so wichtig sind.
  • Es ist wichtig, Prüfungen angstfrei zu gestalten
  • Es ist hilfreich, gelegentlich Schulleistungstests zur Kontrolle einzusetzen.
  • Man sollte sich mögliche Störfaktoren und Verzerrungen immer wieder vergegenwärtigen (s.a. Einflussfaktoren auf die Notenvergabe).
  • Man sollte sogenannte Urteilsfehler minimieren (s.a. Urteilsfehler bei der Notenvergabe und Gegenmaßnahmen).
  • Es ist wichtig, mit engem Bezug auf vorangehenden und folgenden Unterricht zu prüfen.
  • Um die Übereinstimmungsvalidität zu verbessern, sollten Prüfungssituationen (z.B. vor der Klasse, alleine), Prüfungsformen (schriftlich, mündlich, praktisch) und Aufgabenformen (z.B. offen, geschlossen) möglichst vielfältig benutzt werden.
  • Anforderungen in der Prüfung sollten inhaltlich und formal (z.B. Aufgabenform, Antwortformat) den vorangehenden Unterricht proportional abbilden: Was viel Raum im Unterricht eingenommen hat, soll auch viel Raum in der Prüfung einnehmen.
  • Um ausreichende Prognosevalidität sicherzustellen, muss die Bedeutung der Prüfungsinhalte für den künftigen Lernprozess berücksichtigt werden: Was wird künftig immer wieder aufgegriffen und als Grundlage vorausgesetzt und was ist weniger wichtig?
Menü