Schulnoten werden nur selten allen Gütekriterien gerecht, denen Messungen genügen müssen.
Im Folgenden werden hierzu einige Forschungsergebnisse vorgestellt.
Objektivität ist gegeben, wenn Messungen unabhängig von der Person dessen sind, der sie durchführt. Das ist bei Noten nur bedingt der Fall. Beispielsweise sollten in einer Studie 73 Lehrkräfte den gleichen Aufsatz auf einer Skala von 0 bis 100 bewerten (Brimi, 2011). Die Bewertungen schwankten hierbei zwischen 50 und 96 Punkten.
Ähnliche Ergebnisse finden sich für das Fach Mathematik; auch hier fällt die Leistungsbeurteilung nicht objektiver aus (Ingenkamp & Lissmann, 2005). Dennoch liegen in vielen Studien, in denen mehrere Lehrkräfte die gleiche Leistung benoteten, die meisten Bewertungen recht nah beieinander.
Der Grad der Bewertungsübereinstimmung kann allgemein mit einem Koeffizienten mit einer Spanne von 0 „keine Übereinstimmung“ bis 1 „perfekte Übereinstimmung“ beziffert werden.
Für Schulnoten werden hier Werte im Bereich von 0.35 bis 0.85 erzielt (zum Vergleich: die Werte für Intelligenztests liegen etwa bei 0.95 bis 0.99; Sacher, 2014).
Lehrkräfte unterscheiden sich stark hinsichtlich der Genauigkeit und Zuverlässigkeit ihrer Notenvergabe (Brookhart et al., 2016). Dies gilt insbesondere für die Bewertung mittlerer Leistungen, während besonders gute oder besonders schlechte Leistungen insgesamt zuverlässiger benotet werden (Sacher, 2014).
Die Reliabilität kann auf einer Skala von 0 „gar nicht reliabel“ bis 1 „perfekt reliabel“ abgebildet werden. Die Reliabilität für die Bewertung schriftlicher Leistungen liegt zwischen 0.50 bis 0.80, die für mündliche Leistungen deutlich darunter (unter 0.50; zum Vergleich: die Werte für Intelligenztests liegen etwa bei 0.80 bis 0.95; Sacher, 2014).
Insgesamt sind Notendurchschnitte (z.B. die mittlere Zeugnisnote oder der Durchschnitt aller Fachnoten eines Jahres) zuverlässiger als Einzelnoten.
Leistungsbewertungen von Lehrkräften sind keine getreuen Abbilder von Schülerleistungen. Durchschnittlich liegt der Zusammenhang zwischen Lehrerurteil und tatsächlich erbrachter Leistung bei 0.63 auf einer Skala von -1 „umgekehrter Zusammenhang“ über 0 „gar kein Zusammenhang“ bis 1 „perfekter Zusammenhang“ (Südkamp, Kaiser & Möller 2012). Das bedeutet, dass sich lediglich ca. 40% der Unterschiede in den Lehrerurteilen durch tatsächliche Leistungsunterschiede erklären lassen und dass in einem erheblichen Umfang andere Faktoren als die Leistung die Notenvergabe beeinflussen (siehe auch: Einflussfaktoren auf die Notenvergabe).
Auch die prognostische Validität von Noten (das Zutreffen von Vorhersagen künftiger Leistungen aufgrund aktueller Noten) ist insgesamt recht bescheiden:
Zwar wurde für die Schullaufbahnempfehlungen nach dem vierten Schuljahr eine zufriedenstellende prognostische Validität festgestellt, denn für einen Großteil der Schüler/innen bewährt sich die Lehrerempfehlung (Scharenberg, Gröhlich, Guill & Bos, 2010).
Aber für die Vorhersage späterer Studien- oder Berufsleistungen eignen sich Schulnoten nur bedingt.
Der Zusammenhang von Abiturnote und Studiennote liegt in Deutschland durchschnittlich bei 0.34 (Bachelor) bzw. 0.25 (Master) (Trapmann, Hell, Weigand & Schuler, 2007). Befunde für den englischsprachigen Raum fallen ganz ähnlich aus (Geiser & Santelices, 2007). Der Zusammenhang von Schulnoten mit Berufsleistungen ist geringer und liegt zwischen 0.16 und 0.30 (Gasser, 2014; Roth, BeVier, Switzer, & Schippmann, 1996).