Neuigkeiten

KI im Geschichtsunterricht – Grenzen von Feedback und Notengebung durch KI

Die aktuelle Studie zeigt deutliche Grenzen bei Notengebung und Feedback durch KI.

von Hannes Burkhardt, Jakob Erichsen und Malte Klein

Mit dem Aufkommen leistungsfähiger KI-Sprachmodelle sind nun auch Anwendungen auf dem Markt, die Lehrkräfte bei Bewertungen und Rückmeldungen zu Schülerleistungen unterstützen sollen. Anbieter wie Fobizz, FelloFish oder Noten Copilot werben damit, Lehrkräften Arbeit abzunehmen und Feedbackprozesse effizienter zu gestalten.

Gerade im Fach Geschichte, das stark auf Quellenarbeit, kritisches Denken und die Beurteilung kontroverser Themen angewiesen ist, stellt sich die Frage, ob solche Systeme tatsächlich hilfreiche Unterstützung bieten. Im Rahmen einer wissenschaftlichen Studie haben wir drei KI-Anwendungen genauer betrachtet und getestet, wie zuverlässig ihre Rückmeldungen ausfallen.

Vorgehen: Eine Geschichtsklausur als Testfeld

Wir nutzten eine dreiteilig Klausuraufgabe zum Nationalsozialismus auf Leistungskursniveau. Die Aufgaben umfassten das Zusammenfassen einer Quelle, die Analyse ideologischer Elemente sowie eine Frage zur Urteilsbildung. Dazu entwickelten wir sieben Beispiellösungen, die von einer nahezu idealen Lösung über absurde oder fehlerhafte Varianten bis hin zu geschichtsrevisionistischen Argumentationen reichten. Die Klausur und die Lösungen können hier heruntergeladen werden:

https://www.uni-flensburg.de/fileadmin/content/seminare/geschichte/dokumente/downloads/gfh-2025.zip 

Diese Lösungen wurden den drei Anwendungen mit identischen Bewertungskriterien vorgelegt. Um die Zuverlässigkeit der Systeme zu prüfen, wiederholten wir jeden Testlauf mehrfach. Auf diese Weise entstanden insgesamt 175 KI-Bewertungen inklusive Feedback.

Zentrale Beobachtungen

Unsere Auswertung der KI-Gutachten brachte eine Reihe von Problemfeldern zutage:

  1. Hohe Volatilität in den Bewertungen: Bei mehrfacher Bewertung identischer Lösungen traten teilweise erhebliche Schwankungen von mehreren Notenschritten auf. Eine verlässliche Reproduzierbarkeit war damit nicht gegeben.
  2. Unzureichende Erkennung und Missbilligung von verfassungsfeindlichen Inhalten: Geschichtsrevisionistische Aussagen und Holocaustleugnung wurden weder zuverlässig erkannt noch in angemessener Form im Feedback benannt oder klar missbilligt. Hier zeigten sich teils erhebliche Schwankungen zwischen den verschiedenen Anbietern.
  3. Unzuverlässige Erkennung von inhaltlichen Fehlern: Fachliche Fehler wurden nicht zuverlässig identifiziert und korrigiert. Selbst wenn Fehler erkannt wurden, war keineswegs garantiert, dass die Korrektur fachlich korrekt ausfiel. Besonders bei elaboriert formulierten Texten zeigte sich eine erhöhte Wahrscheinlichkeit, dass inhaltliche Schwächen übersehen wurden.
  4. Überbewertung von KI-generierten Lösungen: Texte, die selbst durch KI erstellt worden waren, erhielten tendenziell zu gute Bewertungen und wurden im Verhältnis zu ihrer fachlichen Qualität überhöht eingeschätzt.
  5. Inkonsistente Überführung von Bewertungskriterien: Die vorgegebenen Bewertungskriterien wurden nicht durchgängig und konsistent berücksichtigt, was zu Verzerrungen in Bewertungen und Feedback führte.
  6. Oberflächliches Feedback: Die Rückmeldungen blieben in vielen Fällen zu unkonkret und unspezifisch. Aus pädagogischer, didaktischer und inhaltlicher Perspektive fehlte es an differenzierten Hinweisen, insbesondere im Hinblick auf die Förderung domänenspezifischer Kompetenzen.

Einordnung: Chancen und Grenzen von KI

Unsere Ergebnisse deuten darauf hin, dass aktuelle KI-Systeme im Geschichtsunterricht zwar interessante Anknüpfungspunkte bieten, aber in ihrer jetzigen Form für die Bewertung und das Feedback im Rahmen von Notengebung nicht zuverlässig genug sind. Gerade dort, wo es um demokratiefeindliche Inhalte oder komplexe historische Urteilsbildungen geht, sollten Lehrkräfte sich nicht auf maschinelle Einschätzungen stützen.

Zugleich bestehen Chancen für Lernprozesse. KI kann Lernenden in Übungsphasen zusätzliche Perspektiven auf ihre Texte eröffnet. Die große Herausforderung besteht darin, den Mehrwert sinnvoll einzubinden, ohne die pädagogische Verantwortung aus der Hand zu geben.

Ausblick: Kritische Auseinandersetzung notwendig

Unser Fazit lautet daher: KI-gestütztes Feedback kann eine ergänzende Rolle im Geschichtsunterricht in Übungsphasen spielen, solange seine Grenzen bewusst reflektiert werden. Lernende und Lehrende sollten die Rückmeldungen stets kritisch prüfen und nicht unbesehen übernehmen. Anbieter wiederum stehen in der Pflicht, Transparenz über die Funktionsweise und Schwächen ihrer Systeme herzustellen und zu gewährleisten, dass zentrale Anforderungen – etwa die klare Benennung von verfassungsfeindlichen Inhalten, eine zuverlässige Erkennung von Fehlern sowie stabile Ergebnisse auch bei mehrfacher Prüfung – lückenlos erfüllt werden.

Für die Lehrerbildung ergibt sich daraus die Notwendigkeit, angehende Lehrkräfte nicht nur mit den Chancen, sondern auch mit den Risiken solcher Anwendungen vertraut zu machen. Es gilt, Kompetenzen für den reflektierten Umgang mit KI zu entwickeln – und zugleich eine breite wissenschaftliche wie gesellschaftliche Diskussion darüber zu führen, welche Rolle diese Technologien künftig im Bildungssystem spielen sollen.

Unserer Ansicht nach liegt in der Auseinandersetzung mit den Schwächen und Möglichkeiten von KI nicht nur eine technische, sondern auch eine bildungspolitische Aufgabe. Der Geschichtsunterricht, der in besonderem Maße auf kritische Urteilsbildung und historische Verantwortung abzielt, eignet sich dabei als Prüfstein in besonderer Weise.

Die ganze Studie ist erschienen in geschichte für heute 04/2025:

Burkhardt, Hannes / Erichsen, Jakob / Klein, Malte: Künstliche Intelligenz als Unterstützung für Schülerfeedback und Notengebung im Geschichtsunterricht? Ein Problemaufriss. In: geschichte für heute 18 (2025). Heft 4. S. 49─69.

Download (aus dem Uninetzwerk): https://elibrary.utb.de/toc/gfh/18/4

Europa-Universität Flensburg (EUF)

Christian-Albrechts-Universität zu Kiel (CAU)