Handreichung: Einsatz von KI bei (schriftlichen) Prüfungsleistungen (Hausarbeiten, Portfolios etc.) am Seminar für Geschichte und Geschichtsdidaktik (SGG)
Auszug aus der Präambel der Handreichung
Diese Handreichung verfolgt das Ziel, Studierende und Lehrende im Teilstudiengang Geschichte bei einem kritisch-reflektierten und zugleich kreativ-produktiven Umgang mit KI-basierten Anwendungen zu unterstützen. Dabei steht nicht die Einschränkung oder gar ein Verbot des KI-Einsatzes im Vordergrund, sondern die Förderung einer bewussten Haltung wissenschaftlichen Arbeitens, die Chancen und Grenzen gleichermaßen in den Blick nimmt. Zentraler Anspruch dieser Handreichung ist die nachvollziehbare Dokumentation der bei der Erarbeitung (schriftlicher) Prüfungsleistungen im Teilstudiengang Geschichte verwandten KI-Anwendungen, um wissenschaftliche Integrität zu gewährleisten. Sie bildet einen Zwischenstand (Stand 13. Juni 2025) in einer dynamischen Diskussion ab, die wir sowohl seminarintern als auch gesellschaftlich führen und führen müssen.
Download Handreichung
Studie über die Grenzen von Feedback und Notengebung durch KI im Geschichtsunterricht
https://www.uni-flensburg.de/geschichte/neuigkeiten/news/ki-im-geschichtsunterricht-grenzen-von-automatisiertem-feedback-und-notengebung-durch-ki
Zentrale Beobachtungen
- Hohe Volatilität in den Bewertungen: Bei mehrfacher Bewertung identischer Lösungen traten teilweise erhebliche Schwankungen von mehreren Notenschritten auf. Eine verlässliche Reproduzierbarkeit war damit nicht gegeben.
- Unzureichende Erkennung und Missbilligung von verfassungsfeindlichen Inhalten: Geschichtsrevisionistische Aussagen und Holocaustleugnung wurden weder zuverlässig erkannt noch in angemessener Form im Feedback benannt oder klar missbilligt. Hier zeigten sich teils erhebliche Schwankungen zwischen den verschiedenen Anbietern.
- Unzuverlässige Erkennung von inhaltlichen Fehlern: Fachliche Fehler wurden nicht zuverlässig identifiziert und korrigiert. Selbst wenn Fehler erkannt wurden, war keineswegs garantiert, dass die Korrektur fachlich korrekt ausfiel. Besonders bei elaboriert formulierten Texten zeigte sich eine erhöhte Wahrscheinlichkeit, dass inhaltliche Schwächen übersehen wurden.
- Überbewertung von KI-generierten Lösungen: Texte, die selbst durch KI erstellt worden waren, erhielten tendenziell zu gute Bewertungen und wurden im Verhältnis zu ihrer fachlichen Qualität überhöht eingeschätzt.
- Inkonsistente Überführung von Bewertungskriterien: Die vorgegebenen Bewertungskriterien wurden nicht durchgängig und konsistent berücksichtigt, was zu Verzerrungen in Bewertungen und Feedback führte.
- Oberflächliches Feedback: Die Rückmeldungen blieben in vielen Fällen zu unkonkret und unspezifisch. Aus pädagogischer, didaktischer und inhaltlicher Perspektive fehlte es an differenzierten Hinweisen, insbesondere im Hinblick auf die Förderung domänenspezifischer Kompetenzen.