Mündliche Prüfungen mit KI-Detektoren: eine Fehlstrategie
Herzlich willkommen zur dritten Ausgabe dieses Newsletters. Wir informieren euch einmal im Monat über Positionen, Projekte und Perspektiven rund um Prüfungs- und Lernkultur.
Heute gibt es nach ein paar Hinweisen einen längeren Beitrag zur Frage, wie mündliche Prüfungen im aktuellen KI-Kontext funktionieren (sollten).
9. Mai in Berlin: Barcamp
Wie schon einmal angekündigt, findet am 9. Mai unser Barcamp in Berlin statt. Wir diskutieren mit euch die Frage: »Wieviele und welche Prüfungen braucht Lernen?«
📍 Ort: ESBZ – Evangelische Schule Berlin Zentrum
➡️ Infos: Ankündigung / Anmeldung
Modellprojekt LuPe²
Das Modellprojekt LuPe² befasst sich an neun Schulen verschiedener Schulformen mit folgender Frage:
Wie kann eine Implementierung von 4K in einer zeitgemäßen schulischen Lern- und Prüfungskultur gelingen?
Eine Gruppe von Fachpersonen hat diese Frage für den Deutschunterricht mit einer fundierten Studie untersucht. Mit dabei war Institutsmitglied Christian Albrecht. Diese Woche ist der entsprechende Forschungsbericht erschienen, der deutlich auf Herausforderungen hinweist und aufzeigt, dass »standardisierte Prüfungsformate die Umsetzung der 4K-Kompetenzen nur begrenzt unterstützen, wodurch deutlich wird, dass eine nachhaltige Implementierung der 4K auch strukturelle Veränderungen in der Prüfungskultur erfordern«, wie es im Abstract heißt (leicht angepasstes Zitat).
Eines der zentralen Ergebnisse der Studie:
»Das Spannungsverhältnis zwischen (authentischer) analoger wie digitaler Kommunikation und Kollaboration einerseits und schulrechtlichen Vorgaben (wie z.B. der Messung vergleichbarer Einzelleistungen in analogen Prüfungssettings) andererseits wurde als empfindliche Einschränkung wahrgenommen.«
Wir empfehlen euch die Lektüre des Artikels, der hier kostenlos zugänglich ist:

Schönfeld: Kommt und guck selber
Die Künstlerin Silke Schönfeld hat die Korrektur einer schriftlichen Prüfung als Mittel benutzt, um eine künstlerische Aussage zum gegenwärtigen Lern- und Prüfungssystem zu machen. In der Beschreibung dazu steht:
»Die Lehrerin korrigiert lediglich die formalen, nicht aber die ethisch-moralischen Fehler, die der Text enthält. So kritisiert Schönfeld unser gesellschaftliches (Bildungs-)System, in dem auf die Einhaltung formaler Regeln bestanden wird, das jedoch keine Lösungen für komplexe Probleme bietet.«
Die Videoinstallation findet man im Museum Ostwall in Dortmund.

Mündliche Prüfungen mit KI-Detektoren: Eine Fehlstrategie für zeitgemäße Bildung
Die Debatte um künstliche Intelligenz im Bildungssystem vollzieht zur Zeit bemerkenswerte Volten: So berichtet Panos Ipeirotis (NYU) in einem Blogbeitrag von einer Prüfung, in der er 36 MBA-Studierende mündlich per KI-Voice-Agent (ElevenLabs) prüfte: asynchron, personalisiert, für 0,42 USD pro Person statt 750 USD mit Menschen. Ein »Council« aus drei LLMs bewertete die Transkripte. Ipeirotis’ Kernthese lautet: Selbst Take-home-Examen seien durch KI tot. Mündliche Prüfungen seien bisher nicht skalierbar, mit KI aber schon. 70% der Studierenden bestätigten, dass die Prüfung tatsächliches Verständnis getestet habe, 83% hätten die Prüfung stressiger empfunden. Als Probleme werden eine einschüchternde Stimme, Stapelfragen, keine echte Randomisierung und zu wenig Denkzeit genannt. Das Fazit, das Ipeirotis zieht: Skalierbare, individualisierte Prüfungen seien technisch möglich, diagnostisch wertvoll und vor allem preiswerter.
Bei genauerer Betrachtung offenbaren sich in diesem Prüfungsszenario fundamentale Missverständnisse über Lernen, Kognition und die Zukunft von Bildung in einer demokratischen Gesellschaft.
Das Symptom wird bekämpft, die Krankheit bleibt
Wenn Studierende und Schüler:innen systematisch auf KI-Tools zurückgreifen, um Prüfungsleistungen zu erbringen, ist dies zunächst ein Signal. Aus der alten Prüfungslogik heraus würde man sagen: für mangelnde Integrität, für Betrug, für den Kontrollverlust der Institution. Die naheliegende Konsequenz darum: stärkere Überwachung, präzisere Detektionsmechanismen, der Ruf nach immer mehr alternativen Prüfungsformaten. Das eigentliche Problem liegt aber tiefer: Wenn Lernen weiterhin - und auch in einer Prüfung mit KI-Agenten - primär als Mittel zum Zweck des Leistungsnachweises begriffen wird und nicht als intrinsisch motivierter Prozess der Welterschließung, dann ist der Griff zu effizienten Abkürzungen rational. Die Soziologin Tressie McMillan Cottom hat in ihrer Analyse des US-amerikanischen Bildungssystems darauf hingewiesen, dass Institutionen zunehmend »Credential Machines« geworden sind: Maschinen zur Produktion von Nachweisen, nicht von Bildung. Wenn KI nun den Prozess dieser Maschine stört, liegt die Lösung nicht darin, die Maschine noch besser abzusichern, sondern darin, ihre Funktionslogik zu hinterfragen.
Der Mythos der isolierten Einzelleistung
Die Bildungshistorikerin Verheyen hat in ihrem Werk Die Erfindung der Leistung auf die veraltete Vorstellung der individuellen Erbringung von Leistung hingewiesen. Die Fiktion einer »technikfreien Robinson-Crusoe-Leistung«, die traditionellen Prüfungskonzepten zugrunde liegt, ist Grundlage der meisten schulischen und hochschulischen Prüfungen: die Vorstellung eines isolierten Individuums, das ohne externe Hilfsmittel, ohne Kommunikation, ohne Infrastruktur eine Leistung erbringt. Diese Vorstellung ist historisch gewachsen. Sie entspringt dem humanistischen Ideal der autonomen Persönlichkeit und wurde durch die Massenprüfungen des 19. und 20. Jahrhunderts institutionalisiert.
Aus der Perspektive moderner Kognitionswissenschaft, Arbeitsforschung und Soziologie ist dieses Ideal jedoch nicht mehr haltbar. Problemlösung in komplexen Gesellschaften ist:
- Kooperativ: Selten werden relevante Probleme von Einzelpersonen im luftleeren Raum gelöst. Teams, Netzwerke und Communities of Practice sind die Norm.
- Kontextuell: Expertise zeigt sich nicht abstrakt, sondern situiert. In konkreten Anwendungskontexten mit spezifischen Ressourcen und Rahmenbedingungen.
- Technisch vermittelt: Vom Taschenrechner über Datenbanken bis zu Simulationssoftware: Professionelles Handeln ist durchdrungen von technischen Werkzeugen.
Die Frage ist also nicht, ob Menschen mit technischen Hilfsmitteln arbeiten sollten, sondern welche Formen der Mensch-Technik-Kooperation wir als relevant für die menschliche Bildung und Entwicklung anerkennen.
Extended Mind: Denken endet nicht an der Schädeldecke
Die Philosophen Andy Clark und David Chalmers haben 1998 mit ihrer These des »Extended Mind« eine Perspektivverschiebung vorgenommen: Kognition, so argumentieren sie, findet nicht ausschließlich innerhalb biologischer Gehirne statt, sondern ist verteilt über Menschen, Artefakte und Umgebungen. Ein Notizbuch, ein Smartphone, eine Suchmaschine – all das kann Teil eines kognitiven Systems sein, wenn es funktional in Denkprozesse integriert ist.
Felix Stalder hat diese Überlegung für die Kultur der Digitalität weiterentwickelt: In einer Welt, in der Informationen überall verfügbar sind, in der Algorithmen Muster erkennen und kollaborative Plattformen Wissen generieren, ist die Grenze zwischen »Ich weiß etwas« und »Ich weiß, wie ich es finden kann« fließend geworden.
Prüfungen, die so tun, als wäre dies nicht der Fall, die also eine künstliche »Schädelgrenze« ziehen, erfassen nicht, was Menschen in authentischen Situationen können, sondern nur, was sie unter artifiziellen Bedingungen rekonstruieren können. Das ist für bestimmte Basiskompetenzen sinnvoll. Für komplexere Fähigkeiten wie kritisches Denken, kreative Problemlösung, ethische Urteilsfähigkeit ist diese Reduktion jedoch problematisch.
Ökonomisierung durch die digitale Hintertür
Bedenklich ist ein weiterer Aspekt des Blogbeitrags: Wenn mündliche Prüfungen nicht aus genuin pädagogischer Überzeugung neu entdeckt werden, sondern primär wegen ihrer Skalierbarkeit durch KI-Technologie, dann werden sie entkernt.
Mündliche Prüfungen haben in der Tradition der Bildung einen besonderen Status: Sie sind Resonanzräume, dialogische Formate, in denen nicht nur Wissen abgefragt, sondern Verstehen ko-konstruiert wird. Der Soziologe Hartmut Rosa spricht von »Resonanzbeziehungen« als Kern gelingender Bildung, also Momente, in denen Welt und Subjekt in einen responsiven Austausch treten.
Werden mündliche Prüfungen nun zu KI-gestützten Kontrollinstrumenten umfunktioniert, droht genau diese Qualität verloren zu gehen. Aus Beziehungsformaten werden Effizienzformate. Die Logik ist nicht mehr: »Wie können wir Verstehen vertiefen?«, sondern: »Wie können wir kostengünstig und flächendeckend verifizieren, dass keine KI verwendet wurde?«
Die Bochumer Pädagogikprofessorin Käte Meyer-Drawe hat darauf hingewiesen, dass Lernen immer auch ein Moment der Irritation, des Nichtwissens und der Transformation beinhaltet. KI-gestützte Standardisierung, die primär auf Kontrolle und Vergleichbarkeit abzielt, läuft Gefahr, genau diese produktiven Momente zu eliminieren. Qualität wird dann nicht gelebt, sondern simuliert.
Was ist die Alternative?
KI-gestützte mündliche Prüfungen lösen kein Bildungsproblem, weil sie selbst Symptom einer institutionellen Steuerungslogik sind, die Kontrolle über das Lernen stellt. Die eigentliche Herausforderung liegt woanders:
Wir brauchen eine Lern- und Prüfungskultur, die KI nicht als Störfaktor begreifen, sondern als selbstverständlichen Teil zeitgemäßer Kompetenz.
Das bedeutet:
- Authentizität statt Simulation:
Prüfungen sollten Situationen möglichst nahekommen, in denen die geprüften Kompetenzen tatsächlich zur Anwendung kommen, inklusive der dort verfügbaren Werkzeuge. - Prozess statt Produkt:
Der Weg zur Lösung, die Begründung von Entscheidungen, die Reflexion von Entscheidungen und Fehlentscheidungen sind oft aussagekräftiger als das finale Ergebnis. - Ko-Konstruktion statt Abfrage:
Prüfungen könnten dialogischer werden, ohne dabei zu inquisitorischen Verhören zu verkommen. Es geht um gemeinsames Erkunden von Verständnisgrenzen.
