Was passiert, wenn eine KI, die auf maximale Hilfsbereitschaft trainiert wurde, auf eine Domäne trifft, in der Zurückhaltung die eigentliche Kompetenz ist
Wer lange genug mit Sprachmodellen gearbeitet hat, lernt, Halluzinationen, Inkonsistenz und selbstbewussten Unsinn zu erwarten. Was man vielleicht nicht erwartet: Das zentrale Trainingsziel selbst wird zum Problem — der Antrieb, maximal hilfreich zu sein, wird zur Schwachstelle.
Bei tuplita.ai entwickeln wir eine KI-gestützte Mediationsplattform. Eines unserer ersten Features ermöglicht es professionellen Mediator:innen, mit simulierten Sitzungen zu üben: Sie können klassische Fälle durchspielen oder eigene Szenarien erstellen, in denen KI-gesteuerte Parteien auf Basis der Echtzeit-Eingaben der Mediator:innen interagieren. Das Ziel ist realistisches Mediationstraining — ein Raum, um Ansätze zu testen, zu erkunden, wie verschiedene Interventionen ein Gespräch lenken können, und sich auf herausfordernde Dynamiken vorzubereiten.
Wenn Sie als Mediator:in mit KI-Tools für Vorbereitung, Fallanalyse oder Trainingsszenarien experimentieren, lohnt es sich, diese Diskrepanz genau zu beobachten.
Als meine Mitgründerin Julia Stadler — zertifizierte Mediatorin mit Promotion in Konfliktforschung — Sitzungen mit klassischen Trainingsfällen durchführte, die sie gut kannte, fiel ihr sofort etwas auf: Die KI-Parteien waren zu kooperativ. Sie legten verborgene Informationen zu schnell offen. Sie bewegten sich ohne Widerstand auf eine Lösung zu. Jedes Zugeständnis kam bereitwillig.
"So funktioniert das nicht", sagte sie.
Echte Konflikte haben Reibung. Echte Parteien halten zurück, reagieren, ziehen sich zurück, verharren auf Positionen — manchmal strategisch, manchmal ohne volles Bewusstsein für das, was sie antreibt. Der Tanz der Mediation braucht Zeit, gerade weil Vertrauen und Selbstwahrnehmung aufgebaut werden müssen. Sie können nicht vorausgesetzt werden.
Wir mussten intensiv daran arbeiten, die Schwierigkeit realistisch zu kalibrieren. Die Herausforderung bestand nicht darin, die KI klüger zu machen. Es ging darum, sie angemessen *unkooperativ* zu machen. Und als wir die Einschränkungen verschärften und systematisch testeten, wurden die Sitzungen spürbar schwieriger und gleichzeitig näher an dem, was Mediator:innen in der Praxis erleben.
Dieselbe Tendenz zeigte sich, als wir den KI-Facilitator testeten, ein Unterstützungstool, das für Mediator:innen Entwürfe erstellt, während sie mit Simulationssitzungen arbeiten: Seine Vorschläge neigten dazu, den Parteien die Arbeit abzunehmen. Mehr dazu weiter unten.
Das Problem des hilfreichen Assistenten
Dieses Verhalten ergibt Sinn, wenn man betrachtet, wie diese Modelle trainiert und optimiert werden. Große Sprachmodelle werden oft durch Techniken wie Reinforcement Learning from Human Feedback (RLHF) [1] auf assistentenähnliches Verhalten ausgerichtet, wobei menschliche Präferenzen Antworten belohnen, die den Nutzer zufriedenstellen. Sie sind darauf optimiert, nützliche Antworten zu geben und auf eine Lösung hinzuarbeiten. Anthropics Constitutional AI [2]-Framework beschreibt dies als Training von Modellen, die hilfreich, harmlos und ehrlich sein sollen. DeepMinds Sparrow-Forschung [3] konzentrierte sich ebenfalls darauf, Dialogagenten hilfreicher zu machen und gleichzeitig schädliche Ausgaben zu reduzieren.
Als wir die KI erstmals in einer Facilitator-Rolle testeten, zeigten ihre Entwürfe die Tendenz sofort zu lenken: Sie schlugen Lösungen vor, synthetisierten beide Perspektiven und boten Kompromisse an. Sie war maximal hilfreich. Dieser standardmäßige "Assistenten"-Instinkt tendiert dazu, die Kernprinzipien der Mediation in Deutschland zu verletzen: die Neutralität der Mediator:innen und die Eigenverantwortung der Parteien für das Ergebnis. Nach dem Mediationsgesetz (MediationsG) [4] unterstützen Mediator:innen den Prozess: Sie schaffen Bedingungen, damit die Parteien ihre eigenen Lösungen finden. Sie schlagen nicht vor. Sie urteilen nicht. Sie geben Struktur.
Der Instinkt zu helfen ist das Risiko. Und "helfen" kann manchmal bedeuten, den Menschen das zu sagen, was sie hören wollen — eine dokumentierte Tendenz, die Forschende als Sycophancy [8] bezeichnen, bei der Modelle lernen, zuzustimmen statt herauszufordern.
Dies gilt über die Mediation hinaus. Jede Domäne, in der das korrekte professionelle Verhalten Zurückhaltung ist — Therapie, Coaching, bestimmte Formen der Rechtsberatung, Lehre — kann auf dieses Spannungsfeld stoßen. Das Modell will die Antwort geben. Manchmal ist die Antwort aber genau das, was nicht gegeben werden sollte. Forschende haben eine ähnliche Spannung im breiteren Kontext von KI in der Online-Streitbeilegung [5] festgestellt, wo Effizienzgewinne stillschweigend auf Kosten dessen gehen können, was Konfliktlösung bedeutungsvoll macht.
Ein System, das darauf optimiert ist, Parteien zur Lösung zu führen, riskiert, die Arbeit zu übernehmen, die diese selbst leisten müssen. Es umgeht genau das, was Ergebnisse tragfähig macht: den langsameren Prozess, in dem die Parteien Selbstbestimmung ausüben, sich gegenseitig anerkennen und Vereinbarungen wirklich zu ihren eigenen machen.
Warum KI-Verhalten schwer vorhersagbar ist
Falls Sie sich fragen, ob besseres Prompting oder klarere Anweisungen das lösen könnten — hier ist der Grund, warum es komplizierter ist. Sie sind Teil der Lösung, aber allein nicht ausreichend.
Ein großes Sprachmodell hat Milliarden gelernter Parameter — feste Gewichte, die Muster aus dem Training kodieren. Während der Inferenz aktiviert jeder Token Ihrer Eingabe unterschiedliche Pfade durch diese Parameter und formt, was das Modell produziert. Kleine Änderungen in der Formulierung einer Frage können ganz andere Muster aktivieren und zu deutlich anderen Ausgaben führen.
Das macht das Verhalten von LLMs so kontextsensitiv. Leicht unterschiedliche Formulierungen können in völlig anderem Terrain landen — durchdacht und ausgewogen oder selbstbewusster Unsinn. Die Grenzen zwischen zuverlässigem und unzuverlässigem Verhalten sind nicht klar markiert.
Angewandte KI-Systeme zu bauen ist im Wesentlichen Navigation durch einen riesigen, mehrdimensionalen Raum möglicher Eingaben und Konfigurationen. Die Aufgabe besteht darin, Regionen dieses Raums zu finden, in denen sich das Modell für die spezifische Domäne angemessen verhält. In unserem Fall: Mediationsunterstützung, bei der es unterstützt, ohne zu lösen, angemessene Grenzen einhält und die Grenzen seiner Rolle erkennt. Das erfordert sorgfältige Kalibrierung über mehrere Dimensionen: Modellauswahl, Kontextarchitektur, Einschränkungen und fortlaufende Verfeinerung.
Aber niemand hat das vollständig kartiert. Der Raum möglicher Eingaben ist zu groß, um ihn erschöpfend zu testen. Die Grenzen verschieben sich mit Modell-Updates. Neue Eingaben können weiterhin zu unerwartetem Verhalten führen.
Engineering kann den Schadensradius verringern; es kann die Unsicherheit nicht beseitigen. Und deshalb sind Haftungsausschlüsse kein rechtliches Theater; sie sind epistemische Ehrlichkeit. Wir können nicht garantieren, wohin das Modell in jedem Grenzfall gehen wird. Wir können nur mitteilen, wo wir getestet haben, was wir eingeschränkt haben und was unsicher bleibt. In der Praxis muss diese Transparenz mit Evaluation, Monitoring und klaren Grenzen einhergehen – einschließlich der Frage, was das System niemals tun darf.
Was das für die Praxis bedeutet
Wenn Sie als Mediator:in mit KI-Tools wie ChatGPT, Claude oder Gemini experimentieren, um sie bei der Vorbereitung, Fallanalyse oder Trainingsszenarien zu nutzen, folgt aus unserer Erfahrung:
Das Modell will Ihnen zu sehr helfen. Es wird Lösungen anbieten, wenn Sie Struktur verlangen. Es wird Bewertungen liefern, wenn Sie Neutralität brauchen. Sie müssen es explizit einschränken und selbst dann die Ausgaben anhand Ihres professionellen Urteils überprüfen. Sorgfältig eingesetzt können diese Tools die Vorbereitung und Reflexion sinnvoll unterstützen.
Scheinbares Verständnis ist kein tatsächliches Verständnis. Das Modell kann Text produzieren, der nach tiefem Verständnis von Mediationsprinzipien klingt. Das bedeutet nicht, dass es diese Prinzipien in irgendeiner stabilen Weise verinnerlicht hat. Der nächste Prompt kann ein ganz anderes Verhalten hervorrufen.
Begründungen sind keine Audits. Wenn Sie das Modell bitten, seine Vorschläge zu erklären oder zu begründen, erhalten Sie kein Fenster in sein "Denken". Sie erhalten eine neue Ausgabe, die mit dem Vorherigen übereinstimmen kann oder auch nicht. Es wird manchmal selbstbewusste Post-hoc-Rechtfertigungen produzieren — Erklärungen, die kohärent klingen, aber nicht zuverlässig widerspiegeln, was die frühere Antwort geprägt hat. Und sobald eine Richtung auf dem Papier steht, kann das Modell zur Selbstkonsistenz tendieren: Widersprüche glätten, frühere Aussagen verteidigen und die Geschichte stabiler erscheinen lassen, als sie wirklich ist.
Das gilt auch dann, wenn ein Tool längeres "Denken" anzeigt: Was Sie sehen, ist weiterhin generierter Text, kein zuverlässiges Protokoll darüber, wie die Antwort entstanden ist. Behandeln Sie jede Ausgabe — einschließlich Erklärungen — als frische Stichprobe, nicht als Audit-Trail.
Vertraulichkeit erfordert aktiven Schutz. Mediation lebt von Vertraulichkeit — sie ist ein Kernprinzip nach dem Mediationsgesetz [4] und der professionellen Ethik allgemein. Bei der Nutzung dieser Tools hängt die Datenverarbeitung vom Anbieter, Ihrem Kontotyp und den aktuellen Nutzungsbedingungen ab. Inhalte können auf Weisen protokolliert oder gespeichert werden, die mit professionellen Pflichten in Konflikt stehen. Wenn Sie diese Tools mit realen Fällen nutzen, anonymisieren Sie alle Details oder arbeiten Sie ausschließlich mit fiktiven Szenarien — und prüfen Sie immer die Datennutzungs- und Aufbewahrungsrichtlinien des Anbieters für Ihr spezifisches Setup.
Alternativ können Sie Open-Weight-Modelle vollständig auf Ihrem eigenen Rechner betreiben. Desktop-Anwendungen wie AnythingLLM [6] machen dies zugänglich, ohne Entwicklerkenntnisse vorauszusetzen. AnythingLLM ist Open Source und enthält optionales Nutzungstracking (Analytics), das Sie deaktivieren können. Es kann Open-Weight-Modelle von Hugging Face [7] herunterladen (wie DeepSeek, gpt-oss, Qwen, Mistral, Gemma) und lokal ausführen. Beachten Sie, dass größere, leistungsfähigere Modelle leistungsstarke Beschleuniger (wie GPUs) erfordern, während kleinere Modelle mit bescheidener Hardware bei reduzierter Leistungsfähigkeit laufen können.
Ihre Expertise bleibt die Leitplanke. Das Modell ist ein Werkzeug. Ein mächtiges, zunehmend leistungsfähiges. Aber das professionelle Urteil darüber, was dem Mediationsprozess dient — das bleibt bei Ihnen.
Bauen mit Unsicherheit
Ich habe über zwanzig Jahre Software entwickelt, die letzten 10 Jahre davon unter anderem auch produktive Machine-Learning-Systeme. In vielen Bereichen des Engineering entsteht Vertrauen aus Wiederholbarkeit: Dieselben Eingaben erzeugen dieselben Ausgaben. LLM-basierte Systeme bieten diesen Komfort nicht. Man kann die Zuverlässigkeit verbessern, aber die Unsicherheit nicht eliminieren — weil man hier das Verhalten nicht vollständig kontrolliert, sondern Wahrscheinlichkeiten formt. Deshalb sind transparente Einschränkungen unverzichtbar und gehören zur verantwortungsvollen Praxis.
KI-Anwendungen heute zu bauen bedeutet, mit Unsicherheit zu bauen. Nicht Unsicherheit, die sich mit besseren Modellen oder mehr Daten auflöst — fundamentale Unsicherheit über das Systemverhalten in neuartigen Situationen. Das macht diese Systeme nicht unbrauchbar; es bedeutet, dass wir sie wie professionelle Werkzeuge mit Grenzen behandeln, nicht wie Orakel.
Ich glaube, der verantwortungsvolle Weg ist nicht, auf Gewissheit zu warten. Er ist, mit angemessener Demut zu bauen: umfassend testen, sorgfältig einschränken, Leitplanken haben, kontinuierlich überwachen und ehrlich über Einschränkungen kommunizieren. Es bedeutet auch, systematische Evaluierungen zu entwickeln, die Fehler früh aufdecken — und offen für Feedback der Fachleute zu bleiben, die entdecken, was Evaluierungen übersehen. Die Fähigkeit, dieses Feedback schnell aufzunehmen und umzusetzen, ist kein Nice-to-have; so verbessert sich das System tatsächlich.
Bei tuplita.ai schaffen wir Wege zur Lösung — wir unterstützen sowohl Menschen im Konflikt als auch die Fachleute, die sie begleiten — und ersetzen nicht menschliches Urteil durch algorithmische Zuversicht. Die KI dient dem menschlichen Prozess. Wenn Hilfsbereitschaft zum Risiko wird, ist die Antwort nicht, die Technologie aufzugeben. Es gilt, das Risiko klar genug zu verstehen, um darum herum zu bauen. Das Ziel ist, das zu bewahren, was Mediation so effektiv macht: Selbstbestimmung, Vertrauensaufbau und Vereinbarungen, die von den Parteien wirklich getragen werden.
Diese Arbeit ist nie abgeschlossen und wir möchten von Mediator:innen lernen, die offen und reflektiert mit neuen Werkzeugen umgehen wollen.
Wenn Sie Mediator:in sind und realistische Simulationen ausprobieren möchten, können Sie unter tuplita.ai einen Early Access beantragen.
Aline Almeida ist CTO & Mitgründerin von tuplita.ai, einer KI-gestützten Mediationsplattform. Sie hat in Graphentheorie und Algorithmen promoviert und an KI- und verteilten Systemen bei Amazon Robotics AI, io.net Foundation und Petrobras gearbeitet.
Bei tuplita.ai entwickeln wir mit Vertraulichkeit, Sicherheit und DSGVO-Konformität als grundlegende Anforderungen.
Referenzen
[1] Ouyang, L., Wu, J., Jiang, X., et al. (2022). "Training language models to follow instructions with human feedback." arXiv:2203.02155. OpenAI. https://arxiv.org/abs/2203.02155
[2] Bai, Y., Kadavath, S., Kundu, S., et al. (2022). "Constitutional AI: Harmlessness from AI Feedback." arXiv:2212.08073. Anthropic. https://arxiv.org/abs/2212.08073
[3] Glaese, A., McAleese, N., Trebacz, M., et al. (2022). "Improving alignment of dialogue agents via targeted human judgements." arXiv:2209.14375. DeepMind. https://arxiv.org/abs/2209.14375
[4] Mediationsgesetz (MediationsG). Bundesgesetzblatt I, S. 1577 (2012). https://www.gesetze-im-internet.de/mediationsg/BJNR157710012.html
[5] Amin, N. (2024). "A New Frontier in Online Dispute Resolution: Combining AI and Mindfulness." Journal of Law, Technology & the Internet, 15(2), 283–304. https://scholarlycommons.law.case.edu/jolti/vol15/iss2/3/
[6] AnythingLLM. "The all-in-one AI application." https://anythingllm.com/
[7] Hugging Face. "The Model Hub." https://huggingface.co/models
[8] Sharma, M., Tong, M., Korbak, T., et al. (2023). "Towards Understanding Sycophancy in Language Models." arXiv:2310.13548. Anthropic. Published at ICLR 2024. https://arxiv.org/abs/2310.13548
Weiterführende Literatur
- Program on Negotiation, Harvard Law School. (2024). "AI Mediation: Using AI to Help Mediate Disputes." https://www.pon.harvard.edu/daily/mediation/ai-mediation-using-ai-to-help-mediate-disputes/
- Belfer Center, Harvard Kennedy School. (2025). "AI and the Future of Conflict Resolution: How Can Artificial Intelligence Improve Peace Negotiations?" https://www.belfercenter.org/research-analysis/ai-and-future-conflict-resolution-how-can-artificial-intelligence-improve-peace
- Choi, J. (2025). "Using AI in My Disputes? Clients' Perception and Acceptance of Using AI in Mediation." Conflict Resolution Quarterly. https://onlinelibrary.wiley.com/doi/full/10.1002/crq.21483
- Schmitz, A. J. (2024). "Responsible Use of AI in Civil Dispute Resolution." Ohio State Legal Studies Research Paper No. 870. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4903238
- Anthropic. (2026). "Claude's New Constitution." https://www.anthropic.com/news/claude-new-constitution

