Athanasios Karafillidis ist Soziologe, Systemtheoretiker und arbeitet als KI-Manager bei der Stadt Dortmund. Im aktuellen Heft des Merkur (Nr. 80/4) hat er einen Essay veröffentlicht, der es verdient, auch außerhalb techniksoziologischer Kreise gelesen zu werden. Sein Titel – „Containment eines Laborunfalls. Über die Regulierung Künstlicher Intelligenz“ – ist programmatisch: Er zeigt, dass die gegenwärtige dramatische KI-Entwicklung nicht Ergebnis eines geordneten Fortschritt war, sondern sich der unkontrollierten Veröffentlichung zu Testzwecken verdankt.

Ende November 2022 veröffentlichte OpenAI ChatGPT in der Version 3.5 – nicht als Produkt, sondern als internen Test. Dass die Testumgebung derart reagierte, überraschte OpenAI selbst, die breite öffentliche Resonanz erst recht. Die übrigen Tech-Konzerne, die zuvor aus schlechten Erfahrungen und fehlenden Geschäftsmodellen ihre eigenen Sprachmodelle zurückgehalten hatten, witterten nun ein Geschäft. Was bis dahin als konsensuale Vorsichtsmaßnahme galt – ethische Leitplanken, umsichtige Einführung, Reifegrad der Technologie – verlor schlagartig an Relevanz.
Seitdem laufen, so Karafillidis, „in allen KI produzierenden Unternehmen fast schon verzweifelte Versuche, aus dem Laborunfall ein Produkt zu machen“. Die aktuelle Phase sei jener vergleichbar, in der das Internet noch keine Online-Warenhäuser, kein Streaming und keine sozialen Medien kannte. Wer das Rennen macht, ist offen – vielleicht KI-Agenten, vielleicht ein System, das durch die zweckentfremdende Aneignung der Nutzenden den Markt zu dominieren beginnt. Voraussagen von KI-CEOs und Tech-Leadern solle man dabei, das hält Karafillidis trocken fest, nicht zu viel Gewicht beimessen.
Auf die Frage, was LLMs eigentlich sind – und was ihnen fehlt, hält Karafillidis fest: Was nach siebzig Jahren KI-Forschung nun vorliegt, ist keine Technologie, die Organisationen „umstandslos für ihre Bedarfe nutzen können“. Das Problem sind nicht primär fehlendes Know-how oder unklare Zuständigkeiten – das Problem ist die Unzuverlässigkeit der Technologie selbst. Die Ausgaben der Maschine auf sprachlich geäußerte Befehle seien „nur sehr bedingt vertrauenswürdig“: Die Maschinen könnten zwar sprechen, „aber eben auch viel schwafeln“. Es fehle ihnen das „Technische“ – also jene Eigenschaft, die eine Maschine erst zu einem zuverlässig einsetzbaren Werkzeug macht.
Karafillidis präzisiert, was Unzuverlässigkeit bei LLMs bedeutet – und diese Präzisierung ist wichtig, weil sie die übliche Debatte verschiebt. Es geht nicht darum, dass die Modelle kaputt sind oder falsch funktionieren. Das Gegenteil ist das Problem: Die Resultate ihres einwandfreien Funktionierens sind unzuverlässig. Der technologische Kern von LLMs sind komplexe statistische Modelle menschlicher Sprech- und Schreibweisen, trainiert auf enormen Datenmengen; ihre Ausgaben sind eine „Mischung aus Wahrscheinlichkeiten und Zufällen“. Das ist, so Karafillidis ausdrücklich, kein Urteil über die Potenziale dieser Modelle, wohl aber über die „Null-Chance einer maschinenhaften Zuverlässigkeit“.
Organisationen sind mit Unzuverlässigkeit durchaus vertraut – Beschäftigte machen Fehler, Materialien versagen, Umwelten sind turbulent. Aber bei klassischer Technik gilt: Das Problem lässt sich finden und reparieren, die Kausalität funktionierender Technik bleibt verlässlich. Genau diese Gewissheit wird durch LLMs unterlaufen. Sie funktionieren einwandfrei – aber ihre Outputs sind trotzdem unzuverlässig. Das ist ein kategorial anderes Problem als ein Maschinenausfall.
Die organisationspraktische Konsequenz für Karafillidis: Es werde unterschätzt, „wie viel Geduld und ungewohnte Vorkehrungen es braucht, wenn man eine Technik einsetzen will, die systematisch und kumulativ Fehler in Akten und Bescheide einbauen oder sicherheitsrelevante Prozesse mit Ungenauigkeiten kontaminieren kann“. Die erhoffte Entlastung und Effizienzsteigerung sei ohne diesen Makel nicht zu haben – und dieser Makel ist kein vorübergehender Entwicklungsrückstand, sondern technologisch eingebaut.
Wer nah an der Technologie arbeitet, entwickelt ein intuitives Gespür für ihre Grenzen, lernt zu kalibrieren, wann ein Output vertrauenswürdig ist und wann nicht. Diese Art des Umgangs ist personengebunden, situativ und nicht ohne weiteres übertragbar. Das reicht aber organisational nicht aus. Eine Organisation, die sich auf das individuelle Urteil einzelner Beschäftigter verlässt, hat kein Risikomanagement. Karafillidis‘ Verweis auf die Gefahr, dass LLMs „systematisch und kumulativ Fehler in Akten und Bescheide einbauen“ können, zielt auf genau diese Lücke: Der Schaden entsteht nicht im Einzelfall, sondern durch serielle Fehler, die unterhalb der Wahrnehmungsschwelle einzelner Personen akkumulieren. Organisationen benötigen deshalb strukturelle Vorkehrungen – Prozesse, Verantwortlichkeiten, Prüfroutinen –, die nicht davon abhängen, dass immer die richtige Person gerade hinschaut. Silicon Valley tue derweil „immer wieder so, als sei das Problem sehr bald behoben, wenn wir nur genau diesen Typ von KI weiter fördern und nutzen“. Diese Haltung entlastet Unternehmen und Verwaltungen von der Pflicht, jetzt die nötigen organisationalen Strukturen aufzubauen – und verschiebt die Verantwortung auf eine technologische Zukunft, die sich selbst löst. Karafillidis‘ Essay ist auch eine Kritik an dieser Verschiebung.
Die regulierungstheoretische These des Essays lautet: Regulierung entsteht hier nicht antizipierend, sondern reaktiv. Sie ist kein geplanter institutioneller Rahmen, der eine neue Technologie einfasst, sondern ein nachträglicher Versuch, einen Ausbruch einzudämmen, dessen Dynamik längst eigene Fakten geschaffen hat. Das verändert die Logik regulativer Institutionen grundlegend – denn eine Regulierung, die dem Markt strukturell hinterherläuft, kann allenfalls Mindeststandards setzen, aber keine Technologieentwicklung steuern.
Karafillidis schreibt vor dem Hintergrund praktischer Erfahrung: Als KI-Manager der Stadt Dortmund arbeitet er genau an dieser Schnittstelle zwischen technologischer Realität und institutioneller Steuerung.
Warum ist dieser Text für das Publikum des systemagazin lesenswert? Weil er eine Frage stellt, die auch systemische Praxis und Beratung zunehmend betrifft: Wie geht man mit einer Technologie um, deren Outputs prinzipiell kontingent sind – und die trotzdem als verlässliches Werkzeug gehandelt und vermarktet wird?
Das strukturelle Fehlerrisiko, das Karafillidis beschreibt, ist für systemisches Arbeiten kein abstraktes Problem. Wer LLMs in Beratungs- oder Therapiekontexten einsetzt – zur Dokumentation, zur Vorbereitung von Sitzungen, zur Recherche –, arbeitet mit einem Instrument, dessen einwandfreies Funktionieren keine zuverlässigen Outputs garantiert. Das ist mehr als ein Hinweis zur Vorsicht: Es ist ein strukturelles Argument dafür, dass menschliche Urteilskraft in der Schleife bleiben muss – nicht als Luxus, sondern als Notwendigkeit.
Der Essay liefert keine fertigen Antworten. Aber er schärft den konzeptionellen Blick dafür, dass die gegenwärtige KI-Konjunktur keine geordnete Diffusion einer ausgereiften Technologie ist, sondern ein sozialer Prozess der nachträglichen Sinngebung und Institutionalisierung – getrieben von Marktdynamiken, die sich der eigenen Ungewissheit gegenüber weitgehend blind verhalten. Allen systemischen Praktikern, die KI-Werkzeuge in ihrer Arbeit einsetzen oder dies erwägen, ist dieser Essay sehr zu empfehlen.