Glossar

Definitionen der in der KI-Transformation verwendeten Konzepte.

KI-Reifegrad

KI-unterstützt (AI-Assisted) – KI ist ein persönliches Werkzeug; nichts Strukturelles ändert sich, wenn es verschwindet. Siehe das Referenzrahmenwerk.

KI-integriert (AI-Integrated) – KI ist in Workflows eingebettet; Rollen verschieben sich von Ausführen zu Steuern. Siehe das Referenzrahmenwerk.

KI-nativ (AI-Native) – Das Arbeitsdesign setzt KI als erstklassige Ressource voraus; Rollen definiert durch Urteil, nicht durch Ausführung. Siehe das Referenzrahmenwerk.

KI-unterstützend (AI-Supportive) – Führung befürwortet KI persönlich, ohne die organisationale Einführung voranzutreiben. Siehe das Referenzrahmenwerk.

KI-operativ (AI-Operational) – Führung setzt rollenbezogene Erwartungen und finanziert Automatisierung vor Neueinstellungen. Siehe das Referenzrahmenwerk.

KI-strategisch (AI-Strategic) – Führung gestaltet die Organisation um KI herum neu und macht KI-Kompetenz zur Führungsvoraussetzung. Siehe das Referenzrahmenwerk.

Nicht exponiert (Tier 0) – KI ist kein Teil der Arbeit. Kein Experimentieren, kein Bewusstsein für Fähigkeiten. Siehe das Referenzrahmenwerk.

KI-neugierig (Tier 0,5) – Hat KI ausprobiert, aber es hat die Arbeitsweise nicht verändert. Die Lücke zu Tier 1 ist kein Wissen, sondern die Gewohnheit, bei Arbeitsbeginn nach KI zu greifen. Siehe das Referenzrahmenwerk.

KI-bewusst (Tier 1) – Einzelperson nutzt KI als persönliches Werkzeug ohne Workflow-Änderungen. Siehe das Referenzrahmenwerk.

KI-aufbauend (Tier 1,5) – Gestaltet und testet aktiv KI-Workflows. Baut Prompts, iteriert, experimentiert. Die Aufbauphase zwischen Ad-hoc-Nutzung und etablierten Workflows. Hier stagnieren die meisten Menschen. Siehe das Referenzrahmenwerk.

KI-unterstützt (Tier 2) – Einzelperson integriert KI systematisch in wiederkehrende Workflows. Siehe das Referenzrahmenwerk.

KI-fortgeschritten (Tier 2,5) – Baut Systeme, in denen KI den Großteil der Ausführung übernimmt. Mehrere Prozesse neu gestaltet. Der Rollentitel hat sich nicht geändert, aber die Arbeit darin schon. Siehe das Referenzrahmenwerk.

KI-nativ (Tier 3) – Rolle um Urteil und Steuerung herum neu gestaltet. Die Person prognostiziert, wohin sich die Mensch-Agenten-Grenze verschieben wird, und richtet Aufmerksamkeit dort aus, wo sie den meisten Wert schafft. Siehe das Referenzrahmenwerk.

KI-Engineering

Autonome Produktion (Sprosse 5)

Engineering-Modell, bei dem die Spezifikation reingeht und Software ohne menschliche Intervention am Code herauskommt. Der Mensch definiert Architektur, Rahmenbedingungen und Szenarien; KI produziert, testet und iteriert den Code. Auch bekannt als dunkle Fabrik. Siehe das KI-Labor.

Unterstütztes Coden (Sprosse 0)

Entwicklungsmodus, in dem der Mensch kodiert und KI Vervollständigungen vorschlägt. Die niedrigste Stufe der KI-Unterstützung in der Softwareentwicklung.

Nicht-interaktive Entwicklung

Arbeitsmodus, in dem Spezifikationen und Szenarien autonome Agenten antreiben. Der Mensch kodiert nicht und führt auch kein Gespräch mit dem Agenten während der Ausführung. Siehe das KI-Labor.

Szenarien

End-to-End-Nutzerreisen, die das erwartete Verhalten aus der Nutzerperspektive beschreiben. Gegenüber Unit-Tests bevorzugt, weil sie für Agenten schwerer zu umgehen sind. Siehe das KI-Labor.

Zufriedenheitsmetrik

Bewertungsansatz, der den Anteil der Trajektorien über alle Szenarien misst, die den Nutzer zufriedenstellen, statt ein binäres grün/rot-Testergebnis. Siehe das KI-Labor.

Bewusste Naivität

Die Haltung, traditionelle Entwicklungskonventionen zu entfernen und systematisch zu fragen: „Warum tue ich das? Das Modell sollte es stattdessen tun." Siehe das KI-Labor.

Greenfield

Ein von Grund auf neu gestartetes Projekt, ohne bestehenden Code. Das natürlichste Terrain für nicht-interaktive Entwicklung. Siehe das KI-Labor.

Brownfield

Ein Projekt mit bestehendem Code und Gewohnheiten, das zum autonomen Produktionsmodell übergeleitet wird. Schwieriger als Greenfield, aber wirkungsvoller. Siehe das KI-Labor.

KI-Fähigkeiten

KI-Kompetenz – Strukturierte Nutzung von KI-Tools und die Fähigkeit, Ad-hoc-Nutzung von Workflow-Integration zu unterscheiden. Siehe den Mitarbeiterleitfaden.

Prompt-Gestaltung – Klare Anweisungen, spezifiziertes Format, Beispiele, geklärte Mehrdeutigkeiten. Siehe die Ausführungsstandards.

Kontext-Engineering – Strukturierte Kontextdatei, die vor KI-Aufgaben geladen wird. Siehe die Ausführungsstandards.

Absichts-Engineering – Definierte Zielhierarchie, Abwägungsregeln und Eskalationsbedingungen. Siehe die Ausführungsstandards.

Spezifikations-Engineering – Jede nicht-triviale Aufgabe hat eine vollständige schriftliche Spezifikation aus fünf Primitiven. Siehe die Ausführungsstandards und den Spezifikations-Leitfaden für praktische Beispiele.

Spezifikation – Ein Dokument, das ein Problem präzise genug definiert, damit ein Agent es autonom lösen kann. Siehe die Ausführungsstandards und den Spezifikations-Leitfaden.

Eigenständige Problemaussagen – Problem mit ausreichend Kontext formuliert, damit es ohne zusätzliche Informationen lösbar ist. Siehe die Ausführungsstandards.

Abnahmekriterien – Wie „fertig" aussieht, überprüfbar durch einen unabhängigen Beobachter. Siehe die Ausführungsstandards.

Rahmenbedingungsarchitektur – Vier Kategorien pro Aufgabe: Muss, Darf nicht, Bevorzuge, Eskaliere. Siehe die Ausführungsstandards.

Zerlegung – Aufgaben in unabhängig ausführbare, testbare und integrierbare Komponenten aufgeteilt. Siehe die Ausführungsstandards.

Bewertungsdesign – Testfälle mit bekannt guten Outputs zur Validierung und Erfassung von Regressionen. Siehe die Ausführungsstandards.

Nahtdesign (Seam design)

Die Praxis, Arbeit so zu strukturieren, dass Übergänge zwischen menschlichen und Agentenphasen sauber, überprüfbar und wiederherstellbar sind. Eine gute Naht definiert das Übergaberartefakt, ermöglicht die Überprüfung des Agentenoutputs am Übergangspunkt und ermöglicht Interventionen, ohne von vorne beginnen zu müssen. Die Nähte verschieben sich, wenn Fähigkeiten sich entwickeln. Siehe den Mitarbeiterleitfaden.

Transformationsökonomie

Wertmigration

Technologie verlagert Wert zur knappsten Schicht. In der KI-Transformation verlässt Wert die Ausführung (Rohware) und konzentriert sich auf Urteil, Framing und Risikoverantwortung (Premium). Siehe die Vision.

Die 5 menschlichen Funktionen

Richtung, Urteil, Geschmack, Beziehung, Verantwortung. Die Funktionen, die in einer KI-nativen Organisation unersetzlich bleiben. Siehe die Vision.

Rollenentwicklung

Konvergenz – Mehrere Rollen verschmelzen, weil KI den Koordinationsaufwand beseitigt, der ihre Trennung rechtfertigte. Die konvergierte Rolle behält die kombinierte Urteilsoberfläche. Siehe Rollenentwicklung.

Spezialisierung – Eine Rolle verengt sich auf ihren unreduzierbar menschlichen Kern, da KI die Routineschicht absorbiert. Die Rolle wird schärfer, nicht kleiner. Siehe Rollenentwicklung.

Elevation – Menschen verlagern sich von der Produktion von Artefakten zur Spezifikation und Bewertung. Entspricht der Universellen Übersetzungsregel. Siehe Rollenentwicklung.

Absorption – Die Verantwortlichkeiten einer Rolle werden von angrenzenden Rollen oder Systemen absorbiert. Die Verantwortlichkeiten verteilen sich neu; die Rolle schrumpft oder verschwindet. Siehe Rollenentwicklung.

Emergenz – Strukturell neue Rollen entstehen aus der KI-nativen Organisationsstruktur. Benannt nach ihrer Verantwortung, nicht nach der Technologie. Siehe Rollenentwicklung.

Rollenentscheidungsmatrix – Ein strukturiertes Tool, das beobachtbare Bedingungen dem wahrscheinlichsten Entwicklungsmuster und der empfohlenen Aktion zuordnet. Siehe Rollenentwicklung.

Adoption und Übergang

Adoptions-J-Kurve

Der vorhersehbare Produktivitätseinbruch während der KI-Adoption. Produktivität sinkt, bevor sie steigt. Organisationen, die herausklimmen, sind diejenigen, die ihre Workflows um KI-Fähigkeiten herum neu gestalten. Siehe den Führungsleitfaden.

Übergangskurzfassung (Transition brief)

Ein strukturiertes Dokument, das von einem Mitarbeiter geliefert wird und seine aktuelle Rolle, KI-First-Vision, Lücke, aufzubauende Systeme, Metriken und 30/60/90-Plan beschreibt. Siehe den Mitarbeiterleitfaden.

KI-Kliniken

Regelmäßige Sitzungen (wöchentlich oder zweiwöchentlich), in denen das Team Entdeckungen, Blockaden und Workflows teilt. Kurzes Format (30 Min.). Das Ziel ist Peer-Lernen. Siehe den Führungsleitfaden.

Sechs-Monats-Mauer

Fehlermuster, bei dem KI-getriebene Projekte ohne starke menschliche Beteiligung (Spezifikationen, Szenarien, Architektur) nach etwa sechs Monaten explodierende strukturelle Schulden akkumulieren. Szenarien sind die primäre Abwehr. Siehe das KI-Labor.

Kalibrierungszerfall

KI-Fähigkeiten verfallen mit der Weiterentwicklung der Fähigkeiten. Eine Person, die ihren Sinn für die Mensch-Agenten-Grenze vor sechs Monaten kalibriert hat, vertraut jetzt entweder zu viel oder nutzt aktuelle Modelle zu wenig. Das Gegenmittel ist Feedbackdichte: häufige Delegieren-Bewerten-Anpassen-Zyklen mit aktuellen Modellen, kein einmaliges Training. Siehe den Führungsleitfaden.

Kognitive Kosten

Kognitive J-Kurve

Das mentale Energie-Pendant zur Produktivitäts-J-Kurve. Die kognitive Last steigt während der Tier-1→2-Transition (Spezifizieren lernen, unzuverlässigen Output bewerten, normale Arbeitslast aufrechterhalten) stark an und sinkt wieder, wenn sich die Workflows auf Tier 2 stabilisieren. Die Erschöpfung konzentriert sich in der Transition, nicht im Endzustand. Siehe Kognitive Kosten.

Kognitive Überlastung (Brain Fry)

Mentale Erschöpfung durch KI-Überwachung, die die kognitive Kapazität übersteigt. Symptome: geistige Benommenheit, langsamere Entscheidungen, steigende Fehlerraten. Die BCG/UC-Riverside-Studie stellte fest, dass Produktivitätsgewinne sich nach drei gleichzeitigen KI-Tools umkehren. Siehe Kognitive Kosten.

Entscheidungsmüdigkeit

Erschöpfung durch das Volumen der Micro-Entscheidungen, die KI einführt. Jeder KI-Output ist eine Entscheidung – gut genug, bearbeiten, neu generieren, vertrauen, überprüfen – und das Volumen verschlechtert die Qualität der Entscheidungen, die wirklich zählen. Siehe Kognitive Kosten.

Wachsamkeitsmüdigkeit

Erschöpfung durch nachhaltiges Monitoring von KI-Systemen, die meistens korrekt sind. Strukturell ähnlich zur Automatisierungs-Komplacenz in der Luftfahrt: Aufmerksamkeit driftet, weil das System meistens funktioniert, und Fehler sehen plausibel aus. Siehe Kognitive Kosten.

Arbeitsintensivierung

Das Muster, bei dem KI den Umfang ausweitet statt ihn zu reduzieren. Drei Mechanismen: Aufgabenausweitung (Menschen übernehmen Arbeit, die sie zuvor nicht versucht hätten), verschwommene Grenzen (KI-Tools fühlen sich informell an, Arbeit greift über), und erhöhtes Multitasking (KI generiert parallel, während Menschen überwachen). Siehe Kognitive Kosten.

Arbeitslast-Inflation

Die organisationale Versuchung, Output-Quoten proportional zur KI-gestützten Geschwindigkeit zu erhöhen. Produktionskapazität skaliert mit KI; Urteilskapazität nicht. Output-Quoten zu verdoppeln, weil Entwürfe schneller herauskommen, ist der Weg, wie die engagiertesten Menschen ausbrennen. Siehe Kognitive Kosten.

KI-Angst

Antizipatorischer Stress durch Unsicherheit über Arbeitsplatzsicherheit, Kompetenzrelevanz und Karriereverlauf. Unterscheidet sich von Brain Fry: trifft Menschen, die KI fürchten, einschließlich Menschen, die noch nicht damit angefangen haben. Siehe Kognitive Kosten.

Identitätsverlust

Verlust der beruflichen Identität, wenn KI Fähigkeiten ausführt, die das Selbstbild definierten. Selbst wenn sich Rollen objektiv verbessern, berichten Beschäftigte Gefühle der Überflüssigkeit, Sinnverlust und vermindertes Selbstwertgefühl. Siehe Kognitive Kosten.

Erlernte Hilflosigkeit

Das Muster des Rückzugs, wenn KI-Systeme Entscheidungen treffen, die Beschäftigte nicht verstehen, kontrollieren oder außer Kraft setzen können. Menschen hören auf, KI-Output kritisch zu hinterfragen und deferieren selbst dann, wenn sie anderer Meinung sind. Das gefährlichste Muster für die Transformation, weil es wie Compliance aussieht. Siehe Kognitive Kosten.

Transformationsmüdigkeit

Kumulative Erschöpfung durch ständige Veränderung – neue Tools, neue Workflows, neue Erwartungen – zusätzlich zur normalen Arbeitslast. Nicht spezifisch für KI, aber durch sie verstärkt. Eine rationale Antwort auf nachhaltigen kognitiven Anspruch ohne ausreichende Erholung. Siehe Kognitive Kosten.

Codereife

Codereife-Stufen

Ein Fünf-Stufen-Modell zur Bewertung, ob eine Codebasis KI-native Entwicklung unterstützt: Undurchsichtig (S0), Instrumentiert (S1), Validiert (S2), Lesbar (S3), Spezifiziert (S4), Szenarien-gesteuert (S5). Jede Stufe ist durch den Feedbackmechanismus definiert, den sie hinzufügt. Die Reifestufe einer Codebasis ist die Decke für die Engineering-Sprosse, die zuverlässig auf ihr betrieben werden kann. Siehe Codereife.

Codereife-Raster (Codebase Readiness Grid)

Die Neun-Dimensionen-Diagnose im Kern des Codereife-Modells. Jede Dimension wird 1–5 anhand eines eigenen Rubrics bewertet. Das Raster ist ein Vektor, kein Skalar – es wird nie mit einem Durchschnitt zusammengefasst. Die Decke (niedrigster Wert) legt die Reifestufe fest; blockierende Dimensionen (D1, D2, D5) haben Priorität vor einschränkenden. Ein Open-Source-Claude-Code-Skill führt das Raster auf jeder Codebasis aus.

Harness

Die Infrastruktur rund um einen KI-Coding-Agenten, die seinen Output einschränkt und validiert. Zwei Teile: Leitplanken (Feedforward – Typen, Konventionen, Docs, Architektur) und Sensoren (Feedback – Tests, CI, Observability). Von Fowler als „Agent = Model + Harness" gerahmt. Bei Brownfield-Codebasen ist der Aufbau des Harness der Hebelpunkt, nicht die Wahl eines besseren Modells. Siehe Codereife.

Ambient Affordances

Strukturelle Eigenschaften einer Codebasis, die sie für einen KI-Agenten ohne explizite Anweisung lesbar machen: starke Typisierung, klare Modulgrenzen, konsistentes Naming, etablierte Frameworks, explizite Abhängigkeitsgrenzen. Ihr Fehlen zwingt Agenten, Struktur zu erfinden oder Inkonsistenz einzufügen. Siehe Codereife.

Abhängigkeits- und Runtime-Aktualität

Eine Codereife-Dimension, die misst, ob der Stack den Mustern entspricht, auf denen aktuelle KI-Modelle trainiert wurden. Eine EOL-Runtime, aufgegebene Bibliotheken oder ein Framework, das zwei Hauptversionen hinter dem aktuellen Stand liegt, machen eine Codebasis für Agenten weniger lesbar – selbst wenn der Code selbst gut strukturiert ist. Siehe Codereife – Dimension 9.

Blockierende Dimensionen

Die drei Codereife-Dimensionen, deren niedrige Werte die Agentenarbeit grundlegend kompromittieren und nicht durch hohe Werte anderswo ausgeglichen werden können: Testabdeckung und Feedback-Latenz (D1), Typstriktheit (D2) und API-Direktheit (D5). Eine Codebasis mit 1–2 bei einer dieser Dimensionen wird nicht durch 5er überall sonst gerettet – Agenten sind blind, halluzinieren Formen oder produzieren selbstbewusst falschen Code an opaken Aufrufstellen. Siehe Codereife – Wie die Bewertung funktioniert.

Einschränkende Dimensionen

Die sechs Codereife-Dimensionen, die die Qualität des Agentenoutputs bei niedrigen Werten verschlechtern, die Agentenarbeit aber nicht vollständig blockieren: Dateigröße und Kontext-Lesbarkeit, Modulgrenzen-Klarheit, dokumentierter Intent, Observability, Dev- und Deploy-Einfachheit und Abhängigkeits- und Runtime-Aktualität. Niedrige Werte hier bedeuten mehr menschliche Überprüfung pro Änderung und mehr Bereinigung – aber Agenten können noch zuverlässigen Wert produzieren. Siehe Codereife – Wie die Bewertung funktioniert.

Brownfield-Strategie

Die vier Brownfield-Modi

In-place-Sanierung, Strangler-Fig-Migration, Vollständiger Neuaufbau, Isolieren und umgehen. Jeder passt zu einer anderen Kombination aus architektonischer Solidität, Nahtklarheit, Geschäftskontinuitätsanforderungen, Teamkapazität und verbleibendem Wert im Legacy. Den falschen Modus zu wählen ist teuer. Siehe Brownfield-Ingenieurstrategie.

Isolieren und umgehen

Ein Brownfield-Modus, bei dem das Legacy im Wartungsmodus eingefroren und neuer Wert als Stufe-5-bereite eigenständige Apps daneben geliefert wird. Die richtige Wahl, wenn die Sanierungskosten den verbleibenden Wert im Legacy übersteigen. Kauft Zeit, löst aber das zugrundeliegende Problem nicht – irgendwann erzwingt etwas die Ersatzentscheidung. Siehe Brownfield-Ingenieurstrategie.

Forschung, Überprüfung, Neuaufbau

Eine phasengesteuerte Methodik für KI-unterstützte Brownfield-Modernisierung (Fowler/EPAM): Forschung (KI rekonstruiert Intent aus bestehendem Code), Überprüfung (Domain-Experten validieren die Intent-Karte), Neuaufbau (KI generiert Ersatzcode mit minimaler Ambiguität). Das Überspringen von Forschung und Überprüfung produziert schnelleren selbstbewusst falschen Output. Menschliche Überprüfung ist der Durchsatz-Engpass, nicht KI-Generierung. Siehe Brownfield-Ingenieurstrategie.

Spec-from-Code

Die Brownfield-Inversion der spec-driven Entwicklung. Spezifikationen gehen dem Code in Greenfield voraus; in Brownfield müssen Spezifikationen aus bestehendem Code rückwärts entwickelt werden, bevor neue spec-first-Arbeit fortgesetzt werden kann. Die implizite Spezifikation zu extrahieren ist die schwerste und menschlichste Arbeit im Übergang – Agenten können dokumentieren, was das System tut, nur Menschen können absichtliches Verhalten von historischem Unfall unterscheiden. Siehe Brownfield-Ingenieurstrategie.

Strangler-Fig-Migration

Das Muster, ein Legacy-System Stück für Stück zu ersetzen, wobei neue Teile hinter einer Fassade neben den alten laufen, bis das alte System ausgemustert werden kann. Nahtidentifikation (finden, wo Verantwortlichkeiten sauber extrahiert werden können) ist die kritische Fähigkeit. KI macht den Ersatz günstiger, beseitigt aber nicht die Notwendigkeit, die Nähte zu finden. Siehe Brownfield-Ingenieurstrategie und Martin Fowlers ursprüngliches Strangler Fig Pattern.

Technical Debt Quadrant

Fowlers Vier-Wege-Kategorisierung technischer Schulden nach Absicht (absichtlich vs. unabsichtlich) und Disziplin (klug vs. leichtsinnig). Das Quadrant informiert die Sanierungsstrategie: klug-unabsichtliche Schulden sind oft sanierbar, leichtsinnig-unabsichtliche Schulden sind typischerweise Neuaufbau-Kandidaten, weil die Struktur Unwissenheit widerspiegelt, die späteres Wissen nicht in-place rückgängig machen kann. Siehe Brownfield-Ingenieurstrategie.

Nahtidentifikation

Die Praxis, Stellen in einer Legacy-Codebasis zu finden, wo Verantwortlichkeiten für die Strangler-Fig-Migration sauber extrahiert werden können. Bekannt gemacht durch Michael Feathers in Working Effectively with Legacy Code. Die kritische Fähigkeit, die bestimmt, ob ein Strangler-Fig-Ansatz ein saubereres System oder zwei gekoppelte produziert.

Black Box zu Blueprint

Fünf Reverse-Engineering-Techniken (Fowler) für undurchsichtige Legacy-Systeme: UI-Schicht-Rekonstruktion, Change Data Capture, Server-Logik-Inferenz, Binär-Archäologie und progressive Mehrfachdurchlauf-Anreicherung. Zwei nicht verhandelbare Disziplinen: Triangulation (jede Hypothese über zwei unabhängige Quellen bestätigen) und Herkunftsverfolgung (die Evidenz, auf der jede Behauptung basiert, aufzeichnen). Siehe Brownfield-Ingenieurstrategie.

Operative Realität bei T3 / R5

Fünf-Phasen-Betriebseinheit

Die wiederkehrende operative Einheit auf Tier 3 / Sprosse 5: Kontext → Klärung → Ausführung → Validierung → Wiederherstellung. Menschen konzentrieren sich an den Grenzen (vorne: Spezifikation und Klärung; hinten: Validierung und Wiederherstellung); der Agent läuft im Inneren. Dieselbe Form gilt für alle Domänen diskreter Aufgaben, unabhängig vom Substrat. Siehe KI-Labor § Die fünf Phasen.

Arbeit an zwei Grenzen

Das strukturelle Muster der Arbeit auf Tier 3 / Sprosse 5: Menschliche Aufmerksamkeit konzentriert sich an der vorderen Grenze (Kontextvorbereitung + Klärung) und der hinteren Grenze (Validierung + Wiederherstellung). Innerhalb der Schleife läuft der Agent ohne Aufsicht. Die Verschiebung geht von der Zeilen-für-Zeilen-Prüfung zur Richtung-und-Urteil-Steuerung pro Schleife.

Diskretes Aufgabenmuster

Die Kategorie von Arbeit, in der KI als Ausführungsschicht operiert: eine klar definierte Einheit (Story, Ticket, Transaktion, Anfrage, Vertragsklausel), überprüfbare Outputs, abstufbares Risiko. Engineering, Kundendienst, Finanzoperationen, juristische Prüfung und Wissensrecherche passen hinein. Die v3-Muster des Rahmenwerks gelten in dieser Kategorie. Kontinuierliche / kreative / zwischenmenschliche Arbeit (Vertrieb, Marketing-Kreation, Design, HR) erfordert ein anderes Rahmenwerk – aufgeschoben auf eine zukünftige v4+-Augmentationsspur.

Klärungsdialog

Eine diskrete operative Phase auf Tier 3 / Sprosse 5, in der der Agent die Spezifikation prüft, seine Annahmen offenlegt und kalibrierte Fragen stellt, bevor er ausführt. Spec-kits /speckit.clarify und Anthropics Plan-Modus + AskUserQuestion-Tool liefern das Muster in Produktion. Kostenregel: Klärungskosten sind durch Minuten begrenzt; Korrekturkosten skalieren mit der Ausführungstiefe. Siehe Spezifikations-Leitfaden § Klärungsdialog.

Prozessdesign für KI

Die Disziplin, eingeschränkte, phasengesteuerte Workflows zu entwerfen, innerhalb derer KI konsistent operiert – unterscheidet sich von Prompt-Engineering und vom Spezifikationsschreiben an sich. Schicht 5 der KI-Ausführungsstandards. Unterscheidet Tier 3 / Sprosse 5 von Tier 2 / Sprosse 4. Siehe KI-Ausführungsstandards § Schicht 5.

Prozesstopologien (die sechs)

Anthropics Vokabular dafür, wie die Pipeline, die eine Spezifikation ausführt, strukturiert ist: Prompt-Verkettung (sequenzielle Einzel-Prompt-Schritte mit zwischenzeitlicher Validierung), Routing (klassifizieren und an spezialisierte Prompts dispatchen), Parallelisierung (unabhängige Teilaufgaben gleichzeitig ausführen), Orchestrator-Workers (Lead-Agent zerlegt und dispatcht Worker), Evaluator-Optimizer (Generator gepaart mit separatem Evaluator), und autonome Agenten (offene Erkundung mit Tool-Nutzung und Feedback-Schleifen). Entscheidungsregel: Mit Einzel-Prompt beginnen; Komplexität nur hinzufügen, wenn der Wert pro Aufgabe den Token-Aufpreis rechtfertigt.

Risikoabgestufte Validierung

Risikoabgestufte Validierungs-Gates

Das Prinzip, dass Validierung auf Sprosse 5 nicht monolithisch ist – unterschiedliche Aktionsklassen erhalten unterschiedliche Gates, abhängig von Wirkungsradius, Reversibilität und Konsequenz. Drei operative Haltungen (HITL / HOTL / HOOTL) beschreiben den Gradienten. Ein reifes Sprosse-5-Team betreibt alle drei gleichzeitig und wählt das Gate pro Aktionsklasse. Siehe KI-Labor § Risikoabgestufte Validierungs-Gates.

HITL – Human-in-the-Loop

Eine Validierungshaltung, bei der menschliche Genehmigung vor der Ausführung einer KI-Aktion erforderlich ist. Standard für irreversible Aktionen mit hoher Auswirkung: Finanztransaktionen, Produktionsdeployments, kundengerichtete Kommunikation, alles, was eine rechtliche oder finanzielle Verpflichtung schafft. Durchsatz ist durch menschliche Prüfkapazität begrenzt. Siehe KI-Labor § Risikoabgestufte Validierungs-Gates.

HOTL – Human-on-the-Loop

Eine Validierungshaltung, bei der die KI autonom handelt, der Mensch aber mit Interventionsbefugnis überwacht (Kill-Switch, Rollback, Override). Standard für reversible Produktionsarbeit mit starker Eval-Abdeckung. Operativ fragil, wenn als passives Monitoring behandelt – Wachsamkeitsmüdigkeit macht nominelles HOTL zu Compliance-Theater. Siehe KI-Labor § Risikoabgestufte Validierungs-Gates.

HOOTL – Human-out-of-the-Loop

Eine Validierungshaltung, bei der die KI innerhalb vordefinierter Grenzen ohne Echtzeit-Beteiligung des Menschen handelt. Reserviert für gekapselte, reversible Arbeit mit starken Tests und einem Agenten-Prüfer auf jedem Artefakt. Code-Merges in ein gut getestetes Repository mit einem Agenten-Prüfer laufen typischerweise HOOTL. Siehe KI-Labor § Risikoabgestufte Validierungs-Gates.

Operational Design Domain (ODD)

Die Bedingungen, unter denen ein KI-Agent funktionieren soll. Übernommen aus SAE J3016 (Fahren) als sauberstes Analogon. Außerhalb der ODD macht der Agent keine Aussagen; das Gate fällt auf den Menschen zurück. Die ODD zu definieren ist Teil des Prozessdesigns – welche Tools der Agent hat, auf welche Daten er zugreifen kann, welche Aktionen er ausführen darf. Siehe KI-Labor § Risikoabgestufte Validierungs-Gates.

Agent als Prüfer

Das Muster, einen Generator-Agenten mit einem separaten Evaluator-Agenten (anderer Kontext, manchmal ein anderes Modell) zu paaren, der den Output vor dem Merge oder Commit prüft. Jetzt der Produktionsstandard für Code-Review (CodeRabbit, Graphite Diamond, Greptile, GitHub Copilot Review) und wird in Kundendienst, Dokumentenverarbeitung und anderen Domänen diskreter Aufgaben übernommen. Ersetzt synchrone menschliche Prüfung im großen Maßstab, weil die Kosten-pro-gemergter-Einheit-Mathematik auf eine Weise funktioniert, wie es menschliche Prüfung im großen Maßstab nicht tut. Siehe Zuverlässigkeit entwickeln § Agent als Prüfer.

Berechtigungs-Eigentümer

Eine benannte organisationale Rolle bei produktionsreifen KI-Systemen. Verantwortlich dafür, was jeder Agent darf und nicht darf, und für die Validierungs-Gating-Stufe (HITL / HOTL / HOOTL) pro Aktionsklasse. Wird tragend, sobald Agenten Produktionssysteme mit irreversiblen Nebenwirkungen berühren. Siehe KI-Ausführungsstandards § Organisationsrollen.

Fehlermodi und Wiederherstellung

Stuck-State-Protokoll

Das Verfahren auf Sprosse 5 / Tier 3 für den Umgang mit einem Liefergegenstand, bei dem der Agent an eine strukturelle Grenze gestoßen ist. Den Stuck-State erkennen (Iterationsgrenze erreicht, gleiches Fehlermuster wiederkehrend oder vom Nutzer aufgeworfenes subjektives Problem); aufhören zu iterieren; eine Rekalibrierungssitzung einberufen; neu spezifizieren oder neu kontextualisieren; die Schleife von Kontext aus neu starten, nicht von Ausführung. Die Laborregel ist explizit: die Arbeit nicht manuell zurücknehmen. Siehe KI-Labor § Stuck-State-Protokoll.

KI-Engpass

Der Fehlermodus auf Tier 2,5+, bei dem ein Liefergegenstand seinen Termin verpasst, weil der Agent an eine strukturelle Grenze gestoßen ist (falsche Richtung, mehrdeutige Spezifikation, subjektiver Randfall, den er allein nicht lösen kann), nicht weil die menschliche Kapazität knapp ist. Cemri et al. (Why Do Multi-Agent LLM Systems Fail?, 2025) stellten fest, dass 41,8 % der Multi-Agenten-Fehlschläge zu diesem Muster passen. Die Führungsantwort ist Rekalibrierungszeit, nicht Arbeitsumverteilung oder zusätzliches Personal. Siehe Die Transformation führen § KI-Engpass.

Sycophancy (Speichelleckerei)

LLMs verteidigen zuverlässig falsche Positionen mit Selbstvertrauen. Gemessen in Sharma et al. (2023), Wen et al. (2024) und OpenAIs Halluzinationsarbeit (2025). Die Literatur ist sich genuin uneinig darüber, ob es ein behandelbarer Trainingsfix oder ein strukturelles Artefakt von RLHF ist; die Haltung des Rahmenwerks ist, Sycophancy für Engineering-Zwecke als strukturelles Anliegen zu behandeln, unabhängig von der Trainingsentwicklung. Prozesssicherungen (externes Signal, Agent als Prüfer, Ground-Truth-Retrieval, ausführbare Tests) in jede Schleife einbauen. Siehe Zuverlässigkeit entwickeln § Sycophancy.

Subjektiver Randfall

Ein vom Nutzer, nicht von Tests oder Monitoring aufgeworfener Fehler: Die KI hat etwas qualitativ falsch gemacht (Ton, Absicht, Markenstimme, Kundenausrichtung), aber der technische Output hat alle Prüfungen bestanden. Der dominante Fehlermodus bei höherer Reife. Wiederherstellung ist Gespräch, nicht Patchen – mit dem Nutzer sprechen, verstehen, was er erreichen wollte, die Spezifikation oder den Kontext aktualisieren. Siehe Zuverlässigkeit entwickeln § Subjektive Randfälle.

Rekalibrierung vs. Debugging

Zwei operativ unterschiedliche Antworten, wenn die KI falsch liegt. Rekalibrierung baut das Verständnis des Agenten über frischen Kontext, neu artikulierte Spezifikation oder Multi-Perspektiven-Brainstorm wieder auf. Debugging repariert das vom Agenten produzierte Artefakt. Die Literatur zur intrinsischen Selbstkorrektur ist einstimmig, dass ein Modell, das sich auf eine falsche Richtung festgelegt hat, dies nicht zuverlässig von selbst bemerkt – was bedeutet, dass die meisten nicht-trivialen T3/R5-Fehlschläge als Debugging-Probleme getarnte Rekalibrierungsprobleme sind. Siehe Zuverlässigkeit entwickeln § Rekalibrierung vs. Debugging.

KI-Ökonomie bei Reife

Kosten pro Output-Einheit

Die Mess-Metrik auf Level 3, die „durch KI eingesparte Zeit" ersetzt – Kosten pro gemergtem PR, Kosten pro gelöstem Ticket, Kosten pro verarbeiteter Transaktion, Kosten pro bedientem Kunden. Die Einheit variiert je nach Domäne; das Prinzip ist konsistent: Gesamt-KI-Ausgaben ohne Nenner sind bei Reife bedeutungslos. Siehe Wirtschaftlichkeit § KI-Ökonomie bei Reife.

KI-Bruttomarge

Das Verhältnis von erzeugtem Wert zu Inferenzausgaben auf Team- oder Geschäftsebene. KI-Unternehmen auf Anwendungsebene laufen mit 40–55 % Bruttomarge gegenüber 70–90 % für traditionelles SaaS – eine strukturelle Lücke, weil Inferenz eine variable Kostenart ist, die mit der Nutzung skaliert. Ob sich die Lücke im Laufe der Zeit schließt, ist umstritten; der Boden ist real und KI-native Unternehmen müssen darum herum planen. Siehe Wirtschaftlichkeit § KI-Ökonomie bei Reife.

Token-Ökonomie

Die Disziplin, KI als Produktionsinfrastruktur zu messen: Kosten pro Aufgabe, Kosten pro gemergter Einheit, Agentendurchsatz pro Dollar, KI-Bruttomarge. Ersetzt „eingesparte Zeit" als bindende Metrik auf Level 3. Pro-Token-Kosten fallen 10–40-fach pro Jahr, aber Pro-Aufgaben-Kosten steigen oft, weil Reasoning-Modelle, Agentenschleifen und längere Kontexte das 10–100-fache der Tokens von Einmal-Vervollständigungen verbrauchen (Jevons-Paradoxon auf Inferenz angewendet). Siehe Wirtschaftlichkeit § KI-Ökonomie bei Reife und KI-Labor § Token-Ökonomie.

← Zurück zur Startseite · Das Referenzrahmenwerk · KI-Ausführungsstandards