AI-Native Transformation Framework

KI-Ausführungsstandards

Die Regeln und Erwartungen für die Delegation von Arbeit an KI in der gesamten Organisation.


Organisationsweite Erwartungsrichtlinie

Das operative Prinzip hinter diesen Standards ist die Universelle Übersetzungsregel: „Mensch produziert Artefakt" wird ersetzt durch „Mensch definiert Spezifikation → System produziert Artefakt."

Kernprinzip

KI wird als autonomer Mitarbeiter behandelt, nicht als Chatbot.

Alle an KI zugewiesene Arbeit muss ohne menschliche Echtzeit-Supervision während der Ausführung ausführbar sein. Vor-Ausführungs-Klärung – der Agent legt Annahmen offen und stellt kalibrierte Fragen, bevor er Output produziert – ist erlaubt und wird bei höherer Reife erwartet. Siehe KI-Labor § Die fünf Phasen für das operative Muster.


Obligatorische Arbeitsschichten

Jeder KI-aktivierte Workflow muss die vier Input-Schichten (1–4) definieren. Schicht 5 (Prozessdesign) erweitert sie um die operative Pipeline, die die Inputs verarbeitet; sie ist obligatorisch für Arbeit auf Tier 3 / Sprosse 5 und optional darunter.

Schicht 1 – Prompt-Gestaltung (grundlegende Fähigkeit)

Mitarbeiter müssen:

  • klare Anweisungen schreiben
  • Format angeben
  • Beispiele einbeziehen, wenn sinnvoll
  • Mehrdeutigkeiten im Voraus klären

Mindestmaßstab: KI-Output sollte ≤ 20 % Korrektur erfordern.


Schicht 2 – Kontext-Engineering

Jedes Team muss eine strukturierte Kontextdatei pflegen, die enthält:

  • Ziele
  • Rahmenbedingungen
  • Terminologie
  • Qualitätsstandards
  • relevante Dokumente
  • Regeln für Werkzeugzugang

Anforderung: KI-Aufgaben müssen diesen Kontext vor der Ausführung laden.


Schicht 3 – Absichts-Engineering

Jeder Workflow muss definieren:

  • Zielhierarchie
  • Abwägungsregeln
  • Eskalationsbedingungen
  • Was KI entscheiden darf vs. was eskaliert werden muss

Kein Agent darf ohne definierte Absicht ausgeführt werden.


Schicht 4 – Spezifikations-Engineering (höchster Standard)

Alle nicht-trivialen Aufgaben müssen eine schriftliche Spezifikation haben.

Erforderliche Spezifikationskomponenten:

  • Problemaussage
  • Umfang
  • Eingaben
  • Rahmenbedingungen
  • Abnahmekriterien
  • Fehlerbedingungen
  • Erfolgstests
  • Abschlussdefinition

Regel: Wenn Erfolg nicht objektiv überprüft werden kann, ist die Aufgabe nicht spezifikationsbereit.

Für Brownfield-Codebasen ist die Inversion entscheidend: Der Code existiert bereits, und Spezifikationen müssen daraus rückwärts entwickelt werden, bevor neue spec-first-Arbeit fortgesetzt werden kann. Siehe Brownfield-Ingenieurstrategie für den Spec-from-Code-Workflow.


Schicht 5 – Prozessdesign

Die operative Schicht. Sobald eine Spezifikation funktioniert, ist die nächste Frage die Pipeline, die sie ausführt. Prozessdesign ist die Disziplin, eingeschränkte, phasengesteuerte Workflows zu gestalten, innerhalb derer KI konsistent operiert – unterscheidet sich von Prompt-Engineering und vom Spezifikationsschreiben an sich. Es ist die Schicht, die Arbeit auf Tier 3 / Sprosse 5 von Tier 2 / Sprosse 4 unterscheidet.

Das Vokabular, übernommen aus Anthropics Building Effective Agents:

  • Prompt-Verkettung – sequenzielle Einzel-Prompt-Schritte mit zwischenzeitlicher Validierung
  • Routing – Aufgabe klassifizieren, an den passenden spezialisierten Prompt oder Workflow dispatchen
  • Parallelisierung – unabhängige Teilaufgaben gleichzeitig ausführen, Ergebnisse aggregieren
  • Orchestrator-Workers – ein Lead-Agent zerlegt die Aufgabe und dispatcht Worker
  • Evaluator-Optimizer – ein Generator gepaart mit einem separaten Evaluator, der bewertet und iteriert
  • Autonome Agenten – offene Erkundung mit Tool-Nutzung und Feedback-Schleifen

Entscheidungsregel: Mit Einzel-Prompt beginnen; Workflow hinzufügen, wenn nötig; Multi-Agent nur hinzufügen, wenn der Wert pro Aufgabe den Token-Aufpreis rechtfertigt (typische Agenten verwenden ~4-fach Tokens von Chat; Multi-Agent ~15-fach, laut Anthropic, 2025). Greifen Sie nicht zu Multi-Agent, weil es ausgefeilt klingt.

Anti-Muster:

  • Pitfall: Einzelner Mega-Prompt

    Kombiniert Fehlermodi; unmöglich zu debuggen.

  • Pitfall: Multi-Agent um seiner selbst willen

    Teuer, fragil, oft ist Einzel-Agent genauso gut.

  • Pitfall: Kontext-Dumping

    Mehr Kontext ist oft schlechterer Kontext.

  • Pitfall: Evals überspringen

    Ohne Evals degradieren KI-Systeme still.

  • Pitfall: Prompts optimieren, wenn das Problem Kontext ist

    Fehlmodus-Fehlattribution.

Die vier Input-Schichten (Prompt → Kontext → Absicht → Spezifikation) beschreiben, was der Mensch vor der Delegation vorbereitet. Schicht 5 beschreibt die Pipeline, die diese Inputs verarbeitet. Auf T3/R5 ist die Pipeline ebenfalls ein gestaltetes Artefakt – und Validierungs-Gates innerhalb davon sind risikoabgestuft (HITL / HOTL / HOOTL).


Spezifikationsprimitive (erlernbare Fähigkeiten)

Spezifikations-Engineering besteht aus fünf Primitiven. Jede ist eine eigenständige Fähigkeit zum Üben. Für Beispiele, Templates und ausgearbeitete Spezifikationen für verschiedene Rollen, siehe den Spezifikations-Leitfaden.

Primitiv 1 – Eigenständige Problemaussagen

Das Problem mit ausreichend Kontext angeben, damit die Aufgabe lösbar ist, ohne dass der Agent weitere Informationen beschaffen muss. Versteckte Annahmen aufdecken. Rahmenbedingungen, die normalerweise implizit bleiben, artikulieren.

Übung: Nehmen Sie eine Anfrage, die Sie normalerweise im Gespräch stellen würden, und schreiben Sie sie um, als ob der Empfänger Ihr Projekt noch nie gesehen hat, Ihre Terminologie nicht kennt und nur Zugang zu dem hat, was Sie einschließen.

Primitiv 2 – Abnahmekriterien

Definieren Sie, wie „fertig" aussieht, sodass ein unabhängiger Beobachter den Output ohne Nachfragen überprüfen kann. Wenn Sie keine drei Sätze schreiben können, die den Abschluss verifizieren, verstehen Sie die Aufgabe nicht gut genug, um sie zu delegieren.

Primitiv 3 – Rahmenbedingungsarchitektur

Vier Kategorien für jede Aufgabe definieren:

  • Muss – nicht verhandelbare Anforderungen
  • Darf nicht – verbotene Aktionen oder Outputs
  • Bevorzuge – Orientierung, wenn mehrere gültige Ansätze existieren
  • Eskaliere – Bedingungen, unter denen der Agent stoppen und fragen muss

Primitiv 4 – Zerlegung

Aufgaben in Komponenten aufteilen, die unabhängig ausgeführt, unabhängig getestet und vorhersagbar integriert werden können. Zielgranularität: Teilaufgaben von ≤ 2 Stunden mit klaren Eingabe-/Ausgabegrenzen, jede für sich überprüfbar.

Primitiv 5 – Bewertungsdesign

Für jede wiederkehrende KI-Aufgabe 3–5 Testfälle mit bekannt guten Outputs erstellen. Nach Modell-Updates ausführen, um Regressionen zu erkennen. Outputs werden nach Metriken bewertet, nicht nach Aussehen.

Eine gültige Spezifikation muss alle fünf bestehen: eigenständig, testbar, eingeschränkt, zerlegbar, bewertbar.


Delegations-Bereitschafts-Checkliste

Vor der Zuweisung von Arbeit an KI müssen Mitarbeiter bestätigen:

  • Ich verstehe die Aufgabe vollständig
  • Ich kann Erfolg objektiv definieren
  • Ich kann Fehlerfälle aufzählen
  • Ich kann Rahmenbedingungen beschreiben
  • Ich kann Ergebnisse ohne Interpretation überprüfen

Wenn eine Antwort = nein → noch nicht delegieren.


Fehlerverantwortungsmodell

Fehler werden nach Schicht zugeordnet:

FehlertypUrsache
Schlechter OutputPrompt-Problem
Irrelevanter OutputKontext-Problem
Falsche RichtungAbsichts-Problem
Unvollständiger OutputSpezifikations-Problem
Schädigender OutputBerechtigungs- / Wirkungsradius-Problem – der Agent hätte diese Aktion nicht ausführen können dürfen
Unbemerkter OutputValidierungs-Gate-Problem – die falsche Aufsichtshaltung für den Wirkungsradius dieser Aktion (siehe risikoabgestufte Gates)
Falsche Richtung selbstbewusst verteidigtKlärung übersprungen – der Agent hat sich festgelegt, bevor Annahmen offengelegt wurden

Teams müssen die verantwortliche Schicht beheben, nicht Prompts wiederholen.


Organisationsrollen

Jedes produktive KI-System muss haben:

  • Spezifikations-Eigentümer – verantwortlich für Spezifikationsqualität, Abnahmekriterien und was „fertig" bedeutet
  • Kontext-Eigentümer – verantwortlich für Kontextdateien (CLAUDE.md / AGENTS.md), Kontextaktualität und Tool-/Skill-Umfang
  • Bewertungs-Eigentümer – verantwortlich für die Eval-Suite, Regressionserkennung und Qualitätsmetriken
  • Berechtigungs-Eigentümer – verantwortlich dafür, was jeder Agent darf und nicht darf, und für die Validierungs-Gating-Stufe (HITL / HOTL / HOOTL) pro Aktionsklasse

Eine Person kann anfangs mehrere Rollen innehaben. Die Rolle des Berechtigungs-Eigentümers wird tragend, sobald Agenten Produktionssysteme mit irreversiblen Nebenwirkungen berühren.

Diese vier Rollen steuern ein produktives KI-System. Sie unterscheiden sich von den drei Rollen, die erforderlich sind, um die KI-Transformation eines Teams zu steuern – siehe Die Transformation führen § Organisationsrollen.


Dokumentationsstandard

Alle internen Dokumente müssen so geschrieben sein, als würde ein Agent sie ausführen.

Dokumente müssen:

  • Annahmen angeben
  • Begriffe definieren
  • Ergebnisse spezifizieren
  • Rahmenbedingungen einschließen
  • implizites Wissen vermeiden

Zusammenfassende Regel

Klares Denken geht der KI-Ausführung voraus.

Wenn Sie es nicht spezifizieren können, können Sie es nicht automatisieren.


← Zurück zur Startseite · Das Referenzrahmenwerk · Das KI-Labor · Glossar