Estándares de ejecución con IA

Las reglas y expectativas para delegar trabajo a la IA en toda la organización.

Política de Expectativas Organizacionales

El principio operativo detrás de estos estándares es la Regla de Traducción Universal: reemplazar "el humano produce el artefacto" con "el humano define la spec → el sistema produce el artefacto".

Principio central

La IA se trata como un trabajador autónomo, no como un chatbot.

Todo trabajo asignado a la IA debe ser ejecutable sin supervisión humana en tiempo real durante la ejecución. La clarificación previa a la ejecución (el agente aflorando supuestos y haciendo preguntas calibradas antes de producir resultado) está permitida y, en mayor madurez, se espera. Ver Laboratorio de IA § Las cinco etapas para el patrón operacional.

Capas de trabajo obligatorias

Cada flujo de trabajo habilitado por IA debe definir las cuatro capas de entrada (1-4). La Capa 5 (Diseño de procesos) las extiende con la pipeline operacional que consume las entradas; es obligatoria para el trabajo Tier 3 / Peldaño 5 y opcional por debajo.

Capa 1 – Diseño de prompts (habilidad base)

Los empleados deben:

escribir instrucciones claras
especificar el formato
incluir ejemplos cuando sea útil
resolver ambigüedades de antemano

Nivel mínimo: el resultado de la IA debe requerir ≤20% de corrección.

Capa 2 – Ingeniería de contexto

Cada equipo debe mantener un archivo de contexto estructurado que contenga:

objetivos
restricciones
terminología
estándares de calidad
documentos relevantes
reglas de acceso a herramientas

Requisito: las tareas de IA deben cargar este contexto antes de la ejecución.

Capa 3 – Ingeniería de intención

Cada flujo de trabajo debe definir:

jerarquía de objetivos
reglas de compensación
condiciones de escalación
qué puede decidir la IA versus qué debe escalar

Ningún agente puede ejecutarse sin intención definida.

Capa 4 – Ingeniería de especificaciones (estándar más alto)

Todas las tareas no triviales deben tener una especificación escrita.

Componentes requeridos de la spec:

declaración del problema
alcance
entradas
restricciones
criterios de aceptación
condiciones de fallo
pruebas de éxito
definición de completitud

Regla: si el éxito no puede verificarse objetivamente, la tarea no está lista para especificarse.

Para los códigos brownfield, la inversión importa: el código ya existe y las especificaciones deben extraerse de ingeniería inversa antes de que el trabajo spec-first pueda reanudarse. Ver estrategia brownfield para el flujo de trabajo spec-from-code.

Capa 5 – Diseño de procesos

La capa operacional. Una vez que una spec funciona, la siguiente pregunta es la pipeline que la ejecuta. El diseño de procesos es la disciplina de diseñar flujos de trabajo restringidos y por fases dentro de los cuales la IA opera de manera consistente: distinta de la ingeniería de prompts y de la escritura de specs en sí. Es la capa que distingue el trabajo Tier 3 / Peldaño 5 del trabajo Tier 2 / Peldaño 4.

El vocabulario, tomado de Building Effective Agents de Anthropic:

Encadenamiento de prompts: pasos secuenciales de un solo prompt con validación intermedia
Enrutamiento: clasificar la tarea, despachar al prompt o flujo de trabajo especializado apropiado
Paralelización: ejecutar subtareas independientes concurrentemente, agregar resultados
Orquestador-trabajadores: un agente líder descompone la tarea y despacha trabajadores
Evaluador-optimizador: un generador emparejado con un evaluador separado que puntúa e itera
Agentes autónomos: exploración abierta con uso de herramientas y bucles de retroalimentación

Regla de decisión: empieza con un solo prompt; añade flujo de trabajo cuando sea necesario; añade multiagente solo cuando el valor por tarea justifique el sobrecoste de tokens (los agentes típicos usan ~4× tokens del chat; multiagente ~15×, según Anthropic, 2025). No recurras a multiagente porque suena sofisticado.

Antipatrones:

Pitfall: Mega-prompt único
Combina modos de fallo; imposible de depurar.
Pitfall: Multiagente por sí mismo
Caro, frágil, a menudo un solo agente lo hace igual de bien.
Pitfall: Volcado de contexto
Más contexto suele ser peor contexto.
Pitfall: Omitir las evaluaciones
Sin evaluaciones, los sistemas de IA se degradan silenciosamente.
Pitfall: Optimizar prompts cuando el problema es el contexto
Atribución errónea del modo de fallo.

Las cuatro capas de entrada (Prompt → Contexto → Intención → Spec) describen lo que el humano prepara antes de la delegación. La Capa 5 describe la pipeline que consume esas entradas. En T3/R5 la pipeline también es un artefacto diseñado, y las puertas de validación dentro de ella están graduadas por riesgo (HITL / HOTL / HOOTL).

Primitivas de especificación (habilidades aprendibles)

La ingeniería de especificaciones se construye a partir de cinco primitivas. Cada una es una habilidad distinta a practicar. Para ejemplos, plantillas y especificaciones trabajadas para diferentes roles, ver la Guía de especificación.

Primitiva 1 – Declaraciones de problema autocontenidas

Enuncia el problema con suficiente contexto para que la tarea sea resoluble sin que el agente busque más información. Muestra los supuestos ocultos. Articula las restricciones que normalmente dejas implícitas.

Ejercicio de entrenamiento: toma una solicitud que harías normalmente de manera conversacional y reescríbela como si el destinatario nunca hubiera visto tu proyecto, no conociera tu terminología y no tuviera acceso a nada más allá de lo que incluyes.

Primitiva 2 – Criterios de aceptación

Define cómo se ve el resultado terminado para que un observador independiente pueda verificar el resultado sin hacer preguntas. Si no puedes escribir tres oraciones que verifiquen la completitud, no entiendes la tarea lo suficientemente bien como para delegarla.

Primitiva 3 – Arquitectura de restricciones

Define cuatro categorías para cada tarea:

Debe – requisitos no negociables
No debe – acciones o resultados prohibidos
Prefiere – orientación cuando existen múltiples enfoques válidos
Escalar – condiciones donde el agente debe detenerse y preguntar

Primitiva 4 – Descomposición

Divide las tareas en componentes que puedan ejecutarse de forma independiente, probarse de forma independiente e integrarse de manera predecible. Granularidad objetivo: subtareas de ≤2 horas con límites claros de entrada/salida, cada una verificable por sí sola.

Primitiva 5 – Diseño de evaluación

Para cada tarea recurrente de IA, construye 3-5 casos de prueba con resultados conocidos como buenos. Ejecútalos después de actualizaciones del modelo para detectar regresiones. Los resultados se juzgan por métricas, no por apariencia.

Una spec válida debe pasar las cinco: autocontenida, verificable, restringida, descomponible, evaluable.

Lista de verificación de preparación para delegar

Antes de asignar trabajo a la IA, los empleados deben confirmar:

Entiendo la tarea completamente
Puedo definir el éxito objetivamente
Puedo listar los casos de fallo
Puedo describir las restricciones
Puedo verificar los resultados sin interpretación

Si alguna respuesta = no → no delegues todavía.

Modelo de responsabilidad por fallos

Los fallos se atribuyen por capa:

Tipo de fallo	Causa raíz
Resultado deficiente	Problema de prompt
Resultado irrelevante	Problema de contexto
Dirección equivocada	Problema de intención
Resultado incompleto	Problema de spec
Resultado dañino	Problema de permiso / radio de impacto: el agente no debería haber podido tomar esta acción
Resultado no detectado	Problema de puerta de validación: la postura de supervisión incorrecta para el radio de impacto de esta acción (ver puertas graduadas por riesgo)
Dirección equivocada defendida con confianza	Clarificación omitida: el agente se comprometió antes de que los supuestos fueran aflorados

Los equipos deben corregir la capa responsable, no reintentar prompts.

Roles organizacionales

Cada sistema de IA en producción debe tener:

Propietario de Spec: responsable de la calidad de la especificación, los criterios de aceptación y qué significa "listo"
Propietario de Contexto: responsable de los archivos de contexto (CLAUDE.md / AGENTS.md), la frescura del contexto y el alcance de las herramientas y habilidades
Propietario de Evaluación: responsable de la suite de evaluaciones, la detección de regresiones y las métricas de calidad
Responsable de permisos: responsable de lo que cada agente puede y no puede hacer, y del nivel de la puerta de validación (HITL / HOTL / HOOTL) por clase de acción

Una persona puede ocupar múltiples roles inicialmente. El rol del Responsable de permisos se vuelve crítico tan pronto como los agentes tocan sistemas de producción con efectos secundarios irreversibles.

Estos cuatro roles gobiernan un sistema de IA en producción. Son distintos de los tres roles requeridos para gobernar la transformación con IA de un equipo: ver Liderar la transformación § Roles organizacionales.

Estándar de documentación

Todos los documentos internos deben escribirse como si un agente los fuera a ejecutar.

Los documentos deben:

declarar supuestos
definir términos
especificar resultados
incluir restricciones
evitar conocimiento implícito

Regla resumida del ejecutivo

El pensamiento claro precede a la ejecución con IA.

Si no puedes especificarlo, no puedes automatizarlo.

← Volver al inicio · El marco de referencia · El Laboratorio de IA · Glosario