Il Lab IA
Un ambiente ingegneristico all'avanguardia dove le specifiche entrano e il software esce.
Ambiente Ingegneristico – Grado 5 (Produzione Autonoma)
Il Lab IA è un ambiente operativo parallelo che punta al grado più alto dello sviluppo guidato dall'IA. Sperimenta nuovi modi di lavorare e serve come spazio di test per pratiche, agenti e flussi di lavoro che verranno poi applicati in tutta l'ingegneria. Il Lab opera al di fuori delle procedure operative standard dell'ingegneria. Ha le proprie regole.
Due scale di maturità
Questo documento usa due scale distinte definite nel quadro di riferimento: la scala organizzativa (Livelli 1-3, applicabile a tutta l'azienda) e la scala ingegneristica (Gradi 0-5, specifica per lo sviluppo software). Vedi il quadro di riferimento per definizioni complete e criteri di accettazione.
Il Lab punta al Grado 5. L'ingegneria fuori dal Lab mira al Level 3 organizzativo (Gradi 4-5).
La transizione più difficile è il passaggio dal Grado 3 al Grado 4: accettare di non leggere più il codice e fidarsi degli scenari per validare il risultato. È un cambiamento psicologico prima che tecnico. La maggior parte degli ingegneri si ferma al Grado 3 perché lasciare il controllo sul codice va contro tutti i loro istinti professionali.
Regole assolute
Due regole definiscono il Lab. Non sono aspirazioni – sono condizioni di ammissione.
L'umano definisce l'architettura, i vincoli e gli scenari di soddisfazione. L'IA produce il codice, esegue i test e converge verso la soluzione. Se stai scrivendo o leggendo il codice riga per riga, non stai operando nella modalità di lavoro del Lab.
Criteri di ammissione dei progetti
Il terreno naturale del Lab. Nessun legacy, nessun debito tecnico, nessuna abitudine. Le regole del Lab (Grado 5) si applicano end-to-end dal primo giorno.
- L'ambito è sufficientemente definito per scrivere specifiche e scenari
- Il progetto può tollerare un ritmo di apprendimento
Il Lab accetta anche progetti esistenti che vengono trasferiti al Grado 5. È più difficile – il codice esiste e le abitudini anche – ma è qui che la trasformazione ha il maggiore impatto.
- Copertura sufficiente degli scenari (o impegno a costruirla prima)
- Tutto il nuovo lavoro segue le regole del Lab – nessun passo indietro
- Il codice esistente è contesto per l'agente, non intoccabile
- Il rischio di regressione è gestito dagli scenari, non dalla revisione umana
Sequenza tipica per un brownfield:
Questi passaggi assumono un codebase che viene trasferito direttamente al Grado 5 sotto le regole del Lab. Le decisioni a monte (valutare la maturità del codice e scegliere tra le quattro modalità brownfield: risanare, strangler-fig, ricostruire, isolare) si trovano al di fuori del Lab stesso.
- Estrarre la specifica implicita – Il sistema esistente È la specifica. Nessuno ha mai documentato le migliaia di decisioni implicite accumulate nel corso di anni di patch, hotfix e workaround diventati permanenti. Questa estrazione è il lavoro più difficile e più umano della transizione. Richiede le persone che sanno perché questo modulo ha quell'eccezione, perché questo servizio è stato diviso in quel modo, perché questo valore è configurato così. L'IA può aiutare a documentare cosa fa il sistema (generare specifiche dal codice). Ma distinguere i comportamenti intenzionali dagli incidenti storici rimane un giudizio umano.
- Scrivere scenari end-to-end che descrivono il comportamento atteso corrente, basandosi sulla specifica estratta nel passaggio 1
- Verificare che gli scenari passino sul codice esistente
- Da quel momento in poi, tutte le modifiche vengono apportate dall'agente, validate dagli scenari
- Iterare: ogni componente trasferito aumenta la copertura Grado 5 del progetto
Cosa NON appartiene al Lab
- Qualsiasi progetto il cui sviluppo continua con pratiche tradizionali (l'umano scrive o revisiona il codice)
- Progetti i cui vincoli di consegna non tollerano alcun rischio di apprendimento
Regola: la condizione di ingresso non è l'assenza di codice esistente – è l'impegno che tutto il nuovo lavoro segua le regole del Lab.
Modalità di lavoro: l'unità operativa
Le cinque fasi
Il Lab struttura tutto il lavoro attorno a un ciclo ricorrente a cinque fasi. L'umano si concentra ai confini; l'agente lavora all'interno.
- Contesto
Contesto di lavoro vivo (CLAUDE.md / AGENTS.md, strumenti circoscritti, skill su richiesta) validato rispetto al sistema prima che il lavoro inizi. Un contesto obsoleto produce lavoro sbagliato con sicurezza.
- Chiarimento
L'agente espone le supposizioni e pone domande calibrate. Nessuna esecuzione mentre permane un'ambiguità materiale. Regola di costo: costo del chiarimento ≪ costo della correzione.
- Esecuzione
L'agente produce, esegue i test, converge. L'umano non supervisiona l'esecuzione.
- Validazione
Gate graduato per rischio (§ 4). Test, scenari, agente revisore per lavoro reversibile; approvazione umana per quello irreversibile.
- Recupero
Quando la validazione fallisce o l'agente si blocca: ricalibra (ri-specifica, ri-contestualizza, brainstorm) invece di debuggare. Vedi § 5.
La Fase 2 (Chiarimento) è già in produzione negli strumenti: /speckit.clarify di spec-kit, la modalità plan di Anthropic e lo strumento AskUserQuestion la operazionalizzano tutti come gate discreto. La Fase 4 è dettagliata in Gate di validazione graduati per rischio; la Fase 5 nel Protocollo di stato bloccato.
Due checkpoint umani
Il lavoro umano si concentra al confine anteriore (Contesto + Chiarimento) e al confine posteriore (Validazione + Recupero). All'interno del ciclo, agenti e valutatori lavorano. Questo è il pattern operativo che rende sostenibile il Grado 5: l'attenzione dell'umano non è un collo di bottiglia di revisione riga per riga; è un ruolo di direzione e giudizio per ciclo.
Il pattern è discreto, non specifico all'ingegneria
Il Lab applica il ciclo al codice, ma la stessa forma governa altro lavoro discreto:
| Fase | Ingegneria | Servizio clienti | Operazioni finanziarie |
|---|---|---|---|
| Contesto | Codebase + CLAUDE.md | Knowledge base + cronologia cliente | Mastro + piano dei conti + regole di periodo |
| Chiarimento | L'agente chiede di criteri di accettazione ambigui | L'agente chiede "cosa vuole davvero il cliente?" prima di redigere | L'agente solleva ambiguità nella categorizzazione delle transazioni |
| Esecuzione | PR con test | Risposta + azioni | Voci contabili redatte |
| Validazione | Agente revisore + CI; gate umano sul deploy di produzione | Agente revisore per tono + policy; gate umano sul rimborso oltre soglia | Agente riconciliatore; approvazione umana prima della registrazione |
| Recupero | Ri-specifica quando emerge un bug sottile | Ri-addestra quando i pattern di escalation cambiano | Ri-specifica quando un caso limite rivela una lacuna di categoria |
Il substrato cambia; il ciclo no. Le regole del Lab – codice non scritto né revisionato dagli umani – sono l'istanza ingegneristica del principio più ampio: gli umani dirigono e validano; l'IA esegue entro gate graduati per rischio.
Scenari vs test
- Test: validazioni memorizzate nel codice. Vulnerabili all'aggiramento da parte degli agenti – un agente può riscrivere un test per farlo passare. Utili ma insufficienti.
- Scenari: percorsi utente end-to-end che descrivono il comportamento atteso dalla prospettiva dell'utente. Più difficili da aggirare. Il Lab privilegia gli scenari.
Quando gli umani non leggono più il codice, i test unitari perdono un vantaggio cruciale: la capacità dell'ingegnere di identificare i casi limite dalla propria conoscenza dell'implementazione. In un modello di esecuzione opaco, rimane affidabile solo la validazione comportamentale end-to-end, perché non dipende dalla conoscenza dei dettagli interni.
Metrica di soddisfazione
Il Lab non misura il successo in modo binario (test verdi / rossi). Misura la soddisfazione: "su tutte le traiettorie osservate attraverso tutti gli scenari, quale frazione soddisfa l'utente?"
Quando la soddisfazione è insufficiente, il problema è nella specifica, non nell'agente. Itera sulla specifica, non sul codice.
Economia dei token
Il tempo dell'orologio è la misura sbagliata al Grado 5: gli agenti lavorano in parallelo, in modo asincrono e di notte. Le metriche vincolanti sono:
- Costo per unità unita (PR, ticket, transazione). Anthropic quantifica il premium multi-agente: gli agenti tipici usano ~4× i token della chat; i sistemi multi-agente possono usarne ~15× (Anthropic, 2025). Il costo per unità unita lo rende visibile.
- Margine lordo IA a livello di team – valore prodotto rispetto all'inferenza spesa. I team AI-native trattano il costo dei token come una metrica ingegneristica di primo piano. Vedi Economia dell'IA a maturità.
- Throughput dell'agente per dollaro – unità unite per dollaro di inferenza. Distingue i team ad alta spesa e alto throughput da quelli ad alta spesa e basso throughput.
Il Lab traccia queste metriche insieme alla soddisfazione. Un team che raggiunge il Grado 5 eseguendo cicli multi-agente costosi su ogni task può essere tecnicamente di successo ed economicamente insostenibile allo stesso tempo.
Le competenze critiche: specificazione e progettazione del processo
Il collo di bottiglia del Lab non è la velocità di implementazione: è il lavoro al confine anteriore. Due nuove competenze:
- Specificazione – scrivere istruzioni abbastanza precise perché l'agente implementi correttamente senza intervento umano.
- Progettazione del processo per l'IA – progettare i vincoli, i gate e i livelli di validazione entro cui l'agente opera in modo coerente. Distinta dall'ingegneria dei prompt e dalla scrittura di specifiche in sé. Vedi Standard di esecuzione IA § Livello 5.
Quasi nessuno ha sviluppato pienamente entrambe.
La difficoltà con la specificazione: quando un umano riceve una specifica ambigua, colma le lacune con giudizio, contesto o un messaggio Slack chiedendo "intendevi X o Y?" L'agente costruisce ciò che hai descritto. Se la descrizione è ambigua, il software colma le lacune con supposizioni della macchina, non con intuizioni del cliente. La fase di chiarimento dell'unità operativa è la correzione strutturale – ma solo se il team la usa.
Questa competenza si sviluppa con la pratica:
- Le cliniche IA dovrebbero includere revisioni di specifiche: "ecco la mia specifica, ecco cosa ha prodotto l'agente, ecco cosa mancava nella specifica"
- Le sessioni in coppia dovrebbero lavorare sugli esercizi di specificazione, non solo sugli esercizi di codice
- Ogni iterazione fallita è un segnale sulla specifica, non sull'agente – documenta cosa la specifica non ha dichiarato abbastanza chiaramente
L'obiettivo del Lab non è solo produrre software tramite agenti. È sviluppare ingegneri in grado di specificare con il rigore che gli agenti richiedono.
Gate di validazione graduati per rischio
La Fase 4 (Validazione) dell'unità operativa è graduata per rischio: classi di azioni diverse ottengono gate diversi. Le dimensioni che determinano il gate, tratte da SAE J3016 (guida) come analogo più pulito:
- Dominio di progettazione operativa (ODD) – le condizioni in cui l'agente è progettato per funzionare. Al di fuori dell'ODD, l'agente non fa affermazioni; il gate ricade sull'umano.
- Responsabilità di fallback – chi gestisce l'azione quando l'agente si blocca o raggiunge un confine vietato.
- Aspettativa di supervisione – cosa ci si aspetta che l'umano faccia durante l'operazione.
- Trasferimento del controllo – come l'autorità si sposta tra agente e umano.
Le tre posture operative
Approvazione umana richiesta prima dell'esecuzione dell'azione.
Predefinita per azioni irreversibili ad alto impatto: transazioni finanziarie, deploy di produzione, comunicazioni rivolte ai clienti, qualsiasi cosa generi obblighi legali o finanziari.
L'agente agisce autonomamente; l'umano monitora con autorità di intervento.
Predefinita per lavoro di produzione reversibile con forte copertura di eval.
L'agente agisce entro confini predefiniti; nessun coinvolgimento umano in tempo reale.
Riservata a lavoro sandbox reversibile con test forti e un agente revisore su ogni artefatto.
Un team maturo al Grado 5 opera tutte e tre contemporaneamente. Esempi:
| Azione | Gate | Razionale |
|---|---|---|
| Merge di codice su main (repo ben testato, agente revisore) | HOOTL | Reversibile (revertabile); raggio d'impatto limitato dalla CI |
| Deploy di produzione | HITL | Irreversibile a livello di percezione del cliente; alto impatto |
| Transazione finanziaria redatta nel sistema contabile | HITL | Irreversibile (audit trail); implicazioni normative |
| Risposta di supporto cliente di routine (nell'ambito della knowledge base) | HOTL | Reversibile; qualità monitorata; agente revisore per tono/policy |
| Rimborso o credito emesso oltre soglia | HITL | Irreversibilità finanziaria; implicazioni di fiducia |
Le regole assolute del Lab ("codice non scritto né revisionato dagli umani") si applicano comunque all'interno della modalità HOOTL. Ma i team al Grado 5 escono deliberatamente da HOOTL per il lavoro irreversibile: è una scelta di design graduata per rischio, non una regressione.
Affaticamento da vigilanza
HOTL è operativamente fragile quando trattato come monitoraggio passivo. Perché HOTL sia significativo, l'umano deve (a) avere autorità di intervento (kill switch, rollback, override) e (b) prestare effettivamente attenzione. L'affaticamento da vigilanza è ben documentato; i team che etichettano tutto come HOTL come teatro di conformità trovano che la loro supervisione è illusoria. Il costo cognitivo della vigilanza prolungata è reale (vedi Costo cognitivo).
Protocollo di stato bloccato
Quando la validazione fallisce o l'agente si blocca su un deliverable, la risposta è governata dalla fase di Recupero dell'unità operativa – e dalle regole del Lab.
Il modo di fallimento da collo di bottiglia dell'IA
Al Grado 5, "in ritardo su un deliverable" raramente significa che la capacità umana è scarsa. Significa che l'agente ha raggiunto un limite strutturale: direzione sbagliata, specifica ambigua, caso limite soggettivo che non riesce a risolvere da solo. Cemri et al. (Why Do Multi-Agent LLM Systems Fail?, 2025) hanno rilevato che il 41,8% dei fallimenti multi-agente sono problemi di specificazione o design che necessitano di ri-specificazione, non di retry.
Ricalibrazione, non debugging
La letteratura sull'auto-correzione intrinseca è unanime: un modello che si è impegnato in una direzione sbagliata non se ne accorgerà in modo affidabile da solo; la riflessione nella stessa finestra di contesto dopo una risposta sbagliata aggrava l'errore invece di correggerlo. La mossa di recupero è ricostruire la comprensione dell'agente – contesto fresco, specifica riarticolata, brainstorm multi-prospettiva – non debuggare l'artefatto che l'agente ha prodotto.
Pattern pratico al Grado 5:
- Rileva lo stato bloccato – limite di iterazione raggiunto; stesso pattern di fallimento ricorrente; problema soggettivo sollevato da un utente.
- Ferma l'iterazione. Convoca una sessione di ricalibrazione: uno o più umani ingaggiano l'agente in dialogo; l'obiettivo è far emergere la supposizione sbagliata.
- Ri-specifica o ri-contestualizza. Affina i criteri di accettazione, correggi i requisiti ambigui, aggiorna CLAUDE.md / AGENTS.md se l'intento si è discostato dal contesto documentato.
- Riavvia il ciclo dal Contesto, non dall'Esecuzione. Un'esecuzione di agente fresca su una specifica corretta supera quasi sempre la correzione continuata all'interno della finestra di contesto originale.
Regola del Lab per gli stati bloccati
Quando un progetto del Lab è bloccato, non riprendere il lavoro manualmente. Riportare l'implementazione nelle mani umane viola le regole assolute del Lab e sostituisce il sintomo (consegna lenta) con uno peggiore (il Lab non dimostra più come appare il Grado 5). La risposta giusta è la ricalibrazione collettiva: porta più umani nella specifica/chiarimento, fai emergere la supposizione sbagliata, riesegui il ciclo.
Se il lavoro è genuinamente irrecuperabile al Grado 5, la maturità del codebase del progetto è al di sotto di dove sta operando il team – ricadi temporaneamente a un Grado inferiore e rimedia il harness (maturità del codice, strategia brownfield). Questa è una mossa legittima; tornare alla codifica manuale all'interno del Lab non lo è.
Ingenuità deliberata
Il maggiore ostacolo al Grado 5 non è tecnico – è l'abitudine.
Gli ingegneri esperti hanno riflessi profondi: strutturare il codice in un certo modo, revisionare riga per riga, scrivere i test da soli, fare il refactoring manualmente. Questi riflessi erano punti di forza nello sviluppo tradizionale. Nel Lab, sono ostacoli.
L'ingenuità deliberata significa:
- Rimuovere le convenzioni di sviluppo tradizionali e vedere cosa regge senza di esse
- Chiedersi sistematicamente: "Perché sto facendo questo? Dovrebbe farlo il modello al posto mio."
- Accettare che approcci che sembrano "ingenui" o "incorretti" secondo gli standard tradizionali possano essere corretti in un ambiente AI-native
- Trattare compiti storicamente considerati troppo costosi (costruire repliche complete di servizi, scrivere migliaia di scenari) come routine quando i costi di esecuzione dell'IA li rendono fattibili
La domanda permanente del Lab:
Perché sto facendo questo? Dovrebbe farlo il modello al posto mio.
Se la risposta è "perché l'ho sempre fatto così", è esattamente la ragione per cambiare.
Ruolo di supporto
Il Lab non è isolato dal resto dell'ingegneria. La serve.
Il Lab produce:
- Pattern di lavoro documentati: come specificare per un agente, come scrivere scenari, come valutare la soddisfazione
- Agenti riutilizzabili o adattabili
- Prova concreta che il Grado 5 funziona su progetti reali
- Feedback onesto – cosa funziona e cosa non funziona ancora
Il Lab condivide attraverso:
- Cliniche IA: sessioni regolari, formato breve. "Ecco cosa abbiamo provato, ecco cosa è successo."
- Documentazione: ogni pattern e anti-pattern scoperto viene documentato
- Abbinamento Lab / non-Lab: un membro del Lab lavora temporaneamente con un ingegnere fuori dal Lab per trasferire le pratiche
Un Lab che non condivide è inutile. La condivisione è importante quanto la produzione.
Cultura del Lab
Il Lab ha una cultura distinta dal resto dell'organizzazione:
- Curiosità obbligatoria – la domanda "e se provassi..." è sempre benvenuta
- Monitoraggio aggressivo – i membri del Lab tengono il passo con gli ultimi progressi dei modelli IA. Quando un nuovo modello o strumento viene rilasciato, il Lab lo testa rapidamente e valuta se è un game-changer. Aspettare che le cose "maturino" è incompatibile con il Lab.
- Audacia nei metodi, rigore negli impegni – il Lab spinge i limiti su come lavoriamo: quali strumenti adottiamo, quali flussi di lavoro reinventiamo, quali approcci "ingenui" testiamo. Ma gli obblighi contrattuali, economici, legali e di sicurezza verso i clienti rimangono non negoziabili. L'audacia si applica ai mezzi, non alle garanzie.
- Alto rischio, bassa posta in gioco – i progetti del Lab sono scelti per tollerare il fallimento. Usalo per correre rischi che non correresti altrove
- Trasparenza radicale – i fallimenti sono condivisi con lo stesso dettaglio dei successi. Un fallimento documentato ha più valore di un successo silenzioso
- La leadership significa elevare il team – nel Lab, la leadership non si misura dalle prestazioni individuali. I leader sono quelli che rendono migliore il resto del team: condividono le loro scoperte, documentano i loro pattern, sbloccano i colleghi e trasformano la loro esperienza in pratiche riproducibili. Un ingegnere brillante che tiene i suoi metodi per sé non è un leader del Lab.
- Velocità di iterazione – il ciclo di feedback dalla specifica alla spedizione deve essere veloce. Se un'iterazione richiede giorni, il ciclo è troppo pesante
Insidie da evitare
- Pitfall: Tornare alle abitudini
Il riflesso di "controllare manualmente il codice tanto per sicurezza" è esattamente ciò che il Lab vieta. Se gli scenari passano, il codice è validato dagli scenari.
- Pitfall: Specifiche insufficienti
Quando l'agente produce codice scadente, il problema è di solito nella specifica. Ricalibra (ri-specifica, ri-contestualizza) prima di debuggare l'artefatto. Itera sulla specifica, non sul codice.
- Pitfall: Isolamento
Un Lab che non condivide i suoi apprendimenti è un hobby, non un Lab.
- Pitfall: Progetti troppo critici troppo presto
Il Lab ha alta tolleranza al rischio. Non inserire un progetto il cui fallimento mette in pericolo un cliente o un contratto.
- Pitfall: Perfezionismo dell'agente
L'obiettivo non è un agente perfetto. È un agente che produce valore. Itera.
- Pitfall: Brownfield senza estrazione della specifica
Trasferire un progetto esistente senza prima estrarre la specifica implicita e scrivere scenari che proteggano il comportamento corrente è volare senza rete. L'estrazione è il lavoro più difficile – non sottovalutarla.
- Pitfall: Brownfield "mezzo-Lab"
Se parte del lavoro su un progetto brownfield viene fatto in modalità tradizionale "perché è più veloce per quella parte", il progetto non è nel Lab. Le regole sono assolute, anche quando è scomodo.
- Pitfall: Il muro dei sei mesi
I progetti guidati dall'IA senza un forte coinvolgimento umano (specifiche, scenari, architettura) accumulano debito strutturale che esplode dopo circa sei mesi. Il codice generato dall'IA senza vincoli chiari è spesso meno strutturato e meno manutenibile. Gli scenari e le specifiche del Lab sono precisamente la difesa contro questo muro – impongono un rigore a monte che impedisce al debito di accumularsi silenziosamente.
- Pitfall: Trattare un collo di bottiglia dell'IA come un problema di produttività
Quando l'agente non riesce a spedire, quasi mai è un problema di capacità (l'agente ha capacità quasi infinita). Quasi sempre è un problema di specifica o contesto. Ridistribuire il lavoro agli umani sostituisce la causa principale sbagliata e viola le regole del Lab. La risposta giusta è la ricalibrazione (vedi § 5).
Ciclo di vita
Il Lab inizia con progetti greenfield e comincia a trasferire 1-2 progetti brownfield selezionati. Team piccolo. Regole assolute in vigore. Output = progetti consegnati + pratiche documentate + agenti funzionanti + playbook di transizione brownfield.
I progetti brownfield trasferiti nel Lab diventano i casi di riferimento per il resto dell'ingegneria. Gli ingegneri che hanno attraversato il Lab diventano i partner di abbinamento per chi non l'ha fatto. Più progetti brownfield entrano nel Lab.
Il Lab ha assorbito l'ingegneria. La distinzione scompare. Tutto è Grado 5. Il Lab non è mai stato una destinazione – era il veicolo di transizione. Sia i progetti greenfield CHE quelli brownfield operano sotto le stesse regole.
Questo ciclo di vita è allineato con il percorso di trasformazione organizzativo: la Fase 1 corrisponde alla transizione Level 2→3 (6-12 mesi alla scala organizzativa).
Regola riassuntiva
Perché sto facendo questo? Dovrebbe farlo il modello al posto mio.
← Torna alla home · Il quadro di riferimento · Standard di esecuzione IA · Glossario
