AI-Native Transformation Framework

DevOps Engineer

Você não conduz mais os deploys. Você desenha os sistemas que tornam deploys seguros automáticos, observáveis e recuperáveis. Infraestrutura vira especificação, e os agentes também precisam de infraestrutura, porque agora eles entregam código.


Família
Engenharia
Função legada equivalente
DevOps Engineer, Site Reliability Engineer (SRE), Platform Engineer, Infrastructure Engineer
Reporta a
Director of Engineering, Director of Infrastructure, VP de Engenharia ou CTO

O trabalho

Você responde pelo runtime: deploy, observabilidade, escala, confiabilidade, segurança no nível de plataforma. Numa organização nativa em IA você também responde por um substrato novo: a infraestrutura que os agentes usam para fazer seu trabalho, e é seu compromisso mantê-la segura, rápida e recuperável.

No dia a dia, você:

  • Especifica padrões de deploy. Rollouts canary, feature flags, traffic shaping, gatilhos de rollback. O agente implementa; você desenha a política.
  • Desenha observabilidade antes do trabalho ser feito. Telemetria, dashboards, alertas, error budgets fazem parte da spec de cada feature, não são retrofit pós-incidente.
  • Responde pelo substrato de runtime dos agentes. Onde os agentes rodam, que credenciais carregam, no que podem tocar, no que não podem. A plataforma usada pelos agentes para entregar código é, agora, um sistema de produção em si.
  • Desenha gates de deploy graduados por risco. Mudanças reversíveis fluem pela revisão somente-agente; as irreversíveis (schema, secrets, infraestrutura de billing) exigem aprovação humana. Você define as regras e as ajusta.
  • Investiga incidentes. Menos sobre ler logs linha a linha, mais sobre perguntar: que hipótese no fluxo ou na spec produziu essa falha? O conserto, em geral, vive upstream.
  • Mantém a pipeline de deploy. CI/CD, infraestrutura de build, gestão de ambientes; mas você escreve menos manualmente e revisa mais infrastructure-as-code produzido pelo agente.
  • Conduz planejamento de capacidade e custo. Compute, tokens, storage de observabilidade. Organizações nativas em IA têm um perfil de custo diferente; você responde pela visibilidade dele.
  • Faz coaching com engenheiros em disciplina de produção. O que precisa de telemetria, o que precisa de flags, o que precisa de runbooks. O agente produz; o engenheiro especifica; você define o padrão.

Como é o sucesso

Resultados concretos neste nível:

  • Cadência de deploy. Deploys acontecem várias vezes por dia, com segurança. O tempo médio entre incidentes é alto e em alta.
  • Velocidade de recuperação. O tempo médio de recuperação é curto e em queda. Incidentes se resolvem por padrões documentados, não por heroísmos.
  • Disciplina de custo. Custo de compute por feature entregue é acompanhado. Gasto de tokens é visível por fluxo. Custo por resultado melhora.
  • Cobertura de observabilidade. Cada sistema em produção tem telemetria, error budgets e um caminho de alerta acionado. Você não descobre features em produção por surpresa.
  • Saúde do runtime dos agentes. Os agentes têm acesso confiável aos serviços de que precisam, com credenciais auditadas e rate limiting que previne tanto falha quanto abuso.

O que não conta como sucesso: número de tickets fechados, projetos de infraestrutura lançados, dashboards construídos que ninguém olha.


O que torna esse trabalho interessante

A parte interessante não é operar a infraestrutura. É desenhar sistemas que lidam com incerteza com elegância, e agora há mais incerteza para lidar do que nunca.

O runtime de agentes é território genuinamente novo. Organizações nativas em IA precisam de infraestrutura que humanos não construíram antes: credenciais de agente, rate limiting de agente, entrega de contexto para agente, observabilidade de agente. Você desenha os padrões que o resto da indústria vai copiar.

Engenharia de confiabilidade importa mais, não menos. Quando agentes entregam muitas vezes mais código do que humanos entregavam, a consequência de um deploy ruim escala com o throughput. A disciplina de canaries, rollbacks e rollout incremental vira load-bearing num jeito que não era antes.

Você investiga falhas fascinantes. Um agente entregou código que passou em todos os testes, falhou em produção, foi revertido em minutos, e você pergunta por que a suíte de testes deixou passar. A resposta raramente é simples. O trabalho diagnóstico é satisfatório.

Engenharia de custo fica interessante. Gasto de tokens por resultado, gasto de compute por feature, custo de observabilidade por sinal. O problema de otimização é novo e as alavancas são pouco óbvias. Pessoas que gostavam de modelagem de custo pré-IA encontram uma versão mais rica aqui.

Você fica entre engenharia e confiança. Segurança, governança, compliance: tudo precisa de infraestrutura para ser cumprido. Você desenha a aplicação dessas regras, e a confiança que a organização ganha externamente depende do que você constrói.

Seu trabalho compõe. Um bom padrão de deploy é usado por todo agente e todo engenheiro da empresa. Um bom padrão de observabilidade é aplicado em cada feature. A alavancagem é real.

O que pode não agradar. Menos configuração hands-on; mais especificação e revisão. Menos incidentes de madrugada (se você está fazendo bem o seu trabalho): para alguns engenheiros de DevOps, a adrenalina de incidente fazia parte do encanto. Se você vai sentir falta disso, o novo papel vai parecer mais quieto. Você também responde por sistemas cujos modos de falha não consegue prever totalmente (os agentes), o que pode ser desconfortável para engenheiros que gostavam de infraestrutura determinística.


Quem prospera nesse papel

As aptidões que mais importam no T3 são pensamento de sistemas e leitura de modos de falha, diferentes das forças de execução pura.

Você pensa em modos de falha. Para cada sistema que encontra, você pergunta: "como isso falha, e como essa falha aparece para o usuário?". A disciplina é operacional, não paranoica.

Você se sente confortável com sistemas probabilísticos. Agentes não são determinísticos. A infraestrutura que os apoia precisa acomodar isso. Engenheiros que precisam que cada sistema seja previsível de ponta a ponta têm dificuldade; engenheiros que trabalham com garantias estatísticas prosperam.

Você sustenta contradições sem achatá-las. Velocidade vs. segurança. Cobertura vs. custo. Autonomia vs. supervisão. Boas decisões de infraestrutura navegam essas tensões; não as colapsam.

Você escreve com clareza sob pressão. Incidentes são quando documentação mais importa e quando ninguém tem tempo de escrever. Pessoas que conseguem escrever um post-mortem claro no dia seguinte produzem os artefatos que compõem.

Você se importa com observabilidade tanto quanto com funcionalidade. Uma feature sem telemetria é uma feature que você não consegue operar. Engenheiros que tratam observabilidade como opcional não constroem sistemas de produção.

Você colabora com especialistas adjacentes. Segurança, compliance, finanças, engenharia de aplicação: o trabalho de DevOps toca todos eles. Engenheiros que traduzem por essas fronteiras são aqueles cujo trabalho se propaga.

Menos essencial do que antes: memorizar configurações de ferramentas, escrever infrastructure-as-code à mão, conhecimento profundo das peculiaridades de um cloud específico. Os agentes cuidam disso. Seu valor está em desenho e julgamento, não em recall de configuração.


Habilidades para desenvolver

As aptidões descrevem disposição. As habilidades abaixo são o que você constrói ativamente.

Desenho de padrão de deploy. Especificar canaries, rollbacks, feature flags, traffic shaping como política, não como configuração ad hoc. Como praticar: para a próxima feature que o time vai entregar, escreva a spec de deploy antes de qualquer código. Qual é o critério do canary? O que dispara rollback automático? Qual é o override manual?

Especificação de observabilidade. Definir o que é medido, o que dispara alerta e qual é a resposta esperada, antes da feature existir. Como praticar: para cada feature em que você toca, pergunte "qual é a métrica que diz que isso está quebrado?". Se a resposta for "vamos saber pelas reclamações de usuário", a spec não está pronta.

Análise de causa raiz de incidente no nível do fluxo. Diagnosticar se uma falha está no código, no deploy, no fluxo, na spec ou no contexto do agente. Como praticar: conduza um post-mortem estruturado depois de cada incidente. Force-se a nomear a hipótese que quebrou. Se você não consegue, a análise não está pronta.

Engenharia de runtime de agente. Desenhar o substrato em que agentes rodam: credenciais, rate limits, entrega de contexto, observabilidade das ações do agente. Como praticar: escolha um fluxo de agente na sua organização e documente o runtime do qual depende. Identifique os modos de falha. Desenhe os controles.

Engenharia de gates graduados por risco. Distinguir operações reversíveis das irreversíveis e atribuir validação adequada. Como praticar: para cada tipo de operação que sua plataforma suporta, classifique numa faixa de risco. Justifique cada uma. Discuta com alguém que discorda.

Engenharia de custo. Ler gasto de tokens, custo de compute e custo de observabilidade como dado de engenharia de primeira classe. Como praticar: construa um dashboard de custo para um fluxo. Caça aos maiores itens. Otimize um deles. Documente o padrão.

Tradução entre áreas. Escrever runbooks e políticas que funcionam ao mesmo tempo para engenheiros, finanças, jurídico e segurança. Como praticar: rascunhe uma política de deploy. Mostre a uma pessoa de cada uma dessas áreas. Onde elas se confundirem é onde o documento precisa ser reescrito.

Escolha uma habilidade. Pratique-a por duas semanas em sistemas reais. O efeito composto começa imediatamente.


Como isso difere do papel histórico de DevOps

DevOps / SRE histórico (pré-IA)DevOps Engineer (nativo em IA)
Escreve infrastructure-as-code à mãoEspecifica política de infraestrutura; agente implementa a configuração
Passa tempo considerável em drift de configuração e manutenção de toolchainPassa mais tempo em desenho, menos em configuração
Responde pela pipeline de deploy humanaResponde pelas pipelines de deploy humana e dos agentes
Resposta a incidente é apagar incêndios reativoResposta a incidente inclui causa raiz estruturada no nível do fluxo
Observabilidade é parafusada depois que features são entreguesObservabilidade é especificada antes das features serem entregues
Engenharia de custo é só computeEngenharia de custo inclui compute, tokens, observabilidade e resultados
Os melhores engenheiros conhecem mais ferramentasOs melhores engenheiros desenham as políticas mais claras

O papel não é um SRE rebatizado. Ele absorve nova responsabilidade (runtime de agente, custo por resultado) que não existia na versão histórica.


Quais padrões de evolução de papéis estão em jogo

  • Elevação (primário). De configuração hands-on para desenho de política e validação. O valor migra do conhecimento de ferramentas para o julgamento de sistema.
  • Emergência (secundário). Engenharia de runtime de agente, tracking de custo por resultado e observabilidade de agente são responsabilidades genuinamente novas criadas pelo modelo operacional nativo em IA.
  • Convergência (parcial). As fronteiras com segurança, platform engineering e finanças se diluem à medida que a infraestrutura vira a camada de aplicação de muitas políticas entre áreas.

Especialização e Absorção não se aplicam de forma relevante: o papel expande em escopo em vez de se estreitar, e adiciona novas responsabilidades em vez de desaparecer.


Papéis relacionados no catálogo


Fontes e leituras adicionais


← Voltar para Papéis · Padrões de evolução de papéis · Estrutura de referência · Engenharia para confiabilidade · Padrões de execução de IA