Improvement Layer

TL;DR

A Improvement Layer transforma o sistema de IA de one-off em sistema vivo. Depois de cada uso (ou cada batch), ela pergunta: o que funcionou, o que falhou, o que mudar na próxima. Lê os logs (11 - Logging Layer) e os scores (09 - Evaluation Layer), identifica padrões, e retroalimenta Purpose, Prompt e Context. Sem essa camada o sistema estagna; com ela, vira composta: melhora exponencialmente porque cada erro vira regra nova, cada acerto vira referência.

O que é esta camada

A Improvement Layer é o loop fechado do stack. Fecha o ciclo: o sistema age, registra, mede, aprende, ajusta. É a camada que separa “agente de IA implementado” de “sistema de IA operado”.

Template mínimo (adaptado do thread @hooeem):

review_cadence: <após cada run | batch diário | semanal>
questions_per_review:
  - O que funcionou (preservar)?
  - O que falhou (corrigir)?
  - O que mudar antes da próxima rodada?
artifacts:
  - prompt_version_bumps: <changelog do system prompt>
  - new_failure_modes: <adicionados ao Context Layer>
  - eval_dataset_additions: <novos casos no dataset>
  - new_guardrails: <novos checks>
ownership: <quem revisa, quem decide a mudança>

A regra do thread @hooeem: “After each use, ask what worked, what failed, what to change next time.” A formulação parece simples mas é a única coisa que separa sistema que melhora de sistema que estagna.

Decisões-chave

Cadência. Review a cada run dá sinal denso mas custa atenção humana. Review batch (diário ou semanal) é mais eficiente mas atrasa correção. Cadência híbrida: por-run pra incidentes graves, semanal pra padrões.
Quem revisa. Reviewer humano dá juízo mas não escala. LLM-as-judge escala mas exige calibração. Padrão maduro: humano define critério, LLM aplica em volume, humano audita amostra.
O que vira artefato. Insights só viram melhoria quando viram algo versionado: prompt diff, novo caso no dataset, novo guardrail. Insight que fica em ata morre.
Versionamento do prompt. Cada mudança tem versão, motivo, datas, eval scores antes/depois. Permite rollback e A/B test. Sem versionamento, melhoria vira aposta.
Drift detection. Sistema que era bom mês passado pode degradar (modelo novo no provider, fontes mudaram, distribution shift de input). Improvement Layer deveria flagar drift via eval contínua.

Onde aprofundar no Codex

Improvement Loop — trilha-irmã dedicada (em construção).
Evaluation de agents — eval contínua como entrada do improvement.
Métricas de qualidade AI — métricas operacionais.

Veja também

09 - Evaluation Layer — fonte de sinal pra improvement
11 - Logging Layer — fonte de detalhe pra improvement
02 - Purpose Layer — o que o sistema é — improvement pode redefinir purpose se realidade exigir

Fontes

@hooeem — Become an AI Engineer, chapter #18, Step 11 (Improvement layer template).
Hamel Husain — Your AI product needs evals. Eval contínua como loop de improvement.
Anthropic — Iterative prompt engineering. Prática de versionamento.

Codex Technomanticus

Explorador

Improvement Layer

Improvement Layer

O que é esta camada

Decisões-chave

Onde aprofundar no Codex

Veja também

Fontes

Visão de gráfico

Sumário

Backlinks