Improvement Layer

TL;DR

A Improvement Layer transforma o sistema de IA de one-off em sistema vivo. Depois de cada uso (ou cada batch), ela pergunta: o que funcionou, o que falhou, o que mudar na próxima. Lê os logs (11 - Logging Layer) e os scores (09 - Evaluation Layer), identifica padrões, e retroalimenta Purpose, Prompt e Context. Sem essa camada o sistema estagna; com ela, vira composta: melhora exponencialmente porque cada erro vira regra nova, cada acerto vira referência.

O que é esta camada

A Improvement Layer é o loop fechado do stack. Fecha o ciclo: o sistema age, registra, mede, aprende, ajusta. É a camada que separa “agente de IA implementado” de “sistema de IA operado”.

Template mínimo (adaptado do thread @hooeem):

review_cadence: <após cada run | batch diário | semanal>
questions_per_review:
  - O que funcionou (preservar)?
  - O que falhou (corrigir)?
  - O que mudar antes da próxima rodada?
artifacts:
  - prompt_version_bumps: <changelog do system prompt>
  - new_failure_modes: <adicionados ao Context Layer>
  - eval_dataset_additions: <novos casos no dataset>
  - new_guardrails: <novos checks>
ownership: <quem revisa, quem decide a mudança>

A regra do thread @hooeem: “After each use, ask what worked, what failed, what to change next time.” A formulação parece simples mas é a única coisa que separa sistema que melhora de sistema que estagna.

Decisões-chave

  1. Cadência. Review a cada run dá sinal denso mas custa atenção humana. Review batch (diário ou semanal) é mais eficiente mas atrasa correção. Cadência híbrida: por-run pra incidentes graves, semanal pra padrões.

  2. Quem revisa. Reviewer humano dá juízo mas não escala. LLM-as-judge escala mas exige calibração. Padrão maduro: humano define critério, LLM aplica em volume, humano audita amostra.

  3. O que vira artefato. Insights só viram melhoria quando viram algo versionado: prompt diff, novo caso no dataset, novo guardrail. Insight que fica em ata morre.

  4. Versionamento do prompt. Cada mudança tem versão, motivo, datas, eval scores antes/depois. Permite rollback e A/B test. Sem versionamento, melhoria vira aposta.

  5. Drift detection. Sistema que era bom mês passado pode degradar (modelo novo no provider, fontes mudaram, distribution shift de input). Improvement Layer deveria flagar drift via eval contínua.

Onde aprofundar no Codex

Veja também

Fontes