Improvement Loop

One-shot prompt é tabu — sistemas de IA em produção melhoram em loop: eval mostra regressão, diff mostra o quê mudar, ship valida. Esta trilha trata melhoria contínua como disciplina, não como tarefa de “limpar o prompt quando der tempo”. Senta em cima de duas outras trilhas: Evaluation entrega o sinal (eval score, golden set, judge), Observability entrega o detalhe (trace, custo, latência, versão); o Improvement Loop é o ciclo que fecha entre as duas, traduzindo sinal e detalhe em mudanças versionadas, testadas e promovidas.

Pré-requisitos

Evaluation e Observability são pré-requisitos efetivos. Sem eval você não sabe se a mudança melhorou; sem observability você não sabe o que mudar. Esta trilha assume que ambos estão no lugar (mesmo que em estado seedling).

Onde esta trilha mora no stack

A Improvement Layer do stack referencia esta trilha como aprofundamento. O stack define o conceito (loop fechado, cadência, ownership); esta trilha cobre a mecânica (eval gate, A/B, semver, champion-challenger, auto-prompt).

Comece por aqui

Trilha sequencial recomendada — ciclo → mecânica → automação → sinais → CI.

Bloco 1 — O ciclo (1 nota)

A forma canônica do loop e a maturidade que ele representa.

Bloco 2 — Mecânica (3 notas)

Os três artefatos operacionais do loop: o experimento, a versão, a promoção.

Bloco 3 — Automação (1 nota)

Quando a otimização do prompt deixa de ser artesanato.

Bloco 4 — Sinais (1 nota)

Onde vem o sinal humano que alimenta o loop.

Bloco 5 — CI (1 nota)

Como o loop atravessa o pipeline de entrega.

Rotas alternativas

Rota mínima (preciso resolver hoje)

“Mudei prompt, preciso saber se melhorou — sem eval gate ainda”

01 - O ciclo eval → diff → ship02 - A-B testing de prompts03 - Prompt versioning — semver para prompts

Rota produção (já tenho eval, falta ciclo)

“Tenho eval rodando, prompt versionado, mas mudança vai pra prod no susto”

04 - Champion-challenger em produção07 - Eval gates em CI — quando bloquear merge06 - Capturando feedback do usuário como sinal

Rota automação (já tenho loop manual)

“Loop manual funciona mas quero escalar otimização do prompt”

05 - Auto-prompt optimization — DSPy e além02 - A-B testing de prompts04 - Champion-challenger em produção

Leituras recomendadas

FonteTipoCobertura
@hooeemBecome an AI Engineer, cap. #11 (Improvement) e #18 Step 11Thread/EnsaioTrilha inteira; vocabulário do “improvement layer”
Hamel HusainYour AI Product Needs EvalsEnsaioNotas 01, 06, 07; eval como sinal contínuo
Khattab et al.DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines (arxiv:2310.03714)PaperNota 05; fundamento do auto-prompt declarativo
Zhou et al.Large Language Models Are Human-Level Prompt Engineers (APE, arxiv:2211.01910)PaperNota 05
Yang et al.Large Language Models as Optimizers (OPRO, arxiv:2309.03409)PaperNota 05
OpenAIEvals cookbookCookbookNotas 01, 07
Statsig / GrowthBook / Eppo — docs de experimentaçãoDocumentaçãoNota 02; A/B framework

Veja também

Todas as notas

LIST
FROM "03-Dominios/IA/Improvement Loop"
WHERE type != "moc"
SORT file.name ASC