Improvement Loop
One-shot prompt é tabu — sistemas de IA em produção melhoram em loop: eval mostra regressão, diff mostra o quê mudar, ship valida. Esta trilha trata melhoria contínua como disciplina, não como tarefa de “limpar o prompt quando der tempo”. Senta em cima de duas outras trilhas: Evaluation entrega o sinal (eval score, golden set, judge), Observability entrega o detalhe (trace, custo, latência, versão); o Improvement Loop é o ciclo que fecha entre as duas, traduzindo sinal e detalhe em mudanças versionadas, testadas e promovidas.
Pré-requisitos
Evaluation e Observability são pré-requisitos efetivos. Sem eval você não sabe se a mudança melhorou; sem observability você não sabe o que mudar. Esta trilha assume que ambos estão no lugar (mesmo que em estado seedling).
Onde esta trilha mora no stack
A Improvement Layer do stack referencia esta trilha como aprofundamento. O stack define o conceito (loop fechado, cadência, ownership); esta trilha cobre a mecânica (eval gate, A/B, semver, champion-challenger, auto-prompt).
Comece por aqui
Trilha sequencial recomendada — ciclo → mecânica → automação → sinais → CI.
Bloco 1 — O ciclo (1 nota)
A forma canônica do loop e a maturidade que ele representa.
- 01 - O ciclo eval → diff → ship — observability surface → eval mede → hipótese → A/B → champion-challenger → ship; maturidade ladder; posição no stack
Bloco 2 — Mecânica (3 notas)
Os três artefatos operacionais do loop: o experimento, a versão, a promoção.
- 02 - A-B testing de prompts — control vs treatment; sample size; frequentista vs bayesiano pra LLM; peeking como anti-padrão
- 03 - Prompt versioning — semver para prompts — quando bumpar (e que cada bump dispara); ponte com 05 que cobre o como
- 04 - Champion-challenger em produção — traffic split, métricas-gate, promoção/rollback automáticos, anti-pattern do challenger eterno
Bloco 3 — Automação (1 nota)
Quando a otimização do prompt deixa de ser artesanato.
- 05 - Auto-prompt optimization — DSPy e além — DSPy (Signatures, Modules, Compilers); APE, OPRO, promptbreeder; quando auto-prompt vence vs quando ajuste manual vence
Bloco 4 — Sinais (1 nota)
Onde vem o sinal humano que alimenta o loop.
- 06 - Capturando feedback do usuário como sinal — explícito vs implícito; weighting; confounders (confirmation bias, popularity ≠ qualidade); quando feedback bate de frente com eval
Bloco 5 — CI (1 nota)
Como o loop atravessa o pipeline de entrega.
- 07 - Eval gates em CI — quando bloquear merge — threshold por categoria; sampling barato em PR + full em main; quarentena de flaky; ponte com 07 que cobre o pipeline mais amplo
Rotas alternativas
Rota mínima (preciso resolver hoje)
“Mudei prompt, preciso saber se melhorou — sem eval gate ainda”
01 - O ciclo eval → diff → ship → 02 - A-B testing de prompts → 03 - Prompt versioning — semver para prompts
Rota produção (já tenho eval, falta ciclo)
“Tenho eval rodando, prompt versionado, mas mudança vai pra prod no susto”
04 - Champion-challenger em produção → 07 - Eval gates em CI — quando bloquear merge → 06 - Capturando feedback do usuário como sinal
Rota automação (já tenho loop manual)
“Loop manual funciona mas quero escalar otimização do prompt”
05 - Auto-prompt optimization — DSPy e além → 02 - A-B testing de prompts → 04 - Champion-challenger em produção
Leituras recomendadas
| Fonte | Tipo | Cobertura |
|---|---|---|
| @hooeem — Become an AI Engineer, cap. #11 (Improvement) e #18 Step 11 | Thread/Ensaio | Trilha inteira; vocabulário do “improvement layer” |
| Hamel Husain — Your AI Product Needs Evals | Ensaio | Notas 01, 06, 07; eval como sinal contínuo |
| Khattab et al. — DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines (arxiv:2310.03714) | Paper | Nota 05; fundamento do auto-prompt declarativo |
| Zhou et al. — Large Language Models Are Human-Level Prompt Engineers (APE, arxiv:2211.01910) | Paper | Nota 05 |
| Yang et al. — Large Language Models as Optimizers (OPRO, arxiv:2309.03409) | Paper | Nota 05 |
| OpenAI — Evals cookbook | Cookbook | Notas 01, 07 |
| Statsig / GrowthBook / Eppo — docs de experimentação | Documentação | Nota 02; A/B framework |
Veja também
- AI Engineering Stack — onde a Improvement Layer se encaixa
- 12 - Improvement Layer — a camada conceitual que esta trilha aprofunda
- Evaluation — pré-requisito; entrega o sinal pro loop
- Observability — pré-requisito; entrega o detalhe pro loop
- Prompt Engineering — onde os prompts nascem antes de virarem objeto de melhoria
- Structured Outputs — schema estável é pré-condição pra A/B comparável
Todas as notas
LIST
FROM "03-Dominios/IA/Improvement Loop"
WHERE type != "moc"
SORT file.name ASC