Evaluation

Sem evals, desenvolvimento com LLM vira vibes: qualquer sistema com LLM em produção que não tenha eval-driven development está iterando no escuro. Karpathy chama isso de “vibe coding”; Hamel Husain, em Your AI Product Needs Evals, argumenta que sem evals você tem demo, não produto; Eugene Yan vai mais longe — “evals are all you need” — e defende que evals são a vantagem competitiva real, mais ainda que o prompt em si. Esta trilha é a casa mestre de eval no Codex: trata evaluation como uma disciplina contínua (não como teste de aceite no fim do projeto), e cobre desde a mentalidade (EDD — eval-driven development) até a operação em CI/CD e a especialização por tipo de sistema avaliado.

Pré-requisitos

Anatomia dos LLMs é suficiente. Familiaridade com AI Engineering Stack ajuda a entender onde a Evaluation Layer se encaixa, mas não é obrigatória.

Esta trilha é a disciplina; as notas contextuais ficam nas anatomias

Já existem três notas de eval no Codex, cada uma cobrindo eval dentro de um contexto específico:

Esta trilha não duplica o conteúdo delas. É o tronco que define eval como disciplina; aquelas três são os galhos contextuais. A nota 08 - Eval por contexto — LLM, RAG, agent, prompt fecha a ponte e linka pra cada uma.

Comece por aqui

Trilha sequencial recomendada — mentalidade → construção do dataset/rubrica → operação contínua → especialização.

Bloco 1 — Mentalidade (1 nota)

A virada de chave conceitual que precede qualquer ferramenta.

Bloco 2 — Construção (3 notas)

Os três artefatos que viabilizam eval automatizado: o dataset, a rubrica e o juiz.

Bloco 3 — Operação (3 notas)

A passagem do laboratório pro pipeline contínuo — onde eval vira parte do ciclo de vida do produto.

Bloco 4 — Especialização (1 nota)

Como eval muda quando o sistema avaliado é mais que um prompt isolado.

Rotas alternativas

Rota mínima (preciso resolver hoje)

“Tenho prompt em produção sem eval — me dê o caminho mais curto”

01 - Eval-driven development — a disciplina02 - Golden datasets — como construir03 - Scoring rubrics e critérios07 - Eval em CI-CD

Rota framework-first (já sei a teoria)

“Quero comparar Promptfoo, Braintrust, Langfuse — qual escolher?”

06 - Frameworks 2026 — Promptfoo, Braintrust, Langfuse, Patronus, Phoenix07 - Eval em CI-CD05 - Regression testing em LLMs

Rota LLM-as-judge (quero escalar eval subjetivo)

“Humano não revisa 1000 outputs por iteração — preciso de judge automático”

03 - Scoring rubrics e critérios04 - LLM-as-judge — quando e como02 - Golden datasets — como construir06 - Frameworks 2026 — Promptfoo, Braintrust, Langfuse, Patronus, Phoenix

Rota por tipo de sistema

“Estou avaliando agent / RAG / prompt simples — qual o caminho?”

08 - Eval por contexto — LLM, RAG, agent, prompt → nota contextual correspondente (Anatomia de Agents/09, RAG/09 ou Anatomia dos LLMs/17) → volta pra 02 - Golden datasets — como construir e 03 - Scoring rubrics e critérios

Leituras recomendadas

FonteTipoCobertura
Hamel HusainYour AI Product Needs EvalsEnsaioTrilha inteira; manifesto canônico de EDD
Eugene YanEvals are all you needEnsaioNotas 01, 03; argumento por evals como vantagem competitiva
Chip HuyenAI Engineering (2025), capítulo sobre evaluationLivroTrilha inteira; visão sistemática
OpenAIOpenAI Evals (github)Framework + docsNotas 02, 03, 06
AnthropicEval cookbookCookbookNotas 03, 04
Liu et al.G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment (arxiv:2303.16634)PaperNota 04
Zheng et al.Judging LLM-as-a-Judge (arxiv:2306.05685)PaperNota 04; vieses do judge
EleutherAIlm-evaluation-harnessFrameworkNota 08; benchmarks acadêmicos

Veja também

Todas as notas

LIST
FROM "03-Dominios/IA/Evaluation"
WHERE type != "moc"
SORT file.name ASC