Evaluation

Sem evals, desenvolvimento com LLM vira vibes: qualquer sistema com LLM em produção que não tenha eval-driven development está iterando no escuro. Karpathy chama isso de “vibe coding”; Hamel Husain, em Your AI Product Needs Evals, argumenta que sem evals você tem demo, não produto; Eugene Yan vai mais longe — “evals are all you need” — e defende que evals são a vantagem competitiva real, mais ainda que o prompt em si. Esta trilha é a casa mestre de eval no Codex: trata evaluation como uma disciplina contínua (não como teste de aceite no fim do projeto), e cobre desde a mentalidade (EDD — eval-driven development) até a operação em CI/CD e a especialização por tipo de sistema avaliado.

Pré-requisitos

Anatomia dos LLMs é suficiente. Familiaridade com AI Engineering Stack ajuda a entender onde a Evaluation Layer se encaixa, mas não é obrigatória.

Esta trilha é a disciplina; as notas contextuais ficam nas anatomias

Já existem três notas de eval no Codex, cada uma cobrindo eval dentro de um contexto específico:

17 - Evaluation de LLMs em produção — eval de LLM puro em produção (4 pilares: golden set, LLM-as-judge, observabilidade, A/B test)

09 - Evaluation de agents — eval de sistemas agentic (task completion rate, trace review, error types)

09 - Evaluation de RAG — métricas canônicas Ragas (context precision/recall, faithfulness, answer relevance)

Esta trilha não duplica o conteúdo delas. É o tronco que define eval como disciplina; aquelas três são os galhos contextuais. A nota 08 - Eval por contexto — LLM, RAG, agent, prompt fecha a ponte e linka pra cada uma.

Comece por aqui

Trilha sequencial recomendada — mentalidade → construção do dataset/rubrica → operação contínua → especialização.

Bloco 1 — Mentalidade (1 nota)

A virada de chave conceitual que precede qualquer ferramenta.

01 - Eval-driven development — a disciplina — o shift de “rodei 3 vezes e parece bom” pra medição sistemática; analogia com TDD; quando EDD aplica vs. quando é overkill

Bloco 2 — Construção (3 notas)

Os três artefatos que viabilizam eval automatizado: o dataset, a rubrica e o juiz.

02 - Golden datasets — como construir — pares input-output canônicos, representatividade, edge cases, anti-tests, versionamento
03 - Scoring rubrics e critérios — design de rubrica, escalas (Likert, binário, multi-dim), inter-rater agreement, anchored scales com exemplos
04 - LLM-as-judge — quando e como — quando funciona, vieses (posicional, verbosidade, self-preference), técnicas de mitigação

Bloco 3 — Operação (3 notas)

A passagem do laboratório pro pipeline contínuo — onde eval vira parte do ciclo de vida do produto.

05 - Regression testing em LLMs — snapshot diff, semantic vs string diff, quando rebless do snapshot, categorias de teste
06 - Frameworks 2026 — Promptfoo, Braintrust, Langfuse, Patronus, Phoenix — comparação dos cinco frameworks dominantes em 2026, decision tree, self-hosted vs SaaS
07 - Eval em CI-CD — eval gates em PR, estratégias de sampling, quarentena de evals flaky, workflow GitHub Actions

Bloco 4 — Especialização (1 nota)

Como eval muda quando o sistema avaliado é mais que um prompt isolado.

08 - Eval por contexto — LLM, RAG, agent, prompt — eval de prompt, de RAG, de agent e de LLM base; ponte com as três notas contextuais existentes

Rotas alternativas

Rota mínima (preciso resolver hoje)

“Tenho prompt em produção sem eval — me dê o caminho mais curto”

01 - Eval-driven development — a disciplina → 02 - Golden datasets — como construir → 03 - Scoring rubrics e critérios → 07 - Eval em CI-CD

Rota framework-first (já sei a teoria)

“Quero comparar Promptfoo, Braintrust, Langfuse — qual escolher?”

06 - Frameworks 2026 — Promptfoo, Braintrust, Langfuse, Patronus, Phoenix → 07 - Eval em CI-CD → 05 - Regression testing em LLMs

Rota LLM-as-judge (quero escalar eval subjetivo)

“Humano não revisa 1000 outputs por iteração — preciso de judge automático”

03 - Scoring rubrics e critérios → 04 - LLM-as-judge — quando e como → 02 - Golden datasets — como construir → 06 - Frameworks 2026 — Promptfoo, Braintrust, Langfuse, Patronus, Phoenix

Rota por tipo de sistema

“Estou avaliando agent / RAG / prompt simples — qual o caminho?”

08 - Eval por contexto — LLM, RAG, agent, prompt → nota contextual correspondente (Anatomia de Agents/09, RAG/09 ou Anatomia dos LLMs/17) → volta pra 02 - Golden datasets — como construir e 03 - Scoring rubrics e critérios

Leituras recomendadas

Fonte	Tipo	Cobertura
Hamel Husain — Your AI Product Needs Evals	Ensaio	Trilha inteira; manifesto canônico de EDD
Eugene Yan — Evals are all you need	Ensaio	Notas 01, 03; argumento por evals como vantagem competitiva
Chip Huyen — AI Engineering (2025), capítulo sobre evaluation	Livro	Trilha inteira; visão sistemática
OpenAI — OpenAI Evals (github)	Framework + docs	Notas 02, 03, 06
Anthropic — Eval cookbook	Cookbook	Notas 03, 04
Liu et al. — G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment (arxiv:2303.16634)	Paper	Nota 04
Zheng et al. — Judging LLM-as-a-Judge (arxiv:2306.05685)	Paper	Nota 04; vieses do judge
EleutherAI — lm-evaluation-harness	Framework	Nota 08; benchmarks acadêmicos

Veja também

AI Engineering Stack — onde a Evaluation Layer se encaixa no stack
09 - Evaluation Layer — a camada que aponta pra esta trilha como aprofundamento
09 - Evaluation de agents — eval contextual de sistemas agentic
17 - Evaluation de LLMs em produção — eval contextual de LLM puro em prod
09 - Evaluation de RAG — eval contextual de pipelines RAG
Improvement Loop — o ciclo de melhoria contínua onde evals entregam o sinal (em construção)
Segurança e Guardrails — guardrails são automatic_failure_conditions da rubrica
Prompt Engineering — evals dizem se o prompt melhorou ou piorou

Todas as notas

LIST
FROM "03-Dominios/IA/Evaluation"
WHERE type != "moc"
SORT file.name ASC

Codex Technomanticus

Explorador

Evaluation

Evaluation

Comece por aqui

Bloco 1 — Mentalidade (1 nota)

Bloco 2 — Construção (3 notas)

Bloco 3 — Operação (3 notas)

Bloco 4 — Especialização (1 nota)

Rotas alternativas

Rota mínima (preciso resolver hoje)

Rota framework-first (já sei a teoria)

Rota LLM-as-judge (quero escalar eval subjetivo)

Rota por tipo de sistema

Leituras recomendadas

Veja também

Todas as notas

01 - Eval-driven development — a disciplina

02 - Golden datasets — como construir

03 - Scoring rubrics e critérios

04 - LLM-as-judge — quando e como

05 - Regression testing em LLMs

06 - Frameworks 2026 — Promptfoo, Braintrust, Langfuse, Patronus, Phoenix

07 - Eval em CI-CD

08 - Eval por contexto — LLM, RAG, agent, prompt