Evaluation Layer

TL;DR

A Evaluation Layer responde como saber se o output está bom. Não é teste unitário — é rubrica + dataset + pipeline que mede acurácia, completude, utilidade, aderência a formato, qualidade de fonte, especificidade, controle de risco. Sem evals, “está melhor” vira intuição; com evals, vira número. A regra de quem está em produção: o sistema com evals fracos perde pro sistema com evals fortes em todas as métricas que importam, porque o segundo consegue iterar com sinal e o primeiro itera no escuro.

O que é esta camada

A Evaluation Layer é a régua do sistema. Mede qualidade do output de forma reproduzível — pra que mudanças (de prompt, modelo, retrieval) possam ser comparadas com objetividade.

Template mínimo (adaptado do thread @hooeem):

success_criteria: <herda do Purpose Layer, traduzido em mensurável>
scoring_rubric:
  accuracy: 1-5
  completeness: 1-5
  usefulness: 1-5
  format_adherence: 1-5
  source_quality: 1-5
  specificity: 1-5
  risk_control: 1-5
pass_threshold: <ex: média ≥4 e nenhuma dimensão <3>
automatic_failure_conditions:
  - <condição que zera tudo, ex: vazamento de PII>
  - <ex: chamada de tool proibida>

Implementações reais incluem três tipos de eval: (a) reference-based — compara contra ground truth; (b) reference-free — checa propriedades intrínsecas; (c) LLM-as-judge — outro LLM aplica a rubrica.

Decisões-chave

Dataset de eval. Sem dataset, não há eval. Comece pequeno (20-50 exemplos curados à mão), inclua casos fáceis, médios, difíceis, edge cases e regressões conhecidas. Cresça com casos reais que falharam.
Rubrica. Cada dimensão precisa de definição operacional. “Acurácia 4” tem que significar a mesma coisa quando dois revisores aplicam. Definições vagas degeneram pra “achismo escala 1-5”.
LLM-as-judge. Útil pra escalar evals (humano não revisa 1000 casos por iteração), mas exige calibração contra humano em uma amostra. Sem calibração, é só mais um modelo opinando.
Automatic failure conditions. Coisas que zeram a nota total, não importa o resto: vazamento de PII, chamada de tool proibida, formato inválido. São o link entre Evaluation Layer e Guardrail Layer.
Frequência. Eval que roda só “no final do trimestre” não dá sinal. Idealmente roda em cada PR (regression eval) e em produção amostralmente (live eval).

Onde aprofundar no Codex

Evaluation — trilha-irmã dedicada (em construção).
Evaluation de agents — particularidades quando o sistema é agentic.
Evaluation de RAG — métricas específicas (recall, precision, faithfulness).

Veja também

02 - Purpose Layer — o que o sistema é — success_criteria descem daqui
10 - Guardrail Layer — automatic_failure_conditions são guardrails
11 - Logging Layer — scores entram em log

Fontes

@hooeem — Become an AI Engineer, chapter #18, Step 8 (Evaluation layer template).
Eugene Yan — Evals are all you need. Argumento por evals como vantagem competitiva.
Hamel Husain — Your AI product needs evals. Guia prático.

Codex Technomanticus

Explorador

Evaluation Layer

Evaluation Layer

O que é esta camada

Decisões-chave

Onde aprofundar no Codex

Veja também

Fontes

Visão de gráfico

Sumário

Backlinks