Guardrails determinísticos

TL;DR

O grande shift de 2026: substituir LLMs julgando LLMs por código determinístico. Filtros de entrada por regex, validadores de saída por schema, kill paths por exception, escalações por threshold numérico. Salesforce, Anthropic, players enterprise convergiram: probabilístico onde precisa, determinístico onde dá. O agente vive dentro de uma control plane — uma camada rígida que intercepta inputs e outputs antes de tocar sistemas reais. A regra: se você consegue escrever uma regra, escreva uma regra; LLM julgando vira incidente.

A virada de 2026

Até 2024, guardrails comuns usavam outro LLM para validar saídas (“este texto é seguro? sim/não”). Em 2026, o consenso mudou:

Salesforce — 2026

“Replaced LLM-based input safety checks with deterministic rule filters.”

CIO Magazine — 2026

“Many of enterprise AI’s biggest recent breakthroughs in 2026 revolved around a common theme: getting agents to run more reliably in production through new layers of deterministic control.”

Razão: LLM-validating-LLM é caro, lento e probabilístico. Determinístico é grátis em runtime e auditável.

A control plane

graph TB
    A[Input do usuário] --> B[🛡️ Pre-LLM guardrail<br/>determinístico]
    B -->|aprovado| C[LLM]
    B -->|bloqueado| Z1[Resposta segura]
    C --> D[🛡️ Post-LLM guardrail<br/>determinístico]
    D -->|aprovado| E[Sistema real]
    D -->|bloqueado| Z2[Escalação humana]
    D -->|incerto| Z3[Fallback rule]

A control plane define:

  • Permission boundaries — que tools/dados/credenciais o agente alcança
  • Interruption points — quando deve parar e pedir aprovação
  • Routing logic — humano vs regra vs fallback

Pre-LLM guardrails

Filtragem de entrada antes do prompt chegar ao modelo:

TipoImplementaçãoExemplo
PII detectionRegex + ML modelBloquear input com CPF, email, cartão
Topic filteringClassificador determinísticoBlacklist de domínios fora do escopo
Length capslen(input) > NRecusar inputs absurdamente longos
Rate limitingToken bucket por usuárioBloquear flood
Prompt injection signaturesRegex + ML modelDetectar “ignore previous instructions”
Allowlist de toolsLookup tableSó certas tools por tipo de usuário

Post-LLM guardrails

Validação de saída antes dela acionar sistema real:

TipoImplementaçãoExemplo
Schema validationJSON schema, PydanticOutput deve match schema X
Range checksif value > MAX:Pagamento > R$ 10K → human review
Tool whitelistLookupread_file, nunca rm -rf
Citation requirementRegex match em docsResposta precisa citar source
Hallucination detectionCross-check com KBFunção citada existe no codebase?
Numerical sanityAssertsSoma deve dar 100%

Kill paths e escalações

def execute_action(action, context):
    # Tier 1: hard rules (block)
    if violates_security_policy(action):
        raise SecurityViolation(action)
 
    # Tier 2: confidence threshold (escalate)
    if action.confidence < 0.7 or action.amount > THRESHOLD:
        return route_to_human(action)
 
    # Tier 3: deterministic fallback
    if action_is_uncertain(action):
        return apply_business_rule_fallback(action)
 
    # Caminho feliz
    return action.execute()

Princípio: review fatigue mata. Se tudo escalava, ninguém revisa nada. Escalada deve ser rara e significativa.

Three-tier control (padrão emergente)

TierDecisãoVelocidadeRisco
Tier 1 — DeterminísticoRegra rígida (regex, schema, threshold)<1msZero (regra é código)
Tier 2 — Heurística + LLMLLM julgando, mas com rule fallback100-500msBaixo (LLM como advisory)
Tier 3 — HumanoEscalação para revisãominutos a horasZero (humano valida)

Volume típico: 95% Tier 1, 4% Tier 2, 1% Tier 3.

Lean 4 e formal verification

State of the art

Em 2026, sistemas regulados (financeiro, médico) começaram a usar Lean 4 theorem proving para guardrails formalmente verificados. O Lean-Agent Protocol satisfaz mandatos como SEC Rule 15c3-5 com prova matemática de compliance.

Não é mainstream para todo projeto — mas é o teto da disciplina.

Frameworks de produção

FrameworkForte emQuando usar
NeMo Guardrails (NVIDIA)DSL declarativa, integração LangChainProjetos NVIDIA-stack
Llama Guard (Meta)LLM-based input/output classificationQuando dá pra rodar +1 LLM
Guardrails AIValidação por specs (RAIL)Output schema-driven
LangChain GuardrailsMiddleware de validationJá usa LangChain
Custom (regex + Pydantic)Tudo abaixo de “enterprise”A maioria dos casos

Bata simples primeiro

Antes de adotar framework, escreva 5 regras determinísticas em Python puro. Em 80% dos casos resolve. Framework vem quando regras passam de 50.

Anti-patterns

  • LLM julgando LLM como única defesa — caro, lento, probabilístico
  • Sem audit trail — você não sabe o que foi bloqueado nem por quê
  • Guardrails só pré, não pós — output ruim ainda chega ao sistema
  • Regras hardcoded sem versionamento — debug e auditoria sofrem
  • Sem test suite de guardrails — uma regra mudou e você não percebeu
  • Escalada de tudo — humanos fadigam, viram clicadores de “approve”

Métricas

MétricaAlvo
% bloqueado em pre-LLM1-5% (acima vira fricção, abaixo vira shadow risk)
% bloqueado em post-LLM0.5-2%
% escalado para humano<1%
Latência adicionada por guardrails<100ms
Cobertura de testes em regras>80%

Veja também

Referências

  • CIO MagazineThe agent control plane: Architecting guardrails for a new digital workforce (2026).
  • Arthur AIAI Agent Guardrails: Pre-LLM & Post-LLM Best Practices (2026).
  • CodebridgeAI Agent Guardrails: Kill Switches, Escalation Paths, and Recovery (2026).
  • arxiv:2604.01483Type-Checked Compliance: Deterministic Guardrails for Agentic Financial Systems Using Lean 4 Theorem Proving (2026).
  • arxiv:2604.15579Symbolic Guardrails for Domain-Specific Agents (2026).