Auditoria de consumo

TL;DR

Monitoramento mostra quanto gastou; auditoria mostra por quê gastou. É investigação causal: drill-down em traces para encontrar top offenders, padrões de desperdício e oportunidades de otimização. Sem cadência regular de auditoria (mensal, no mínimo), times só descobrem desperdício quando a fatura passa do budget — tarde demais.

Auditoria vs monitoramento

Pergunta	Onde procurar
”Quanto gastei este mês?”	Dashboard (04 - Monitoramento — ccusage, Langfuse, dashboards)
“Está dentro do budget?”	Dashboard + alerta
”Por que esta sessão custou $4?”	Auditoria
”Qual feature está queimando 30% do budget?”	Auditoria
”Cadê o desperdício escondido?”	Auditoria

Top offenders típicos

A cada auditoria, esperar encontrar pelo menos 2-3 destes padrões:

1. Tools verbosos sem filtro

grep -r "TODO" . retornando 5K matches que entram no histórico. Ou cat package-lock.json (50K tokens). Sintoma: turno único com >20K input tokens.

2. Histórico não compactado em sessão longa

Sessão de 2h sem compactação carregando 300K tokens em cada turno. Sintoma: input por turno cresce linearmente.

3. Retries invisíveis

Tool calls com sintaxe errada disparando retry automático. Sintoma: 2-3 turnos consecutivos com payloads quase idênticos.

4. Reasoning excessivo em tarefa simples

Extended thinking ligado para responder “qual é a capital de França?“. Sintoma: reasoning_tokens >> output_tokens em queries triviais.

5. Modelo errado para a tarefa

Opus chamado para autocomplete; Haiku chamado para análise complexa que falha e re-tenta com Opus. Sintoma: distribuição enviesada de modelo por tipo de tarefa.

6. Tool definitions infladas

System prompt com 15 tools quando 3 seriam usadas. Sintoma: input fixo do system prompt > 10K tokens.

7. Caching mal configurado

cache_control ausente em prefixos repetidos; ou breakpoints no lugar errado. Sintoma: cache hit rate <40%.

Workflow de auditoria

graph TD
    A[Alerta ou cadência mensal] --> B[Filtrar top 1% sessões mais caras]
    B --> C[Drill-down em 5-10 sessões]
    C --> D{Padrão repetido?}
    D -->|Sim| E[Documentar issue + fix]
    D -->|Não| F[Próxima sessão]
    E --> G[Implementar fix]
    G --> H[Medir impacto na próxima auditoria]

Passo a passo prático

Filtrar — top 1% de sessões por custo (Langfuse: order by cost desc, Phoenix: sort by tokens)
Amostrar — 5-10 sessões representativas
Drill-down — abrir trace, ver turno-a-turno: quantos tokens, qual tool, qual output
Identificar — em que turno o gasto explode? Por quê?
Categorizar — qual dos 7 padrões acima?
Fix — código, prompt, config
Medir — auditoria seguinte deve mostrar redução

Ferramentas

Ferramenta	Forte em
Langfuse	Trace search, filtros por custo, comparação de versões
Arize Phoenix	Sessions com timeline visual, fácil drill-down
LangSmith	Filtros por tags, integração nativa LangChain
Helicone	Proxy + analytics; bom para teams sem instrumentação
ccusage (CLI)	Quick audit de Claude Code local

Cadência recomendada

Time	Cadência	Profundidade
Dev solo	Mensal	30 min, top 5 sessões
Time pequeno (5)	Quinzenal	1h, top 10 sessões + relatório
Time grande (>10)	Semanal	Tracking contínuo + revisão semanal
Pós-incidente	Imediato	Drill em todas sessões >P95

Checklist de auditoria mensal

Top 10 sessões por custo identificadas
Cada sessão classificada em pelo menos 1 dos 7 padrões
Pelo menos 2 fixes priorizados
Cache hit rate medido e comparado com mês anterior
Distribuição de modelo por tipo de tarefa revisada
Relatório curto (1 página) compartilhado com stakeholders

Armadilhas

Auditar só o agregado — média esconde outliers que são exatamente o problema.
Não documentar fixes — mesmo padrão volta no mês seguinte sem aprendizado acumulado.
Auditoria sem ação — relatório bonito sem fix implementado é teatro.
Auditar só pós-incidente — descobre tarde. Cadência regular previne incidentes.

Veja também

04 - Monitoramento — ccusage, Langfuse, dashboards
15 - Orçamento e hard limits
17 - ROI de IA — quando o agente vale o custo
18 - Playbook de economia — checklist completo
22 - Caso real — Auditoria de 47M tokens em maio 2026 — este workflow aplicado a um caso pessoal de 32 dias

Referências

Langfuse — Trace analysis and cost attribution docs (2026).
Arize — LLM observability best practices (2025).

Codex Technomanticus

Explorador

Auditoria de consumo

Auditoria de consumo

Auditoria vs monitoramento

Top offenders típicos

1. Tools verbosos sem filtro

2. Histórico não compactado em sessão longa

3. Retries invisíveis

4. Reasoning excessivo em tarefa simples

5. Modelo errado para a tarefa

6. Tool definitions infladas

7. Caching mal configurado

Workflow de auditoria

Passo a passo prático

Ferramentas

Cadência recomendada

Checklist de auditoria mensal

Armadilhas

Veja também

Referências

Visão de gráfico

Sumário

Backlinks