Thinking budget — controlar reasoning tokens

TL;DR

Modelos de reasoning (Claude Thinking, o4) geram tokens internos de “pensamento” cobrados como output — a tier mais cara. Sem limite, podem gastar 50k+ tokens pensando em um problema simples. Use [[Dicionário de IA#thinking-budget|thinking.budget_tokens]] para limitar: 5k para tarefas moderadas, 20k para complexas, 50k+ só quando necessário. Não ativar thinking para tarefas simples é a melhor economia.

Como funciona

O custo do thinking

// Claude com extended thinking
{
  "thinking": {"type": "enabled", "budget_tokens": 10000}
}
 
// Resposta:
{
  "usage": {
    "input_tokens": 5000,
    "output_tokens": 2000,
    "thinking_tokens": 8500  // ← cobrados como OUTPUT!
  }
}

Custo do thinking no Claude Opus: 8500 × 0.21** — só para “pensar”.

Calibrando o budget

TarefaBudget recomendadoCusto extra (Opus)
Fix de typo0 (não usar thinking)$0
Bug simples2000-5000$0.05-0.12
Refactoring moderado5000-15000$0.12-0.37
Debugging complexo15000-30000$0.37-0.75
Arquitetura de sistema30000-50000$0.75-1.25
Problema matemático difícil50000+$1.25+

Regra prática

Não ative thinking para tarefas que um modelo standard resolve. Reserve para:

  • Debugging de race conditions
  • Decisões de arquitetura com trade-offs
  • Problemas algorítmicos
  • Refactoring com impacto em cascata

Armadilhas

  • Thinking para tudo — ativar thinking para autocomplete é pagar 10x mais pelo mesmo resultado.
  • Budget infinito — sem limite, o modelo pode “pensar” por 100k+ tokens em problemas difíceis.
  • Não monitorar thinking_tokens — se monitora só output, o custo de thinking fica invisível.

Veja também

Referências

  • AnthropicExtended Thinking Documentation (2026).