Thinking budget — controlar reasoning tokens

TL;DR

Modelos de reasoning (Claude Thinking, o4) geram tokens internos de “pensamento” cobrados como output — a tier mais cara. Sem limite, podem gastar 50k+ tokens pensando em um problema simples. Use [[Dicionário de IA#thinking-budget|thinking.budget_tokens]] para limitar: 5k para tarefas moderadas, 20k para complexas, 50k+ só quando necessário. Não ativar thinking para tarefas simples é a melhor economia.

Como funciona

O custo do thinking

// Claude com extended thinking
{
  "thinking": {"type": "enabled", "budget_tokens": 10000}
}
 
// Resposta:
{
  "usage": {
    "input_tokens": 5000,
    "output_tokens": 2000,
    "thinking_tokens": 8500  // ← cobrados como OUTPUT!
  }
}

Custo do thinking no Claude Opus: 8500 × $25/ MT o k = * *$ 0.21** — só para “pensar”.

Calibrando o budget

Tarefa	Budget recomendado	Custo extra (Opus)
Fix de typo	0 (não usar thinking)	$0
Bug simples	2000-5000	$0.05-0.12
Refactoring moderado	5000-15000	$0.12-0.37
Debugging complexo	15000-30000	$0.37-0.75
Arquitetura de sistema	30000-50000	$0.75-1.25
Problema matemático difícil	50000+	$1.25+

Regra prática

Não ative thinking para tarefas que um modelo standard resolve. Reserve para:

Debugging de race conditions
Decisões de arquitetura com trade-offs
Problemas algorítmicos
Refactoring com impacto em cascata

Armadilhas

Thinking para tudo — ativar thinking para autocomplete é pagar 10x mais pelo mesmo resultado.
Budget infinito — sem limite, o modelo pode “pensar” por 100k+ tokens em problemas difíceis.
Não monitorar thinking_tokens — se monitora só output, o custo de thinking fica invisível.

Veja também

Referências

Anthropic — Extended Thinking Documentation (2026).

Codex Technomanticus

Explorador

Thinking budget — controlar reasoning tokens

Thinking budget — controlar reasoning tokens

Como funciona

O custo do thinking

Calibrando o budget

Regra prática

Armadilhas

Veja também

Referências

Visão de gráfico

Sumário

Backlinks