Reasoning models e chain-of-thought

TL;DR

Reasoning models (OpenAI o-series, Claude Thinking, Gemini Deep Think) são LLMs treinados para “pensar antes de responder”, gerando tokens internos de raciocínio antes do output visível. Isso melhora dramaticamente performance em matemática, lógica e problemas complexos — mas custa 2-10x mais porque os tokens de pensamento são cobrados como output. Em 2026, saber quando ativar reasoning e quando usar um modelo standard é uma competência essencial para controlar custos.

O que é

Reasoning models são LLMs que, antes de gerar a resposta final, produzem uma cadeia de “pensamento” (chain-of-thought) composta por tokens internos que decompõem o problema em passos. Esses tokens podem ser:

  • Visíveis — exibidos ao usuário (Claude Thinking com thinking habilitado)
  • Ocultos — processados internamente mas não incluídos no response (OpenAI o-series)

O conceito evolui do chain-of-thought prompting (2022), que descobriu que pedir ao modelo “pense passo a passo” melhorava resultados. Reasoning models incorporam isso no treinamento via reinforcement learning.

Por que importa

Sem reasoningCom reasoning
Responde rápido, pode errar em lógicaPensa antes, muito mais preciso em problemas complexos
Custo previsívelCusto variável (depende da complexidade)
Bom para tarefas diretasEssencial para problemas multi-step

Para engenheiros de software, reasoning models são particularmente úteis em:

  • Debugging de problemas complexos com múltiplas dependências
  • Arquitetura de sistemas (trade-offs, decisões de design)
  • Refactoring que exige entender o impacto em cascata
  • Problemas algorítmicos e otimização

Como funciona

Arquitetura conceitual

graph TD
    A[Input do usuário] --> B{Tipo de modelo}
    
    B --> C[Standard Model]
    C --> D[Output direto]
    
    B --> E[Reasoning Model]
    E --> F["Fase de Thinking<br>(tokens de raciocínio)"]
    F --> G["Decomposição do problema"]
    G --> H["Verificação de hipóteses"]
    H --> I["Síntese da resposta"]
    I --> J[Output final]

Implementação por provider

OpenAI — série o

ModeloThinkingCusto relativoUso
o4-miniOculto (interno)2-5x vs GPT-4.1Raciocínio acessível
o4Oculto (interno)5-10x vs GPT-4.1Máxima performance
// Os tokens de thinking são cobrados mas não visíveis
{
  "usage": {
    "input_tokens": 1500,
    "output_tokens": 800,
    "reasoning_tokens": 12000  // ← cobrados como output!
  }
}

Anthropic — Claude Thinking

ModoThinkingControle
StandardDesabilitadoNormal
Extended thinkingVisível (bloco thinking)thinking.budget_tokens
// Ativar extended thinking no Claude
{
  "model": "claude-opus-4.6",
  "thinking": {
    "type": "enabled",
    "budget_tokens": 10000  // Limite para tokens de pensamento
  }
}

O thinking budget permite controlar custos: limitar a 5k tokens para tarefas moderadas, expandir para 50k+ para problemas profundos.

Google — Gemini Thinking

Gemini 3.x oferece modo de “deep thinking” com funcionalidade similar, onde o modelo produz passos de raciocínio antes da resposta final.

O custo real do reasoning

Exemplo: pedir para refatorar um módulo de autenticação.

ModeloInputThinkingOutput visívelCusto total
Claude Sonnet (standard)20k tokens05k tokens$0.135
Claude Opus (standard)20k tokens05k tokens$0.225
Claude Opus (thinking, 10k budget)20k tokens8k tokens5k tokens$0.425
Claude Opus (thinking, 50k budget)20k tokens40k tokens5k tokens$1.225

O reasoning pode custar 5-10x mais que uma chamada standard para a mesma tarefa.

Chain-of-thought prompting vs reasoning models

AspectoCoT PromptingReasoning Models
Como funciona”Pense passo a passo” no promptTreinamento dedicado (RL)
QualidadeMelhora modestaMelhora dramática
CustoGera mais output tokens visíveisGera tokens de pensamento (visíveis ou não)
ControleDepende do modelo seguir a instruçãoBuilt-in, consistente
Melhor paraModelos standard em tarefas moderadasProblemas realmente complexos

CoT prompting está obsolescendo

Em 2026, para modelos avançados (Claude 4.x, GPT-5.x), prompts do tipo “pense passo a passo” podem até degradar performance. Esses modelos já raciocinam internamente. Forçar CoT adiciona verbosidade sem benefício. Use reasoning models nativos quando precisar de raciocínio profundo.

Quando usar / quando não usar

TarefaStandardReasoning
Autocomplete de código❌ Desperdício
Fix de bug simples❌ Overhead desnecessário
Refactoring complexo⚠️ Pode errar
Debugging de race condition❌ Frequentemente falha
Decisão de arquitetura⚠️ Superficial
Geração de testes unitários
Problema algorítmico✅ Essencial
Chat casual❌ Desperdício extremo

Armadilhas

  • “Sempre usar reasoning” — para tarefas simples, reasoning é desperdício. Autocomplete com o4 em vez de GPT-4.1 Nano é pagar 40x mais pelo mesmo resultado.
  • Não limitar o thinking budget — sem limite, o modelo pode “pensar” por 100k+ tokens em problemas difíceis. Use budget_tokens para controlar.
  • Reasoning tokens são baratos” — não. São cobrados como output tokens (a tier mais cara). 50k tokens de pensamento no Claude Opus = $1.25 só em thinking.
  • Confundir CoT com reasoning nativo — adicionar “pense passo a passo” em um modelo que já faz reasoning internamente gera overhead sem benefício.
  • Ignorar reasoning tokens no monitoramento — se você monitora só output_tokens, os reasoning_tokens ocultos (OpenAI) ficam invisíveis na análise de custos.

Veja também

Referências

  • Wei et al.Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Google, 2022). Paper fundador de CoT.
  • OpenAILearning to Reason with LLMs (2024). Blog post introduzindo o1.
  • AnthropicExtended Thinking Documentation (2026). Guia oficial do Claude Thinking.
  • Snell et al.Scaling LLM Test-Time Compute (2024). Fundamentação teórica de “mais compute na inferência”.