Respostas concisas — controlar output tokens

TL;DR

Output tokens são 3-6x mais caros que input. Modelos são verbosos por default — geram explicações, preambles, e reformulações desnecessárias. Instruções como “seja conciso”, max_tokens apropriado, e format constraints (JSON em vez de markdown) reduzem output em 40-70%. A técnica mais eficaz: diga ao modelo o que NÃO gerar.

Como funciona

Técnicas para reduzir output

TécnicaReduçãoExemplo
”Seja conciso” no system prompt20-30%“Responda de forma direta, sem preâmbulos”
max_tokens adequadoLimita o máximo2048 em vez de default
Format constraints30-50%“Responda apenas com o código, sem explicação”
Structured output (JSON)40-60%JSON schema force formato mínimo
”Não explique, apenas faça”30-50%Evita verbose explanations

Exemplos

❌ "Refatore esta função" → modelo gera explicação + código + resumo = 3000 tokens

✅ "Refatore esta função. Retorne APENAS o código refatorado, sem explicação." = 800 tokens

System prompt para concisão

## Regras de output
- Seja direto e conciso
- NÃO repita a pergunta
- NÃO adicione preâmbulos ("Claro!", "Vou ajudar...")
- NÃO explique mudanças óbvias
- Para código, retorne APENAS o código alterado
- Para diffs, use o formato mínimo

Impacto financeiro

Modelo verboso (5k output/call) vs conciso (1.5k output/call), 100 calls/dia, Sonnet:

VerbosoConciso
Output tokens/dia500k150k
Custo output/dia$7.50$2.25
Economia mensal$157.50

Armadilhas

  • max_tokens muito baixo — corta a resposta no meio. Defina com margem.
  • “Sem explicação” para tarefas de aprendizado — se você QUER entender, não peça concisão.
  • Concisão vs qualidade — para código simples, concisão ajuda. Para debugging, a explicação pode ser essencial.

Veja também

Referências

  • AnthropicPrompt Engineering Guide (2026). Seção sobre concisão.