Economia de Tokens

Em 2026, tokens são a unidade econômica da engenharia assistida por IA. Cada chamada de API, cada turno de agente, cada chain-of-thought interno consome tokens — e tokens custam dinheiro real. Engenheiros que ignoram essa economia descobrem do jeito difícil: faturas de quatro dígitos, contas pessoais inflando, ou times que param de usar a ferramenta porque o ROI virou negativo. Esta trilha mapeia o ciclo completo: por que tokens custam, por que agentes amplificam o gasto, quais técnicas reduzem input/output/reasoning, qual arquitetura escolher, como impor hard limits, como auditar desperdício, e quando o agente realmente vale o custo.

Pré-requisitos

Recomendado ter lido a Anatomia dos LLMs (Trilha 1), especialmente 02 - Tokens e tokenização, 10 - Pricing de APIs — como calcular custos e 11 - Prompt caching e otimizações de API. Se já trabalha com Agentes de Codificação (Trilha 2), as notas sobre compactação, sub-agentes e tool compression vão ressoar imediatamente.

Preços e ferramentas mudam rápido

Os preços, planos e ferramentas (ccusage, Langfuse, etc.) refletem o estado de maio de 2026. Tabelas de pricing mudam a cada trimestre — verifique sempre a documentação oficial antes de decidir arquitetura.

Comece por aqui

Trilha sequencial recomendada — diagnóstico → otimização de input → arquitetura → output → governança.

Bloco 1 — O Problema e a Visibilidade (4 notas)

Antes de otimizar, é preciso entender por que custa, por que agentes custam mais, e como medir.

Bloco 2 — Reduzir o Input (4 notas)

A maior parte do custo está no input. Quatro técnicas que cortam tokens antes deles entrarem no modelo.

Bloco 3 — Arquitetura Econômica (4 notas)

Não é só sobre cortar — é sobre escolher o modelo, o modo, e o padrão arquitetural certos.

Bloco 4 — Controle de Saída (2 notas)

Output e reasoning também custam — e são onde mais gente esquece de olhar.

Bloco 5 — Governança e Operação (8 notas)

Da disciplina técnica à decisão de negócio: budget, hard limits, auditoria, ROI, planos, futuro, casos reais.

Rotas alternativas

Rota emergencial (já estou gastando demais)

“Minha fatura está fora de controle, preciso cortar agora”

04 - Monitoramento — ccusage, Langfuse, dashboards05 - Prompt caching na prática13 - Respostas concisas — controlar output tokens15 - Orçamento e hard limits18 - Playbook de economia — checklist completo

Rota arquiteto (projetar sistema cost-aware)

“Vou desenhar um sistema novo e quero custo previsível desde o dia 1”

02 - Anatomia do gasto — input, output e reasoning09 - Model routing — modelo certo para a tarefa10 - Sub-agentes especializados11 - Semantic caching12 - Batch API — economia em volume

Rota agente (otimizar Claude Code, Cursor, Aider)

“Uso agentes de codificação e quero diminuir o gasto por sessão”

03 - Por que agentes gastam tanto05 - Prompt caching na prática07 - Compressão de tool definitions08 - Compactação de histórico em agentes10 - Sub-agentes especializados14 - Thinking budget — controlar reasoning tokens

Rota governança (líder técnico / engineering manager)

“Preciso decidir budget, métricas e ROI para o time”

15 - Orçamento e hard limits16 - Auditoria de consumo17 - ROI de IA — quando o agente vale o custo19 - Planos e tiers — Max, Pro, API, Enterprise

Rota pessoa física (Pro/Max vs API)

“Sou dev individual — vale Max, Pro, API ou misturar?”

19 - Planos e tiers — Max, Pro, API, Enterprise04 - Monitoramento — ccusage, Langfuse, dashboards18 - Playbook de economia — checklist completo

Rota estratégica (entender para onde vai)

“Quero entender a tendência de preços antes de bater martelo em arquitetura”

01 - O problema — por que tokens custam dinheiro19 - Planos e tiers — Max, Pro, API, Enterprise20 - O futuro — tokens cada vez mais baratos

Leituras recomendadas

FonteTipoCobertura
Anthropic — Prompt CachingDocs oficialNota 05
Anthropic — Batch APIDocs oficialNota 12
Anthropic — Extended ThinkingDocs oficialNota 14
Anthropic — Building effective agentsArtigoNota 03
Anthropic Cookbook — Token-efficient tool useRepoNota 07
ccusageCLI / npmNotas 04, 16
Langfuse — Trace analysisDocs oficialNotas 04, 16
GPTCacheOpen sourceNota 11
Eugene Yan — Patterns for LLM SystemsArtigoNota 11
Artificial Analysis — LLM Cost ComparisonSiteNotas 02, 09, 19
METR — AI productivity measurementPesquisaNota 17

Veja também

Todas as notas

TABLE
  title AS "Título",
  status AS "Status",
  join(tags, ", ") AS "Tags"
FROM "03-Dominios/IA/Economia de Tokens"
WHERE type != "moc"
SORT file.name ASC

22 items neste arquivo.