Pricing de APIs — como calcular custos

TL;DR

APIs de LLM cobram por milhão de tokens (MTok), com preços separados para input e output — output é 3-6x mais caro. Em 2026, custos variam de 25/MTok (flagships). Prompt caching reduz input em até 90%. Batch APIs dão 50% de desconto. A fórmula do custo real é: (input_tokens × preço_input + output_tokens × preço_output + reasoning_tokens × preço_output) ÷ 1.000.000. Não controlar isso é queimar dinheiro.

O que é

O modelo de pricing de LLM APIs é pay-per-token: você paga proporcionalmente à quantidade de tokens processados (input) e gerados (output) em cada chamada. Não há cobrança por tempo de sessão, número de chamadas, ou storage.

Por que importa

Sem entender pricing, um engenheiro pode:

  • Gastar 5
  • Escolher o modelo mais caro por default quando um budget resolve
  • Ignorar otimizações (caching, batching) que reduzem custos em 50-90%

Como funciona

A fórmula fundamental

Custo = (input_tokens × preço_input / 1M) + (output_tokens × preço_output / 1M)

Exemplo concreto com Claude Sonnet 4.6:

  • Input: 50.000 tokens × 0.15
  • Output: 10.000 tokens × 0.15
  • Total: $0.30 por chamada

Tabela de preços (maio 2026)

ProviderModeloTierInput $/MTokOutput $/MTokCache Read
AnthropicClaude Opus 4.6Flagship$5.00$25.00$0.50
Claude Sonnet 4.6Mid$3.00$15.00$0.30
Claude Haiku 4.5Budget$1.00$5.00$0.10
OpenAIGPT-5.4Flagship~$2.50~$15.00~$0.25
o4-miniReasoning~$1.10~$4.40
GPT-4.1 NanoBudget~$0.10~$0.40~$0.01
GoogleGemini 3.1 ProFlagship~$2.00~$12.00~$0.20
Gemini 3 FlashMid~$0.50~$3.00~$0.05
Gemini 2.5 Flash-LiteBudget~$0.10~$0.40

Mecanismos de desconto

MecanismoDesconto típicoComo funciona
Prompt caching50-90% no inputPartes estáticas do prompt (system, docs) são cacheadas entre chamadas
Batch API~50% em tudoEnviar tasks em lote para processamento assíncrono (SLA de horas, não segundos)
Commitment plans20-40%Comprometer volume mensal com o provider
Provedor intermediárioVariávelTogether, Fireworks, Groq oferecem modelos open-weight com markup menor

Custos ocultos que as pessoas esquecem

ItemPor que é custo oculto
Tool definitionsSchemas JSON de ferramentas são input tokens — 10 tools podem consumir 2-5k tokens por chamada
Histórico acumuladoCada turn do agente reenvia todo o histórico. Turn 50 inclui turns 1-49 como input
Reasoning tokensModelos de reasoning (o4, Claude Thinking) geram tokens internos de “pensamento” cobrados como output
RetriesSe o agente erra e tenta de novo, paga-se duas vezes
Contexto desnecessárioArquivos inteiros no prompt quando só 20 linhas eram relevantes

Simulação: custo de um dia de desenvolvimento

Cenário: engenheiro usando Claude Sonnet 4.6 como agente de codificação, 8h de trabalho.

AtividadeChamadasInput/chamadaOutput/chamadaSubtotal
Debugging (5 bugs)2530k tokens5k tokens$2.63
Feature nova (2 features)4050k tokens15k tokens$15.00
Refactoring1080k tokens20k tokens$5.40
Code review5100k tokens10k tokens$2.25
Total sem otimização80$25.28
Total com prompt caching (70%)80~$12.00

Ferramentas de monitoramento

FerramentaO que faz
ccusageMonitora consumo do Claude Code por sessão
LangfuseTracing de LLM com custo por chamada
HeliconeProxy que loga e visualiza consumo
Dashboard do providerVisão geral de gastos na conta
Planilha simplesLog diário de usage.input_tokens + usage.output_tokens

Checklist

  • Definir orçamento diário/mensal antes de começar
  • Configurar alertas de gasto no dashboard do provider
  • Ativar prompt caching para system prompts e docs estáticos
  • Usar Batch API para tarefas não urgentes
  • Monitorar usage no response de cada chamada
  • Revisar tool definitions — remover descrições verbosas
  • Considerar modelo budget para tarefas simples (model routing)
  • Sumarizar histórico longo em vez de acumular indefinidamente

Armadilhas

  • **“150/dia.
  • “Output tokens não importam” — output é 3-6x mais caro que input. Um modelo verboso que gera 5x mais texto que o necessário custa 5x mais em output.
  • Não separar input e output no cálculo — cálculos que usam “preço médio por token” subestimam custos reais porque ignoram a assimetria.
  • Ignorar reasoning tokens — modelos de reasoning podem gastar 10-50x mais em tokens internos do que o output visível. Monitore thinking_tokens no response.
  • “Caching resolve tudo” — caching ajuda com partes estáticas. Se cada chamada tem contexto significativamente diferente, o cache hit rate é baixo.

Veja também

Referências

  • AnthropicAPI Pricing (2026). Tabela oficial de preços.
  • OpenAIAPI Pricing (2026). Tabela oficial de preços.
  • Artificial AnalysisLLM Cost Comparison (2026). Comparativo independente.
  • CostGoatLLM API Pricing Tracker (2026). Agregador de preços atualizado.