Batch API — economia em volume

TL;DR

Batch APIs permitem enviar lotes de requests para processamento assíncrono com ~50% de desconto. SLA de entrega é horas (não segundos). Ideal para geração de testes em massa, documentação, migrações, e qualquer tarefa que não precisa de resposta em tempo real.

Como funciona

Fluxo

  1. Montar array de requests (até 10.000)
  2. Enviar via endpoint de batch
  3. Esperar processamento (até 24h)
  4. Baixar resultados
// Anthropic Batch API
{
  "requests": [
    {"custom_id": "test-1", "params": {"model": "claude-sonnet-4.6", "messages": [...]}},
    {"custom_id": "test-2", "params": {"model": "claude-sonnet-4.6", "messages": [...]}},
    {"custom_id": "test-3", "params": {"model": "claude-sonnet-4.6", "messages": [...]}}
  ]
}

Quando usar

TarefaBatch?Economia
Gerar testes para 50 arquivos50%
Documentar todas as funções de um módulo50%
Migrar 200 arquivos de JS para TS50%
Chat interativo
Agente de coding em tempo real

Pricing

ProviderDesconto batchSLA
Anthropic~50%Até 24h
OpenAI~50%Até 24h
GoogleVariávelVariável

Armadilhas

  • SLA de horas — não use para nada que precise de resposta imediata.
  • Debugging difícil — se uma request do lote falha, identificar e reprocessar é mais complexo.
  • Não combinar com caching — batch requests geralmente não se beneficiam de prompt caching.

Veja também

Referências

  • AnthropicBatch API Documentation (2026).
  • OpenAIBatch API Reference (2026).