ROI de IA — quando o agente vale o custo

TL;DR

A pergunta certa não é “quanto custa o agente?” — é “quanto custa não ter o agente?“. ROI de IA se mede comparando custo de tokens vs custo de hora de engenheiro economizada, ajustado por qualidade e risco. A hora de um senior brasileiro (30-60) compra ~10K-30K [[Dicionário de IA#token|tokens]] de Sonnet — significa que se um agente economiza 1h por dia, ele paga 1000+/mês de tokens. Mas vanity metrics (uso, frequência) podem mascarar valor real (defeitos evitados, tempo recuperado).

A equação básica

ROI = (Valor capturado - Custo de tokens - Custo de overhead) / Custo total

Onde:

  • Valor capturado = horas economizadas × custo/hora + valor de defeitos evitados
  • Custo de tokens = budget mensal de API / planos
  • Custo de overhead = tempo de revisão, refatoração, retraining

ROI > 1 não é suficiente

Se a alternativa (não usar IA) tem ROI maior em algum eixo (qualidade, segurança, predictability), IA não vale só porque “deu lucro”. Veja Quando IA NÃO vale a pena.

A matemática rápida

Custo de hora vs custo de tokens

Perfil (BR, 2026)Custo/horaEquivalente em tokens Sonnet 4.6 (input)
Junior~$15~50K tokens
Pleno~$30~100K tokens
Senior~$60~200K tokens
Staff/Principal~$100+~330K tokens

Leia: 1h de senior = 200K tokens de input. Se um agente economiza 1h/dia desse senior, dá pra gastar até 1.300/mês) antes de virar prejuízo direto.

Payback period

Payback (meses) = Investimento inicial / (Economia mensal - Custo mensal)

Investimento inicial inclui: setup de ferramentas, treinamento, ajustes de processo. Tipicamente 20-80h por dev.

Cálculo real

  • Setup: 40h × 2.400 (one-time)
  • Tokens: $200/mês
  • Economia (1.5h/dia × 20 dias × 1.800/mês
  • Payback: 1.800 - $200) = 1.5 meses

Métricas de valor (não apenas custo)

MétricaO que medeSinaliza
Defect escape rateBugs em prod / totalQualidade do código gerado
Rework ratioLOC reescritas / LOC commitadasTech debt acumulado
Time-to-mergeIdade média de PRVelocidade real (não só geração)
Cycle timeIdeia → produçãoThroughput do time
Dev satisfactionNPS internoSustentabilidade

Compare com baseline

Métricas isoladas não dizem nada. Compare com o trimestre anterior à adoção de IA, ou com time controle, ou com benchmark da indústria.

Vanity metrics que enganam

Métrica vanityPor que enganaMétrica melhor
Tokens consumidos/mêsUso ≠ valorHoras economizadas validadas
% de PRs com IAPode estar gerando lixoPRs merged com IA × defect rate
Linhas de código geradasMais código ≠ mais valorFeatures completas / sprint
Velocidade de geraçãoRápido errado é caroTime-to-merge (inclui review)
“Tickets fechados com agente”Define-se “fechado” como?Tickets sem regressão em 30 dias

Quando IA NÃO vale a pena

  • Qualidade crítica com revisão custosa — o tempo de revisão pode anular a economia (medical, finance, infra crítica).
  • Domínio muito específico sem dados suficientes para o modelo entender — o agente alucina mais do que ajuda.
  • Time pequeno e codebase pequena — o overhead de configuração não amortiza.
  • Problema mal-definido — IA acelera escrita, mas não substitui clareza de spec (Spec-Driven Development).
  • Métricas instáveis — se você não consegue medir o ganho, está apostando, não investindo.
  • Compliance pesado — auditoria de cada output gerado pode exigir mais trabalho do que escrever do zero.

Decision framework

graph TD
    A[Considerando expandir uso de IA] --> B{Métricas estáveis<br/>de baseline?}
    B -->|Não| C[Estabelecer baseline antes]
    B -->|Sim| D{Hora economizada<br/>>> custo de tokens?}
    D -->|Não| E[Otimizar antes de expandir]
    D -->|Sim| F{Qualidade<br/>se mantém?}
    F -->|Não| G[Investir em guardrails]
    F -->|Sim| H[Expandir]

Cadência de revisão

  • Mensal — comparar custo vs economia do mês
  • Trimestral — revisar métricas de qualidade (defect rate, rework)
  • Semestral — decidir expandir, manter ou cortar feature/uso

Armadilhas

  • Medir só uso, não valor — produto fica viciado em métrica vanity.
  • Não medir contrafactual — sem grupo controle ou baseline pré-IA, é fé.
  • Ignorar custo de revisão humana — overhead invisível que come a economia.
  • Comparar IA com “fazer nada” — comparar com a melhor alternativa não-IA é mais honesto.
  • Atribuir ganhos só à IA — outros fatores (processo, time crescendo, dívida paga) afetam métricas.

Veja também

Referências

  • Stack Overflow Developer Survey 2026AI tools usage and productivity.
  • GitHub ResearchQuantifying GitHub Copilot’s impact on developer productivity (2024).
  • METRMeasuring impact of AI on real-world software development (2025).