Benchmarks e avaliação — SWE-bench e além

TL;DR

SWE-bench é o benchmark de referência para avaliar agentes de codificação — mede a capacidade de resolver issues reais de repositórios open-source. Em maio de 2026, os melhores agentes resolvem ~72% das issues na versão Verified (um subconjunto curado). Mas benchmarks são guias, não verdade — o mesmo modelo com scaffolding diferente pode ter scores muito diferentes. Para o engenheiro individual, o que importa é performance no SEU codebase, não no SWE-bench.

O que é

SWE-bench (Software Engineering Benchmark) é um dataset criado pela Princeton que contém issues reais de repositórios populares do GitHub com seus respectivos patches (soluções). O agente recebe a issue e o repositório, e deve gerar um patch que resolva o problema.

Por que importa

É o padrão da indústria para comparar agentes — todos os provedores publicam scores
Mede capacidade end-to-end — não só gerar código, mas entender o problema, navegar o codebase, e gerar um fix correto
Os resultados influenciam decisões de compra e adoção

Como funciona

Versões do SWE-bench

Versão	Issues	Dificuldade	Uso
SWE-bench Full	2,294	Variada	Pesquisa acadêmica
SWE-bench Verified	500	Curada por humanos	Comparação entre agentes
SWE-bench Lite	300	Filtragem automática	Prototipagem rápida

Scores atuais (maio 2026)

Agente/Modelo	SWE-bench Verified	Notas
Claude Opus 4.6 + best scaffold	~72%	Líder
GPT-5.4 + OpenAI scaffold	~69%	Forte
Gemini 3.1 Pro	~65%	Melhora com contexto longo
DeepSeek V4	~63%	Impressionante para open-weight
Qwen 3.6 Plus	~61%	Melhor em workflows agentic
Devin	~55-60%	Scaffold autônomo

Scaffolding importa MAIS que o modelo

O mesmo Claude Opus pode ter scores variando de 50% a 72% dependendo do scaffolding (como o codebase é indexado, quais ferramentas estão disponíveis, como os prompts são construídos). Comparar modelos sem controlar o scaffold é comparar maçãs com laranjas.

Limitações dos benchmarks

Limitação	Explicação
Selection bias	Issues do SWE-bench são de repos Python maduros (Django, scikit-learn). Não representam TODO coding.
Scaffold dependency	Score depende do harness tanto quanto do modelo
Snapshot temporal	Issues são de 2019-2024. Modelos treinados em dados mais recentes podem ter visto os patches.
Não mede qualidade	Um patch que resolve a issue pode introduzir novos bugs. O benchmark não verifica regressão.
Não mede workflow	Mede resultado final, não o processo. Não captura se o agente é bom para trabalho interativo.

Além do SWE-bench

Benchmark	O que mede	Foco
HumanEval+	Geração de funções a partir de docstring	Coding puro (sem contexto de repo)
MBPP	Problemas de programação básicos	Capacidade fundamental
LMSYS Chatbot Arena	Preferência humana em respostas	Qualidade percebida
Aider Polyglot	Edit performance em múltiplas linguagens	Edição multi-linguagem
Terminal-Bench	Performance em tarefas de terminal/DevOps	Agentes de terminal
Seu próprio projeto	Performance real no seu codebase	O que realmente importa

Como avaliar para o SEU codebase

Crie sua mini-suite — pegue 10-20 issues resolvidas do seu repositório
Teste cada ferramenta — dê a issue para o agente e veja se ele resolve
Meça o que importa:
- Taxa de resolução (resolve sem ajuda?)
- Qualidade do código (segue seus padrões?)
- Custo (quantos tokens gastou?)
- Tempo (quanto tempo levou?)
Compare ferramentas no seu contexto — SWE-bench diz que Opus > GPT-5, mas no SEU projeto com SEU stack, pode ser diferente

Armadilhas

“72% no SWE-bench = resolve 72% dos meus bugs” — falso. Seu codebase, suas linguagens, sua complexidade são diferentes.
Escolher modelo apenas por benchmark — benchmarks são indicadores, não decisores. Teste no seu contexto.
Ignorar scaffolding — o mesmo modelo em tools diferentes tem performance muito diferente.
Benchmark gaming — provedores otimizam para SWE-bench. Performance “real” pode ser menor.
Não medir custo-benefício — um modelo que resolve 5% mais issues mas custa 3x mais pode não valer.

Veja também

05 - Panorama de modelos 2026 — (Trilha 1) scores por modelo
11 - Comparativo — qual ferramenta para qual tarefa — decisão prática
13 - Devin e agentes autônomos cloud — quem lidera nos benchmarks

Referências

Jimenez et al. — SWE-bench: Can Language Models Resolve Real-World GitHub Issues? (Princeton, 2024). Paper original.
SWE-bench — Leaderboard (swebench.com). Rankings atualizados.
Artificial Analysis — Coding Model Benchmark (2026). Comparativo independente.

Codex Technomanticus

Explorador

Benchmarks e avaliação — SWE-bench e além

Benchmarks e avaliação — SWE-bench e além

O que é

Por que importa

Como funciona

Versões do SWE-bench

Scores atuais (maio 2026)

Limitações dos benchmarks

Além do SWE-bench

Como avaliar para o SEU codebase

Armadilhas

Veja também

Referências

Visão de gráfico

Sumário

Backlinks