Codex

Codex é a aposta da OpenAI em coding agent cloud-based: diferente de Claude Code ou Copilot (que rodam no seu IDE local), Codex opera em um sandbox na nuvem, recebe tarefas em linguagem natural, executa num ambiente isolado com seu repo clonado, e retorna um PR. Para um senior dev, o valor de Codex é diferente do uso diário: tasks paralelas, trabalho assíncrono, e separação de concerns — você descreve o que precisa, fecha o laptop, e volta horas depois com PRs prontos para review. Esta nota cobre o que Codex é em 2026 (muito diferente do “Codex 2021” original que era só o modelo), como usar, trade-offs, e quando faz sentido adotar. Para comparação com outras ferramentas, ver Comparativo de LLMs; para o padrão de agents em geral, Agents.

O que é

Codex em 2026 é o coding agent cloud-native da OpenAI. Essa é a encarnação atual do nome — o Codex original era um modelo (derivado de GPT-3) que alimentava a primeira versão do Copilot e foi descontinuado em 2023. Em 2024-2025 a OpenAI relançou “Codex” como produto agent, não como modelo.

Capacidades principais

Receber tarefas em linguagem natural via web UI, CLI, VS Code extension, ou API.
Executar em sandbox cloud isolado — containers efêmeros com acesso ao repo.
Clonar e modificar repositórios GitHub (com OAuth).
Rodar testes, builds, linters no sandbox.
Abrir PRs automaticamente com descrição gerada.
Processar múltiplas tasks em paralelo — 5, 10, 20 tarefas simultâneas.
Codex Skills — instruções reutilizáveis via AGENTS.md.
Integração com ChatGPT app — pode ser invocado direto do app principal.
CLI local (codex) — alternativa ao fluxo web quando você quer mais controle.

O modelo por trás

Codex usa modelos OpenAI internos especializados em coding, derivados das famílias GPT-4.x, o1 e o3. A OpenAI rotula de “Codex models” quando fine-tunados para tarefas agentic de código. Usuários não escolhem modelo diretamente na UI web; na API e CLI, pode-se selecionar entre variantes.

As três modalidades de uso

Codex Cloud (async) — UI web ou ChatGPT, sandbox cloud, PR como output.
Codex CLI (local) — ferramenta no terminal, executa no seu ambiente local com sandbox leve.
Codex em IDEs — extension VS Code permite invocar tasks no cloud a partir do editor.

O que diferencia um senior usando Codex

Sabe quando usar Codex vs Claude Code vs Copilot. Async/batch em Codex; interativo em Claude Code; inline em Copilot.
Escreve AGENTS.md bem estruturado — o equivalente ao CLAUDE.md para Codex.
Escreve tasks com escopo claro — Codex funciona melhor com descrições específicas do que com objetivos vagos.
Delega em paralelo tasks independentes para aproveitar a arquitetura async.
Revisa cada PR gerado — nunca merge sem human review, mesmo que todos os checks passem.
Configura sandbox com credentials apropriados (leituras de docs internos, acesso a CI, etc).
Usa Codex Skills para workflows recorrentes.
Entende limites de sandbox — não espera que Codex converse com serviços externos sem configuração.
Mede custo por task — Codex é cobrado por compute + tokens, pode ficar caro.
Evita Codex para tarefas que exigem exploração interativa — agent mode do Copilot ou Claude Code são melhores.

Arquitetura e fluxo

┌──────────────┐
│  Developer   │  1. Descreve task em natural language
│              │     "Add rate limiting to /api/v1/search"
└──────┬───────┘
       │
       ▼
┌──────────────┐
│  Codex UI /  │  2. Dispatcher cria sandbox container
│    API       │
└──────┬───────┘
       │
       ▼
┌──────────────┐
│  Sandbox     │  3. Clona repo, instala deps
│  Container   │  4. Agent lê AGENTS.md e código
│              │  5. Planeja abordagem
│              │  6. Edita arquivos
│              │  7. Roda testes
│              │  8. Itera se falhar
└──────┬───────┘
       │
       ▼
┌──────────────┐
│  GitHub PR   │  9. Abre PR com descrição + commits
│              │     + checks automáticos
└──────────────┘

Sandbox é efêmero — destruído após task completa. Cada task começa do zero, sem estado persistente (a menos que configurado via artifacts).

AGENTS.md — a configuração crítica

O análogo do CLAUDE.md ou copilot-instructions.md. Arquivo markdown na raiz do repo que Codex lê como contexto permanente.

Em 2026, AGENTS.md virou padrão de facto adotado também por outras ferramentas (alguns frameworks o suportam como formato comum).

# Agents instructions for this repo
 
This is a Go microservice using Echo framework and sqlx with PostgreSQL.
 
## Stack
- Go 1.23
- Echo web framework
- sqlx for DB access
- Testify for tests
- golangci-lint for linting
 
## Commands
- `make test` — run all tests
- `make lint` — run linter
- `make build` — build binary
- `make migrate` — run migrations
 
## Conventions
- Errors wrapped with fmt.Errorf("context: %w", err)
- No global state; use dependency injection
- All handlers return (res, error); errors mapped by middleware
- Table-driven tests for units
- One package per domain concept
 
## Architecture
- `cmd/` — entry points
- `internal/api/` — HTTP handlers
- `internal/service/` — business logic
- `internal/repo/` — data access
- `internal/domain/` — types and pure logic
- `pkg/` — public libraries (rare)
 
## Antipatterns
- panic() in library code
- Ignoring error returns
- SQL string concatenation (use parameterized queries)
 
## Testing conventions
- Integration tests in `*_integration_test.go` with build tag
- Mock external services with httptest
- Target >70% coverage on internal/service and internal/api

Dica crítica: AGENTS.md bem feita transforma drasticamente a qualidade do output. Um dev sênior investe 1-2h escrevendo bem no início do projeto.

Codex Skills

Skills são instruções reutilizáveis que vivem em .codex/skills/ ou diretamente referenciadas em AGENTS.md. Formato similar a outras ferramentas (frontmatter + conteúdo).

---
name: add-endpoint
description: Add new REST endpoint with validation, tests, and docs
---
 
When asked to add a new endpoint:
 
1. Define input/output types in internal/domain/
2. Write validation in internal/api/validators/
3. Implement handler in internal/api/handlers/
4. Add route in internal/api/routes.go
5. Write unit tests for handler
6. Write integration test if touches DB
7. Update OpenAPI spec in docs/openapi.yaml
8. Add example curl in README

Skills aparecem como menu para o agent descobrir por demanda.

Workflows reais com Codex

Workflow 1 — Tasks paralelas em batch

Tenho 5 issues “pequenas” no backlog. Em vez de fazer sequencial:

Abro ChatGPT ou Codex UI.
Crio 5 tasks em paralelo, uma por issue, cada uma com link para a issue.
Fecho laptop, vou almoçar.
1-2h depois, 5 PRs prontos para review.
Reviso sequencialmente, aprovando ou pedindo mudanças.

Isso destrava paralelismo de forma que nenhuma ferramenta local consegue — você não está esperando nem interagindo.

Workflow 2 — Refactor amplo

Refactor que toca 50 arquivos (renomear um conceito, migrar lib):

Escrevo task detalhada explicando o “antes” e “depois”.
Codex explora o repo, gera plano.
Revisa plano, ajusta.
Executa no sandbox, roda testes.
Abre PR com diff completo.

O ganho vs fazer no meu laptop: Codex persiste sem interrupção, sem distração, e é fácil lançar múltiplos refactors independentes em paralelo.

Workflow 3 — Bug triage

Lista de 10 bugs relatados. Cada um vira uma task no Codex. Cada task investiga, tenta reproduzir, e ou: (a) abre PR com fix se claro, ou (b) retorna análise com info útil para human debugging.

Workflow 4 — Dependency update

“Atualize todos os packages de prod para last stable minor, rode testes, abra PR com changelog” — vira uma task Codex recorrente que pode ser agendada.

Codex CLI

Versão local do Codex. Roda no seu terminal, em ambiente do seu host (com sandboxing leve via container/firejail). Útil quando você quer:

Controle fino sobre ambiente
Network restrito
Trabalhar offline parcialmente
Debug local antes de escalar para cloud

# Instalação
npm install -g @openai/codex
 
# Uso básico
codex
> Add a --dry-run flag to the migration command

Similar em espírito ao Claude Code, mas focado em tarefas autoconfinadas vs conversação contínua.

Diferenças com alternativas

Codex vs Claude Code

Aspecto	Codex	Claude Code
Execução	Cloud sandbox (async) ou CLI local	Local CLI interativo
Interação	Fire-and-forget, volta ao PR	Conversacional contínuo
Paralelismo	Natural, N tasks em paralelo	Sequencial (multi-window possível)
Contexto	Repo clonado no sandbox	Filesystem local persistente
Memory	Efêmera por task	Persistente entre sessões
Output	PR/diff	Edições locais + commits
Modelo	OpenAI (GPT-4.1, o1, o3)	Anthropic (Opus/Sonnet)
Configuração	AGENTS.md + skills	CLAUDE.md + skills + hooks + MCP
Integração MCP	Crescente	Nativa e madura
Custo	Por task (compute + tokens)	Por tokens da API

Codex vs Copilot

Copilot é integrado ao IDE; Codex é fire-and-forget cloud.
Copilot brilha em inline e chat contextual; Codex brilha em tasks async completas.
Copilot workspace é o mais próximo do Codex dentro da família GitHub.

Quando escolher Codex

Tarefas paralelas que você quer delegar e checkar depois.
Você vive no ChatGPT app (Codex está integrado nativamente).
Equipes grandes onde async scale importa mais que interatividade.
Repos grandes onde sandbox com recursos dedicados ajuda.
Integrações CI-first — Codex pode ser invocado de Actions para tasks automáticas.

Quando não escolher

Exploração interativa — use Claude Code ou Copilot Agent.
Features onde você precisa guiar decisões arquiteturais em tempo real.
Projetos que precisam de contexto persistente complexo — Codex começa do zero toda task.
Ambientes air-gapped ou com data residency estrita — cloud pode não encaixar.
Budget sensível — compute + tokens em tasks longas pode acumular.

Segurança e limites

Sandbox

Cada task roda em container isolado:

Sem acesso a secrets externos (a menos que configurados)
Network limitada por padrão (npm install sim, api calls externas não)
Filesystem restrito ao clone do repo
Destruído ao fim da task

Credentials

OAuth com GitHub para acesso ao repo
Secrets do repo (GitHub Actions secrets) disponibilizados conforme política
Data retention configurável (enterprise plans)

Limites

Tempo máximo por task (minutos a hora, depende do plano)
Número de tasks simultâneas
Compute quota

Preocupações comuns

Data residency: código vai para servidores OpenAI. Enterprise plans oferecem controles.
Proprietary code: OpenAI compromete a não treinar com código de clientes enterprise.
Supply chain: packages instalados no sandbox podem ser maliciosos; sandbox protege o ambiente mas não o código que você vai mergear.
Acesso a docs internos: requer configuração (MCP, tools customizadas).

Armadilhas comuns

1. Task vaga

“Melhore a API” → Codex devolve mudanças aleatórias. Fix: descrição específica, acceptance criteria claros.

2. Sem AGENTS.md

Agent trabalha com conhecimento genérico, não do projeto. Fix: AGENTS.md detalhado na raiz.

3. Merge sem review

Todos os checks passam → você mergea → bug sutil. Fix: human review sempre.

4. Paralelização de tasks dependentes

Task A e B tocam nos mesmos arquivos em paralelo → conflitos no merge. Fix: serializar dependencies.

5. Expectativa de contexto persistente

“Use o trabalho da task anterior” → Codex não tem. Fix: escrever task self-contained ou usar artifacts.

6. Ignorar custo

Task de 30 min com o1 → dezenas de dólares. Fix: budget por task, escolha de modelo justificada.

7. Usar Codex para exploração

“Entenda por que isso está lento” → Codex não vê ambiente, não consegue profile. Fix: usar Claude Code local.

8. Sem testes em projetos Codex-first

Codex gera código, testes ficam para trás. Fix: CI com coverage gate; Codex instruído a escrever teste primeiro.

9. Network restricto causa falha silenciosa

Task precisa acessar API interna não permitida. Fix: configurar proxy/allowlist ou rodar local.

10. Depender de um único agent

Codex como única ferramenta é engessamento. Fix: usar junto com Claude Code e Copilot em papéis diferentes.

Como ganhar experiência prática

Esta nota é estrutura sobre Codex. Para internalizar, prática é insubstituível. Três caminhos curados:

Caminho 1 — AGENTS.md de alto valor + task simples (1 semana)

Em um projeto próprio:

Baseline: dispatch task via Codex sem AGENTS.md. Observe qualidade.
Escreva AGENTS.md detalhada (stack, convenções, comandos, antipatterns).
Re-rode mesma task. Compare qualidade do PR.
Itere AGENTS.md baseado em gaps.

Critério de sucesso: entende empiricamente o ROI de AGENTS.md; tem template próprio para próximos projetos.

Caminho 2 — Batch paralelo no Codex Technomanticus (1-2 semanas)

Identificar 4-5 tasks pequenas e independentes no próprio vault:

Adicionar frontmatter padrão a notas que não têm
Atualizar 4-5 MOCs específicas
Reorganizar 3 pastas seguindo convenção

Dispatch em paralelo para Codex CLI ou Cloud. Review cada PR sequencialmente.

Critério de sucesso: experimenta async/paralelo na prática; tem opinião sobre quando vale e quando não vale.

Caminho 3 — Codex em GitHub Actions em projeto profissional (quando aparecer)

Em projeto profissional, configurar Action que dispara Codex para: dependency update semanal, geração de release notes, triagem automática de issues. Medir impacto em throughput do time.

Critério de sucesso: automação rodando em produção, com governance e observabilidade.

Sugestão de ordem: Caminho 1 → Caminho 2 → Caminho 3.

Princípios universais:

AGENTS.md bem feito é a diferença entre “funciona” e “não funciona”.
Async é uma postura mental, não só técnica. “O que posso delegar e checar depois?” é a pergunta certa.
Paralelização real destrava throughput. 5 tasks em paralelo costumam render mais que 5 sequenciais — sem task-switching.
Custo escala com uso. Fácil gastar $50-100/mês em workflows pequenos; enterprise pode chegar a milhares.
Human review sempre. Codex erra de formas novas e criativas.

How to explain in English

Short pitch

“Codex is OpenAI’s cloud-native coding agent. Unlike Claude Code or Copilot, it runs in a sandbox in the cloud, clones the repo, and returns a PR. The value is async and parallel work — fire off five tasks, close the laptop, come back to five PRs ready for review. It complements interactive tools rather than replacing them.”

Deeper version

“Codex has three modes: cloud async via the web UI or ChatGPT app, local CLI for more controlled environments, and IDE integrations. Each task runs in an isolated container — clone, install deps, read AGENTS.md, plan, execute, open a PR. No persistent state between tasks; each one starts fresh.

Where Codex wins is async scale. Five small issues in the backlog? Dispatch five tasks in parallel, review PRs later. A 60-file refactor? Write a detailed task and let Codex grind while doing other work. It’s a different posture from interactive coding — fire, forget, review.

The configuration that matters is AGENTS.md, which is becoming something of a standard across tools — similar in role to CLAUDE.md or copilot-instructions.md. Good AGENTS.md means Codex understands architecture, conventions, and commands without re-explaining every time.

The limits to be clear on: no persistent context between tasks, sandbox has restricted network, and pricing is compute plus tokens — long complex tasks can add up. And human-review every PR, because agents fail in creative ways that CI doesn’t catch.”

Talking points

“Async and parallel is the killer feature. Not interactive speed.”
“AGENTS.md is standard now — invest in it.”
“Always human-review, even when all checks pass.”
“Codex complements Claude Code and Copilot, it doesn’t replace them.”
“Sandbox limits are features — they keep your host clean.”

Key vocabulary

agente de código → coding agent
caixa de areia → sandbox
execução assíncrona → asynchronous execution
tarefa em lote → batch task
paralelização → parallelization
efêmero → ephemeral
clonagem de repositório → repository cloning
contêiner isolado → isolated container

Recursos

Oficial

OpenAI Codex — página oficial
Codex Docs
Codex Skills
Codex CLI — projeto open source
Agents.md guide

Blogs e análises

Deep dives — Codex arquitetura, sandbox, history

Linha do tempo do nome “Codex”

2021 — “Codex” original: modelo GPT-3 fine-tuned em código público. Alimentou a primeira versão do Copilot.
2022 — descontinuação: OpenAI retirou Codex como produto separado; modelos seguintes foram nomeados GPT-4, etc.
2024-2025 — “Codex” relançado: não como modelo, mas como coding agent cloud. Usa modelos internos (GPT-4.1, o1, o3) especializados em tarefas agentic.

Isso confunde muita gente. “Codex” em 2026 é produto agent, não modelo.

Arquitetura sandbox

Cada task Codex roda em container isolado. Pipeline típico:

Task dispatch: user cria task via UI/API/CLI.
Container spawn: container efêmero (tipicamente Docker/Firecracker).
Repo clone: shallow clone do branch especificado.
Dependency install: detecta package manager (npm, pip, go mod, cargo) e instala deps.
AGENTS.md read: parser injeta instructions no context.
Agent loop: ReAct-style com tools do sandbox.
Test run: se configurado, roda testes.
Commit + PR: push do branch e abertura de PR com descrição gerada.
Container destroy: tudo efêmero.

Limitações do sandbox:

Sem acesso a recursos fora do sandbox (a menos que configurado).
Network restrita (npm install sim; arbitrary API calls não por padrão).
Filesystem apenas dentro do container.
Tempo máximo por task (configurável).

AGENTS.md como padrão emergente

AGENTS.md surgiu com Codex mas está virando padrão de facto cross-tool. Em 2026, vários frameworks aceitam o mesmo formato.

Por que virou padrão:

Formato é markdown simples, tool-agnostic.
Permite que um repo funcione com Codex, Cursor, Claude Code via leitura do mesmo arquivo.
Comunidade gravitou em torno via awesome-lists.

Ver Complete Guide to AGENTS.md.

Async workflow mental model

Codex requer uma mudança de postura. Interactive tools (Claude Code, Copilot) são “pair programming”. Codex é “delegate and review”. Isso afeta:

Como você escreve tasks: precisa ser auto-contida, sem contexto de conversa.
Como você paralellliza: fire-and-forget, volta quando pronto.
Como você review: review de PRs, não supervisionado em tempo real.

Senior devs que adotam bem Codex mudam hábitos para aproveitar async.

Casos comuns no mercado

Padrões frequentes em times usando Codex em produção. Não são casos vividos pessoalmente — são armadilhas recorrentes documentadas em post-mortems, talks, e literatura técnica.

Caso 1 — Task vaga virou PR ruim

“Melhore o módulo de logging” → Codex fez 40 mudanças aleatórias que misturavam style, imports, e refactor estrutural. PR inviável de revisar.

Fix:

Tasks sempre com escopo claro + acceptance criteria.
Template de task no wiki do time.
“Se sua task tem menos de 3 sentenças, é vaga demais.”

Lição: qualidade da task = qualidade do PR.

Caso 2 — Over-aggressive validation breaking clients

Padrão observado: task “add input validation” aplica validação agressiva demais a endpoint legacy. Campos opcionais com null passam a ser rejeitados. Quebra clientes antigos em produção após merge — CI passou (testes não cobriam esse caso).

Fix típico:

Testes de regressão contra contrato público.
Review manual semântico, não só checks automatizados.
Label breaking-change nos PRs que mudam contratos.

Lição: CI passing != safe. Human review semântico sempre.

Caso 3 — Tasks paralelas conflitando

Padrão observado: time despacha 8 tasks em paralelo. Algumas delas tocam arquivos sobrepostos. Maioria dos PRs auto-mergeia após review independente, alguns falham com conflict irresolvível, lições só aparecem na hora do merge.

Fix típico:

Serializar tasks com overlap de path.
“Path lock” manual no planejamento.
CI que detecta potential path conflicts entre PRs abertos.

Lição: paralelismo tem custo de coordenação. Não ignore.

Caso 4 — AGENTS.md desatualizado

Padrão observado: refactor grande muda convenções do projeto. AGENTS.md fica desatualizada. Codex continua produzindo código no estilo antigo por semanas até alguém notar.

Fix típico:

Policy: AGENTS.md faz parte de todo refactor arquitetural.
Review mensal do arquivo.
PR template inclui checkbox “AGENTS.md atualizada se necessário”.

Caso 5 — Cost explosion com modelo premium

Padrão observado: task complexa com extended thinking (o3) custa $25+ sozinha. Dev não sabia que estava usando o3. Task não era crítica. Bill do mês surpreende.

Fix típico:

Budget per task alert.
Default para GPT-4.1; o3 explicit opt-in.
Cost dashboard por dev/feature.

Lição: Codex com modelos premium pode acumular rápido.

Exercícios hands-on

Lab 1 — AGENTS.md de alto valor

Projeto real.
Baseline: task via Codex sem AGENTS.md.
Escreva AGENTS.md detalhada.
Re-rode task. Compare qualidade do PR.

Lab 2 — Task paralela batch

5 issues pequenas e independentes.
Delegue todas em paralelo para Codex.
Review cada PR sequencialmente.
Meça throughput vs fazer sequencial manualmente.

Lab 3 — Refactor com spec clara

Refactor real de tamanho médio (10-30 arquivos).
Escreva spec detalhada: before/after, acceptance criteria, out of scope.
Deleguê para Codex.
Review o PR. Avalie.

Lab 4 — Codex CLI local

Instale Codex CLI.
Use em workflow local por alguns dias.
Compare com Claude Code.
Documente diferenças de UX e output.

Lab 5 — GitHub Actions com Codex

Configure action que dispara Codex para: dependency update semanal.
Automated review de PRs labeled “review-me”.
Semana de observação.
Ajuste skills para qualidade.

Codex Technomanticus

Explorador

Codex

Codex

O que é

Capacidades principais

O modelo por trás

As três modalidades de uso

O que diferencia um senior usando Codex

Arquitetura e fluxo

AGENTS.md — a configuração crítica

Codex Skills

Workflows reais com Codex

Workflow 1 — Tasks paralelas em batch

Workflow 2 — Refactor amplo

Workflow 3 — Bug triage

Workflow 4 — Dependency update

Codex CLI

Diferenças com alternativas

Codex vs Claude Code

Codex vs Copilot

Quando escolher Codex

Quando não escolher

Segurança e limites

Sandbox

Credentials

Limites

Preocupações comuns

Armadilhas comuns

1. Task vaga

2. Sem AGENTS.md

3. Merge sem review

4. Paralelização de tasks dependentes

5. Expectativa de contexto persistente

6. Ignorar custo

7. Usar Codex para exploração

8. Sem testes em projetos Codex-first

9. Network restricto causa falha silenciosa

10. Depender de um único agent

Como ganhar experiência prática

Caminho 1 — AGENTS.md de alto valor + task simples (1 semana)

Caminho 2 — Batch paralelo no Codex Technomanticus (1-2 semanas)

Caminho 3 — Codex em GitHub Actions em projeto profissional (quando aparecer)

How to explain in English

Short pitch

Deeper version

Talking points

Key vocabulary

Recursos

Oficial

Blogs e análises

Deep dives — Codex arquitetura, sandbox, history

Linha do tempo do nome “Codex”

Arquitetura sandbox

AGENTS.md como padrão emergente

Async workflow mental model

Casos comuns no mercado

Caso 1 — Task vaga virou PR ruim

Caso 2 — Over-aggressive validation breaking clients

Caso 3 — Tasks paralelas conflitando

Caso 4 — AGENTS.md desatualizado

Caso 5 — Cost explosion com modelo premium

Exercícios hands-on

Lab 1 — AGENTS.md de alto valor

Lab 2 — Task paralela batch

Lab 3 — Refactor com spec clara

Lab 4 — Codex CLI local

Lab 5 — GitHub Actions com Codex

Veja também

Visão de gráfico

Sumário

Backlinks