03 - Modelos de imagem 2026 — DALL-E, Imagen, Midjourney, FLUX, SD

TL;DR

Em 2026, seis modelos cobrem 90% dos casos práticos: DALL-E 3 (OpenAI, integrado com ChatGPT, segue instrução bem), Imagen 3 (Google, photorealismo + texto), Midjourney v6.1 (assinatura mensal, qualidade artística, estilo consistente), FLUX.1 (Black Forest Labs, pro fechado + dev/schnell open-source com qualidade próxima da MJ), Stable Diffusion 3.5 (Stability AI, open-source, ecossistema de LoRAs e ControlNet) e Ideogram 2 (especialista em texto-na-imagem). Cada um tem ponto forte e fraco; decisão por entregável segue regra simples (poster com texto → Ideogram/Imagen, photorealístico → DALL-E/Imagen, artístico → Midjourney, OSS self-host → FLUX/SD). Releases novos saem rápido — fonte de verdade pra deploy é doc oficial.

Estado 2025-2026, sujeito a mudança

Esta nota reflete o landscape de fim de 2025 / início de 2026 — Midjourney v6.1 atual com v7 rumored, Imagen 3 atual, FLUX.1 família estável. Provider lança versão nova a cada poucos meses. Antes de deploy, valide capabilities atuais no doc oficial.

Tabela comparativa

ModeloProviderOpen weightsCustoBest forWorst atNotas
DALL-E 3OpenAIFechadoAPI por imagem (~$0.04-0.08 standard/HD)Segue instruções específicas, texto razoável, integração com ChatGPTPhotorealismo extremo, estilo artístico consistenteDisponível via API e ChatGPT; bom default pra quem está em fluxo OpenAI
Imagen 3GoogleFechadoAPI por imagem via Vertex AIPhotorealismo, renderização de texto, qualidade fotográficaEstilos artísticos exóticosAcessível via Gemini API e Vertex AI; alguns modos exigem allowlist
Midjourney v6.1MidjourneyFechadoAssinatura ($10-120/mês)Qualidade artística, estilo consistente via --sref, controle finoAPI oficial limitada (Discord-first, web app maduro)Padrão de fato pra trabalho artístico/branded; v7 rumored mas tratá-lo como especulativo
FLUX.1 [pro]Black Forest LabsFechadoAPI (~$0.05/imagem)Qualidade próxima da MJ, prompt adherence forteEstilo artístico distintivo da MJTop-tier comercial open-ish; via fal.ai, Replicate, BFL API
FLUX.1 [dev]Black Forest LabsAberto (non-commercial)Self-host (compute próprio) ou ~$0.02-0.03 hostedCustomização via LoRA, controle, OSS responsávelPhotorealismo extremoPode rodar em GPU consumer (24GB VRAM ideal); base pra fine-tunes
FLUX.1 [schnell]Black Forest LabsAberto (Apache 2.0)Self-host barato ou ~$0.003/imagemVelocidade (4 steps), iteração rápida, comercialQualidade abaixo de dev/proBoa pra prototipagem em volume
Stable Diffusion 3.5 LargeStability AIAbertoSelf-host (compute) ou hostedCustomização extrema (LoRAs, ControlNet, IP-Adapter), comunidade enormeQualidade base abaixo de FLUX devPadrão de fato pra OSS; ecossistema vasto em Civitai/HuggingFace
Ideogram 2IdeogramFechadoWeb app + APITexto-na-imagem (posters, signs, letras corretas)Imagens sem texto (não é vantagem)Especialista; ideal pra poster, infográfico, asset com tipografia

Forças e fraquezas por modelo

DALL-E 3 (OpenAI)

Forte: segue instruções específicas literalmente — “logo no canto superior direito, texto centralizado no meio, paleta dark mode” funciona melhor que na média. Texto razoável. Integração com ChatGPT facilita iteração conversacional. Edit mode (inpainting) integrado. Fraco: photorealismo extremo (vence Imagen). Estilo artístico marcante (vence Midjourney). Aspect ratios limitados (1:1, 16:9, 9:16, sem 4:5 nativo em alguns endpoints).

Imagen 3 (Google)

Forte: photorealismo e fidelidade fotográfica. Renderização de texto está entre as melhores. Acesso via Vertex AI permite uso enterprise com SLA. Fraco: estilos artísticos não-fotográficos saem mais genéricos. Filtros de segurança agressivos podem bloquear prompts inofensivos. Disponibilidade regional irregular.

Midjourney v6.1

Forte: qualidade artística que vira marca registrada. --sref <url> e --cref permitem consistência de estilo e personagem entre gerações. Comunidade enorme com prompts/estilos compartilháveis. Controle fino (--ar, --stylize, --chaos, --weird). Fraco: API oficial limitada — uso em pipeline automatizado historicamente passou por Discord bots ou terceiros não-oficiais. Texto na imagem é fraco (melhorou em v6 mas ainda atrás de Ideogram). Assinatura mensal, não pay-per-use.

FLUX.1 [pro/dev/schnell]

Forte: prompt adherence (segue instrução) considerada melhor que MJ em muitos benchmarks. Versão [dev] é aberta (non-commercial) e roda em GPU consumer com VRAM razoável. Schnell é a versão rápida (4 steps) pra iteração. Já existe modo edição (FLUX.1 Tools — Fill/Depth/Canny/Redux). Fraco: estilo artístico distintivo da MJ não está aí. Texto em imagem melhorou mas ainda inferior a Ideogram. Documentação oficial ainda em maturação.

Stable Diffusion 3.5

Forte: ecossistema. LoRAs pra praticamente qualquer estilo. ControlNet pra controle de pose/edge/depth. IP-Adapter pra reference image. Ferramentas como Automatic1111, ComfyUI, InvokeAI dão controle granular. Comunidade Civitai. Fraco: qualidade base sem fine-tunes está atrás de FLUX dev. Curva de aprendizado alta (modelos, samplers, schedulers, CFG, LoRAs). Para hosted hands-off, não é o default — vai pra FLUX ou Imagen.

Ideogram 2

Forte: texto na imagem é o caso de uso. Posters, signs, lettering, infográficos com tipografia legível. Em 2026, ainda lidera essa subcategoria com Imagen 4 (quando disponível) e FLUX dev encostando. Fraco: fora do caso “texto na imagem”, é mediano. Não é escolha pra hero artístico ou mockup fotorealista.

Decision tree por entregável

Atalho mental pra decidir, mesmo sem benchmark próprio:

Tem texto crítico na imagem (poster, infográfico, signage)?
├── Sim
│   ├── Volume alto, automação?    → Imagen 3 (Vertex) ou FLUX dev
│   └── One-off, qualidade máxima? → Ideogram 2
│
└── Não
    │
    ├── Photorealismo (mockup, capa fotográfica, produto)?
    │   ├── Closed ok                → Imagen 3 ou DALL-E 3
    │   └── Self-host                → FLUX dev (com LoRA realístico) ou SD 3.5
    │
    ├── Artístico distintivo (hero blog, capa de podcast, ilustração de marca)?
    │   ├── Assinatura ok            → Midjourney v6.1
    │   └── OSS / pipeline           → FLUX dev (qualidade próxima)
    │
    ├── Pipeline automatizado em volume (geração programática)?
    │   ├── Custo importa            → FLUX schnell ou SD 3.5
    │   └── Qualidade importa        → FLUX pro
    │
    └── Mockup conceitual rápido (design review, brainstorm)?
        └── DALL-E 3 (via ChatGPT, iteração conversacional)

Modos de edição: além do “text-to-image”

Geração from-scratch é só uma feature; produção real usa muito edição:

  • Inpaint (mask + new content): pinte máscara sobre região, peça novo conteúdo só ali. DALL-E (Edit mode), FLUX.1 Fill, SD Inpaint via ControlNet.
  • Outpaint (expand canvas): estende borda da imagem. DALL-E Edit, FLUX, SD.
  • Image-to-image (i2i): imagem base + prompt → variação. Praticamente todos os modelos.
  • ControlNet (SD/FLUX): controla pose, edge, depth, segmentação. Forte na pipeline de produção, especialmente pra mockups com layout exato.
  • Reference image (--cref em MJ, IP-Adapter em SD, Redux em FLUX): preserva personagem ou estilo entre gerações.

Modos de edição merecem nota própria; nota 06 - Iteração visual — controlled changes cobre o essencial pra controle de iteração.

Fontes

  • OpenAIImage generation guide (docs). DALL-E 3 capabilities e edit mode.
  • GoogleImagen on Vertex AI (docs). Imagen 3 e text rendering.
  • MidjourneyDocumentation (docs). Parâmetros, --sref, --cref, --ar.
  • Black Forest LabsFLUX.1 docs (docs). FLUX família pro/dev/schnell e FLUX.1 Tools.
  • Stability AIStable Diffusion 3.5 (docs). SD 3.5 Large/Medium.
  • IdeogramDocs (docs). Texto-na-imagem.

Veja também