01 - O salto multimodal — por que isso importa

TL;DR

Em 2026, modelo de fronteira é multimodal nativo — Claude 4 (Opus, Sonnet, Haiku), GPT-5 e GPT-4.1, Gemini 2.x. O gargalo deixou de ser capacidade do modelo e virou hábito do engenheiro, que ainda monta pipeline OCR + extração + LLM-só-texto quando podia mandar a imagem direto. Multimodal nativo bate text-only em três frentes: não perde sinal na conversão (layout, hierarquia visual, gráficos, cor de status), encurta o pipeline (menos código, menos modos de falha) e desbloqueia casos onde a evidência é visual (acessibilidade, design review, debugging de UI, planilha com gráfico). Esta nota cobre o quê, por quê, e o anti-padrão “me dá só o texto” que ainda domina.

O salto

Em 2026, “multimodal” deixou de ser feature premium. É default nos flagships:

Claude Opus 4.6, Sonnet 4.6, Haiku 4.5 — imagem nativa (até 100 imagens por chamada), PDF nativo (até ~100 páginas), sem áudio/vídeo nativos
GPT-5.4, GPT-4.1 — imagem nativa (low/high detail), áudio via Whisper ou GPT-4o Realtime, PDF via Files API
Gemini 3.1 Pro, Gemini 3 Flash — imagem, áudio, vídeo e PDF nativos; vídeo até ~2h em algumas tiers
Open-weight — Qwen 3.6-VL, Llama 4 multimodal variants

O que mudou em relação a 2023-2024 não foi só “agora vê imagem” — foi: vê imagem no mesmo passe do texto. Imagem entra como sequência de tokens visuais, intercalada com tokens de texto, no mesmo contexto. Sem etapa intermediária, sem OCR separado, sem “primeiro descreve depois pergunta”.

Por que multimodal-native bate pipeline text-only

Pipeline tradicional pra “perguntar coisas sobre uma página”:

PDF → OCR (Tesseract / Textract / Unstructured)
    → Extração de tabela (Camelot / pdfplumber)
    → Concatenação em string
    → LLM (texto)

Pipeline multimodal-native:

PDF → LLM (multimodal)

A diferença não é só linhas de código. É perda de sinal em cada etapa do pipeline tradicional:

Layout vira ruído. OCR retorna texto linear; o modelo perde “esse número está numa caixa vermelha”, “essa linha é o cabeçalho”, “essa coluna alinha com aquela”. Em planilha financeira, isso é a metade da informação.
Hierarquia visual desaparece. Título, subtítulo, callout, nota de rodapé — tudo vira texto plano. O modelo perde “isso é uma nota legal, não o corpo do contrato”.
Elementos não-textuais somem. Gráficos, ícones, cores de status (verde/vermelho em dashboard), traços conectando caixas em diagrama — OCR não captura. O modelo decide com base em metade.
Erros de OCR contaminam. “Iva” virou “1va”, “0” virou “O”, “rn” virou “m”. O modelo argumenta em cima de input quebrado e alucina pra fechar.

Multimodal-native pula essas perdas. O custo em token por imagem é maior, mas o pipeline encurta, os modos de falha diminuem, e os casos antes impossíveis viram triviais.

Casos que multimodal nativo desbloqueia

Lista não-exaustiva — todos casos vistos em produção em 2025-2026:

Design review e acessibilidade

Mockup do Figma como PNG → “Liste os problemas de acessibilidade: contraste, hierarquia de heading, alvos de toque pequenos, labels de form ausentes”. O modelo vê o mockup como um humano veria, identifica contraste insuficiente em texto sobre fundo, percebe que o botão primário e secundário têm a mesma cor.

Debugging de UI

Screenshot do bug → “O dropdown não fecha quando clico fora. Aqui está o estado quando abre. O que está errado no z-index ou na hierarquia de overlay?“. O modelo vê que o dropdown está atrás de outro elemento, sugere fix.

Planilha com gráfico

Print do Excel ou Google Sheets → “Esse gráfico mostra crescimento de 30% MoM. Mas o eixo Y começa em 1000, não em zero. Refaça a leitura assumindo eixo Y honesto”. Modelo vê o gráfico, percebe a manipulação visual, recalcula. Pipeline OCR perderia o gráfico inteiro.

Diagrama de arquitetura

Foto do whiteboard → “Esse é o desenho da nossa arquitetura. Liste os serviços, as conexões, e me diga quais setas não fecham o ciclo (componentes orfãos)“. Modelo lê texto manuscrito + estrutura espacial das caixas + setas.

Documento com formulário

PDF de form preenchido → “Extraia todos os campos preenchidos e seus valores”. Sem OCR. Sem template específico. O modelo identifica que “Nome: ____” é label, “João” é valor.

Code walkthrough em vídeo

Vídeo de 10min do dev mostrando bug no IDE → Gemini direto, sem transcrever áudio separado. Modelo vê o cursor, o erro, escuta a narração, conecta os dois.

O anti-padrão “me dá só o texto”

Em 2026, ainda é comum ver:

# Anti-padrão
text = ocr_pdf(path)
response = llm.invoke(f"Analise: {text}")

Em vez de:

# Multimodal-native
response = llm.invoke([
    {"type": "image", "source": {"data": pdf_b64}},
    {"type": "text", "text": "Analise."}
])

Por que persiste:

Hábito. Pipeline antigo funciona “bem o bastante” pra casos simples. O dev nunca precisou voltar pra reavaliar.
Stack travado em LangChain antigo. Abstrações que assumem str como input do prompt.
Crença de que “imagem é caro”. Token por imagem é mais caro que token de texto equivalente, mas o cálculo correto é por tarefa resolvida, não por token consumido. Pipeline OCR consome desenvolvimento, manutenção, erros silenciosos e retrabalho.
Fear of unknown. “Não sei direito quanto custa” — então fica no que sabe.

Quando o anti-padrão é defensável:

Documento puramente textual sem layout relevante. Romance, artigo de blog em texto puro. OCR não perde nada porque não tinha nada visual.
Volume gigantesco com tolerância a erro. Indexar 10 milhões de páginas pra busca. Custo por imagem torna-se proibitivo. Use OCR + retrieval, depois multimodal só pra páginas relevantes (ver 03 - PDFs e documentos — extração e análise).
Compliance que exige cadeia de custódia textual. Auditoria que precisa do .txt extraído como artefato separado.

Em todos os outros casos, em 2026, o default deveria ser multimodal-native.

O custo de fazer errado

Cenário típico: imagine um time analisando extratos bancários PDF com pipeline OCR + LLM-só-texto. Acerto em valores tende a ficar na faixa de 70-85% — número que parece bom até alguém auditar. Migrar pra modelo multimodal-native (PDF nativo no Claude, Gemini ou OpenAI Files) costuma subir esse acerto pra 95%+, porque preserva contexto visual (caixas, alinhamento de colunas, posição de campo) que o OCR linear perdia. O token por documento sobe; o custo agregado (incluindo retrabalho manual em erro silencioso) tende a cair porque erro silencioso vira erro detectável — modelo às vezes responde “não consigo ler essa região” em vez de chutar.

A lição: medir custo por tarefa resolvida corretamente, não custo por token consumido.

Fontes

@hooeem — Become an AI Engineer, cap #17 (Multimodal Prompting). Espinha dorsal da trilha.
Anthropic — Vision (docs). Capabilities e limites do Claude.
OpenAI — Vision guide (docs). Como GPT-4o/5 leem imagem.
Google — Gemini API — Document understanding (docs). Multimodal nativo no Gemini.

Veja também

02 - Imagens como input — screenshots, charts, mockups — a modalidade mais comum, com tokens por provider
03 - PDFs e documentos — extração e análise — quando PDF nativo bate OCR
06 - Como dizer ao modelo o tipo de leitura — multimodal sem instrução de leitura é desperdício
07 - Limites e armadilhas multimodais — onde multimodal nativo falha

Codex Technomanticus

Explorador

01 - O salto multimodal — por que isso importa

01 - O salto multimodal — por que isso importa

O salto

Por que multimodal-native bate pipeline text-only

Casos que multimodal nativo desbloqueia

Design review e acessibilidade

Debugging de UI

Planilha com gráfico

Diagrama de arquitetura

Documento com formulário

Code walkthrough em vídeo

O anti-padrão “me dá só o texto”

O custo de fazer errado

Fontes

Veja também

Visão de gráfico

Sumário

Backlinks