Multimodal Prompting

Em 2026, modelos de fronteira já são multimodais nativos — o gargalo é o engenheiro ainda dar só texto. Esta trilha cobre como fornecer imagens, PDFs, áudio, vídeo e dados estruturados pro modelo, e como dirigir o tipo de leitura que ele faz desses inputs. A tese central: enviar a modalidade certa, no nível de resolução certo, com a instrução de leitura certa, destrava casos que pipelines OCR/Whisper-pra-texto não resolvem — e custa menos no agregado, mesmo o token de imagem sendo mais caro.

Pré-requisitos

05 - Panorama de modelos 2026 cobre quais famílias suportam o quê (Claude 4 family, GPT-5 family, Gemini 2.x) e dá vocabulário pra ler as notas seguintes sem cair em “Claude 4.5+” fantasma. Familiaridade básica com Prompt Engineering ajuda mas não é obrigatória.

Provider muda; modalidade nativa muda mais ainda

Limites de tamanho, formatos aceitos e custo por imagem/página/segundo mudam quase a cada release. As notas trazem ordens de grandeza estáveis em 2026, mas a fonte de verdade pra deploy é o doc oficial do provider — sempre.

Comece por aqui

Trilha sequencial recomendada — do porquê, passando pelas modalidades, até a técnica de dirigir a leitura e os limites.

Bloco 1 — Por quê (1 nota)

Por que multimodal nativo bate pipeline OCR/Whisper + texto, e por que o anti-padrão “me dá só o texto” ainda é a regra em 2026.

Bloco 2 — Por modalidade (4 notas)

Cada modalidade tem sua tabela de tokens, suas armadilhas e seu padrão de uso. SDK real Anthropic, OpenAI, Google em todas as notas.

Bloco 3 — Técnica e controle (1 nota)

A técnica que mais muda output sem mudar input: dizer o tipo de leitura.

Bloco 4 — Limites (1 nota)

O lado feio: alucinação visual, OCR ruim em handwriting, leitura de cor capenga, raciocínio espacial fraco, custo e latência.

Leituras recomendadas

FonteTipoCobertura
@hooeemBecome an AI Engineer, cap #17Thread / artigoEspinha dorsal da trilha — todas as notas
AnthropicVision (docs)Doc oficialNotas 02, 03 — tokens por imagem, PDF nativo
OpenAIVision guide (docs)Doc oficialNota 02 — low/high detail, tile billing
GoogleGemini API — Vision (docs)Doc oficialNotas 02, 03, 04 — imagem, PDF, vídeo
OpenAIWhisper (docs)Doc oficialNota 04 — transcrição barata como baseline
GoogleGemini Live API (docs)Doc oficialNota 04 — áudio/vídeo em tempo real
AnthropicPDF support (docs)Doc oficialNota 03 — PDF nativo Claude

Veja também

Todas as notas

LIST
FROM "03-Dominios/IA/Multimodal Prompting"
WHERE type != "moc"
SORT file.name ASC