Anatomia dos LLMs

LLMs são a infraestrutura central da engenharia de software assistida por IA em 2026. Mas usar um LLM sem entender como ele funciona é como dirigir sem saber que o carro tem freio — funciona até o momento em que não funciona. Esta trilha percorre a anatomia completa: de como texto vira números (tokens) até por que uma sessão de agente custa 5. Cobre arquitetura, modelos em produção (incluindo o ecossistema chinês), APIs, pricing, treino, evaluation, e as técnicas que determinam se você gasta dinheiro ou queima dinheiro.

Pré-requisitos

Nenhum. Esta trilha é o ponto de entrada da Formação Engenheiro de IA. Começa do zero e constrói progressivamente.

Preços e versões de modelos

Os preços e versões de modelos mencionados refletem o estado de maio de 2026. Este campo muda a cada trimestre. Verifique sempre a documentação oficial do provider antes de tomar decisões de arquitetura.

O que diferencia um senior em LLMs

  1. Tem modelo mental correto de tokenização e estima tokens de cabeça (~4 chars/token EN, ~3 PT-BR, mais para código)
  2. Distingue pretraining, SFT e RLHF — sabe explicar por que um modelo recusa/aceita certos prompts
  3. Entende attention e context window de forma prática — sabe por que “lost in the middle” acontece
  4. Usa [[Dicionário de IA#temperature|temperature]], [[Dicionário de IA#top-p|top_p]], [[Dicionário de IA#top-k|top_k]] com intenção, não como mágica
  5. Desenha prompts que retornam JSON válido consistentemente via structured outputs + validação + retry
  6. Sabe quando usar streaming vs não (UX vs facilidade de parsing)
  7. Aplica prompt caching corretamente e mede impacto em custo
  8. Faz tiering de modelos — roteia para Haiku/Flash o que der, escala para Opus/GPT-5 o necessário
  9. Mede tudo: tokens in/out, latência, custo, taxa de erro
  10. Trata LLM como fonte não-confiável — valida, faz retry, tem fallback, não confia em “parece ok”

Comece por aqui

Trilha sequencial recomendada — leia na ordem para construir do conceito até a decisão prática.

Bloco 1 — Fundamentos do Transformer

O alicerce. O que é um LLM, como texto vira tokens, o que limita o que o modelo “vê”, e o mecanismo que faz tudo funcionar.

Bloco 2 — Modelos em Produção

Quem compete com quem, quanto custam, e quando usar cada um.

Bloco 3 — APIs e Infraestrutura

Como a comunicação funciona, quanto custa, e como gastar menos.

Bloco 4 — Conceitos Avançados

O que muda quando modelos “pensam”, quando customizar, e para onde tudo isso vai.

Bloco 5 — Treino e Avaliação

Como modelos chegam ao comportamento que você vê — e como medir se estão funcionando em produção.

Rotas alternativas

Rota custo-zero (começar sem gastar)

“Quero rodar IA localmente sem pagar API”

01 - O que é um LLM02 - Tokens e tokenização08 - Modelos locais e self-hosting10 - Pricing de APIs — como calcular custos

Rota arquiteto (entender para projetar sistemas)

“Preciso tomar decisões técnicas sobre qual modelo e infra usar”

03 - A janela de contexto04 - Atenção e o mecanismo transformer07 - Dense vs Mixture-of-Experts09 - APIs de LLM — anatomia de uma chamada12 - Streaming, batching e latência

Rota decisor (escolher e comprar)

“Preciso decidir qual modelo usar no meu projeto”

05 - Panorama de modelos 202606 - Modelos chineses — DeepSeek, Qwen, Kimi, GLM10 - Pricing de APIs — como calcular custos14 - Fine-tuning vs prompting vs RAG

Rota otimização (reduzir custos)

“Já uso LLMs e quero gastar menos”

02 - Tokens e tokenização10 - Pricing de APIs — como calcular custos11 - Prompt caching e otimizações de API13 - Reasoning models e chain-of-thought

Rota produção (do POC ao deploy confiável)

“Quero levar LLM para produção com observabilidade real”

09 - APIs de LLM — anatomia de uma chamada16 - Como LLMs são treinados — pretraining, SFT, RLHF17 - Evaluation de LLMs em produção04 - Monitoramento — ccusage, Langfuse, dashboards

Trilha de aprendizado em 5 níveis (do zero ao domínio)

Roadmap prático

Nível 1 — Intuição (3-5 dias)

Use ChatGPT/Claude/Gemini pesadamente em problemas reais. Observe quando acertam, quando alucinam, quando são chatos demais.

Leitura: The Illustrated Transformer (Jay Alammar), 3Blue1Brown — But what is a GPT?.

Check: consegue explicar “atenção” usando analogia concreta?

Nível 2 — Conceitos técnicos (2-3 semanas)

Tokenização, embeddings, context window, parâmetros da API, pretraining → SFT → RLHF, limitações.

Leitura: State of GPT — Andrej Karpathy (clássico).

Check: lê resposta do LLM e tem intuição do porquê ele respondeu assim.

Nível 3 — API hands-on (3-4 semanas)

Construa scripts com Anthropic e OpenAI: chat, streaming, tool use, structured outputs. Implemente golden set + evaluation. Compare latência e custo entre 3 modelos. Implemente prompt caching e meça impacto.

Check: consegue levantar uma integração LLM em produção com confiança.

Nível 4 — Produção (1-2 meses)

Observabilidade (Langfuse/Helicone/LangSmith), guardrails (PII, output filtering, prompt injection), retry/fallback/timeout, rate limits, cost management.

Check: assume ownership de um serviço LLM-backed.

Nível 5 — Avançado (ongoing)

Fine-tuning quando justificado (LoRA, QLoRA, DPO), LLMs locais (Ollama, vLLM), quantização/distillation, evaluation profunda (LLM-as-judge, A/B test), papers (Attention is All You Need, InstructGPT, LLaMA, etc).

Leituras recomendadas

FonteAutorTipoCobertura
Attention Is All You NeedVaswani et al.PaperBloco 1 — arquitetura Transformer
Build a Large Language Model from ScratchSebastian RaschkaLivroBlocos 1-2 — construção prática
Let’s build GPT from scratchAndrej KarpathyVídeo (YouTube)Bloco 1 — implementação completa
Let’s build the GPT tokenizerAndrej KarpathyVídeo (YouTube)Nota 02 — BPE do zero
3Blue1Brown — Transformers explainedGrant SandersonVídeo (YouTube)Nota 04 — visualização de atenção
DeepSeek-V3 Technical ReportDeepSeek AIPaperNotas 06-07 — MoE e modelos chineses
LLM Cost ComparisonArtificial AnalysisSiteNotas 10-11 — pricing atualizado
InstructGPT paperOpenAIPaperNota 16 — fundamento do RLHF
Constitutional AIAnthropicPaperNota 16 — alignment via princípios
AI EngineeringChip HuyenLivro (2025)Notas 16-17 — eval e produção

How to explain in English

Elevator pitch

“LLMs are transformer-based neural networks trained to predict the next token. From that objective emerges remarkable language and code abilities. For production, the right framing is treating them as stochastic functions with untyped outputs — structured outputs, validation, retries, evaluation, and observability are not optional, they’re the same engineering discipline applied to any unreliable dependency.”

Talking points por tópico

  • On hallucination: “Mitigated with RAG and citations, structured outputs for format stability, and LLM-as-judge for fact verification. Features should be designed assuming hallucination will happen — nothing critical relies on the LLM being right.”
  • On cost: “Prompt caching and model tiering are the biggest wins. Caching a 4-5K-token system prompt typically cuts feature cost by 80%+.”
  • On evaluation: “Prompts without evals are superstition. Golden sets run on every prompt change is the bare minimum.”
  • On context window: “1M tokens sounds great until you benchmark lost-in-the-middle. RAG-filtered 8K usually beats raw dumps.”

Vocabulário-chave

PT-BREN
modelo de linguagem grandelarge language model (LLM)
transformadortransformer
atenção / auto-atençãoattention / self-attention
tokenizaçãotokenization
pré-treinamentopretraining
ajuste fino supervisionadosupervised fine-tuning (SFT)
aprendizado por reforço com feedback humanoreinforcement learning from human feedback (RLHF)
alucinaçãohallucination
janela de contextocontext window
corte de conhecimentoknowledge cutoff
temperaturatemperature
amostragemsampling
amostragem por núcleonucleus sampling (top-p)
saída estruturadastructured output
cache de promptprompt caching
uso de ferramentatool use / function calling
conjunto douradogolden set
juiz LLMLLM-as-judge
tempo até o primeiro tokentime to first token (TTFT)
não-determinismonon-determinism
injeção de promptprompt injection

Todas as notas

TABLE
  title AS "Título",
  status AS "Status",
  join(tags, ", ") AS "Tags"
FROM "03-Dominios/IA/Anatomia dos LLMs"
WHERE type != "moc"
SORT file.name ASC