Como LLMs são treinados — pretraining, SFT, RLHF

TL;DR

O pipeline canônico tem quatro estágios que explicam quase todo o comportamento que você vê na API. Pretraining “decora a internet” (predict next token, custo de centenas de milhões em compute). SFT ensina formato de assistente. RLHF alinha com preferências humanas. Constitutional AI (Anthropic) reduz dependência de labelers via princípios escritos. Saber esse pipeline explica por que modelos são bajuladores, recusam tarefas inofensivas, e por que fine-tuning posterior muda menos do que você espera.

O pipeline em uma imagem

graph LR
    A["1️⃣ Pretraining<br/>(decorar a internet)"] --> B["2️⃣ SFT<br/>(virar assistente)"]
    B --> C["3️⃣ RLHF<br/>(alinhar com preferências)"]
    C --> D["4️⃣ Constitutional AI<br/>(princípios escritos)"]

Cada estágio adiciona uma camada de comportamento. Não substitui a anterior — modula.

Estágio 1 — Pretraining

“Decorando a internet.”

AspectoDetalhe
DadosTrilhões de tokens (web, livros, código, papers)
ObjetivoDado N tokens, prever o N+1
ResultadoModelo “sabe” quase tudo sobre linguagem, fatos comuns, código — mas não sabe ajudar
CustoDezenas a centenas de milhões de dólares em GPU-anos
DuraçãoSemanas a meses em milhares de GPUs

Como se comporta um modelo só com pretraining:

User: "A capital da França é"
Model: "Paris. A capital da Alemanha é Berlim. A capital da Espanha é Madri..."

Ele continua o padrão. Não responde à sua pergunta como assistente — completa texto plausível.

Por que isso importa para você

Todos os “fatos” do modelo vêm daqui. Knowledge cutoff = data dos dados de pretraining. Bias dos dados → bias do modelo. Não é “bug” — é o mecanismo central.

Estágio 2 — Supervised Fine-Tuning (SFT)

“Aprendendo a ser assistente.”

AspectoDetalhe
DadosMilhares a centenas de milhares de pares (pergunta, resposta ideal) escritos por humanos
ObjetivoAjustar para responder em formato de assistente
ResultadoModelo agora responde “A capital da França é Paris” quando perguntado
CustoPequena fração do pretraining
DuraçãoDias

A mudança de comportamento é dramática. O mesmo modelo que continuava listando capitais agora responde uma pergunta com uma resposta.

Quem faz SFT:

  • Anthropic, OpenAI, Google, Meta — internamente
  • Comunidade open source — datasets como Anthropic HH-RLHF, OpenAssistant
  • Você pode fazer SFT em modelos open source (LoRA, QLoRA, full fine-tuning)

Estágio 3 — RLHF (Reinforcement Learning from Human Feedback)

“Aprendendo o que humanos preferem.”

graph TB
    A["Modelo gera<br/>respostas A e B"] --> B["Humano ranqueia:<br/>A é melhor que B"]
    B --> C["Treinar reward model<br/>que prediz preferência"]
    C --> D["Otimizar LLM via RL (PPO, DPO)<br/>para maximizar reward"]
AspectoDetalhe
ProcessoHumanos comparam respostas; treina-se reward model; LLM é otimizado via RL para maximizar reward
AlgoritmosPPO (Proximal Policy Optimization), DPO (Direct Preference Optimization, mais novo)
ResultadoModelo útil, honesto, inofensivo — mais alinhado com expectativas humanas
CustoCaro em human labelers

Side effects negativos do RLHF:

  • Bajulação — modelo aprende que humanos gostam de elogios
  • Hedging excessivo — “isso depende de muitos fatores”, “sou apenas um modelo de linguagem”
  • Recusa precaucionária — recusa tarefas inofensivas por excesso de safety
  • Mode collapse — diversidade de output reduz; respostas se parecem demais
  • Sycophancy — concorda com o usuário mesmo quando deveria discordar

Comportamentos "chatos" são RLHF, não pretraining

Se o modelo está se desculpando demais, hedging, ou recusando tarefas razoáveis — isso é artefato de RLHF, não falha do modelo base. System prompt claro pode reverter boa parte desses comportamentos.

Estágio 4 — Constitutional AI (Anthropic)

“Princípios escritos no lugar de mais labelers.”

Específico da Anthropic, mas a ideia se espalhou em variantes.

AspectoDetalhe
ProcessoConjunto de princípios escritos guia o próprio modelo a auto-avaliar respostas
PrincípiosExemplos: “Be helpful, harmless, honest”, “Avoid sycophancy”, “Cite uncertainty”
ResultadoClaude tende a ser mais consistente em recusas, mais transparente sobre seu raciocínio, menos bajulador
VantagemReduz dependência de labelers humanos para safety; escala melhor

Implicações: Claude tem comportamentos sutilmente diferentes de GPT — não por ser “mais inteligente”, mas por ter passado por Constitutional AI em vez de só RLHF tradicional.

Variantes recentes (2025-2026)

DPO (Direct Preference Optimization)

Substitui RLHF tradicional. Em vez de treinar reward model + RL, otimiza diretamente do dataset de preferências. Mais simples, mais barato, comparável em qualidade. Adoção crescente.

RLAIF (RL from AI Feedback)

Usa outro LLM como labeler em vez de humano. Reduz custo. Cuidado: viés do labeler-LLM se propaga.

Mixture of Experts pós-training

Para modelos MoE (DeepSeek, Mixtral), pós-training tem cuidados específicos com routing dos experts.

Long-context fine-tuning

Modelos modernos (Claude 200K+, Gemini 1M+, GPT-5) precisam de SFT/RLHF em prompts longos para evitar context rot muito severo.

Implicações práticas para você

1. Fine-tuning posterior do usuário muda pouco

LoRA/QLoRA em cima de modelos comerciais ajusta margens. Não espere alteração radical de personalidade ou novas capacidades — pretraining domina.

2. Prompt engineering vence quase sempre

99% das diferenças que você quer ver no comportamento são reveladas por prompt + system message. Antes de pensar em fine-tune, exauste prompt engineering (Skills e Prompting).

3. Recusas são reverssíveis (parcialmente)

Se modelo recusa tarefa inofensiva, system prompt explicando contexto resolve em ~80% dos casos. Não é sempre “limitação do modelo” — é cautela do RLHF.

4. Knowledge cutoff é fixo

O modelo só sabe o que estava nos dados de pretraining + uma pequena janela de SFT. Para info recente: RAG ou tool use (web search). Não tem como o modelo “saber” o que não viu.

5. Modelos diferentes têm pós-training diferente

ModeloPós-training característico
ClaudeConstitutional AI + RLHF — mais conservador, mais transparente
GPTRLHF clássico + DPO — mais “agradável”
GeminiRLHF + Google internal alignment
LlamaSFT + DPO open — diretamente otimizável
DeepSeekRL focado em raciocínio — mais “raw”

Escolha de modelo é também escolha de persona moldada pelo pós-training.

Quando faz sentido fine-tune?

SituaçãoVale fine-tune?
Mudar tom de voz / persona✅ LoRA basta
Domínio jurídico/médico com vocabulário específico✅ Sim, com cuidado
Adicionar conhecimento factual❌ Não — use RAG
”Tornar o modelo mais inteligente”❌ Impossível — pretraining é fixo
Prompt está longo e caro⚠️ Considere fine-tune para encurtar
Adicionar nova skill emergente❌ Improvável de funcionar

Ver 14 - Fine-tuning vs prompting vs RAG para árvore de decisão.

Veja também

Referências

  • OpenAIInstructGPT paper (2022) — fundamento do RLHF.
  • AnthropicConstitutional AI: Harmlessness from AI Feedback (2022).
  • Rafailov et al.Direct Preference Optimization (2023).
  • KarpathyState of GPT (2023, ainda relevante).
  • HuggingFaceRLHF: Reinforcement Learning from Human Feedback (blog).