O que é um LLM

TL;DR

Um Large Language Model é uma rede neural treinada em bilhões de tokens de texto para prever a próxima palavra — e, por extensão, para raciocinar, gerar código, traduzir e conversar. Em 2026, LLMs são a infraestrutura central da engenharia de software assistida por IA, com modelos que variam de 7 bilhões a mais de 1 trilhão de parâmetros e custam desde zero (open-weight) até centenas de dólares por milhão de tokens.

O que é

Um Large Language Model (LLM) é um modelo de machine learning baseado na arquitetura Transformer que aprende padrões estatísticos de linguagem a partir de quantidades massivas de texto. O treinamento consiste essencialmente em uma tarefa: dado um contexto de tokens anteriores, prever o próximo token. Essa tarefa simples, repetida trilhões de vezes sobre corpora enormes, produz modelos capazes de:

Gerar texto coerente e contextualmente relevante
Raciocinar sobre problemas lógicos e matemáticos
Escrever e depurar código em dezenas de linguagens
Traduzir entre idiomas naturais e formais
Seguir instruções complexas e multi-step

Uma capacidade merece destaque: o in-context learning — o modelo aprende uma tarefa nova só a partir de exemplos colocados no prompt (few-shot), sem nenhum ajuste de pesos, generalizando o padrão durante a própria inferência. É isso que faz prompting funcionar.

O termo “large” refere-se à escala de parâmetros — os pesos numéricos que codificam o conhecimento do modelo. Modelos modernos variam de ~7B (bilhões) de parâmetros (executáveis em hardware de consumo) até >1T (trilhão), acessíveis apenas via API ou clusters de GPUs.

Por que importa

Sem entender o que é um LLM, um engenheiro de software cai em três armadilhas:

Antropomorfismo — tratar o modelo como um colega que “entende” e “pensa”, quando na verdade ele calcula distribuições de probabilidade sobre tokens
Caixa preta — usar a ferramenta sem entender por que ela falha, alucina ou custa caro
Decisões cegas — escolher modelo errado para a tarefa (pagar caro por flagship quando um modelo budget resolve, ou usar budget onde precisa de reasoning)

Como funciona

O ciclo fundamental

graph TB
    A[Texto de entrada] --> B[Tokenização]
    B --> C[Embedding]
    C --> D[Camadas Transformer]
    D --> E[Distribuição de probabilidade]
    E --> F[Token predito]
    F -->|Autoregressive loop| B

Tokenização — o texto é quebrado em unidades chamadas tokens (ver 02 - Tokens e tokenização)
Embedding — cada token é convertido em um vetor numérico de alta dimensão
Processamento — os vetores passam por dezenas de camadas Transformer com mecanismo de atenção (ver 04 - Atenção e o mecanismo transformer)
Predição — o modelo produz uma distribuição de probabilidade sobre todo o vocabulário para o próximo token
Geração — o token mais provável (ou um amostrado) é selecionado e o ciclo recomeça

Fases de construção de um LLM

Fase	O que acontece	Custo típico
Pré-treino	Modelo aprende linguagem a partir de trilhões de tokens da web, livros, código	$10 M -$ 100M+
Post-training (SFT)	Ajuste supervisionado com exemplos de instruções e respostas de alta qualidade	$100 K -$ 1M
RLHF/RLAIF	Alinhamento com preferências humanas via reinforcement learning	$100 K -$ 1M
Quantização	Compressão dos pesos para reduzir memória e custo de inferência	Baixo

O que sai do pré-treino é um base model: um autocompletador puro, que continua qualquer texto mas não “responde” a instruções. O comportamento de assistente — seguir ordens, conversar, recusar — vem da camada fina de post-training (SFT + RLHF) aplicada sobre esse modelo-base. Por isso a mesma arquitetura de “prever o próximo token” produz tanto um autocomplete quanto um chatbot: a diferença está no que veio depois do pré-treino, não no mecanismo.

Categorias de modelos (2026)

Categoria	Exemplos	Parâmetros ativos	Uso típico
Frontier (flagship)	GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro	200B–1T+	Raciocínio complexo, arquitetura
Mid-tier	Claude Sonnet 4.6, Gemini Flash	50B–200B	Codificação diária, chat
Budget	GPT-4.1 Nano, Haiku 4.5, Flash-Lite	7B–50B	Autocomplete, tarefas simples
Open-weight	Llama 4, DeepSeek V4, Qwen 3.6	7B–700B	Self-hosting, pesquisa, soberania
Reasoning	o4, Claude Thinking, Gemini Deep Think	Variável	Problemas matemáticos, lógica

Dense vs MoE — a bifurcação arquitetural

A diferença mais importante entre modelos em 2026:

Dense — todos os parâmetros são ativados para cada token. Simples, estável, mas caro em escala. Exemplo: Llama 3 70B.
Mixture-of-Experts (MoE) — apenas um subconjunto de “especialistas” é ativado por token, via um roteador. Permite ter 1T de parâmetros totais com custo de inferência de um modelo de 100B. Exemplo: DeepSeek V4, Mixtral. Ver 07 - Dense vs Mixture-of-Experts.

O quadro em 2026

Três deslocamentos recentes mudam o que “LLM” significa na prática — e nenhum deles aparece nas definições de 2020.

LLM já não é só texto

Os modelos de fronteira de 2026 (GPT-5.x, Claude Opus 4.x, Gemini 3.x, Llama 4) são nativamente multimodais: processam imagem, áudio e vídeo no mesmo modelo, não como plugins acoplados. Tecnicamente são foundation models — o “L” de Language virou herança histórica. A tarefa de fundo segue idêntica (prever o próximo token); o que muda é que o vocabulário passa a incluir tokens de outras modalidades.

A escala parou de ser o eixo

A premissa que definiu 2018–2023 — “mais parâmetros e mais dados = mais capacidade” — bateu em retornos decrescentes. Ilya Sutskever declarou na NeurIPS 2024 que “o pré-treino como o conhecemos vai acabar”; Sara Hooker batizou o fenômeno de a morte lenta do scaling (2026). O eixo de progresso migrou do tamanho do modelo para o compute de inferência — modelos de raciocínio que “pensam” mais antes de responder (ver 13 - Reasoning models e chain-of-thought) — e para dados e treino melhores.

”Capacidades emergentes” são contestadas

A ideia de que certas habilidades surgem de repente acima de uma escala crítica é disputada. Schaeffer et al. (2023) mostraram que muitas “emergências” são artefato da métrica escolhida: trocar uma métrica descontínua (acerto/erro) por uma contínua faz o “salto” desaparecer e revela uma curva suave. Tratar emergência como fato consumado é arriscado.

Glossário

Termo	Definição
Parâmetro	Um peso numérico aprendido durante o treinamento
Token	Unidade mínima de texto que o modelo processa
Inferência	O processo de gerar respostas a partir de um modelo treinado
Context window	Quantidade máxima de tokens que o modelo pode “ver” de uma vez
Embedding	Representação vetorial de um token em espaço contínuo
Autoregressive	Geração sequencial: cada token depende dos anteriores
Open-weight	Modelo com pesos públicos (não necessariamente open-source na licença)

Armadilhas

“A IA entende” — LLMs calculam correlações estatísticas. Não entendem no sentido humano. Produzem texto plausível, não verdadeiro. Alucinações são consequência direta disso.
“Maior é melhor” — um modelo de 7B bem ajustado pode superar um flagship genérico em tarefas específicas, e modelos menores e mais novos batem os maiores e mais antigos: o Llama-3 8B (2024) superou o Falcon 180B (2023) em um ano; via destilação, um T5 de 770M chegou a igualar o PaLM 540B (redução de >700×). Tamanho importa, mas dados, treino e fine-tuning importam mais.
“Open-source = grátis” — rodar um modelo de 70B localmente exige ~40GB de VRAM. O hardware tem custo significativo.
Ignorar a família do modelo — cada família (GPT, Claude, Gemini, Llama) tem personalidade e pontos fortes diferentes. Testar em uma e assumir que serve para outra é receita para surpresa.

Veja também

02 - Tokens e tokenização — como o texto vira números
04 - Atenção e o mecanismo transformer — o mecanismo central da arquitetura
05 - Panorama de modelos 2026 — quem é quem no mercado
07 - Dense vs Mixture-of-Experts — a escolha arquitetural mais impactante
16 - Como LLMs são treinados — pretraining, SFT, RLHF — pré-treino, SFT e RLHF em detalhe
03 - A janela de contexto — o limite de tokens que o modelo enxerga
13 - Reasoning models e chain-of-thought — o compute de inferência que virou o novo eixo
18 - Compressão de modelos — quantização e destilação — por que um modelo menor pode bater um maior (o caso T5/PaLM)

Referências

Vaswani et al. — Attention Is All You Need (2017). O paper que introduziu a arquitetura Transformer.
Brown et al. — Language Models are Few-Shot Learners (GPT-3, 2020). Popularizou o in-context learning e a tese de que escala gera capacidades emergentes — tese hoje contestada (ver Schaeffer et al., 2023).
Raschka, Sebastian — Build a Large Language Model from Scratch (2024). Guia prático de construção de LLMs.
Clarifai — LLM Architecture Explained (2026). Overview das arquiteturas modernas.
Schaeffer et al. — Are Emergent Abilities of Large Language Models a Mirage? (2023). Argumenta que boa parte da “emergência” é artefato da métrica escolhida.
Raschka, Sebastian — Base vs. Instruct vs. Reasoning Models (FAQ). Distingue os tipos de modelo pelo estágio de treino.
Hooker, Sara — On the Slow Death of Scaling (2026). A virada do eixo escala→adaptabilidade; exemplos de modelos pequenos superando grandes.
Google Research — Distilling Step-by-Step (2023). Um T5 de 770M iguala o PaLM 540B via destilação.
Aditya J. — Beyond Text: The Rise of Large Multimodal Models — A 2026 Deep Dive (2026). Multimodalidade nativa como padrão nos modelos de fronteira.

Codex Technomanticus

Explorador

O que é um LLM

O que é um LLM

O que é

Por que importa

Como funciona

O ciclo fundamental

Fases de construção de um LLM

Categorias de modelos (2026)

Dense vs MoE — a bifurcação arquitetural

O quadro em 2026

LLM já não é só texto

A escala parou de ser o eixo

”Capacidades emergentes” são contestadas

Glossário

Armadilhas

Veja também

Referências

Visão de gráfico

Sumário

Backlinks