Observability

Sem observability, debugar LLM em produção é arqueologia — você sabe que algo quebrou ontem mas não sabe o quê. Stack tracking convencional (APM, logs estruturados, métricas) foi desenhado pra HTTP, banco e fila — não pra um sistema onde a unidade de trabalho é uma chamada com 12k tokens de entrada, 3 ferramentas executadas no meio, 1.800 tokens de raciocínio invisíveis ao usuário e um output que pode variar de 200 a 8.000 tokens dependendo da pergunta. Esta trilha define observability de LLM como disciplina distinta: o que precisa ser instrumentado, em que padrão, com qual ferramenta, e como manter compliance enquanto você loga prompts que muitas vezes contêm PII.

Pré-requisitos

Anatomia dos LLMs resolve a unidade básica (token, contexto, custo). Recomendo passar antes pelo ângulo de custo em 04 - Monitoramento — ccusage, Langfuse, dashboards — esta trilha complementa aquela: lá o foco é dinheiro, aqui o foco é qualidade, debug e compliance.

Esta trilha não duplica a nota de monitoramento de custos

A nota 04 - Monitoramento — ccusage, Langfuse, dashboards cobre o ângulo financeiro (ccusage, dashboards de provider, alertas de custo, breakdown por modelo). Esta trilha cobre o restante: anatomia de trace, escolha de ferramenta de tracing, versionamento de prompts, session replay, métricas além de custo, e PII em logs. Quando precisar dos dois ângulos, leia em conjunto.

Comece por aqui

Trilha sequencial recomendada — por quê → o que é o dado → ferramentas → práticas de uso → compliance.

Bloco 1 — Por quê (1 nota)

A justificativa pra ter uma stack separada de observability pra LLM.

Bloco 2 — O dado (1 nota)

A estrutura fundamental que toda ferramenta de tracing manipula.

  • 02 - Anatomia de um trace LLM — sessão, trace, spans; convenções semânticas OpenTelemetry GenAI; hierarquia em agents; diagrama da árvore de trace

Bloco 3 — Ferramentas (2 notas)

O ecossistema de tracing em 2026 — quem é referência e quem são alternativas viáveis.

Bloco 4 — Práticas (3 notas)

Como usar tracing pra resolver problemas operacionais reais.

Bloco 5 — Compliance (1 nota)

A camada legal e ética sem a qual logging vira passivo.

Rotas alternativas

Rota mínima (preciso resolver hoje)

“Tenho LLM em produção e zero observability — me dê o caminho mais curto”

01 - Por que LLMs precisam de observabilidade02 - Anatomia de um trace LLM03 - Langfuse — open-source standard08 - Privacy e PII em logs

Rota debug-first (já estou afogado em incidente)

“Tenho um bug em produção que não consigo reproduzir — preciso instrumentar pra ontem”

06 - Session replay e debugging02 - Anatomia de um trace LLM03 - Langfuse — open-source standard

Rota platform-engineering (estou desenhando a stack)

“Estou montando observability greenfield — quero escolher bem”

02 - Anatomia de um trace LLM04 - Helicone, Phoenix, OpenLLMetry — alternativas03 - Langfuse — open-source standard07 - Métricas que importam — latência, custo, qualidade08 - Privacy e PII em logs

Rota compliance-first (já fui chamado pelo jurídico)

“Logging vazou PII / preciso documentar tracing pra auditoria”

08 - Privacy e PII em logs05 - Versionamento de prompts02 - Anatomia de um trace LLM

Leituras recomendadas

FonteTipoCobertura
OpenTelemetrySemantic Conventions for Generative AISpecNota 02; padrão dos atributos gen_ai.*
LangfuseDocumentation · TracingDocsNotas 03, 05, 06
OpenLLMetryGitHub traceloop/openllmetryLib + docsNota 04; instrumentação OTel pura
Arize Phoenixphoenix.arize.com · GitHubOSS + docsNota 04
HeliconeDocsDocsNota 04
HoneycombLLM observability talksPosts + palestrasNotas 01, 07; observability geral aplicada a LLM
AnthropicBuilding effective agents — tracing sectionPostNotas 01, 02; tracing em agents
Hamel HusainYour AI Product Needs EvalsEnsaioNota 01; observability como gêmeo de eval
EU AI ActTexto consolidadoRegulaçãoNota 08
LGPDLei 13.709/2018LeiNota 08

Veja também

Todas as notas

LIST
FROM "03-Dominios/IA/Observability"
WHERE type != "moc"
SORT file.name ASC