Observability e produção

TL;DR

Galho 5 da trilha Node Senior. Cobre os três pilares de observability (logs, métricas, traces) com ferramentas idiomáticas do ecossistema (pino, prom-client, OpenTelemetry). Diagnóstico avançado de performance e memória (clinic.js, heap snapshots). Patterns de resiliência que toda API precisa conhecer (graceful shutdown, circuit breaker, connection pool tuning). Pré-requisitos: galho 1 (Runtime e Event Loop) e galho 4 (Frameworks e arquitetura).

Sobre este galho

Este galho cobre observability e produção em Node.js: os três pilares (logs, métricas, traces), golden signals, SLO/SLA, ferramentas idiomáticas do ecossistema (pino, prom-client, OpenTelemetry), diagnóstico avançado (clinic.js, heap snapshots) e patterns de resiliência (graceful shutdown, circuit breaker, connection pool tuning).

Pré-requisitos:

index (galho 1) — event loop phases, libuv thread pool, bloqueio — necessário para entender event loop lag e clinic.js
index (galho 4) — middleware pipeline e hooks de shutdown nos frameworks

Audiência primária: dev senior em prep para entrevista internacional. Cada nota tem seção “Em entrevista” com frase pronta em inglês + vocabulário PT→EN.

Audiência secundária: o mesmo dev instrumentando ou debugando uma API em produção.

Comece por aqui — trilha completa (12 notas)

Bloco A — Visão geral

01 - Os três pilares - logs, métricas e traces

Bloco B — Os três pilares

Bloco C — Diagnóstico avançado

Bloco D — Resiliência

Bloco E — Fechamento

12 - SLOs, dashboards, alertas e cheatsheet

Rotas alternativas

Rota entrevista internacional

01 → 02 → 04 → 06 → 09 → 10 → 12. Foco em explicar os três pilares e patterns de resiliência para entrevistador.

Rota produção e debugging

01 → 07 → 08 → 09 → 11 → 12. Para quem está debugando um problema em produção agora.

Rota Node-specific metrics

04 → 05 → 07 → 12. Para instrumentar métricas específicas do runtime Node (event loop lag, GC, heap).

Rota resiliência/SRE

09 → 10 → 11 → 12. Para quem está configurando resiliência numa API existente.

Rota OpenTelemetry completa

01 → 03 → 06 → 12. Para quem quer entender distributed tracing do zero.

Todas as notas

TABLE status, updated
FROM "03-Dominios/Node/Observability e produção"
WHERE type = "concept"
SORT file.name ASC

Veja também

Node.js (MOC central)
Node.js — tronco
index — galho 1
index — galho 2
index — galho 3
index — galho 4

Codex Technomanticus

Explorador

Observability e produção

Observability e produção

Sobre este galho

Comece por aqui — trilha completa (12 notas)

Bloco A — Visão geral

Bloco B — Os três pilares

Bloco C — Diagnóstico avançado

Bloco D — Resiliência

Bloco E — Fechamento

Rotas alternativas

Rota entrevista internacional

Rota produção e debugging

Rota Node-specific metrics

Rota resiliência/SRE

Rota OpenTelemetry completa

Todas as notas

Veja também

06 - Tracing distribuído com OpenTelemetry

07 - Profiling avançado com clinic.js

08 - Detecção e diagnóstico de memory leaks

09 - Graceful shutdown profundo

10 - Circuit breaker e fallback com opossum

Connection pool tuning

SLOs, dashboards, alertas e cheatsheet

Os três pilares: logs, métricas e traces

Logging estruturado com pino

Correlation IDs e context propagation

Métricas com prom-client

Node-specific metrics: event loop lag, GC e heap