Наблюдаемость и SRE
Раздел описывает подходы к мониторингу, логированию, управлению инцидентами и целям надёжности.
Разделы
- Метрики (DORA / SPACE) — что измеряем и зачем
- Логирование & трассировка — OpenTelemetry, structured logging
- Управление инцидентами — P0/P1, war-room, постмортемы
- SLO & Error Budgets — цели надёжности, бюджеты ошибок
Три столпа наблюдаемости
Metrics Logs Traces
(что случилось) (почему случилось) (где случилось)
│ │ │
└──────────────────┼───────────────────┘
│
Observability
(понимание системы)