Skip to content

Управление инцидентами

Уровни инцидентов

УровеньКритерииПримеры
P0Полная недоступность продукта для всех пользователейПадение всех сервисов, потеря данных
P1Критичная функциональность недоступна для части пользователейПлатежи не проходят, авторизация сломана
P2Деградация производительности или minor feature brokenМедленные ответы, поиск не работает
P3Косметические проблемы, workaround существуетUI-баг, некорректный текст

Процедура реагирования

P0 / P1: War Room

Обнаружение → Алерт → War Room → Mitigate → Resolve → Postmortem
    (auto)    (5 мин)  (15 мин)   (ASAP)    (часы)    (3 дня)
  1. Обнаружение — автоматический алерт или ручной репорт
  2. Подтверждение — дежурный инженер подтверждает инцидент
  3. War Room — создаётся канал #incident-YYYY-MM-DD-краткое-описание
  4. Роли:
    • Incident Commander — координирует, принимает решения
    • Tech Lead — технический анализ и решение
    • Communicator — обновляет стейкхолдеров
  5. Mitigation — приоритет: восстановить сервис (rollback, restart, scale)
  6. Resolution — найти и устранить root cause
  7. Postmortem — в течение 3 рабочих дней

P2 / P3

  • Заводится задача в трекере с приоритетом
  • Решается в рамках обычного рабочего процесса

On-Call

Ротация

  • Дежурство 1 неделя, ротация внутри стрима
  • On-call инженер доступен 24/7 для P0/P1
  • Компенсация за дежурство:

Обязанности on-call

  • Реагировать на алерты в SLA
  • Быть первой линией при инцидентах
  • Передать контекст следующему дежурному

Postmortem

Принцип: Blameless

Цель постмортема — улучшить систему, а не найти виноватого.

Шаблон

markdown
# Postmortem: Краткое описание

## Summary
Что произошло, когда, какой impact.

## Timeline
- HH:MM — Обнаружение
- HH:MM — Начало реагирования
- HH:MM — Mitigation
- HH:MM — Resolution

## Root Cause
Техническая причина инцидента.

## Impact
- Длительность: X часов
- Затронутые пользователи: N
- Финансовый impact: $X

## Action Items
| # | Действие | Ответственный | Deadline | Статус |
|---|----------|---------------|----------|--------|
| 1 | ...      | @name         | дата     | TODO   |

## Lessons Learned
Что мы узнали? Что сделаем, чтобы это не повторилось?

Правила

  • Постмортем пишется для каждого P0/P1
  • Публикуется в общем пространстве для прозрачности
  • Action items отслеживаются до completion
  • Ревью постмортемов — ежемесячно