Управление инцидентами
Уровни инцидентов
| Уровень | Критерии | Примеры |
|---|---|---|
| P0 | Полная недоступность продукта для всех пользователей | Падение всех сервисов, потеря данных |
| P1 | Критичная функциональность недоступна для части пользователей | Платежи не проходят, авторизация сломана |
| P2 | Деградация производительности или minor feature broken | Медленные ответы, поиск не работает |
| P3 | Косметические проблемы, workaround существует | UI-баг, некорректный текст |
Процедура реагирования
P0 / P1: War Room
Обнаружение → Алерт → War Room → Mitigate → Resolve → Postmortem
(auto) (5 мин) (15 мин) (ASAP) (часы) (3 дня)- Обнаружение — автоматический алерт или ручной репорт
- Подтверждение — дежурный инженер подтверждает инцидент
- War Room — создаётся канал
#incident-YYYY-MM-DD-краткое-описание - Роли:
- Incident Commander — координирует, принимает решения
- Tech Lead — технический анализ и решение
- Communicator — обновляет стейкхолдеров
- Mitigation — приоритет: восстановить сервис (rollback, restart, scale)
- Resolution — найти и устранить root cause
- Postmortem — в течение 3 рабочих дней
P2 / P3
- Заводится задача в трекере с приоритетом
- Решается в рамках обычного рабочего процесса
On-Call
Ротация
- Дежурство 1 неделя, ротация внутри стрима
- On-call инженер доступен 24/7 для P0/P1
- Компенсация за дежурство:
Обязанности on-call
- Реагировать на алерты в SLA
- Быть первой линией при инцидентах
- Передать контекст следующему дежурному
Postmortem
Принцип: Blameless
Цель постмортема — улучшить систему, а не найти виноватого.
Шаблон
markdown
# Postmortem: Краткое описание
## Summary
Что произошло, когда, какой impact.
## Timeline
- HH:MM — Обнаружение
- HH:MM — Начало реагирования
- HH:MM — Mitigation
- HH:MM — Resolution
## Root Cause
Техническая причина инцидента.
## Impact
- Длительность: X часов
- Затронутые пользователи: N
- Финансовый impact: $X
## Action Items
| # | Действие | Ответственный | Deadline | Статус |
|---|----------|---------------|----------|--------|
| 1 | ... | @name | дата | TODO |
## Lessons Learned
Что мы узнали? Что сделаем, чтобы это не повторилось?Правила
- Постмортем пишется для каждого P0/P1
- Публикуется в общем пространстве для прозрачности
- Action items отслеживаются до completion
- Ревью постмортемов — ежемесячно