Метрики
DORA Metrics
Основные метрики эффективности инженерной команды:
| Метрика | Описание | Целевое значение |
|---|---|---|
| Deployment Frequency | Как часто деплоим в продакшен | Несколько раз в день |
| Lead Time for Changes | Время от коммита до продакшена | < 1 день |
| Change Failure Rate | % деплоев, вызвавших инцидент | < 5% |
| Time to Restore | Время восстановления после сбоя | < 1 час |
Как измеряем
- Deployment Frequency — из CI/CD пайплайна
- Lead Time — от первого коммита в PR до деплоя
- Change Failure Rate — из incident tracker
- MTTR — из incident management системы
SPACE Framework
Дополнительные метрики для оценки продуктивности:
| Измерение | Что оценивает | Примеры метрик |
|---|---|---|
| Satisfaction | Удовлетворённость разработчиков | Survey score |
| Performance | Результаты работы | Story points delivered, bugs fixed |
| Activity | Активность | PRs/commits, code reviews |
| Communication | Коллаборация | Review turnaround, knowledge sharing |
| Efficiency | Эффективность | CI time, time in review, flow state |
Технические метрики
RED (для сервисов)
- Rate — количество запросов в секунду
- Errors — процент ошибочных ответов
- Duration — latency (p50, p95, p99)
USE (для инфраструктуры)
- Utilization — загрузка ресурса (CPU, memory, disk)
- Saturation — очередь (queue depth, goroutines)
- Errors — ошибки инфраструктуры
Дашборды
| Дашборд | Содержание |
|---|---|
| Service Overview | RED метрики всех сервисов |
| Infrastructure | USE метрики серверов |
| DORA | Метрики команды |
| Business | Бизнес-метрики |
Алертинг
Принципы
- Алерт должен требовать действия — не alert fatigue
- Критичные алерты — в PagerDuty, не в почту
- Каждый алерт имеет runbook
- Регулярный ревью алертов — удаляем неактуальные
Уровни
| Уровень | Канал | Время реакции |
|---|---|---|
| Critical | PagerDuty + звонок | < 5 мин |
| Warning | Slack #alerts | < 30 мин |
| Info | Slack #monitoring | Рабочие часы |