Метрики

DORA Metrics

Основные метрики эффективности инженерной команды:

Метрика	Описание	Целевое значение
Deployment Frequency	Как часто деплоим в продакшен	Несколько раз в день
Lead Time for Changes	Время от коммита до продакшена	< 1 день
Change Failure Rate	% деплоев, вызвавших инцидент	< 5%
Time to Restore	Время восстановления после сбоя	< 1 час

Как измеряем

Deployment Frequency — из CI/CD пайплайна
Lead Time — от первого коммита в PR до деплоя
Change Failure Rate — из incident tracker
MTTR — из incident management системы

SPACE Framework

Дополнительные метрики для оценки продуктивности:

Измерение	Что оценивает	Примеры метрик
Satisfaction	Удовлетворённость разработчиков	Survey score
Performance	Результаты работы	Story points delivered, bugs fixed
Activity	Активность	PRs/commits, code reviews
Communication	Коллаборация	Review turnaround, knowledge sharing
Efficiency	Эффективность	CI time, time in review, flow state

Технические метрики

RED (для сервисов)

Rate — количество запросов в секунду
Errors — процент ошибочных ответов
Duration — latency (p50, p95, p99)

USE (для инфраструктуры)

Utilization — загрузка ресурса (CPU, memory, disk)
Saturation — очередь (queue depth, goroutines)
Errors — ошибки инфраструктуры

Дашборды

Дашборд	Содержание
Service Overview	RED метрики всех сервисов
Infrastructure	USE метрики серверов
DORA	Метрики команды
Business	Бизнес-метрики

Алертинг

Принципы

Алерт должен требовать действия — не alert fatigue
Критичные алерты — в PagerDuty, не в почту
Каждый алерт имеет runbook
Регулярный ревью алертов — удаляем неактуальные

Уровни

Уровень	Канал	Время реакции
Critical	PagerDuty + звонок	< 5 мин
Warning	Slack #alerts	< 30 мин
Info	Slack #monitoring	Рабочие часы