При растущем проекте количество часто сервисов также растёт.
Команда вносит в них изменения, но не все изменения удаётся протестировать.
Иногда ошибка проникает в продуктовую среду и по ней нужно отреагировать.
Один из способов отслеживания - сбор метрик и своевременная реакция на них. Представьте, что перед вами стоит задача обеспечения здоровья жителей города. Возможно, стоит периодически измерять показатели здоровья каждого жителя (температуру, давление, уровень сахара в крови), чтобы своевременно реагировать на изменения и предотвращать нежелательные последствия.
Аналогично у команды в продакшне есть сервисы, у них свои показатели на конкретный момент времени. Для сбора метрик в течение определённого времени используется time series db (например, prometheus).
В предлагаемом решении в сборе участвуют cadvisior, данные собираются в prometheus.
Для отображения установлена grafana, в которой можно смотреть показатели во времени.