Мониторинг состояния системы
Обзор
Мониторинг состояния системы позволяет оценить, есть ли в системе показания для вмешательства администратора с целью устранения возникших рисков.
Строится на опросе /system/state и, возможно, исполнении других проектных сценариев контроля состояний важных сущностей.
Основная функция мониторинга - своевременное оповещение. Он работает на упреждение и показан к использованию на всех экземплярах систем. Задача администратора - удерживать систему в нормальном состоянии и реагировать на появлении в выдаче мониторинга
Опрос состояния вручную
Может осуществляться:
-
после проведения технических работ, чтобы убедиться в том, что система перешла в нормальное состояние.
-
при появлении неожиданных и неплановых симптомов.
Проводится из приложения или через API:
Настройка оповещения
Настройка регулярного оповещения об изменениях в состоянии системы позволяет вовремя проинформировать ответственных администраторов о подозрительных событиях, трактуемых как отклонение от нормального процесса.
-
SNMP-трапы. Уведомляют не только о health-check, но также способны информировать о других типах событий.
-
Telegram-бот. Позволяет постоянно быть онлайн, получать уведомления об изменениях /system/state, опрашивать /system/state с мобильного устройства из любой точки в любых условиях.
-
Служебная задача и сценарии, опрашивающие /system/state. Позволяют реализовывать любую логику health-check, не ограниченную временем исполнения, но ограниченную исполнением внутри кластера.
-
Внешние процессы, регулярно опрашивающие API системы, в том числе /system/state и выполнять любые преднастроенные сценарии. Независимы от невалидного состояния кластера.
Алгоритм выяснения состояния /system/state может быть настроен в мастер-домене: параметр system_state_options.