Мониторинг состояния системы

Обзор

Мониторинг состояния системы позволяет оценить, есть ли в системе показания для вмешательства администратора с целью устранения возникших рисков.

Строится на опросе /system/state и, возможно, исполнении других проектных сценариев контроля состояний важных сущностей.

Основная функция мониторинга - своевременное оповещение. Он работает на упреждение и показан к использованию на всех экземплярах систем. Задача администратора - удерживать систему в нормальном состоянии и реагировать на появлении в выдаче мониторинга

Опрос состояния вручную

Может осуществляться:

  • после проведения технических работ, чтобы убедиться в том, что система перешла в нормальное состояние.

  • при появлении неожиданных и неплановых симптомов.

Проводится из приложения или через API:

status

Настройка оповещения

Настройка регулярного оповещения об изменениях в состоянии системы позволяет вовремя проинформировать ответственных администраторов о подозрительных событиях, трактуемых как отклонение от нормального процесса.

  • SNMP-трапы. Уведомляют не только о health-check, но также способны информировать о других типах событий.

  • Telegram-бот. Позволяет постоянно быть онлайн, получать уведомления об изменениях /system/state, опрашивать /system/state с мобильного устройства из любой точки в любых условиях.

  • Служебная задача и сценарии, опрашивающие /system/state. Позволяют реализовывать любую логику health-check, не ограниченную временем исполнения, но ограниченную исполнением внутри кластера.

  • Внешние процессы, регулярно опрашивающие API системы, в том числе /system/state и выполнять любые преднастроенные сценарии. Независимы от невалидного состояния кластера.

Алгоритм выяснения состояния /system/state может быть настроен в мастер-домене: параметр system_state_options.