Проверка доступности

Для проверки доступности Апдейтера используется URL  http://{hostname}:{port}/healthz
При успешном ответе возвращает код 200, любой другой код признак аварии

Метрики для мониторинга (с версии 2.5.6)

Метрики для настройки в сторонних системах мониторинга (prometheus+grafana). Доступны по URL  http://{hostname}:{port}/metrics

МетрикаОписаниеТэги 

updater_version

Текущая версия приложения
  • version — номер версии 

updater_task_errors

Все ошибки выполнения задач.

Если ошибок нет, метрика отсутствует.

  • task — тип задачи
  • dict — название справочника
  • node — тэг ноды (сервера)

updater_schedule_task_errors

Ошибки выполнения только задач, 
запущенных планировщиком
по заданному расписанию

Если ошибок нет, метрика отсутствует.

  • scheduleId — идентификатор задачи планировщика
  • task — тип задачи
  • dict — название справочника
  • node — тэг ноды (сервера)
Ограничения
  • фиксируются только ошибки выполнения задач, запущенных разово или через планировщик
  • ошибки сериализации не фиксируются

Что делать при обнаружении ошибки

  1. Необходимо узнать текст ошибки, для этого вызываем эндпоинт http://{hostname}:{port}/info/history?days=1 
    В ответе будет список задач за текущий день, находим задачи у которых "status" начинается с ERROR, после чего идёт описание ошибки, например:
    "status": "ERROR: ошибка при формировании справочника: cfg.GetTemplate: справочник factor_fitas не найден в конфигурации"
    В данном случае понятно, что опечатались при вводе названия справочника — корректный справочник factor_fias
  2.  Если по тексту ошибки не удалось установить причину ошибки и исправить, необходимо собрать последние журналы приложения, запросив их по URL http://{hostname}:{port}/info/log
  3.  Отправить собранный архив своему инженеру сопровождения с описанием проблемы
  • No labels