Настройка оповещений в ADQM Control через web-интерфейс

Вкладка Alerts на странице Settings в web-интерфейсе ADQM Control предназначена для конфигурирования параметров (критериев), на основе которых будут генерироваться оповещения.

Если необходимо изменить настройки по умолчанию — отредактируйте нужные поля и нажмите кнопку Save. Кнопка Revert all отменяет все внесенные изменения (еще не сохраненные нажатием Save).

Оповещения в ADQM Control сгруппированы в модули. В настоящее время ADQM Control может отправлять и позволяет настраивать оповещения модулей System alerts и Internal alerts.

System alerts

Модуль System alerts объединяет системные оповещения — оповещения, генерируемые на основе значений системных метрик, которые показывают общие характеристики состояния хостов кластера ADQM, связанные, как правило, с потреблением ресурсов (см. таблицу Системные оповещения). Для каждой системной метрики устанавливаются пороговые значения, с которыми ADQM Control сравнивает текущее значение метрики и определяет, нужно ли генерировать оповещение и уровень его важности.

Настройка системных оповещений

Используйте переключатель toggle on dark toggle on light System alerts на странице Settings/Alerts, чтобы включить/отключить генерацию оповещений по системным метрикам. При включенном переключателе в расположенной справа форме System alerts можно настроить параметры системных оповещений.

Настройка системных оповещений
Настройка системных оповещений
Параметры системных оповещений
Параметр Описание Значение по умолчанию

Update frequency

Частота сравнения метрики с пороговыми значениями. Как только метрика превышает порог, внутри ADQM Control генерируется оповещение (но не отправляется на обработку).

Значение параметра должно быть в диапазоне от 1 до 5 минут

1m (m — минуты)

Firing at least for

Время, в течение которого значение метрики должно превышать пороговое значение, чтобы соответствующее оповещение было отправлено на обработку, после чего оно появится в интерфейсе ADQM Control.

Значение параметра должно быть в диапазоне от 1 до 15 минут

5m (m — минуты)

Cool down period

Период после отправки оповещения, в течение которого не учитывается обновление, когда значение метрики перестало превышать порог. Если метрика после этого периода все еще не превышает порог, то оповещение считается более недействительным. Период начинается заново после каждого обновления, когда метрика превысила порог во время действия предыдущего периода — то есть период продлевается.

Значение параметра должно быть в диапазоне от 2 до 15 минут, больше значения параметра Update frequency

2m (m — минуты)

Warning

Значение метрики, при котором генерируется оповещение среднего уровня важности. Такое оповещение сигнализирует о возникновении на хосте кластера ADQM потенциальной проблемы, связанной с увеличением значения соответствующей системной метрики (но эта проблема пока не является критической)

См. пороговые значения по умолчанию в таблице Системные оповещения

Critical

Значение метрики, при котором генерируется оповещение высокого уровня важности, означающее, что на хосте кластера ADQM обнаружена критическая проблема

См. пороговые значения по умолчанию в таблице Системные оповещения

Параметры Update frequency и Firing at least for можно настроить двумя способами:

  • указать необходимые значения в верхней части формы System alerts и включить опцию check selected dark check selected light Use for all system metrics, чтобы применить установленные значения для всех системных оповещений;

  • указать значения параметров отдельно для каждого типа оповещений.

Типы системных оповещений

В таблице ниже описаны типы оповещений, которые может генерировать ADQM Control, отслеживая соответствующие системные метрики на хостах кластеров ADQM и сравнивая их значения с установленными порогами.

Системные оповещения
Оповещение Условие генерации оповещения Пороговые значения по умолчанию

Load average

Среднее значение загрузки системы (для одного процессора значение в диапазоне [0, 1], для многоядерных систем значение может быть больше) превышает пороговое значение — (LA15 + LA5)/2 > threshold. Это означает либо высокую загрузку процессора, либо что операции чтения/записи на диск занимают слишком много времени

Warning — 0.9, Critical — 0.95

CPU utilization

Уровень загрузки процессора (значение в процентах) превышает пороговое значение

Warning — 90, Critical — 95

Memory usage

Использование оперативной памяти (значение в процентах) превышает пороговое значение

Warning — 90, Critical — 95

Disk usage

Заполнение диска (значение в процентах) превышает пороговое значение

Warning — 90, Critical — 95

Для каждого типа оповещений в форме System alerts есть переключатель toggle on dark toggle on light, который можно использовать, чтобы отключить генерирование оповещений по соответствующей метрике.

Internal alerts

В настройках модуля Internal alerts можно включить/отключить генерирование оповещений при отсутствии в кластере ADQM лог-таблицы system.query_log, в которую записывается информация о выполненных запросах.

Настройка оповещений модуля Internal alerts
Настройка оповещений модуля Internal alerts

Как и для системных оповещений, в этом модуле можно контролировать параметры:

  • Update frequency — частота проверки наличия таблицы system.query_log;

  • Firing at least for — время, в течение которого лог-таблица должна отсутствовать, чтобы соответствующее оповещение было добавлено в ADQM Control;

  • Cool down period — период после отправки оповещения, в течение которого не учитывается обновление, когда началось логирование в таблицу system.query_log.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней