Метрики кластера
Страница Cluster metrics web-интерфейса ADQM Control предназначена для вывода информации о состоянии кластера ADQM на основе значений метрик, собираемых с хостов кластера. Страница состоит из двух вкладок Heat map и Alerts history, которые подробно описаны ниже.
Для отбора данных, которые должны быть показаны на странице Cluster metrics, можно использовать поля в верхней части экрана:
-
Cluster — кластер ADQM, для которого выводится информация.
-
Time — временной период, за который требуется вывести информацию. При нажатии на поле открывается окно, в котором можно выбрать интервал из предложенных вариантов на вкладке Range либо самостоятельно установить границы временного диапазона на вкладке Calendar.
-
Refresh — частота обновления данных.
Heat map
Heat map — визуальное представление данных о состоянии всех хостов кластера ADQM, где каждый хост изображается в виде квадрата, цвет которого обозначает состояние системы.
Состояния хоста
Состояние хоста и соответствующий ему цвет в матрице Heat map определяется по наличию оповещений (alerts) о проблемах на хосте:
— в ADQM Control нет оповещений о каких-либо проблемах на хосте (healthy host).
— на хосте обнаружены только потенциальные проблемы (например, связанные с увеличением значений каких-либо системных метрик), которые пока не являются критическими. В ADQM Control сгенерированы и остаются актуальными соответствующие сообщения об этих проблемах — оповещения среднего уровня важности (warning alerts).
— на хосте обнаружена как минимум одна критическая проблема, оповещение о которой есть в ADQM Control (critical alert).
Переключатель Show only troubled hosts в верхней части вкладки Heat map позволяет настроить heat map так, чтобы в нем показывались только проблемные хосты.
Оповещения о проблемах на хосте
При выборе одного или нескольких хостов (по клику в heat map) справа показывается таблица со списком соответствующих этим хостам оповещений о проблемах, выявленных за указанный период времени. Над таблицей находится поле Host, где можно изменить набор хостов, для которых выводятся оповещения.
Для каждого оповещения выводится следующая информация.
| Поле | Описание |
|---|---|
Date start |
Дата и время (в формате |
Duration |
Общее время, в течение которого оповещение о проблеме на хосте оставалось актуальным |
Module |
Модуль, в состав которого входит оповещение. В настоящее время в ADQM Control генерируются только оповещения модуля |
Description |
Описание проблемы, обнаруженной на хосте |
В первом столбце таблицы со списком оповещений содержится иконка, которая обозначает уровень важности оповещения:
— оповещение среднего уровня важности (warning) о потенциальной проблеме, которая еще не является критической. Генерируется, если значение системной метрики на хосте превышает пороговое значение, установленное через параметр Warning в настройках System alerts.
— оповещение высокого уровня важности (critical) о критической проблеме на хосте. Генерируется, если значение системной метрики превышает пороговое значение, установленное через параметр Critical в настройках System alerts.
Чтобы получить более подробную информацию по отдельному оповещению, выполните одно из действий:
-
Кликните по строке оповещения в списке — детали оповещения появятся под строкой.
Детали оповещения в списке -
Кликните по иконке
в строке оповещения — будет выполнен переход на отдельную страницу с деталями оповещения (эта страница имеет уникальный адрес, которым можно делиться).
Детали оповещения на отдельной странице
Alerts history
На вкладке Alerts history выводится полный список оповещений, которые были сгенерированы на основе значений системных метрик на хостах кластера за указанный период времени (в поле Time верхней части экрана).
Большая часть полей в таблице со списком оповещений на вкладке Alerts history совпадает с полями, описанными выше для вкладки Heat map. Добавляются только следующие поля:
-
Date finished — дата и время (в формате
DD/MM/YYYY HH:mm:ss), когда оповещение перестало быть актуальным, то есть связанная с системной метрикой проблема была устранена на хосте. Если оповещение продолжает оставаться актуальным, в поле указывается время в будущем. -
Host — хост, на котором обнаружена проблема.
Фильтрация оповещений
Над таблицей со списком оповещений расположены фильтры, которые можно использовать для отбора необходимых данных:
-
Level — уровень важности оповещений. Возможные значения:
-
warning— потенциальные проблемы на хостах ();
-
critical— критические проблемы на хостах ().
-
-
Module — модуль, в который сгруппированы оповещения. В настоящее время доступен только модуль
system. -
Host — хост, для которого требуется вывести оповещения о проблемах, найденных в системе. Можно выбрать несколько хостов или все хосты одновременно.
Чтобы сбросить все примененные фильтры, нажмите на иконку
Reset all filters.
Детали оповещения
Как и на вкладке Heat map, есть возможность получить детальную информацию об оповещении двумя способами:
-
Кликните по строке оповещения в списке — под строкой появятся детали оповещения.
Детали оповещения в списке -
Кликните по иконке
в строке оповещения — откроется отдельная страница с деталями оповещения.
Детали оповещения на отдельной странице