Метрики кластера

Страница Cluster metrics web-интерфейса ADQM Control предназначена для вывода информации о состоянии кластера ADQM на основе значений метрик, собираемых с хостов кластера. Страница состоит из двух вкладок Heat map и Alerts history, которые подробно описаны ниже.

Для отбора данных, которые должны быть показаны на странице Cluster metrics, можно использовать поля в верхней части экрана:

  • Cluster — кластер ADQM, для которого выводится информация.

  • Time — временной период, за который требуется вывести информацию. При нажатии на поле открывается окно, в котором можно выбрать интервал из предложенных вариантов на вкладке Range либо самостоятельно установить границы временного диапазона на вкладке Calendar.

  • Refresh — частота обновления данных.

Фильтры данных на странице Cluster metrics
Фильтры данных на странице Cluster metrics

Heat map

Heat map — визуальное представление данных о состоянии всех хостов кластера ADQM, где каждый хост изображается в виде квадрата, цвет которого обозначает состояние системы.

Вкладка Heat map на странице Cluster metrics
Вкладка Heat map на странице Cluster metrics

Состояния хоста

Состояние хоста и соответствующий ему цвет в матрице Heat map определяется по наличию оповещений (alerts) о проблемах на хосте:

normal host — в ADQM Control нет оповещений о каких-либо проблемах на хосте (healthy host).

warning host — на хосте обнаружены только потенциальные проблемы (например, связанные с увеличением значений каких-либо системных метрик), которые пока не являются критическими. В ADQM Control сгенерированы и остаются актуальными соответствующие сообщения об этих проблемах — оповещения среднего уровня важности (warning alerts).

critical host — на хосте обнаружена как минимум одна критическая проблема, оповещение о которой есть в ADQM Control (critical alert).

 

Переключатель Show only troubled hosts в верхней части вкладки Heat map позволяет настроить heat map так, чтобы в нем показывались только проблемные хосты.

Heat map показывает только проблемные хосты
Heat map показывает только проблемные хосты

Оповещения о проблемах на хосте

При выборе одного или нескольких хостов (по клику в heat map) справа показывается таблица со списком соответствующих этим хостам оповещений о проблемах, выявленных за указанный период времени. Над таблицей находится поле Host, где можно изменить набор хостов, для которых выводятся оповещения.

Оповещения о проблемах на хосте
Оповещения о проблемах на хосте

Для каждого оповещения выводится следующая информация.

Поле Описание

Date start

Дата и время (в формате DD/MM/YYYY hh:mm:ss), когда было сгенерировано оповещение

Duration

Общее время, в течение которого оповещение о проблеме на хосте оставалось актуальным

Module

Модуль, в состав которого входит оповещение. В настоящее время в ADQM Control генерируются только оповещения модуля system — оповещения о превышении пороговых значений системных метрик хостов

Description

Описание проблемы, обнаруженной на хосте

В первом столбце таблицы со списком оповещений содержится иконка, которая обозначает уровень важности оповещения:

warning alert — оповещение среднего уровня важности (warning) о потенциальной проблеме, которая еще не является критической. Генерируется, если значение системной метрики на хосте превышает пороговое значение, установленное через параметр Warning в настройках System alerts.

error alert — оповещение высокого уровня важности (critical) о критической проблеме на хосте. Генерируется, если значение системной метрики превышает пороговое значение, установленное через параметр Critical в настройках System alerts.

 

Чтобы получить более подробную информацию по отдельному оповещению, выполните одно из действий:

  • Кликните по строке оповещения в списке — детали оповещения появятся под строкой.

    Детали оповещения в списке
    Детали оповещения в списке
  • Кликните по иконке link dark default link light default в строке оповещения — будет выполнен переход на отдельную страницу с деталями оповещения (эта страница имеет уникальный адрес, которым можно делиться).

    Детали оповещения на отдельной странице
    Детали оповещения на отдельной странице

Alerts history

На вкладке Alerts history выводится полный список оповещений, которые были сгенерированы на основе значений системных метрик на хостах кластера за указанный период времени (в поле Time верхней части экрана).

Вкладка Alerts history на странице Cluster metrics
Вкладка Alerts history на странице Cluster metrics

Большая часть полей в таблице со списком оповещений на вкладке Alerts history совпадает с полями, описанными выше для вкладки Heat map. Добавляются только следующие поля:

  • Date finished — дата и время (в формате DD/MM/YYYY HH:mm:ss), когда оповещение перестало быть актуальным, то есть связанная с системной метрикой проблема была устранена на хосте. Если оповещение продолжает оставаться актуальным, в поле указывается время в будущем.

  • Host — хост, на котором обнаружена проблема.

Фильтрация оповещений

Над таблицей со списком оповещений расположены фильтры, которые можно использовать для отбора необходимых данных:

  • Level — уровень важности оповещений. Возможные значения:

    • warning — потенциальные проблемы на хостах (warning alert);

    • critical — критические проблемы на хостах (error alert).

  • Module — модуль, в который сгруппированы оповещения. В настоящее время доступен только модуль system.

  • Host — хост, для которого требуется вывести оповещения о проблемах, найденных в системе. Можно выбрать несколько хостов или все хосты одновременно.

Чтобы сбросить все примененные фильтры, нажмите на иконку reset btn dark reset btn light Reset all filters.

Детали оповещения

Как и на вкладке Heat map, есть возможность получить детальную информацию об оповещении двумя способами:

  • Кликните по строке оповещения в списке — под строкой появятся детали оповещения.

    Детали оповещения в списке
    Детали оповещения в списке
  • Кликните по иконке link dark default link light default в строке оповещения — откроется отдельная страница с деталями оповещения.

    Детали оповещения на отдельной странице
    Детали оповещения на отдельной странице
Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней