Просмотр дашборда

На странице Dashboard web-интерфейса ADQM Control выводится общая информация о состоянии кластера ADQM в виде:

  • Heat map — визуальное представление состояния хостов кластера ADQM.

  • Recent alerts — список последних оповещений о потенциальных и критических проблемах, обнаруженных на хостах кластера ADQM.

  • Top 10 tables — 10 самых больших по объему данных таблиц в кластере ADQM и 10 таблиц, в которые направлено наибольшее количество запросов.

  • Top 10 queries — 10 самых долгих по времени выполнения запросов и 10 запросов, использовавших наибольшее количество памяти.

Страница Dashboard
Страница Dashboard

В верхней части экрана можно настроить следующие фильтры отбора данных для построения дашборда:

  • Cluster — кластер ADQM, для которого выводится информация.

  • Time — временной период, за который требуется вывести информацию. При нажатии на поле открывается окно, в котором можно выбрать интервал из предложенных вариантов на вкладке Range либо самостоятельно установить границы временного диапазона (не менее 1 часа) на вкладке Calendar.

  • Refresh — частота обновления данных.

Cluster overview

Heat map

Heat map — это графическое представление данных о состоянии всех хостов кластера ADQM, где каждый хост изображается в виде квадрата, цвет которого обозначает состояние системы в выбранный интервал времени.

Heat map на странице Dashboard
Heat map на странице Dashboard

Состояние хоста и соответствующий ему цвет в матрице heat map определяется по наличию оповещений о проблемах на хосте:

normal host — в ADQM Control нет оповещений о каких-либо проблемах на хосте (healthy host).

warning host — на хосте обнаружены только потенциальные проблемы (например, связанные с увеличением значений каких-либо системных метрик), которые пока не являются критическими. В ADQM Control сгенерированы соответствующие сообщения об этих проблемах — оповещения среднего уровня важности (warning alerts).

critical host — на хосте обнаружена как минимум одна критическая проблема, оповещение о которой есть в ADQM Control (critical alert).

Recent alerts

На странице Dashboard также выводится список последних оповещений (максимальное количество — 5) о проблемах на хостах кластера ADQM, отсортированных в порядке убывания по времени, когда оповещения были сгенерированы, а не по важности.

Recent alerts на странице Dashboard
Recent alerts на странице Dashboard
Уровни важности оповещений
Уровень важности оповещения Описание Условие генерации оповещения

warning alert unacknowledged, warning alert acknowledged — предупреждение (warning)

На хосте найдена потенциальная проблема

Значение системной метрики превышает пороговое значение, установленное через параметр Warning в настройках System alerts

error alert unacknowledged, error alert acknowledged — критический уровень важности (critical)

На хосте найдена критическая проблема

Значение системной метрики превышает пороговое значение, установленное через параметр Critical в настройках System alerts

В Heat map можно выбрать один или несколько хостов (по клику) — тогда в списке Recent alerts будут показаны последние оповещения только для выбранных хостов.

Список последних оповещений о проблемах на выбранном хосте
Список последних оповещений о проблемах на выбранном хосте

При клике по View full history открывается вкладка Alerts history на странице Cluster metrics, где выводится полный список (история) оповещений за указанный период времени по всем хостам кластера, независимо от выбора хостов в Heat map на странице Dashboard.

Acknowledged alerts

С помощью опции Acknowledged alerts можно указать, какие оповещения о проблемах на хостах кластера должны учитываться при формировании heat map и списка recent alerts в ADQM Control:

toggle on dark toggle on light Acknowledged alerts — все оповещения, сгенерированные за выбранный период времени;

toggle off dark toggle off light Acknowledged alerts — только актуальные оповещения, т.е. не отмеченные как "известные/решенные" (acknowledged). Актуальные, требующие внимания оповещения в ADQM Control отмечаются значком "колокольчик": warning alert unacknowledged или error alert unacknowledged.

 

Например, на втором хосте кластера (выбран на рисунке ниже) не обнаружено каких-либо проблем за указанный промежуток времени или все оповещения о проблемах добавлены в acknowledged alerts — в этом случае при выключенной опции toggle off dark toggle off light Acknowledged alerts этот хост в Heat map отмечается зеленым цветом, а список Recent alerts пустой.

На выбранном хосте нет проблем, требующих анализа
На выбранном хосте нет проблем, требующих анализа

Затем на этом хосте возникла проблема Disk usage is high, о которой ADQM Control сгенерировал соответствующее оповещение-предупреждение. Это оповещение отображается в списке Recent alerts, а цвет хоста в Heat map меняется на желтый как показано на следующем рисунке.

Пример наличия на хосте нерешенной проблемы
Пример наличия на хосте нерешенной проблемы

Если проблема с использованием диска проанализирована и найдены способы ее решения, оповещение можно добавить в список acknowledged alerts (на странице с деталями оповещения — см. следующий раздел), так как эта проблема больше не требует внимания. После этого данное оповещение перестанет учитываться при мониторинге состояния кластера — в Heat map хост снова будет отображен зеленым цветом, а оповещение исчезнет из списка Recent alerts для этого хоста.

Если опция toggle on dark toggle on light Acknowledged alerts включена, в списке Recent alerts будут показаны последние оповещения, выбранные из всех сгенерированных за указанный период времени (активных и "закрытых"), и все оповещения будут учитываться при формировании матрицы состояния хостов. Например, на рисунке ниже все хосты кластера в Heat map обозначены красным цветом — это значит, что в течение выбранного периода времени (в данном примере — за последний месяц) на каждом из этих хостов была обнаружена хотя бы она критическая проблема. В списке Recent alerts видно, что среди последних по времени оповещений на выбранном хосте нет актуальных проблем (иконки оповещений без значка "колокольчик").

Опция Acknowledged alerts включена
Опция Acknowledged alerts включена

Переход к деталям оповещения

Со страницы Dashboard можно перейти к просмотру детальной информации о конкретной проблеме на хосте одним из следующих способов:

  • В Heat map наведите курсор мыши на хост — во всплывающем окне будет показано два последних оповещения о проблемах, найденных на этом хосте. Нажмите Open details для оповещения о проблеме, информацию по которой необходимо получить.

    Краткая информация о проблемах, обнаруженных на хосте
    Краткая информация о проблемах, обнаруженных на хосте
  • В списке Recent alerts нажмите на иконку link dark default link light default в строке оповещения.

Каждое из этих действий открывает отдельную страницу с детальным описанием соответствующей проблемы. Например, в деталях оповещения Disk usage is high указывается, на каком диске превышен допустимый уровень заполнения. В поле threshold показывается пороговое значение метрики, установленное в Settings → Alerts, на основе которого было сгенерировано оповещение.

Детальная информация о проблеме на хосте
Детальная информация о проблеме на хосте

На этой странице с помощью опции Acknowledged alerts можно изменить статус оповещения — добавить соответствующую проблему в список известных/решенных (acknowledged).

Переход на страницу Cluster metrics

Из Heat map на странице Dashboard можно перейти на вкладку Heat map на странице Cluster metrics, где также показывается матрица heat map, а для выбранных хостов справа выводятся общая информация о серверах ClickHouse и таблица со списком всех оповещений (не только последних). Получить больше информации о конкретном оповещении можно кликнув по соответствующей строке в таблице — под строкой появятся детали оповещения.

Heat map на странице Cluster metrics
Heat map на странице Cluster metrics

Чтобы перейти на страницу Cluster metrics → Heat map, выполните одно из действий в Heat map на странице Dashboard:

  • Нажмите Show all во всплывающем окне, которое показывается при наведении курсора мыши на выбранный (по клику) хост.

  • Нажмите Full view в правом верхнем углу Heat map.

Набор выбранных хостов и настройка Acknowledged alerts синхронизируются между страницами Dashboard и Cluster metrics — при изменении настроек на одной странице соответствующие настройки автоматически изменятся на другой странице.

Top 10 tables

Секция Top 10 tables содержит две вкладки с информацией о таблицах кластера за указанный интервал времени:

  • Biggest — 10 самых больших по размеру таблиц (в порядке убывания по Size — размер данных таблицы в сжатом виде в конце выбранного интервала времени).

  • Popular — 10 таблиц, в которые было отправлено больше всего запросов (в порядке убывания по Request count — количество запросов к таблице за выбранный интервал времени).

Список самых больших таблиц в кластере
Список самых больших таблиц в кластере
Список таблиц, получивших наибольшее количество запросов за указанный интервал времени
Список таблиц, получивших наибольшее количество запросов за указанный интервал времени

Для таблиц в этой секции также выводится следующая информация:

  • Table name — название таблицы (клик по названию таблицы открывает страницу с детальной информацией по столбцам таблицы);

  • Row count (на вкладке Biggest) — количество строк данных в таблице в конце выбранного интервала времени;

  • Last request — время запуска последнего запроса к таблице в выбранном интервале времени;

  • Increase (на вкладке Popular) — изменение размера таблицы за выбранный интервал времени (отрицательное значение означает уменьшение объема данных в таблице);

  • Database — база данных, которой принадлежит таблица;

  • Host — хост, на котором расположена таблица.

В заголовке поля Table name расположена иконка filter dark focus filter light focus, кликнув по которой можно посмотреть или изменить фильтр, определяющий среди каких таблиц ADQM выбираются самые большие или самые популярные таблицы. Доступны следующие предопределенные фильтры:

  • Existing (фильтр по умолчанию) — выбираются топ-10 таблиц из существующих в кластере на последний момент времени указанного интервала (существующими считаются таблицы, метрики которых продолжали поступать в ADQM Control в конце временного интервала);

  • Historical — выбираются топ-10 таблиц из всех существовавших в кластере в указанном временном диапазоне (в том числе учитываются таблицы, которые были удалены).

 
Посмотреть информацию по всем таблицам кластера, актуальную в указанный период времени, можно на странице Tables.

Top 10 queries

Секция Top 10 queries содержит две вкладки с информацией о запросах, направленных в базы данных кластера ADQM за указанный интервал времени:

  • Longest — 10 завершенных запросов, на обработку которых потребовалось наибольшее количество времени (в порядке убывания по Duration — длительность выполнения запроса).

  • Used memory — 10 запросов, для выполнения которых потребовалось наибольшее количество памяти (в порядке убывания по Used memory — объем используемой запросом памяти).

Списов самых долгих по времени выполнения запросов
Список самых долгих по времени выполнения запросов
Списов использующих наибольшее количество памяти запросов
Список использующих наибольшее количество памяти запросов

Для запросов также выводится следующая информация:

  • Query ID — идентификатор запроса (клик по идентификатору открывает страницу Query details, где можно посмотреть текст запроса);

  • Average duration (на вкладке Longest) — среднее время выполнения запроса (статистика считается по запросам, текст которых полностью совпадает, то есть для параметризованных запросов учитываются конкретные значения параметров);

  • Result bytes (на вкладке Used memory) — объем памяти для хранения результата запроса;

  • Databases — названия баз данных, в которые направлялся запрос;

  • Tables — названия таблиц, в которые направлялся запрос;

  • User — имя пользователя ADQM, запустившего выполнение запроса;

  • Time started — время начала выполнения запроса;

  • Host — хост, где выполнялся запрос.

В заголовке поля Query ID расположена иконка filter dark focus filter light focus, кликнув по которой можно посмотреть или изменить фильтр, определяющий, среди каких запросов выбираются самые долгие или самые затратные по памяти запросы. Доступны следующие предопределенные фильтры:

  • Completed (на вкладке Longest) — выбираются топ-10 самых долгих запросов из всех завершившихся (то есть из всех запросов за исключением активных);

  • All (на вкладке Used memory) — выбираются топ-10 самых затратных по памяти запросов из всех;

  • Successful (фильтр по умолчанию) — выбираются топ-10 запросов из завершившихся успешно.

 
Посмотреть всю историю запросов за нужный период времени можно на странице Queries.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней