Метрики мониторинга кластера ADQM Control

Сервис Monitoring, установленный в кластере ADQM Control, собирает две группы метрик: системные метрики хостов и метрики сервисов ADQM Control.

Метрики можно просматривать в браузере в формате Prometheus (порты и конечные точки доступа к метрикам описаны ниже), а также использовать веб-интерфейсы Prometheus и Grafana.

Системные метрики

Системные метрики показывают общие характеристики состояния хостов кластера ADQM Control, связанные, как правило, с потреблением ресурсов: например, уровень загруженности процессора, заполнение диска, использование памяти, производительность операций ввода/вывода и другие показатели.

Для просмотра системных метрик хостов ADQM Control в формате Prometheus введите в адресную строку браузера: http://<adqmc_host_ip>:11203/metrics, где 11203 и /metrics — порт и конечная точка доступа (endpoint) к системным метрикам, которые настраиваются в секции Node Exporter settings конфигурации сервиса Monitoring.

В интерфейсе Grafana системные метрики хостов ADQM Control показываются на дашборде System и в секции (row) System дашборда General.

Дашборд General в Grafana
Дашборд General в интерфейсе Grafana
Дашборд General в интерфейсе Grafana

Сервисные метрики ADQM Control

Метрики сервисов ADQM Control позволяют контролировать и анализировать различные параметры функционирования и производительности ADQM Control: например, доступность сервисных компонентов, типы ошибок и частоту их возникновения, время ответа на запросы пользователей, частоту генерирования оповещений и их типы, и другие показатели.

Метрики мониторинга компонентов сервиса ADQM Control в формате Prometheus можно посмотреть в браузере, используя адреса, перечисленные в таблице ниже. В приведенных адресах указаны порты доступа к метрикам сервисных компонентов по умолчанию. Изменить эти порты можно в секции Network configuration конфигурации сервиса ADQM Control.

Компонент сервиса ADQM Control Адрес доступа к метрикам компонента

Agents

http://<host_ip>:5002/api/v1/metrics

Alert Generator

http://<host_ip>:5001/api/v1/metrics

Alert Receiver

http://<host_ip>:12322/api/v1/metrics

Alertmanager

http://<host_ip>:9093/metrics

Backend

http://<host_ip>:5555/api/v1/metrics

 
В таблицах ниже описаны метрики сервиса ADQM Control, сгруппированные так, как они представлены на дашбордах в интерфейсе Grafana.

Adqm_agent

 
Метрики компонента Agents показывают, какая информация о кластерах ADQM собрана и хранится в ADQM Control.

Название метрики Описание

adqm_agent_hosts

Количество хостов кластера ADQM

adqm_agent_databases

Количество баз данных ADQM

adqm_agent_tables

Количество таблиц ADQM

adqm_agent_columns

Количество столбцов в таблицах ADQM

adqm_agent_queries

Количество запросов, выполненных в ADQM

adqm_agent_queries_normalized

Количество нормализованных (связанных с таблицами) запросов

jobs_total

Количество задач, выполненных сервисом.

Статусы задач: success, failed.

Типы задач: alerts_cleanup, check_query_log, hosts_collection, job_log_cleanup, queries_collection, queries_duration_aggregation, queries_duration_collection, queries_normalization, tables_collection

Дашборд Adqm_agent в интерфейсе Grafana
Дашборд Adqm_agent в интерфейсе Grafana
Alerts
Название метрики Описание

alertgenerator_alerts_lifetime_seconds

Время действия оповещений (период между временем отправки оповещения и временем, когда оповещение перестало считаться актуальным)

alertgenerator_alerts_total

Количество сгенерированных оповещений

alertgenerator_fired_alerts_total

Количество оповещений, отправленных в Alert Manager

alertreceiver_alerts_received_total

Количество оповещений, которые получил Alert Receiver

alertgenerator_alerts_resend_total

Количество оповещений, повторно отправленных в Alert Manager

Rest

 
На панели Services availability дашборда Rest визуализируется информация о доступности сервисов на основе следующих метрик.

Название метрики Описание

http_client_error_total

Количество ошибок подключения сервиса к Prometheus

zookeeper_client_error_total

Количество ошибок подключения сервиса к клиенту ZooKeeper

postgres_client_error_total

Количество ошибок подключения сервиса к клиенту PostgreSQL

chcpp_client_error_total

Количество ошибок подключения сервиса к клиенту ClickHouse

Также дашборд Rest содержит секции Backend, Alert receiver и Alert generator, в которых выводятся следующие метрики для соответствующих сервисных компонентов.

Название метрики Описание

http_request_count_total

Количество запросов

http_request_duration_seconds

Длительность выполнения запросов в секундах

http_request_size_bytes

Размер запросов в байтах

http_response_size_bytes

Размер ответов в байтах

Метрики REST API в интерфейсе Grafana
Метрики REST API в интерфейсе Grafana

Метрики Rest API, сгруппированные по-другому, также представлены на дашборде General в секции API.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней