Метрики мониторинга ADPG-кластера
В этой статье описываются доступные метрики мониторинга для кластера ADPG. Для получения информации о системе мониторинга и его установке обратитесь к статьям Мониторинг и Установка мониторинга.
ADPG использует Grafana для визуализации метрик. Чтобы открыть дашборды с метриками, введите адрес хоста, на котором развернут компонент Grafana, и добавьте номер порта — из параметра Grafana listen port (значение по умолчанию — 11210
). Например, http://10.92.6.91:11210. Для входа используйте admin
в качестве имени пользователя и значение параметра Grafana administrator’s password в качестве пароля. Параметры Grafana можно найти на вкладке Configuration сервиса Monitoring.

Разверните меню Grafana и кликните пункт Dashboards.

Откроется страница со списком дашбордов мониторинга. Разверните элемент ADPG Dashboard… для вашего кластера, чтобы отобразить доступные дашборды.

ПРИМЕЧАНИЕ
Для отображения на дашбордах некоторых графиков необходимо создать расширение |
В интерфейсе Grafana доступны следующие дашборды:
-
ADPG Checkpointer (Bgwriter, Block IO Stats) — отображает статистическую информацию о контрольных точках и процессе bgwriter.
-
ADPG DB overview — содержит графики с характеристиками ноды ADPG.
-
ADPG Health-check — показывает информацию о выбранной ноде кластера.
-
ADPG Replication — отображает параметры репликации.
-
ADPG Sessions overview — содержит графики для анализа параметров сессии.
-
Etcd Cluster overview — отображает метрики кластера etcd.
-
Global ADPG dashboard — включает общую информацию о состоянии системы и должен быть первым дашбордом, сигнализирующим о появлении проблемы.
-
HAProxy statistics — статистика HAProxy.
-
Node Exporter statistics — отображает общие системные метрики для каждой ноды кластера, на которой установлен Node Exporter.
-
PgBackRest Exporter statistics — метрики PgBackRest.
-
PgBouncer statistics — отображает статистику PgBouncer.
-
PostgreSQL Patroni overview — данные кластера Patroni.
ADPG Checkpointer / Bgwriter / Block IO Stats
Этот дашборд содержит статистику контрольных точек и процесса bgwriter.

ADPG Checkpointer / Bgwriter / Block IO Stats включает следующие графики:
-
Checkpoints. Отображает количество контрольных точек за период агрегации.
-
Checkpointer Write / Sync durations.
-
Bgwriter Stats. Отображает значения
buffers_checkpoint
,buffers_clean
иbuffers_backend
. -
Backend Read / Write times. График основан на представлении
pg_stat_database
, для его построения требуется, чтобы параметрtrack_io_timing
был равенon
. -
Table / Index / Toast Blocks Read. Информация о количестве блоков каждого типа, считывающихся из базы данных. Обратите внимание, что значения Reads также учитывают чтение из кеша файловой системы.
ADPG DB overview
Этот дашборд содержит графики характеристик нод ADPG и помогает анализировать слабые места определенной ноды.

Дашборд ADPG DB overview включает следующие состояния:
-
Instance state — PRIMARY/REPLICA.
-
Instance uptime.
-
TPS — количество транзакций в секунду.
-
QPS — количество запросов в секунду.
-
Query runtime — среднее время выполнения запроса.
-
DB size ch. (1h) — размер БД, рассчитывающийся за каждый час.
-
Approx Table Bloat.
-
Tuples fetched vs returned.
Дашборд ADPG DB overview содержит следующие графики:
-
Tuple ins. / upd. / del. statistics.
-
Buffers hit ratio + Rollback ratio.
-
TPS / QPS avg.
-
WAL rate (avg.) + DB size.
-
Session by state (avg.).
-
Seq. / Idx. scans >10MB tables.
-
Temp bytes — значения появляются, когда затратные операции группировки и сортировки требуют больше памяти, чем значение
work_mem
.
ADPG Health-check
Этот дашборд отображает состояние определенной базы данных, которую можно выбрать в фильтре database вверху страницы.

Дашборд ADPG Health-check содержит следующие состояния:
-
Instance state.
-
Instance uptime.
-
PG version number.
-
Longest query runtime.
-
Active connections.
-
Max. connections.
-
Blocked sessions.
-
Shared buffer hit pct.
-
TX rollback pct. (avg.).
-
TPS(avg.).
-
QPS(avg.).
-
"Idle" in TX count.
-
DB size(last).
-
DB size change(diff).
-
Query runtime(avg.).
-
WAL archiving status.
-
WAL folder size.
-
Invalid/duplicate indexes.
-
Autovacuum issues.
-
Checkpoints requested.
-
Approx. table bloat.
-
WAL per second(avg.).
-
Temp. bytes per second(avg.).
-
Longest AUTOVACUUM duration.
-
Seq. scans on >100 MB tables (tot.).
-
INSERT-s per minute(avg.).
-
UPDATE-s per minute(avg.).
-
DELETE-s per minute(avg.).
-
Max replication lag.
-
Max table FREEZE age.
-
Max. XMIN horizon age.
-
Inactive replication slots.
ADPG Replication
Дашборд ADPG Replication содержит метрики репликации.

Дашборд ADPG Replication отображает следующие состояния:
-
Inactive repl. slots.
-
Active repl. slots.
-
Active replicas.
-
Active "sync" replicas.
-
Slot max. restart_lsn lag.
-
Max. write lag.
-
Max. flush lag.
-
Max. replay lag.
Дашборд ADPG Replication содержит следующие графики:
-
Replication slot restart_lsn lag (primary extra WAL size). Значения рассчитываются на основе представления pg_replication_slots только для нод primary.
-
Replication flush lag. Значения рассчитываются на основе представления pg_stat_replication только для нод primary. Обратите внимание, что данные доступны только на подключенных репликах.
-
Replication replay lag. Значения рассчитываются на основе представления pg_stat_replication только для нод primary. Обратите внимание, что данные доступны только на подключенных репликах.
-
Repl. slot XMIN age (in transactions). Значения рассчитываются на основе поля
xmin
представления pg_replication_slots.
ADPG Sessions overview
Дашборд ADPG Sessions overview отображает статистику сессии.

Этот дашборд содержит следующие графики:
-
TPS/QPS.
-
Longest query duration.
-
Longest TX duration.
-
Longest wait duration.
-
Longest session duration.
-
Longest Autovacuum duration / # AV workers.
-
Sessions by state.
-
Instance total connections.
Etcd Cluster overview
Дашборд Etcd Cluster overview предоставляет статистику кластера Etcd.

Global ADPG dashboard
Дашборд Global ADPG предоставляет общую статистику базы данных и может предупредить о критических проблемах в кластере.

Дашборд Global ADPG включает следующие показатели:
-
Total Monitored DB-s.
Он также содержит таблицы, перечисленные ниже:
-
Top N by checkpoints duration
-
Top N by TPS.
-
Top N by QPS.
-
Top N by shared buffers hit ratio.
-
Top N by TX rollback.
-
Top N by replication lag.
-
Top N by DB size.
-
Top N by idle sessions %.
-
Top N by blocked sessions %.
-
Top N by longest TX time.
-
Top N by WAL rate.
-
Top N by WAL folder size.
-
Top N by session duration.
-
Top N by used connections.
-
Top N by autovacuum warn percent.
-
Top N by temp files.
-
Top N by duration of running autovacuums.
Где "Top N" — количество первых значений, размер вывода, который устанавливается фильтром top_limit
, значение по умолчанию — 3
.
HAProxy statistics
Дашборд HAProxy statistics предоставляет статистику сервиса Balancer (HAProxy).

Node Exporter statistics
Дашборд Node Exporter statistics предоставляет системные метрики для каждой ноды в кластере, где установлен компонент Node Exporter. Выбрать ноду можно в фильтре host вверху страницы.

PgBackRest Exporter statistics
Дашборд PgBackRest Exporter statistics отображает статистику бэкапов.

PgBouncer statistics
Дашборд PgBouncer statistics содержит статистические данные о производительности PgBouncer.

Дашборд содержит следующие значения:
-
TPS — общее количество транзакций SQL, прошедших через PgBouncer.
-
QPS — общее количество запросов, обработанных PgBouncer.
-
Avg. query runtime — среднее время выполнения запроса через PgBouncer. Рассчитывается как отношение общего времени выполнения всех запросов, прошедших через PgBouncer, к общему количеству запросов, обработанных PgBouncer.
-
Avg. Pool wait time — среднее время ожидания подключения через PgBouncer. Рассчитывается как отношение времени ожидания доступа клиентов к базе данных через PgBouncer к общему количеству запросов, обработанных PgBouncer.
-
Incoming traffic — общий объем сетевого трафика, полученного PgBouncer. Отражает количество байт, полученных с момента запуска PgBouncer.
-
Outgoing traffic — общий объем сетевого трафика, отправленного PgBouncer. Отражает количество байт, отправленных с момента запуска PgBouncer.
Дашборд PgBouncer statistics отображает следующие графики:
-
TPS — количество транзакций в секунду.
-
QPS — количество запросов в секунду.
-
Avg. query runtime — среднее время выполнения запроса, в микросекундах.
-
Avg. pool wait time per Query — среднее время ожидания запросов в пуле, в микросекундах.
-
Incoming traffic rate — средняя скорость входящего трафика, байт/с.
-
Outgoing traffic rate — средняя скорость исходящего трафика, байт/с.