Метрики мониторинга ADPG-кластера

В этой статье описываются доступные метрики мониторинга для кластера ADPG. Для получения информации о системе мониторинга и его установке обратитесь к статьям Мониторинг и Установка мониторинга.

ADPG использует Grafana для визуализации метрик. Чтобы открыть дашборды с метриками, введите адрес хоста, на котором развернута Grafana, и добавьте номер порта — параметр Grafana TCP port (значение по умолчанию — 12012). Например, http://10.92.6.91:12012. Для входа используйте admin в качестве имени пользователя и значение параметра Grafana admin’s password в качестве пароля. Параметры Grafana можно найти на вкладке Configuration сервиса Metrics storage.

Интерфейс Grafana
Интерфейс Grafana
ПРИМЕЧАНИЕ
  • Источником данных для Grafana является хост с HAProxy (с сервисом Balancer). Если на нём происходит сбой, необходимо вручную изменить источник данных Grafana. Для этого в интерфейсе Grafana откройте страницу Configuration, перейдите на вкладку Data sources и добавьте новый источник данных типа PostgreSQL.

  • Для отображения на дашбордах некоторых графиков необходимо создать расширение pg_stat_statements. См. Работа с расширениями.

В интерфейсе Grafana доступны следующие дашборды:

  • Global ADPG dashboard — включает общую информацию о состоянии системы и должен быть первым дашбордом, сигнализирующим о появлении проблемы.

  • ADPG Checkpointer (Bgwriter, Block IO Stats) — отображает статистическую информацию о контрольных точках и процессе bgwriter.

  • ADPG DB overview — содержит графики с характеристиками ноды ADPG.

  • ADPG Health-check — показывает информацию о выбранной ноде кластера.

  • ADPG Replication — отображает параметры репликации.

  • ADPG Sessions overview — содержит графики для анализа параметров сессии.

  • ADPG System metrics — отображает общие системные метрики всех нод кластера.

  • PgBouncer statistics  — отображает статистику PgBouncer.

Global ADPG dashboard

Дашборд Global ADPG предоставляет общую статистику базы данных и может предупредить о критических проблемах в кластере.

Global ADPG dashboard
Global ADPG dashboard

Дашборд Global ADPG включает следующие показатели:

  • Monitored PRIMARY DB-s.

  • Monitored REPLICA DB-s.

  • Offline nodes.

Он также содержит таблицы, перечисленные ниже:

  • Top N by TPS.

  • Top N by QPS.

  • Top N by TX rollback.

  • Top N by shared buffers hit ratio.

  • Top N by replication lag.

  • Top N by DB size.

  • Top N by idle sessions %.

  • Top N by blocked sessions %.

  • Top N by longest TX time.

  • Top N by WAL rate.

  • Top N by WAL folder size.

  • Top N by longest session duration.

  • Top N by used connections.

  • Top N by CPU utilization %.

  • Top N by waiting time.

  • Top N by temp files.

  • Top N by lowest free disk %.

  • Top N by duration of running autovacuums.

  • Top N by autovacuum warn percent.

  • Top N by checkpoint write and sync duration.

Где Top N — количество первых значений, размер вывода, который устанавливается фильтром top_limit, значение по умолчанию — 3.

ADPG Checkpointer (Bgwriter, Block IO Stats)

Этот дашборд содержит статистику контрольных точек и процесса bgwriter.

Дашборд ADPG Checkpointer
Дашборд ADPG Checkpointer

ADPG Checkpointer включает следующие графики:

  • Checkpoints. Отображает количество контрольных точек за период агрегации.

  • Checkpointer Write / Sync durations.

  • Bgwriter Stats. Отображает значения buffers_checkpoint, buffers_clean и buffers_backend.

  • Backend Read / Write times. График основан на представлении pg_stat_database, для его построения требуется, чтобы параметр track_io_timing был равен on.

  • Table / Index / Toast Blocks Read. Обратите внимание, что значения Reads также учитывают чтение из кеша файловой системы.

ADPG DB overview

Этот дашборд содержит графики характеристик нод ADPG и помогает анализировать слабые места определённой ноды.

Дашборд ADPG DB overview
Дашборд ADPG DB overview

Дашборд ADPG DB overview включает следующие состояния:

  • Instance state — PRIMARY/REPLICA.

  • Instance uptime.

  • TPS — количество транзакций в секунду.

  • QPS — количество запросов в секунду.

  • Query runtime — среднее время выполнения запроса.

  • DB size ch. 1h — размер БД, рассчитывающийся за каждый час.

  • Approx Table Bloat.

  • Tuples fetched vs returned.

Дашборд ADPG DB overview содержит следующие графики:

  • Tuple ins. / upd. / del. statistics.

  • Shared Buffers hit ratio + Rollback ratio.

  • TPS / QPS avg.

  • WAL rate + DB size.

  • Seq. / Idx. scans.

  • Sessions by state — active, idle, total, waiting, idleintransaction, av_workers.

  • CPU load + avg.query runtime.

  • Temp bytes — значения появляются, когда затратные операции группировки и сортировки требуют больше памяти, чем значение work_mem.

ADPG Health-check

Этот дашборт отображает состояние определённой ноды.

Дашборд ADPG Health-check
Дашборд ADPG Health-check

Дашборд ADPG Health-check содержит следующие состояния:

  • Instance state.

  • Instance uptime.

  • PG version number.

  • Longest query runtime.

  • Number of active connection.

  • Number of max. connections.

  • Number of blocked sessions.

  • Shared buffer hit percent.

  • Avg. TX rollback percent.

  • TPS(avg.).

  • QPS(avg.).

  • "idle" in TX count.

  • DB size(last).

  • DB size change(diff).

  • DATADIR disk space left.

  • Query runtime(avg.).

  • Config change events.

  • Table changes.

  • WAL archiving status.

  • WAL folder size.

  • Invalid/duplicate indexes.

  • Autovacuum issues.

  • Checkpoints requested.

  • Approx table bloat.

  • WAL per second(avg.).

  • Temp bytes per second(avg.).

  • Longest autovacuum duration.

  • Seq. scans on >100MB tables per minute(avg.).

  • INSERT-s per minute(avg.).

  • UPDATE-s per minute(avg.).

  • DELETE-s per minute(avg.).

  • Backup duration.

  • Max table FREEZE age.

  • Max. XMIN horizon age.

  • Inactive replication slots.

  • Max replication lag.

ADPG Replication

Дашборд ADPG Replication содержит метрики репликации.

Дашборд ADPG Replication
Дашборд ADPG Replication

Дашборд ADPG Replication отображает следующие состояния:

  • Inactive repl. slots.

  • Active repl. slots.

  • Active replicas.

  • Active "sync" replicas.

  • Slot max. restart_lsn lag.

  • Max. write lag.

  • Max. flush lag.

  • Max. replay lag.

Дашборд ADPG Replication содержит следующие графики:

  • Replication slot restart_lsn lag (primary extra WAL size). Значения рассчитываются на основе представления pg_replication_slots только для нод primary.

  • Replication flush lag. Значения рассчитываются на основе представления pg_stat_replication только для нод primary. Обратите внимание, что данные доступны только на подключенных репликах.

  • Replication replay lag. Значения рассчитываются на основе представления pg_stat_replication только для нод primary. Обратите внимание, что данные доступны только на подключенных репликах.

  • Repl. slot XMIN age (in transactions). Значения рассчитываются на основе поля xmin представления pg_replication_slots.

ADPG Sessions overview

Дашборд ADPG Sessions overview отображает статистику сессии.

Дашборд ADPG Sessions overview
Дашборд ADPG Sessions overview

Этот дашборд содержит следующие графики:

  • Max. TPS/QPS.

  • Longest query duration.

  • Longest TX duration.

  • Longest wait duration.

  • Longest session duration.

  • Longest Autovacuum duration.

  • Sessions by state.

  • Instance total connections.

ADPG System metrics

Дашборд ADPG System metrics содержит общие системные метрики ноды (загрузка ЦП, нагрузка сети, анализ дискового хранилища и другие).

Дашборд ADPG System metrics
Дашборд ADPG System metrics

Дашборд ADPG System metrics содержит следующие графики:

  • CPU usage %.

  • LoadAVG 1m normalized.

  • IO Write, bytes/sec.

  • IO Read, bytes/sec.

  • Network receive bytes.

  • Network transmit bytes.

  • Memory cached.

  • Memory free.

  • Disk space usage %.

  • Disk space available bytes.

  • Processes total.

PgBouncer statistics

Дашборд PgBouncer statistics содержит статистические данные о производительности PgBouncer.

Дашборд PgBouncer statistics
Дашборд PgBouncer statistics

Этот дашборд отображает следующие графики:

  • TPS — количество транзакций в секунду.

  • QPS — количество запросов в секунду.

  • Avg. query runtime — среднее время выполнения запроса, в микросекундах.

  • Pool wait time per Query — среднее время ожидания запросов в пуле, в микросекундах.

  • Incoming traffic rate — средняя скорость входящего трафика, байт/с.

  • Outgoing traffic rate — средняя скорость исходящего трафика, байт/с.

ПРИМЕЧАНИЕ

Чтобы мониторинг PgBouncer работал правильно, необходимо выполнить действие кластера Reconfigure Monitoring Agents после изменения настроек из секции конфигурации Enable pgbouncer.

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней