Метрики мониторинга ADPG-кластера

В этой статье описываются доступные метрики мониторинга для кластера ADPG. Для получения информации о системе мониторинга и его установке обратитесь к статьям Мониторинг и Установка мониторинга.

ADPG использует Grafana для визуализации метрик. Чтобы открыть дашборды с метриками, введите адрес хоста, на котором развернут компонент Grafana, и добавьте номер порта — из параметра Grafana listen port (значение по умолчанию — 11210). Например, http://10.92.6.91:11210. Для входа используйте admin в качестве имени пользователя и значение параметра Grafana administrator’s password в качестве пароля. Параметры Grafana можно найти на вкладке Configuration сервиса Monitoring.

Авторизация в Grafana
Авторизация в Grafana

Разверните меню Grafana и кликните пункт Dashboards.

Интерфейс Grafana
Интерфейс Grafana

Откроется страница со списком дашбордов мониторинга. Разверните элемент ADPG Dashboard…​ для вашего кластера, чтобы отобразить доступные дашборды.

Дашборды ADPG
Дашборды ADPG
ПРИМЕЧАНИЕ

Для отображения на дашбордах некоторых графиков необходимо создать расширение pg_stat_statements. См. Работа с расширениями.

В интерфейсе Grafana доступны следующие дашборды:

  • ADPG Checkpointer (Bgwriter, Block IO Stats) — отображает статистическую информацию о контрольных точках и процессе bgwriter.

  • ADPG DB overview — содержит графики с характеристиками ноды ADPG.

  • ADPG Health-check — показывает информацию о выбранной ноде кластера.

  • ADPG Replication — отображает параметры репликации.

  • ADPG Sessions overview — содержит графики для анализа параметров сессии.

  • Etcd Cluster overview — отображает метрики кластера etcd.

  • Global ADPG dashboard — включает общую информацию о состоянии системы и должен быть первым дашбордом, сигнализирующим о появлении проблемы.

  • HAProxy statistics — статистика HAProxy.

  • Node Exporter statistics — отображает общие системные метрики для каждой ноды кластера, на которой установлен Node Exporter.

  • PgBackRest Exporter statistics — метрики PgBackRest.

  • PgBouncer statistics  — отображает статистику PgBouncer.

  • PostgreSQL Patroni overview — данные кластера Patroni.

ADPG Checkpointer / Bgwriter / Block IO Stats

Этот дашборд содержит статистику контрольных точек и процесса bgwriter.

Дашборд ADPG Checkpointer
Дашборд ADPG Checkpointer

ADPG Checkpointer / Bgwriter / Block IO Stats включает следующие графики:

  • Checkpoints. Отображает количество контрольных точек за период агрегации.

  • Checkpointer Write / Sync durations.

  • Bgwriter Stats. Отображает значения buffers_checkpoint, buffers_clean и buffers_backend.

  • Backend Read / Write times. График основан на представлении pg_stat_database, для его построения требуется, чтобы параметр track_io_timing был равен on.

  • Table / Index / Toast Blocks Read. Информация о количестве блоков каждого типа, считывающихся из базы данных. Обратите внимание, что значения Reads также учитывают чтение из кеша файловой системы.

ADPG DB overview

Этот дашборд содержит графики характеристик нод ADPG и помогает анализировать слабые места определенной ноды.

Дашборд ADPG DB overview
Дашборд ADPG DB overview

Дашборд ADPG DB overview включает следующие состояния:

  • Instance state — PRIMARY/REPLICA.

  • Instance uptime.

  • TPS — количество транзакций в секунду.

  • QPS — количество запросов в секунду.

  • Query runtime — среднее время выполнения запроса.

  • DB size ch. (1h) — размер БД, рассчитывающийся за каждый час.

  • Approx Table Bloat.

  • Tuples fetched vs returned.

Дашборд ADPG DB overview содержит следующие графики:

  • Tuple ins. / upd. / del. statistics.

  • Buffers hit ratio + Rollback ratio.

  • TPS / QPS avg.

  • WAL rate (avg.) + DB size.

  • Session by state (avg.).

  • Seq. / Idx. scans >10MB tables.

  • Temp bytes — значения появляются, когда затратные операции группировки и сортировки требуют больше памяти, чем значение work_mem.

ADPG Health-check

Этот дашборд отображает состояние определенной базы данных, которую можно выбрать в фильтре database вверху страницы.

Дашборд ADPG Health-check
Дашборд ADPG Health-check

Дашборд ADPG Health-check содержит следующие состояния:

  • Instance state.

  • Instance uptime.

  • PG version number.

  • Longest query runtime.

  • Active connections.

  • Max. connections.

  • Blocked sessions.

  • Shared buffer hit pct.

  • TX rollback pct. (avg.).

  • TPS(avg.).

  • QPS(avg.).

  • "Idle" in TX count.

  • DB size(last).

  • DB size change(diff).

  • Query runtime(avg.).

  • WAL archiving status.

  • WAL folder size.

  • Invalid/duplicate indexes.

  • Autovacuum issues.

  • Checkpoints requested.

  • Approx. table bloat.

  • WAL per second(avg.).

  • Temp. bytes per second(avg.).

  • Longest AUTOVACUUM duration.

  • Seq. scans on >100 MB tables (tot.).

  • INSERT-s per minute(avg.).

  • UPDATE-s per minute(avg.).

  • DELETE-s per minute(avg.).

  • Max replication lag.

  • Max table FREEZE age.

  • Max. XMIN horizon age.

  • Inactive replication slots.

ADPG Replication

Дашборд ADPG Replication содержит метрики репликации.

Дашборд ADPG Replication
Дашборд ADPG Replication

Дашборд ADPG Replication отображает следующие состояния:

  • Inactive repl. slots.

  • Active repl. slots.

  • Active replicas.

  • Active "sync" replicas.

  • Slot max. restart_lsn lag.

  • Max. write lag.

  • Max. flush lag.

  • Max. replay lag.

Дашборд ADPG Replication содержит следующие графики:

  • Replication slot restart_lsn lag (primary extra WAL size). Значения рассчитываются на основе представления pg_replication_slots только для нод primary.

  • Replication flush lag. Значения рассчитываются на основе представления pg_stat_replication только для нод primary. Обратите внимание, что данные доступны только на подключенных репликах.

  • Replication replay lag. Значения рассчитываются на основе представления pg_stat_replication только для нод primary. Обратите внимание, что данные доступны только на подключенных репликах.

  • Repl. slot XMIN age (in transactions). Значения рассчитываются на основе поля xmin представления pg_replication_slots.

ADPG Sessions overview

Дашборд ADPG Sessions overview отображает статистику сессии.

Дашборд ADPG Sessions overview
Дашборд ADPG Sessions overview

Этот дашборд содержит следующие графики:

  • TPS/QPS.

  • Longest query duration.

  • Longest TX duration.

  • Longest wait duration.

  • Longest session duration.

  • Longest Autovacuum duration / # AV workers.

  • Sessions by state.

  • Instance total connections.

Etcd Cluster overview

Дашборд Etcd Cluster overview предоставляет статистику кластера Etcd.

Дашборд Etcd Cluster overview
Дашборд Etcd Cluster overview

Global ADPG dashboard

Дашборд Global ADPG предоставляет общую статистику базы данных и может предупредить о критических проблемах в кластере.

Global ADPG dashboard
Global ADPG dashboard

Дашборд Global ADPG включает следующие показатели:

  • Total Monitored DB-s.

Он также содержит таблицы, перечисленные ниже:

  • Top N by checkpoints duration

  • Top N by TPS.

  • Top N by QPS.

  • Top N by shared buffers hit ratio.

  • Top N by TX rollback.

  • Top N by replication lag.

  • Top N by DB size.

  • Top N by idle sessions %.

  • Top N by blocked sessions %.

  • Top N by longest TX time.

  • Top N by WAL rate.

  • Top N by WAL folder size.

  • Top N by session duration.

  • Top N by used connections.

  • Top N by autovacuum warn percent.

  • Top N by temp files.

  • Top N by duration of running autovacuums.

Где "Top N" — количество первых значений, размер вывода, который устанавливается фильтром top_limit, значение по умолчанию — 3.

HAProxy statistics

Дашборд HAProxy statistics предоставляет статистику сервиса Balancer (HAProxy).

Дашборд HAProxy statistics
Дашборд HAProxy statistics

Node Exporter statistics

Дашборд Node Exporter statistics предоставляет системные метрики для каждой ноды в кластере, где установлен компонент Node Exporter. Выбрать ноду можно в фильтре host вверху страницы.

Дашборд Node Exporter statistics
Дашборд Node Exporter statistics

PgBackRest Exporter statistics

Дашборд PgBackRest Exporter statistics отображает статистику бэкапов.

Дашборд PgBackRest Exporter statistics
Дашборд PgBackRest Exporter statistics

PgBouncer statistics

Дашборд PgBouncer statistics содержит статистические данные о производительности PgBouncer.

Дашборд PgBouncer statistics
Дашборд PgBouncer statistics

Дашборд содержит следующие значения:

  • TPS — общее количество транзакций SQL, прошедших через PgBouncer.

  • QPS — общее количество запросов, обработанных PgBouncer.

  • Avg. query runtime — среднее время выполнения запроса через PgBouncer. Рассчитывается как отношение общего времени выполнения всех запросов, прошедших через PgBouncer, к общему количеству запросов, обработанных PgBouncer.

  • Avg. Pool wait time — среднее время ожидания подключения через PgBouncer. Рассчитывается как отношение времени ожидания доступа клиентов к базе данных через PgBouncer к общему количеству запросов, обработанных PgBouncer.

  • Incoming traffic — общий объем сетевого трафика, полученного PgBouncer. Отражает количество байт, полученных с момента запуска PgBouncer.

  • Outgoing traffic — общий объем сетевого трафика, отправленного PgBouncer. Отражает количество байт, отправленных с момента запуска PgBouncer.

Дашборд PgBouncer statistics отображает следующие графики:

  • TPS — количество транзакций в секунду.

  • QPS — количество запросов в секунду.

  • Avg. query runtime — среднее время выполнения запроса, в микросекундах.

  • Avg. pool wait time per Query — среднее время ожидания запросов в пуле, в микросекундах.

  • Incoming traffic rate — средняя скорость входящего трафика, байт/с.

  • Outgoing traffic rate — средняя скорость исходящего трафика, байт/с.

PostgreSQL Patroni overview

Дашборд PostgreSQL Patroni overview содержит информацию о кластере Patroni.

Дашборд PostgreSQL Patroni overview
Дашборд PostgreSQL Patroni overview
Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней