Метрики мониторинга кластера ADQM

В статье описываются метрики мониторинга кластера ADQM. Для получения информации об установке мониторинга обратитесь к разделам:

Типы метрик

Для кластера ADQM доступны две группы метрик: системные метрики и метрики сервера ClickHouse. Если мониторинг настроен через сервис Monitoring (доступен в ADQM, начиная с версии 23.8.2.7), метрики собираются со всех сервисов ADQM, включая ZooKeeper, ClickHouse Keeper, Chproxy.

Системные метрики показывают общие характеристики состояния хостов кластера, связанные, как правило, с потреблением ресурсов. Ниже представлен список системных метрик.

System metrics
Группа метрик Описание

cpu

Уровень загруженности процессора

diskspace

Заполнение диска

files

Файловая статистика

iostat

Производительность операций ввода/вывода

loadavg

Средние значения загрузки системы

memory

Использование памяти

netstat

Статистика сетевых подключений

network

Производительность сетевых интерфейсов

Метрики сервера ClickHouse, доступные для кластера ADQM, включают:

  • Metrics — метрики, которые рассчитываются в каждый момент времени и имеют актуальные текущие значения (например, количество одновременно обрабатываемых запросов или текущее значение задержки реплики).

  • ProfileEvents — информация о количестве событий, произошедших в системе (например, количество запросов SELECT, обработанных с момента запуска сервера ClickHouse).

  • AsynchronousMetrics — метрики, которые периодически вычисляются в фоновом режиме (например, объем используемой оперативной памяти).

В таблицах ниже приведены метрики сервера ClickHouse.

Metrics
Название метрики Описание

ActiveAsyncDrainedConnections

Количество активных соединений, асинхронно опустошенных (все данные из которых были асинхронно извлечены)

ActiveSyncDrainedConnections

Количество активных соединений, синхронно опустошенных

AsyncDrainedConnections

Количество соединений, асинхронно опустошенных

AsynchronousReadWait

Количество потоков, ожидающих асинхронного чтения

BackgroundBufferFlushSchedulePoolTask

Количество активных задач в BackgroundBufferFlushSchedulePool (пул, который используется для выполнения фонового сброса данных в таблицах с движком Buffer)

BackgroundCommonPoolTask

Количество активных задач в соответствующем фоновом пуле

BackgroundDistributedSchedulePoolTask

Количество активных задач в BackgroundDistributedSchedulePool (пул, который используется для выполнения фоновых задач в распределенных таблицах)

BackgroundFetchesPoolTask

Количество активных скачиваний кусков данных для реплицируемых таблиц в соответствующем фоновом пуле

BackgroundMergesAndMutationsPoolTask

Количество активных слияний и мутаций в соответствующем фоновом пуле

BackgroundMessageBrokerSchedulePoolTask

Количество активных задач в BackgroundProcessingPool для фоновой потоковой передачи сообщений

BackgroundMovePoolTask

Количество активных задач в BackgroundProcessingPool для фоновых перемещений кусков данных

BackgroundSchedulePoolTask

Количество активных задач в BackgroundSchedulePool (пул, который используется для периодических задач в реплицируемых таблицах, таких как удаление старых кусков данных, изменение кусков данных, повторная инициализация реплики и других)

BrokenDistributedFilesToInsert

Количество файлов для асинхронной вставки в распределенные таблицы, которые были отмечены как поврежденные. При запуске сервера значение метрики 0. Количество файлов для каждого шарда суммируется

CacheDetachedFileSegments

Количество существующих отделенных сегментов кеш-файла

CacheDictionaryUpdateQueueBatches

Количество "пакетов" (наборов ключей) в очереди обновлений в CacheDictionaries

CacheDictionaryUpdateQueueKeys

Точное количество ключей в очереди обновлений в CacheDictionaries

CacheFileSegments

Количество существующих сегментов кеш-файла

ContextLockWait

Количество потоков, ожидающих блокировки Context (глобальная блокировка)

DelayedInserts

Количество запросов INSERT, отложенных из-за большого количества активных кусков данных для партиции в таблице MergeTree

DictCacheRequests

Количество запросов к источникам данных словарей, которые хранятся в кеше

DiskSpaceReservedForMerge

Место на диске, зарезервированное для текущих фоновых слияний (немного больше, чем общий размер сливающихся в данный момент кусков данных)

DistributedFilesToInsert

Количество файлов, ожидающих обработки для асинхронной вставки в распределенные таблицы. Количество файлов для каждого шарда суммируется

DistributedSend

Количество подключений к удаленным серверам для отправки данных на вставку в распределенные таблицы (в синхронном и асинхронном режиме)

EphemeralNode

Количество эфемерных узлов в ZooKeeper

FilesystemCacheElements

Кешируемые элементы файловой системы (сегменты файлов)

FilesystemCacheReadBuffers

Количество активных кеш-буферов

FilesystemCacheSize

Размер кеша файловой системы в байтах

GlobalThread

Количество потоков в глобальном пуле потоков

GlobalThreadActive

Количество потоков в глобальном пуле потоков, выполняющих задачу

HTTPConnection

Количество подключений к HTTP-серверу

InterserverConnection

Количество подключений других реплик для получения кусков данных

KafkaAssignedPartitions

Количество партиций, которым в данный момент назначены таблицы Kafka

KafkaBackgroundReads

Количество фоновых чтений, осуществляемых в данный момент (заполнение материализованных представлений из Kafka)

KafkaConsumers

Количество активных потребителей (consumers) Kafka

KafkaConsumersInUse

Количество потребителей, которые в данный момент используются прямыми или фоновыми чтениями

KafkaConsumersWithAssignment

Количество активных потребителей Kafka, которым назначены какие-либо партиции

KafkaLibrdkafkaThreads

Количество активных потоков библиотеки librdkafka

KafkaProducers

Количество созданных активных производителей (producers) Kafka

KafkaWrites

Количество запущенных в данный момент записей в Kafka

KeeperAliveConnections

Количество активных подключений

KeeperOutstandingRequets

Количество невыполненных запросов

LocalThread

Количество потоков в локальных пулах потоков. Потоки в локальных пулах потоков берутся из глобального пула потоков

LocalThreadActive

Количество потоков в локальных пулах потоков, выполняющих задачу

MMappedFileBytes

Суммарный размер областей mmapped-файлов (в байтах)

MMappedFiles

Общее количество mmapped-файлов (файлы, отображаемые в память)

MaxDDLEntryID

Максимальный ID обработанной DDL-команды

MaxPushedDDLEntryID

Максимальный ID DDL-команды, отправленной в ZooKeeper

MemoryTracking

Общий объем памяти (в байтах), занятой сервером

Merge

Количество выполняемых фоновых слияний

MySQLConnection

Количество клиентских подключений по протоколу MySQL

NetworkReceive

Количество потоков, получающих данные из сети (учитывается только сетевое взаимодействие, связанное с ClickHouse, а не со сторонними библиотеками)

NetworkSend

Количество потоков, отправляющих данные в сеть (учитывается только сетевое взаимодействие, связанное с ClickHouse, а не со сторонними библиотеками)

OpenFileForRead

Количество файлов, открытых для чтения

OpenFileForWrite

Количество файлов, открытых для записи

PartMutation

Количество мутаций (ALTER DELETE/UPDATE)

PartsActive

Количество активных кусков данных, используемых в текущих и предстоящих запросах SELECT

PartsCommitted

Устаревшая метрика, см. PartsActive

PartsCompact

Количество кусков данных в формате Compact

PartsDeleteOnDestroy

Количество кусков данных, перемещенных на другой диск, которые должны быть удалены собственным деструктором

PartsDeleting

Количество неактивных кусков данных, которые удаляются в данный момент

PartsInMemory

Количество кусков данных в оперативной памяти (in-memory data parts)

PartsOutdated

Количество неактивных кусков данных, которые могут быть использованы только в текущих запросах SELECT и удалены после их завершения

PartsPreActive

Количество кусков данных, которые есть в списке data_parts, но не используются для запросов SELECT

PartsPreCommitted

Устаревшая метрика, см. PartsPreActive

PartsTemporary

Количество кусков данных, которые генерируются в настоящий момент, их нет в списке data_parts

PartsWide

Количество кусков данных в формате Wide

PendingAsyncInsert

Количество асинхронных вставок, ожидающих сброса

PostgreSQLConnection

Количество клиентских подключений по протоколу PostgreSQL

Query

Количество выполняемых запросов

QueryPreempted

Количество запросов, остановленных и находящихся в режиме ожидания в соответствии с настройкой priority

QueryThread

Количество потоков обработки запроса

RWLockActiveReaders

Количество потоков, удерживающих блокировку чтения в таблице RWLock

RWLockActiveWriters

Количество потоков, удерживающих блокировку записи в таблице RWLock

RWLockWaitingReaders

Количество потоков, ожидающих чтения в таблице RWLock

RWLockWaitingWriters

Количество потоков, ожидающих записи в таблицу RWLock

Read

Количество системных вызовов чтения (read, pread, io_getevents, и т.д.), которые в данный момент выполняются

ReadonlyReplica

Количество реплицируемых таблиц, которые в настоящее время находятся в состоянии только для чтения из-за повторной инициализации после потери соединения с ZooKeeper или из-за того, что были созданы без настроенного ZooKeeper

ReplicatedChecks

Количество кусков данных, проверяемых на согласованность

ReplicatedFetch

Количество кусков данных, извлекаемых из реплики

ReplicatedSend

Количество кусков данных, отправляемых на реплики

Revision

Ревизия сервера. Это число увеличивается для каждого релиза или релиз-кандидата, кроме релизов патчей

S3Requests

Количество запросов S3

SendExternalTables

Количество подключений, которые отправляют данные для внешних таблиц на удаленные серверы. Внешние таблицы используются для реализации операторов GLOBAL IN и GLOBAL JOIN с распределенными подзапросами

SendScalars

Количество подключений, которые отправляют данные для скаляров на удаленные серверы

StorageBufferBytes

Количество байтов в буферах таблиц Buffer

StorageBufferRows

Количество строк в буферах таблиц Buffer

SyncDrainedConnections

Количество соединений, синхронно опустошенных (все данные из которых были синхронно извлечены)

TCPConnection

Количество подключений к TCP-серверу (клиенты с интерфейсом Native), включая подключения сервер-сервер для выполнения распределенных запросов

TablesToDropQueueSize

Количество удаленных таблиц, ожидающих фонового удаления данных

VersionInteger

Версия сервера в виде одного целого числа (например, версия 11.22.33 преобразуется в 11022033)

Write

Количество системных вызовов записи (write, pwrite, io_getevents, и т.д.), которые в данный момент выполняются

ZooKeeperRequest

Количество запросов к ZooKeeper, выполняющихся в данный момент

ZooKeeperSession

Количество подключений к ZooKeeper. Должно быть не более одного, потому что использование более одного подключения к ZooKeeper может привести к ошибкам из-за отсутствия линеаризуемости (устаревшие чтения), которую допускает модель согласованности ZooKeeper

ZooKeeperWatch

Количество watches (подписок на события) в ZooKeeper

ProfileEvents
Название события Описание

AIORead

Количество операций чтения через интерфейс Linux или FreeBSD AIO

AIOReadBytes

Количество байтов, прочитанных через интерфейс Linux или FreeBSD AIO

AIOWrite

Количество операций записи через интерфейс Linux или FreeBSD AIO

AIOWriteBytes

Количество байтов, записанных через интерфейс Linux или FreeBSD AIO

AggregationHashTablesInitializedAsTwoLevel

Сколько хеш-таблиц было инициализировано как двухуровневые для агрегирования

AggregationPreallocatedElementsInHashTables

Сколько элементов было предварительно выделено в хеш-таблицах для агрегирования

ArenaAllocBytes

Количество байтов, выделенных во внутренней памяти, используемой для небольших объектов

ArenaAllocChunks

Общее количество блоков памяти, выделенных в памяти, используемой для небольших объектов

AsyncInsertBytes

Размер данных (в байтах) асинхронных запросов INSERT

AsyncInsertQuery

То же, что и InsertQuery, но только для асинхронных запросов INSERT

AsynchronousReadWaitMicroseconds

Время ожидания асинхронного чтения

CachedReadBufferCacheWriteBytes

Количество байтов, записанных из источника (например, remote fs) в кеш файловой системы

CachedReadBufferCacheWriteMicroseconds

Время, затраченное на запись данных в кеш файловой системы

CachedReadBufferReadFromCacheBytes

Количество байтов, прочитанных из кеша файловой системы

CachedReadBufferReadFromCacheMicroseconds

Время чтения из кеша файловой системы

CachedReadBufferReadFromSourceBytes

Количество байтов, прочитанных из источника кеша файловой системы (например, remote fs)

CachedReadBufferReadFromSourceMicroseconds

Время чтения из источника кеша файловой системы (например, из удаленной файловой системы)

CachedWriteBufferCacheWriteBytes

Количество байтов, записанных из источника (например, remote fs) в кеш файловой системы

CachedWriteBufferCacheWriteMicroseconds

Время, затраченное на запись данных в кеш файловой системы

CannotRemoveEphemeralNode

Сколько раз возникала ошибка при попытке удалить эфемерный узел (при этом гарантируется, что сессия истечет и эфемерный узел будет удален, даже если произошла ошибка при попытке удалить его вручную)

CannotWriteToWriteBufferDiscard

Количество трассировок стека (stack traces), выданных профилировщиком запросов или обработчиком сигналов из-за переполнения канала или невозможности записи в канал

CompileExpressionsBytes

Количество байтов, используемых для компиляции выражений

CompileExpressionsMicroseconds

Общее время, затраченное на компиляцию выражений в код LLVM

CompileFunction

Сколько раз инициировалась компиляция сгенерированного кода LLVM (для создания объединенной функции для сложных выражений)

CompiledFunctionExecute

Сколько раз выполнялась скомпилированная функция

CompressedReadBufferBlocks

Количество сжатых блоков (блоков данных, которые сжимаются независимо друг от друга), считанных из сжатых источников (файлов, сети)

CompressedReadBufferBytes

Количество несжатых байтов (количество байтов после декомпрессии), прочитанных из сжатых источников (файлов, сети)

ContextLock

Сколько раз блокировка Context (глобальная блокировка) была получена или предпринята попытка ее получить

CreatedHTTPConnections

Общее количество созданных HTTP-соединений (счетчик увеличивается каждый раз, когда создается соединение)

CreatedLogEntryForMerge

Количество успешно созданных записей в логах о слиянии кусков данных в таблицах ReplicatedMergeTree

CreatedLogEntryForMutation

Количество успешно созданных записей в логах об изменении кусков данных в таблицах ReplicatedMergeTree

CreatedReadBufferDirectIO

Сколько раз буфер чтения с O_DIRECT создавался для чтения данных (при выборе среди других методов чтения)

CreatedReadBufferDirectIOFailed

Количество попыток создания буфера чтения с O_DIRECT для чтения данных (при выборе среди других методов чтения), когда операционная система этого не разрешала (из-за отсутствия поддержки файловой системы или по другим причинам), после чего использовался обычный метод чтения

CreatedReadBufferMMap

Количество раз, когда был создан буфер чтения с использованием mmap для чтения данных (при выборе среди других методов чтения)

CreatedReadBufferMMapFailed

Количество попыток создания буфера чтения с mmap для чтения данных (при выборе среди других методов чтения), когда операционная система этого не разрешала (из-за отсутствия поддержки файловой системы или по другим причинам), после чего использовался обычный метод чтения

CreatedReadBufferOrdinary

Сколько раз создавался буфер чтения для обычных файлов

DNSError

Общее количество ошибок при разрешении DNS

DataAfterMergeDiffersFromReplica

Количество раз, когда данные после слияния были не идентичны по байтам данным на других репликах. Причин может быть несколько:

  • использование более новой версии библиотеки сжатия после обновления сервера;

  • использование другого метода сжатия;

  • алгоритм недетерминированного сжатия (крайне маловероятен);

  • недетерминированный алгоритм слияния из-за логической ошибки в коде;

  • повреждение данных в памяти из-за ошибки в коде;

  • повреждение данных в памяти из-за проблем с оборудованием;

  • ручная модификация исходных данных после запуска сервера;

  • ручная модификация контрольных сумм, хранящихся в ZooKeeper;

  • параметры, связанные с форматом куска данных, такие как enable_mixed_granularity_parts, различаются на разных репликах.

Сервер успешно обнаружит эту ситуацию и загрузит объединенный кусок данных из реплики, чтобы получить идентичный по байтам результат

DataAfterMutationDiffersFromReplica

Количество раз, когда данные после мутации были не идентичны по байтам данным на других репликах. Помимо причин, описанных в DataAfterMergeDiffersFromReplica, это также возможно из-за недетерминированной мутации

DelayedInserts

Количество раз, когда вставка данных в таблицу MergeTree (запрос INSERT) откладывалась из-за большого количества активных кусков данных для партиции

DelayedInsertsMilliseconds

Общее время (в миллисекундах), когда запрос INSERT на вставку данных в таблицу MergeTree был отложен из-за большого количества активных кусков данных для партиции

DictCacheKeysExpired

Количество найденных в кеше, но устаревших ключей, которые искались в хранящихся в кеше словарях

DictCacheKeysHit

Количество найденных в кеше ключей, которые искались в хранящихся в кеше словарях

DictCacheKeysNotFound

Количество ключей, которые искались в словарях, хранящихся в кеше, но не были найдены

DictCacheKeysRequested

Количество ключей, запрошенных из источника данных для словарей, хранящихся в кеше

DictCacheKeysRequestedFound

Количество ключей, запрошенных из источника данных для словарей, которые хранятся в кеше, и найденных в источнике данных

DictCacheKeysRequestedMiss

Количество ключей, запрошенных из источника данных для словарей, которые хранятся в кеше, но не найденных в источнике данных

DictCacheLockReadNs

Время (в наносекундах), затраченное на ожидание блокировки чтения при поиске данных для словарей, хранящихся в кеше

DictCacheLockWriteNs

Время (в наносекундах), затраченное на ожидание блокировки записи при обновлении данных для словарей, хранящихся в кеше

DictCacheRequestTimeNs

Время (в наносекундах), затраченное на запросы к внешним источникам данных для словарей, хранящихся в кеше

DictCacheRequests

Количество массовых запросов к внешним источникам данных для словарей, хранящихся в кеше

DirectorySync

Количество вызовов функции F_FULLFSYNC/fsync/fdatasync для каталогов

DirectorySyncElapsedMicroseconds

Общее время ожидания системного вызова F_FULLFSYNC/fsync/fdatasync для каталогов

DiskReadElapsedMicroseconds

Общее время ожидания чтения системного вызова (включая время чтения из кеша страниц)

DiskWriteElapsedMicroseconds

Общее время ожидания системного вызова записи (включая время записи в кеш страниц)

DistributedConnectionFailAtAll

Общее количество случаев сбоя распределенного подключения после завершения всех попыток

DistributedConnectionFailTry

Общее количество случаев сбоя распределенного подключения с повторной попыткой

DistributedConnectionMissingTable

Сколько раз реплика исключалась из распределенного запроса, потому что она не содержала таблицы, необходимой для запроса

DistributedConnectionStaleReplica

Сколько раз реплика исключалась из распределенного запроса, потому что для некоторой таблицы, необходимой для запроса, задержка репликации превышала настроенное пороговое значение

DistributedDelayedInserts

Сколько раз запрос INSERT на вставку данных в распределенную таблицу был отложен из-за большого количества ожидающих обработки байтов

DistributedDelayedInsertsMilliseconds

Общее время (в миллисекундах), когда запрос INSERT на вставку данных в распределенную таблицу был отложен из-за большого количества ожидающих обработки байтов

DistributedRejectedInserts

Сколько раз вставка данных (INSERT) в распределенную таблицу была отклонена с исключением Too many bytes из-за большого количества ожидающих обработки байтов

DistributedSyncInsertionTimeoutExceeded

Сколько раз было превышено время ожидания шардов во время синхронной вставки в распределенную таблицу (insert_distributed_sync = 1)

DuplicatedInsertedBlocks

Количество дедупликаций блока данных, вставленного (INSERT) в таблицу ReplicatedMergeTree

ExecuteShellCommand

Количество выполненных команд оболочки (shell)

ExternalAggregationCompressedBytes

Количество байтов, записанных на диск для агрегации во внешней памяти

ExternalAggregationMerge

Количество временных файлов, которые были объединены для агрегации во внешней памяти

ExternalAggregationUncompressedBytes

Объем данных (несжатых, перед сжатием), записанных на диск для агрегации во внешней памяти

ExternalAggregationWritePart

Сколько раз временный файл был записан на диск для агрегации во внешней памяти

ExternalDataSourceLocalCacheReadBytes

Количество байтов, прочитанных из буфера локального кеша в RemoteReadBufferCache

ExternalSortMerge

Количество раз, когда временные файлы были объединены для сортировки во внешней памяти

ExternalSortWritePart

Сколько раз временный файл был записан на диск для сортировки во внешней памяти

FailedInsertQuery

Количество невыполненных (неудачных) запросов INSERT

FailedQuery

Количество невыполненных (неудачных) запросов

FailedSelectQuery

Количество невыполненных (неудачных) запросов SELECT

FileOpen

Количество открытых файлов

FileSegmentCacheWriteMicroseconds

Метрика сегмента файла. Время, затраченное на запись данных в кеш

FileSegmentPredownloadMicroseconds

Метрика сегмента файла. Время, затраченное на предварительную загрузку данных в кеш. Предварительная загрузка — завершение загрузки сегмента файла (после неудачной попытки это сделать) до момента, когда текущий поток был запрошен

FileSegmentReadMicroseconds

Метрика сегмента файла. Время чтения из файла

FileSegmentUsedBytes

Метрика сегмента файла. Сколько байтов было фактически использовано из текущего сегмента файла

FileSegmentWaitReadBufferMicroseconds

Метрика сегмента файла. Время ожидания внутреннего буфера чтения (включая ожидание кеша)

FileSync

Количество вызовов функции F_FULLFSYNC/fsync/fdatasync для файлов

FileSyncElapsedMicroseconds

Общее время ожидания системного вызова F_FULLFSYNC/fsync/fdatasync для файлов

FunctionExecute

Общее количество функций, выполненных системой

HardPageFaults

Количество аппаратных прерываний (отказы страниц, для обработки которых требуется восстановление страниц с диска)

HedgedRequestsChangeReplica

Общее количество раз, когда время ожидания для изменения реплики истекло в хедж-запросах (hedged requests)

IOBufferAllocBytes

Общее количество байтов, выделенных в буферах ввода/вывода

IOBufferAllocs

Общее количество аллокаций в буферах ввода/вывода

InsertQuery

То же, что Query, но только для запросов INSERT

InsertQueryTimeMicroseconds

Общее время выполнения запросов INSERT

InsertedBytes

Количество байтов (несжатых; для столбцов, как они хранятся в памяти), вставленных через запросы INSERT во все таблицы

InsertedCompactParts

Количество кусков данных, вставленных в формате Compact

InsertedInMemoryParts

Количество кусков данных, вставленных в формате InMemory

InsertedRows

Количество строк, вставленных через запросы INSERT во все таблицы

InsertedWideParts

Количество кусков данных, вставленных в формате Wide

KafkaBackgroundReads

Количество фоновых чтений, заполняющих материализованные представления из Kafka с момента запуска сервера

KafkaCommitFailures

Количество неудачных коммитов смещений (offsets) в Kafka (обычно это признак дублирования данных)

KafkaCommits

Количество успешных коммитов смещений (offsets) в Kafka (обычно значение должно быть таким же, как KafkaBackgroundReads)

KafkaConsumerErrors

Количество ошибок, о которых сообщила библиотека librdkafka во время выполнения poll

KafkaDirectReads

Количество прямых выборок из таблиц Kafka с момента запуска сервера

KafkaMessagesFailed

Количество сообщений Kafka, которые ClickHouse не смог распарсить

KafkaMessagesPolled

Количество сообщений Kafka, отправленных из librdkafka в ClickHouse

KafkaMessagesProduced

Количество сообщений, отправленных в Kafka

KafkaMessagesRead

Количество сообщений Kafka, уже обработанных ClickHouse

KafkaProducerErrors

Количество ошибок при отправке сообщений в Kafka

KafkaProducerFlushes

Количество явных сбросов в Kafka producer

KafkaRebalanceAssignments

Количество назначений партиций (заключительный этап перебалансировки групп потребителей)

KafkaRebalanceErrors

Количество неудачных перебалансировок групп потребителей

KafkaRebalanceRevocations

Количество отзывов партиций (первый этап перебалансировки группы потребителей)

KafkaRowsRead

Количество строк, выделенных из сообщений Kafka

KafkaRowsRejected

Количество выделенных строк, которые впоследствии были отклонены (из-за перебалансировок/ошибок или по аналогичным причинам). Эти строки будут снова использованы после перебалансировки

KafkaRowsWritten

Количество строк, вставленных в таблицы Kafka

KafkaWrites

Количество записей (вставок) в таблицы Kafka

KeeperCommits

Количество успешных коммитов

KeeperCommitsFailed

Количество неудачных коммитов

KeeperLatency

Задержка keeper

KeeperPacketsReceived

Пакеты, полученные сервером keeper

KeeperPacketsSent

Пакеты, отправленные сервером keeper

KeeperReadSnapshot

Количество прочитанных снепшотов (сериализация)

KeeperRequestTotal

Общее количество запросов на сервере keeper

KeeperSaveSnapshot

Количество сохраненных снепшотов

KeeperSnapshotApplys

Количество применений снепшотов

KeeperSnapshotApplysFailed

Количество неудачных попыток применения снепшотов

KeeperSnapshotCreations

Количество созданных снепшотов

KeeperSnapshotCreationsFailed

Количество неудачных попыток создания снепшотов

MMappedFileCacheHits

Количество раз, когда файл был найден в кеше MMap (для метода mmap), поэтому не нужно было повторно выполнять mmap

MMappedFileCacheMisses

Количество раз, когда файл не был найден в кеше MMap (для метода mmap), поэтому нужно было снова выполнить mmap

MainConfigLoads

Количество перезагрузок основной конфигурации

MarkCacheHits

Сколько раз запись была найдена в кеше засечек (mark cache), поэтому не нужно было загружать файл засечек

MarkCacheMisses

Количество промахов (cache miss) кеша засечек, который используется в движке MergeTree для более быстрого чтения данных

MemoryOvercommitWaitTimeMicroseconds

Общее время ожидания освобождения памяти в OvercommitTracker

Merge

Количество запущенных фоновых слияний

MergeTreeDataProjectionWriterBlocks

Количество блоков, вставленных через запрос INSERT в проекцию таблиц MergeTree. Каждый блок формирует кусок данных нулевого уровня

MergeTreeDataProjectionWriterBlocksAlreadySorted

Количество блоков, вставленных через запрос INSERT в проекцию таблиц MergeTree, которые оказались уже отсортированными

MergeTreeDataProjectionWriterCompressedBytes

Количество байтов, записанных в файловую систему для данных, вставленных через запрос INSERT в проекцию таблиц MergeTree

MergeTreeDataProjectionWriterRows

Количество строк, вставленных через запрос INSERT в проекцию таблиц MergeTree

MergeTreeDataProjectionWriterUncompressedBytes

Количество несжатых байтов (для столбцов, как они хранятся в памяти), вставленных через запрос INSERT в проекцию таблиц MergeTree

MergeTreeDataWriterBlocks

Количество блоков, вставленных через запросы INSERT в таблицы MergeTree. Каждый блок формирует кусок данных нулевого уровня

MergeTreeDataWriterBlocksAlreadySorted

Количество блоков, вставленных через запросы INSERT в таблицы MergeTree, которые уже отсортированы

MergeTreeDataWriterCompressedBytes

Количество записанных в файловую систему байтов для данных, вставленных через запросы INSERT в таблицы MergeTree

MergeTreeDataWriterRows

Количество строк, вставленных через запросы INSERT в таблицы MergeTree

MergeTreeDataWriterUncompressedBytes

Количество несжатых байтов (для столбцов, как они хранятся в памяти), вставленных через запросы INSERT в таблицы MergeTree

MergeTreeMetadataCacheDelete

Количество операций Delete rocksdb (используется для кеша метаданных MergeTree)

MergeTreeMetadataCacheGet

Количество операций Get rocksdb (используется для кеша метаданных MergeTree)

MergeTreeMetadataCacheHit

Сколько раз выполнялось чтение метафайла из кеша метаданных MergeTree

MergeTreeMetadataCacheMiss

Сколько раз чтение метафайла из кеша метаданных MergeTree не выполнилось

MergeTreeMetadataCachePut

Количество операций Put rocksdb (используется для кеша метаданных MergeTree)

MergeTreeMetadataCacheSeek

Количество операций Seek rocksdb (используется для кеша метаданных MergeTree)

MergedIntoCompactParts

Количество кусков данных, объединенных в формате Compact

MergedIntoInMemoryParts

Количество кусков данных, объединенных в формате InMemory

MergedIntoWideParts

Количество кусков данных, объединенных в формате Wide

MergedRows

Количество строк, считанных для фоновых слияний, то есть количество строк перед слиянием

MergedUncompressedBytes

Количество несжатых байтов (для столбцов, как они хранятся в памяти), которые были считаны для фонового слияния, то есть число байтов до слияния

MergesTimeMilliseconds

Общее время, затраченное на фоновые слияния

NetworkReceiveBytes

Общее количество байтов, полученных из сети (учитывается только сетевое взаимодействие, связанное с ClickHouse, а не со сторонними библиотеками)

NetworkReceiveElapsedMicroseconds

Общее время получения данных или ожидания получения данных из сети (учитывается только сетевое взаимодействие, связанное с ClickHouse, а не со сторонними библиотеками)

NetworkSendBytes

Общее количество байтов, отправленных в сеть (учитывается только сетевое взаимодействие, связанное с ClickHouse, а не со сторонними библиотеками)

NetworkSendElapsedMicroseconds

Общее время отправки данных или ожидания отправки данных в сеть (учитывается только сетевое взаимодействие, связанное с ClickHouse, а не со сторонними библиотеками)

NotCreatedLogEntryForMerge

Сколько раз запись в логе об объединении кусков данных в ReplicatedMergeTree не создалась из-за одновременного обновления лога другой репликой

NotCreatedLogEntryForMutation

Сколько раз запись в логе об изменении куска данных в ReplicatedMergeTree не создалась из-за одновременного обновления лога другой репликой

OSCPUVirtualTimeMicroseconds

Процессорное время, затраченное на выполнение задач, с точки зрения операционной системы. Не включает вынужденное ожидание из-за виртуализации

OSCPUWaitMicroseconds

Общее время, в течение которого поток был готов к выполнению, но ожидал распределения на процессорное ядро операционной системой

OSIOWaitMicroseconds

Общее время, затраченное потоком на ожидание результата операции ввода-вывода, в пространстве операционной системы. Это настоящий ввод-вывод, который не включает кеш страниц

OSReadBytes

Количество байтов, прочитанных с дисков или блочных устройств. Не включает байты, прочитанные из кеша страниц. Может включать избыточные данные из-за размера блока, упреждающего чтения и т.д.

OSReadChars

Количество байтов, прочитанных из файловой системы, включая кеш страниц

OSWriteBytes

Количество байтов, записанных на диски или блочные устройства. Не включает байты, которые находятся в грязных страницах кеша страниц. Может не включать данные, которые были записаны операционной системой асинхронно

OSWriteChars

Количество байтов, записанных в файловую систему, включая кеш страниц

ObsoleteReplicatedParts

Количество раз, когда кусок данных был покрыт другим куском данных, полученным из реплики (таким образом, покрытый кусок данных помечается как устаревший и больше не используется)

OpenedFileCacheHits

Количество раз, когда файл был найден в кеше открытых файлов, поэтому не нужно было открывать его снова

OpenedFileCacheMisses

Количество промахов кеша открытых файлов

OtherQueryTimeMicroseconds

Общее время выполнения всех запросов кроме SELECT и INSERT

OverflowAny

Количество раз, когда GROUP BY выполнялось приближенно: когда агрегирование выполнялось только поверх первых уникальных ключей max_rows_to_group_by, а другие ключи игнорировались из-за настройки group_by_overflow_mode = any

OverflowBreak

Количество раз, когда обработка данных отменялась из-за ограничения сложности запроса настройкой overflow_mode = break и был получен неполный результат

OverflowThrow

Количество раз, когда обработка данных отменялась из-за ограничения сложности запроса настройкой overflow_mode = throw и выбрасывалось исключение

PerfAlignmentFaults

Количество ошибок выравнивания. Такие ошибки возникают, когда происходит не выровненный доступ к памяти (возможно только на некоторых архитектурах, никогда на x86). Ядро может обрабатывать их, но это снижает производительность

PerfBranchInstructions

Устаревшие команды ветвления. До Linux 2.6.35 использовалось неправильное событие на процессорах AMD

PerfBranchMisses

Неправильно предсказанные команды ветвления

PerfBusCycles

Количество циклов шины, которое может отличаться от общего количества циклов

PerfCacheMisses

Промахи кеша. Обычно эта метрика указывает на промахи кеша последнего уровня и предназначена для использования в сочетании с событием PerfCacheReferences для расчета частоты промахов кеша

PerfCacheReferences

Доступ к кешу. Обычно эта метрика указывает на доступ к кешу последнего уровня, но может варьироваться в зависимости от процессора. Метрика может включать в себя предварительные выборки и сообщения согласованности, что тоже зависит от процессора

PerfContextSwitches

Количество переключений контекста

PerfCpuClock

Счетчик времени CPU, таймер с высоким разрешением для каждого CPU

PerfCpuCycles

Общее количество циклов CPU. Будьте осторожны с тем, что происходит во время масштабирования частоты процессора

PerfCpuMigrations

Сколько раз процесс был мигрирован на новый CPU

PerfDataTLBMisses

Количество промахов data-TLB (буфер для обрабатываемых данных)

PerfDataTLBReferences

Количество раз, когда адрес был найден в data-TLB

PerfEmulationFaults

Количество ошибок эмуляции. Ядро иногда перехватывает невыполненные инструкции и эмулирует их для пользовательского пространства. Это может негативно сказаться на производительности

PerfInstructionTLBMisses

Количество промахов instruction-TLB (буфер для страниц, содержащих исполняемый код)

PerfInstructionTLBReferences

Количество раз, когда адрес был найден в instruction-TLB

PerfInstructions

Устаревшие команды. Будьте внимательны, на них могут влиять различные проблемы, в первую очередь счетчики аппаратных прерываний

PerfLocalMemoryMisses

Ошибки чтения памяти локального узла NUMA

PerfLocalMemoryReferences

Количество чтений памяти локального узла NUMA

PerfMinEnabledRunningTime

Время выполнения события с минимальным разрешенным временем. Используется для отслеживания количества мультиплексирования событий

PerfMinEnabledTime

Для всех событий — минимальное время, в течение которого событие отслеживания было активировано. Используется для отслеживания влияния мультиплексирования событий

PerfRefCpuCycles

Общее количество циклов, не зависит от масштабирования частоты процессора

PerfStalledCyclesBackend

Количество простаивающих циклов во время завершения инструкций

PerfStalledCyclesFrontend

Количество простаивающих циклов во время передачи инструкций на выполнение

PerfTaskClock

Счетчик тактов для выполняемой задачи

PolygonsAddedToPool

Сколько раз полигон был добавлен в кеш (пул) для функции pointInPolygon

PolygonsInPoolAllocatedBytes

Количество байтов для полигонов, добавляемых в кеш (пул) для функции pointInPolygon

Query

Количество запросов, которые необходимо интерпретировать и потенциально выполнить. Не включаются запросы, которые не удалось распарсить или которые были отклонены из-за ограничений размера AST, ограничений квот или ограничений на количество одновременно выполняемых запросов. Могут включаться внутренние запросы, инициированные ClickHouse. Подзапросы не учитываются

QueryMaskingRulesMatch

Количество раз, когда правила маскировки запросов были успешно сопоставлены

QueryMemoryLimitExceeded

Количество раз, когда был превышен лимит памяти для запроса

QueryProfilerRuns

Количество запусков QueryProfiler

QueryProfilerSignalOverruns

Количество раз, когда прерывалась обработка сигнала профилировщика запросов из-за переполнения, плюс количество сигналов, которые операционная система не доставила из-за переполнения

QueryTimeMicroseconds

Общее время выполнения всех запросов

RWLockAcquiredReadLocks

Сколько раз блокировка чтения была получена в RWLock

RWLockAcquiredWriteLocks

Сколько раз блокировка записи была получена (в нагруженной RWLock)

RWLockReadersWaitMilliseconds

Общее время (в миллисекундах), в течение которого потоки на чтение ждали получения блокировки в RWLock

RWLockWritersWaitMilliseconds

Общее время (в миллисекундах), затраченное на ожидание получения блокировки записи (в нагруженной RWLock)

ReadBackoff

Сколько раз количество потоков обработки запросов уменьшалось из-за медленного чтения

ReadBufferFromFileDescriptorRead

Количество операций чтения (read/pread) из файлового дескриптора. Сокеты не включаются

ReadBufferFromFileDescriptorReadBytes

Количество байтов, прочитанных из файловых дескрипторов. Если файл сжат, метрика покажет размер сжатых данных

ReadBufferFromFileDescriptorReadFailed

Сколько раз чтение (read/pread) из файлового дескриптора было неудачным

ReadBufferFromS3Bytes

Количество байтов, прочитанных из S3

ReadBufferFromS3Microseconds

Время, затраченное на чтение из S3

ReadBufferFromS3RequestsErrors

Количество исключений при чтении из S3

ReadBufferSeekCancelConnection

Количество операций поиска, приводящих к новому соединению (s3, http)

ReadCompressedBytes

Количество байтов (до декомпрессии), прочитанных из сжатых источников (файлы, сеть)

RealTimeMicroseconds

Общее время, затраченное на выполнение запросов и других задач

RegexpCreated

Скомпилированные регулярные выражения. Идентичные регулярные выражения компилируются только один раз и кешируются навсегда

RejectedInserts

Сколько раз вставка данных в таблицу MergeTree через запрос INSERT была отклонена с исключением Too many parts из-за большого количества активных кусков данных для партиции

RemoteFSBuffers

Количество буферов, созданных для асинхронного чтения из удаленной файловой системы

RemoteFSCacheDownloadBytes

Количество байтов, скачанных из удаленного кеша файловой системы

RemoteFSCacheReadBytes

Количество байтов, прочитанных из удаленного кеша файловой системы

RemoteFSCancelledPrefetches

Количество отмененных предварительных загрузок (из-за операции поиска)

RemoteFSLazySeeks

Количество отложенных операций поиска

RemoteFSPrefetchedReads

Количество чтений из буфера для предварительно загружаемых данных

RemoteFSPrefetches

Количество предварительных загрузок, выполненных при асинхронным чтении из удаленной файловой системы

RemoteFSReadBytes

Количество байтов, прочитанных из удаленной файловой системы

RemoteFSReadMicroseconds

Время, затраченное на чтение данных из удаленной файловой системы

RemoteFSSeeks

Общее количество операций поиска для асинхронного буфера

RemoteFSSeeksWithReset

Количество операций поиска, приводящих к новому соединению

RemoteFSUnprefetchedReads

Количество чтений из буфера, из которого данные читаются без предварительной загрузки

RemoteFSUnusedPrefetches

Количество неиспользуемых предварительных загрузок в момент деструкции буфера

ReplicaPartialShutdown

Сколько раз реплицируемая таблица должна деинициализировать свое состояние из-за истечения срока действия сеанса в ZooKeeper. Состояние повторно инициализируется каждый раз, когда ZooKeeper снова доступен

ReplicatedDataLoss

Сколько раз запрашиваемый кусок данных не существовал ни на одной реплике (даже на репликах, которые сейчас отключены). Эти куски данных потеряны. Это нормально из-за асинхронной репликации (если вставки кворума не были включены) — если реплика, на которую записывался кусок данных, вышла из строя, она не будет содержать этот кусок данных, когда снова станет доступной после сбоя

ReplicatedPartChecks

Сколько раз нужно было выполнить расширенный поиск куска данных на репликах или уточнить необходимость в существующем куске данных

ReplicatedPartChecksFailed

Количество раз, когда расширенный поиск куска данных на репликах не дал результата или когда был найден и удален неожидаемый кусок

ReplicatedPartFailedFetches

Сколько раз кусок данных не удалось загрузить из реплики таблицы ReplicatedMergeTree

ReplicatedPartFetches

Сколько раз кусок данных загружался из реплики таблицы ReplicatedMergeTree

ReplicatedPartFetchesOfMerged

Количество раз, когда предпочиталось загружать уже объединеный кусок данных из реплики таблицы ReplicatedMergeTree вместо того, чтобы выполнять слияние самостоятельно (обычно предпочтительно выполнять слияние самостоятельно для экономии сетевого трафика). Это происходит, когда нет всех исходных кусков данных для выполнения слияния или когда кусок данных достаточно старый

ReplicatedPartMerges

Количество раз, когда куски данных таблиц ReplicatedMergeTree были успешно объединены

ReplicatedPartMutations

Количество раз, когда куски данных таблиц ReplicatedMergeTree были успешно изменены

S3ReadBytes

Количество байтов, прочитанных из хранилища S3

S3ReadMicroseconds

Время выполнения запросов GET и HEAD к хранилищу S3

S3ReadRequestsCount

Количество запросов GET и HEAD к хранилищу S3

S3ReadRequestsErrors

Количество ошибок без регулирования в запросах GET и HEAD к хранилищу S3

S3ReadRequestsRedirects

Количество редиректов в запросах GET и HEAD к хранилищу S3

S3ReadRequestsThrottling

Количество ошибок 429 и 503 в запросах GET и HEAD к хранилищу S3

S3WriteBytes

Количество байтов, записанных в хранилище S3

S3WriteMicroseconds

Время выполнения запросов POST, DELETE, PUT и PATCH к хранилищу S3

S3WriteRequestsCount

Количество запросов POST, DELETE, PUT и PATCH к хранилищу S3

S3WriteRequestsErrors

Количество ошибок без регулирования в запросах POST, DELETE, PUT и PATCH к хранилищу S3

S3WriteRequestsRedirects

Количество редиректов в запросах POST, DELETE, PUT и PATCH к хранилищу S3

S3WriteRequestsThrottling

Количество ошибок 429 и 503 в запросах POST, DELETE, PUT и PATCH к хранилищу S3

ScalarSubqueriesCacheMiss

Сколько раз чтение из скалярного подзапроса не кешировалось и должно было быть полностью вычислено

ScalarSubqueriesGlobalCacheHit

Сколько раз чтение из скалярного подзапроса выполнялось с использованием глобального кеша

ScalarSubqueriesLocalCacheHit

Сколько раз чтение из скалярного подзапроса выполнялось с использованием локального кеша

SchemaInferenceCacheEvictions

Сколько раз схема была удалена из кеша из-за переполнения

SchemaInferenceCacheHits

Сколько раз схема из кеша использовалась для вывода схемы

SchemaInferenceCacheInvalidations

Сколько раз схема в кеше становилась недействительной из-за изменений в данных

SchemaInferenceCacheMisses

Сколько раз схема не находилась в кеше при выводе схемы

Seek

Количество вызовов функции lseek

SelectQuery

То же, что Query, но только для запросов SELECT

SelectQueryTimeMicroseconds

Общее время выполнения запросов SELECT

SelectedBytes

Количество байтов (несжатых; для столбцов, как они хранятся в памяти), полученных через запрос SELECT из всех таблиц

SelectedMarks

Количество засечек (гранул), выбранных для чтения из таблицы MergeTree

SelectedParts

Количество кусков данных, выбранных для чтения из таблицы MergeTree

SelectedRanges

Количество несмежных диапазонов во всех кусках данных, выбранных для чтения из таблицы MergeTree

SelectedRows

Количество строк, полученных через запрос SELECT из всех таблиц

SleepFunctionCalls

Количество вызовов функции сна (sleep, sleepEachRow)

SleepFunctionMicroseconds

Время, затраченное на режим сна из-за вызова функции сна

SlowRead

Количество операций чтения из файла, которые были медленными. Указывает на перегрузку системы. Пороговые значения управляются настройками read_backoff_*

SoftPageFaults

Количество программных прерываний (отказы страниц, которые могут быть устранены без загрузки страниц с диска)

StorageBufferErrorOnFlush

Количество раз, когда буфер в таблице Buffer не мог быть очищен из-за ошибки записи в таблице назначения

StorageBufferFlush

Сколько раз буфер в таблице Buffer очищался

StorageBufferLayerLockReadersWaitMilliseconds

Время ожидания буферного слоя во время чтения

StorageBufferLayerLockWritersWaitMilliseconds

Время ожидания свободного буферного слоя для записи (можно использовать для настройки буферных слоев)

StorageBufferPassedAllMinThresholds

Количество раз, когда был достигнут критерий минимальных порогов для очистки буфера в таблице Buffer

StorageBufferPassedBytesFlushThreshold

Количество раз, когда было достигнуто пороговое значение сброса только в фоновом режиме (в байтах), чтобы очистить буфер в таблице Buffer (метрика для экспертов)

StorageBufferPassedBytesMaxThreshold

Количество раз, когда был достигнут порог максимального количества байтов для очистки буфера в таблице Buffer

StorageBufferPassedRowsFlushThreshold

Количество раз, когда было достигнуто пороговое значение сброса только в фоновом режиме (в строках), чтобы очистить буфер в таблице Buffer (метрика для экспертов)

StorageBufferPassedRowsMaxThreshold

Количество раз, когда был достигнут порог максимального количества строк для очистки буфера в таблице Buffer

StorageBufferPassedTimeFlushThreshold

Количество раз, когда было достигнуто пороговое значение сброса только в фоновом режиме по времени, чтобы очистить буфер в таблице Buffer (метрика для экспертов)

StorageBufferPassedTimeMaxThreshold

Количество раз, когда был достигнут максимальный порог времени для очистки буфера в таблице Buffer

SystemTimeMicroseconds

Общее время, затраченное на обработку (запросы и другие задачи) потоков, выполняющих инструкции CPU в пространстве ядра ОС. Включается время, когда конвейер CPU был остановлен из-за неудачных обращений в кеш, неправильных прогнозирований ветвления, гиперпоточности и т.д.

TableFunctionExecute

Сколько раз выполнялись табличные функции

ThreadPoolReaderPageCacheHit

Сколько раз чтение внутри ThreadPoolReader выполнялось из кеша страницы

ThreadPoolReaderPageCacheHitBytes

Количество байтов, прочитанных внутри ThreadPoolReader, когда это было сделано из кеша страниц

ThreadPoolReaderPageCacheHitElapsedMicroseconds

Время, затраченное на чтение данных из кеша страниц в ThreadPoolReader

ThreadPoolReaderPageCacheMiss

Сколько раз чтение в ThreadPoolReader не выполнилось из кеша страниц и передалось в пул потоков

ThreadPoolReaderPageCacheMissBytes

Количество байтов, прочитанных в ThreadPoolReader, когда чтение не было выполнено из кеша страниц и было передано в пул потоков

ThreadPoolReaderPageCacheMissElapsedMicroseconds

Время, затраченное на чтение данных внутри асинхронного задания (job) в ThreadPoolReader, когда чтение не было выполнено из кеша страниц

ThreadpoolReaderReadBytes

Количество байтов, прочитанных из задания пула потоков при асинхронном чтении

ThreadpoolReaderTaskMicroseconds

Время, затраченное на получение данных при асинхронном чтении

ThrottlerSleepMicroseconds

Общее время бездействия запроса для соответствия всем параметрам регулирования

UncompressedCacheHits

Количество раз, когда блок данных был найден в несжатом кеше (декомпрессии удалось избежать)

UncompressedCacheMisses

Количество раз, когда блок данных не был найден в несжатом кеше (требовалась декомпрессия)

UncompressedCacheWeightLost

Количество байтов, удаленных из несжатого кеша

UserTimeMicroseconds

Общее время, затраченное на обработку (запросы и другие задачи) потоков, выполняющих инструкции CPU в пользовательском пространстве. Включается время, когда конвейер CPU был остановлен из-за неудачных обращений в кеш, неправильных прогнозирований ветвления, гиперпоточности и т.д.

WriteBufferFromFileDescriptorWrite

Количество операций записи (write/pwrite) в файловый дескриптор. Сокеты не включаются

WriteBufferFromFileDescriptorWriteBytes

Количество байтов, записанных в файловые дескрипторы. Если файл сжат, метрика покажет размер сжатых данных

WriteBufferFromFileDescriptorWriteFailed

Количество неудачных попыток записи (write/pwrite) в дескриптор файла

WriteBufferFromS3Bytes

Количество байтов, записанных в S3

ZooKeeperBytesReceived

Общее количество байтов, полученных от ZooKeeper

ZooKeeperBytesSent

Общее количество байтов, отправленных в ZooKeeper

ZooKeeperCheck

Количество запросов check к ZooKeeper. Обычно они не имеют смысла по отдельности, только как часть сложной транзакции

ZooKeeperClose

Количество раз, когда соединение с ZooKeeper было закрыто добровольно

ZooKeeperCreate

Сколько раз узел был создан в ZooKeeper

ZooKeeperExists

Сколько раз выполнялась проверка существования узла в ZooKeeper

ZooKeeperGet

Сколько раз данные были получены из ZooKeeper

ZooKeeperHardwareExceptions

Количество исключений при работе с ZooKeeper, связанных с сетью (потеря соединения и т.д.)

ZooKeeperInit

Количество инициализаций сеанса ZooKeeper

ZooKeeperList

Сколько раз команда list выполнялась в ZooKeeper

ZooKeeperMulti

Сколько раз команда multi выполнялась в ZooKeeper

ZooKeeperOtherExceptions

Количество исключений при работе с ZooKeeper, кроме ZooKeeperUserExceptions и ZooKeeperHardwareExceptions

ZooKeeperRemove

Количество запросов remove в ZooKeeper

ZooKeeperSet

Количество запросов set в ZooKeeper

ZooKeeperSync

Количество запросов sync в ZooKeeper (эти запросы редко нужны или используются)

ZooKeeperTransactions

Количество транзакций, выполненных в ZooKeeper

ZooKeeperUserExceptions

Количество исключений при работе с ZooKeeper, связанных с данными (нет узла, неподходящая версия и т.д.)

ZooKeeperWaitMicroseconds

Общее время ожидания ZooKeeper (в микросекундах)

ZooKeeperWatchResponse

Количество раз, когда уведомление о просмотре было получено от ZooKeeper

AsynchronousMetrics
Название метрики Описание

AsynchronousMetricsCalculationTimeSpent

Время в секундах, затраченное на расчет асинхронных метрик

BlockActiveTime_vda

Время в секундах, в течение которого блочное устройство ставило запросы ввода-вывода в очередь. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockDiscardBytes_vda

Количество отброшенных байтов на блочном устройстве. Эти операции актуальны для SSD. Операции отмены не используются ClickHouse, но могут использоваться другими процессами в системе. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockDiscardMerges_vda

Количество операций отмены, запрошенных с блочного устройства и объединенных вместе планировщиком ввода-вывода операционной системы. Эти операции актуальны для SSD. Операции отмены не используются ClickHouse, но могут использоваться другими процессами в системе. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockDiscardOps_vda

Количество операций отмены, запрошенных с блочного устройства. Эти операции актуальны для SSD. Операции отмены не используются ClickHouse, но могут использоваться другими процессами в системе. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockDiscardTime_vda

Время (в секундах), затраченное на операции отмены, запрошенные с блочного устройства, суммированное по всем операциям. Эти операции актуальны для SSD. Операции отмены не используются ClickHouse, но могут использоваться другими процессами в системе. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockInFlightOps_vda

Количество запросов ввода-вывода, отправленных драйверу устройства, но еще не выполненных. Сюда не входят запросы ввода-вывода, находящиеся в очереди, но еще не переданные драйверу устройства. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockQueueTime_vda

Время ожидания запросов ввода-вывода на этом блочном устройстве (в миллисекундах). Если имеется несколько ожидающих запросов ввода-вывода, значение метрики будет увеличиваться как произведение числа миллисекунд, умноженного на количество ожидающих запросов. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockReadBytes_vda

Количество байтов, прочитанных с блочного устройства. Это значение может быть меньше, чем количество байтов, прочитанных из файловой системы, из-за использования кеша страниц операционной системы, который сохраняет операции ввода-вывода. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockReadMerges_vda

Количество операций чтения, запрошенных с блочного устройства и объединенных вместе планировщиком ввода-вывода операционной системы. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockReadOps_vda

Количество операций чтения, запрошенных с блочного устройства. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockReadTime_vda

Время (в секундах), затраченное на операции чтения, запрошенные с блочного устройства, суммированное по всем операциям. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockWriteBytes_vda

Количество байтов, записанных на блочное устройство. Это значение может быть меньше, чем количество байтов, записанных в файловую систему, из-за использования кеша страниц операционной системы, который сохраняет операции ввода-вывода. Запись на блочное устройство может произойти позже, чем соответствующая запись в файловую систему, из-за сквозного кеширования. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockWriteMerges_vda

Количество операций записи, запрошенных с блочного устройства и объединенных вместе планировщиком ввода-вывода операционной системы. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockWriteOps_vda

Количество операций записи, запрошенных с блочного устройства. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

BlockWriteTime_vda

Время (в секундах), затраченное на операции записи, запрошенные с блочного устройства, суммированное по всем операциям. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

CPUFrequencyMHz_N

Текущая частота процессора (в МГц). Большинство современных процессоров динамически регулируют частоту для энергосбережения и ускорения Turbo Boost

CompiledExpressionCacheBytes

Общее количество байтов, используемых для кеша JIT-скомпилированного кода

CompiledExpressionCacheCount

Общее количество в кеше JIT-скомпилированного кода

DiskAvailable_default

Количество доступных байтов на диске (виртуальная файловая система). Удаленные файловые системы могут отображать большое значение, например 16 ЭиБ

DiskTotal_default

Общий размер диска (виртуальная файловая система) в байтах. Удаленные файловые системы могут отображать большое значение, например 16 ЭиБ

DiskUnreserved_default

Количество доступных байтов на диске (виртуальная файловая система) без резервирования для слияний, выборок и перемещений. Удаленные файловые системы могут отображать большое значение, например 16 ЭиБ

DiskUsed_default

Количество используемых байтов на диске (виртуальная файловая система). Удаленные файловые системы не всегда предоставляют эту информацию

FilesystemLogsPathAvailableBytes

Количество доступных байтов тома, где установлен путь к логам ClickHouse. Если это значение приближается к нулю, настройте ротацию логов в файле конфигурации

FilesystemLogsPathAvailableINodes

Количество доступных индексных узлов (inodes) в томе, где установлен путь к логам ClickHouse

FilesystemLogsPathTotalBytes

Размер тома (в байтах), в котором установлен путь к логам ClickHouse. Рекомендуется иметь не менее 10 ГБ для логов

FilesystemLogsPathTotalINodes

Общее количество индексных узлов (inodes) в томе, где установлен путь к логам ClickHouse

FilesystemLogsPathUsedBytes

Количество используемых байтов в томе, где установлен путь к логам ClickHouse

FilesystemLogsPathUsedINodes

Количество используемых индексных узлов (inodes) в томе, где установлен путь к логам ClickHouse

FilesystemMainPathAvailableBytes

Количество доступных байтов в томе, где установлен основной путь ClickHouse

FilesystemMainPathAvailableINodes

Количество доступных индексных узлов (inodes) в томе, где установлен основной путь ClickHouse. Значение метрики, близкое к нулю, указывает на неправильную настройку, и вы получите сообщение "На устройстве недостаточно места", даже если диск не заполнен

FilesystemMainPathTotalBytes

Размер тома (в байтах), на котором установлен основной путь ClickHouse

FilesystemMainPathTotalINodes

Общее количество индексных узлов (inodes) в томе, где установлен основной путь ClickHouse. Значение меньше 25 миллионов указывает на неправильную конфигурацию

FilesystemMainPathUsedBytes

Количество используемых байтов в томе, где установлен основной путь ClickHouse

FilesystemMainPathUsedINodes

Количество используемых индексных узлов (inodes) в томе, где установлен основной путь ClickHouse. Это значение в основном соответствует количеству файлов

HTTPThreads

Количество потоков на HTTP-сервере (без TLS)

InterserverThreads

Количество потоков на сервере протокола связи реплик (без TLS)

Jitter

Разница во времени запланированного пробуждения потока для расчета асинхронных метрик и времени его фактического пробуждения. Прокси-индикатор общей задержки и отклика системы

LoadAverageN

Загрузка всей системы, усредненная с экспоненциальным сглаживанием за 1 минуту. Загрузка представляет собой количество потоков во всех процессах (объектах планирования ядра ОС), которые в настоящее время выполняются CPU или ожидают ввода-вывода, или готовы к запуску, но не запланированы в данный момент времени. В это число входят все процессы, а не только процессы clickhouse-server. Это число может быть больше, чем количество ядер CPU, если система перегружена, и многие процессы готовы к запуску, но ожидают загрузки CPU или ввода-вывода

MMapCacheCells

Количество файлов, открытых с помощью mmap (сопоставленных в памяти). Используется для запросов с настройкой local_filesystem_read_method, установленной в mmap. Файлы, открытые с помощью mmap, хранятся в кеше, чтобы избежать дорогостоящих сбросов TLB

MarkCacheBytes

Общий размер кеша засечек (в байтах)

MarkCacheFiles

Общее количество файлов засечек, закешированных в кеше засечек

MaxPartCountForPartition

Максимальное количество кусков данных на партицию по всем партициям всех таблиц семейства MergeTree. Значения больше 300 указывают на неправильную конфигурацию, перегрузку или массовую загрузку данных

MemoryCode

Объем виртуальной памяти (в байтах), сопоставляемой для страниц машинного кода серверного процесса

MemoryDataAndStack

Объем виртуальной памяти (в байтах), сопоставляемой для использования стека и выделенной памяти. Не указано, включает ли он стеки для каждого потока и большую часть выделенной памяти, которая выделяется системным вызовом mmap. Эта метрика существует только для полноты. Для мониторинга рекомендуется использовать метрику MemoryResident

MemoryResident

Объем физической памяти (в байтах), используемой серверным процессом

MemoryShared

Объем памяти (в байтах), используемой серверным процессом, который также используется другими процессами. ClickHouse не использует разделяемую память, но часть памяти может быть помечена операционной системой как разделяемая по своим причинам. За этой метрикой можно не следить, она существует только для полноты

MemoryVirtual

Размер виртуального адресного пространства (в байтах), выделенного серверным процессом. Размер виртуального адресного пространства обычно намного превышает потребление физической памяти и не должен использоваться в качестве оценки потребления памяти. Большие значения этой метрики абсолютно нормальны и имеют только технический смысл

NetworkReceiveBytes_eth0

Количество байтов, полученных через сетевой интерфейс. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

NetworkReceiveDrop_eth0

Количество пакетов, которые были потеряны при получении через сетевой интерфейс. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

NetworkReceiveErrors_eth0

Количество раз, когда произошла ошибка при приеме данных через сетевой интерфейс. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

NetworkReceivePackets_eth0

Количество сетевых пакетов, полученных через сетевой интерфейс. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

NetworkSendBytes_eth0

Количество байтов, отправленных через сетевой интерфейс. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

NetworkSendDrop_eth0

Количество пакетов, которые были потеряны при отправке через сетевой интерфейс. Это общесистемная метрика, она включает в себя все процессы на хост-машине, не только процессы clickhouse-server

NetworkSendErrors_eth0

Количество ошибок при отправке через сетевой интерфейс. Это общесистемная метрика, она включает в себя все процессы на хост-машине, не только процессы clickhouse-server

NetworkSendPackets_eth0

Количество сетевых пакетов, отправленных через сетевой интерфейс. Это общесистемная метрика, она включает в себя все процессы на хост-машине, не только процессы clickhouse-server

NumberOfDatabases

Общее количество баз данных на сервере

NumberOfTables

Общее количество таблиц суммарно по базам данных на сервере, за исключением баз данных, которые не могут содержать таблицы MergeTree. Исключены движки баз данных, которые генерируют набор таблиц на лету, такие как Lazy, MySQL, PostgreSQL, SQlite

OSContextSwitches

Количество переключений контекста (context switch), выполненных системой на хост-компьютере. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы

OSGuestNiceTime

Соотношение времени работы виртуального CPU для гостевых операционных систем под управлением ядра Linux, когда для гостя был установлен более высокий приоритет (см. man procfs). Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Эта метрика не относится к ClickHouse, а существует для полноты. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSGuestNiceTimeCPUN

Соотношение времени, затрачиваемого на запуск виртуального CPU для гостевых операционных систем под управлением ядра Linux, когда для гостя был установлен более высокий приоритет (см. man procfs). Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Эта метрика не относится к ClickHouse, а существует для полноты. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSGuestNiceTimeNormalized

Значение аналогично OSGuestNiceTime, но делится на количество ядер CPU, чтобы оно находилось в интервале [0..1] независимо от количества ядер. Это позволяет усреднить значения этой метрики по нескольким серверам в кластере, даже если количество ядер неравномерно, и получить средний показатель использования ресурсов

OSGuestTime

Соотношение времени работы виртуального процессора для гостевых операционных систем под управлением ядра Linux (см. man procfs). Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Эта метрика не относится к ClickHouse, а существует для полноты. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSGuestTimeCPUN

Соотношение времени работы виртуального процессора для гостевых операционных систем под управлением ядра Linux (см. man procfs). Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Эта метрика не относится к ClickHouse, а существует для полноты. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSGuestTimeNormalized

Значение аналогично OSGuestTime, но делится на количество ядер CPU, чтобы оно находилось в интервале [0..1] независимо от количества ядер. Это позволяет усреднить значения этой метрики по нескольким серверам в кластере, даже если количество ядер неравномерно, и получить средний показатель использования ресурсов

OSIOWaitTime

Соотношение времени, в течение которого ядро CPU не выполняло код, и ядро операционной системы не запускало какой-либо другой процесс на этом CPU, поскольку процессы ожидали ввода-вывода. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSIOWaitTimeCPUN

Соотношение времени, в течение которого ядро CPU не выполняло код, и ядро операционной системы не запускало какой-либо другой процесс на этом CPU, поскольку процессы ожидали ввода-вывода. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSIOWaitTimeNormalized

Значение аналогично OSIOWaitTime, но делится на количество ядер CPU, чтобы оно находилось в интервале [0..1] независимо от количества ядер. Это позволяет усреднить значения этой метрики по нескольким серверам в кластере, даже если количество ядер неравномерно, и получить средний показатель использования ресурсов

OSIdleTime

Соотношение времени бездействия ядра CPU (даже не готово к запуску процесса, ожидающего ввода-вывода) в пространстве ядра операционной системы. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Метрика не включает время, когда CPU был недостаточно загружен из-за внутренних причин CPU (загрузки памяти, остановки конвейера, неправильные прогнозы ветвления, запуск другого ядра SMT). Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSIdleTimeCPUN

Соотношение времени бездействия ядра CPU (даже не готово к запуску процесса, ожидающего ввода-вывода) в пространстве ядра операционной системы. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Метрика не включает время, когда CPU был недостаточно загружен из-за внутренних причин CPU (загрузки памяти, остановки конвейера, неправильные прогнозы ветвления, запуск другого ядра SMT). Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSIdleTimeNormalized

Значение аналогично OSIdleTime, но делится на количество ядер CPU, чтобы оно находилось в интервале [0..1] независимо от количества ядер. Это позволяет усреднить значения этой метрики по нескольким серверам в кластере, даже если количество ядер неравномерно, и получить средний показатель использования ресурсов

OSInterrupts

Количество прерываний на хост-машине. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

OSIrqTime

Соотношение времени, затрачиваемого на выполнение запросов аппаратного прерывания на CPU. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Большое число этой метрики может указывать на неправильную конфигурацию оборудования или очень высокую загруженность сети. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSIrqTimeCPUN

Соотношение времени, затрачиваемого на выполнение запросов аппаратного прерывания на CPU. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Большое число этой метрики может указывать на неправильную конфигурацию оборудования или очень высокую загруженность сети. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSIrqTimeNormalized

Значение аналогично OSIrqTime, но делится на количество ядер CPU, чтобы оно находилось в интервале [0..1] независимо от количества ядер. Это позволяет усреднить значения этой метрики по нескольким серверам в кластере, даже если количество ядер неравномерно, и получить средний показатель использования ресурсов

OSMemoryAvailable

Объем памяти (в байтах), доступной для использования программами. Значение, близкое к OSMemoryFreePlusCached. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

OSMemoryBuffers

Объем памяти (в байтах), используемой буферами ядра операционной системы. Обычно это значение должно быть небольшим, а большие значения могут указывать на неправильную настройку операционной системы. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

OSMemoryCached

Объем памяти (в байтах), используемой кешем страниц операционной системы. Как правило, почти вся доступная память используется кешем страниц операционной системы — высокие значения этой метрики являются нормальными и ожидаемыми. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

OSMemoryFreePlusCached

Объем свободной памяти плюс кеш-память страниц операционной системы в хост-системе (в байтах). Эта память доступна для использования программами. Значение должно быть очень похоже на OSMemoryAvailable. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

OSMemoryFreeWithoutCached

Объем свободной памяти в хост-системе (в байтах). Значение не включает кеш-память страниц операционной системы. Кеш-память страниц также доступна для использования программами, поэтому значение этой метрики может сбивать с толку (см. также метрики OSMemoryAvailable и OSMemoryFreePlusCached). Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только clickhouse-server

OSMemoryTotal

Общий объем памяти в хост-системе (в байтах)

OSNiceTime

Соотношение времени, в течение которого ядро CPU выполняло код пользовательского пространства с более высоким приоритетом. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSNiceTimeCPUN

Соотношение времени, в течение которого ядро CPU выполняло код пользовательского пространства с более высоким приоритетом. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSNiceTimeNormalized

Значение аналогично OSNiceTime, но делится на количество ядер CPU, чтобы оно находилось в интервале [0..1] независимо от количества ядер. Это позволяет усреднить значения этой метрики по нескольким серверам в кластере, даже если количество ядер неравномерно, и получить средний показатель использования ресурсов

OSOpenFiles

Общее количество открытых файлов на хост-машине. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

OSProcessesBlocked

Количество потоков, заблокированных в ожидании завершения ввода-вывода (man procfs). Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

OSProcessesCreated

Количество созданных процессов. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

OSProcessesRunning

Количество выполнимых (запущенных или готовых к запуску) потоков операционной системой. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server

OSSoftIrqTime

Соотношение времени, затрачиваемого на выполнение запросов программного прерывания на CPU. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Большое число этой метрики может указывать на неэффективное программное обеспечение, работающее в системе. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSSoftIrqTimeCPUN

Соотношение времени, затрачиваемого на выполнение запросов программного прерывания на CPU. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Большое число этой метрики может указывать на неэффективное программное обеспечение, работающее в системе. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSSoftIrqTimeNormalized

Значение аналогично OSSoftIrqTime, но делится на количество ядер CPU, чтобы оно находилось в интервале [0..1] независимо от количества ядер. Это позволяет усреднить значения этой метрики по нескольким серверам в кластере, даже если количество ядер неравномерно, и получить средний показатель использования ресурсов

OSStealTime

Соотношение времени, затрачиваемого CPU в других операционных системах при работе в виртуализированной среде. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Не все виртуализированные среды предоставляют эту метрику, большинство из них ее не имеют. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSStealTimeCPUN

Соотношение времени, затрачиваемого CPU в других операционных системах при работе в виртуализированной среде. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Не все виртуализированные среды предоставляют эту метрику, большинство из них ее не имеют. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSStealTimeNormalized

Значение аналогично OSStealTime, но делится на количество ядер CPU, чтобы оно находилось в интервале [0..1] независимо от количества ядер. Это позволяет усреднить значения этой метрики по нескольким серверам в кластере, даже если количество ядер неравномерно, и получить средний показатель использования ресурсов

OSSystemTime

Соотношение времени, в течение которого ядро CPU выполняло код ядра операционной системы. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSSystemTimeCPUN

Соотношение времени, в течение которого ядро CPU выполняло код ядра операционной системы. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSSystemTimeNormalized

Значение аналогично OSSystemTime, но делится на количество ядер CPU, чтобы оно находилось в интервале [0..1] независимо от количества ядер. Это позволяет усреднить значения этой метрики по нескольким серверам в кластере, даже если количество ядер неравномерно, и получить средний показатель использования ресурсов

OSThreadsRunnable

Количество выполнимых потоков, как это "видит" планировщик ядра операционной системы

OSThreadsTotal

Общее количество потоков, как это "видит" планировщик ядра ОС

OSUptime

Время работы хост-сервера (машины, на которой работает ClickHouse) в секундах

OSUserTime

Соотношение времени, в течение которого ядро CPU выполняло код пользовательского пространства. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Значение метрики включает также время, когда CPU был недостаточно загружен из-за внутренних причин CPU (загрузки памяти, остановки конвейера, неправильные прогнозы ветвления, запуск другого ядра SMT). Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSUserTimeCPUN

Соотношение времени, в течение которого ядро CPU выполняло код пользовательского пространства. Это общесистемная метрика, она включает в себя все процессы на хост-машине, а не только процессы clickhouse-server. Значение метрики включает также время, когда CPU был недостаточно загружен из-за внутренних причин CPU (загрузки памяти, остановки конвейера, неправильные прогнозы ветвления, запуск другого ядра SMT). Значение для одного ядра CPU будет находиться в интервале [0..1]. Значение для всех ядер CPU рассчитывается как сумма по ним [0..количество ядер]

OSUserTimeNormalized

Значение аналогично OSUserTime, но делится на количество ядер CPU, чтобы оно находилось в интервале [0..1] независимо от количества ядер. Это позволяет усреднить значения этой метрики по нескольким серверам в кластере, даже если количество ядер неравномерно, и все же получить средний показатель использования ресурсов

ReplicasMaxAbsoluteDelay

Максимальная разница в секундах между самым свежим реплицированным куском данных и самым свежим куском данных, который еще предстоит реплицировать, между реплицируемыми таблицами. Очень высокое значение этой метрики указывает на реплику без данных

ReplicasMaxInsertsInQueue

Максимальное количество операций INSERT в очереди (еще предстоит реплицировать) для реплицируемых таблиц

ReplicasMaxMergesInQueue

Максимальное количество операций слияния в очереди (еще не примененных) для реплицируемых таблиц

ReplicasMaxQueueSize

Максимальный размер очереди (по количеству операций, таких как получение, слияние) для реплицируемых таблиц

ReplicasMaxRelativeDelay

Максимальная разница между задержкой реплики и задержкой самой последней реплики той же таблицы для реплицируемых таблиц

ReplicasSumInsertsInQueue

Сумма операций INSERT в очереди (еще предстоит реплицировать) для реплицируемых таблиц

ReplicasSumMergesInQueue

Сумма операций слияния в очереди (еще предстоит применить) для реплицируемых таблиц

ReplicasSumQueueSize

Суммарный размер очереди (по количеству операций, таких как получение, слияние) для реплицируемых таблиц

TCPThreads

Количество потоков на сервере протокола TCP (без TLS)

TotalBytesOfMergeTreeTables

Общее количество байтов (сжатых, включая данные и индексы), хранящихся во всех таблицах семейства MergeTree

TotalPartsOfMergeTreeTables

Общее количество кусков данных во всех таблицах семейства MergeTree. Числа больше 10000 негативно повлияют на время запуска сервера и могут свидетельствовать о необоснованном выборе ключа партиционирования

TotalRowsOfMergeTreeTables

Общее количество строк (записей), хранящихся во всех таблицах семейства MergeTree

UncompressedCacheBytes

Общий размер несжатого кеша (в байтах). Несжатый кеш обычно не повышает производительность, и его следует избегать

UncompressedCacheCells

Общее количество записей в несжатом кеше. Каждая запись представляет собой распакованный блок данных. Несжатый кеш обычно не повышает производительность, и его следует избегать

Uptime

Время работы сервера в секундах. Включает время, затрачиваемое на инициализацию сервера перед приемом соединений

jemalloc.arenas.all.dirty_purged

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.arenas.all.muzzy_purged

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.arenas.all.pactive

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.arenas.all.pdirty

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.arenas.all.pmuzzy

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.background_thread.num_runs

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.background_thread.num_threads

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.background_thread.run_intervals

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.active

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.allocated

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.epoch

Внутренний номер инкрементного обновления статистики jemalloc, используемый во всех других метриках jemalloc

jemalloc.mapped

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.metadata

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.metadata_thp

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.resident

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

jemalloc.retained

Внутренняя метрика низкоуровневого распределителя памяти (см. jemalloc)

Просмотр метрик мониторинга

Метрики сервера ClickHouse можно посмотреть в системных таблицах system.metrics, system.events и system.asynchronous_metrics.

Пример запроса:

SELECT * FROM system.metrics LIMIT 5;

Вывод на экран:

┌─metric──────────┬─value─┬─description─────────────────────────────────────┐
│ Query           │     1 │ Number of executing queries                     │
│ Merge           │     0 │ Number of executing background merges           │
│ PartMutation    │     0 │ Number of mutations (ALTER DELETE/UPDATE)       │
│ ReplicatedFetch │     0 │ Number of data parts being fetched from replica │
│ ReplicatedSend  │     0 │ Number of data parts being sent to replicas     │
└─────────────────┴───────┴─────────────────────────────────────────────────┘

В зависимости от способа установки мониторинга в кластере ADQM, для просмотра метрик можно также использовать веб-интерфейсы:

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней