Метрики мониторинга кластера ADS
В статье описываются метрики мониторинга кластера ADS. Для получения информации об установке мониторинга обратитесь к статьям:
Типы метрик
Для ADS-кластера доступны две группы метрик: системные метрики и сервисные метрики.
В Graphite системные метрики отображаются в разделе System_metrics, сервисные метрики — в разделе services.
Cистемные метрики показывают общие характеристики хостов кластера, связанные, как правило, с потреблением ресурсов. Системные метрики приведены в таблице ниже.
Группа метрик | Описание |
---|---|
cpu |
Уровень загруженности процессора |
diskspace |
Заполнение диска |
files |
Файловая статистика |
iostat |
Производительность операций ввода/вывода |
loadavg |
Средние значения загрузки системы |
memory |
Использование памяти |
netstat |
Статистика сетевых подключений |
network |
Производительность сетевых интерфейсов |
uptime |
Время безотказной работы |
Сервисные метрики показывают характеристики сервисов, доступные для хостов ADS-кластера.
Метрики для каждого сервиса приведены в таблицах ниже.
Группа метрик | Название метрики | Описание |
---|---|---|
ReplicaManager |
AtMinIsrPartitionCount |
Количество партиций, соответствующих значению minIsr ( |
FailedIsrUpdatesPerSec |
Количество неудачных обновлений синхронизированных реплик (In-Sync Replicas, ISR) в секунду. Метрика имеет следующие атрибуты:
|
|
IsrExpandsPerSec |
Скорость увеличения числа синхронизированных реплик (In-Sync Replicas, ISR). Метрика имеет следующие атрибуты:
|
|
IsrShrinksPerSec |
Скорость сокращения синхронизированных реплик (In-Sync Replicas, ISR). Метрика имеет следующие атрибуты:
|
|
LeaderCount |
Количество лидеров партиций |
|
MaxLag |
Максимальная задержка |
|
OfflineReplicaCount |
Количество реплик в состоянии Offline |
|
PartitionCount |
Количество партиций |
|
ReassigningPartitions |
Количество переназначенных партиций |
|
UnderMinIsrPartitionCount |
Количество партиций, число синхронизированных реплик (In-Sync Replicas, ISR) которых меньше minIsr |
|
UnderReplicatedPartitions |
Количество не полностью реплицированных партиций (ISR < число текущих реплик) |
|
broker Метрики группы имеют следующие атрибуты:
|
BytesInPerSec |
Количество входных байтов в секунду |
BytesOutPerSec |
Количество выходных байтов в секунду |
|
BytesRejectedPerSec |
Скорость передачи отклоненных данных (байтов в секунду) |
|
FailedFetchRequestsPerSec |
Количество запросов на получение, которые не удалось выполнить в секунду |
|
FailedProduceRequestsPerSec |
Количество запросов производителя сообщений, которые не удалось выполнить в секунду |
|
FetchMessageConversionsPerSec |
Количество преобразований получения сообщений в секунду |
|
InvalidMagicNumberRecordsPerSec |
Количество ошибок в секунду при проверке сообщения из-за недопустимого числа Magic. Magic Byte Protocol используется для обратной совместимости формата сообщения |
|
InvalidMessageCrcRecordsPerSec |
Количество ошибок при проверке сообщения из-за неправильной контрольной суммы CRC |
|
InvalidOffsetOrSequenceRecordsPerSec |
Количество ошибок при проверке сообщения из-за непостоянного смещения или порядкового номера в пакете |
|
MessagesInPerSec |
Суммарное количество входящих сообщений |
|
NoKeyCompactedTopicRecordsPerSec |
Количество ошибок при проверке сообщения из-за того, что для сжатого топика не указан ключ в секунду |
|
ProduceMessageConversionsPerSec |
Количество конверсий сообщений в секунду для брокера |
|
ReassignmentBytesInPerSec |
Количество байтов входящего трафика переназначения в секунду |
|
ReassignmentBytesOutPerSec |
Количество байтов исходящего трафика переназначения в секунду |
|
ReplicationBytesInPerSec |
Количество байтов передачи данных от других брокеров в секунду |
|
ReplicationBytesOutPerSec |
Количество байтов, переданных для других брокеров в секунду |
|
TotalFetchRequestsPerSec |
Количество запросов на получение в секунду |
|
TotalProduceRequestsPerSec |
Количество запросов на производство сообщений в секунду |
|
controller |
ActiveControllerCount |
Количество активных контроллеров |
ControllerState |
Статус контроллера |
|
GlobalPartitionCount |
Общее количество партиций |
|
GlobalTopicCount |
Общее количество топиков |
|
OfflinePartitionsCount |
Количество партиций, которые не имеют активного лидера и, следовательно, недоступны для записи или чтения |
|
PreferredReplicaImbalanceCount |
Количество случаев дисбаланса в предпочтительной реплике |
|
ReplicasIneligibleToDeleteCount |
Количество реплик, не соответствующих требованиям и ожидающих удаления |
|
ReplicasToDeleteCount |
Количество реплик, ожидающих удаления |
|
TopicsIneligibleToDeleteCount |
Количество топиков, не соответствующих требованиям и ожидающих удаления |
|
TopicsToDeleteCount |
Количество топиков, ожидающих удаления |
|
controllerStats Метрики группы имеют следующие атрибуты:
|
AutoLeaderBalanceRateAndTimeMs |
Отслеживает частоту и продолжительность автоматической перебалансировки лидера |
ControlledShutdownRateAndTimeMs |
Отслеживает частоту и продолжительность контролируемых остановок |
|
ControllerChangeRateAndTimeMs |
Отслеживает частоту и продолжительность изменений контроллера |
|
ControllerShutdownRateAndTimeMs |
Отслеживает частоту и продолжительность остановки контроллера |
|
IsrChangeRateAndTimeMs |
Отслеживает частоту и продолжительность задержки контроллера для ручной балансировки лидеров |
|
LeaderAndIsrResponseReceivedRateAndTimeMs |
Отслеживает частоту и продолжительность получения ответа лидера и синхронизированных реплик (In-Sync Replicas, ISR) |
|
LeaderElectionRateAndTimeMs |
Отслеживает частоту и продолжительность избрания лидера |
|
ListPartitionReassignmentRateAndTimeMs |
Список скорости и времени переназначения партиций |
|
LogDirChangeRateAndTimeMs |
Отслеживает частоту и продолжительность изменения LogDir (CPU latency) |
|
ManualLeaderBalanceRateAndTimeMs |
Отслеживает частоту и продолжительность ручной балансировки лидеров (CPU latency) |
|
PartitionReassignmentRateAndTimeMs |
Отслеживает частоту и продолжительность переназначения партиций (CPU latency) |
|
TopicChangeRateAndTimeMs |
Отслеживает частоту и продолжительность создания новых топиков (CPU latency) |
|
TopicDeletionRateAndTimeMs |
Отслеживает частоту и продолжительность удаления топиков (CPU latency) |
|
TopicUncleanLeaderElectionEnableRateAndTimeMs |
Отслеживает частоту и продолжительность выбора unclean-лидера топика (лидера, назначенного после отключения предыдущего лидера, не имеющего реплик) |
|
UncleanLeaderElectionEnableRateAndTimeMs |
Отслеживает частоту и продолжительность выбора unclean-лидера (CPU latency) |
|
UncleanLeaderElectionsPerSec |
Количество выборов unclean-лидера в секунду |
|
UpdateFeaturesRateAndTimeMs |
Отслеживает частоту и продолжительность обновления функции (CPU latency) |
|
memory |
HeapMemoryUsage_committed |
Использование динамической памяти (кучи) — назначенная к использованию (в МБ) |
HeapMemoryUsage_init |
Использование динамической памяти (кучи) — инициализация (в МБ) |
|
HeapMemoryUsage_max |
Использование динамической памяти (кучи) — максимум (в МБ) |
|
HeapMemoryUsage_used |
Использованная динамическая (куча) память (в МБ) |
|
NonHeapMemoryUsage_committed |
Использование non-heap памяти — назначенная к использованию (в МБ) |
|
NonHeapMemoryUsage_init |
Использование non-heap памяти — инициализация (в МБ) |
|
NonHeapMemoryUsage_max |
Использование non-heap памяти — максимум (в МБ) |
|
NonHeapMemoryUsage_used |
Использованная нединамическая память (куча) (в МБ) |
|
ObjectPendingFinalizationCount |
Количество объектов, для которых ожидается доработка |
|
network |
NetworkProcessorAvgIdlePercent |
Средняя доля времени, в течение которого потоки сетевого процессора простаивают. Значения находятся в диапазоне от |
RequestQueueSize |
Размер очереди запросов |
|
ResponseQueueSize |
Размер очереди ответов |
|
session Метрики группы имеют следующие атрибуты:
|
ZooKeeperAuthFailuresPerSec |
Показывает количество неудачных (из-за ошибок авторизации) попыток подключиться к кластеру в секунду |
ZooKeeperDisconnectsPerSec |
Показывает количество отключений клиента ZooKeeper от кластера в секунду. Данная метрика сообщает, отключается ли брокер, но не сообщает, работает ли ZooKeeper |
|
ZooKeeperExpiresPerSec |
Показывает количество истекших сроков действия сеансов ZooKeeper в секунду. Наиболее точно показывает работоспособность системы |
|
ZooKeeperReadOnlyConnectsPerSec |
Показывает количество подключений клиента к серверу, который является "Read Only" (не является ни "follower", ни "leader") в секунду. Клиент может только читать состояние ZooKeeper |
|
ZooKeeperSaslAuthenticationsPerSec |
Показывает количество успешных прохождений аутентификации клиента в секунду |
|
ZooKeeperSyncConnectsPerSec |
Показывает количество успешных подключений клиента ZooKeeper к кластеру в секунду |
Группа метрик | Название метрики | Описание |
---|---|---|
MinifiAgentCollector/Instance |
activeThreads |
Количество активных потоков |
bytesRead |
Количество прочитанных байтов |
|
bytesSent |
Количество отправленных байтов |
|
queuedContentSize |
Размер контента в очереди |
|
queuedCount |
Количество байтов в очереди |
|
MinifiAgentCollector/SystemDiagnostics |
availableProcessors |
Доступные процессоры |
diskUtilization |
Использование диска (в %) |
|
heapUtilization |
Использование динамической памяти (кучи) (в %) |
|
loadAverage |
Средняя нагрузка (в %) |
|
usedHeap |
Использованная куча памяти (в МБ) |
|
usedSpaceGeneral |
Использование дискового пространства (в МБ) |
Группа метрик | Название метрики | Описание |
---|---|---|
heap |
committed |
Использование динамической памяти (кучи) — назначенная к использованию (в МБ) |
init |
Использование динамической памяти (кучи) — инициализация (в МБ) |
|
max |
Использование динамической памяти (кучи) — максимум (в МБ) |
|
usage |
Использование динамической памяти (кучи) (в МБ) |
|
used |
Использованная динамическая память (куча) (в МБ) |
|
non-heap |
committed |
Использование non-heap памяти — назначенная к использованию (в МБ) |
init |
Использование non-heap памяти — инициализация (в МБ) |
|
max |
Использование non-heap памяти — максимум (в МБ) |
|
usage |
Использование non-heap памяти (в МБ) |
|
used |
Использованная non-heap память (в МБ) |
|
pools → Code-Cache |
committed |
Область памяти Code-Cache — назначенная к использованию (в МБ) |
init |
Область памяти Code-Cache — инициализация (в МБ) |
|
max |
Область памяти Code-Cache — максимум (в МБ) |
|
usage |
Использование области памяти Code-Cache (в МБ) |
|
used |
Использованная область памяти Code-Cache (в МБ) |
|
pools → Compressed-Class-Space |
committed |
Область памяти Compressed-Class-Space — назначенная к использованию (в МБ) |
init |
Область памяти Compressed-Class-Space — инициализация (в МБ) |
|
max |
Область памяти Compressed-Class-Space — максимум (в МБ) |
|
usage |
Использование области памяти Compressed-Class-Space (в МБ) |
|
used |
Использованная область памяти Compressed-Class-Space (в МБ) |
|
pools → G1-Eden-Space |
committed |
Область памяти G1-Eden-Space — назначенная к использованию (в МБ) |
init |
Область памяти G1-Eden-Space — инициализация (init) (в МБ) |
|
max |
Область памяти G1-Eden-Space — максимум (в МБ) |
|
usage |
Использование (usage) области памяти G1-Eden-Space (в МБ) |
|
used |
Использованная область памяти G1-Eden-Space (в МБ) |
|
used-after-gc |
Использованная после запуска GC область памяти G1-Eden-Space (в МБ) |
|
pools → G1-Old-Gen |
committed |
Область памяти G1-Old-Gen — назначенная к использованию (в МБ) |
init |
Область памяти G1-Old-Gen — инициализация (init) (в МБ) |
|
max |
Область памяти G1-Old-Gen — максимум (в МБ) |
|
usage |
Использование (usage) области памяти G1-Old-Gen (в МБ) |
|
used |
Использованная область памяти G1-Old-Gen (в МБ) |
|
used-after-gc |
Использованная после запуска GC область памяти G1-Old-Gen (в МБ) |
|
pools → G1-Survivor-Space |
committed |
Область памяти G1-Survivor-Space — назначенная к использованию (в МБ) |
init |
Область памяти G1-Survivor-Space — инициализация (init) (в МБ) |
|
max |
Область памяти G1-Survivor-Space — максимум (в МБ) |
|
usage |
Использование (usage) области памяти G1-Survivor-Space (в МБ) |
|
used |
Использованная область памяти G1-Survivor-Space (в МБ) |
|
used-after-gc |
Использованная после запуска GC область памяти G1-Survivor-Space (в МБ) |
|
pools → Metaspace |
committed |
Область памяти Metaspace — назначенная к использованию (в МБ) |
init |
Область памяти Metaspace — инициализация (init) (в МБ) |
|
max |
Область памяти Metaspace — максимум (в МБ) |
|
usage |
Использование области памяти Metaspace (в МБ) |
|
used |
Использованная область памяти Metaspace (в МБ) |
|
total |
committed |
Назначенная к использованию общая память (в МБ) |
init |
Инициализация общей памяти (в МБ) |
|
max |
Максимум общей памяти (в МБ) |
|
usage |
Использование общей памяти (в МБ) |
|
used |
Использованная общая память (в МБ) |
|
— |
ActiveThreads |
Количество активных потоков |
— |
BytesQueued |
Количество байтов в очереди |
— |
BytesReadLast5Minutes |
Количество байтов, прочитанных за последние 5 минут |
— |
BytesReceivedLast5Minutes |
Количество байтов, полученных за последние 5 минут |
— |
BytesSentLast5Minutes |
Количество байтов, отправленных за последние 5 минут |
— |
BytesWrittenLast5Minutes |
Количество байтов, записанных за последние 5 минут |
— |
FlowFilesQueued |
Количество FlowFiles в очереди |
— |
FlowFilesReceivedLast5Minutes |
Количество FlowFiles, полученных за последние 5 минут |
— |
FlowFilesSentLast5Minutes |
Количество FlowFiles, отправленных за последние 5 минут |
— |
TotalTaskDurationNanoSeconds |
Общая продолжительность задачи (в наносекундах) |
Просмотр метрик мониторинга
Graphite
Graphite хранит числовые данные временных рядов и отображает графики данных по запросу. Чтобы просмотреть метрики, введите адрес хоста с кластером мониторинга в адресную строку браузера. Пример: http://10.92.16.223. Если вы не указали другой порт во время настройки сервисов мониторинга, Graphite использует порт по умолчанию (80). Если вы задали Web-interface TCP port при настройке Graphite, укажите номер порта через двоеточие. Пример: http://10.92.16.223:8080.
В левой части открывшегося окна раскройте ноду Metrics → Arenadata → ADS. В списке отображаются две группы метрик: System_metrics и services.


Grafana
Grafana позволяет выполнять запросы данных и визуализировать метрики, хранящиеся в Graphite. Чтобы открыть веб-интерфейс Grafana, введите адрес хоста кластера мониторинга в строку браузера. Если вы не указали порт во время настройки сервисов мониторинга, Grafana использует порт 3000. Пример: http://10.92.16.223:3000. Если вы задали Port при настройке Grafana, укажите номер порта через двоеточие. Пример: http://10.92.16.223:8081.
В открывшейся форме нажмите на пункт меню Home. Выберите один из дашбордов мониторинга, чтобы просмотреть метрики.

Откроется форма с графиками.
