Метрики мониторинга кластера ADS

В статье описываются метрики мониторинга кластера ADS. Для получения информации об установке мониторинга обратитесь к статьям:

Типы метрик

Для ADS-кластера доступны две группы метрик: системные метрики и сервисные метрики.

В Graphite системные метрики отображаются в разделе System_metrics, сервисные метрики — в разделе services.

Cистемные метрики показывают общие характеристики хостов кластера, связанные, как правило, с потреблением ресурсов. Системные метрики приведены в таблице ниже.

System metrics
Группа метрик Описание

cpu

Уровень загруженности процессора

diskspace

Заполнение диска

files

Файловая статистика

iostat

Производительность операций ввода/вывода

loadavg

Средние значения загрузки системы

memory

Использование памяти

netstat

Статистика сетевых подключений

network

Производительность сетевых интерфейсов

uptime

Время безотказной работы

Сервисные метрики показывают характеристики сервисов, доступные для хостов ADS-кластера.

Метрики для каждого сервиса приведены в таблицах ниже.

Kafka
Группа метрик Название метрики Описание

ReplicaManager

AtMinIsrPartitionCount

Количество партиций, соответствующих значению minIsr (min.insync.replicas)

FailedIsrUpdatesPerSec

Количество неудачных обновлений синхронизированных реплик (In-Sync Replicas, ISR) в секунду.

Метрика имеет следующие атрибуты:

  • количество событий;

  • скорость за 15 мин;

  • скорость за 5 мин;

  • средняя скорость;

  • скорость за 1 мин.

IsrExpandsPerSec

Скорость увеличения числа синхронизированных реплик (In-Sync Replicas, ISR).

Метрика имеет следующие атрибуты:

  • количество событий;

  • скорость за 15 мин;

  • скорость за 5 мин;

  • средняя скорость;

  • скорость за 1 мин.

IsrShrinksPerSec

Скорость сокращения синхронизированных реплик (In-Sync Replicas, ISR).

Метрика имеет следующие атрибуты:

  • количество событий;

  • скорость за 15 мин;

  • скорость за 5 мин;

  • средняя скорость;

  • скорость за 1 мин.

LeaderCount

Количество лидеров партиций

MaxLag

Максимальная задержка

OfflineReplicaCount

Количество реплик в состоянии Offline

PartitionCount

Количество партиций

ReassigningPartitions

Количество переназначенных партиций

UnderMinIsrPartitionCount

Количество партиций, число синхронизированных реплик (In-Sync Replicas, ISR) которых меньше minIsr

UnderReplicatedPartitions

Количество не полностью реплицированных партиций (ISR < число текущих реплик)

broker

Метрики группы имеют следующие атрибуты:

  • количество событий;

  • скорость за 15 мин;

  • скорость за 5 мин;

  • средняя скорость;

  • скорость за 1 мин.

BytesInPerSec

Количество входных байтов в секунду

BytesOutPerSec

Количество выходных байтов в секунду

BytesRejectedPerSec

Скорость передачи отклоненных данных (байтов в секунду)

FailedFetchRequestsPerSec

Количество запросов на получение, которые не удалось выполнить в секунду

FailedProduceRequestsPerSec

Количество запросов производителя сообщений, которые не удалось выполнить в секунду

FetchMessageConversionsPerSec

Количество преобразований получения сообщений в секунду

InvalidMagicNumberRecordsPerSec

Количество ошибок в секунду при проверке сообщения из-за недопустимого числа Magic. Magic Byte Protocol используется для обратной совместимости формата сообщения

InvalidMessageCrcRecordsPerSec

Количество ошибок при проверке сообщения из-за неправильной контрольной суммы CRC

InvalidOffsetOrSequenceRecordsPerSec

Количество ошибок при проверке сообщения из-за непостоянного смещения или порядкового номера в пакете

MessagesInPerSec

Суммарное количество входящих сообщений

NoKeyCompactedTopicRecordsPerSec

Количество ошибок при проверке сообщения из-за того, что для сжатого топика не указан ключ в секунду

ProduceMessageConversionsPerSec

Количество конверсий сообщений в секунду для брокера

ReassignmentBytesInPerSec

Количество байтов входящего трафика переназначения в секунду

ReassignmentBytesOutPerSec

Количество байтов исходящего трафика переназначения в секунду

ReplicationBytesInPerSec

Количество байтов передачи данных от других брокеров в секунду

ReplicationBytesOutPerSec

Количество байтов, переданных для других брокеров в секунду

TotalFetchRequestsPerSec

Количество запросов на получение в секунду

TotalProduceRequestsPerSec

Количество запросов на производство сообщений в секунду

controller

ActiveControllerCount

Количество активных контроллеров

ControllerState

Статус контроллера

GlobalPartitionCount

Общее количество партиций

GlobalTopicCount

Общее количество топиков

OfflinePartitionsCount

Количество партиций, которые не имеют активного лидера и, следовательно, недоступны для записи или чтения

PreferredReplicaImbalanceCount

Количество случаев дисбаланса в предпочтительной реплике

ReplicasIneligibleToDeleteCount

Количество реплик, не соответствующих требованиям и ожидающих удаления

ReplicasToDeleteCount

Количество реплик, ожидающих удаления

TopicsIneligibleToDeleteCount

Количество топиков, не соответствующих требованиям и ожидающих удаления

TopicsToDeleteCount

Количество топиков, ожидающих удаления

controllerStats

Метрики группы имеют следующие атрибуты:

  • количество событий;

  • скорость за 15 мин;

  • скорость за 5 мин;

  • скорость за 1 мин;

  • средняя скорость;

  • 50/75/95/98/999/99-ый процентили выборки;

  • максимальное значение;

  • среднее значение;

  • минимальное значение;

  • StdDev.

AutoLeaderBalanceRateAndTimeMs

Отслеживает частоту и продолжительность автоматической перебалансировки лидера

ControlledShutdownRateAndTimeMs

Отслеживает частоту и продолжительность контролируемых остановок

ControllerChangeRateAndTimeMs

Отслеживает частоту и продолжительность изменений контроллера

ControllerShutdownRateAndTimeMs

Отслеживает частоту и продолжительность остановки контроллера

IsrChangeRateAndTimeMs

Отслеживает частоту и продолжительность задержки контроллера для ручной балансировки лидеров

LeaderAndIsrResponseReceivedRateAndTimeMs

Отслеживает частоту и продолжительность получения ответа лидера и синхронизированных реплик (In-Sync Replicas, ISR)

LeaderElectionRateAndTimeMs

Отслеживает частоту и продолжительность избрания лидера

ListPartitionReassignmentRateAndTimeMs

Список скорости и времени переназначения партиций

LogDirChangeRateAndTimeMs

Отслеживает частоту и продолжительность изменения LogDir (CPU latency)

ManualLeaderBalanceRateAndTimeMs

Отслеживает частоту и продолжительность ручной балансировки лидеров (CPU latency)

PartitionReassignmentRateAndTimeMs

Отслеживает частоту и продолжительность переназначения партиций (CPU latency)

TopicChangeRateAndTimeMs

Отслеживает частоту и продолжительность создания новых топиков (CPU latency)

TopicDeletionRateAndTimeMs

Отслеживает частоту и продолжительность удаления топиков (CPU latency)

TopicUncleanLeaderElectionEnableRateAndTimeMs

Отслеживает частоту и продолжительность выбора unclean-лидера топика (лидера, назначенного после отключения предыдущего лидера, не имеющего реплик)

UncleanLeaderElectionEnableRateAndTimeMs

Отслеживает частоту и продолжительность выбора unclean-лидера (CPU latency)

UncleanLeaderElectionsPerSec

Количество выборов unclean-лидера в секунду

UpdateFeaturesRateAndTimeMs

Отслеживает частоту и продолжительность обновления функции (CPU latency)

memory

HeapMemoryUsage_committed

Использование динамической памяти (кучи) — назначенная к использованию (в МБ)

HeapMemoryUsage_init

Использование динамической памяти (кучи) — инициализация (в МБ)

HeapMemoryUsage_max

Использование динамической памяти (кучи) — максимум (в МБ)

HeapMemoryUsage_used

Использованная динамическая (куча) память (в МБ)

NonHeapMemoryUsage_committed

Использование non-heap памяти — назначенная к использованию (в МБ)

NonHeapMemoryUsage_init

Использование non-heap памяти — инициализация (в МБ)

NonHeapMemoryUsage_max

Использование non-heap памяти — максимум (в МБ)

NonHeapMemoryUsage_used

Использованная нединамическая память (куча) (в МБ)

ObjectPendingFinalizationCount

Количество объектов, для которых ожидается доработка

network

NetworkProcessorAvgIdlePercent

Средняя доля времени, в течение которого потоки сетевого процессора простаивают. Значения находятся в диапазоне от 0 (все ресурсы используются) до 1 (все ресурсы доступны)

RequestQueueSize

Размер очереди запросов

ResponseQueueSize

Размер очереди ответов

session

Метрики группы имеют следующие атрибуты:

  • количество событий;

  • скорость за 15 мин;

  • скорость за 5 мин;

  • средняя скорость;

  • скорость за 1 мин.

ZooKeeperAuthFailuresPerSec

Показывает количество неудачных (из-за ошибок авторизации) попыток подключиться к кластеру в секунду

ZooKeeperDisconnectsPerSec

Показывает количество отключений клиента ZooKeeper от кластера в секунду. Данная метрика сообщает, отключается ли брокер, но не сообщает, работает ли ZooKeeper

ZooKeeperExpiresPerSec

Показывает количество истекших сроков действия сеансов ZooKeeper в секунду. Наиболее точно показывает работоспособность системы

ZooKeeperReadOnlyConnectsPerSec

Показывает количество подключений клиента к серверу, который является "Read Only" (не является ни "follower", ни "leader") в секунду. Клиент может только читать состояние ZooKeeper

ZooKeeperSaslAuthenticationsPerSec

Показывает количество успешных прохождений аутентификации клиента в секунду

ZooKeeperSyncConnectsPerSec

Показывает количество успешных подключений клиента ZooKeeper к кластеру в секунду

MiNiFi
Группа метрик Название метрики Описание

MinifiAgentCollector/Instance

activeThreads

Количество активных потоков

bytesRead

Количество прочитанных байтов

bytesSent

Количество отправленных байтов

queuedContentSize

Размер контента в очереди

queuedCount

Количество байтов в очереди

MinifiAgentCollector/SystemDiagnostics

availableProcessors

Доступные процессоры

diskUtilization

Использование диска (в %)

heapUtilization

Использование динамической памяти (кучи) (в %)

loadAverage

Средняя нагрузка (в %)

usedHeap

Использованная куча памяти (в МБ)

usedSpaceGeneral

Использование дискового пространства (в МБ)

NiFi
Группа метрик Название метрики Описание

heap

committed

Использование динамической памяти (кучи) — назначенная к использованию (в МБ)

init

Использование динамической памяти (кучи) — инициализация (в МБ)

max

Использование динамической памяти (кучи) — максимум (в МБ)

usage

Использование динамической памяти (кучи) (в МБ)

used

Использованная динамическая память (куча) (в МБ)

non-heap

committed

Использование non-heap памяти — назначенная к использованию (в МБ)

init

Использование non-heap памяти — инициализация (в МБ)

max

Использование non-heap памяти — максимум (в МБ)

usage

Использование non-heap памяти (в МБ)

used

Использованная non-heap память (в МБ)

pools → Code-Cache

committed

Область памяти Code-Cache — назначенная к использованию (в МБ)

init

Область памяти Code-Cache — инициализация (в МБ)

max

Область памяти Code-Cache — максимум (в МБ)

usage

Использование области памяти Code-Cache (в МБ)

used

Использованная область памяти Code-Cache (в МБ)

pools → Compressed-Class-Space

committed

Область памяти Compressed-Class-Space — назначенная к использованию (в МБ)

init

Область памяти Compressed-Class-Space — инициализация (в МБ)

max

Область памяти Compressed-Class-Space — максимум (в МБ)

usage

Использование области памяти Compressed-Class-Space (в МБ)

used

Использованная область памяти Compressed-Class-Space (в МБ)

pools → G1-Eden-Space

committed

Область памяти G1-Eden-Space — назначенная к использованию (в МБ)

init

Область памяти G1-Eden-Space — инициализация (init) (в МБ)

max

Область памяти G1-Eden-Space — максимум (в МБ)

usage

Использование (usage) области памяти G1-Eden-Space (в МБ)

used

Использованная область памяти G1-Eden-Space (в МБ)

used-after-gc

Использованная после запуска GC область памяти G1-Eden-Space (в МБ)

pools → G1-Old-Gen

committed

Область памяти G1-Old-Gen — назначенная к использованию (в МБ)

init

Область памяти G1-Old-Gen — инициализация (init) (в МБ)

max

Область памяти G1-Old-Gen — максимум (в МБ)

usage

Использование (usage) области памяти G1-Old-Gen (в МБ)

used

Использованная область памяти G1-Old-Gen (в МБ)

used-after-gc

Использованная после запуска GC область памяти G1-Old-Gen (в МБ)

pools → G1-Survivor-Space

committed

Область памяти G1-Survivor-Space — назначенная к использованию (в МБ)

init

Область памяти G1-Survivor-Space — инициализация (init) (в МБ)

max

Область памяти G1-Survivor-Space — максимум (в МБ)

usage

Использование (usage) области памяти G1-Survivor-Space (в МБ)

used

Использованная область памяти G1-Survivor-Space (в МБ)

used-after-gc

Использованная после запуска GC область памяти G1-Survivor-Space (в МБ)

pools → Metaspace

committed

Область памяти Metaspace — назначенная к использованию (в МБ)

init

Область памяти Metaspace — инициализация (init) (в МБ)

max

Область памяти Metaspace — максимум (в МБ)

usage

Использование области памяти Metaspace (в МБ)

used

Использованная область памяти Metaspace (в МБ)

total

committed

Назначенная к использованию общая память (в МБ)

init

Инициализация общей памяти (в МБ)

max

Максимум общей памяти (в МБ)

usage

Использование общей памяти (в МБ)

used

Использованная общая память (в МБ)

 — 

ActiveThreads

Количество активных потоков

 — 

BytesQueued

Количество байтов в очереди

 — 

BytesReadLast5Minutes

Количество байтов, прочитанных за последние 5 минут

 — 

BytesReceivedLast5Minutes

Количество байтов, полученных за последние 5 минут

 — 

BytesSentLast5Minutes

Количество байтов, отправленных за последние 5 минут

 — 

BytesWrittenLast5Minutes

Количество байтов, записанных за последние 5 минут

 — 

FlowFilesQueued

Количество FlowFiles в очереди

 — 

FlowFilesReceivedLast5Minutes

Количество FlowFiles, полученных за последние 5 минут

 — 

FlowFilesSentLast5Minutes

Количество FlowFiles, отправленных за последние 5 минут

 — 

TotalTaskDurationNanoSeconds

Общая продолжительность задачи (в наносекундах)

Просмотр метрик мониторинга

Вы можете использовать веб-интерфейсы Graphite и Grafana для просмотра метрик мониторинга.

Graphite

Graphite хранит числовые данные временных рядов и отображает графики данных по запросу. Чтобы просмотреть метрики, введите адрес хоста с кластером мониторинга в адресную строку браузера. Пример: http://10.92.16.223. Если вы не указали другой порт во время настройки сервисов мониторинга, Graphite использует порт по умолчанию (80). Если вы задали Web-interface TCP port при настройке Graphite, укажите номер порта через двоеточие. Пример: http://10.92.16.223:8080.

В левой части открывшегося окна раскройте ноду Metrics → Arenadata → ADS. В списке отображаются две группы метрик: System_metrics и services.

Метрики мониторинга в Graphite
Метрики мониторинга в Graphite
Метрики мониторинга в Graphite
Метрики мониторинга в Graphite

Grafana

Grafana позволяет выполнять запросы данных и визуализировать метрики, хранящиеся в Graphite. Чтобы открыть веб-интерфейс Grafana, введите адрес хоста кластера мониторинга в строку браузера. Если вы не указали порт во время настройки сервисов мониторинга, Grafana использует порт 3000. Пример: http://10.92.16.223:3000. Если вы задали Port при настройке Grafana, укажите номер порта через двоеточие. Пример: http://10.92.16.223:8081.

В открывшейся форме нажмите на пункт меню Home. Выберите один из дашбордов мониторинга, чтобы просмотреть метрики.

Веб-интерфейс Grafana
Веб-интерфейс Grafana

Откроется форма с графиками.

Графики метрик, доступные в Grafana
Графики метрик, доступные в Grafana
Нашли ошибку? Выделите текст и нажмите Ctrl+Enter чтобы сообщить о ней