Просмотр метрик KUMA

В Консоли KUMA в качестве системы контроля используется решение VictoriaMetrics. Каждые пять секунд VictoriaMetrics использует HTTP-интерфейс для извлечения метрик Ядра KUMA, коллекторов, корреляторов, хранилищ и агентов. Сервис kuma-core генерирует конфигурацию решения VictoriaMetrics, которое также определяет получение метрик, далее также микросервис Ядра KUMA. Когда вы создаете или удаляете сервис, Ядро KUMA автоматически добавляет или удаляет соответствующую метрику в конфигурации решения VictoriaMetrics.

Полученные метрики можно просматривать с помощью решения Grafana. RPM-пакет сервиса kuma-core генерирует конфигурацию решения Grafana и создает отдельную панель мониторинга для визуализации показателей каждого сервиса. Графики в разделе Метрики появляются с задержкой примерно в 1,5 минуты.

Информацию о метриках см. в Консоли KUMA в разделе Метрики. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра KUMA. Если в разделе Метрики вы видите core: <номер порта>, это означает, что KUMA развернута в конфигурации высокой доступности и метрики получены с устройства, на котором было установлено Ядро KUMA. В прочих конфигурациях отображается имя устройства, с которого KUMA получает метрики.

Логин и пароль Grafana по умолчанию: admin и admin.

Метрики коллектора

Название метрики

Описание

IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.

Processing EPS

Количество обработанных событий в секунду.

Output EPS

Количество событий, отправляемых точке назначения в секунду.

Output Latency

Время в миллисекундах, прошедшее после отправки пакета событий точке назначения и после получения от нее ответа. Отображается среднее значение.

Output Errors

Количество ошибок, возникающих в секунду при отправке пакетов событий в точку назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.

Output Event Loss

Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например, если запрос был недействительным.

Output Disk Buffer SIze

Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается нулевое значение, в дисковой буфер коллектора не помещен ни один пакет событий и сервис работает правильно.

Write Network BPS

Количество байтов, поступающих в сеть в секунду.

Connector errors

Количество ошибок в журналах событий коннектора.

 

Normalization (Нормализация) – показатели, относящиеся к нормализаторам.

Raw & Normalized event size

Размер сырого события и размер нормализованного события. Отображается среднее значение.

Errors

Количество ошибок нормализации в секунду.

 

Filtration – показатели, относящиеся к фильтрам.

EPS

Количество событий, соответствующих условиям фильтра, отправляемых на дальнейшую обработку в секунду. Коллектор обрабатывает отфильтрованные события только в том случае, если пользователь добавил фильтр в конфигурацию сервиса коллектора.

 

Aggregation (Агрегация) – показатели, относящиеся к правилам агрегации.

EPS

Количество событий, полученных и созданных правилом агрегации в секунду. Этот показатель помогает определить эффективность правил агрегации.

Buckets

Количество контейнеров в правиле агрегации.

 

Enrichment – показатели, относящиеся к правилам обогащения.

Cache RPS

Количество запросов к локальному кешу в секунду.

Source RPS

Количество запросов в секунду, отправленных источнику обогащения, например словарю.

Source Latency

Время в миллисекундах, прошедшее после отправки запроса источнику обогащения и после получения от него ответа. Отображается среднее значение.

Queue

Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.

Errors

Количество ошибок в секунду при отправке запросов к источнику обогащения.

Показатели корреляторов

Название метрики

Описание

IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.

Processing EPS

Количество обработанных событий в секунду.

Output EPS

Количество событий, отправляемых точке назначения в секунду.

Output Latency

Время в миллисекундах, прошедшее после отправки пакета событий точке назначения и после получения от нее ответа. Отображается среднее значение.

Output Errors

Количество ошибок, возникающих в секунду при отправке пакетов событий в точку назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.

Output Event Loss

Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например, если запрос был недействительным.

Output Disk Buffer SIze

Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается нулевое значение, в дисковой буфер коллектора не помещен ни один пакет событий и сервис работает правильно.

 

Correlation – показатели, относящиеся к правилам корреляции.

EPS

Количество событий корреляции в секунду, созданных правилом корреляции.

Buckets

Количество контейнеров в правиле корреляции стандартного типа.

Rate Limiter Hits

Количество превышений правилом корреляции предельного значения срабатываний в секунду.

Active Lists OPS

Количество запросов на выполнение операций, отправленных активному листу в секунду, и сами операции.

Active Lists Records

Количество записей в активном листе.

Active Lists On-Disk Size

Размер активного листа на диске в байтах.

 

Enrichment – показатели, относящиеся к правилам обогащения.

Cache RPS

Количество запросов к локальному кешу в секунду.

Source RPS

Количество запросов в секунду, отправленных источнику обогащения, например словарю.

Source Latency

Время в миллисекундах, прошедшее после отправки запроса источнику обогащения и после получения от него ответа. Отображается среднее значение.

Queue

Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.

Errors

Количество ошибок в секунду при отправке запросов к источнику обогащения.

 

Response – показатели, связанные с правилами реагирования.

RPS

Количество срабатываний правила реагирования в секунду.

Метрики хранилища

Название метрики

Описание

ClickHouse/General – показатели, относящиеся к общим параметрам кластера ClickHouse.

Active Queries

Количество активных запросов, отправленных кластеру ClickHouse. Эта метрика отображается для каждого экземпляра ClickHouse.

QPS

Количество запросов в секунду, отправленных кластеру ClickHouse.

Failed QPS

Количество неудачных запросов в секунду, отправленных кластеру ClickHouse.

Allocated memory

Объем оперативной памяти в гигабайтах, выделенной процессу ClickHouse.

 

ClickHouse/Insert – метрики, относящиеся к вставке событий в экземпляр ClickHouse.

Insert EPS

Количество событий в секунду, вставленных в экземпляр ClickHouse.

Insert QPS

Количество запросов в секунду на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse.

Failed Insert QPS

Количество неудачных запросов в секунду на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse.

Delayed Insert QPS

Количество отложенных запросов в секунду на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse. Запросы были отложены узлом ClickHouse из-за превышения мягкого ограничения активного объединения запросов.

Rejected Insert QPS

Количество отклоненных запросов в секунду на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse. Запросы были отложены узлом ClickHouse из-за превышения жесткого ограничения активного объединения запросов.

Active Merges

Количество активных объединений запросов.

Distribution Queue

Количество временных файлов с событиями, которые не удалось вставить в экземпляр ClickHouse из-за его недоступности. Эти события не могут быть найдены с помощью поиска.

 

ClickHouse/Select – показатели, относящиеся к выборкам событий в экземпляре ClickHouse.

Select QPS

Количество запросов на выборку событий в секунду в экземпляре ClickHouse, отправленных кластеру ClickHouse.

Failed Select QPS

Количество неудачных запросов на выборку событий в секунду в экземпляре ClickHouse, отправленных кластеру ClickHouse.

 

ClickHouse/Replication – метрики, относящиеся к репликам узлов ClickHouse.

Active Zookeeper Connections

Количество активных подключений к узлам кластера Zookeeper. При нормальной работе это количество должно быть равно количеству узлов в кластере Zookeeper.

Read-only Replicas

Количество реплик узлов ClickHouse, доступных только для чтения. При нормальной работе таких реплик узлов ClickHouse нет.

Active Replication Fetches

Количество активных процессов скачивания данных с узла ClickHouse при репликации данных.

Active Replication Sends

Количество активных процессов отправки данных узлу ClickHouse при репликации данных.

Active Replication Consistency Checks

Количество активных проверок согласованности данных на репликах узлов ClickHouse при репликации данных.

 

ClickHouse/Networking – показатели, относящиеся к сети кластера ClickHouse.

Active HTTP Connections

Количество активных подключений к HTTP-серверу кластера ClickHouse.

Active TCP Connections

Количество активных подключений к TCP-серверу кластера ClickHouse.

Active Interserver Connections

Количество активных межсервисных соединений между узлами ClickHouse.

Метрики Ядра KUMA

Название метрики

Описание

Raft – метрики, связанные с чтением и обновлением состояния Ядра KUMA.

Lookup RPS

Количество запросов процедуры поиска в секунду, отправленных в Ядро KUMA, и сами процедуры.

Lookup Latency

Время в миллисекундах, затраченное на выполнение процедур поиска и на выполнение самих процедур. Отображается время для 99-го процентиля процедур поиска. Один процент процедур поиска может занять больше времени.

Propose RPS

Количество запросов на выполнение процедур обновления состояния, отправленных Ядру KUMA в секунду, и сами процедуры.

Propose Latency

Время в миллисекундах, затраченное на выполнение процедур обновления состояния и на выполнение самих процедур. Отображается время для 99-го процентиля процедур обновления состояния. Один процент процедур обновления состояния может занять больше времени.

 

API – метрики, относящиеся к запросам API.

RPS

Количество запросов API к Ядру KUMA в секунду.

Latency

Время в миллисекундах, затраченное на обработку одного запроса API к Ядру KUMA. Отображается среднее значение.

Errors

Количество ошибок в секунду при отправке API-запросов к Ядру KUMA.

 

Notification Feed – показатели, относящиеся к активности пользователей.

Subscriptions

Количество клиентов, подключенных к Ядру KUMA через SSE для получения сообщений сервера в реальном времени. Это число обычно равно количеству клиентов, использующих Консоль KUMA.

Errors

Количество ошибок в секунду при отправке уведомлений пользователям.

 

Schedulers – показатели, относящиеся к задачам Ядра KUMA.

Активная

Количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются.

Latency

Время в миллисекундах, затраченное на выполнение задачи. Отображается среднее значение.

Errors

Количество ошибок в секунду, возникших при выполнении задач.

Метрики агента KUMA

Название метрики

Описание

IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.

Processing EPS

Количество обработанных событий в секунду.

Output EPS

Количество событий, отправляемых точке назначения в секунду.

Output Latency

Время в миллисекундах, прошедшее после отправки пакета событий точке назначения и после получения от нее ответа. Отображается среднее значение.

Output Errors

Количество ошибок, возникающих в секунду при отправке пакетов событий в точку назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.

Output Event Loss

Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например, если запрос был недействительным.

Output Disk Buffer SIze

Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается нулевое значение, в дисковой буфер коллектора не помещен ни один пакет событий и сервис работает правильно.

Write Network BPS

Количество байтов, поступающих в сеть в секунду.

Метрики EventRouter

Название метрики

Описание

IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.

Processing EPS

Количество обработанных событий в секунду.

Output EPS

Количество событий, отправляемых точке назначения в секунду.

Output Latency

Время в миллисекундах, прошедшее после отправки пакета событий точке назначения и после получения от нее ответа. Отображается среднее значение.

Output Errors

Количество ошибок, возникающих в секунду при отправке пакетов событий в точку назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.

Output Event Loss

Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например, если запрос был недействительным.

Output Disk Buffer SIze

Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается нулевое значение, в дисковой буфер коллектора не помещен ни один пакет событий и сервис работает правильно.

Write Network BPS

Количество байтов, поступающих в сеть в секунду.

Connector Errors

Количество ошибок в журналах событий коннектора.

Метрики, общие для всех сервисов

Название метрики

Описание

Process – общие метрики процесса.

Memory

Использование оперативной памяти (RSS) в мегабайтах.

DISK BPS

Количество байтов, считываемых с диска или записываемых на диск в секунду.

Network BPS

Количество байтов, получаемых/передаваемых в сеть в секунду.

Network Packet Loss

Количество сетевых пакетов, потерянных в секунду.

GC Latency

Время в миллисекундах, затраченное на выполнение цикла сборщика мусора GO (Garbage Collector). Отображается среднее значение.

Goroutines

Количество активных горутин. Это число отличается от количества потоков операционной системы.

 

OS – показатели, относящиеся к операционной системе.

Load

Средняя нагрузка.

Процессор

Загрузка процессора в процентах.

Memory

Использование оперативной памяти (RSS) в процентах.

Disk

Использование дискового пространства в процентах.

Срок хранения метрик

По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.

Чтобы изменить срок хранения метрик KUMA:

  1. Войдите в ОС сервера, на котором установлено Ядро KUMA.
  2. В файле /etc/systemd/system/multi-user.target.wants/kuma-victoria-metrics.service в параметре ExecStart измените флаг --retentionPeriod=<срок хранения метрик в месяцах>, подставив нужный срок. Например, --retentionPeriod=4 означает, что метрики будут храниться 4 месяца.
  3. Перезапустите KUMA, выполнив последовательно следующие команды:
    1. systemctl daemon-reload
    2. systemctl restart kuma-victoria-metrics

Срок хранения метрик изменен.

В начало