Просмотр метрик KUMA

Для отслеживания работы своих компонентов, потока событий, контекста корреляции в KUMA выполняется сбор и хранение большого количества параметров. Для сбора, хранения и анализа параметров используется решение VictoriaMetrics, представляющее собой СУБД в формате временных рядов. Визуализация собранных метрик осуществляется с помощью Grafana. В разделе KUMA Метрики представлены панели мониторинга с визуализацией ключевых параметров работы различных компонентов KUMA.
Сервис Ядра KUMA выполняет настройку параметров VictoriaMetrics и Grafana автоматически, участие пользователя не требуется.

Визуализация собранных метрик осуществляется с помощью решения Grafana. RPM-пакет службы kuma-core формирует конфигурацию Grafana и создает отдельную панель мониторинга для визуализации метрик каждого сервиса. Графики в разделе Метрики появляются с задержкой около 1,5 минут.

Полная информация о метриках доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро KUMA. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.

Метрики коллекторов

Название метрики	Описание

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
Processing EPS (обрабатываемые события в секунду)	Количество событий, обработанных за секунду.
Output EPS (вывод событий)	Количество событий, отправленных точке назначения за секунду.
Output Latency (задержка вывода)	Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.
Output Errors (ошибки вывода)	Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.
Output Event Loss (потеря событий)	Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.
Output Disk Buffer Size (размер дискового буфера)	Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.
Write Network BPS (байты, принятые в сеть)	Количество байт, принятых в сеть за секунду.
Connector errors (ошибки коннектора)	Количество ошибок в логах коннектора.


Normalization (нормализация) – метрики, относящиеся к нормализаторам.
Raw & Normalized event size (размер сырых и нормализованных событий)	Размер необработанного и нормализованного событий. Отображается медиана.
Errors (ошибки)	Количество ошибок нормализации, возникших за секунду.


Filtration (фильтрация) – метрики, относящиеся к фильтрам.
EPS (события, обрабатываемые за секунду)	Количество событий, удовлетворяющих условиям фильтра и отправленных в обработку за секунду. Коллектор обрабатывает события, удовлетворяющие условиям фильтра, только если пользователь добавил фильтр в конфигурацию сервиса коллектора.


Aggregation (агрегация) – показатели, относящиеся к правилам агрегации.
EPS (события, обрабатываемые в секунду)	Количество событий, полученных и созданных правилом агрегации за секунду. Эта метрика помогает определить эффективность правил агрегации.
Buckets (контейнеры)	Количество контейнеров в правиле агрегации.


Enrichment (обогащение) – метрики, относящиеся к правилам обогащения.
Cache RPS (запросы к кешу в секунду)	Количество запросов, отправленных локальному кешу за секунду.
Source RPS (запросы к источнику в секунду)	Количество запросов, отправленных источнику обогащения, например словарю, за секунду.
Source Latency (задержка источника)	Время в миллисекундах, затраченное на отправку запроса источнику обогащения и получение от него ответа. Отображается медиана.
Queue (очередь)	Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.
Errors (ошибки)	Количество ошибок, возникших за секунду при отправке запросов источнику обогащения.

Метрики корреляторов

Название метрики	Описание

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
Processing EPS (обрабатываемые события в секунду)	Количество событий, обработанных за секунду.
Output EPS (вывод событий)	Количество событий, отправленных точке назначения за секунду.
Output Latency (задержка вывода)	Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.
Output Errors (ошибки вывода)	Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.
Output Event Loss (потеря событий)	Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.
Output Disk Buffer Size (размер дискового буфера)	Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.


Correlation (корреляция) – метрики, относящиеся к правилам корреляции.
EPS (события, обрабатываемые в секунду)	Количество корреляционных событий, созданных правилом корреляции за секунду.
Buckets (контейнеры)	Количество контейнеров в правиле корреляции стандартного типа.
Rate Limiter Hits (лимит срабатываний)	Количество превышений правилом корреляции лимита срабатываний за секунду.
Active Lists OPS (запросы к активному листу в секунду)	Количество запросов на выполнение операций, отправленных активному листу за секунду, и сами операции.
Active Lists Records (записи в активном листе)	Количество записей в активном листе.
Active Lists On-Disk Size (размер на диске)	Размер активного листа на диске в байтах.
Context Tables OPS (количество операций с контекстными таблицами в секунду)	Количество обращений к контекстной таблице за 1 секунду с указанием операции.
Context Tables Records (записи в контекстной таблице)	Текущее количество записей в контекстной таблице.
Context Tables On-Disk Size (размер контекстной таблицы на диске)	Текущий размер контекстной таблицы на диске.


Enrichment (обогащение) – метрики, относящиеся к правилам обогащения.
Cache RPS (запросы к кешу в секунду)	Количество запросов, отправленных локальному кешу за секунду.
Source RPS (запросы к источнику в секунду)	Количество запросов, отправленных источнику обогащения, например словарю, за секунду.
Source Latency (задержка источника)	Время в миллисекундах, затраченное на отправку запроса источнику обогащения и получение от него ответа. Отображается медиана.
Queue (очередь)	Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.
Errors (ошибки)	Количество ошибок, возникших за секунду при отправке запросов источнику обогащения.


Response (ответ) – метрики, относящиеся к правилам реагирования.
RPS (запросы в секунду)	Количество активаций правила реагирования за секунду.

Метрики хранилища

Название метрики	Описание

Storage / IO (ввод-вывод) – метрики, относящиеся к состоянию узлов кластера ClickHouse.
Output EPS (вывод событий)	Количество событий в секунду, которые были вставлены в узел ClickHouse или в дисковый буфер узла.
Output Latency (задержка вывода)	Задержка вставки пакета либо в узел ClickHouse, либо в дисковый буфер узла.
Output Errors (ошибки вывода)	Количество ошибок в секунду при вставке пакета в узел ClickHouse или в дисковый буфер узла.
Output Disk Buffer Size (размер дискового буфера)	Размер дискового буфера узла ClickHouse.
Output Event Loss (потеря событий)	Количество событий, которые были безвозвратно потеряны на каждом узле ClickHouse.
Batch size (размер пакета)	Размер пакета событий для вставки в узел ClickHouse.
Insert interval 5min Q1 (интервал вставки)	Длительность первого квартиля интервала вставки событий за последние 5 минут.


ClickHouse / General (общие параметры) – метрики, относящиеся к общим параметрам кластера ClickHouse.
Active Queries (активные запросы)	Количество выполняемых запросов, отправленных кластеру ClickHouse. Эта метрика отображается для каждого экземпляра ClickHouse.
QPS (запросы в секунду)	Количество запросов, отправленных кластеру ClickHouse за секунду.
Failed QPS (безуспешные запросы в секунду)	Количество безуспешных запросов, отправленных кластеру ClickHouse за секунду.
Allocated memory (назначенная память)	Количество RAM в гигабайтах, назначенное процессу ClickHouse.


ClickHouse / Insert (вставка) – метрики, относящиеся к вставке событий в экземпляр ClickHouse.
Insert EPS (вставка событий)	Количество событий, вставленных в экземпляр ClickHouse за секунду.
Insert QPS (запросы на вставку в секунду)	Количество запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Если на метрике Insert QPS растет очередь из запросов и показатель превышает 1, мы рекомендуем посмотреть также значение метрики Batch size, чтобы скорректировать параметры буферизации хранилища в настройках конфигурации сервиса хранилища. Пример: Показатель метрики Insert QPS превышает 1 и равен 8. Показатель Batch size - 1,2 ГБ (в байтах). В этом случае следует определить размер буфера, перемножив показатели метрик Insert QPS и Batch size: 8 * 1.2 = 9.6 ГБ. Полученное значение 9.6 следует округлить и указать в байтах (например, 10000000000 байт) в качестве значения параметра Размер буфера на вкладке Дополнительные параметры в настройках конфигурации сервиса хранилища. Также следует указать значение параметра Интервал очистки буфера - 2 с. Увеличение размера буфера и интервала очистки буфера позволит разгрузить очередь запросов. В норме показатель метрики Insert QPS не превышает 1.
Failed Insert QPS (безуспешные запросы на вставку в секунду)	Количество безуспешных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду.
Delayed Insert QPS (отложенные запросы на вставку в секунду)	Количество отложенных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отложены узлом ClickHouse из-за превышения мягкого лимита активных слияний.
Rejected Insert QPS (отклоненные запросы на вставку в секунду)	Количество отклоненных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отклонены узлом ClickHouse из-за превышения жесткого лимита активных слияний.
Active Merges (активные слияния)	Количество активных слияний.
Distribution Queue (очередь распределения)	Количество временных файлов с событиями, которые не удалось вставить в экземпляр ClickHouse из-за того, что он был недоступен. Эти события невозможно найти с помощью поиска.


ClickHouse / Select (выборка) – метрики, относящиеся к выборке событий в экземпляре ClickHouse.
Select QPS (запросы на выборку в секунду)	Количество запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду.
Failed Select QPS (безуспешные запросы на выборку в секунду)	Количество безуспешных запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду.


ClickHouse / Replication (репликация) – метрики, относящиеся к репликам узлов ClickHouse.
Active Zookeeper Connections (активные подключения к Zookeeper)	Количество активных подключений к узлам кластера Zookeeper. При нормальной работе это число должно быть равным количеству узлов кластера Zookeeper.
Read-only Replicas (реплики read-only)	Количество реплик узлов ClickHouse в режиме read-only. При нормальной работе таких реплик узлов ClickHouse быть не должно.
Active Replication Fetches (активные процессы скачивания)	Количество активных процессов скачивания данных с узла ClickHouse при репликации данных.
Active Replication Sends (активные процессы отправки)	Количество активных процессов отправки данных узлу ClickHouse при репликации данных.
Active Replication Consistency Checks (активные процессы проверки консистентности)	Количество активных проверок консистентности данных на репликах узлов ClickHouse при репликации данных.


ClickHouse / Networking (сеть) – метрики, относящиеся к сети кластера ClickHouse.
Active HTTP Connections (активные HTTP-подключения)	Количество активных подключений к HTTP-серверу кластера ClickHouse.
Active TCP Connections (активные TCP-подключения)	Количество активных подключений к TCP-серверу кластера ClickHouse.
Active Interserver Connections (активные подключения между серверами)	Количество активных служебных подключений между узлами ClickHouse.

Метрики Ядра KUMA

Название метрики	Описание

Raft – метрики, относящиеся к чтению и обновлению состояния Ядра KUMA.
Lookup RPS (запросы на чтение в секунду)	Количество запросов на выполнение процедур чтения, отправленных Ядру KUMA за секунду, и сами процедуры.
Lookup Latency (время обработки запроса на чтение)	Время в миллисекундах, затраченное на выполнение процедур чтения, и сами процедуры. Отображается время для 99-ого процентиля процедур чтения. Один процент процедур чтения может выполняться дольше.
Propose RPS (запросы на обновление состояния в секунду)	Количество запросов на выполнение процедур обновления состояния Raft (SQLite), отправленных Ядру KUMA за секунду, и сами процедуры.
Propose Latency (время обработки запроса на обновление состояния)	Время в миллисекундах, затраченное на выполнение процедур обновления состояния Raft (SQLite), и сами процедуры. Отображается время для 99-ого процентиля процедур обновления состояния. Один процент процедур обновления состояния может выполняться дольше.
Data mining – метрики, относящиеся к сбору и анализу данных
Executing Rules	Количество запущенных планировщиков для выполнения запросов сбора и анализа данных.
Queued Rules	Количество планировщиков для выполнения запросов сбора и анализа данных в очереди.
Execution Errors	Количество ошибок при выполнении запуска планировщика сбора и анализа данных.
Execution Latency	Время выполнения запросов планировщика.
Tasks – метрики, относящиеся к мониторингу выполнения задач на Ядре KUMA
Active tasks	Количество выполняемых задач за единицу времени.
Task Execution latency	Время выполняемых задач в секундах.
Errors	Количество ошибок при выполнении задач.


API – метрики, относящиеся к API-запросам.
RPS (запросы в секунду)	Количество API-запросов, отправленных Ядру KUMA за секунду.
Latency (задержка)	Время в миллисекундах, затраченное на обработку одного API-запроса к Ядру KUMA. Отображается медиана.
Errors (ошибки)	Количество ошибок, возникших за секунду при отправке API-запросов Ядру KUMA.


Notification Feed (фид уведомлений) – метрики, относящиеся к активности пользователей.
Subscriptions (подписки)	Количество клиентов, подключенных к Ядру KUMA через SSE для получения сообщений сервера в реальном времени. Обычно это число равно количеству клиентов, использующих веб-интерфейс KUMA.
Errors (ошибки)	Количество ошибок, возникших за секунду при отправке уведомлений пользователям.


Schedulers (планировщики) – метрики, относящиеся к задачам Ядра KUMA.
Active (активные)	Количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются.
Latency (задержка)	Время в миллисекундах, затраченное на выполнение задачи. Отображается медиана.
Errors (ошибки)	Количество ошибок, возникших за секунду при выполнении задач.
Alerts Queue (очередь алертов)	Количество алертов в очереди на вставку в базу данных.

Метрики агента KUMA

Название метрики	Описание

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
Processing EPS (обрабатываемые события в секунду)	Количество событий, обработанных за секунду.
Output EPS (вывод событий)	Количество событий, отправленных точке назначения за секунду.
Output Latency (задержка вывода)	Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.
Output Errors (ошибки вывода)	Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.
Output Event Loss (потеря событий)	Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.
Output Disk Buffer Size (размер дискового буфера)	Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.
Write Network BPS (байты, принятые в сеть)	Количество байт, принятых в сеть за секунду.

Метрики Event routers

Название метрики	Описание

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
Processing EPS (обрабатываемые события в секунду)	Количество событий, обработанных за секунду.
Output EPS (вывод событий)	Количество событий, отправленных точке назначения за секунду.
Output Latency (задержка вывода)	Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.
Output Errors (ошибки вывода)	Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.
Output Event Loss (потеря событий)	Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.
Output Disk Buffer Size (размер дискового буфера)	Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.
Write Network BPS (байты, принятые в сеть)	Количество байт, принятых в сеть за секунду.

Метрики, общие для всех сервисов

Название метрики	Описание

Process – общие метрики процесса.
Memory (память)	Использование RAM (RSS) в мегабайтах.
DISK BPS (считанные/записанные байты диска)	Количество байтов, считанных/записанных на диск за секунду.
Network BPS (байты, принятые/переданные по сети)	Количество байтов, принятых/переданных по сети за секунду.
Network Packet Loss (потеря пакетов)	Количество сетевых пакетов, потерянных за секунду.
GC Latency (задержка сборщика мусора)	Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана.
Goroutines (горутины)	Количество активных горутин. Это число отличается от количества потоков операционной системы.


OS (ОС) – метрики, относящиеся к операционной системе.
Load (нагрузка)	Средняя нагрузка.
CPU (ЦП)	Загрузка центрального процессора в процентах.
Memory (память)	Использование RAM (RSS) в процентах.
Disk (диск)	Использование дискового пространства в процентах.

Метрики, относящиеся к тенантам


Tenants Overview – метрики, относящиеся к тенантам.
License EPS (событий в секунду по условиям лицензии)	Количество событий в секунду, поступающих в рамках тенанта.

Срок хранения метрик

По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.

Чтобы изменить срок хранения метрик KUMA:

Войдите в ОС сервера, на котором установлено Ядро KUMA.
В файле /etc/systemd/system/multi-user.target.wants/kuma-victoria-metrics.service в параметре ExecStart измените флаг --retentionPeriod=<срок хранения метрик в месяцах>, подставив нужный срок. Например, --retentionPeriod=4 означает, что метрики будут храниться 4 месяца.
Перезапустите KUMA, выполнив последовательно следующие команды:
1. systemctl daemon-reload
2. systemctl restart kuma-victoria-metrics

Срок хранения метрик изменен.

В начало