Просмотр метрик KUMA

Для отслеживания работы своих компонентов , потока событий, контекста корреляции в KUMA выполняется сбор и хранение большого количества параметров. Для сбора, хранения и анализа параметров используется решение VictoriaMetrics, представляющее собой СУБД в формате временных рядов. Визуализация собранных метрик осуществляется с помощью Grafana. В разделе KUMA Метрики представлены панели мониторинга с визуализацией ключевых параметров работы различных компонентов KUMA.
Сервис Ядра KUMA выполняет настройку параметров VictoriaMetrics и Grafana автоматически, участие пользователя не требуется.

Визуализация собранных метрик осуществляется с помощью решения Grafana. RPM-пакет службы kuma-core формирует конфигурацию Grafana и создает отдельную панель мониторинга для визуализации метрик каждого сервиса. Графики в разделе Метрики появляются с задержкой около 1,5 минут.

Полная информация о метриках доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро KUMA. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.

Метрики коллекторов

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса

Normalization (нормализация) – метрики, относящиеся к нормализаторам

Filtration (фильтрация) – метрики, относящиеся к фильтрам

Aggregation (агрегация) – метрики, относящиеся к правилам агрегации

Enrichment (обогащение) – метрики, относящиеся к правилам обогащения

Process (процессы) – метрики, относящиеся к процессам

OS (операционная система) – метрики, относящиеся к операционной системе

Метрики корреляторов

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса

Correlation (корреляция) – метрики, относящиеся к правилам корреляции

Enrichment (обогащение) – метрики, относящиеся к правилам обогащения

Response (ответ) – метрики, относящиеся к правилам реагирования

Process (процессы) – метрики, относящиеся к процессам

OS (операционная система) – метрики, относящиеся к операционной системе

Метрики хранилища

IO (ввод-вывод) – метрики, относящиеся к состоянию узлов кластера ClickHouse

ClickHouse / General (общие параметры) – метрики, относящиеся к общим параметрам кластера ClickHouse

ClickHouse / General (общие параметры) – метрики, относящиеся к общим параметрам кластера ClickHouse.

Active Queries (активные запросы)

Количество выполняемых запросов, отправленных кластеру ClickHouse. Эта метрика отображается для каждого экземпляра ClickHouse.

QPS (запросы в секунду)

Количество запросов, отправленных кластеру ClickHouse в секунду.

Failed QPS (безуспешные запросы в секунду)

Количество безуспешных запросов, отправленных кластеру ClickHouse в секунду.

Allocated memory (назначенная память)

Количество RAM, назначенное процессу ClickHouse (зависит от технических характеристик сервера и может выражаться, например, в ГБ или МБ).

Active parts (активные части)

Количество активных частей.

Активные части – это данные (файлы на диске), которые используются для обработки запросов в настоящее время.

Detached parts (count) (количество отключенных частей)

Количество отключенных (отсоединенных) частей.

Отключенные части – это данные, которые существуют на диске, но не участвуют в файловых операциях чтения и записи.

Detached parts (size) (размер отключенных частей)

Объем дискового пространства, который занимают отключенные части.

Вы можете указать максимальное значение размера отключенных частей от 1% до 90%. По умолчанию установлено значение 1%.

Если размер отключенных частей превышает установленное максимальное значение, KUMA присваивает желтый статус запущенному сервису хранилища в разделе Активные сервисы.

ClickHouse / Insert (вставка) – метрики, относящиеся к вставке событий в экземпляр ClickHouse.

Insert EPS (вставка событий)

Количество событий, вставленных в экземпляр ClickHouse за секунду.

Insert QPS (запросы на вставку в секунду)

Количество запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду.

Если на метрике Insert QPS растет очередь из запросов и показатель превышает 1, мы рекомендуем посмотреть также значение метрики Batch size, чтобы скорректировать параметры буферизации хранилища в настройках конфигурации сервиса хранилища.

Пример:

Показатель метрики Insert QPS превышает 1 и равен 8.

Показатель Batch size - 1,2 ГБ (в байтах).

В этом случае следует определить размер буфера, перемножив показатели метрик Insert QPS и Batch size:

8 * 1.2 = 9.6 ГБ.

Полученное значение 9.6 следует округлить и указать в байтах (например, 10000000000 байт) в качестве значения параметра Размер буфера на вкладке Дополнительные параметры в настройках конфигурации сервиса хранилища. Также следует указать значение параметра Интервал очистки буфера - 2 с.
Увеличение размера буфера и интервала очистки буфера позволит разгрузить очередь запросов. В норме показатель метрики Insert QPS не превышает 1.

Failed Insert QPS (безуспешные запросы на вставку в секунду)

Количество безуспешных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду.

Delayed Insert QPS (отложенные запросы на вставку в секунду)

Количество отложенных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отложены узлом ClickHouse из-за превышения мягкого лимита активных слияний.

Rejected Insert QPS (отклоненные запросы на вставку в секунду)

Количество отклоненных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отклонены узлом ClickHouse из-за превышения жесткого лимита активных слияний.

Active Merges (активные слияния)

Количество активных слияний.

Distribution Queue (очередь распределения)

Количество временных файлов с событиями, которые не удалось вставить в экземпляр ClickHouse из-за того, что он был недоступен. Эти события невозможно найти с помощью поиска.

ClickHouse / Select (выборка) – метрики, относящиеся к выборке событий в экземпляре ClickHouse.

Select QPS (запросы на выборку в секунду)

Количество запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду.

Failed Select QPS (безуспешные запросы на выборку в секунду)

Количество безуспешных запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду.

ClickHouse / Replication (репликация) – метрики, относящиеся к репликам узлов ClickHouse.

Active Zookeeper Connections (активные подключения к Zookeeper)

Количество активных подключений к узлам кластера Zookeeper. При нормальной работе это число должно быть равным количеству узлов кластера Zookeeper.

Read-only Replicas (реплики read-only)

Количество реплик узлов ClickHouse в режиме read-only. При нормальной работе таких реплик узлов ClickHouse быть не должно.

Active Replication Fetches (активные процессы скачивания)

Количество активных процессов скачивания данных с узла ClickHouse при репликации данных.

Active Replication Sends (активные процессы отправки)

Количество активных процессов отправки данных узлу ClickHouse при репликации данных.

Active Replication Consistency Checks (активные процессы проверки консистентности)

Количество активных проверок консистентности данных на репликах узлов ClickHouse при репликации данных.

ClickHouse / Networking (сеть) – метрики, относящиеся к сети кластера ClickHouse.

Active HTTP Connections (активные HTTP-подключения)

Количество активных подключений к HTTP-серверу кластера ClickHouse.

Active TCP Connections (активные TCP-подключения)

Количество активных подключений к TCP-серверу кластера ClickHouse.

Active Interserver Connections (активные подключения между серверами)

Количество активных служебных подключений между узлами ClickHouse.

ClickHouse / Storage OS (ОС хранилища) – метрики, относящиеся к операционной сети хранилища ClickHouse.

Load (нагрузка)

Средняя нагрузка для каждого узла хранилища.

CPU (ЦП)

Использование центрального процессора в процентах для каждого узла хранилища.

Memory (память)

Использование оперативной памяти (RSS) в процентах для каждого узла хранилища.

Disk (диск)

Использование дискового пространства в процентах для каждого узла хранилища.

Disk used (events) (объем диска для хранения событий)

Объем дискового пространства для раздела /opt, где хранятся данные событий.

Disk used (except events) (объем диска для хранения всех данных, кроме событий)

Объем дискового пространства для раздела /opt, где хранятся отличные от событий данные.

Метрики Ядра KUMA

Название метрики

Описание

Raft – метрики, относящиеся к чтению и обновлению состояния Ядра KUMA.

Lookup RPS (запросы на чтение в секунду)

Количество запросов на выполнение процедур чтения, отправленных Ядру KUMA за секунду, и сами процедуры.

Lookup Latency (время обработки запроса на чтение)

Время в миллисекундах, затраченное на выполнение процедур чтения, и сами процедуры. Отображается время для 99-ого процентиля процедур чтения. Один процент процедур чтения может выполняться дольше.

Propose RPS (запросы на обновление состояния в секунду)

Количество запросов на выполнение процедур обновления состояния Raft (SQLite), отправленных Ядру KUMA за секунду, и сами процедуры.

Propose Latency (время обработки запроса на обновление состояния)

Время в миллисекундах, затраченное на выполнение процедур обновления состояния Raft (SQLite), и сами процедуры. Отображается время для 99-ого процентиля процедур обновления состояния. Один процент процедур обновления состояния может выполняться дольше.

Data mining – метрики, относящиеся к сбору и анализу данных

Executing Rules

Количество запущенных планировщиков для выполнения запросов сбора и анализа данных.

Queued Rules

Количество планировщиков для выполнения запросов сбора и анализа данных в очереди.

Execution Errors

Количество ошибок при выполнении запуска планировщика сбора и анализа данных.

Execution Latency

Время выполнения запросов планировщика.

Tasks – метрики, относящиеся к мониторингу выполнения задач на Ядре KUMA

Active tasks

Количество выполняемых задач за единицу времени.

Task Execution latency

Время выполняемых задач в секундах.

Errors

Количество ошибок при выполнении задач.

API – метрики, относящиеся к API-запросам.

RPS (запросы в секунду)

Количество API-запросов, отправленных Ядру KUMA за секунду.

Latency (задержка)

Время в миллисекундах, затраченное на обработку одного API-запроса к Ядру KUMA. Отображается медиана.

Errors (ошибки)

Количество ошибок, возникших за секунду при отправке API-запросов Ядру KUMA.

Notification Feed (фид уведомлений) – метрики, относящиеся к активности пользователей.

Subscriptions (подписки)

Количество клиентов, подключенных к Ядру KUMA через SSE для получения сообщений сервера в реальном времени. Обычно это число равно количеству клиентов, использующих веб-интерфейс KUMA.

Errors (ошибки)

Количество ошибок, возникших за секунду при отправке уведомлений пользователям.

Schedulers (планировщики) – метрики, относящиеся к задачам Ядра KUMA.

Active (активные)

Количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются.

Latency (задержка)

Время в миллисекундах, затраченное на выполнение задачи. Отображается медиана.

Errors (ошибки)

Количество ошибок, возникших за секунду при выполнении задач.

Alerts Queue (очередь алертов)

Количество алертов в очереди на вставку в базу данных.

Метрики агента KUMA

Название метрики

Описание

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.

Processing EPS (обрабатываемые события в секунду)

Количество событий, обработанных за секунду.

Output EPS (вывод событий)

Количество событий, отправленных точке назначения за секунду.

Output Latency (задержка вывода)

Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.

Output Errors (ошибки вывода)

Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.

Output Event Loss (потеря событий)

Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.

Output Disk Buffer Size (размер дискового буфера)

Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.

Write Network BPS (байты, принятые в сеть)

Количество байт, принятых в сеть за секунду.

Метрики Event routers

Название метрики

Описание

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.

Processing EPS (обрабатываемые события в секунду)

Количество событий, обработанных за секунду.

Output EPS (вывод событий)

Количество событий, отправленных точке назначения за секунду.

Output Latency (задержка вывода)

Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.

Output Errors (ошибки вывода)

Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.

Output Event Loss (потеря событий)

Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.

Output Disk Buffer Size (размер дискового буфера)

Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.

Write Network BPS (байты, принятые в сеть)

Количество байт, принятых в сеть за секунду.

Метрики, общие для всех сервисов

Название метрики

Описание

Process – общие метрики процесса.

Memory (память)

Использование RAM (RSS) в мегабайтах.

DISK BPS (считанные/записанные байты диска)

Количество байтов, считанных/записанных на диск за секунду.

Network BPS (байты, принятые/переданные по сети)

Количество байтов, принятых/переданных по сети за секунду.

Network Packet Loss (потеря пакетов)

Количество сетевых пакетов, потерянных за секунду.

GC Latency (задержка сборщика мусора)

Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана.

Goroutines (горутины)

Количество активных горутин. Это число отличается от количества потоков операционной системы.

OS (ОС) – метрики, относящиеся к операционной системе.

Load (нагрузка)

Средняя нагрузка.

CPU (ЦП)

Загрузка центрального процессора в процентах.

Memory (память)

Использование RAM (RSS) в процентах.

Disk (диск)

Использование дискового пространства в процентах.

Метрики, относящиеся к тенантам

Tenants Overview – метрики, относящиеся к тенантам.

License EPS (событий в секунду по условиям лицензии)

Количество событий в секунду, поступающих в рамках тенанта.

Срок хранения метрик

По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.

Чтобы изменить срок хранения метрик KUMA:

  1. Войдите в ОС сервера, на котором установлено Ядро KUMA.
  2. В файле /etc/systemd/system/multi-user.target.wants/kuma-victoria-metrics.service в параметре ExecStart измените флаг --retentionPeriod=<срок хранения метрик в месяцах>, подставив нужный срок. Например, --retentionPeriod=4 означает, что метрики будут храниться 4 месяца.
  3. Перезапустите KUMA, выполнив последовательно следующие команды:
    1. systemctl daemon-reload
    2. systemctl restart kuma-victoria-metrics

Срок хранения метрик изменен.

В начало