Для отслеживания работы своих компонентов , потока событий, контекста корреляции в KUMA выполняется сбор и хранение большого количества параметров. Для сбора, хранения и анализа параметров используется решение VictoriaMetrics, представляющее собой СУБД в формате временных рядов. Визуализация собранных метрик осуществляется с помощью Grafana. В разделе KUMA Метрики представлены панели мониторинга с визуализацией ключевых параметров работы различных компонентов KUMA.
Сервис Ядра KUMA выполняет настройку параметров VictoriaMetrics и Grafana автоматически, участие пользователя не требуется.
Визуализация собранных метрик осуществляется с помощью решения Grafana. RPM-пакет службы kuma-core формирует конфигурацию Grafana и создает отдельную панель мониторинга для визуализации метрик каждого сервиса. Графики в разделе Метрики появляются с задержкой около 1,5 минут.
Полная информация о метриках доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро KUMA. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.
Метрики коллекторов
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса
Normalization (нормализация) – метрики, относящиеся к нормализаторам
Filtration (фильтрация) – метрики, относящиеся к фильтрам
Aggregation (агрегация) – метрики, относящиеся к правилам агрегации
Enrichment (обогащение) – метрики, относящиеся к правилам обогащения
Process (процессы) – метрики, относящиеся к процессам
OS (операционная система) – метрики, относящиеся к операционной системе
Метрики корреляторов
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса
Correlation (корреляция) – метрики, относящиеся к правилам корреляции
Enrichment (обогащение) – метрики, относящиеся к правилам обогащения
Response (ответ) – метрики, относящиеся к правилам реагирования
Process (процессы) – метрики, относящиеся к процессам
OS (операционная система) – метрики, относящиеся к операционной системе
Метрики хранилища
IO (ввод-вывод) – метрики, относящиеся к состоянию узлов кластера ClickHouse
ClickHouse / General (общие параметры) – метрики, относящиеся к общим параметрам кластера ClickHouse
ClickHouse / General (общие параметры) – метрики, относящиеся к общим параметрам кластера ClickHouse. |
|
Active Queries (активные запросы) |
Количество выполняемых запросов, отправленных кластеру ClickHouse. Эта метрика отображается для каждого экземпляра ClickHouse. |
QPS (запросы в секунду) |
Количество запросов, отправленных кластеру ClickHouse в секунду. |
Failed QPS (безуспешные запросы в секунду) |
Количество безуспешных запросов, отправленных кластеру ClickHouse в секунду. |
Allocated memory (назначенная память) |
Количество RAM, назначенное процессу ClickHouse (зависит от технических характеристик сервера и может выражаться, например, в ГБ или МБ). |
Active parts (активные части) |
Количество активных частей. Активные части – это данные (файлы на диске), которые используются для обработки запросов в настоящее время. |
Detached parts (count) (количество отключенных частей) |
Количество отключенных (отсоединенных) частей. Отключенные части – это данные, которые существуют на диске, но не участвуют в файловых операциях чтения и записи. |
Detached parts (size) (размер отключенных частей) |
Объем дискового пространства, который занимают отключенные части. Вы можете указать максимальное значение размера отключенных частей от 1% до 90%. По умолчанию установлено значение 1%. Если размер отключенных частей превышает установленное максимальное значение, KUMA присваивает желтый статус запущенному сервису хранилища в разделе Активные сервисы. |
ClickHouse / Insert (вставка) – метрики, относящиеся к вставке событий в экземпляр ClickHouse. |
|
Insert EPS (вставка событий) |
Количество событий, вставленных в экземпляр ClickHouse за секунду. |
Insert QPS (запросы на вставку в секунду) |
Количество запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Если на метрике Insert QPS растет очередь из запросов и показатель превышает 1, мы рекомендуем посмотреть также значение метрики Batch size, чтобы скорректировать параметры буферизации хранилища в настройках конфигурации сервиса хранилища. Пример: Показатель метрики Insert QPS превышает 1 и равен 8. Показатель Batch size - 1,2 ГБ (в байтах). В этом случае следует определить размер буфера, перемножив показатели метрик Insert QPS и Batch size: 8 * 1.2 = 9.6 ГБ. Полученное значение 9.6 следует округлить и указать в байтах (например, 10000000000 байт) в качестве значения параметра Размер буфера на вкладке Дополнительные параметры в настройках конфигурации сервиса хранилища. Также следует указать значение параметра Интервал очистки буфера - 2 с. |
Failed Insert QPS (безуспешные запросы на вставку в секунду) |
Количество безуспешных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. |
Delayed Insert QPS (отложенные запросы на вставку в секунду) |
Количество отложенных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отложены узлом ClickHouse из-за превышения мягкого лимита активных слияний. |
Rejected Insert QPS (отклоненные запросы на вставку в секунду) |
Количество отклоненных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отклонены узлом ClickHouse из-за превышения жесткого лимита активных слияний. |
Active Merges (активные слияния) |
Количество активных слияний. |
Distribution Queue (очередь распределения) |
Количество временных файлов с событиями, которые не удалось вставить в экземпляр ClickHouse из-за того, что он был недоступен. Эти события невозможно найти с помощью поиска. |
ClickHouse / Select (выборка) – метрики, относящиеся к выборке событий в экземпляре ClickHouse. |
|
Select QPS (запросы на выборку в секунду) |
Количество запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду. |
Failed Select QPS (безуспешные запросы на выборку в секунду) |
Количество безуспешных запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду. |
ClickHouse / Replication (репликация) – метрики, относящиеся к репликам узлов ClickHouse. |
|
Active Zookeeper Connections (активные подключения к Zookeeper) |
Количество активных подключений к узлам кластера Zookeeper. При нормальной работе это число должно быть равным количеству узлов кластера Zookeeper. |
Read-only Replicas (реплики read-only) |
Количество реплик узлов ClickHouse в режиме read-only. При нормальной работе таких реплик узлов ClickHouse быть не должно. |
Active Replication Fetches (активные процессы скачивания) |
Количество активных процессов скачивания данных с узла ClickHouse при репликации данных. |
Active Replication Sends (активные процессы отправки) |
Количество активных процессов отправки данных узлу ClickHouse при репликации данных. |
Active Replication Consistency Checks (активные процессы проверки консистентности) |
Количество активных проверок консистентности данных на репликах узлов ClickHouse при репликации данных. |
ClickHouse / Networking (сеть) – метрики, относящиеся к сети кластера ClickHouse. |
|
Active HTTP Connections (активные HTTP-подключения) |
Количество активных подключений к HTTP-серверу кластера ClickHouse. |
Active TCP Connections (активные TCP-подключения) |
Количество активных подключений к TCP-серверу кластера ClickHouse. |
Active Interserver Connections (активные подключения между серверами) |
Количество активных служебных подключений между узлами ClickHouse. |
ClickHouse / Storage OS (ОС хранилища) – метрики, относящиеся к операционной сети хранилища ClickHouse. |
|
Load (нагрузка) |
Средняя нагрузка для каждого узла хранилища. |
CPU (ЦП) |
Использование центрального процессора в процентах для каждого узла хранилища. |
Memory (память) |
Использование оперативной памяти (RSS) в процентах для каждого узла хранилища. |
Disk (диск) |
Использование дискового пространства в процентах для каждого узла хранилища. |
Disk used (events) (объем диска для хранения событий) |
Объем дискового пространства для раздела |
Disk used (except events) (объем диска для хранения всех данных, кроме событий) |
Объем дискового пространства для раздела |
Метрики Ядра KUMA
Название метрики |
Описание |
---|---|
Raft – метрики, относящиеся к чтению и обновлению состояния Ядра KUMA. |
|
Lookup RPS (запросы на чтение в секунду) |
Количество запросов на выполнение процедур чтения, отправленных Ядру KUMA за секунду, и сами процедуры. |
Lookup Latency (время обработки запроса на чтение) |
Время в миллисекундах, затраченное на выполнение процедур чтения, и сами процедуры. Отображается время для 99-ого процентиля процедур чтения. Один процент процедур чтения может выполняться дольше. |
Propose RPS (запросы на обновление состояния в секунду) |
Количество запросов на выполнение процедур обновления состояния Raft (SQLite), отправленных Ядру KUMA за секунду, и сами процедуры. |
Propose Latency (время обработки запроса на обновление состояния) |
Время в миллисекундах, затраченное на выполнение процедур обновления состояния Raft (SQLite), и сами процедуры. Отображается время для 99-ого процентиля процедур обновления состояния. Один процент процедур обновления состояния может выполняться дольше. |
Data mining – метрики, относящиеся к сбору и анализу данных |
|
Executing Rules |
Количество запущенных планировщиков для выполнения запросов сбора и анализа данных. |
Queued Rules |
Количество планировщиков для выполнения запросов сбора и анализа данных в очереди. |
Execution Errors |
Количество ошибок при выполнении запуска планировщика сбора и анализа данных. |
Execution Latency |
Время выполнения запросов планировщика. |
Tasks – метрики, относящиеся к мониторингу выполнения задач на Ядре KUMA |
|
Active tasks |
Количество выполняемых задач за единицу времени. |
Task Execution latency |
Время выполняемых задач в секундах. |
Errors |
Количество ошибок при выполнении задач. |
API – метрики, относящиеся к API-запросам. |
|
RPS (запросы в секунду) |
Количество API-запросов, отправленных Ядру KUMA за секунду. |
Latency (задержка) |
Время в миллисекундах, затраченное на обработку одного API-запроса к Ядру KUMA. Отображается медиана. |
Errors (ошибки) |
Количество ошибок, возникших за секунду при отправке API-запросов Ядру KUMA. |
Notification Feed (фид уведомлений) – метрики, относящиеся к активности пользователей. |
|
Subscriptions (подписки) |
Количество клиентов, подключенных к Ядру KUMA через SSE для получения сообщений сервера в реальном времени. Обычно это число равно количеству клиентов, использующих веб-интерфейс KUMA. |
Errors (ошибки) |
Количество ошибок, возникших за секунду при отправке уведомлений пользователям. |
Schedulers (планировщики) – метрики, относящиеся к задачам Ядра KUMA. |
|
Active (активные) |
Количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются. |
Latency (задержка) |
Время в миллисекундах, затраченное на выполнение задачи. Отображается медиана. |
Errors (ошибки) |
Количество ошибок, возникших за секунду при выполнении задач. |
Alerts Queue (очередь алертов) |
Количество алертов в очереди на вставку в базу данных. |
Метрики агента KUMA
Название метрики |
Описание |
---|---|
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. |
|
Processing EPS (обрабатываемые события в секунду) |
Количество событий, обработанных за секунду. |
Output EPS (вывод событий) |
Количество событий, отправленных точке назначения за секунду. |
Output Latency (задержка вывода) |
Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана. |
Output Errors (ошибки вывода) |
Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss (потеря событий) |
Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе. |
Output Disk Buffer Size (размер дискового буфера) |
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно. |
Write Network BPS (байты, принятые в сеть) |
Количество байт, принятых в сеть за секунду. |
Метрики Event routers
Название метрики |
Описание |
---|---|
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. |
|
Processing EPS (обрабатываемые события в секунду) |
Количество событий, обработанных за секунду. |
Output EPS (вывод событий) |
Количество событий, отправленных точке назначения за секунду. |
Output Latency (задержка вывода) |
Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана. |
Output Errors (ошибки вывода) |
Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss (потеря событий) |
Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе. |
Output Disk Buffer Size (размер дискового буфера) |
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно. |
Write Network BPS (байты, принятые в сеть) |
Количество байт, принятых в сеть за секунду. |
Метрики, общие для всех сервисов
Название метрики |
Описание |
---|---|
Process – общие метрики процесса. |
|
Memory (память) |
Использование RAM (RSS) в мегабайтах. |
DISK BPS (считанные/записанные байты диска) |
Количество байтов, считанных/записанных на диск за секунду. |
Network BPS (байты, принятые/переданные по сети) |
Количество байтов, принятых/переданных по сети за секунду. |
Network Packet Loss (потеря пакетов) |
Количество сетевых пакетов, потерянных за секунду. |
GC Latency (задержка сборщика мусора) |
Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана. |
Goroutines (горутины) |
Количество активных горутин. Это число отличается от количества потоков операционной системы. |
OS (ОС) – метрики, относящиеся к операционной системе. |
|
Load (нагрузка) |
Средняя нагрузка. |
CPU (ЦП) |
Загрузка центрального процессора в процентах. |
Memory (память) |
Использование RAM (RSS) в процентах. |
Disk (диск) |
Использование дискового пространства в процентах. |
Метрики, относящиеся к тенантам
Tenants Overview – метрики, относящиеся к тенантам. |
|
License EPS (событий в секунду по условиям лицензии) |
Количество событий в секунду, поступающих в рамках тенанта. |
Срок хранения метрик
По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.
Чтобы изменить срок хранения метрик KUMA:
--retentionPeriod=<срок хранения метрик в месяцах>
, подставив нужный срок. Например, --retentionPeriod=4
означает, что метрики будут храниться 4 месяца.systemctl daemon-reload
systemctl restart kuma-victoria-metrics
Срок хранения метрик изменен.
В начало