В Консоли KUMA в качестве системы контроля используется решение VictoriaMetrics. Каждые пять секунд VictoriaMetrics использует HTTP-интерфейс для извлечения метрик Ядра KUMA, коллекторов, корреляторов, хранилищ и агентов. Сервис kuma-core генерирует конфигурацию решения VictoriaMetrics, которое также определяет получение метрик, далее также микросервис Ядра KUMA. Когда вы создаете или удаляете сервис, Ядро KUMA автоматически добавляет или удаляет соответствующую метрику в конфигурации решения VictoriaMetrics.
Полученные метрики можно просматривать с помощью решения Grafana. RPM-пакет сервиса kuma-core генерирует конфигурацию решения Grafana и создает отдельную панель мониторинга для визуализации показателей каждого сервиса. Графики в разделе Метрики появляются с задержкой примерно в 1,5 минуты.
Информацию о метриках см. в Консоли KUMA в разделе Метрики. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра KUMA. Если в разделе Метрики вы видите core: <номер порта>, это означает, что KUMA развернута в конфигурации высокой доступности и метрики получены с устройства, на котором было установлено Ядро KUMA. В прочих конфигурациях отображается имя устройства, с которого KUMA получает метрики.
Логин и пароль Grafana по умолчанию: admin
и admin
.
Метрики коллектора
Название метрики |
Описание |
---|---|
IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. |
|
Processing EPS |
Количество обработанных событий в секунду. |
Output EPS |
Количество событий, отправляемых точке назначения в секунду. |
Output Latency |
Время в миллисекундах, прошедшее после отправки пакета событий точке назначения и после получения от нее ответа. Отображается среднее значение. |
Output Errors |
Количество ошибок, возникающих в секунду при отправке пакетов событий в точку назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss |
Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например, если запрос был недействительным. |
Output Disk Buffer SIze |
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается нулевое значение, в дисковой буфер коллектора не помещен ни один пакет событий и сервис работает правильно. |
Write Network BPS |
Количество байтов, поступающих в сеть в секунду. |
Connector errors |
Количество ошибок в журналах событий коннектора. |
|
|
Normalization (Нормализация) – показатели, относящиеся к нормализаторам. |
|
Raw & Normalized event size |
Размер сырого события и размер нормализованного события. Отображается среднее значение. |
Errors |
Количество ошибок нормализации в секунду. |
|
|
Filtration – показатели, относящиеся к фильтрам. |
|
EPS |
Количество событий, соответствующих условиям фильтра, отправляемых на дальнейшую обработку в секунду. Коллектор обрабатывает отфильтрованные события только в том случае, если пользователь добавил фильтр в конфигурацию сервиса коллектора. |
|
|
Aggregation (Агрегация) – показатели, относящиеся к правилам агрегации. |
|
EPS |
Количество событий, полученных и созданных правилом агрегации в секунду. Этот показатель помогает определить эффективность правил агрегации. |
Buckets |
Количество контейнеров в правиле агрегации. |
|
|
Enrichment – показатели, относящиеся к правилам обогащения. |
|
Cache RPS |
Количество запросов к локальному кешу в секунду. |
Source RPS |
Количество запросов в секунду, отправленных источнику обогащения, например словарю. |
Source Latency |
Время в миллисекундах, прошедшее после отправки запроса источнику обогащения и после получения от него ответа. Отображается среднее значение. |
Queue |
Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения. |
Errors |
Количество ошибок в секунду при отправке запросов к источнику обогащения. |
Показатели корреляторов
Название метрики |
Описание |
---|---|
IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. |
|
Processing EPS |
Количество обработанных событий в секунду. |
Output EPS |
Количество событий, отправляемых точке назначения в секунду. |
Output Latency |
Время в миллисекундах, прошедшее после отправки пакета событий точке назначения и после получения от нее ответа. Отображается среднее значение. |
Output Errors |
Количество ошибок, возникающих в секунду при отправке пакетов событий в точку назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss |
Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например, если запрос был недействительным. |
Output Disk Buffer SIze |
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается нулевое значение, в дисковой буфер коллектора не помещен ни один пакет событий и сервис работает правильно. |
|
|
Correlation – показатели, относящиеся к правилам корреляции. |
|
EPS |
Количество событий корреляции в секунду, созданных правилом корреляции. |
Buckets |
Количество контейнеров в правиле корреляции стандартного типа. |
Rate Limiter Hits |
Количество превышений правилом корреляции предельного значения срабатываний в секунду. |
Active Lists OPS |
Количество запросов на выполнение операций, отправленных активному листу в секунду, и сами операции. |
Active Lists Records |
Количество записей в активном листе. |
Active Lists On-Disk Size |
Размер активного листа на диске в байтах. |
|
|
Enrichment – показатели, относящиеся к правилам обогащения. |
|
Cache RPS |
Количество запросов к локальному кешу в секунду. |
Source RPS |
Количество запросов в секунду, отправленных источнику обогащения, например словарю. |
Source Latency |
Время в миллисекундах, прошедшее после отправки запроса источнику обогащения и после получения от него ответа. Отображается среднее значение. |
Queue |
Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения. |
Errors |
Количество ошибок в секунду при отправке запросов к источнику обогащения. |
|
|
Response – показатели, связанные с правилами реагирования. |
|
RPS |
Количество срабатываний правила реагирования в секунду. |
Метрики хранилища
Название метрики |
Описание |
---|---|
ClickHouse/General – показатели, относящиеся к общим параметрам кластера ClickHouse. |
|
Active Queries |
Количество активных запросов, отправленных кластеру ClickHouse. Эта метрика отображается для каждого экземпляра ClickHouse. |
QPS |
Количество запросов в секунду, отправленных кластеру ClickHouse. |
Failed QPS |
Количество неудачных запросов в секунду, отправленных кластеру ClickHouse. |
Allocated memory |
Объем оперативной памяти в гигабайтах, выделенной процессу ClickHouse. |
|
|
ClickHouse/Insert – метрики, относящиеся к вставке событий в экземпляр ClickHouse. |
|
Insert EPS |
Количество событий в секунду, вставленных в экземпляр ClickHouse. |
Insert QPS |
Количество запросов в секунду на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse. |
Failed Insert QPS |
Количество неудачных запросов в секунду на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse. |
Delayed Insert QPS |
Количество отложенных запросов в секунду на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse. Запросы были отложены узлом ClickHouse из-за превышения мягкого ограничения активного объединения запросов. |
Rejected Insert QPS |
Количество отклоненных запросов в секунду на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse. Запросы были отложены узлом ClickHouse из-за превышения жесткого ограничения активного объединения запросов. |
Active Merges |
Количество активных объединений запросов. |
Distribution Queue |
Количество временных файлов с событиями, которые не удалось вставить в экземпляр ClickHouse из-за его недоступности. Эти события не могут быть найдены с помощью поиска. |
|
|
ClickHouse/Select – показатели, относящиеся к выборкам событий в экземпляре ClickHouse. |
|
Select QPS |
Количество запросов на выборку событий в секунду в экземпляре ClickHouse, отправленных кластеру ClickHouse. |
Failed Select QPS |
Количество неудачных запросов на выборку событий в секунду в экземпляре ClickHouse, отправленных кластеру ClickHouse. |
|
|
ClickHouse/Replication – метрики, относящиеся к репликам узлов ClickHouse. |
|
Active Zookeeper Connections |
Количество активных подключений к узлам кластера Zookeeper. При нормальной работе это количество должно быть равно количеству узлов в кластере Zookeeper. |
Read-only Replicas |
Количество реплик узлов ClickHouse, доступных только для чтения. При нормальной работе таких реплик узлов ClickHouse нет. |
Active Replication Fetches |
Количество активных процессов скачивания данных с узла ClickHouse при репликации данных. |
Active Replication Sends |
Количество активных процессов отправки данных узлу ClickHouse при репликации данных. |
Active Replication Consistency Checks |
Количество активных проверок согласованности данных на репликах узлов ClickHouse при репликации данных. |
|
|
ClickHouse/Networking – показатели, относящиеся к сети кластера ClickHouse. |
|
Active HTTP Connections |
Количество активных подключений к HTTP-серверу кластера ClickHouse. |
Active TCP Connections |
Количество активных подключений к TCP-серверу кластера ClickHouse. |
Active Interserver Connections |
Количество активных межсервисных соединений между узлами ClickHouse. |
Метрики Ядра KUMA
Название метрики |
Описание |
---|---|
Raft – метрики, связанные с чтением и обновлением состояния Ядра KUMA. |
|
Lookup RPS |
Количество запросов процедуры поиска в секунду, отправленных в Ядро KUMA, и сами процедуры. |
Lookup Latency |
Время в миллисекундах, затраченное на выполнение процедур поиска и на выполнение самих процедур. Отображается время для 99-го процентиля процедур поиска. Один процент процедур поиска может занять больше времени. |
Propose RPS |
Количество запросов на выполнение процедур обновления состояния, отправленных Ядру KUMA в секунду, и сами процедуры. |
Propose Latency |
Время в миллисекундах, затраченное на выполнение процедур обновления состояния и на выполнение самих процедур. Отображается время для 99-го процентиля процедур обновления состояния. Один процент процедур обновления состояния может занять больше времени. |
|
|
API – метрики, относящиеся к запросам API. |
|
RPS |
Количество запросов API к Ядру KUMA в секунду. |
Latency |
Время в миллисекундах, затраченное на обработку одного запроса API к Ядру KUMA. Отображается среднее значение. |
Errors |
Количество ошибок в секунду при отправке API-запросов к Ядру KUMA. |
|
|
Notification Feed – показатели, относящиеся к активности пользователей. |
|
Subscriptions |
Количество клиентов, подключенных к Ядру KUMA через SSE для получения сообщений сервера в реальном времени. Это число обычно равно количеству клиентов, использующих Консоль KUMA. |
Errors |
Количество ошибок в секунду при отправке уведомлений пользователям. |
|
|
Schedulers – показатели, относящиеся к задачам Ядра KUMA. |
|
Активная |
Количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются. |
Latency |
Время в миллисекундах, затраченное на выполнение задачи. Отображается среднее значение. |
Errors |
Количество ошибок в секунду, возникших при выполнении задач. |
Метрики агента KUMA
Название метрики |
Описание |
---|---|
IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. |
|
Processing EPS |
Количество обработанных событий в секунду. |
Output EPS |
Количество событий, отправляемых точке назначения в секунду. |
Output Latency |
Время в миллисекундах, прошедшее после отправки пакета событий точке назначения и после получения от нее ответа. Отображается среднее значение. |
Output Errors |
Количество ошибок, возникающих в секунду при отправке пакетов событий в точку назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss |
Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например, если запрос был недействительным. |
Output Disk Buffer SIze |
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается нулевое значение, в дисковой буфер коллектора не помещен ни один пакет событий и сервис работает правильно. |
Write Network BPS |
Количество байтов, поступающих в сеть в секунду. |
Метрики EventRouter
Название метрики |
Описание |
---|---|
IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. |
|
Processing EPS |
Количество обработанных событий в секунду. |
Output EPS |
Количество событий, отправляемых точке назначения в секунду. |
Output Latency |
Время в миллисекундах, прошедшее после отправки пакета событий точке назначения и после получения от нее ответа. Отображается среднее значение. |
Output Errors |
Количество ошибок, возникающих в секунду при отправке пакетов событий в точку назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss |
Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например, если запрос был недействительным. |
Output Disk Buffer SIze |
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается нулевое значение, в дисковой буфер коллектора не помещен ни один пакет событий и сервис работает правильно. |
Write Network BPS |
Количество байтов, поступающих в сеть в секунду. |
Connector Errors |
Количество ошибок в журналах событий коннектора. |
Метрики, общие для всех сервисов
Название метрики |
Описание |
---|---|
Process – общие метрики процесса. |
|
Memory |
Использование оперативной памяти (RSS) в мегабайтах. |
DISK BPS |
Количество байтов, считываемых с диска или записываемых на диск в секунду. |
Network BPS |
Количество байтов, получаемых/передаваемых в сеть в секунду. |
Network Packet Loss |
Количество сетевых пакетов, потерянных в секунду. |
GC Latency |
Время в миллисекундах, затраченное на выполнение цикла сборщика мусора GO (Garbage Collector). Отображается среднее значение. |
Goroutines |
Количество активных горутин. Это число отличается от количества потоков операционной системы. |
|
|
OS – показатели, относящиеся к операционной системе. |
|
Load |
Средняя нагрузка. |
Процессор |
Загрузка процессора в процентах. |
Memory |
Использование оперативной памяти (RSS) в процентах. |
Disk |
Использование дискового пространства в процентах. |
Срок хранения метрик
По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.
Чтобы изменить срок хранения метрик KUMA:
--retentionPeriod=<срок хранения метрик в месяцах>
, подставив нужный срок. Например, --retentionPeriod=4
означает, что метрики будут храниться 4 месяца.systemctl daemon-reload
systemctl restart kuma-victoria-metrics
Срок хранения метрик изменен.
В начало