Просмотр метрик KUMA
В инфраструктуре KUMA роль системы мониторинга выполняет решение VictoriaMetrics. Каждые пять секунд с помощью HTTP-интерфейса решение VictoriaMetrics извлекает метрики Ядра, коллекторов, корреляторов, хранилищ и агентов KUMA. Служба kuma-core формирует конфигурацию решения VictoriaMetrics, где, помимо прочих параметров, определена единственная цель сбора метрик - микросервис Ядро. Когда вы создаете или удаляете сервис, Ядро автоматически добавляет или удаляет соответствующую этому сервису цель для сбора метрик в конфигурации решения VictoriaMetrics.
Визуализация собранных метрик осуществляется с помощью решения Grafana. RPM-пакет службы kuma-core формирует конфигурацию решения Grafana и создает отдельную панель мониторинга для визуализации метрик каждого сервиса.
Полная информация о метриках доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.
Логин и пароль Grafana по умолчанию: admin
и admin
.
Метрики коллекторов
Название метрики | Описание |
---|---|
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. | |
Processing EPS (обрабатываемые события в секунду) | Количество событий, обработанных за секунду. |
Output EPS (вывод событий) | Количество событий, отправленных точке назначения за секунду. |
Output Latency (задержка вывода) | Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана. |
Output Errors (ошибки вывода) | Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss (потеря событий) | Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе. |
Output Disk Buffer SIze (размер дискового буфера) | Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно. |
Write Network BPS (байты, принятые в сеть) | Количество байт, принятых в сеть за секунду. |
Normalization (нормализация) – метрики, относящиеся к нормализаторам. | |
Raw & Normalized event size (размер сырых и нормализованных событий) | Размер необработанного и нормализованного событий. Отображается медиана. |
Errors (ошибки) | Количество ошибок нормализации, возникших за секунду. |
Filtration (фильтрация) – метрики, относящиеся к фильтрам. | |
EPS (события, обрабатываемые за секунду) | Количество событий, отклоненных коллектором за секунду. Коллектор отклоняет событие, только если пользователь добавил фильтр в конфигурацию сервиса коллектора. |
Aggregation (агрегация) – показатели, относящиеся к правилам агрегации. | |
EPS (события, обрабатываемые в секунду) | Количество событий, полученных и созданных правилом агрегации за секунду. Эта метрика помогает определить эффективность правил агрегации. |
Buckets (контейнеры) | Количество контейнеров в правиле агрегации. |
Enrichment (обогащение) – метрики, относящиеся к правилам обогащения. | |
Cache RPS (запросы к кешу в секунду) | Количество запросов, отправленных локальному кешу за секунду. |
Source RPS (запросы к источнику в секунду) | Количество запросов, отправленных источнику обогащения, например словарю, за секунду. |
Source Latency (задержка источника) | Время в миллисекундах, затраченное на отправку запроса источнику обогащения и получение от него ответа. Отображается медиана. |
Queue (очередь) | Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения. |
Errors (ошибки) | Количество ошибок, возникших за секунду при отправке запросов источнику обогащения. |
Метрики корреляторов
Название метрики | Описание |
---|---|
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. | |
Processing EPS (обрабатываемые события в секунду) | Количество событий, обработанных за секунду. |
Output EPS (вывод событий) | Количество событий, отправленных точке назначения за секунду. |
Output Latency (задержка вывода) | Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана. |
Output Errors (ошибки вывода) | Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss (потеря событий) | Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе. |
Output Disk Buffer SIze (размер дискового буфера) | Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно. |
Correlation (корреляция) – метрики, относящиеся к правилам корреляции. | |
EPS (события, обрабатываемые в секунду) | Количество корреляционных событий, созданных правилом корреляции за секунду. |
Buckets (контейнеры) | Количество контейнеров в правиле корреляции стандартного типа. |
Rate Limiter Hits (лимит срабатываний) | Количество превышений правилом корреляции лимита срабатываний за секунду. |
Active Lists OPS (запросы к активному листу в секунду) | Количество запросов на выполнение операций, отправленных активному листу за секунду, и сами операции. |
Active Lists Records (записи в активном листе) | Количество записей в активном листе. |
Active Lists On-Disk Size (размер на диске) | Размер активного листа на диске в байтах. |
Enrichment (обогащение) – метрики, относящиеся к правилам обогащения. | |
Cache RPS (запросы к кешу в секунду) | Количество запросов, отправленных локальному кешу за секунду. |
Source RPS (запросы к источнику в секунду) | Количество запросов, отправленных источнику обогащения, например словарю, за секунду. |
Source Latency (задержка источника) | Время в миллисекундах, затраченное на отправку запроса источнику обогащения и получение от него ответа. Отображается медиана. |
Queue (очередь) | Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения. |
Errors (ошибки) | Количество ошибок, возникших за секунду при отправке запросов источнику обогащения. |
Response (ответ) – метрики, относящиеся к правилам реагирования. | |
RPS (запросы в секунду) | Количество активаций правила реагирования за секунду. |
Метрики хранилища
Название метрики | Описание |
---|---|
Clickhouse / General (общие параметры) – метрики, относящиеся к общим параметрам кластера ClickHouse. | |
Active Queries (активные запросы) | Количество выполняемых запросов, отправленных кластеру ClickHouse. Эта метрика отображается для каждого экземпляра ClickHouse. |
QPS (запросы в секунду) | Количество запросов, отправленных кластеру ClickHouse за секунду. |
Failed QPS (безуспешные запросы в секунду) | Количество безуспешных запросов, отправленных кластеру ClickHouse за секунду. |
Allocated memory (назначенная память) | Количество RAM в гигабайтах, назначенное процессу ClickHouse. |
Clickhouse / Insert (вставка) – метрики, относящиеся к вставке событий в экземпляр ClickHouse. | |
Insert EPS (вставка событий) | Количество событий, вставленных в экземпляр ClickHouse за секунду. |
Insert QPS (запросы на вставку в секунду) | Количество запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. |
Failed Insert QPS (безуспешные запросы на вставку в секунду) | Количество безуспешных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. |
Delayed Insert QPS (отложенные запросы на вставку в секунду) | Количество отложенных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отложены узлом ClickHouse из-за превышения мягкого лимита активных слияний. |
Rejected Insert QPS (отклоненные запросы на вставку в секунду) | Количество отклоненных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отклонены узлом ClickHouse из-за превышения жесткого лимита активных слияний. |
Active Merges (активные слияния) | Количество активных слияний. |
Distribution Queue (очередь распределения) | Количество временных файлов с событиями, которые не удалось вставить в экземпляр ClickHouse из-за того, что он был недоступен. Эти события невозможно найти с помощью поиска. |
Clickhouse / Select (выборка) – метрики, относящиеся к выборке событий в экземпляре ClickHouse. | |
Select QPS (запросы на выборку в секунду) | Количество запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду. |
Failed Select QPS (безуспешные запросы на выборку в секунду) | Количество безуспешных запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду. |
Clickhouse / Replication (репликация) – метрики, относящиеся к репликам узлов ClickHouse. | |
Active Zookeeper Connections (активные подключения к Zookeeper) | Количество активных подключений к узлам кластера Zookeeper. При нормальной работе это число должно быть равным количеству узлов кластера Zookeeper. |
Read-only Replicas (реплики read-only) | Количество реплик узлов ClickHouse в режиме read-only. При нормальной работе таких реплик узлов ClickHouse быть не должно. |
Active Replication Fetches (активные процессы скачивания) | Количество активных процессов скачивания данных с узла ClickHouse при репликации данных. |
Active Replication Sends (активные процессы отправки) | Количество активных процессов отправки данных узлу ClickHouse при репликации данных. |
Active Replication Consistency Checks (активные процессы проверки консистентности) | Количество активных проверок консистентности данных на репликах узлов ClickHouse при репликации данных. |
Clickhouse / Networking (сеть) – метрики, относящиеся к сети кластера ClickHouse. | |
Active HTTP Connections (активные HTTP-подключения) | Количество активных подключений к HTTP-серверу кластера ClickHouse. |
Active TCP Connections (активные TCP-подключения) | Количество активных подключений к TCP-серверу кластера ClickHouse. |
Active Interserver Connections (активные подключения между серверами) | Количество активных служебных подключений между узлами ClickHouse. |
Метрики Ядра
Название метрики | Описание |
---|---|
Raft – метрики, относящиеся к чтению и обновлению состояния Ядра. | |
Lookup RPS (запросы на чтение в секунду) | Количество запросов на выполнение процедур чтения, отправленных Ядру за секунду, и сами процедуры. |
Lookup Latency (время обработки запроса на чтение) | Время в миллисекундах, затраченное на выполнение процедур чтения, и сами процедуры. Отображается время для 99-ого процентиля процедур чтения. Один процент процедур чтения может выполняться дольше. |
Propose RPS (запросы на обновление состояния в секунду) | Количество запросов на выполнение процедур обновления состояния, отправленных Ядру за секунду, и сами процедуры. |
Propose Latency (время обработки запроса на обновление состояния) | Время в миллисекундах, затраченное на выполнение процедур обновления состояния, и сами процедуры. Отображается время для 99-ого процентиля процедур обновления состояния. Один процент процедур обновления состояния может выполняться дольше. |
API – метрики, относящиеся к API-запросам. | |
RPS (запросы в секунду) | Количество API-запросов, отправленных Ядру за секунду. |
Latency (задержка) | Время в миллисекундах, затраченное на обработку одного API-запроса к Ядру. Отображается медиана. |
Errors (ошибки) | Количество ошибок, возникших за секунду при отправке API-запросов Ядру. |
Notification Feed (фид уведомлений) – метрики, относящиеся к активности пользователей. | |
Subscriptions (подписки) | Количество клиентов, подключенных к Ядру через SSE для получения сообщений сервера в реальном времени. Обычно это число равно количеству клиентов, использующих веб-интерфейс KUMA. |
Errors (ошибки) | Количество ошибок, возникших за секунду при отправке уведомлений пользователям. |
Schedulers (планировщики) – метрики, относящиеся к задачам Ядра. | |
Active (активные) | Количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются. |
Latency (задержка) | Время в миллисекундах, затраченное на выполнение задачи. Отображается медиана. |
Errors (ошибки) | Количество ошибок, возникших за секунду при выполнении задач. |
Метрики агента KUMA
Название метрики | Описание |
---|---|
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. | |
Processing EPS (обрабатываемые события в секунду) | Количество событий, обработанных за секунду. |
Output EPS (вывод событий) | Количество событий, отправленных точке назначения за секунду. |
Output Latency (задержка вывода) | Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана. |
Output Errors (ошибки вывода) | Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss (потеря событий) | Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе. |
Output Disk Buffer SIze (размер дискового буфера) | Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно. |
Write Network BPS (байты, принятые в сеть) | Количество байт, принятых в сеть за секунду. |
Метрики EventRouter
Название метрики | Описание |
---|---|
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. | |
Processing EPS (обрабатываемые события в секунду) | Количество событий, обработанных за секунду. |
Output EPS (вывод событий) | Количество событий, отправленных точке назначения за секунду. |
Output Latency (задержка вывода) | Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана. |
Output Errors (ошибки вывода) | Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss (потеря событий) | Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе. |
Output Disk Buffer SIze (размер дискового буфера) | Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно. |
Write Network BPS (байты, принятые в сеть) | Количество байт, принятых в сеть за секунду. |
Connector Errors (ошибки коннектора) | Количество ошибок в журнале коннектора. |
Метрики, общие для всех сервисов
Название метрики | Описание |
---|---|
Process – общие метрики процесса. | |
Memory (память) | Использование RAM (RSS) в мегабайтах. |
DISK BPS (считанные/записанные байты диска) | Количество байтов, считанных/записанных на диск за секунду. |
Network BPS (байты, принятые/переданные по сети) | Количество байтов, принятых/переданных по сети за секунду. |
Network Packet Loss (потеря пакетов) | Количество сетевых пакетов, потерянных за секунду. |
GC Latency (задержка сборщика мусора) | Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана. |
Goroutines (гоурутины) | Количество активных гоурутин. Это число отличается от количества потоков операционной системы. |
OS (ОС) – метрики, относящиеся к операционной системе. | |
Load (нагрузка) | Средняя нагрузка. |
CPU (ЦП) | Загрузка центрального процессора в процентах. |
Memory (память) | Использование RAM (RSS) в процентах. |
Disk (диск) | Использование дискового пространства в процентах. |
Срок хранения метрик
По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.
Чтобы изменить срок хранения метрик KUMA:
- Войдите в ОС сервера, на котором установлено Ядро KUMA.
- В файле /etc/systemd/system/multi-user.target.wants/kuma-victoria-metrics.service в параметре ExecStart измените флаг
--retentionPeriod=<срок хранения метрик в месяцах>
, подставив нужный срок. Например,--retentionPeriod=4
означает, что метрики будут храниться 4 месяца. - Перезапустите KUMA, выполнив последовательно следующие команды:
systemctl daemon-reload
systemctl restart kuma-victoria-metrics
Срок хранения метрик изменен.