Kaspersky Unified Monitoring and Analysis Platform

Просмотр метрик KUMA

05 апреля 2024

ID 218035

Полная информация о рабочих характеристиках Ядра, коллекторов, корреляторов и хранилищ KUMA доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра KUMA. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.

Логин и пароль Grafana по умолчанию: admin и admin.

Доступные показатели метрик

Показатели коллекторов:

  • IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
    • Processing EPS (Обрабатываемые события в секунду) – количество обрабатываемых событий в секунду.
    • Processing Latency (Время обработки события) – время, необходимое для обработки одного события (отображается медиана).
    • Output EPS (Вывод событий) – количество событий, отправляемых в точку назначения за секунду.
    • Output Latency (Задержка вывода) – время, необходимое для отправки пакета событий в пункт назначения и получения от него ответа (отображается медиана).
    • Output Errors (Ошибки вывода) – количество ошибок при отправке пакетов событий в пункт назначения в секунду. Сетевые ошибки и ошибки записи в дисковый буфер отображаются отдельно.
    • Output Event Loss (Потеря событий) – количество потерянных событий в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер. События также теряются, если место назначения ответило кодом ошибки (например, если запрос был недействительным).
  • Normalization (Нормализация) – показатели, относящиеся к нормализаторам.
    • Raw & Normalized event size (Размер сырых и нормализованных событий) – размер необработанного события и размер нормализованного события (отображается медиана).
    • Errors (Ошибки) – количество ошибок нормализации в секунду.
  • Filtration (Фильтрация) – показатели, относящиеся к фильтрам.
    • EPS (События, обрабатываемые в секунду) – количество событий, отклоняемых Коллектором за секунду. Коллектор отклоняет события только в том случае, если пользователь добавил фильтр в конфигурацию сервиса коллектора.
  • Aggregation (Агрегация) – показатели, относящиеся к правилам агрегации.
    • EPS (События, обрабатываемые в секунду) – количество событий, полученных и созданных правилом агрегации за секунду. Этот показатель помогает определить эффективность правил агрегации.
    • Buckets (Контейнеры) – количество контейнеров в правиле агрегации.
  • Enrichment (Обогащение) – показатели, относящиеся к правилам обогащения.
    • Cache RPS (Запросы к кешу в секунду) – количество запросов к локальному кешу в секунду.
    • Source RPS (Запросы к источнику в секунду) – количество запросов к источнику обогащения (например, к словарю).
    • Source Latency (Задержка источника) – время, необходимое для отправки запроса к источнику обогащения и получения от него ответа (отображается медиана).
    • Queue (Очередь) – размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.
    • Errors (Ошибки) – количество ошибок запроса источника обогащения в секунду.

Показатели корреляторов

  • IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
    • Processing EPS (Обрабатываемые события в секунду) – количество обрабатываемых событий в секунду.
    • Processing Latency (Время обработки события) – время, необходимое для обработки одного события (отображается медиана).
    • Output EPS (Вывод событий) – количество событий, отправляемых в точку назначения за секунду.
    • Output Latency (Задержка вывода) – время, необходимое для отправки пакета событий в пункт назначения и получения от него ответа (отображается медиана).
    • Output Errors (Ошибки вывода) – количество ошибок при отправке пакетов событий в пункт назначения в секунду. Сетевые ошибки и ошибки записи в дисковый буфер отображаются отдельно.
    • Output Event Loss (Потеря событий) – количество потерянных событий в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер. События также теряются, если место назначения ответило кодом ошибки (например, если запрос был недействительным).
  • Correlation (Корреляция) – показатели, относящиеся к правилам корреляции.
    • EPS (События, обрабатываемые в секунду) – количество корреляционных событий, создаваемых за секунду.
    • Buckets (Контейнеры) – количество контейнеров в правиле корреляции (только для правил корреляции стандартного типа).
  • Active Lists (Активные листы) – показатели, относящиеся к активным листам.
    • RPS (Запросы в секунду) – количество запросов (и их тип) к активному листу в секунду.
    • Records (Записи) – количество записей в активном листе.
    • WAL Size (Размер журнала Write-Ahead-Log) – размер журнала упреждающей записи. Эта метрика помогает определить размер активного листа.

Показатели хранилища

  • IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
    • RPS (Запросы в секунду) – количество запросов к Хранилищу в секунду.
    • Latency (Задержка) – время проксирования одного запроса к узлу ClickHouse (отображается медиана).

Показатели Ядра

  • IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
    • RPS (Запросы в секунду) – количество запросов к Ядру в секунду.
    • Latency (Задержка) – время обработки одного запроса (отображается медиана).
    • Errors (Ошибки) – количество ошибок запросов в секунду.
  • Notification Feed (Фид уведомлений) – показатели, относящиеся к активности пользователей.
    • Subscriptions (Подписки) – количество клиентов, подключенных к Ядру через SSE для получения сообщений сервера в реальном времени. Это число обычно коррелирует с количеством клиентов, использующих веб-интерфейс KUMA.
    • Errors (Ошибки) – количество ошибок отправки сообщений в секунду.
  • Schedulers (Планировщики) – показатели, относящиеся к задачам Ядра.
    • Active (Активные) – количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются.
    • Latency (Задержка) – время обработки одного запроса (отображается медиана).
    • Position (Позиция) – позиция (отметка времени) задачи создания алерта. Следующее сканирование ClickHouse на предмет корреляционных событий начнется с этой позиции.
    • Errors (Ошибки) – количество ошибок задач в секунду.

Метрики, общие для всех сервисов

  • Process (Процесс) – общие метрики процесса.
    • CPU (ЦП) – загрузка ЦП.
    • Memory (Память) – использование RAM (RSS).
    • DISK IOPS (Операции чтения/записи диска) – количество операций чтения / записи на диск в секунду.
    • DISK BPS (Считанные/записанные байты диска) – количество байтов, считываемых / записываемых на диск в секунду.
    • Network BPS (Байты, принятые/переданные по сети) – количество байтов, полученных / отправленных в секунду.
    • Network Packet Loss (Потеря пакетов) – количество сетевых пакетов, потерянных в секунду.
    • GC Latency (Задержка сборщика мусора) – время цикла сборщика мусора GO (Garbage Collector), отображается медиана.
    • Goroutines (Гоурутины) – количество активных гоурутин. Это число отличается от количества потоков.
  • OS (ОС) – показатели, относящиеся к операционной системе.
    • Load (Нагрузка) – средняя нагрузка.
    • CPU (ЦП) – загрузка ЦП.
    • Memory (Память) – использование RAM (RSS).
    • Disk (Диск) – использование дискового пространства.

Срок хранения метрик

По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.

Чтобы изменить срок хранения метрик KUMA:

  1. Войдите в ОС сервера, на котором установлено Ядро KUMA.
  2. В файле /etc/systemd/system/multi-user.target.wants/kuma-victoria-metrics.service в параметре ExecStart измените флаг --retentionPeriod=<срок хранения метрик в месяцах>, подставив нужный срок. Например, --retentionPeriod=4 означает, что метрики будут храниться 4 месяца.
  3. Перезапустите KUMA, выполнив последовательно следующие команды:
    1. systemctl daemon-reload
    2. systemctl restart kuma-victoria-metrics

Срок хранения метрик изменен.

Вам помогла эта статья?
Что нам нужно улучшить?
Спасибо за ваш отзыв, вы помогаете нам становиться лучше!
Спасибо за ваш отзыв, вы помогаете нам становиться лучше!