Kaspersky Unified Monitoring and Analysis Platform
Содержание
Устранение ошибок при обновлении
При обновлении KUMA вы можете столкнуться со следующими ошибками:
- Ошибка по таймауту
При обновлении c версии 2.0.x на системах, которые содержат большие данные и при этом работают на предельных ресурсах, после того, как вы введете пароль администратора, система может вернуть сообщение об ошибке Wrong admin password. Если вы указываете верный пароль, KUMA может все равно возвращать ошибку, потому что из-за предельных ресурсов и ошибки по таймауту KUMA не удалось запустить сервис Ядра. Если вы введете пароль администратора трижды, не дожидаясь завершения установки, обновление может завершиться фатальной ошибкой.
Выполните следующие шаги, чтобы устранить ошибку по таймауту и успешно завершить обновление:
- Откройте отдельный второй терминал и запустите следующую команду, чтобы убедиться, что вывод команды содержит строку с сообщением об ошибке таймауту:
journalctl -u kuma-core | grep 'start operation timed out'
Сообщение об ошибке по таймауту:
kuma-core.service: start operation timed out. Terminating.
- После того, как вы нашли сообщение об ошибке по таймауту, в файле сервиса /usr/lib/systemd/system/kuma-core.service измените значение параметра
TimeoutSec
с 300 на 0, чтобы снять ограничения по времени ожидания и временно исключить возможность повторного появления ошибки. - После изменения файла сервиса последовательно выполните следующие команды:
systemctl daemon-reload
service kuma-core restart
- После выполнения команд и успешного запуска сервиса во втором терминале еще раз введите пароль администратора в исходном первом терминале, где установщик запрашивает пароль.
KUMA продолжит установку. В условиях предельных ресурсов установка может занять до часа.
- После успешного завершения установки верните параметр
TimeoutSec
к значению 300 в файле /usr/lib/systemd/system/kuma-core.service. - После изменения файла сервиса выполните следующие команды во втором терминале:
systemctl daemon-reload
service kuma-core restart
После выполнения команд обновление будет успешно выполнено.
- Откройте отдельный второй терминал и запустите следующую команду, чтобы убедиться, что вывод команды содержит строку с сообщением об ошибке таймауту:
- Неверный пароль администратора
Пароль к пользователю admin нужен для автоматического заполнения параметров хранилища при обновлении. Если при выполнении задачи TASK [Prompt for admin password] вы указали неверный пароль к пользователю admin девять раз, установщик все равно выполнит обновление и веб-интерфейс будет доступен, но настройки хранилища не мигрируют и хранилища будут в красном статусе.
Чтобы устранить ошибку и сделать хранилища вновь доступными для работы, обновите настройки хранилища:
- Перейдите в настройки хранилища, вручную заполните поля кластера ClickHouse и нажмите Сохранить.
- Перезапустите сервис хранилища.
Сервис хранилища будет запущен с заданными параметрами и будет в зеленом статусе.
- Ошибка DB::Exception
После обновления KUMA хранилище может быть в красном статусе, а в его журналах могут отображаться ошибки о подозрительных строках.
Пример ошибки:
DB::Exception::Exception(std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char>> const&, int, bool) @ 0xda0553a in /opt/kaspersky/kuma/clickhouse/bin/clickhouse
Чтобы перезапустить ClickHouse, выполните следующую команду на сервере хранилища KUMA:
touch /opt/kaspersky/kuma/clickhouse/data/flags/force_restore_data && systemctl restart kuma-storage-<
идентификатор хранилища, в котором обнаружена ошибка
>
- Истечение срока действия сертификатов кластера k0s
Симптомы
Невозможно подключение контроллеров или рабочих узлов, перенос подов с одного рабочего узла на другой.
В журналах сервисов k0scontroller и k0sworker появляются множественные записи со следующей подстрокой:
x509: certificate has expired or is not yet valid
Причина
Срок действия служебных сертификатов кластера при создании - 1 год. Используемый в отказустойчивой установке KUMA кластер k0s обеспечивает автоматическую ротацию всех необходимых ему служебных сертификатов, но ротация производится только при запуске сервиса k0scontroller. Если службы k0scontroller на контроллерах кластера работают без перезапуска больше 1 года, то служебные сертификаты становятся недействительными.
Способ исправления
Чтобы исправить ошибку, поочередно перезапустите сервисы k0scontroller с правами root на каждом контроллере кластера - сертификаты будут перевыпущены:
systemctl restart k0scontroller
Чтобы проверить сроки действия сертификатов на контроллерах, выполните следующие команды с правами root:
find /var/lib/k0s/pki/ -type f -name "*.crt" -print|egrep -v 'ca.crt$'|xargs -L 1 -t -i bash -c 'openssl x509 -noout -text -in {}|grep After'
find /var/lib/k0s/pki/etcd -type f -name "*.crt" -print|egrep -v 'ca.crt$'|xargs -L 1 -t -i bash -c 'openssl x509 -noout -text -in {}|grep After'
Команды выведут названия файлов сертификатов и сроки их действия.
Устраните ошибки, чтобы успешно завершить обновление.
В начало