Хранилище
Хранилище KUMA используется для хранения нормализованных событий таким образом, чтобы к ним обеспечивался быстрый и бесперебойный доступ из KUMA с целью извлечения аналитических данных. Скорость и бесперебойность доступа обеспечивается за счет использования технологии ClickHouse. Таким образом хранилище – это кластер ClickHouse, связанный с сервисом хранилища KUMA.
Компоненты хранилища: кластеры, шарды, реплики, киперы
Кластер ClickHouse (cluster) – логическая группа машин, обладающих всеми накопленными нормализованными событиями KUMA. Подразумевает наличие одного или нескольких логических шардов.
Шард (shard) – логическая группа машин, обладающих некоторой частью всех накопленных в кластере нормализованных событий. Подразумевает наличие одной или нескольких реплик. Увеличение количества шардов позволяет:
- Накапливать больше событий за счет увеличения общего количества серверов и дискового пространства.
- Поглощать больший поток событий за счет распределения нагрузки, связанной со вставкой новых событий.
- Уменьшить время поиска событий за счет распределения поисковых зон между несколькими машинами.
Реплика (replica) – машина, являющаяся членом логического шарда и обладающая одной копией данных этого шарда. Если реплик несколько – копий тоже несколько (данные реплицируются). Увеличение количества реплик позволяет:
- Улучшить отказоустойчивость.
- Распределить общую нагрузку, связанную с поиском данных, между несколькими машинами (однако для этой цели лучше увеличить количество шардов).
Кипер (keeper) – машина, участвующая в координации репликации данных на уровне всего кластера. На весь кластер требуется хотя бы одна машина с этой ролью. Рекомендуемое количество машин с такой ролью – 3. Число машин, участвующих в координации репликации, должно быть нечетным. Роль кипера и реплики можно совмещать.
При выборе конфигурации кластера ClickHouse учитывайте требования вашей организации к хранению событий. Дополнительные сведения см. в документации ClickHouse.
В хранилищах можно создавать пространства. Пространства позволяют организовать в кластере структуру данных и, например, хранить события определенного типа вместе.
В начало