Автоматическое восстановление после сбоев в режиме supervised¶

В Tarantool DB поддерживается механизм автоматического восстановления после сбоев (supervised failover], который позволяет контролировать назначение лидера в наборе реплик с помощью внешнего координатора отказоустойчивости. Лидер – экземпляр в наборе реплик, доступный для записи данных. Остальные узлы в наборе реплик принимают только запросы на чтение. Если в какой-то момент экземпляр лидера станет недоступен, вместо него будет выбран и назначен новый лидер из набора реплик.

Запускаемый пример с координатором отказоустойчивости можно найти в разделе Использование координаторов отказоустойчивости.

Подробная информация об отказоустойчивой архитектуре и поддерживаемых режимах работы приведена в документации Tarantool.

Внешний координатор отказоустойчивости¶

Внешние координаторы отказоустойчивости – это отдельные экземпляры Tarantool DB. Поскольку на таких экземплярах не исполняется клиентский код, работу координаторов ничего не тормозит. Координатор читает конфигурацию кластера из файла или из централизованного хранилища конфигурации на основе etcd или Tarantool, опрашивает экземпляры об их состоянии, а затем назначает лидера для каждого набора реплик в зависимости от доступности и здоровья узлов. Для повышения отказоустойчивости вы можете запустить два узла-координатора или более. В этом случае кластер хранилища конфигурации обеспечивает синхронизацию между такими узлами. Если координаторов несколько, для управления лидерством в наборе реплик используется только один из них – такой координатор называется активным. Активным координатором считается узел, захвативший блокировку во внешнем поставщике состояния.

Примечание

Рекомендуемое количество узлов-координаторов на один кластер – 2–3 экземпляра (по числу центров обработки данных).

Использование координатора для кластера выглядит так:

Настройте кластер для работы с внешним координатором. Для этого задайте в опции replication.failover значение supervised для всех наборов реплик, которые нужно отслеживать через внешний координатор.
Запустите настроенный кластер. Когда внешний координатор еще не запущен, экземпляры в наборах реплик запускаются в следующих режимах:
- если набор реплик уже настроен (bootstrapped), все экземпляры запускаются в режиме только для чтения;
- если набор реплик не настроен (bootstrapped), один экземпляр запускается в режиме, доступном для записи.
Запустите координатор отказоустойчивости. Для повышения отказоустойчивости вы можете запустить два узла-координатора или более. В этом случае один координатор будет активным, а остальные – пассивными.
Когда кластер и координаторы запущены, координатор назначает один экземпляр в качестве лидера, если в наборе реплик еще его нет.
Если лидер станет недоступен, координатор выполнит автоматическое переключение лидера на резервный экземпляр. Если станет недоступен активный координатор, вместо него активным станет новый координатор.

Внешний поставщик состояния¶

Tarantool DB использует внешний поставщик состояния (stateboard) для отслеживания состояния координаторов. Поддерживается два типа поставщика состояния:

удаленное хранилище на основе etcd;
хранилище конфигурации на основе Tarantool (Tarantool-based configuration storage, далее — TBCS).

В режиме supervised тип поставщика состояния выбирается автоматически на основе предоставленной конфигурации. Указанные поставщики состояния используют те же настройки подключения, что и централизованное хранилище конфигурации etcd или TBCS. Если конфигурация кластера хранится в etcd или TBCS по ключу <prefix>/config/*, то координатор хранит свое состояние по ключу <prefix>/failover/*. Вот несколько примеров ключей, используемых для различных целей:

<prefix>/failover/info/by-uuid/<uuid>: состояния координатора по заданному UUID;
<prefix>/failover/active/lock: уникальный идентификатор (UUID) активного узла-координатора;
<prefix>/failover/active/term: тип fencing-токена. Позволяет задать порядок, в котором координаторы становятся активными (захватывают блокировку) с течением времени;
<prefix>/failover/command/<id>: ключ, использующийся для выполнения ручного восстановления после сбоев (режим manual).

Назначение нового лидера¶

После назначения лидера узел-координатор опрашивает все экземпляры в наборе реплик об их состоянии, отправляя запросы каждые probe_interval секунд. Экземпляр, доступный для записи, берёт лидерство только на время. При этом координатор отслеживает крайний срок для режима чтения и записи, который обновляется каждые renew_interval секунд. Это время известно всем другим узлам, и ни один другой экземпляр не может стать лидером, пока не истечёт это время с запасом на разницу во времени на узлах. Если все попытки обновить крайний срок в течение указанного интервала времени (lease_interval) терпят неудачу, лидер переходит в режим только для чтения. Затем координатор назначает лидером новый экземпляр.

Синхронная репликация для топологии с двумя ЦОД¶

Начиная с версии Tarantool DataBase 3.1.0 в режиме восстановления после сбоев supervised добавлена поддержка синхронной репликации в спейсах для топологии с хранилищами данных в двух центрах обработки данных (ЦОД).

До версии Tarantool DataBase 3.1.0 координатор отказоустойчивости поддерживал синхронную репликацию для топологий только с тремя и более ЦОД. Если в наборе реплик было N экземпляров, минимальный размер кворума мог составлять N/2 + 1. Топологии с двумя ЦОД не поддерживались, поскольку размер кворума было невозможно динамически уменьшить при потере связи с одним из ЦОД. В минимальном наборе реплик из двух узлов размер кворума по умолчанию равен 2 (рассчитывается как 2/2 + 1 = 2). Если один из узлов вышел из строя, новые транзакции не могут пройти коммит из-за невозможности получить подтверждение от второго экземпляра. Новые транзакции при этом будут утеряны.

Начиная с версии Tarantool DataBase 3.1.0 поддерживается синхронная репликация для топологий с хранилищами данных, расположенными в двух ЦОД. При потере связи со вторым ЦОД координатор отказоустойчивости автоматически уменьшает размер кворума и восстанавливает работоспособность кластера в пределах доступного ЦОД. Когда связь со вторым ЦОД восстановлена, координатор отказоустойчивости автоматически возвращает нормальный размер кворума. Транзакции при этом не теряются.

При этом существуют следующие ограничения: хотя хранилища данных могут быть развернуты всего в двух ЦОД, требуется еще один так называемый кворумный ЦОД для дополнительного хранилища конфигурации на основе etcd или Tarantool. Таким образом, эффективная топология, также известная как топология 2,5 ЦОДа, подразумевает в общей сложности три ЦОД: два центра обработки данных с полным набором компонентов (хранилища данных, роутеры, хранилища конфигурации) и ЦОД с хранилищем конфигурации.

Ниже приведены сценарии, в которых топология с хранилищами данных, развернутыми в двух ЦОД, может выйти из строя. При других сценариях кластер продолжит работать.

Сценарий 1: прерывание обогащения данных после сбоя ЦОД

ЦОД #1 выходит из строя, ЦОД #2 при этом работает. Координатор отказоустойчивости уменьшает размер кворума до 1. Кластер продолжает обслуживать клиентов.
ЦОД #1 запускается и начинает получать недостающие данные с ЦОД #2. Размер кворума по-прежнему равен 1.
Процесс обогащения данных для ЦОД #1 все еще продолжается, но ЦОД #2 отключается. В этом случае кластер становится недоступен.

Сценарий 2: нет множественного уменьшения кворума

Отключается ЦОД #1 (2 узла), ЦОД #2 (2 узла) при этом работает.
Один из двух экземпляров в ЦОД #2 отключается. В этом случае кластер также становится недоступным.

Сценарий 3: оба ЦОД отключаются – крайний случай, когда кластер становится недоступен.

Версия:

Автоматическое восстановление после сбоев в режиме supervised¶

Внешний координатор отказоустойчивости¶

Внешний поставщик состояния¶

Назначение нового лидера¶

Синхронная репликация для топологии с двумя ЦОД¶