Зачем Redis Cluster?

Redis Cluster решает две ключевые задачи: масштабирование данных горизонтально (шардинг) и автоматическую замену мастера при сбое узла. Кластер распределяет 16384 hash-слота между мастерами и обеспечивает доступность через реплики и автоматический failover. В конце вы получите рабочий кластер Redis с распределёнными слотами, мониторингом и планом миграции для увеличения объёма хранимых данных до ~1TB с учётом репликации и overhead. Время выполнения базовой установки на 6 нод — 2–3 часа; полная настройка мониторинга и тестов — 4–8 часов.

Как избежать split brain?

Split brain возникает, когда кластер теряет сетевую связность между частями узлов и начинается независимая работа фракций. Redis Cluster использует простую модель quorum: при обнаружении мастера offline реплики голосуют за промоушен. Основные меры предосторожности: Поддерживайте нечетное количество мастеров (3, 5, 7) для корректного голосования. Увеличьте cluster-node-timeout до 15000–30000 мс при нестабильной сети, но не слишком высоко, чтобы не увеличивать время обнаружения сбоя. Используйте надежную сеть с минимальной задержкой между нодами и отдельные VLAN для cluster bus. Включите мониторинг partition и alerting при «cluster_state:fail». # Проверка конфигурации, предотвращающей split brain redis-cli -p 7000 CONFIG GET cluster-node-timeout # Установить значение redis-cli -p 7000 CONFIG SET cluster-node-timeout 20000 Ожидаемый вывод: 1) "cluster-node-timeout" 2) "20000" Типичная ошибка: ERR Changing 'cluster-node-timeout' requires restart Как исправить: - Перезапустите ноду...

Как правильно выбрать число мастеров для Redis Cluster?

Выбор числа мастеров зависит от объёма данных и скорости доступного network I/O. Для 1TB полезной памяти при replication-factor=1 логика такова: если узлы по 128GB полезной памяти на мастер, потребуется примерно 8 мастеров (8 × 128GB = 1TB). Рекомендуется не менее 3 мастеров для обеспечения quorum и оптимально 5 или 7 для продакшена в распределённой среде. Учтите overhead на фрагментацию и резерв (рекомендуется резерв 15–25%). Всегда тестируйте на реплицированной среде и рассчитывайте сетевые потребности: NVMe SSD и 10Gbps сетевые интерфейсы часто необходимы для крупных кластеров в 2025–2026 годах.

Что делать, если при reshard операции наблюдается сильная нагрузка?

Если reshard вызывает высокую задержку, примените стратегию поэтапного перемещения слотов: уменьшите размер пакетов (например, по 500 слотов), назначьте меньший throttle на операцию и выполняйте пересылку вне пиковых нагрузок. Используйте мониторинг redis_exporter и Prometheus для контроля latency и queue. В случае критической нагрузки стоит переключить часть трафика на дополнительные реплики или временно снизить скорость записей с приложений, чтобы завершить пересылку безопасно.

Почему cluster-require-full-coverage влияет на доступность?

Параметр cluster-require-full-coverage (по умолчанию yes) заставляет кластер отвергать запросы, если есть слоты без владельца. Это предотвращает неконсистентные записи, но может сделать сервис недоступным при частичном отключении мастера. В аварийных сценариях можно временно установить его в no, чтобы обеспечить доступ к части данных, но это увеличивает риск расхождения данных и требует ручной синхронизации после восстановления. Решение зависит от SLA и допустимости частичных ответов.

Чем лучше мигрировать данные: redis-cli или redis-shake?

Для простых операций внутри одного кластера (изменение количества мастеров в рамках одного кластера) достаточно redis-cli --cluster reshard. Для миграции между кластерами или при необходимости минимального downtime и преобразования типов удобнее использовать redis-shake (версия 2.x и выше в 2025) — он поддерживает онлайн-репликацию, контроль RPS и перезапись ключей. redis-shake требует настройки и тестирования, но даёт гибкость при сложных сценариях миграции. Дополнительные материалы по установке и CI/CD инфраструктуре для баз данных доступны в разделах DevOps и Databases на сайте. Для подробных примеров конфигураций systemd и практик резервного копирования смотрите публикации в разделе DevOps.

Redis Cluster: масштабирование до 1TB

# Пример топологии (6 мастеров, 6 реплик) — всего 12 нод
# IP:PORT формат
10.0.0.1:7000  # master A
10.0.0.2:7000  # master B
10.0.0.3:7000  # master C
10.0.0.4:7000  # master D
10.0.0.5:7000  # master E
10.0.0.6:7000  # master F
10.0.0.7:7001  # replica A
10.0.0.8:7001  # replica B
10.0.0.9:7001  # replica C
10.0.0.10:7001 # replica D
10.0.0.11:7001 # replica E
10.0.0.12:7001 # replica F

Ожидаемый вывод команды планирования:
# список нод и ролей (пример)
10.0.0.1:7000 master - 5461 slots
10.0.0.2:7000 master - 5461 slots
10.0.0.3:7000 master - 5462 slots
# replicas привязаны к мастерам
10.0.0.7:7001 replica of 10.0.0.1:7000

Типичная ошибка:
# Ошибка при планировании: недостаточно нод для требуемого количества мастеров
Ошибка: "Not enough nodes to create cluster with X masters"

Как исправить:
- Добавьте больше узлов и пересчитайте слоты.
- Убедитесь, что все ноды доступны по сети и порты не блокируются фаерволом.

# Установка на Ubuntu 22.04 (пример, 2025)
sudo apt-get update && sudo apt-get install -y build-essential tcl
wget http://download.redis.io/releases/redis-7.2.3.tar.gz
tar xzf redis-7.2.3.tar.gz && cd redis-7.2.3
make -j4
sudo make install

# Пример /etc/redis/7000.conf
port 7000
cluster-enabled yes
cluster-config-file nodes-7000.conf
cluster-node-timeout 15000
appendonly yes
dir /var/lib/redis/7000
logfile /var/log/redis-7000.log
protected-mode no
bind 0.0.0.0
tcp-backlog 511
# Настройка maxmemory для node
maxmemory 32gb
maxmemory-policy volatile-lru

# systemd unit (пример)
[Unit]
Description=Redis In-Memory Data Store (7000)
After=network.target

[Service]
User=redis
Group=redis
ExecStart=/usr/local/bin/redis-server /etc/redis/7000.conf --supervised systemd
ExecStop=/usr/local/bin/redis-cli -p 7000 shutdown
Restart=always

[Install]
WantedBy=multi-user.target

Ожидаемый вывод при старте:
$ sudo systemctl start redis@7000
$ sudo systemctl status redis@7000
● redis@7000.service - Redis In-Memory Data Store (7000)
   Active: active (running) since Wed 2026-05-12 12:34:56 UTC; 2s ago

Типичная ошибка:
Ошибка: "Address already in use" или "Port 7000 already in use"

Как исправить:
- Проверьте, не запущен ли старый экземпляр: sudo ss -ltnp | grep 7000
- Остановите конфликтующий процесс или измените порт в конфигурации.

# Создание кластера из 6 мастеров и 6 реплик (пример команды, 2026)
redis-cli --cluster create \
  10.0.0.1:7000 10.0.0.2:7000 10.0.0.3:7000 \
  10.0.0.4:7000 10.0.0.5:7000 10.0.0.6:7000 \
  10.0.0.7:7001 10.0.0.8:7001 10.0.0.9:7001 \
  10.0.0.10:7001 10.0.0.11:7001 10.0.0.12:7001 \
  --cluster-replicas 1 --cluster-yes

Ожидаемый вывод при успешном создании (сокращённо):
>>> Performing hash slots allocation on 6 nodes...
[OK] All 16384 slots covered.
>>> Adding replica 10.0.0.7:7001 to 10.0.0.1:7000
[OK] All nodes configured correctly.
>>> Cluster created successfully

Тестирование failover (принудительное):
# На реплике выполнить принудительный failover
redis-cli -p 7001 CLUSTER FAILOVER FORCE

Ожидаемый вывод:
OK

Типичная ошибка:
ERR Node is not a replica

Как исправить:
- Убедитесь, что нода действительно является репликой: redis-cli -p 7001 INFO replication
- Если реплика синхронизирована, подождите завершения синхронизации или переключите роли вручную с помощью redis-cli --cluster reshard.

# Запуск redis_exporter (Docker)
docker run -d --name redis-exporter -p 9121:9121 \
  -e REDIS_ADDR=redis://10.0.0.1:7000 \
  oliver006/redis_exporter:v1.46.0

# Проверка метрик
curl -s http://localhost:9121/metrics | head -n 20

Ожидаемый вывод (фрагмент):
# HELP redis_up Whether Redis is up (1 = yes, 0 = no)
# TYPE redis_up gauge
redis_up 1
# HELP redis_commands_total Total number of commands processed
redis_commands_total 1234567

Типичная ошибка:
curl: (7) Failed to connect to localhost port 9121: Connection refused

Как исправить:
- Проверьте, что контейнер запущен: docker ps | grep redis-exporter
- Убедитесь, что REDIS_ADDR указывает на доступную ноду кластера и порт открыт.

# Добавление новой ноды в существующий кластер
redis-cli --cluster add-node 10.0.1.1:7000 10.0.0.1:7000

Ожидаемый вывод:
>>> Node 10.0.1.1:7000 added correctly as a new node.

# Онлайн-reshard (пример, перенос 2048 слотов)
redis-cli --cluster reshard 10.0.0.1:7000 --cluster-from \
  --cluster-to --cluster-slots 2048 --cluster-yes

Ожидаемый вывод:
>>> Moving 2048 slots
[OK] Finished resharding

Типичная ошибка:
ERR Slot x is busy or served by another node

Как исправить:
- Проверьте состояние кластера: redis-cli -p 7000 CLUSTER INFO
- Убедитесь, что нет активных операций reshard на тех же слотах.
- Если проблема повторяется, разбейте reshard на меньшие пакеты.

# Проверка конфигурации, предотвращающей split brain
redis-cli -p 7000 CONFIG GET cluster-node-timeout
# Установить значение
redis-cli -p 7000 CONFIG SET cluster-node-timeout 20000

Ожидаемый вывод:
1) "cluster-node-timeout"
2) "20000"

Типичная ошибка:
ERR Changing 'cluster-node-timeout' requires restart

Как исправить:
- Перезапустите ноду после изменения в конфиге: sudo systemctl restart redis@7000
- Планируйте перезапуск вне пикового времени или последовательно по нодам.

# Пример reshard с интерактивным подтверждением (перенос 4096 слотов)
redis-cli --cluster reshard 10.0.0.1:7000

# В интерактивном режиме укажите:
# How many slots do you want to move (from 0 to 16384)? 4096
# Source node(s) (ip:port, ip:port, ...): 10.0.0.2:7000
# Target node: 10.0.1.1:7000

Ожидаемый вывод:
>>> Moving 4096 slots from 10.0.0.2:7000 to 10.0.1.1:7000
[OK] SLOTS MOVED: 4096

Типичная ошибка:
ERR There are keys in slot which are still being served by other nodes

Как исправить:
- Запустите reshard с опцией --cluster-yes после остановки параллельных операций записи.
- Используйте онлайн-инструменты (redis-shake) для последовательной миграции ключей с конверсией типов и контролем RPS.

Redis Cluster: масштабирование до 1TB | KtoHto

Redis Cluster: масштабирование до 1TB

Что вы изучите

Требования

Зачем Redis Cluster?

Комментарии (0)

Шаг 1: topology и sharding

Шаг 2: настройка нод

Шаг 3: failover

Шаг 4: мониторинг и метрики

Шаг 5: масштабирование до 1TB