Кластерное хранилище в Proxmox. Часть вторая. Запуск

от автора


Здравствуйте!

Это вторая часть статьи о работе c кластерным хранилищем в Proxmox (первую можно найти тут). Сегодня поговорим о подключении хранилища к кластеру.

В качестве кластерной системы мы используем Global File System 2.

GFS2 в Proxmox функциональна, но разработчики Proxmox официально не поддерживают ее. Однако ядро Proxmox основано на RedHat-ядре RHEL6x-ветки. То есть поддержка GFS2 в ядре весьма зрелая. Обвязка тоже ведет себя вполне стабильно, за исключением нескольких нюансов, о которых я расскажу позже. Сам пакет gfs2-utils представляет собой практически не измененную (есть лишь патчи в стартовых скриптах на предмет подгона под дебиановскую специфику) стабильную редхатовскую версию gfs2-utils-3.1.3

Пакет gfs2-utils появился в Proxmox в феврале 2012 года. Родной же дебиановский пакет gfs2-tools дико конфликтует (что неудивительно) со всем RedHat-кластером из Proxmox, поэтому до Proxmox версии 2.0 из коробки GFS2 была совершенно неюзабельна.

Итак, огромным плюсом является то, что фундамент для взведения GFS2 в Proxmox уже выстроен.

В качестве iSCSI-хранилища мы используем HP MSA 2012i. Эта машина представляет собой отказоустойчивое решение, основанное на использовании массива жестких дисков, подключенного к двум независимым raid-контроллерам. Каждый raid-контроллер имеет два интерфейса для передачи данных, в рамках данной статьи это интересно тем, что контроллер не умеет эти интерфейсы объединять. Для загрузки обоих интерфейсов контроллера мы будем использовать multipath. Создание томов я описывать не буду. Тома создаются без какой-либо авторизации (об особенностях авторизованного подключения из Proxmox к iSCSI я расскажу позже).

Порядок действий

Следующие действия производятся на каждой ноде кластера.

Желательно настроить jumbo frames.

Для работы с несколькими сетевыми интерфейсами хранилища настраиваем multipath. Создаем файл /etc/multipath.conf следующего содержания:

blacklist { devnode "cciss" }  defaults { user_friendly_names yes } 

В blacklist попадают блочные устройства, которые должны быть исключены из обработки (локальные диски). В нашем случае это cciss-устройства, представляющие собой тома HP Smart Array контроллера, обслуживаемого модулем ядра cciss.

Параметр "user_friendly_names" позволяет создавать user-friendly устройства в /dev/mapper вида "mpath0-part1".

Устанавливаем недостающие пакеты:

root@pve03:~# apt-get install multipath-tools gfs2-utils open-iscsi parted 

Установленный multipath сразу взлетает и радостно подхватывает конфиг.

Подготавливаем open-iscsi-демон. Нам надо автоматически подключать доступные таргеты при старте системы. Правим файл /etc/iscsi/iscsid.conf. В нем меняем строку:

node.startup = manual 

на

node.startup = automatic 

Настраиваем LVM. Переключаем способ блокировки с файловой на кластерную.

root@pve03:~# lvmconf --enable-cluster 

Разрешаем старт CLVM. Файл /etc/default/clvm:

START_CLVM=yes 

Стартуем CLVM. Если у нас не настроен fenced (см. предыдущую статью), получим ошибку:

root@pve03:~# service clvm start Starting Cluster LVM Daemon: clvmclvmd could not connect to cluster manager Consult syslog for more information  failed! 

CLVM не работает, если наша нода не принадлежит к fence-домену.

Подключаем хранилище к кластеру.

В админке говорим "Добавить iSCSI-target". После этого все ноды кластера должны увидеть несколько (в нашем случае — два) блочных устройств, а multipath должен сделать из них одно, и положить в каталог /dev/mapper.

Убеждаемся, что multipath-устройство /dev/mapper/mpath0 — это нужный нам iSCSI-том.

На одной из машин размечаем хранилище:

root@pve03:~# parted /dev/mapper/mpath0 mkpart cluster01 0% 512G root@pve03:~# parted /dev/mapper/mpath0 mkpart kvm01 512G 100% 

В приведенном примере том разбит на два раздела: один раздел объемом 512G, и второй, занимающий оставшееся место на томе.

Том kvm01 нам понадобится в дальнейшем, когда займемся настройкой хранилища для KVM.

Рестартуем multipath-демон:

root@pve03:~# service multipath-tools restart 

На той же машине создаем две кластерные группы томов:

root@pve03:~# vgcreate -c y CLUSTER01 /dev/mapper/mpath0-part1 root@pve03:~# vgcreate -c y KVM01 /dev/mapper/mpath0-part2 

Параметр "-c" указывает на то, что группа томов — кластерная.

В принципе, можно было создать всего одну группу томов, и держать в ней и разделы для KVM-машин, и GFS2-раздел. Здесь дело вкуса.

В группе CLUSTER01 создаем Logical Volume:

root@pve03:~# lvcreate -n STORAGE -l +100%Free CLUSTER01 

На всех нодах кластера этот Logical Volume должен быть виден:

root@srv-01:~# lvscan   ACTIVE            '/dev/CLUSTER01/STORAGE' [976.56 GiB] inherit   ACTIVE            '/dev/pve/swap' [4.00 GiB] inherit   ACTIVE            '/dev/pve/root' [16.75 GiB] inherit   ACTIVE            '/dev/pve/data' [38.21 GiB] inherit 

Говорим CLVM, какие Volume Groups надо активировать / деактивировать при запуске / остановке:

Файл /etc/default/clvm:

LVM_VGS="CLUSTER01 KVM01" 

Все готово к созданию кластерной файловой системы. Смотрим, какое имя у нашего кластера:

root@srv-01:~# pvecm status | grep "Cluster Name" Cluster Name: alapve root@srv-01:~#  

Имя кластера необходимо указать при создании FS.

На одной из нод кластера форматируем FS:

root@pve03:~# mkfs.gfs2 -t alapve:storage01 -j 3 /dev/mapper/CLUSTER01-STORAGE 

Здесь:

  • "-t alapve:storage01" — имя таблицы блокировок.
    • alapve — имя кластера,
    • storage01 — уникальное название файловой системы.
  • "-j 3" — количество журналов, которые необходимо создать при создании FS. Обычно равно количеству нод в кластере. Для каждого хоста, монтирующего FS, необходим свой журнал.

Смотрим UUID нашей FS:

root@srv-01:~# blkid /dev/CLUSTER01/STORAGE /dev/CLUSTER01/STORAGE: LABEL="alapve:storage01" UUID="8b3f1110-8a30-3f2d-6486-a3728baae57d" TYPE="gfs2"  

На каждой ноде создаем запись в fstab для монтирования FS:

root@srv-01:~# echo "UUID=8b3f1110-8a30-3f2d-6486-a3728baae57d /mnt/cluster/storage01 gfs2 noatime,_netdev 0 0" >> /etc/fstab 

Создаем каталог /mnt/cluster/storage01, монтируем в него FS:

root@srv-01:~# mount /mnt/cluster/storage01 

Здесь есть один момент. В процессе остановки open-iscsi-демона в Proxmox вызывается скрипт /etc/init.d/umountiscsi.sh. Он занимается тем, что отключает примонтированные по iSCSI файловые системы. Для поиска таких систем он использует довольно сложную логику, которая иногда дает сбой, из-за чего происходит попытка отмонтировать больше, чем надо, либо наоборот — не отмонтируется нужное. Например, мы сталкивались с попытками отмонтирования корневой файловой системы. Разумеется, у него это сделать не получалось, после чего OS входила в состояние перманентного ожидания: без остановки iSCSI-таргетов система не может перезагрузиться, а umouniscsi не может отмонтировать все iSCSI-FS из-за того, что причисляет к их списку корень.

Мы не стали глубоко копаться в логике umountiscsi.sh. Было решено, что полагаться на umountiscsi.sh не стоит, примонтированными по iSCSI томами мы будем управлять сами, а роль umountiscsi.sh будет сводиться к бравому рапортированию о том, что "Все системы отмонтированы, мой генерал!".

Итак, в /etc/init.d/umountiscsi.sh меняем секцию "stop". Было:

    stop|"")         do_stop 	;; 

Стало:

    stop|"")         #do_stop         exit 0 	;; 

Теперь система будет складываться правильно. Правда, при одном условии — на момент остановки в системе не должно быть примонтированных по iSCSI файловых систем. Если не хочется отключать FS вручную, то, например, ее можно отмонтировать в /etc/init.d/clvm перед вызовом "stop". К этому моменту все виртуальные машины уже (должны быть) погашены. Мы у себя не надеемся на это, и перед рестартом отмонтируем FS вручную.

Нам осталось только в админке Proxmox создать общее хранилище типа "Directory", указать ему путь к каталогу с подмонтированной FS, и выставить флажок "общедоступно". Все созданные на этом хранилище контейнеры смогут спокойно мигрировать между нодами.

О проблемах

После нескольких месяцев тестирования мы пару раз словили kernel panic в gfs2-модуле. Fencing работает отлично, поэтому сначала мы даже не поняли, что происходит, просто несколько раз перезагрузились ноды. После перехода на новую версию ядра (2.6.32-17-pve) пока зависаний не было.

Перейдем к KVM

Здесь все много проще. Группа томов у нас уже создана, сталось натравить на нее Proxmox. В админке создаем хранилище типа "LVM Group", в поле "основное хранилище" указываем "существующие группы разделов", в поле "группа разделов" выбираем KVM01, и выставляем флажок "общедоступно". Для KVM-машин в этом разделе система будет автоматически создавать логические тома.

Пожалуй, стоит закругляться. В следующей части я расскажу о том, как можно пытаться в OpenVZ жить на сетевом хранилище без кластерной FS, о некоторых нюансах в работе с сетевыми хранилищами, плюс некоторые решения по автоматизации и оптимизации жизни в OpenVZ.

Спасибо за внимание!

ссылка на оригинал статьи http://habrahabr.ru/company/alawar/blog/166919/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *