Мониторинг напряжения в ЦОД Физтеха: шесть лет, полет нормальный

от автора

История ЦОД Физтеха начинается с 2007 года, когда в подвале корпуса прикладной математики установили кластер МФТИ-60, содержащий восемь стоек. Интересно, что он даже попал в TOP500 суперкомпьютеров в момент запуска. Кластер содержал 272 2-ядерных процессора Xeon 5160, то есть 544 ядра. Производительность в Linpack составила 4,53 TFlop/s.

В высокопроизводительных вычислениях оборудование устаревает стремительно и лет через 5 кластер стал неактуален. Решили на его базе создать небольшой ЦОД, добавили десяток стоек, ИБП помощнее, усилили охлаждение. В итоге ЦОД вырос до 18 стоек, мощность системы электропитания и охлаждения увеличилась до 160 кВт.

В ЦОДе установили систему мониторинга на основе контроллеров Delta, которая собирает информацию по емкости аккумуляторных батарей, температуре и влажности в ЦОД. Но мониторинга энергопотребления по стойкам не предусмотрели, поэтому было непонятно, какие стойки нагружены полностью, а какие недогружены по мощности. В случае перегрузки сложно понять, какая стойка виновата.

Контроллер Wiren Board 6 в щите

Контроллер Wiren Board 6 в щите
Скрытый текст
Счетчик WB-MAP12 в щите

Счетчик WB-MAP12 в щите
Щит со счетчиками WB-MAP12, модулями дискретных входов WBIO-DI-DR-16

Щит со счетчиками WB-MAP12, модулями дискретных входов WBIO-DI-DR-16
Модули дискретных входов WBIO-DI-DR-16

Модули дискретных входов WBIO-DI-DR-16
Счетчики WB-MAP12 крупным планом

Счетчики WB-MAP12 крупным планом
Разъемные трансформаторы крупным планом

Разъемные трансформаторы крупным планом
Системы NVIDIA DGX-1 в ЦОД

Системы NVIDIA DGX-1 в ЦОД
Теперь у каждой стойки есть мониторинг энергопотребления

Теперь у каждой стойки есть мониторинг энергопотребления
Стойка с серверами хранения данных

Стойка с серверами хранения данных

В 2018 году решили добавить решение, с помощью которого можно было бы в реальном времени отслеживать энергопотребление каждой стойки, причем система мониторинга не должна каким-либо образом влиять на работу ЦОД, в том числе это касалось и установки системы — выключать ЦОД нельзя.

В итоге выбрали контроллер Wiren Board, к нему добавили модули WB-MAP12H. В каждой стойке установлены два трехфазных блока розеток, с помощью разъемных трансформаторов модули WB-MAP12H теперь считывают параметры питания. Также добавили мониторинг питания чиллеров.

Еще одна задача — мониторинг состояния автоматических выключателей: на них установлены дополнительные контакты, которые подключили к модулям WBIO-DI-DR-16. Теперь видно, какие АВ включены, какие выключены вручную, а какие отключились аварийно.

В результате администратор видит потребляемую мощность каждой стойки в реальном времени. Когда приходит новый сервер, его устанавливают в одну из недогруженных стоек в зависимости от расчетной мощности.

Щиты в интерфейсе Wiren Board

Щиты в интерфейсе Wiren Board
Скрытый текст
Стойки в интерфейсе Wiren Board

Стойки в интерфейсе Wiren Board
Список устройств в интерфейсе Wiren Board

Список устройств в интерфейсе Wiren Board
Стойки в интерфейсе Wiren Board

Стойки в интерфейсе Wiren Board

Заключение

Когда в 2018 году устанавливали оборудование Wiren Board, то были сомнения по поводу надежности. Все же производитель молодой, опыт на рынке небольшой, примеров готовых решений с многолетней эксплуатацией не было. Но рабочие характеристики контроллеров и модулей соответствовали требованиям ЦОД Физтеха, поэтому выбор сделали.

К счастью, опасения не оправдались. Контроллеры Wiren Board 6 перегружали только при выполнении регламентных работ, в остальном они работали стабильно. Данные энергопотребления стоек ни разу не терялись, администраторы получали к ним доступ в любое время суток. Сбоев за шесть лет зафиксировано не было. Инженеры ЦОД даже шутят, что и забыли, где установили оборудование Wiren Board.

Решение мониторинга, вроде бы, и простое, но значительно облегчает жизнь администраторам ЦОД. А что вы думаете о подобном решении? Пишите в комментариях.


ссылка на оригинал статьи https://habr.com/ru/articles/844422/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *