В AWS описали новое техническое устройство сетевой архитектуры ЦОД, которую внедряют с конца 2024 года. Она базируется на отказоустойчивых сетевых графах (Resilient Network Graphs, RNG) и уже стала стандартом для большинства новых ЦОД AWS по всему миру.

В Amazon отмечают, что традиционная топология Fat-Tree с многоуровневой структурой становится неэффективной. Когда данные передаются только по ограниченному числу сетевых путей, в случае перегрузки увеличивается задержка, а потеря одного маршрутизатора верхнего уровня может разорвать связь для больших сегментов сети под ним. Также архитектура требует сложной кабельной разводки.
В качестве альтернативы Amazon предложила архитектуру RNG, которая увеличивает количество путей передачи между узлами, вдвое сокращает количество сетевых устройств и повышает надёжность соединения. В итоге система может просто перенаправить трафик на один из множества других доступных ей путей.
Кроме того, инженеры AWS описали квазислучайную топологию. Некоторые сегменты в ЦОД проложены и подключены по определённой схеме, в то время как другие объединяются случайным образом, и эта случайность делает сети RNG более гибкими, чем Fat-Tree.
Для поиска среди большого количества доступных сетевых путей оптимального маршрута используется собственный распределённый протокол маршрутизации Spraypoint. Он работает в два этапа. Сначала исходный маршрутизатор распределяет свой исходящий трафик случайным образом между всеми своими ближайшими соседями, а затем для каждого пакета использует классический алгоритм поиска кратчайшего пути для достижения промежуточной точки в виде маршрутизатора, который был предварительно назначен для передачи трафика к определённому пункту назначения. Промежуточные точки перенаправляют пакеты в ряд «концентрических колец» вокруг пункта назначения, а каждое кольцо передаёт трафик внутрь к следующему, пока он не достигнет цели.

Такое сочетание случайного начального распределения и структурированной сходимости Spraypoint даёт почти вдвое больше независимых путей между любыми двумя маршрутизаторами, сохраняет низкую вычислительную сложность и требует мало памяти.

При этом участки с перегрузкой в одной части можно автоматически обойти без явных решений о перемаршрутизации. Одновременно случайность конфигураций оптоволоконных кабелей RNG затрудняет эффективное управление ими. AWS разработала пассивные сетевые устройства ShuffleBox, которые физически соединяют различные оптоволоконные кабели. Они имеют порты, обращённые к маршрутизаторам, и соединяется с другими ShuffleBox. Внутренние оптические каналы, перемешанные по определённой схеме, и случайные соединения между ShuffleBox формирует общую топологию сети, которая является квазислучайной на макроуровне, без необходимости прокладки отдельных кабелей.
По данным Amazon, по сравнению с архитектурами типа Fat-Tree, RNG использует на 69% меньше маршрутизаторов и обеспечивает до 33% большую пропускную способность, сокращает энергопотребление сети на 40% и снижает затраты на инфраструктуру на 9–45%.
Первую такую сеть запустили в конце 2024 года в Ирландии. Теперь она уже используется в ряде ЦОД в Ирландии, Германии и Испании.
Между тем компания Molex представила многоканальные шины питания с жидкостным охлаждением, предназначенные для ЦОД с интенсивными рабочими нагрузками в области ИИ. Разработчик внедряет жидкостное охлаждение на слой распределения питания, поддерживая токи до 15 000 ампер, а в стратегической дорожной карте развития указывается параметр до 25 000 ампер.
ссылка на оригинал статьи https://habr.com/ru/articles/1044742/