Хотели бы Вам рассказать о реализованном нашими инженерами проекте по построению оптического кольца высокой доступности между нашими облаками в Москве.
При построении отказоустойчивой системы, способной сохранять управление и работоспособность при повреждении, облачный провайдер должен предъявлять особенно высокие требования к ее топологии. Такая отказоустойчивая система предусматривает соединение двух или более датацентров (ДЦ) и корпоративных сетей при помощи ВОЛС, что позволяет не перевозить компоненты системы хранения из одного места в другое для создания копии данных.
Двумя основными конкурирующими топологиями соединения ДЦ в корпоративные оптические сети являются «звезда» и «кольцо». В случае выхода из строя какого-либо узла (или части кабельной системы) «кольца» работоспособность сети в целом сохраняется. Кроме того, кольцевая топология является избыточной по числу связей, а значит и более дорогой. В свою очередь, «звезда» несколько лучше приспособлена для предоставления обычной для локальной сети централизованной услуги. Действительно, в локальной вычислительной сети (ЛВС) почти всегда есть сервер или маршрутизатор, для доступа к которому обычно и построена сеть. Сравнительные характеристики топологий «кольцо» и «звезда» представлены в таблице.
Сравнение топологий «звезда» и «кольцо»
Обеспечение непрерывной работы информационных систем заказчика, размещенных в облаке, является главной целью, которую должен ставить перед собой облачный хостинг-провайдер, а значит, повышение уровня SLA будет являться основной задачей.
Создание собственного оптического кольца высокой доступности, схема которого представлена на рисунке ниже, позволило нам существенно повысить уровень SLA, который мы гарантируем нашим клиентам.
Оптическое кольцо построено между двумя нашими облаками в Москве, которые физически находятся в ДЦ уровня Tier 3, и узлами коммутации M9 и M10. Расстояние между ДЦ может составлять до 100 км, в нашем случае это около 15 км. Основная особенность кольца – отсутствие единой (критической) точки отказа. Оптические каналы полностью дублированы, причем они прокладываются по разным маршрутам и разными операторами. Благодаря такому решению практически исключается недоступность сервисов в облаке из-за проблем с каналами, т.к. даже в случае выхода из строя одного оптического канала вся работа продолжится по другому контуру и прерывания не будет. Помимо оптических каналов дублируются все коммутаторы и маршрутизаторы, что также обеспечивает автоматическое переключение на рабочий контур в случае выхода из строя одного из маршрутизаторов или коммутаторов. Помимо проблем с каналами, данная схема позволяет исключить ущерб от земляных работ, которые по каким-то причинам проводятся именно там, где лежит ВОЛС.
Общая пропускная способность оптического кольца составляет 180 Гбит/с, из которых 120 Гбит/с – пропускная способность между ДЦ, 20 Гбит/с – между первым ДЦ и узлом коммутации М10, 20 Гбит/с – между узлами коммутации М10 и М9 и 20 Гбит/с – между узлом коммутации М9 и вторым ДЦ. Каждый из маршрутов состоит из физически независимых друг от друга оптоволоконных пар, которые агрегируются в общий канал на корневых маршрутизаторах.
Вся сеть физически разделена на внутреннюю и внешнюю, разные интерфейсы серверов подключены в разные коммутаторы и работают в разных сетях. По внешней сети серверы общаются с Интернетом, по внутренней сети все серверы общаются между собой. Серверы подключены в коммутаторы уровней L2 и L3, которые, в свою очередь, подключены как минимум двумя 10-гигабитными линками к агрегирующему стеку коммутаторов. Каждый линк идет к отдельному коммутатору в стеке.
Оптическое кольцо выполнено на коммутаторах компании «Extreme» серии Summit.
Помимо базовой функциональности, основанной на поддержке стандартных Ethernet технологий, в коммутаторах Summit реализована технология RPR (Resilient Packet Ring). Эта технология позволяет коммутаторам образовывать кольцевую топологию, обеспечивать восстановление работоспособности за время менее 50 мс и эффективно использовать пропускную способность в кольцевых структурах.
Коммутаторы Summit могут иметь до 24 слотов mini-GBIC для установки интерфейсных модулей 1000Base-X, 4 порта 10/100/1000Base-T и 2 слота для установки интерфейсных модулей 10GBase-X (XENPAK). Пропускная способность коммутирующей матрицы — 160 Гбит/с, пропускная способность на L3 — 65 миллионов пакетов/с. В коммутаторах поддерживаются протоколы RIPv1/2, OSPF, BGP-4, PIM-SM, IGMP, различные технологии обеспечения QoS на L1-L4, в т.ч. ограничение полосы пропускания с шагом 64 Кбит/с (1 Мбит/с на каналах 10 Гбит/с), 8 аппаратно обслуживаемых очередей на каждом порту. Предусмотрено резервирование источников питания, подключение внешних источников питания, резервирование банков памяти для хранения конфигурации и образа операционной системы ExtremeWare XOS.
В решении предусмотрена возможность подключения к каждому узлу магистрального кольца по оптическим интерфейсам агрегирующих узлов. К каждому агрегирующему коммутатору по оптическим интерфейсам могут подключаться коммутаторы доступа для подключения пользователей.
Технология RPR базируется на стандартном механизме Ethernet-коммутации второго (канального) уровня, дополненном алгоритмом фирмы RAD Data Communications. Последний позволяет всем узлам кольца получать информацию о состоянии сети и в случае аварии или нештатной ситуации быстро переводить трафик на альтернативный маршрут.
Узел кольца RPR – это сетевое устройство, функционирующее как обычный коммутатор на втором уровне. Каждый узел имеет два магистральных порта для передачи трафика по кольцу, а также порты доступа, через которые трафик вводится в кольцо, и пользовательские порты для доставки трафика конкретных услуг. В штатном режиме все узлы RPR обмениваются специальными служебными сообщениями. Каждый узел через определенные промежутки времени передает сообщение о состоянии канала (link state) через оба своих магистральных порта. Даже если сообщение о состоянии кольца отсутствует, узел должен посылать сообщения «keep-alive», означающее для соседнего узла, что все в порядке. При получении узлом служебного сообщения с указанием того, что его сосед тоже получил такое сообщение, он считает кольцо функционирующим нормально. Канал считается аварийным, когда узел получает соответствующее сообщение или когда узел вообще не получает никаких служебных сообщений в течение 30 мс. В этом случае трафик пускается в обратном направлении в обход аварийного участка. Такой алгоритм позволяет сочетать простоту обычной коммутации с возможностью быстрой перемаршрутизации трафика в случае сбоя.
Результаты:
Таким образом, оптическое кольцо высокой доступности позволяет повысить уровень доступности сервисов в облаке (SLA) до значения 99,99% и выше. Это означает, что появляется уникальная возможность адаптировать уровень SLA облачных сервисов к требованиям отдельных заказчиков и отраслей, что является огромным конкурентным преимуществом. Благодаря адаптируемым SLA у облачных провайдеров появляется способ дифференциации, который выгоден как для них самих, так и для клиентов. Не всем заказчикам нужны одинаково высокие гарантии безотказной работы. Например, для заказчика, который пользуется облаком для тестирования приложений, в большинстве случаев не требуется такой же высокий SLA, как для заказчиков, которые размещают в облаке критически важные системы. Понимание этого факта позволит заказчикам существенно снизить свои расходы на IT, а облачные провайдеры могут предложить клиентам необходимый уровень обслуживания и специальные цены в соответствии с выбранным уровнем SLA.
P.s. Всем хабраюзерам по прежнему предоставляется бесплатный тестовый доступ в наше облако.
ссылка на оригинал статьи http://habrahabr.ru/company/cloud4y/blog/182502/
Добавить комментарий