День из жизни новоприбывшего сервера: как мы проверяем и восстанавливаем железо

от автора

image alt text

В этой статье хочу немного рассказать о внутренней кухне Сервер Молл и о том, как происходит тестирование и восстановление серверов. Постараюсь наглядно показать отличие обыкновенного "б/у" сервера от Refurbished и расскажу о процессе превращения немного “уставшего” железа в практически новое.

Для изучения дивного внутреннего мира отдела предпродажной подготовки Сервер Молл я пообщался с одним из инженеров, который поделился профессиональной смекалкой и опытом. Андрей как раз занимался новоприбывшим IBM System X 3650 M4, так что экскурсия получилась с практическим уклоном.

Допустим, вы решили продать сервер

Сделать это может не только организация, но и физическое лицо, обратившись в Сервер Молл (СМ) за оценкой. На Хабре уже была подробная статья о процессе покупки, поэтому расскажу о том, что происходит дальше.

По полученным в ходе телефонной беседы сведениям специалисты принимают решение о целесообразности покупки, обычно положительное. Все же, приобретение какого-нибудь ProLiant второго поколения вряд ли окажется полезным, поэтому первичная оценка перспектив железа довольно важна. Если все хорошо, то специально обученный экспедитор приезжает к продавцу, проводит визуальный осмотр сервера, проверяет явные ошибки в работе и забирает железо с собой. Покупка серверов проводится компанией по всей России.

image alt text

Осмотр позволяет примерно оценить затраты на восстановление сервера: тот же крупный скол на корпусе запросто может быть вызван падением, с последующим возникновением плавающих ошибок из-за микротрещин в текстолите материнской платы. Серверы роняют вообще не часто, но зато очень метко. Сам был свидетелем перевозки тройки машин DL380 в багажнике седана, из которого одну из железок неловко извлекли. Визуально у сервера лишь отвалилось ухо и помялся уголок, но при старте мы получили ошибки по системе охлаждения и периодические перезагрузки.

Еще при осмотре сервер включают, смотрят на индикаторы самодиагностики и ошибки консоли. Если ничего критичного, то совершается сделка и машина передается далее по инстанциям.

Вся описываемая далее последовательность проверок появилась не на пустом месте – под спойлером немного сведений об MTBF и тяготах их добычи.

Изначально, наши инженеры поинтересовались статистикой наработки на отказ основных узлов, чтобы не бороться с тем, что нужно просто заменить. Основным показателем надежности считается MTBF (Mean Time Between Failures), то есть время, в течение которого не будет сбоев. Для каждого компонента цифра разная, и официальных данных обо всех компонентах так просто не получить.

Но для ориентира можно использовать отчеты некоторых OEM производителей, чье железо используется в любом брендовом сервере. Например, у SSD intel 520, MTBF составляет 1 200 000 часов. Разумеется, это не значит, что диск проработает 136 лет, так как эта характеристика статистическая и выводится при тестировании большой партии. Удобнее для понимания показатель AFR (Annual Failure Rate), выводимый из MTBF по формуле AFR = 1-exp(-8760/MTBF).

Для нашего примера вероятность сбоя диска SSD в первый год составит приблизительно 0.007, т.е 0,7%. Для менее точного расчета используют формулу 8760/MTBF. Уже написано довольно много статей на тему расчета этого показателя, так что любопытствующие могут обратиться к опубликованным материалам.

Серверное ТО

Все новоприбывшие серверы проходят обязательный цикл тестирования и очистки. Кроме того, восстанавливаются серьезные физические дефекты, вроде погнутых монтажных "ушей".

Совсем косметические вещи, вроде царапин на металле и потертостей, остаются как есть. К слову, металл серверных систем покрыт на заводе специальным антистатическим лаком, восстановить который не так просто. Состав самого вещества точно не известен – почти как приправа в KFC, – поэтому приносим эстетику в жертву защите от статики.

image alt text

При повреждении так называемых «ушей», за которые сервер удобно выдвигать из стойки, их обычно меняют на новые. В случае с пластиковыми деталями HP они просто меняются на новые, как и петли блоков питания. Монтажные салазки просто заказываются заново. При значительных повреждениях самого корпуса (глубокие и сложные вмятины, например), он просто в сборе меняется на новый.

Повреждений металлических креплений IBM за весь опыт инженеров Сервер Молл не встречалось ни разу. Видимо, широко известная "неубиваемость" систем этого производителя проявляется даже в мелочах.

К слову, время наработки на отказ для корпуса довольно велико.

Например, вот пример данных по MTBF одного из производителей:

  • Показатель самого корпуса составляет 5 000 000 часов;

  • Дисковая корзина и IMPI-модули отработают 700 000 часов;

  • Светодиоды рассчитаны на 2 000 000 часов.

Однажды поступил запрос на продажу сервера, который охлаждался табачным дымом несколько лет. Он просто стоял в серверной, забор воздуха в которую производился из соседней курилки. Ароматы продуктов горения табакосодержащей продукции ощущались уже на подходе к пациенту. Модель была актуальной, поэтому решили рискнуть. Вы когда-нибудь отмывали ровный слой табачной смолы? А инженеры Сервер Молл отмывали – один даже курить бросил. Правда, железо в продажу все же не пошло и использовалось для внутренних нужд.

После осмотра инженер снимает крышку корпуса и запускает машину, чтобы послушать звуковой фон вентиляторов, блоков питания и дисков. Некоторые кулеры не выдают никаких ошибок в систему диагностики, но их звук не оставляет никакой веры в дальнейшее будущее подшипников. Такие кулеры просто меняем на новые. Показатель MTBF для систем охлаждения Intel составляет всего 100 000 часов, поэтому замена вентиляторов на новые – обычное явление.

image alt text

Не менее популярный звук – писк конденсаторов системы питания, которая также о последнего светится зеленым в мониторинге. В относительно свежих серверах используются блоки питания с твердотельными конденсаторами, но модели с электролитическими элементами все еще актуальны и поэтому требуют внимательной диагностики.

Время наработки на отказ современных блоков питания может составлять 967 300 часов, если верить данным OEM-производителя Intel. В случае свистов и подозрений на неполадки весь БП меняется на новый, потому что любые работы по пайке нецелесообразны экономически и чреваты для будущего покупателя.

Свето-цифровая диагностика

Большинство современных серверов оснащены системами самодиагностики. Это могут быть LED-индикаторы на передней панели, отдельные модули с перечнем и статусом всех компонентов, просто указатель на наличие какой-либо ошибки. В любом случае, серьезные проблемы с компонентами видны сразу.

Небольшой экскурс в базовую диагностику на примере решений IBM, HP и Dell.

  • Вариант от IBM называется Light Path и представляет собой выдвижную панель с индикаторами и пояснениями;

image alt text

  • Dell в большинстве серверов использует LCD-панель для базовой настройки и отображения ошибок с кратким описанием;

image alt text

Встречаются и упрощенные индикаторы:

image alt text

  • HPE предлагает самодиагностику Systems Insight Display LED, панель которой похожа на вариант IBM.

image alt text

После беглого взгляда на индикаторы начинается долгая программная проверка с использованием штатных диагностических инструментов:

Все эти программы запускаются локально или при помощи средств IMM, DRAC, iLO. Если диагностика не "вшита" в управляющий контроллер сервера, то просто загружаемся с фирменного диагностического диска от производителя. Полная диагностика занимает 2 – 3 часа и находит большинство проблем с памятью, процессором, диагностическим контроллером, вентиляторами, блоками питания и дисковыми контроллерами. Жесткие диски в процессе не участвуют, так как при продаже практически всегда ставятся новые.

Традиционно слабым местом системных плат являлись электролитические конденсаторы. Они вздувались, перегревались, взрывались и приводили к полной неработоспособности. При максимальном температурном режиме MTTF таких элементов составлял до 8 000 часов, что чревато внеплановым ремонтом уже через пару лет эксплуатации. Поэтому в современных серверных системах используются твердотельные конденсаторы, которых хватит на несколько "жизней" сервера. Общий MTBF материнской платы на примере Intel S1200V3RPM это подтверждает и составляет 371 523 часа.

image alt text

После вдумчивой проверки сервер полностью разбирается до состояния "голый корпус и комплектующие на столе", после чего все компоненты тщательно чистятся и промываются спиртом. Спирт не вредит токопроводящим дорожкам, элементной базе и лаку материнской платы, а потому широко используется для придания платам первозданного вида. Во избежание накладных расходов и в качестве меры борьбы с пьянством, спирт используется изопропиловый.

image alt text

Пристальное внимание уделяется разъемам материнской платы. В частности, инженер рассматривает через увеличительное стекло сокет процессора на предмет загнутых пинов, ведь даже одна испорченная ножка может вызвать самые непредсказуемые последствия. Не остаются без внимания слоты PCI и оперативной памяти, проверяются линки сетевых портов. В качестве "вишенки на торт" меняем батарейку BIOS, на всякий случай.

image alt text

После купания сервер передают на склад, где со всех комплектующих считываются штрих-коды для внутренней складской базы. Потом железо ждет на полке своего покупателя вместе с логами тестирования и гарантийным листом, куда занесены серийные номера всех комплектующих.

И вот пришел заказ именно на этот сервер

Редко когда заказчик выбирает конфигурацию "как есть" и не хочет ничего добавить. Поэтому заказанное железо доукомплектовывают новыми дисками, процессорами, блоками питания определенной мощности, памятью и необходимыми контроллерами. После этого сервер снова передают инженерам по тестированию для предпродажной проверки.

Из инструментов используется встроенное диагностическое ПО производителя сервера и пара утилит с внешнего диска. Предпродажная проверка занимает около десяти часов и проводится в стрессовом режиме:

  • Процессоры и память работают на максимуме своих возможностей;

  • Блоки питания отдают всю мощность, даже если их несколько;

  • Под нагрузкой выявляется большинство бракованных жестких дисков;

  • Вся элементная база сервера работает так, как вряд ли будет работать в повседневной эксплуатации.

image alt text

На этом этапе, кстати, обнаруживаются "тонкие" изъяны блоков питания. Так что одной их проверкой на свист в Сервер Молл не ограничиваются. На этом же этапе возможна безусловная замена блока питания на новый, если заказчик решил приобрести сервер с одним блоком питания, несмотря на перспективы использования отказоустойчивых вариантов.

Новые жесткие диски не тестируются только тогда, когда заказчик по своим соображениям просит прислать их не распакованными.

Для полноценной проверки всех сетевых интерфейсов машина грузится с внешнего диска в специально подготовленной среде на базе Windows 2012R2. Сервер подключается к локальной сети и инженер последовательно запускает копирование одного большого файла и множества мелких. Если потери пакетов превышает 1% – сетевая карта подлежит диагностике и замене.

С помощью Memtest дополнительно тестируется память на всех системах, кроме IBM. Дело в том, что проверки Memtest на машинах IBM практически всегда находят несуществующие ошибки на одном из слотов. Такая вот техническая особенность.

image alt text

При сбое любого из компонентов сервера все тестирование начинается заново, что позволяет избежать возможных проблем с совместимостью замененных комплектующих.

Один раз всплыла любопытная проблема с контроллером RAID в сервере Dell: все тесты были пройдены успешно, но после перезагрузки BIOS начал показывать ошибки уже довольно редкого контроллера H710. Из-за поисков равноценной замены отгрузку сервера пришлось задержать на один день, который был компенсирован заменой на более современный адаптер H330 с вдвое большей пропускной способностью.

Итого, на каждый сервер уходит около 16 часов:

  • 2 – 3 часа первичное тестирование;

  • 3 часа на чистку и купание;

  • 10 часов отнимает предпродажное тестирование.

В комплекте с прошедшим все испытания железом покупатель получает флеш-накопитель с журналом тестирования, инструкцию к серверу, полезные ссылки и оффлайн-версию статьи о распространенных ошибках именно этого производителя.

image alt text

Отдельного упоминания заслуживает подготовка сервера к отправке. Упаковка разработана самостоятельно и, по отзывам, превосходит качеством оригинальную. Сервер запаивают в пленку с силикагелем (поглотителем влаги), оборачивают вспененным полиэтиленом, упаковывают в прочный картон и отправляют заказчику.

Вместо заключения

На восстановленные вышеописанным образом машины Сервер Молл дает собственную гарантию 3 года. Причем, в стандартный набор услуг входит как замена отказавших компонентов в течении пары дней, так и полная замена всего сервера при критических неполадках. Подробнее о гарантийной поддержке и ее отличиях от фирменных предложений HP, IBM и Dell вы можете узнать в одной из прошлых статей.

К слову, за время существования компании полная замена потребовалась только один раз. Глюк оказался невоспроизводимым и в присутствии инженеров Сервер Молл все работало как часы. Вот она, админская аура в действии!

ссылка на оригинал статьи https://habrahabr.ru/post/313172/