14 вопросов, которые могут задать на любом техническом собеседовании инженера ЦОД

от автора

Пока что концепция «ЦОД без людей» еще не достигла уровня устойчивого решения «в продакшене». А значит, перед компаниями, которые имеют мощности в дата-центрах, все еще стоит задача по найму специалистов в штат компании. 

Независимо от количества стоек и объема финансового оборота, любой провайдер заинтересован в определенной квалификации своих сотрудников. Безусловно, на многих позициях не нужны кадры с высокой квалификацией, вроде CISO или системного архитектора с опытом работы 20 лет. Однако это не означает, что можно набирать людей «с улицы» или с нерелевантным опытом работы.  

Для решения этой задачи за тысячи лет эволюции человечество придумало такую штуку как собеседование. На интервью работодатель должен убедиться, что кандидат соответствует позиции. Но вот загвоздка — чтобы магия сработала, необходимо задавать соискателю правильные вопросы. В статье мы рассмотрим 14 фундаментальных вопросов, которые могут задать на собеседовании, и предоставим развернутые ответы, помогающие кандидатам эффективно подготовиться.

Для начала – кто вообще работает в ЦОДе?

Эта часть может выступать как справочный материал для читателя (для расширения кругозора), так и как первый вопрос для кандидата. Этот вопрос поможет оценить общее понимание построения ЦОДа и насколько человек «в теме». Концептуально, для обслуживания любого дата-центра необходимы специалисты следующих технических профилей: 

  • Инженер по эксплуатации/инженер ЦОД

Обязанности:

– Установка, подключение и обслуживание серверов и сетевого оборудования в дата-центре (их аппаратной части).

– Мониторинг и оптимизация работы серверов и сетей (контроль температуры, энергопотребления, устранение неполадок «железа».

– Монтаж, демонтаж, изменение конфигурации серверного оборудования в ЦОД.

– Прокладка СКС внутри ЦОД, коммутация оборудования, маркировка.

– Ведение учета оборудования и запчастей, проведение инвентаризации.

– Сопровождение работ подрядчиков.

  • Системный администратор

    Обязанности: 

Скрытый текст

– Настройка и обслуживание серверов и СХД (софтверной части).

– Мониторинг и оптимизация работы серверов (опять же, в части софта).

– Резервное копирование данных и обеспечение восстановления.

  • Сетевой инженер

    Обязанности: 

Скрытый текст

–  Проектирование сетевой архитектуры.

–  Настройка и обслуживание сетевого оборудования (L2 и L3-коммутаторов, маршрутизаторов).

– Мониторинг сетевой инфраструктуры.

– Управление доменными именами.

– Составление IP-планов.

  • Инженер по кибербезопасности

    Обязанности:

Скрытый текст

– Реагирование на инциденты.

– Составление и внедрение политик безопасности.

– Внедрение и поддержка IDS/IPS, межсетевых экранов. 

– Мониторинг журналов. 

– Управление уязвимостями.

– Администрирование антивируса/EDR.

– Разработка и внедрение методов шифрования данных.

– Аудит безопасности систем (опционально – пентест).

– В широком смысле – защита информации от несанкционированного доступа.

  • Инженер по охлаждению и вентиляции

    Обязанности: 

Скрытый текст

– Обслуживание систем охлаждения в дата-центре.

– Планирование и установка «холодных/горячих коридоров».

– Мониторинг температуры, давления, влажности воздуха.

  • Инженер по электропитанию

    Обязанности:

Скрытый текст

– Обслуживание систем электроснабжения (профилактические осмотры, техническое обслуживание).

– Участие в разработке и модернизации системы электроснабжения.

– Установка, настройка и обслуживание ДГУ, ИБП, АВР.

– Выявление причин сбоев или аварий электрооборудования.

Описанное выше — примерный список. От различных факторов, например, количества стоек, бизнес-модели компании, характерного для ДЦ трафика, зависит, какие именно специалисты будут работать в ЦОДе, и как будут распределять обязанности между собой.

Так, во многих не очень больших дата-центрах нет выделенной позиции специалиста по кибербезопасности, а его обязанности либо делят между собой сисадмин и сетевой инженер, либо выполняет штатный специалист по ИБ в компании. Если в дата-центре преобладает внутренний трафик (Запад-Восток) — скорее всего, будет много серверов, виртуальных машин, контейнеров. И значит, нужно больше системных инженеров/администраторов. Если для ЦОДа характерен внешний трафик (Север-Юг) — вероятно, это больше про VPN, межЦОД трафик, облака на продажу, хостинг. В этом случае требуется больше сетевых инженеров и специалистов по кибербезопасности.

Но вернемся от общего к частному. Ниже перейдем к практическим вопросам, с которыми сталкивается инженер ЦОДа в работе. 

Вопросы для инженера ЦОДа

Если вернуться в предыдущий раздел статьи и сравнить обязанности инженеров по эксплуатации с обязанностями их коллег, то становится ясно, что эта позиция самая простая из представленных. Инженер ЦОДа в большинстве случаев не сфокусирован на администрировании или разработке чего-либо. Ему не обязательно знать Linux, иметь навыки работы с Cisco IOS или писать правила корреляции в SIEM. Да, иногда в обязанности инженеров дата-центра включают первичную настройку оборудования, но обычно это сравнительно несложная работа дежурного типа, которая в большинстве случаев рутинна и выполняется по регламенту. 

Но поскольку дата-центр работает круглосуточно, смена инженеров всегда присутствует на объекте и следит за состоянием всех систем. Это означает, что в случае возникновения каких-либо проблем смена выступит первой линией во взаимодействии с клиентами или своими коллегами (которые, как правило, работают на стандартной пятидневке). Они соберут первичную информацию по проблеме и сделают первые звонки, чтобы уведомить коллег. Поэтому, помимо отличного знания своих непосредственных обязанностей, инженеру желательно понимать принципы функционирования сетей, работу в командной строке, базовые знания основных принципов построения и организации вычислительных центров, технику безопасности при работе с электричеством. 

Зачем? В случае аварии в нерабочее время, пока профильные специалисты выползут из кроватей и приступят к решению проблемы, требуется собрать первичную информацию об инциденте: где и что сломалось, есть ли резервирование на этот случай, какие клиенты задеты и так далее. Как минимум дежурной смене надо понять характер инцидента, чтобы осчастливить ночным звонком нужного специалиста, а не всех сразу. 

 Так что, помимо вопросов касательно непосредственных обязанностей, для работодателя целесообразно включить в план интервью вопросы и по этим темам, а для кандидата — к ним подготовиться. 

Список вопросов

Вопросы разбиты на два блока: простой и посложнее. Вопросы из второго блока выходят за рамки базовых ежедневных операций и необходимых для этого знаний, но, на мой взгляд, опытный специалист без труда даст ответ на них. 

Блок 1. Вопросы, касающиеся непосредственных обязанностей.

  1. Вопрос: Какие шаги вы предпримете перед установкой нового сервера в дата-центре?

Возможные ответы включают: планирование сетевого подключения, проверку совместимости с существующей инфраструктурой, создание документации, обеспечение необходимых условий (питание, охлаждение, место в стойке).

Конкретный пример ответа: Перед установкой нового сервера в дата-центре я сначала уделяю внимание планированию. Надо определить, каковы требования к серверу, учитывая его будущую нагрузку и окружение. Если имеется в наличии план размещения и подключения новой машины — отлично, я обращусь к нему. Затем я оцениваю существующую инфраструктуру: проверяю, достаточно ли мощностей и места, чтобы сервер мог работать без ошибок. После этого я подготавливаю сам сервер, устанавливаю необходимые аппаратные компоненты (если требуется): сетевые карты, процессоры, диски и так далее. Инсталлирую операционную систему, настраиваю, подключаю сервер к сети и менеджменту. В завершение я документирую все изменения и интегрирую сервер в существующую систему управления, чтобы обеспечить его надежную работу в будущем.

  1. Вопрос: Как бы вы подошли к маркировке серверного и сетевого оборудования в ЦОД?

Ответ может включать: использование стандартных методов маркировки, использование уникальных идентификаторов и меток, сведения, которые необходимо указывать в маркировке для быстрой идентификации элементов СКС, использование специального оборудования (термопринтеры, сканеры штрих-кодов).

Конкретный пример ответа: Я бы разработал четкую систему, которая включает уникальные идентификаторы для каждого устройства, чтобы избежать путаницы. Например, я бы использовал код, который бы включал информацию о типе оборудования, его местоположении и назначении, по типу SW-A01-20. SW — это свитч, А01 — его стойка, 20 — юнит. Также нужны яркие и устойчивые этикетки, размещенные в хорошо видимых местах. Все это нужно стандартизировать, обозначения записать, а все изменения отражать в отдельной базе данных. 

Пример маркировки сетевого кабеля. В верхней секции указывается, куда идет кабель: номер стойки, юнит, номер сервера, номер порта. В нижней секции указывается все то же самое для оборудования на другом конце кабеля. 

Пример маркировки сетевого кабеля. В верхней секции указывается, куда идет кабель: номер стойки, юнит, номер сервера, номер порта. В нижней секции указывается все то же самое для оборудования на другом конце кабеля. 
  1. Вопрос: Какие инструменты и методы вы бы использовали для мониторинга и оптимизации работы серверов в дата-центре?

Ответ может включать упоминание систем мониторинга состояния серверов, использование инструментов анализа производительности, мониторинга температуры у систем охлаждения, в холодных и горячих коридорах, нагрузки серверов.

Конкретный пример ответа: Я бы применял системы мониторинга типа Prometheus или Zabbix, которые позволяют отслеживать производительность серверов в реальном времени. Для анализа производительности я также использовал бы инструменты, такие как Grafana, чтобы визуализировать данные и выявлять узкие места. В качестве средства резервного копирования можно использовать Акронис КиберБэкап или что-то подобное.

  1. Вопрос: Сервер имеет порт подключения RJ-45 и сетевую карту в 1000 Мбит/с. Клиент заказал этот сервер в качестве BMS. По SLA мы гарантируем пропускную способность в 1000 Мбит/с. Кабель Ethernet каких категорий допустимо использовать, чтобы обеспечить соблюдение SLA?

Ответ: Кабель категории 5e или выше может использоваться, чтобы обеспечить соблюдение SLA и гарантировать пропускную способность в 1000 Мбит/с.

  1. Вопрос: Наш ЦОД имеет резервирование по электричеству 2N. В стойке клиента, который заказал услугу колокейшн, установлено два блока серверных розеток (PDU), от двух независимых лучей электроснабжения. Однако клиент хочет установить в стойку оборудование, имеющее только один блок питания. Какие варианты решения проблемы следует порекомендовать ему для повышения отказоустойчивости?

Ответ: Целесообразно использовать оборудование автоматического ввода резерва (АВР), пересмотреть выбор оборудования в пользу систем с двумя БП, использовать источник бесперебойного питания (UPS) с возможностью подключения к серверному оборудованию.

АВР для серверной стойки. Он подключается к двум лучам электроснабжения, и к нескольким серверам в стойке. В случае отключения питания на одном проводе АВР автоматически переключит нагрузку на другой. Изображение: plcontroller.ru

АВР для серверной стойки. Он подключается к двум лучам электроснабжения, и к нескольким серверам в стойке. В случае отключения питания на одном проводе АВР автоматически переключит нагрузку на другой. Изображение: plcontroller.ru
  1. Вопрос: Какая распиновка патч-корда 8P8C используется наиболее широко в настоящее время?

Ответ: Бело-оранжевый, оранжевый, бело-зеленый, голубой, бело-голубой, зеленый, бело-коричневый, коричневый.

  1. Вопрос: Требуется провести плановые работы в инфраструктуре, которые потенциально могут вызвать отключение части «боевых» стоек. Какие минимум 5 шагов следует предпринять, чтобы свести к минимуму возможность простоя, потерю данных и отключение сервисов?

Ответ: Требуется провести: 

а) Предварительное информирование. Уведомить всех клиентов или отделы компании, чьи услуги могут быть затронуты плановыми работами, заранее о проведении работ и возможном временном отключении их услуг.

б) Резервное копирование данных. Выполнить бэкап всех важных данных перед проведением работ, чтобы минимизировать риск потери.

в) Планирование времени работ.  Проводить работы во время низкой активности, чтобы минимизировать воздействие на сервисы.

г) Резервные системы. По возможности, использовать резервные системы, чтобы обеспечить непрерывную работу сервисов.

д) Тестирование. Предварительно протестировать все системы по процедурам восстановления после окончания работ, чтобы убедиться в их работоспособности.

  1. Вопрос: Как можно вести учет оборудования, чтобы свести к минимуму вероятность утери или кражи, учитывая его высокую цену?

Ответ: Можно внедрить систему учета (если еще не внедрена) с присвоением уникальных инвентарных номеров каждой единице, как только она приходит на склад. Номера должны быть сведены в базу, в которую надо вносить изменения при движении оборудования: поступило на склад, используется в оборудовании, заменено, списано, выведено из эксплуатации. Проводить периодическую инвентаризацию.

  1. Вопрос: Какие правила для клиентов должны соблюдаться в зале ЦОДа, помимо общепринятых правил поведения?

Ответ: При входе в машинный зал необходимо снимать верхнюю одежду, пользоваться сменной обувью или бахилами для исключения попадания грязи и пыли, использовать беруши или противошумовые наушники, исключить пронос в зал картонных коробок и других легковоспламеняющихся материалов. 

Блок 2. Вопросы по непрофильным службам.

Знание архитектуры дата-центра, возможных точек отказа, способность понимать планы аварийного восстановления

  1. Вопрос: Какие основные методы для обеспечения высокой отказоустойчивости в дата-центре вы знаете?

Ответ: использование репликации данных, в т.ч. другие дата-центры, резервирование питания и сети, использование кластеризации.

Навыки администрирования сетей

  1. Вопрос: Какая команда используется для отображения таблицы маршрутизации в командной строке Windows? А в Linux? А в маршрутизаторах Cisco?

Ответ: route print для Windows, route -n  или netstat -r для bash, show ip route для Cisco IOS.

Навыки траблшутинга в ЦОД, знание инфраструктуры энергоснабжения

  1. Вопрос: Клиенты сообщают о недоступности своих сервисов. Вы знаете, что серверы с этими сервисами размещены в стойке 10. Вы смотрите в мониторинг и видите, что на этой стойке в данный момент нулевое потребление электричества, однако мониторинг также сообщает вам, что электрощит, распределяющий нагрузку на эту стойку, работает штатно. Также исправны другие запитанные от этого щита стойки. Последние данные мониторинга с этой стойки свидетельствуют о скачке напряжения, затем данные перестали поступать. Какова наиболее вероятная причина неполадок?

Ответ: Вероятно, на блоке розеток в стойке выбило автомат. Требуется проверить исправность оборудования, отсутствие повреждений на силовых кабелях и включить выбитый автомат. Также следует эскалировать инцидент до начальства и профильных служб. 

Знания в области сетевой безопасности, умение применять защитные меры

  1. Вопрос: Какие виды атак на сетевую безопасность вы знаете? Какие меры безопасности можно применить для защиты сети?

Ответ:  DDoS-атаки, переполнение буфера, отравление DNS, ARP-спуфинг, IP-спуфинг, VLAN-hopping, Man-in-the-Middle. Меры безопасности могут включать использование МЭ, виртуальных частных сетей, систем обнаружения вторжений, контроль соответствия «MAC-адрес — сетевой порт»  и защиту конечных точек от вредоносных программ, также возможно использование шифрования.

Знания в области безопасности и управлении доступом

  1. Вопрос: что предпочтительнее с точки зрения безопасности при подключении через SSH — пароль или SSH-ключи?

Ответ: SSH-ключи лучше, так как обеспечивают более высокий уровень безопасности. Подключение по SSH с помощью ключа исключает риск подбора пароля.

Заключение

В представленной статье приведено 14 вопросов, которые могут быть использованы при технических собеседованиях на позицию инженера ЦОД. Эти вопросы являются примерным набором и могут служить отправной точкой как для компании —  для разработки собственного банка вопросов, так и для кандидата — для начала подготовки к собеседованию. 

Второй блок вопросов может быть сложноват для соискателя. Однако успешный ответ на парочку из них может быть сигналом для работодателя дать «зеленый свет».

На момент написания статьи на hh.ru количество вакансий в Москве на позицию инженера ЦОД — 313. Так что спрос есть. Я считаю, что инженер ЦОДа — отличная позиция для старта карьеры в айти. Понимание о работе дата-центра изнутри лично мне не один раз пригодилось в дальнейшем. Желаю удачи всем коллегам! 

Что еще почитать:

Какие кабели можно встретить в стойке дата-центра? — 12 минут

7 шагов по организации пространства в серверной стойке — 13 минут

Иммерсионное охлаждение в ЦОД — аргументы «за» и «против» — 9 минут


НЛО прилетело и оставило здесь промокод для читателей нашего блога:
— 15% на заказ любого VDS (кроме тарифа Прогрев) — HABRFIRSTVDS.


ссылка на оригинал статьи https://habr.com/ru/articles/858184/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *