Как стать SRE-инженером и сколько можно зарабатывать

Когда сервис падает на 20 минут в час пик, компания теряет репутацию и деньги — иногда десятки миллионов рублей. Поэтому SRE — одна из самых высокооплачиваемых инженерных специализаций в IT, причём высокие зарплаты здесь начинаются уже у джунов.

В статье разберём, кто такой инженер по доступности сервисов, чем он занимается, сколько можно зарабатывать и где этому учиться.

Кто такой SRE-инженер

SRE (Site Reliability Engineering) — подход к обеспечению надёжности систем, который придумали в Google в начале 2000-х. Его автор, инженер Бен Трейнор, описал SRE как «то, что происходит, когда вы просите software-инженера выполнять операционную работу». SRE-инженер — это разработчик, который применяет инженерные практики к задачам эксплуатации систем.

SRE-инженер отвечает за то, чтобы сервисы компании работали стабильно, быстро и предсказуемо — даже при огромной нагрузке, частых релизах и неизбежных сбоях оборудования. При этом он также пишет код, который автоматизирует надёжность.

Чем занимается SRE-инженер

Определяет и отслеживает SLO

SLO (Service Level Objective) — конкретная, измеримая цель надёжности. Например: «99,9% запросов должны обрабатываться быстрее 200 мс». SRE-инженер определяет эти цели вместе с бизнесом, встраивает их измерение в систему мониторинга и следит за их соблюдением.

Управляет error budget

Error budget — это допустимый объём «ненадёжности» за период. Если SLO составляет 99,9%, то 0,1% времени система может не соответствовать требованиям — это и есть бюджет. SRE-команда использует его как инструмент принятия решений: если бюджет израсходован, релизы замораживаются, пока надёжность не восстановится.

Расследует инциденты

Когда что-то падает, SRE-инженер устраняет инцидент, а после восстановления проводит постмортем: разбор причин без поиска виноватых, с фокусом на системные улучшения, которые предотвратят повторение проблемы.

Автоматизирует рутину

Один из главных принципов SRE — toil reduction: если операцию приходится выполнять руками больше двух раз, её нужно автоматизировать. SRE-инженеры пишут скрипты, инструменты и сервисы, которые убирают ручную рутину из работы команды эксплуатации.

Настраивает капасити-планирование и масштабирование

SRE прогнозирует, сколько ресурсов потребуется системе в будущем — перед крупными событиями (распродажи, релизы, пиковые сезоны) и в долгосрочной перспективе. Настраивает автомасштабирование, проводит нагрузочное тестирование.

Управляет релизами

SRE часто отвечает за безопасные стратегии выката: канареечные релизы, blue-green деплои, постепенное увеличение трафика на новую версию с автоматическим откатом при проблемах.

Сколько зарабатывают SRE-инженеры

По данным зарплатного калькулятора Хабр Карьеры, медианная зарплата SRE-инженера — 320 тысяч рублей. Причём уже джуны в среднем получают 178 тысяч, а мидлы — 253 тысячи.

Заработок сеньоров ещё выше — в среднем это 420 тысяч. Лиды получают около 527 тысяч, а потолок в профессии — более 800 тысяч рублей.

Андрей Гостюхин

CEO/CTO Atlantis

Мне кажется, высокая зарплата SRE-инженеров связана с тем, что они находятся на пересечении сразу нескольких областей. Хороший SRE должен одновременно понимать разработку, инфраструктуру, сети, базы данных, контейнеризацию, облака, мониторинг и процессы эксплуатации. Но главное даже не набор технологий. В отличие от многих инженерных ролей, результат работы SRE напрямую связан с доступностью бизнеса. Когда не работает платёжный сервис, маркетплейс или банковское приложение, компания может терять миллионы рублей буквально за часы. Поэтому рынок высоко оценивает специалистов, которые умеют предотвращать подобные ситуации и быстро восстанавливать системы после сбоев.

Кроме того, SRE — это профессия, где очень дорого стоят опыт и насмотренность. Kubernetes или Terraform сегодня можно изучить на курсах, но умение проектировать отказоустойчивые системы, управлять инцидентами, выстраивать SLO и принимать решения под нагрузкой появляется только через реальные проекты и реальные аварии. Именно поэтому разрыв между начинающим и сильным SRE часто гораздо больше, чем во многих других направлениях. Верхняя часть зарплатной вилки обычно принадлежит людям, которые отвечают уже не за отдельные сервисы, а за надёжность целых платформ и бизнес-критичных систем.

Где учиться на SRE-инженера

SRE — специализация, требующая широкого технического стека, поэтому хорошо подходят программы по DevOps и облачным технологиям — большая часть навыков пересекается.

Яндекс Практикум — одна из немногих онлайн-школ на рынке, которая предлагает полноценную программу по обеспечению надежности систем. Здесь всего за 4 месяца научат практикам и подходам SRE, а также налаживать мониторинг инфраструктуры и приложений, чтобы улучшить бизнес‑процессы.

Нетология ведёт курсы по DevOps-инженерии с отдельными модулями по надёжности систем, мониторингу и работе с инцидентами. Тут есть программы для тех, кто только начинает путь в IT, и для опытных специалистов, которые хотят углубить знания.

Aston — IT-компания с бесплатной программой обучения DevOps. Для старта обучения нужно базовое понимание IT, а лучших студентов пригласят на стажировку в компании — отличный вариант для джуна.

Академия Эдюсон предлагает практический онлайн-курс, где научат решать инфраструктурные задачи и масштабировать приложения в облачных сервисах. Ещё один плюс — стажировка в IT-компании уже во время обучения.

Edpro и НАДПО — для развития софт-скиллов. В школах можно подтянуть навыки переговоров, публичных выступлений, тайм-менеджмента и эффективного руководства — то, без чего невозможен карьерный рост в IT.

В Бруноям есть программа по администрированию Linux, где всего за 2 месяца научат, как стать Linux-администратором и поддерживать работу серверов.

Инглекс помогает построить уверенное чтение технической документации и разговорный английский для работы в международных командах. Формат — онлайн с живыми преподавателями, легко встроить в график обучения по основной специализации.

Как попасть в индустрию

SRE — профессия с одним из лучших соотношений порога входа и зарплаты в IT. Войти можно за 6-9 месяцев целенаправленного обучения, а стартовая зарплата уже выше, чем в большинстве других джуновских позиций. При этом дальнейший рост — стабильный и предсказуемый: спрос на специалистов, умеющих обеспечивать надёжность систем, будет расти вместе с тем, как бизнес становится всё более зависимым от непрерывной работы цифровых сервисов.

Чтобы стартовать, можно пройти обучение. В этом помогут курсы от Яндекс Практикума, Нетологии, Aston, Академии Эдюсон, НАДПО, Edpro, Бруноям и Инглекс. Выбирайте программу под свои цели, а затем приступайте к поискам стажировки в компаниях.

ссылка на оригинал статьи https://habr.com/ru/articles/1048982/