В итоге мне стало интересно, как выглядит всё это SRE изнутри, и я подался в Mission Control – программу ротации, позволяющую провести полгода в роли SRE, получить ценного production-опыта и, при желании, вернуться в свою прежнюю команду делиться приобретёнными знаниями. Я вместо этого остался, как и две трети моих нынешних коллег по Video Processing SRE, тоже переквалифицировавшихся из обычных инженеров. Теперь я сам пугаю SWE непонятными графиками и эвакуирую ютьюбные видео из горящих датацентров, с перерывами на мирный созидательный кодинг. Оказалось, что за пятнадцать лет внутри Гугла выросла здоровая и эффективная SRE-организация со своими практиками, принципами и методами – но о них никто не знает, потому что из тех кто попадал туда, еще никто не возвращался назад.
Решением этой проблемы исчезновения информации о дежурствах, SLO и постмортемах в чёрной дыре Google SRE стала книжка «Site Reliability Engineering», подробно описывающая как это наше SRE на самом деле работает. Собственно, весь этот пост затеян ради двух новостей:
1) Две недели назад вышел русский перевод вышеупомянутой SRE book. Если вам интересно, как завести в вашей компании здоровые DevOps-практики, эта книга для вас. Если вы подозреваете в себе SRE-наклонности, то эта книга ещё более для вас.
2) Вдогонку к первой книге только что вышла (пока только на английском) Site Reliability Workbook с практическими примерами из жизни Google Cloud Platform – тоже всячески рекомендую.
ссылка на оригинал статьи https://habr.com/post/421603/
Добавить комментарий