Маршрут до SRE построен

от автора

Путь к Site Reliability Engineer лежит через богатый опыт, знания по мониторингу, observability и SRE-практикам. Собрали в один комплект три курса Слёрма, которые помогут преодолеть этот путь.

Шаг 1. Курс «Мониторинг в Grafana».

Grafana — мощный инструмент для мониторинга и визуализации данных. Он позволяет создавать информативные дашборды о состоянии системы, интегрировать его с другими системами мониторинга, использовать для отслеживания метрик и статистики приложений. 

Но перед тем, как научиться собирать дашборды и читать графики, нужно освоить сбор метрик. Это в курсе тоже есть — будем работать со связкой Prometheus+Grafana.

Вот что ещё будет на этом курсе:

✔️ Разберёмся, зачем нужен мониторинг и дадим ему определение, узнаем о методологии.

✔️ Настроим необходимое для работы окружение: именно Grafana, Prometheus и Alertmanager. 

✔️ Разберёмся с моделью данных в Prometheus. Узнаем, какие типы метрик есть, чем они отличаются и для чего используются. 

✔️ Научимся работать с основными функциями PromQL и напишем несколько запросов.

✔️ Соберем первый dashboard «4 goled signals» и проверим определенные метрики.

✔️ Узнаем более продвинутые техники для работы с Grafana

? Посмотреть полную программу курса.

Шаг 2. Курс «SRE: data driven подход к управлению надежностью систем». 

Даже если у вас настроен мониторинг, всё равно есть риски сбоев. Поэтому нужно научиться быстро и эффективно решать проблемы. Для этого существует SRE.

На этом курсе:

✔️ Узнаем, как снизить ущерб от отказов в будущем.

✔️ Внедрим правки прямо в прод;

✔️ Узнаем, как решать конкретные проблемы, связанные с надежностью сервиса;

✔️ Поймём, какие метрики собирать и как это делать правильно;

✔️ Научимся быстро поднимать продакшн силами команды.

Эти знания помогут вам повысить отказоустойчивость системы и стать востребованным специалистом, потому что всё больше компаний внедряют практики SRE.

? Посмотреть полную программу курса. Курс стартует 22 августа.

Шаг 3. Курс «SRE: observability». 

Observability — показатель того, насколько легко мы можем понять внутреннее состояние системы по её внешним проявлениям. Если мониторинг — это действие, то observability — это свойство системы. Когда наши IT-системы и приложения не дают нам заглянуть внутрь, никакой мониторинг тут не поможет.

Этот курс подойдет инженерам с базовыми знаниями SRE-практик, командам, которым нужно наладить внутренние процессы и научиться настраивать мониторинг, а также компаниям, где уже внедрены error budget и SLO, но эти процессы не отработаны до конца.

Вот на какие вопросы поможет ответить этот курс:

✔️ как увидеть инцидент в зачатке на графике и по алерту, и предотвратить панику и стресс в моменте;

✔️ как увидеть и оценить результаты работы над надежностью;

✔️ как договориться с бизнесом, что делать: выкатывать фичи или работать над надежностью;

✔️ как строить понятные разработке и бизнесу метрики, если у тебя 100 микросервисов и продакт каждого считает, что он самый важный;

✔️ как объяснить руководителю, зачем собирать бизнес-метрики приложения, и сколько он теряет в момент инцидента.

? Посмотреть полную программу курса. Курс стартует 25 сентября.

Комплектом выгоднее

Цена комплекта по SRE — 140 000 ₽. Цена курсов по отдельности — 165 000 ₽. Экономия — 25 000 ₽.

 ?  Оформить комплект ❗️Листайте лендинг до конца вниз, чтобы найти информацию о комплекте и оставить заявку. 


ссылка на оригинал статьи https://habr.com/ru/articles/751562/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *