
7 апреля в Москве прошел Uptime Day — первая встреча сообщества uptime.community — сообщества людей, которые занимаются мониторингом, круглосуточной поддержкой и администрированием сложных проектов. ITSumma является одним идейным вдохновителем и одним из организаторов этого сообщества. На встрече рассказали как у них устроены мониторинг и поддержка специалисты из компаний Booking, Badoo, Parallels, ITSumma и Bitrix24.
Мы выкладываем слайды, тезисы, видео с выступлений и расскажем немного о самом сообществе.
Если посмотреть на миллион проходящих в России конференций, то можно, вдруг обратить внимание на то, что существует огромное количество конференций и митапов для разработчиков (что для бэкэнда, что для фронтенда), существуют мероприятия и очень классные конференции для администраторов/девопсов, но если вдруг хочется понять как другие люди занимаются мониторингом проектов, как именно устроены 24/7 дежурства, как и кто именно реагирует на аварии — знания становятся очень оторваны.
А наступать на грабли — совсем не хочется. Мы решили попробовать создать некое сообщество, где люди, которые занимаются тем чтобы их проекты никогда не падали (а если падали, то быстро поднимались), смогли бы обменяться знаниями о том как у них устроен мониторинг и поддержка — и понять как сделать лучше у себя, задавать друг другу вопросы — может быть проблему, с которой человек сейчас разбирается — уже кто-то решил ну и главное — просто познакомиться.
Для того чтобы собрать всех вместе, мы устроили встречу сообщества uptime.community (а именно так мы решили его назвать), которая прошла 7 апреля в digital october. Ниже — сами выступления, а в конце расскажем как попасть в сообщество.
Изобретая колесо: как мы писали свой мониторинг
Евгений Потапов, генеральный директор ITSumma
Тезисы:
Каждый веб-разработчик когда-то хотел сделать свой фреймворк. Каждый админ хотел написать свой мониторинг. Шестилетняя история разработки нашей собственной системы мониторинга, причины ее создания, каким образом мы обеспечиваем хранение данных, отказоустойчивость и масштабирование. Шишки, которые мы набили. Чем наша система отличается от стандартных систем.
Видео:
Стриминг мониторинга
Станислав Осипов
тезисы:
— рекламные платформы; особенности R’n’D и Ops в рекламе.
— три кита, на которых Zabbix можно превратить в полезный для восприятия инструмент.
— табличка, патч и отчетность — отстрел Ops managers обратно на орбиту.
— все не как у людей: стриминг самочувствия системы.
— каналы (SMS, Tg, Sl, Ml), потоки/группы.
— а теперь все вместе: Zabbix, New Relic, Jenkins и другие.
Видео:
Как обычно происходит внедрение мониторинга с нуля
Николай Сивко, сооснователь Okmeter
тезисы:
Многие клиенты Okmeter не представляют, что именно им нужно от мониторинга. В процессе общения с такими клиентами у нас сформировался более-менее общий алгоритм покрытия проекта мониторингом от ошибок оборудования до бизнес-метрик. Правильные метрики, правильная работа с алертами и т.д.
Видео:
Мониторинг, когда не тестируешь
Иван Круглов, senior developer Booking.com
Как многие знают в Booking деплои во многих случаях делаются без тестирования — цена ошибки дешевле цены скорости изменений. Иван рассказал про то как в таких условиях получается обнаруживать ошибки быстро, следить за тем что происходит и управлять изменениями.
Видео:
Эффективная техподдержка 24×7: инструкция по применению
Юлия Синянская, руководитель команды технической поддержки Parallels
тезисы:
Как Parallels удалось построить поддержку для корпоративных клиентов, имея готовые наработки, но при этом обладая ограниченными ресурсами. Поиск и найм сотрудников, процесс адаптации и обучение, сменный график, оценка эффективности.
Видео:
Как устроен мониторинг в Badoo
Илья Аблеев, руководитель отдела мониторинга Badoo
тезисы:
Представьте горящий стул, горящий стол в горящем доме. Примерно так выглядит обычный день в отделе мониторинга или дежурных админов в любой IT-компании. И мы — не исключение, но мы научились справляться с температурой горения и поделимся нашим опытом.
1. Что такое Badoo: особенности архитектуры и отдела эксплуатации.
2. Зачем нужен независимый отдел мониторинга и чем он занимается.
3. Как устроен отдел: количество людей/смен; что делают люди в свободное время, чтобы не выгореть
4. Инструменты: что используется для анализа проблем, как не потеряться в потоке событий и не пропустить важные инциденты.
Видео:
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуальных машин силами трех человек
Александр Демидов, директор направления облачных сервисов Битрикс24
тезисы:
1. Почему Битрикс24 и другие сервисы 1С-Битрикс живут в облаке, как мы администрируем всю нашу инфраструктуру и как справляемся с сотнями виртуальных машин и сервисов силами трех человек. Как коммуницируем с разработчиками и QA, как деплоим, да и вообще — как живем и развиваемся.
2. Мониторинг — наше всё! Распределенная система real-time мониторинга (был nagios, стал shinken), аналитика, автоматизация, работа с инцидентами.
3. Бонус — на какие самые серьезные грабли мы наступали за пять лет, прошедших с запуска «Битрикс24», и как научились их обходить.
Видео:
Следующее мероприятие запланировано на начало осени, а пока — вступайте
в сообщество: uptime.community — оставьте e-mail и мы пришлем вам анкету (спамить не будем, клянусь)
ссылка на оригинал статьи https://habrahabr.ru/post/328024/
Добавить комментарий