Однажды я зашёл в компанию через неделю после крупного падения и попросил показать постмортем. Мне показали — с гордостью. Таймлайн поминутно, five whys, аккуратный список action items, owner напротив каждого, разослано по всем спискам. Красиво. «Видите, мы серьёзно подошли».
Я задал один вопрос: а постмортем по прошлому такому же падению — где? Нашли. Открыли. Те же action items. Слово в слово. С прошлого раза не закрыт ни один.
То есть полгода назад уже собирались, уже всё проанализировали, уже назначили ответственных — и ничего не сделали. А потом упало снова, по той же причине, и они снова собрались, снова проанализировали, снова назначили. С тем же результатом, который будет и в следующий раз.
И вот тут важно не поспешить с выводом «разгильдяи, не довели». Потому что если присмотреться, этот постмортем не провалился. Он отлично сработал. Просто работа у него была не та, что написана на упаковке.
Я вхожу в чужие инженерные команды со стороны — посмотреть, что там происходит на самом деле, и навести порядок. И почти в каждой натыкаюсь на одно и то же: изрядная часть процессов в компании существует не чтобы что-то делать, а чтобы что-то изображать. Это не патология конкретной конторы. Это закономерность, у неё есть механика, и её полезно научиться видеть — особенно если ты за эти процессы отвечаешь.
Зачем нужен разбор, после которого ничего не чинят
Затем же, зачем нужны поминки.
Случилось плохое. Людям больно, тревожно и немного стыдно. Нужен ритуал, который эту тревогу обработает: собраться, проговорить вслух, что произошло, обозначить, что «меры приняты», и разойтись с ощущением, что теперь всё под контролем. На поминках не лечат — лечить уже некого. На поминках прощаются и идут жить дальше.
Постмортем, после которого не меняется ни один дефолт, делает ровно это. Он не инструмент починки — он инструмент закрытия гештальта. Снимает тревогу, восстанавливает ощущение контроля и даёт начальству строчку «провели разбор, выработали меры» для следующего созвона с бизнесом. Все эти функции настоящие и по-своему нужные. Просто ни одна из них не про то, чтобы падение не повторилось.
И вот вокруг этого крутится всё. Есть процессы-инструменты: они меняют реальность. И есть процессы-символы: они меняют ощущение от реальности. Снаружи похожи как близнецы — те же встречи, те же документы, те же owner’ы в табличке. Отличаются только одним: остаётся ли после них след в реальности. И заметить это можно, только если специально проследить.
Почему символов в компании всегда больше, чем кажется
Процессы-символы никто не заводит нарочно. Никто не приходит на стендап со словами «давайте сделаем ретро, которое ни на что не повлияет». Они вырастают сами, и вот из чего.
Символ дешевле инструмента. Чтобы постмортем реально что-то изменил, кто-то должен взять его action items, выбить под них время в спринте, продавить приоритет против фич, довести до конца и проверить. Это дорого и конфликтно — надо с кем-то воевать за ресурс. А провести красивый разбор и разослать — дёшево и приятно. Система при прочих равных всегда сползает в сторону дешёвого.
Символ безопаснее. Пока ты соблюдаешь ритуал — у тебя есть алиби. «Мы же провели разбор». «У нас есть дашборд». «Мы следуем процессу». Рванёт снова — ты не виноват, ты всё сделал по регламенту. Символ перекладывает ответственность с человека на процесс, и это очень удобно. Инструмент так не умеет: он либо сработал, либо нет, и спрос персональный.
Символ невозможно „не пройти“. Инструмент даёт обратную связь: тест красный или зелёный, мониторинг поймал или проспал. Символ обратной связи не даёт — ретро состоялось, значит «прошло успешно». А процессы без обратной связи не эволюционируют, они просто накапливаются. Завели — и оно живёт вечно, потому что отменить его значит признать, что оно было лишним, а это неловко.
Сложите три силы — и получите естественный градиент: в любой достаточно взрослой компании символов со временем становится всё больше, а инструментов всё меньше, если кто-то сознательно не чистит. Дашборд, на который никто не смотрит, но всем спокойнее, что он есть. Ретро, где третий спринт подряд проговаривают одно и то же. Чек-лист перед релизом, который заполняют не глядя. Согласование, которое всегда «согласовано». Всё это когда-то, может, и работало. Теперь — изображает.
Это не глупость. Это availability bias на уровне организации
Легко свалиться в «менеджеры идиоты, развели бюрократию». Не идиоты, и дело не в бюрократии.
Организация, как и человек, реагирует на то, что видно. Громкое падение видят все: оно болит, за него ругают, его обсуждают на всех этажах. Ресурсы на него бросают мгновенно. А тихий риск — недоделанный action item, единственный человек, который знает, как разворачивается прод, отсутствие реального теста под сценарий — невидим ровно до того момента, пока не рванёт. И поэтому всегда проигрывает борьбу за приоритет видимому.
Это availability bias, только масштабом в компанию: что доступно вниманию, то и кажется важным. Символ идеально ложится в эту ловушку, потому что символ — это и есть «видно». Красивый постмортем видно. Дашборд на стене видно. А сделанный action item, который тихо предотвратил падение, которого поэтому не случилось, — не видно вообще. Предотвращённого пожара нет в ленте инцидентов, награждать и замечать нечего.
Так организация и обучается: вкладываться в то, что заметно, а не в то, что работает. Не потому что глупая — потому что у неё, как у всех, кривые стимулы.
Один вопрос, который вскрывает любой процесс
Хорошая новость: чтобы отличить инструмент от символа, аудит не нужен. Нужен один вопрос, который ты задаёшь про любой регулярный процесс:
«Что изменилось после прошлого раза?»
Постмортем: предыдущие action items — закрыты? Открываешь архив, видишь те же незакрытые пункты — перед тобой ритуал. Можно приходить в чёрном.
Ретро: проблема, которую обсуждали в прошлый раз, ушла или всплыла снова? Всплывает третий спринт подряд и каждый раз её «берут на заметку» — это не ретро, это групповая терапия. Тоже полезно, но называется иначе.
Дашборд: когда по нему последний раз приняли решение? Не «посмотрели», а изменили поведение. Если никогда — это обои.
Согласование: хоть раз заворачивали? За год ни одного «нет» — это не контроль, это турникет, который всегда открыт. Снять — ничего не изменится, кроме скорости.
Везде один тест: процесс обязан оставлять след в реальности. Нет следа — символ.
Что делать (и чего не делать ни в коем случае)
Самая дорогая ошибка человека, который всё это разглядел, — прийти и с энтузиазмом всё поотменять. Особенно если ты новый и хочешь показать, что навёл порядок. Не делай так. Вот почему.
Символ почти всегда выполняет какую-то настоящую функцию — просто не ту, что заявлена. Постмортем-поминки реально снимает тревогу команды. Снеси его молча — и вместо спокойствия получишь людей, которые после каждого инцидента не понимают, «а мы вообще с этим что-то делаем». Дашборд, на который никто не смотрит, иногда оказывается тем, на который смотрит ровно один человек ровно в одной критической ситуации. Прежде чем резать, разберись, какую тревогу или какую подстраховку процесс на самом деле держит.
Поэтому порядок такой.
Сначала — инвентаризация тем самым вопросом. Пройдись по регулярным процессам и честно отметь, где есть след в реальности, а где нет. Список символов обычно выходит длиннее, чем ждёшь.
Потом — не «отменить», а «вернуть обратную связь». Чаще символ можно превратить обратно в инструмент, не убивая. Постмортем, у которого action items никто не доводит, чинится не отменой, а одним правилом: новый разбор начинается с проверки статуса старых пунктов, и пока они не закрыты, новые не заводятся. У ритуала внезапно появляются зубы. Ретро по кругу чинится тем, что одна проблема за раз доводится до конца до следующего ретро. Дашборд — тем, что у каждого графика есть владелец и ответ на вопрос «какое решение ты по нему принимаешь».
И только то, что не удаётся вернуть в работу и что не держит никакой реальной тревоги, — убираешь. Тихо, по одному, наблюдая, не сломалось ли что-то незаметное. Через месяц никто не вспомнил — значит правда был лишним.
Зачем вообще это видеть
Театр надёжности безобиден ровно до того дня, когда ты начинаешь принимать его за надёжность. Пока ты понимаешь, что постмортем — это поминки, а дашборд — обои, ты держишь в голове, что настоящая надёжность лежит где-то ещё, и продолжаешь её искать. Беда приходит, когда символы начинают всех убаюкивать: разборы проводятся, дашборды висят, чек-листы заполняются — и все искренне считают, что система под контролем. А она под контролем ровно настолько, насколько процессы оставляют след в реальности. То есть в зрелой компании без регулярной чистки — примерно наполовину.
Так что в следующий раз, когда вокруг какого-то процесса будет особенно много торжественности — красивые слайды, обязательность, ритуальность, — задайте тот вопрос. Что изменилось после прошлого раза? И если ответа нет, вы хотя бы будете знать, на каких похоронах присутствуете.
Пишу под псевдонимом: вхожу в чужие инженерки под NDA, оттого без лица и без названий компаний. Остальные разборы и книга — по ссылке в профиле.
ссылка на оригинал статьи https://habr.com/ru/articles/1051542/