вчера читал статью про чувака, которого слили с проекта, потому что заказчики поверили вердиктам модели больше, чем живому человеку. неприятная история. но зацепило меня не сочувствие.
зацепило, что я сижу ровно в той же яме, только глубже. и гордиться тут нечем.
я почти не пишу код руками. вообще. наговариваю мысли в транскрибатор, кидаю сырой поток в сессию агента и иду дальше. весь день в терминале Claude Code и Codex: проекты, фриланс, какие-то побочки, всё туда. три подписки по $200 в месяц плюс пара китайских по мелочи. да, я понимаю, как это звучит, но речь не про деньги, к деньгам ещё вернёмся, и не в мою пользу.
и вот на этом фоне история про слепую веру модели читается не как чужая. это просто моя обычная среда, доведённая до абсурда.
я долго думал, что вся эта автоматизация освобождает голову. ну типа нажал, и оно само, а ты отдыхаешь.
ни хрена она не освобождает. наоборот.
вот честный сетап. параллельно у меня крутится агентов от пяти. иногда больше, если они начинают спавнить друг друга, я уже не считаю. есть условный главный, который как бы держит общую картину. под задачу собирается мини-команда. десяток задач в день, и я один.
выглядит как мечта лентяя, да?
а по факту я весь день не отдыхаю. я весь день допрашиваю. «объясни как маленькому и тупому, почему именно так». «откуда ты это взял». «покажи, где конкретно в коде это происходит». подруливаю, ловлю неточности, сомневаюсь прям со всех сторон сразу, чтобы оно ехало туда, куда надо, а не туда, где красиво.
голову мне это не разгрузило ни на грамм. навалило сверху. раньше узкое место было «написать код». теперь узкое место в другом: сколько я физически могу переварить и удержать в голове. хотя бы на уровне нормального менеджера, который не плавает в том, что делают его люди.
делегировать можно всё. кроме внимания. вот внимание — ни хрена не делегируется, проверял.
давайте на цифрах, а то звучит как философия.
8-9 из 10 планов, которые пишет мой пайплайн — мираж. логично на бумаге, по пунктам, со ссылками на файлы. начинаешь делать, и всё разваливается на втором шаге. потому что в основании лежит одно непроверенное допущение, а сверху на нём уже стоит стройная башня выводов. один гнилой кирпич внизу, и вся башня красивая, логичная, падает от касания.
и вот тут я обязан сказать важное, иначе кейсы будут читаться как «AI тупой». он не тупой.
было «простое» приложение: переписать мой же пост по шаблону, по-человечески. казалось, на вечер. дважды выжег недельный лимит Claude Max, на выходе замоканое говно, которое так пока и не заработало 😁
и знаете, чья это вина? моя. я хреново декомпозировал, накидал размытую задачу и ждал чуда. модель внутри своего кусочка рассуждала нормально. это я не дал ей нормальной опоры. так что когда в комментах напишут «у тебя руки кривые, а не инструмент плохой», то да, в этом конкретном случае справедливо.
ещё был автономный прогон на двое суток. агент шёл-шёл и в какой-то момент снёс единственную базу. без драмы: это была дев-база, которую мы между собой звали «прод» просто по приколу, проект публично не запущен. но вот что важно: изоляции и бэкапа у меня не было. и это второй мой косяк, не агента. дисциплина была на мне, я её не обеспечил.
а дальше прекрасное. он потерялся и начал ходить по кругу, часами полируя какой-то один файл. с полной уверенностью, что движется к цели. два дня компьюта на то, чтобы аккуратно надраить тупик, в который сам себя загнал.
вот это и есть та нагрузка, которой не видно за словом «автоматизация». она не исчезла. она переехала из рук в голову, и в голове оказалось теснее.
теперь самое неудобное. про проверяющих.
я же не дурак, защиту строю. у меня есть агенты-скептики, критики, аудиторы, целый слой, который только и делает, что ловит враньё других агентов. звучит как решение, да? поставил проверку, спи спокойно.
не спишь.
недавно мой собственный Скептик прошёлся по спеке, которую за десять минут до этого написал мой же пайплайн, и нашёл там 4 миража и 2 непроверенных утверждения. Критик влепил той же спеке REVISE, 16 из 25. то есть система ловит ошибки внутри самой себя, моими же руками. это хорошо.
плохо то, что у меня ноль иллюзий, будто она ловит всё.
часть миражей всё равно проскакивает. один из моих агентов в рамках одного ревью соврал мне три раза подряд. уверенно. сказал, что в базе нет ни одной записи о попытках, а она была. сказал, что инструмент не подключён. а он подключён. это не «ошибся, недопонял». он выдал ложь с той же интонацией спокойной правоты, с какой нормальные люди говорят правду. полез бы я проверять руками — поймал. не полез бы — проглотил.
есть штука, от которой никуда не деться. агент, который писал код, не может его же и проверять. это как аудитор, который аудирует свою собственную бухгалтерию. он не злодей, он просто очень хочет, чтобы сделанное им оказалось правильным, и находит этому подтверждения. confirmation bias встроен в процесс. поэтому проверяющий обязан быть отдельным.
но и отдельный врёт. set-and-forget слоя проверки не существует. я его искал. его нет.
и чтобы не выглядело, будто я тут белый и пушистый на фоне тупых железок: я сам так же косячу. как-то выкатил коммент в код-ревью, уверенный, по делу, с видом человека, который знает. оказалось, чистый мираж, я его выдумал на эмоциях. человек под давлением галлюцинирует ровно так же, как модель. так что это не «они тупые, а я молодец». это «мы оба так умеем, поэтому смотреть надо за обоими».
и вот тут про деньги, раз обещал.
автономный агент без присмотра может высосать процентов 80 недельного лимита. сам, пока ты спишь. и дело не в том, что жалко денег. дело в том, что в конце ты получаешь гору результата, к которой ни разу не прикоснулся вниманием, и не знаешь, что с ней теперь делать. деньги тут не главная потеря. главная потеря в том, что ты потерял ниточку.
я перестал контролировать реализацию. забил на то, КАК оно сделано. мне теперь важно только ЧТО на выходе и где пруф, что оно реально работает. перестал диктовать как, начал спрашивать что.
и да, назову вещи своими именами. я вырос не как инженер. я вырос как менеджер агентов. обычно этот тезис прилетает как обвинение. мол, ты теперь не программист, а погонщик.
я не буду уворачиваться. это правда. но я этим не горжусь. я фиксирую, что инженер во мне потихоньку сдаёт позиции, и это не повышение, это цена. раньше, пока я фигачил руками, материал по определению был у меня в голове, он проходил через пальцы. теперь он проходит мимо меня, а я бегаю и проверяю. и проверять надо больше, а не меньше.
потому что чем больше автоматизируешь — тем внимательнее обязан смотреть. это контринтуитивно до зубовного скрежета, но так и есть. каждый новый слой агентов — это не больше свободы. это ещё один кусок, за которым теперь надо следить. менеджер, который перестал вникать в то, что делают его люди, это уже не менеджер. это мебель. с агентами так же, только цикл вранья короче раз в десять.
я честно не знаю, что это со мной сделало. дар или лоботомия.
с одной стороны, делаю объём, который руками в одиночку не сделал бы никогда. с другой, больше не отдыхаю мозгом ни секунды, потому что стоит отпустить внимание, и любой результат, каким бы красивым он ни выглядел, становится неуправляемым. не «плохим». именно неуправляемым. я просто перестаю знать, что внутри.
я не пишу код. я весь день не даю системе обмануть саму себя. и иногда проигрываю.
того чувака из статьи слили, потому что заказчики поверили модели больше, чем человеку. но я всё чаще ловлю себя на другом риске. главный риск не в том, чтобы поверить модели больше, чем кому-то. главный риск — поверить ей больше, чем себе. устать допрашивать, отпустить то самое внимание и принять красивый мираж за результат.
не учу никого, мне самому пока не из чего делать выводы. просто всё чаще ловлю себя на этой мысли и пока не понял, что с ней делать.
ну и пишу, как оно у меня идет, подпишись, если интересно) 👇
ссылка на оригинал статьи https://habr.com/ru/articles/1043120/