Советские гвозди и токены: что общего?

Менеджмент нашёл способ измерить AI-продуктивность. Он такой же удобный, как и всегда.

Это клод придумал картинку под статью, он ещё дэбнул.. так плохо, что это великолепно.

Сначала про токены

Компании начали ранжировать инженеров по количеству потреблённых AI-токенов. Не по результату, не по коду — по токенам. Это называется tokenmaxxing.

В ночь с 7 на 8 апреля в Meta закрыли внутренний дашборд — Claudeonomics. За месяц 85 тыс сотрудников сожгли 60 триллионов токенов. Лидер таблицы набрал 281 миллиард лично, однако сам Цекерберг в топ не попал.

После негатива в сети дашборд исчез, но в Shopify и OpenAI похожие рейтинги продолжают работать.

Шесть дней спустя на Semafor World Economy Summit Рейд Хоффман осторожно поддержал трекинг AI-активности как несовершенный, но полезный сигнал.

Дженсен Хуанг рассуждал о годовых токен-бюджетах порядка $250 000 на одного топ-инженера. TechCrunch написал, что люди, гоняющие агентов в три ночи, менее продуктивны, чем думают. В LinkedIn инженеры выкладывают скриншоты счетов от Anthropic — $200K, $400K за месяц — и подписывают: «вот это я называю работой».

Это выглядит как история про AI. На самом деле это история, которой уже восемьдесят лет.

Теперь про гвозди и другие причуды

В СССР ходила (и дошла до нас) история про гвоздильный завод. План в тоннах — делали огромные бесполезные гвозди. План в штуках — делали гвозди-иголки. Говорят, это байка из «Крокодила». Может, и байка.

Но Хрущёв в 1959 году жаловался на то же самое в «Правде» — только про люстры. Фабрики делали их слишком тяжёлыми, диваны слишком большими, листовое стекло слишком толстым. Потому что план был в тоннах, и вес набрать проще всего. Плановая цифра достигнута. Света в комнате не прибавилось.

Вы можете легко сказать: так плановая экономика, советская специфика, у нас такого нет. Но механизм тут не в плане — в метрике.

Чарльз Гудхарт сформулировал идею в 1975 году: когда показатель превращается в цель, он перестаёт быть хорошим показателем. Смысл не в том, что метрики плохи. Смысл в том, что любая система с людьми внутри начинает оптимизироваться под измерение, а не под то, что измерение должно отражать. Разрыв между прокси и реальностью — не баг конкретной метрики.

— Из крайне привычного и понятного, с чем мы живем сейчас — Индекс Хирша должен был измерять влияние учёного на науку. Небольшое сообщество исследователей быстро обнаружило, что взаимные цитирования поднимают h-index обоим без всяких новых открытий. Появился термин «salami slicing»: одну работу режут на пять статей, каждая цитирует остальные четыре. Журналы под давлением рейтингов это публикуют, потому что им тоже нужны метрики. Никто не нарушает правил. Правила и есть проблема.

— Американская система образования No Child Left Behind, запущенная в 2001 году, привязала финансирование школ к результатам стандартизированных тестов. Учителя начали натаскивать детей именно на формат теста — у них не было другого выбора. К 2010-му проверки фиксировали рост результатов по математике и чтению. Независимые исследования фиксировали, что дети хуже решают задачи, которых нет в тестах. Метрика улучшилась. Образование — нет.

— История с колл-центрами короче, но честнее. Эффективность операторов начали считать по среднему времени звонка — чем короче, тем лучше. Операторы нашли выход: вешать трубку на сложных клиентах. Формально показатель рос. Клиенты получали разъединение на пике проблемы и перезванивали — два звонка вместо одного, вдвое больше нагрузки, вдвое меньше удовлетворённости. Во многих КЦ это работает до сих пор.

— NPS устроен ровно так же. Сотрудник поддержки, которого оценивают по индексу его тикетов, перед опросом говорит клиенту примерно следующее: если что-то не устроило — напишите мне лично, я разберусь, а в анкете поставьте десятку, иначе нам прилетит. Клиент ставит десятку. NPS растёт. Проблема, из-за которой клиент звонил, остаётся.

— Разработчики получили свою версию в виде строк кода. Билл Гейтс когда-то сравнил измерение производительности программиста в строках с измерением прогресса авиастроителей в весе самолёта: чем больше — тем хуже. Метрика всё равно прижилась. В некоторых командах она живёт до сих пор, переименованная в velocity story points. Команды, которых оценивают по очкам за спринт, начинают завышать оценки задач. Очки растут. Скорость доставки фич — нет. На ретро все согласны, что система работает нормально.

Люди, которые в апреле 2026-го смотрят на токен-лидерборды, делают ровно то, что делали советские директора, американские учителя и операторы колл-центров. Оптимизируют под измеримое.

Агент, гоняющий пустые промпты в три ночи, чтобы не выпасть из таблицы — предсказуемый финал любой системы, где метрика стала кадровым решением. Хоффман назвал трекинг «неидеальным, но полезным». Он прав в обоих словах — и, возможно, недооценивает первое. Хуанг обсуждает $250 000 в год на инженера как инвестицию в производительность. Красивая цифра. Понятна совету директоров. Уже становится целью.

Виноват не AI

Хотя винить ИИ в том, что сложно найти работу, читать нормальные тексты и запускать рекламу вроде как стало удобным (нет, тут не ИИ виноват).

AI попал в машину Гудхарта по той же причине, по которой в неё попало всё остальное: он дал удобную, численно выражаемую прокси для чего-то сложного. Количество токенов — не производительность. Но считается.

Строки кода — не качество архитектуры. Индекс Хирша — не вклад в науку. NPS — не лояльность. Везде одно: метрика удобна, реальность сложна, система выбирает удобное.

Давайте будем чуть больше задаваться вопросами и искать чуть более сложные пути!

ссылка на оригинал статьи https://habr.com/ru/articles/1027592/