LLM становятся умнее, но есть ценность, до которой они не дотянутся. Где она?

Привет! Меня зовут Саша Журавлев. Я основатель и управляющий партнер фонда Mento VC. Мы инвестируем в технологические компании на стадиях Seed / Series A в США, Великобритании и Израиле, а в своем телеграм-канале рассказываю, как вижу рынок и принимаю инвестиционные решения.

На прошлой неделе Сара Гуо (основательница AI фонда Conviction, ~$300 млн под управлением) написала статью о том, что есть работа, которую невозможно свести к стандарту или измерить. А раз нельзя измерить – нельзя и обучить модель делать ее лучше.

Эта статья один из лучших материалов детально отвечающих на вопрос – почему мы и другие фонды инвестируем в Application Layer (продукт поверх фундаментальных моделей). Что там является ценностью, а что нет.

Считаю что это обязательно к прочтению, особенно если хотите понять, какие бизнесы получают венчурные деньги, а какие нет и почему.

Читайте перевод команды Mento VC с пояснениями ниже.

Версия «AI-психоза» в 2026 году у инвесторов – это чувство отчаяния от мысли, что инвестировать больше не во что, что надо просто отнести все деньги в Anthropic и Nvidia и разойтись по домам. Сара, автор статьи, этого не чувствует. Версии языковых моделей продолжают выходить и обновляться. Сара давно уверена, что все новые LLM умнее ее, и с удовольствием купила бы акции Anthropic и Nvidia по текущей рыночной цене – то есть даже по сегодняшней, уже очень высокой оценке. Все ее самые умные друзья убеждены, что скоро модели научатся улучшать сами себя – и все равно она не чувствует отчаяния. Хотя логика понятна: если LLM становятся лучше во всем, значит, любая компания, построенная на основе модели, – это хрупкая надстройка, которую рано или поздно поглотит сама модель. И единственная настоящая ценность – это вычислительные мощности и передовые LLM.

Возьмем программирование: именно на него чаще всего ссылаются сторонники позиции отчаяния. В 2024 году Devin (AI-агент в сфере разработки) решал 13% задач в стандартном тестировании по программированию, и его в основном не воспринимали всерьез. Спустя полтора года лучшие AI-помощники уже показывают результат до 90% в таких же тестах, и работают внутри Goldman Sachs и в армии США. Почти все сделали из этого один и тот же, но неправильный вывод: модель «съела» профессию программиста. На самом деле произошло другое: модель поглотила ту часть программирования, которую проще всего измерить. И теперь мы ясно видим то, что многие команды знали и так: работа инженеров всегда плохо поддавалась измерению. А самые измеримые ее части оказались, кажется, далеко не самыми важными.

Исследователь Мерт Демирер и его соавторы из MIT (Массачусетский технологический институт, один из самых престижных технических университетов мира) наконец посчитали это на данных: среди более чем 100 тысяч разработчиков новые AI-инструменты увеличили объем написанного кода примерно на 180%, а объем реально внедренного в продукт – примерно на 30%. Писать код стало дешево, но все остальное пока проходит через человека – и вот это важно! Общий эффект, конечно, все равно впечатляющий.

Бенчмарк (эталонный тест для оценки LLM) – это то, что можно измерить. А если что-то можно измерить – значит, можно натаскать модель делать это идеально. Поэтому AI-агенты для программистов «созрели» первыми: компилятор (программа, которая сразу показывает ошибки в коде) бесплатно проверяет код, автоматические тесты (заранее прописанные в коде проверки) тоже бесплатно проверяют код. И когда ответ проверяет сам себя бесплатно, можно бесконечно повторять эту проверку, пока не пройдешь. Но пройти проверку – не значит добиться корректного изменения в старом десятилетнем коде. Где у одного модуля есть минимум три причины существовать, и они нигде и никем не задокументированы. Где вся система держится на автоматическом скрипте, запускаемом по расписанию. Про который никто не хочет признаваться, что написал его.

Такую «корректность» невозможно проверить никаким тестом – вообще никаким. Работает ли настолько сложная система, можно выяснить только когда она достаточно долго просуществует в реальных условиях. Даже более умная LLM не заставит время идти быстрее. Никто не будет прогонять тесты на чем-то размером с Google и ориентироваться на зеленые галочки; доверие к системе такой величины рождается спустя годы. Такая «корректность» не просто закрыта от внешнего мира, она еще и медленно изменяема – это вид преимущества, который деньги не могут отнять быстро. Даже оптимисты признают, что время нельзя ускорить: Ноам Браун (исследователь OpenAI, руководил разработкой моделей o1, o3 на самом старте) недавно писал, что единственный надежный способ оценить агента на горизонте в год – это, возможно, запустить его работать… на год.

Как говорит Гейб Перейра (основатель Harvey, одной из самых успешных AI-компаний в юридическом бизнесе, $100 млн годовой выручки), настоящая автоматизация – это не только когда LLM стала лучше. Это когда продукт, модель, бизнес-процессы и сама компания улучшились все вместе. А три из четырех этих вещей двигаются со скоростью компании, не модели. Именно работа с людьми – то, чего не видно ни в одном тесте. Убедить скептичного партнера изменить подход к работе, удержать команду во время перестройки процессов. Вот почему, когда мы нанимаем CEO, умение работать с людьми значит не меньше, чем аналитические способности – и более умная модель этого не изменит. Обратная связь в человеческих отношениях не так однозначна, горизонт – годы, и доверие все еще остается к живому человеку. Каждая компания, которую Сара знает, уже дала своим инженерам доступ к передовым AI-инструментам для кода. Но ни одна компания не смогла так же быстро перестроить свою инженерную команду. Внедрение инструментов заняло всего квартал, и какой стремительный рост это был! Но перестройка работы команды займет годы.

Все понятное и измеримое уходит на второй план. Ценная работа по своей природе часто непрозрачна. А все, что можно внести в таблицу, можно и натренировать – значит, все измеримое уже на пути к превращению в продукт массового потребления. Этот процесс не происходит мгновенно, и никогда не происходит до конца – но направление не меняется. Переведем на язык денег, как делает друг Сары Мэтт Макиннис из Rippling (платформа для управления персоналом и бизнес-операциями, оценка $16+ млрд): токен, потраченный на ответ на общий вопрос, почти ничего не стоит, потому что любая LLM может на него ответить. А токен, потраченный на рассуждение с контекстом в виде данных вашей компании, стоит намного больше: потому что он выдает не просто «правдоподобный» ответ, а именно тот, который вам нужен.

Измеримая работа поглощается с двух сторон. Снизу задачи упрощаются до предела: как только работу можно проверить дешево, заказчика перестает интересовать, какая модель их выполнила. Он начинает спрашивать, сколько это стоит? И тогда работа уходит к самой дешевой общедоступной или облегченной LLM на этой неделе. Везде, где разница в цене может иметь значение, она в конце концов имеет значение. Сверху – крупные лаборатории (OpenAI, Anthropic, Google) пытаются встроить в сами модели все то, что раньше было внешней надстройкой. Поиск нужной информации, выбор между дешевыми и дорогими LLM, работа с инструментами и скиллами, даже правила рассуждения – вся конструкция, которая раньше строилась вокруг модели, теперь затягивается внутрь до тех пор, пока она не станет самой моделью. Это граница поглощения. Но давление на маржу работает и в обратную сторону: универсальный AI-агент должен быть готов ко всему, а это дорого. Тогда как узкоспециализированное приложение может отточить один рабочий процесс так, что он будет потреблять в разы меньше токенов, и в отличие от лаборатории, которая продает ему эти токены, разницу оно оставит себе.

Итак, про любую работу теперь можно задать два вопроса. Доступ к ее «корректности» закрыт и дорог в проверке: то есть, верные решения существуют только внутри чьих-то данных? Эта работа заперта внутри системы, куда нельзя просто так зайти? Сопоставьте это со степенью легковыполнимости задачи – и получится таблица 2х2. Легко выполнимая, уже «освоенная» LLM работа с доступными всем ответами – это массовые запросы, дешевые токены. Этим куском рынка уже владеют open-source модели (Gemma, DeepSeek, Qwen). Более сложная работа с общедоступными ответами – это зона тестирований в программировании. Этот кусок рынка достается крупным лабораториям (OpenAI, Anthropic, Google): раз проверить результат может кто угодно бесплатно, посредник тут ничего не заработает. Главный приз – в последнем углу. Неподдающееся обучению. Это видно на примере облачных сервисов для AI-компаний нового поколения: огромная часть токенов там создается не общими открытыми моделями, а кастомными LLM, спроектированными под конкретные задачи.

Порог входа в зону «неподдающегося обучению» разный. Кодовая база одного разработчика переносима и стандартна, забраться туда проще простого. Боевые системы банка – совсем другое дело. Они не стандартизированы и не переносимы. И никто не даст вам полный доступ только потому, что вы на 2% лучше справились с бенчмарк-тестом.

Возможности модели растут, но более умная модель не превращает закрытые данные в открытые. Она не владеет лицензией, не несет ответственность, не обучена на файлах компании. И она не может быть стороной, на которую подадут в суд, если ее ответ окажется неправильным. Бутылочное горлышко здесь – не интеллект, а допуск к данным и ответственность. Можно представить модель намного умнее любого человека, и ей все равно нужно, чтобы ее допустили к данным. И еще: кто-то все равно должен будет подписаться под тем, что она сделает.

У этой двери и замок, и цепочка. Замок – это среда. Вы можете проверить, сделал ли AI-агент что-то полезное, только когда вас уже пустили внутрь: после проверки безопасности, интеграции, подписанного договора и взятой ответственности, подписанной вашим именем. Цепочка – это пользователь. Большинство американских врачей сейчас каждый день открывают OpenEvidence (AI-платформа для врачей), и никакие вычислительные мощности не перекупят эту привычку. OpenAI может завтра обучить безупречную модель для медицины, и все равно не войти в привычку врача, или не суметь интегрироваться в процесс принятия решений UCSF (топ-5 медицинских университетов США). Потому что доверие строится медленно: через отношения, через осознанное согласие пользователя, через практику, а не алгоритмом машинного обучения, который все перемалывает.

Выстраивание неизмеримых процессов – тоже работа. Приложение завоевывает место в зоне «неподдающегося обучению», делая скучную работу: выстраивая внутрянку компании так, чтобы модель могла с ней работать, давая модели инструменты, помогая клиенту менять рабочие процессы и перестраивать команды. Компанию, которая делает такой «перевод» между реальностью клиента и возможностями модели, трудно скопировать – и «перевод» никогда не закончится. Интеграция и поддержка длятся столько же, сколько отношения с клиентом, и выигрывают команды, которые поставляют клиенту узкопрофильных инженеров и очень специальные инструменты для работы.

Один пример. В крупной элитной юридической фирме одна только практика M&A генерит почти тысячу сделок в год. Нельзя позволить сотням младших юристов скачивать клиентские файлы себе на компьютер и просить универсального AI-агента их разобрать – по соображениям конфиденциальности и еще по десятку других причин. И даже если можно было бы, вы получили бы разрозненные куски: исправления одного юриста, потом другого, без понимания того, как устроена сделка целиком. Уловить важные сигналы можно на уровне самой сделки, а у сделки есть форма: для слияний и поглощений – соглашение о неразглашении, условия, проверка, договор купли-продажи, вспомогательные документы, чек-лист закрытия; для патентных споров – ходатайства, раскрытие информации, анализ предшествующего уровня техники, снова ходатайства. У каждой практики своя форма, и ни юристы, ни инструменты не взаимозаменяемы между ними:

Юристы из одного направления не могут просто взять и пойти работать в другое, т.к. у них другая специализация,
Инструменты тоже не переносятся – то, что настроено для слияний, не подойдет для патентных споров.

А настоящая задача компании находится еще уровнем выше: управлять всеми практиками параллельно. Так же, как сильный партнер ведет сотни дел одновременно, приводит новые дела и обучает младших юристов. Перестроить такую фирму – это не разовая задача, под которую можно написать тест. Для этого нужен оператор, который будет выжимать максимум из неоднозначных промежуточных целей, где обратная связь неполная, горизонт очень длинный, а среда постоянно меняется.

К сожалению, невидимую ценность так же сложно продавать, как и превращать в массовый товар: не пробуя, компания не может понять, действительно ли AI изменит ее работу к лучшему. Поэтому сильнейшие бизнесы перестают доказывать ценность извне – они заходят внутрь и берут плату за результат. Sierra берет деньги, когда ее агент решает проблему клиента, и ничего не берет, когда перекидывает задачу на человека. Так цена становится способом оценки, и это работает только потому, что Sierra сама определяет, когда можно сказать «проблема решена». Cognition со своим Devin делает тот же ход в программировании с «гарантией результата» – а гарантировать результат можно только в системе, где ты уже внутри и в которой тебе доверяют.

Все привыкли считать, что выдача токенов – это часть продукта лабораторий, которая уже стала товаром массового потребления: когда неважно, у кого купить, лишь бы дешевле. Но это не так. Лучшие AI-компании нового поколения концентрируют обслуживание своих моделей у одного-двух провайдеров (Baseten или Fireworks, предоставляют вычислительные мощности для LLM). Потому что цена за токен закономерно дешевеет, а надежность и гарантированный доступ к мощностям, которых пока на всех не хватает – нет. Где обслуживать модель – это один выбор, какими моделями пользоваться – другой. В товар массового потребления превращается только цена.

Частое возражение: лаборатория – это ваш поставщик, почему бы ей не запустить собственный продукт ниже себестоимости, чтобы вытеснить вас, или не отключить вам доступ к API и забрать рынок себе? Так выглядит настоящее отчаяние, и это бы работало, если бы рынок моделей был монополией. Очевидно, что это не так: происходящее больше похоже на бой насмерть между тремя с половиной игроками, плюс международные команды, которые отстают примерно на шесть месяцев, плюс «младшая лига», которая за последний год выросла в пять раз. Клиенты хотят конкуренции среди поставщиков, а лабораториям важнее доля рынка, чем смерть какого-то конкретного приложения.

Это видно на рынках, где лаборатории конкурируют напрямую. На рынке генеративных чатов лучшая модель никогда не побеждала сама по себе: ChatGPT удерживал лидерство на протяжении нескольких лет, несмотря на сильную конкуренцию. Долю, которую он сейчас теряет, забирает Gemini в основном благодаря Android и Google Search, а не потому что их модель лучше. Anthropic, у которой, по мнению рынка (и общего настроения в сети), сейчас лучшая модель, почти незаметна среди обычных пользователей. Компания построила бизнес в корпоративном сегменте и программировании. Если лучшая модель не может отобрать пользователей у конкурента в самом главном приложении, она не сможет пробраться через больничные записи или банковские обязательства. Люди выбирают не только по качеству модели. Если рынок передовых LLM останется конкурентным, все качественные надстройки над их моделями будут ценными.

Если работу нельзя оценить со стороны, кто-то внутри должен решить, что вообще считать хорошим ответом – и в этом вся суть. Когда таких ответов становится достаточно много, и все решения записаны, они превращаются в стандарт оценки. Harvey определяет такой стандарт для юриспруденции, Sierra – для голосовых агентов. Право определять, что значит «хорошо» в какой-то области, получает тот, кого эта отрасль уже использует. Это право не дается просто так – оно заработано годами внедрения.

Критерии качества, за которые платят реальные деньги, у каждой компании свои: что именно эта компания, по этому типу дел, примет как хорошую работу? И это определено далеко не полностью, потому что глубина права несоизмерима ни с каким публичным тестом. OpenEvidence сейчас определяет, как выглядит безопасное AI-внедрение в медицине. Все это на самом деле не просто измерение – это суждение о том, что истинно и что хорошо, записанное много раз, пока не станет стандартом, по которому смогут оценить всех остальных. Лаборатории не могут просто взять и написать эти стандарты, потому что подобное право голоса существует только внутри профессии. Этот авторитет обычно достается тому, у кого он уже был. Старший юрист пишет юридический стандарт. Определять безопасный ответ в медицине выпадает врачу. А «решенная проблема клиента» означает то, что так считает компания, у которой отношения с этим клиентом уже есть.

Граница поглощения продолжает сдвигаться, потому что мы учимся измерять все больше работы, а затем измеримое съедается. Неподдающаяся обучению территория сужается под ногами того, кто на ней стоит, поэтому нельзя найти защищенное место и расслабиться. Нужно все время шагать к тому, что еще нельзя стандартизировать, и постоянно пересматривать выводы. На узкоспециализированной задаче, с данными, которыми обладает только вы, и вашими собственными оценками качества, можно обучить модель до передового уровня и обойти универсальные модели там, где это имеет наибольшее значение. Такая специализированная модель станет частью вашего преимущества перед другими. Соревноваться на уровне универсальной модели – это вести войну капиталов, которую вы проиграете тому, у кого больше вычислительных мощностей. Это ловушка для компаний с ограниченным доступом к клиенту и легко измеримой задачей. В день, когда такая компания решает, что для выживания ей нужно обогнать передовые модели в широком наборе задач, исход обычно начинает зависеть от размера дата-центров, и финал чаще всего – не независимый победитель, а продажа кому-то с большими вычислительными ресурсами.

Все это – защита. Еще труднее наступление: выбрать, что вообще строить. Именно это Сара все время ищет и находит, может быть, три раза за год. Модель тут не помощник. Она сделает все, о чем вы ее попросите, но не скажет, о чем ее нужно было просить – и вы не можете это протестировать, а значит, не можете этому обучить. Именно поэтому крупные существующие игроки не забирают все: они удерживают то, что имеют, а следующая возможность приходит от того, кто раньше остальных нашел новый способ использовать модель. Может быть, идеи – еще более дефицитный ресурс, чем вычислительные мощности.

Отчаяние имеет место, но верно наполовину. Пустые обертки действительно исчезают – и многое из того, что сегодня выглядит как компания, на деле просто надстройка поверх чужой модели. Но отчаяние ошибается в главном: кое-что остается. Механизм ясен; конечная точка – нет. Сара делает ставку на следующее направление: интеллект продолжит дешеветь, а ценность продолжит смещаться туда, куда модель не может просто так дотянуться. Неподдающееся обучению – это область, в которой ценится история. Поэтому заходите внутрь такой области. Делайте скучный «перевод» между реальностью клиента и возможностями модели. И начинайте записывать, что в этой области считается хорошей работой. Потому что кто-то это все равно сделает. Самый обсуждаемый результат бенчмарк-тестов моделей за год – это карта территории, которая вот-вот обесценится, и уведомление о том, кто вот-вот потеряет право решать, что вообще считается хорошим результатом.

Спасибо, что дочитали до конца!

А если вам близко, как мы смотрим на венчур, и вы хотите узнать о возможности стать инвестором фонда – пишите нашей COO Кате в телеграм @katiatatulova

ссылка на оригинал статьи https://habr.com/ru/articles/1048006/