Помидор, которого нет: почему VLA-модели не понимают, что они держат

от автора

Сцена, которая повторяется в каждой демке

Робот подходит к столу. На столе помидор. Команда: «возьми помидор и положи в миску».

Камера на запястье ловит объект, VLA-модель (RT-2, π0, Helix — нужное подчеркнуть) выдаёт поток моторных команд, пальцы смыкаются, помидор оказывается в миске. Зал аплодирует.

А теперь возьмём помидор, который подгнил с одной стороны. Или хурму, которую модель в обучении видела два раза. Или тот же помидор, но в полумраке кухни, а не под студийным светом. И вся магия рассыпается: робот либо давит, либо роняет, либо застревает в бесконечной попытке «дотянуться».

Это и есть проблема последнего сантиметраявление, у которого уже есть собственное имя в литературе. Робот доехал, навёлся, почти схватил — и на финальных миллиметрах контакта вся точность мира перестаёт помогать.

Что на самом деле делает VLA

Архитектура современных VLA выглядит элегантно. Берём предобученную vision-language модель, дообучаем её предсказывать не текст, а дискретизированные действия робота — углы суставов, целевые позы, моторные команды. RT-2 кодирует действия через DCT-сжатие и BPE-токенизацию, получая 63% прирост на новых объектах. π0 выдаёт команды с частотой до 50 Гц. Helix управляет 35 степенями свободы верхней части гуманоида на встроенных GPU с низкой задержкой.

Цифры впечатляют. Но если присмотреться к тому, что именно модель выучивает, картина перестаёт быть такой бодрой.

VLA не учит «что такое помидор». VLA учит статистическое распределение действий, которые в обучающих демонстрациях коррелировали с пикселями, похожими на помидор. Это разные вещи. Очень разные.

Помидор для модели — это:

  • определённый кластер в латентном пространстве визуального энкодера,

  • ассоциированный с типичными траекториями захвата из датасета,

  • условно сопровождающийся языковым токеном «tomato» в инструкции.

Никакого помидора как сущности там нет. Нет понимания, что он лопается. Нет знания, что сок течёт. Нет модели того, что это пищевой продукт, что он мягкий внутри и упругий снаружи, что давление выше определённого порога необратимо разрушает структуру.

Почему это не «доучится со временем»

Здесь обычно появляется возражение: «ну так это пока, накопим данных, и всё выучится». Это рассуждение игнорирует структурную проблему, которую хорошо сформулировали в data-centric ревью VLA:

Видео того, как люди берут чашку, не содержат данных, специфичных для робота — углов суставов, поз эффектора, моторных команд.

Дело не в количестве данных. Дело в том, что данные о действии и данные о понимании живут в разных пространствах, и пересобрать одно из другого статистически — невозможно. Можно бесконечно увеличивать датасет демонстраций, и модель будет лучше интерполировать внутри распределения, но никогда не получит онтологию объектов, потому что в обучающем сигнале её просто нет.

Это подтверждается эмпирически. Отчёт пользователя π0 лаконичен:

Spatial reasoning capabilities are still basic, lacking comprehension of “objectness” and dimensions.

«Lacking comprehension of objectness» — это не баг конкретной модели. Это диагноз всей парадигме end-to-end обучения от пикселей к моторным командам. У системы нет уровня, на котором объект существовал бы как объект, а не как корреляция.

Почему железо это не спасёт

В ответ на проблему последнего сантиметра индустрия пошла самым очевидным путём — наращивать сенсорику. Тактильные датчики, проприоцепция, высокочастотная обратная связь от пальцев, камеры на запястьях вместо ладони (как у недавно показанной Xynova Flex 2). Логика понятная: если робот не понимает, что он держит — пусть хотя бы чувствует это лучше и подстраивается на лету.

Это работает. До определённого предела. Реактивный тактильный контроллер действительно пересобирает хват в реальном времени без модели объекта. Но это решение симптома, а не причины. Робот по-прежнему не знает, что он держит — он просто быстрее реагирует на физические последствия неправильного хвата.

И тут вылезает фундаментальное ограничение, на которое указывает обзор тактильного обучения в робототехнике:

Когда вы телеуправляете роботом, у вас может быть haptic feedback, но почти никогда не будет tactile feedback. Эксперт-демонстратор не использует тактильное чувство при выполнении задачи — а значит, даже если у робота есть тактильные сенсоры, он, скорее всего, не научится их эффективно использовать. Тактильный сигнал просто не будет коррелировать с успехом задачи.

То есть мы добавили сенсоры, но модель не знает, что с ними делать, потому что в обучающих данных не было примеров их осмысленного использования. Получается замкнутый круг: чтобы научить модель использовать тактильность, нужны демонстрации с тактильностью, которых нет, потому что люди их не дают.

Что было бы, если бы агент действительно понимал «помидор»

Представим на секунду альтернативную архитектуру. Не end-to-end от пикселей к моторам. А такую, где у агента есть внутренняя модель мира, в которой объекты существуют как сущности с физическими свойствами, историей, контекстом использования.

В такой модели «помидор» — это не кластер пикселей. Это узел в онтологии, у которого есть:

  • физика (упругий снаружи, текучий внутри, порог разрушения ~5 Н на типичный плод),

  • семантика (еда, готовится, портится, бывает разной спелости),

  • прагматика (если раздавить — будет грязно, последствия для оператора),

  • история (вчера хозяйка купила пять штук, два уже использованы),

  • модальный статус (этот конкретный помидор — спелый, мягкий, с битым боком справа).

Когда такой агент тянется к помидору, вопрос усилия решается не ПИД-регулятором на тактильной обратной связи, а априорной моделью: «это спелый помидор, начну с минимального усилия 1.5 Н, буду готов к рассогласованию, если он окажется мягче ожидаемого». Тактильный сигнал в этой схеме — не управляющий контур, а уточняющий канал для модели мира.

Разница принципиальная. В первом случае агент реактивен — он узнаёт о свойствах объекта только в момент контакта. Во втором — он предсказывает свойства до контакта, а тактильная информация лишь корректирует прогноз. Это разница между «человек на ощупь подбирает давление» и «человек заранее знает, что помидор — это помидор, и держит соответственно».

Куда это всё идёт

Признаки сдвига уже есть. Свежий обзор по робототехническим world models за октябрь 2025 фиксирует, что сообщество начало целенаправленно двигаться от чистых VLA к архитектурам с явной внутренней моделью. Работы по analytic concepts пытаются построить мост между семантическими знаниями LLM и физической манипуляцией через символьные представления свойств объектов. Structured World Models на RSS 2025 — отдельный workshop.

Это правильное направление. Но оно упирается в ту же стену, что и сами LLM в своё время: символическая онтология не возникает из статистики. Её нужно либо заложить (и тогда она не масштабируется), либо вырастить из чего-то более фундаментального, чем корреляция в весах.

И вот здесь становится интересно. Если мы хотим, чтобы агент переживал взаимодействие с объектом — а не просто реагировал на него — нам нужна архитектура, в которой состояние агента меняется от взаимодействия так, как меняется состояние живого организма. Не «модель обновила веса по градиенту», а «состояние внутреннего гомеостаза агента сместилось, потому что он только что чуть не раздавил то, что должен был аккуратно положить».

Это территория метаболической AI — архитектур, где у агента есть внутренние ресурсы, которые расходуются и восстанавливаются, где действия имеют стоимость для самого агента, и где понимание объекта — это в том числе понимание, во что мне обойдётся обращение с ним неправильно. Не штраф в loss-функции, а реальное изменение внутреннего состояния, которое агент проживает.

Это другая школа, и сейчас она тихая. Но я подозреваю, что именно отсюда придёт следующий рывок — потому что все остальные пути ведут либо в наращивание датасетов, которое уже даёт убывающую отдачу, либо в накручивание сенсорики, которая ловит симптомы.

Помидор останется помидором только тогда, когда у агента появится что терять от того, что он его раздавит.


Пост написан по мотивам наблюдений за демонстрациями VLA-моделей 2024–2025 и текущей работы над архитектурами синтетического сознания с метаболическим контуром.

ссылка на оригинал статьи https://habr.com/ru/articles/1040236/