Почему Хомский неудобен для AI-индустрии

от автора

О grammar constraints, валидном JSON и ошибочном понимании языка

Кажется, что разговор о формальных грамматиках в LLM — это узкая инженерная тема для тех, кто заставляет модель соблюдать формат ответа. Но вокруг этого частного приема все чаще вырастает более сильный тезис: будто ограничение генерации не просто делает вывод надежнее, а подводит модель ближе к смыслу и даже к самой природе языка. Именно в этот момент технический разговор перестает быть только инженерным.

При этом сегодня постоянно смешиваются два уровня: инженерный и теоретический. На инженерном уровне grammar-constrained decoding действительно полезен: он делает вывод структурно предсказуемым и снижает вероятность формальных ошибок. Но из того, что модель стала аккуратнее оформлять ответ, совсем не следует, что она приблизилась к человеческому пониманию. На эту подмену, например,  указывал Ноам Хомский с соавторами в эссе The False Promise of ChatGPT (NYT, 2023), где называл доминирующую линию современной AI-индустрии следствием ошибочного понимания языка и знания.

Формат встречи не гарантирует валидность содержания. Хомский и Джефри Э.

Формат встречи не гарантирует валидность содержания. Хомский и Джефри Э.

Где реальная польза и где начинается подмена

Начать стоит с честного признания: формальные грамматики — это сильный инженерный инструмент, особенно там, где выход должен соответствовать контракту, парсеру или исполняемой схеме. Работы по grammar-based decoding показывают, что такой подход может улучшать структурированную генерацию и в ряде задач конкурировать даже с более тяжелыми схемами дообучения, особенно когда данных мало, а формат ответа заранее известен. Именно поэтому constrained decoding отлично чувствует себя в задачах вроде information extraction, генерации формальных структур и агентных пайплайнов, где ошибка формата дороже, чем потеря литературной свободы.

Проблема начинается в тот момент, когда практическую пользу начинают превращать в философию языка. В хомскианской рамке язык — это не каскад фильтров, который ограничивает звуки, слова и предложения ради коммуникации, а внутренняя когнитивная система, способная порождать потенциально бесконечное число структурированных выражений из конечных средств. Поэтому описание языка как цепочки «ограничений» слишком легко соскальзывает в старую структуралистскую интуицию: будто смысл возникает просто потому, что мы все сильнее сужаем пространство допустимых комбинаций.

Еще важнее другое. В такой картине синтаксис почти незаметно отождествляется с линейной последовательностью токенов. Для Хомского это и есть ошибка уровня постановки задачи: синтаксис естественного языка работает не только и не столько как контроль порядка слов, сколько как построение иерархических структур, которые затем уже линейризуются в речь или текст. Иначе говоря, модель, которая научилась не ломать JSON-скобки, еще не приблизилась к тому, как человеческий разум строит языковую структуру. Подробнее на эту тему можно почитать не только Хомского, но и, например, Mission: Impossible Language Models (Kallini et al., arXiv:2401.06416 / ACL 2024).

Почему синтаксис не рождает семантику

Самая соблазнительная мысль в подобных дискуссиях звучит так: если жестче контролировать синтаксис, то автоматически освобождается место для семантики. Но даже прикладные исследования по grammar-constrained decoding прямо показывают, что синтаксическая валидность не устраняет смысловые ошибки: модель может строго следовать грамматике и одновременно заполнять корректную структуру неверным содержанием. Идеально валидный JSON не перестает быть галлюцинацией только потому, что его удобно распарсить (см. подробнее — Grammar-Constrained Decoding Makes Large Language Models Better Logical Parsers (Raspanti et al., 2024)).

Здесь хомскианская критика становится особенно неудобной. В эссе Noam Chomsky: The False Promise of ChatGPT Хомский, Иэн Робертс и Джеффри Ватумалл утверждают, что доминирующая линия современного AI опирается на ошибочное понимание языка и знания. Их главный тезис прост: статистическое предсказание последовательностей и объяснение мира — не одно и то же. Человеческий интеллект важен не только тем, что продолжает паттерны, но и тем, что различает возможное и невозможное, строит каузальные объяснения и связывает высказывания с истиной, а не только с вероятностью.

Здесь полезно вспомнить другую типичную ошибку AI-рынка: внешний эффект слишком легко принимают за внутреннее качество системы. Так же как LLM-обвязку с planner’ом, памятью, валидаторами и guardrails нередко поспешно называют «агентом», грамматически ограниченную генерацию легко начать считать шагом к пониманию языка. Но в обоих случаях мы часто видим не новое когнитивное свойство, а более жестко организованную архитектуру вокруг модели.

Надежность возрастает, формат стабилизируется, число синтаксических ошибок падает — однако из этого еще не следует, что система обрела семантику, цель или внутреннее представление о мире. И если это различие кажется слишком философским, у него есть вполне прикладные последствия.

Даже если вынести в сторону философию и оставить только компьютерную науку, у grammar-constrained decoding есть вполне приземленные ограничения. Одно из ключевых — token misalignment: парсер оперирует терминалами грамматики, а LLM генерирует субсловные токены, и эти два уровня далеко не всегда совпадают. Из-за этого модель иногда вынуждена проходить через неудобные промежуточные токены или «мостики», которые искажают ее естественное вероятностное распределение и ухудшают качество генерации. “Поскольку субсловные токены LLM не совпадают напрямую с большинством заданных синтаксических ограничений, ключевой задачей в ограниченном декодировании является сопряжение словаря LLM с синтаксическим ограничением” (см. DOMINO: A Dual-System for Synergistic Large Language Model and Program Execution (Beurer-Kellner et al., 2024) и связанные работы по GCD).

Есть и второй неприятный момент: слишком жесткая грамматика может ухудшать собственно рассуждение модели. В работах по constrained reasoning (CRANE: Reasoning with constrained LLM generation (Banerjee et al., ICML 2025 / arXiv:2502.09061, The Hidden Cost of Structure: How Constrained Decoding Affects Language Model Performance (Schall & de Melo, RANLP 2025))  показано, что если разрешить модели только финальные синтаксически правильные ответы и запретить промежуточные шаги, ее способность к reasoning падает, а для восстановления качества приходится специально расширять грамматику под промежуточные рассуждения. Иными словами, жесткий контроль вывода нередко лечит формат ценой потери гибкости мышления — ровно там, где многие и ждут от LLM наибольшей пользы.

Вместо заключения

Из всего этого не следует, что формальные грамматики бесполезны; наоборот, они очень хороши там, где задача уже сведена к формальному контракту, а мир заранее описан схемой, типами, допустимыми сущностями и правилами валидации. Но из этого следует другое: грамматики стоит понимать как способ дисциплинировать вывод, а не как мост от статистической генерации к человеческой семантике.

Если перевести это на язык без лишней метафизики, вывод будет простым. Grammar constraints — это хороший инфраструктурный слой  для надежного вывода: они нужны, когда вы строите агента (чтобы вы не вкладывали в это понятие), генератор структур, extractor, router или typed API. Но как только из этого начинают делать вывод, что «синтаксическое сито» само по себе рождает смысл, мы уже говорим не об инженерии, а об очень сомнительной теории языка.

Самый продуктивный взгляд здесь, на мой вкус, предельно приземленный: constrained decoding не заменяет семантику, а покупает дисциплину формата. Все остальное по-прежнему приходится добирать отдельно — retrieval, верификацией, исполнением кода, проверкой по внешнему миру, доменными ограничениями и нормальной архитектурой системы.

И в этом, возможно, нет никакой драмы. Драма начинается только тогда, когда удобный инженерный патч начинают выдавать за модель мышления.

Почитать есть у нас:

ссылка на оригинал статьи https://habr.com/ru/articles/1027916/