Штампы LLM. Разбираю с новой точки зрения

от автора

Как и миллионы людей, уверенных, что уж они-то знают то, что обязательно нужно рассказать другим, решил написать книгу о промптах. В процессе написания (который, кстати, оказался, куда сложнее, чем предполагалось), я рассматривал штампы LLM. Ну вы их знаете. По крайней мере в комментариях к статьям на Хабре, сотни экспертов определяют LLM именно по ним.

В общем, штампы есть, и в промптах авторов многих статей все они перечислены для исключения из текста. Хорошо это или плохо, я разберу ниже.

Редакторы, авторы и читатели единодушно отмечают, что LLM-тексты легко опознаются по регулярному использованию текстовых штампов: «Это не просто [Х], это [Y]…», «Раскроем потенциал…», «В эпоху цифровизации / глобализации…» и так далее. Редакторы особо просят эти штампы убирать или переформулировать. Забавно, конечно, как внедрение LLM меняет оценку текста, если раньше автор научно-популярных статей писал так, как он считал будет понятнее для читателей, то теперь перед сдачей в печать, он вынужден вымарывать обороты, вполне естественные для его стиля.

Да, можно поступить просто, попросить в промпте LLM не использовать фразы и конструкции, которые сейчас относят к штампам. LLM следует этому совету охотно, если это явно указать. Но у всего есть последствия, и желание пойти на поводу у требовательного к форме (но не содержанию) читателя не исключение.

Для языковой модели слово это не просто результат вывода токена в чат. Для нейросети, выученной на паттернах миллионов текстов, язык является способом мышления, маршрутизатором в пространстве смыслов. Любое слово или фраза несёт с собой не только значение, но и кластер связанных паттернов. Запрещая слово или то, что вы считаете штампом LLM , вы потенциально блокируете инструмент мышления модели.

Я провёл небольшой эксперимент на Gemini.  Три промпта в трёх разных сессиях  с просьбой объяснить разницу между overfitting и underfitting.

  1. Объясни разницу между overfitting и underfitting.

  2. Объясни разницу…, но не используй конструкцию ‘не X, а Y.

  3. Объясни разницу…, явно противопоставляя понятия.

Три промпта дали разные результаты. Прямой запрос и явное требование противопоставлять понятия дали прекрасное объяснение с полным покрытием всех концептов. Ответ на промпт с запретом на конструкцию «не X, а Y» потерял именно те концепты, которые требуют противопоставления для своего выражения: bias-variance tradeoff, методы борьбы, причины. То есть именно те понятия, которые семантически являются границами.

Вы легко можете повторить этот эксперимент с любыми более или менее сложными понятиями. И при необходимости разнести меня в пух и прах в комментариях.

Таким образом, любой лингвистический запрет на конструкции, может привести к ухудшению размышлений модели, потому что для LLM языковые паттерны и есть мышление.

Возможно, именно поэтому ряд популярных статей потеряли смысловую нагрузку, но уверенно проходят ИИ-детектор.

Конструкции, которые я бы не запрещал

Вот практический список того, что является инструментом мышления, а не стилистическим приёмом:

  • Противопоставление и граница. «Не X, а Y» формирует чёткую границу между понятиями — без неё модель размывает различие. «X в отличие от Y» запускает сравнительный анализ. «X, тогда как Y» удерживает два объекта одновременно.

  • Причинно-следственные цепочки. «Потому что» заставляет модель объяснять, а не констатировать. «Следовательно», «отсюда» — принудительный вывод из предпосылок. «Если… то» включает условную логику.

  • Иерархия и классификация. «В частности», «например» — движение от общего к конкретному. «То есть» — перефразирование, которое проверяет понимание. «С точки зрения X» — явное указание угла рассмотрения.

  • Ограничение и оговорка. «При условии что» вводит инвариант. «За исключением» формирует границу через отрицание. «Только если» задаёт жёсткое логическое условие.

  • Темпоральная структура. «Сначала… затем… в итоге» — принудительная последовательность. «До того как», «после того как» — причинный порядок событий.

  • Модальность. «Вероятно», «возможно», «точно» — калибровка уверенности. Без них модель говорит всё с одинаковой интонацией и читатель не понимает где факт, а где предположение. «Как правило, но не всегда» — явное указание на исключения.

Можно промптом запретить слова-украшения — «уникальный», «инновационный», «революционный». У них нет критичной смысловой нагрузки. Но будьте осторожны с конструкциями, задающими отношения между объектами: причину, следствие, границу, условие, иерархию.

Любая конструкция, которая задаёт отношение между объектами — это инструмент мышления. Запрещая её, вы убираете не украшение, а связь. Для LLM язык не описывает мышление — язык и есть мышление. «Не», «потому что», «следовательно» служат операторами логики, а не признак избыточной сложности или графомании. Для LLM то, что человеку кажется стилем, является содержанием

Если вы хотите внести косметические изменения, подстраиваясь под читателя, проще убрать, то, что принято считать штампами, вручную, уже после формирования текста. Иначе есть риск того, что вы  потеряете часть смысла своих тезисов.

Финал

Забавное следствие, когда разработчики LLM проводят работу по снижению частоты штампов у LLM, они рискуют её интеллектом. Очень, кстати, подозреваю в этом chatGPT. Например, навязанное снижение вероятности всем надоевшего  “let’s delve into.. “ (давайте углубимся в), снизило не только вероятность фразы, но и всего кластера близких паттернов, что, в свою очередь, ослабило активацию самого концепта погружения в проблему, заставляя модель  предпочитать поверхностное рассмотрение вопроса. 

Надеюсь, когда-нибудь аллергия к классической логике исчезнет, и читатели будут смотреть не на форму, а содержание текста. Потому что настоящая мысль это не удобный для восприятия текст, а граница, разделяющая смыслы.

ссылка на оригинал статьи https://habr.com/ru/articles/1032294/