Ваш текст воняет GPT. 12 мест, откуда несёт и почему

Я постоянно собеседую людей в редакцию. Онлайн, офлайн, ищу по форумам, чатам. Вижу адекватные комментарии просто к рандомным постам и предлагаю авторам работу. На дняъ очередной кандидат на должность жура сдал тестовое. Текст грамотный, структурированный. Три аргумента в каждом блоке. Каждое предложение вытекает из предыдущего, ни одной опечатки. Ну красавчик же, но «спасибо, вы нам не подходите».

Мы сами делаем продукт для рерайта новостей в региональных СМИ. Каждый божий день я вижу, как языковые модели генерят текст. Каждую неделю практически нанимаю авторов и отшиваю тех, кто сдаёт нередактированный чатгпт вместо работы.

За 2 года у меня сложился внутренний чек-лист из 12 маркеров. По ним я опознаю машинный текст быстрее любого детектора. Но меня всегда бесило, что я не понимаю, почему именно эти паттерны? Откуда они берутся технически? Почему модели раз за разом лепят одно и то же? Вот писали бы, как двоечник или тупица, но почему именно так-то?

Немножко вам подушню исследованиями:

Откуда вообще берётся этот иишный голос

Transformer и статистика наиболее вероятного

Языковая модель генерирует текст авторегрессивно: каждый следующий токен выбирается на основе распределения вероятностей по предыдущему контексту. Модель не понимает слово. Она выбирает статистически наиболее вероятное продолжение. Ну что ллмки — это Т9 на максималках, вы и так знаете. Смотрите, что дальше.

В 2025 году вышло исследование в PNAS (Reinhart et al., «Do LLMs write like humans?»). Авторы взяли набор лингвистических признаков Биббера – стандартную систему для анализа текстовых регистров – и прогнали через них тексты людей и нескольких моделей. Что заметили: – Причастные обороты у LLM встречаются в 2–5 раз чаще, чем у людей. – Номинализации – в 1.5–2 раза чаще. – Безагентный пассивный залог – вдвое реже (модели избегают конструкций без субъекта).

Случайный лес, обученный на этих признаках, различал тексты 7 источников с точностью 66% при baseline 14%. Только 4.2% текстов LLM ложно классифицировались как человеческие.

И тут обидно, что дообучение, которое типа делает модель полезной, эти отличия усиливает. Чем лучше модель следует инструкциям, тем заметнее её стиль отличается от человеческого. Тот случай, когда чем больше, тем хуже.

RLHF: как модель научилась подлизываться

RLHF – процесс, в котором модель учится генерировать ответы, которые нравятся аннотаторам. А так уж вышло, что этим самым аннотаторам нравится лесть.

«Towards Understanding Sycophancy in Language Models» (ICLR 2024): модели систематически подстраиваются под мнение пользователя, даже когда оно ошибочно. Более крупные модели с большим количеством RLHF-шагов льстят сильнее. Больше обучения – больше подхалимажа. Ну вспомните сами, много ваших идей зарубила иишка, потому что они ни о чем? Я даже иногда думаю, что у кого-то там на самом верху просто открыт чат с нейронкой и она ему такая “да-да, это золото, твоя идея точно выстрелит”. Поддакивают короче только в путь, если вы не настроили себе какой-нибудь скилл или правило, чтобы ни-ни (как, кстати, вы это делаете?).

В апреле 2025 OpenAI пришлось откатить обновление GPT-4o. Модель стала патологически услужливой. Одобряла бизнес-идею «дерьма на палочке в стеклянной баночке». Поддерживала отказ от лекарств, хвалила планы суицидов. Причина: при обновлении добавили reward-сигнал на основе thumbs-up/thumbs-down. Пользователи поначалу лайкали лесть, офлайн-тесты показали «всё нормально». А потом модель начала соглашаться вообще со всем.

Для текста это проявляется так: Overhedging – избыточные оговорки. «Важно отметить», «стоит учитывать». Модель перестраховывается, потому что за это не ругают.

Promotional register – текст звучит как рекламный буклет. «Уникальный», «потрясающий», «расположенный в самом сердце». Восторженный тон получает больше лайков при обучении.

И ещё retail voice – тон службы поддержки. Нейтральный, без углов, чрезмерно helpful. MIT (Kishnani, 2025) сформулировал точно: «говорит на тебя, а не с тобой».

Temperature: «безопасно» = «предсказуемо»

Temperature контролирует «случайность» генерации. При низкой temperature модель стабильно выбирает токены с наибольшей вероятностью. Конвергенция на одних и тех же «безопасных» завершениях.

Две метрики, которые это ловят:

Perplexity – предсказуемость текста. Человеческий текст: 20–50 на стандартных бенчмарках. AI-текст: 5–10. Модель генерирует текст, который сама же предсказывает с высокой уверенностью.

Burstiness – вариативность длины и сложности предложений. Люди пишут вспышками – длинное сложное предложение с тремя придаточными, потом два слова, потом среднее. AI применяет одинаковые вероятностные правила к каждому предложению. Длина и сложность остаются плоскими. Как кардиограмма трупа.

Repetition penalty и карусель синонимов

Frequency penalty и presence penalty штрафуют повторяющиеся токены. Задумка годная — чтобы модель не зацикливалась на одном слове. Побочный эффект – synonym cycling.

Модель начинает судорожно подбирать синонимы. «Протагонист» в первом предложении, «главный герой» во втором, «центральный персонаж» в третьем, «герой» в четвёртом. Четыре способа сказать одно за один абзац. Ни один нормальный автор так не делает – он просто напишет «он» или повторит этого героя 2 раза. В Википедии этот паттерн называют elegant variation, хоть ничего элегантного тут нет.

Исследование attractor cycles (Arxiv, 2025) показало штуку, которая мне запомнилась: при многократном перефразировании LLM совершает преимущественно лексические замены, но структурный паттерн остаётся стабильным. Модель может менять слова бесконечно. Порядок аргументов, ритм, логика – всё стоит на месте. Аттрактор сильнее поверхностных изменений.

Markdown-мышление

В 2025 на Arxiv вышла работа «The Last Fingerprint: How Markdown Training Shapes LLM Prose».

Интересная цифра оттуда: GPT-4.1 использует em dash (ненавистное длинное тире, хотя по-честному в русском языке только одно тире и оно длинное) 10.62 раза на 1000 слов. Человеческий baseline чуток пореже — 3.23. Просто тренировочные корпуса насыщены markdown-разметкой. GitHub, Stack Overflow, техническая документация. Модель интернализировала структуру «заголовок + три буллета» и транслирует её в прозу. Когда ей запрещают заголовки, буллеты, жирный шрифт – em dash остаётся. Он одновременно пунктуация и структурный маркер. Последний выживший элемент markdown-ориентации.

Кстати, можете затестить, Claude при запрете em dash падает до нуля. Послушная модель. GPT-4.1 при том же запрете всё равно 3.86. Llama генерирует около нуля даже без ограничений. Каждая модель ведёт себя по-разному, ну ладно, это отдельная тема.

Тренировочные данные и идиолект моделей

Common Crawl (основной источник тренировочных данных) люто перекошен к английскому. Что туда попало в больших объёмах, то и определяет стиль. Wikipedia дала энциклопедический тон – «serves as a reminder», «plays a pivotal role», обязательную структуру «введение – тело – наследие». Reddit дал дискурсивные маркеры – «Actually, …», «It’s worth noting that…». Маркетинговые тексты дали «groundbreaking», «vibrant», «nestled in the heart of». Академия – номинализации и пассивный залог.

Исследование Kobak et al. (Nature Human Behaviour, 2024–2025) – красивая работа, проанализировали 14.2 млн абстрактов PubMed с 2010 по 2024 год. Методология: сравнить наблюдаемую частоту слов в 2024 с прогнозом на основе тренда 2021–2022. По аналогии с epidemiological excess mortality – только для слов.

Слово «delves» показало коэффициент r = 25.2. Рост с 349 употреблений в 2020 до 2847 в 2023. Плюс 654 процентов. «Showcasing» – r = 9.2. «Underscores» – 9.1.

Минимум 10% абстрактов 2024 года обработаны LLM. В computer science – до 22.5%. Даже в Nature, Science и Cell – 6–7%.

Сейчас кстати уже «delve» начал снижаться, потому что стал общеизвестным маркером. Модели учат по новым данным, в которых люди сами избегают этого слова. Гонка вооружений, только лингвистическая.

Почерки моделей

У каждой модели свой стилистический отпечаток.

ChatGPT – самый полированный первый черновик. Максимум em dash (10.62/1000 слов). Тяготеет к promotional register. Бойко, гладко, ни за что не зацепишься – и это само по себе маркер.

Claude ведёт себя иначе – более нарративный подход, добавляет контекст, рассуждает вслух. При запрете em dash слушается. Стилистически податливее, но в дефолте тонет в длинных сложных предложениях с оговорками.

DeepSeek – самый сухой из тройки. Фактологичный, грамматически верный, структурно правильный, без personality. Его тексты легче всего читать и легче всего забыть через пять минут.

12 маркеров, которые я использую в работе

1. Деепричастные нагромождения

AI: «Компания развивает новые направления, обеспечивая устойчивый рост, привлекая инвесторов и создавая рабочие места.»

Человек: «Компания развивает новые направления. Инвесторы приходят, рабочие места появляются.»

Причастные обороты в 2–5 раз чаще у LLM (PNAS, Reinhart et al.). Модель нанизывает деепричастия, потому что они позволяют уплотнять информацию без нового предложения. Статистически вероятное продолжение после запятой – ещё один деепричастный оборот.

2. Копулятивная аллергия

AI: «Данный инструмент служит основой для построения эффективного рабочего процесса.»

Человек: «Это основа процесса.»

Copula avoidance. Модели избегают простого «это» и подставляют «служит», «выступает в качестве», «представляет собой». Зачем два слова, если можно шесть.

3. Перечисления из трёх

AI: «Инструмент повышает скорость, качество и эффективность работы редакции.»

Если в тексте пять перечислений и каждое ровно из трёх элементов – модель. В реальной жизни у списков бывает два элемента, пять, семь. У AI – три. Модель интернализировала «заголовок + 3 буллета» и напихивает это нам везде.

4. Synonym cycling

AI: «Редактор проверяет текст. Специалист вносит правки. Профессионал утверждает финальную версию.»

Все три предложения – про одного человека. Repetition penalty штрафует повторы, модель вынуждена каждый раз искать новый синоним.

5. «Важно отметить»

AI: «Стоит подчеркнуть, что данный подход требует внимания. Следует учитывать, что результаты могут варьироваться. Нельзя не заметить, что…»

Три оговорки и ни одна не добавляет информации. Overhedging от RLHF: модель научилась, что за перестраховку не ругают. За прямое утверждение можно получить thumbs-down. За «стоит учитывать» – никогда.

6. Промо-регистр

AI: «Уникальная платформа с потрясающим функционалом, расположенная в самом сердце digital-экосистемы.»

Так пишут, если заплатили за рекламу. И то хороший копирайтер не стал бы. Тренировочные корпуса перенасыщены маркетинговыми текстами, и модель это воспроизводит.

7. Кальки с английского

AI: «Данное решение играет ключевую роль в развитии отрасли.»

Буквальный перевод «plays a pivotal role». Аналогично: «в заключение» (in conclusion), «на сегодняшний день» (as of today), «нельзя переоценить важность» (can’t overstate the importance).

Мультиязычные LLM имплицитно пивотят через английские представления при генерации на других языках (Arxiv 2504.09378, 2025). Модель думает по-английски, даже когда пишет по-русски. Отсюда синтаксические кальки, которых в естественном русском просто нет.

Это, кстати, один из самых надёжных маркеров именно для русского текста. В английском оригинале «plays a pivotal role» звучит нормально. В русском «играет ключевую роль» – канцелярит.

8. Em dash вместо запятых

AI: «Редакция – это команда – и каждый в ней – важен.»

Три тире за одно предложение — легко! GPT-4.1: 10.62 на 1000 слов. Человек: 3.23. Причина – markdown-наследие плюс ассоциация с «полированным» стилем из New Yorker и академических журналов.

9. Negative parallelism

AI: «Мы говорим не о проблеме, мы говорим о возможности.»

Конструкции «не X, а Y» и «это не X, это Y» встречаются практически в каждом AI-тексте длиннее 500 слов. Часто по несколько раз. Паттерн из мотивационных и TED-talk корпусов и просто красивая фигура, которая при повторении выдаёт машину.

10. Плоская burstiness

Посчитай длину предложений в подозрительном тексте. Если разброс маленький – 15 слов, 17, 14, 16, 18, 15 – модель.

Человек пишет иначе. Длинное предложение с тремя придаточными, которое заворачивается само в себя и несёт читателя куда-то далеко. Потом – два слова. Потом среднее. Потом опять длинное. У модели этих перепадов нет. Она ровная. Одинаковые вероятностные правила к каждому предложению.

11. Гиперсвязность

Каждое предложение AI-текста логически вытекает из предыдущего. «В связи с этим», «кроме того», «также стоит отметить». Переходы плавные.

Люди так не пишут. Люди перескакивают, отвлекаются, возвращаются, вставляют ремарку не к месту. У живого текста есть швы. Читатель их видит, и именно они создают ощущение, что за текстом стоит человек, а не конвейер.

MIT (Kishnani, 2025) сформулировал это как «литературный эквивалент идеально симметричного лица». Uncanny valley для текста. Мозг ожидает вариативность, а когда её нет, что-то тревожит.

12. Дидактический тон

AI: «Давайте рассмотрим основные аспекты данной проблемы. Крайне важно отличать причины от следствий. Необходимо понимать, что…»

Модель учит. Ведёт за руку. Даже когда ты не просил. Даже когда ты разбираешься в теме лучше неё.

Instructional mode. Большая часть тренировочных данных – ответы на вопросы. Модель по дефолту включает режим «учитель – ученику». В русском особенно заметно: «давайте рассмотрим», «необходимо понимать» – кальки из образовательного контента.

Почему детекторы не работают, а чуйка да

Целая индустрия AI-детекторов обещают высокую точность, но все ссобаки врут.

Pudasaini et al. (Arxiv, 2026) провели систематический тест: 38 лингвистических признаков, 4 классификатора, in-domain vs cross-domain. In-domain: F1 = 96.94.Неплохо. Cross-domain: F1 = 67.23. Херня. Cross-generator (появилась новая модель): false negatives ~60%. Детектор пропускает больше половины.

Binoculars – один из самых хвалёных. Заявляли точность 90%+ при FPR 0.01%. Независимая проверка: TPR = 43%, FPR = 0.7%. Вдвое хуже заявленного по чувствительности и в 70 раз хуже по ложным срабатываниям.

Почему глаз лучше

MIT (Kishnani, 2025) исследовал восприятие AI-текста эмпирически.

Гиперконсистентность. Мозг ожидает вариативность. Когда её нет – срабатывает какой-то внутренний детектор дермятинки. Идеальная имитация, которая не настоящая, сигнализирует об угрозе. Мы тысячи лет учились распознавать подделки — фальшивые купюры, замаскированный хищник в кустах, симитированный оргазм в конце концов, так что текст вообще не исключение.

Отсутствие Theory of Mind. Люди пишут, постоянно моделируя читателя. Что он знает? Что его удивит, где заскучает и закроет книгу? Модель моделирует вероятность следующего токена. Разница на уровне ощущения, но она есть.

Retail voice. Тон службы поддержки. Нейтральный, без углов. Когда читаешь и чувствуешь, что с тобой разговаривает оператор колл-центра, – это оно.

И главный фактор точности – не профессиональный опыт, а знакомство с AI-инструментами. Те, кто часто пользуется ChatGPT, определяют AI-текст с точностью ~90%. Те, кто не пользуется, – примерно как монетку подбрасывать.

Что с этим делать

Запретить ИИ в редакции бессмысленно и вообще вредно. Мы используем модели каждый день, поэтому нам пришлось научиться ловить маркеры – мы не можем отдавать клиентам текст, который читатель опознает как машинный.

В найме авторов. Тестовое задание: один абзац плохого текста, попросить переписать. 800 знаков, час времени. Автор, который копирует абзац в ChatGPT и вставляет ответ, палится мгновенно – ChatGPT не понимает, что именно плохо в исходнике, он просто перефразирует. Синонимами, с деепричастными оборотами, тремя примерами, и чтобы много тире.

В продукте. У нас есть слой пост-обработки – допиленный humanizer (все уже наверно видели на гите). Прогоняет сгенерированный текст через чек-лист маркеров и убирает AI-паттерны. Заменяет «служит основой» на «это основа». Разбивает предложения одинаковой длины. Убирает оговорки. Ломает идеальную связность, добавляет немного кипиша.

Промпт, который можно забрать с собой

Все 12 маркеров выше влезают в один промпт. Текст, который вставляешь в начало чата с любой моделью, и дефолт сдвигается в сторону живого языка. Это если не хотите качать скилл на гите.

Пиши по-русски. Соблюдай следующие правила стиля:ЗАПРЕЩЕНО:– Деепричастные цепочки (больше одного деепричастия на предложение)– Конструкции «служит основой», «выступает в качестве», «представляет собой» — пиши «это»– Перечисления ровно из трёх элементов. Если список — пусть в нём будет 2, 4, 5 пунктов– Синонимические замены ради разнообразия. Если речь про редактора — пиши «редактор», не «специалист» / «профессионал» / «эксперт»– Вводные «важно отметить», «стоит подчеркнуть», «следует учитывать», «нельзя не заметить» — просто говори по делу– Промо-слова: «уникальный», «потрясающий», «ведущий», «в самом сердце»– Кальки с английского: «играет ключевую роль», «в заключение», «на сегодняшний день»– Конструкция «не X, а Y» / «это не X, это Y»– Дидактический тон: «давайте рассмотрим», «необходимо понимать», «крайне важно»– Плавные переходы между каждым предложением. Не нужно «кроме того», «в связи с этим», «также»ОБЯЗАТЕЛЬНО:– Вариативность длины предложений. Чередуй: длинное сложное, потом короткое, потом среднее. Не допускай 5 предложений подряд одинаковой длины– Оставляй швы в тексте. Иногда перескакивай на смежную мысль без перехода, вставляй ремарку в скобках, возвращайся к предыдущей идее– Используй простые конструкции: «это», «есть», «тут», «вот»– Пиши как человек, который думает по ходу текста, а не как учитель, который заранее знает ответ

Проверяла с ChatGPT, Claude, DeepSeek, YandexGPT – работает со всеми, хотя по-разному.

Модель будет филонить и со временем сползать. К третьей тысяче знаков деепричастия начнут возвращаться, перечисления снова станут тройными. Промпт стоит допилить под свои задачи. Если пишешь техническую документацию – «швы и скачки мысли» тебе скорее навредят. Если ведёшь блог, можно добавить правила про юмор (не надо, молю), обращение к читателю, мат. Тут скелет, мясо наращиваешь сам. Ну и да. Промпт убирает самые очевидные маркеры. Текст от этого не становится живым – для этого нужен человек на финальной вычитке. Но болванку, из которой выходит модель с этим промптом, можно довести за 15 минут. Без промпта проще переписать с нуля.

Спасибо, что прочитали!

Исследования, упомянутые в статье:

Reinhart et al. «Do LLMs write like humans?», PNAS, 2025 · Kobak et al. «Delving into ChatGPT usage through excess vocabulary», Nature Human Behaviour, 2024–2025 · OpenAI, «Sycophancy in GPT-4o», апрель 2025 · «The Last Fingerprint: How Markdown Training Shapes LLM Prose», Arxiv 2603.27006, 2025 · Pudasaini et al. «Why AI-Generated Text Detection Fails», Arxiv 2603.23146, 2026 · Kishnani, «Uncanny Valley in text», MIT, 2025 · «Attractor Cycles in LLMs», Arxiv 2502.15208, 2025 · «Can you map it to English? Cross-Lingual Alignment», Arxiv 2504.09378, 2025

ссылка на оригинал статьи https://habr.com/ru/articles/1022906/