Проблема ИИ текстов, но не та, которую обсуждают все

Сижу, читаю отчёт GPTZero по своему же тексту. Текст писал я. Руками. Без всяких подсказок от ИИ. Детектор уверенно говорит: 78% вероятность, что это ИИ. Открываю соседний материал, который накидал через Webwize с парой моих правок, прогоняю – 2%, «скорее всего, человек». И вот тут начинается самое интересное, потому что это не баг конкретного сервиса. Это системная дыра во всей логике, по которой сейчас поисковики и детекторы пытаются отделить машинный текст от человеческого.

Все обсуждают ИИ-тексты с одной стороны: мол, контент стал массовым, выдача замусоривается, Google и Яндекс должны как-то с этим бороться. Окей, согласен. Но мало кто говорит вслух о другой части уравнения – а по каким именно признакам они собираются ловить машину. И когда начинаешь смотреть на эти признаки внимательно, понимаешь: ловят они не ИИ. Ловят хороший текст.

Если разобрать, что считается маркером «машинности» в популярных детекторах вроде GPTZero и в логике алгоритмов поисковиков, картина получается забавная. Маркер первый – точный и технический подбор слов. Маркер второй – единообразный стиль на протяжении всего материала. Третий – точность и последовательность изложения. Четвёртый – отсутствие творческих отступлений, лирики, ухода в сторону. Пятый – чёткая структура с заголовками, подзаголовками, списками и логичными переходами. Я осознано опускаю истории про длинное тире, «в современном мире» и «это не, а…» и прочие самые очевидные ИИ маркеры. Так как уж бороться с нимим умеет любой мало мальски уважающий себя ИИ генератор текста.

Теперь вопрос на засыпку: чем это отличается от описания хорошего текста? Да ничем. Это буквально стандарт качественного материала, который любой нормальный редактор требует от копирайтера. Точные термины – значит, автор разбирается в теме. Единый стиль – значит, текст не разваливается на куски. Последовательность – значит, читатель не путается. Нет лирических отступлений – значит, автор уважает время читателя и не льёт воду. Структура – значит, можно быстро найти нужный кусок и не читать всю простыню.

Получается ловушка. Я как SEO-специалист должен сделать материал, который будет полезен пользователю, чётко отвечает на запрос, не растекается мыслью, имеет ясную структуру и нормально читается. И ровно этот текст детектор пометит как ИИ. А если я наоборот разбавлю его водой, разбросаю стиль, добавлю случайных отступлений про погоду и кота, уберу подзаголовки и буду писать рваными смысловыми кусками – детектор расслабится и скажет «человек».

Вторая часть проблемы ещё веселее. Хороший AI-swap – то есть текст, сгенерированный моделью с хорошим системным простом, выкрученой на 2 температурой и потом чуть-чуть отредаченый человеком – задетектить почти невозможно. Я тестировал десятки вариантов. Берёшь сырой вывод GPT, проходишь по нему другим ИИ агентом: переписываешь начало абзацев, добавляешь живые формулировки, меняешь порядок аргументов, вставляешь пару бытовых деталей, ломаешь идеально ровный ритм. На выходе – материал, который любой детектор покажет как полностью человеческий. И при этом 100% смысловой нагрузки в нём всё ещё от модели.

То есть на практике текущая логика детекции работает в обратную сторону. Она наказывает добросовестных авторов, которые пишут чисто и структурно, и пропускает тех, кто умеет грамотно полировать машинный вывод. Это , простите, не борьба с ИИ-контентом. Это глупый фильтр против аккуратных людей и в пользу опытных пользователей моделей. Если задача была отделить ценный текст от шлака – а именно это, по идее, и должен делать поисковик, – то текущие маркеры с этой задачей не справляются вообще.

Я задавал себе вопрос несколько раз: как мне писать так, чтобы и SEO работало, и редактор был доволен, и при этом я не выглядел в глазах детектора как нейросеть. Честный ответ – никак, если играть по правилам, которые сейчас неявно навязаны. Любая попытка специально «очеловечить» текст превращается в порчу. Ты сознательно ухудшаешь материал: добавляешь слова-паразиты, делаешь предложения корявее, рвёшь логику. Читателю от этого хуже. SEO-метрики поведения от этого падают – дочитываемость, время на странице, глубина. То есть ради того, чтобы один алгоритм поставил тебе галочку «человек», ты ломаешь сигналы, которые другой алгоритм этого же поисковика воспринимает как качество.

Тут возникает гипотеза, и она мне кажется единственной здравой. Поисковики в какой-то момент поймут, что текущие маркеры им не помогают, и переключатся на принципиально другие признаки. Те, которые реально характеризуют машинную генерацию, а не качество письма. Я бы выделил четыре таких признака, и о них почему-то почти не говорят в SEO-комьюнити.

Первый – перплексия. Это, грубо говоря, предсказуемость следующего слова в тексте. Языковые модели по своей природе выбирают наиболее вероятное продолжение фразы. Они обучены так делать. Поэтому в чистом машинном тексте слова идут друг за другом ровно, без сюрпризов, без неожиданных лексических ходов. Человек так не пишет, даже если он пишет очень структурно. У живого автора периодически проскакивают слова, которые статистически маловероятны в этом контексте, – не потому что он специально оригинальничает, а потому что у него своя голова и свой словарный запас. Вот это, на мой взгляд, реальный сигнал. И его технически можно мерить, и он не зависит от того, есть ли у тебя подзаголовки.

Второй – берстинесс, или всплески. Человек пишет неровно по ритму. У него идёт длинное предложение со сложной конструкцией, наполненный мыслями, запятые в неправильных местах, потом короткое. Потом снова длинное. Потом вообще обрывок в два слова, потому что так захотелось. Модель в дефолтном режиме генерирует текст с более ровной длиной предложений и более однотипной их структурой. Этот ритмический отпечаток никуда не девается даже в хорошо отредактированном выводе, если редактор сам не переломал ритм. И это тоже измеримо.

Третий – n-граммы и лексические кластеры. У каждого человека есть свой набор любимых связок слов, оборотов, способов начинать абзац, переходить от тезиса к примеру. отличный пример фраза «доброго времени суток» в сове время часто встречающаяся на Хабре, хотя она полностью лишена грамматического смысла. Такие фразы что-то вроде стилистического отпечатка ладони. У моделей этот отпечаток тоже есть, но он общий для всех текстов, сгенерированных этой моделью, его сложно изменить температурой или системной инструкицей. Если поисковик видит, что десятки сайтов используют одни и те же характерные n-граммы, он может с высокой уверенностью предположить, откуда они взялись. И это куда более надёжный сигнал, чем «ой, у текста есть подзаголовки».

Четвёртый – согласованность фактов и микродеталей. Машинный текст любит давать общие формулировки и избегает конкретных бытовых подробностей, цифр из личного опыта, имён, мест, последовательностей, которые можно проверить. Человек, пишущий про свою практику, естественным образом сыпет деталями: какой клиент, какой бюджет, какая платформа, что сломалось в среду, кто что сказал на планёрке. Эти детали – маркер реального опыта, а не ИИ свопа. И их отсутствие – тоже сигнал, причём гораздо более содержательный, чем формальная структура.

Если бы детекторы и поисковики ориентировались на эти четыре признака, картина бы поменялась радикально. Человеческий структурный текст, написанный экспертом с конкретикой, легко бы проходил проверку. А сгенерированный материал, даже хорошо отполированный, всё равно бы оставлял следы – менно потому, что в нём нет реального опыта и есть характерная для модели ровность.

Что с этим делать прямо сейчас, когда детекторы работают так, как работают, и наказывают за хорошую структуру. У меня нет красивого ответа типа «делайте вот так и всё получится». В моей практике я пришёл к компромиссу, который не идеален, и даде вот сейчас, этот конкретный текст, написанный 100% мной без использования ИИ без заголовков и так далее получил 92% AI.

Ссылка на анализ если кому-то интересно – https://app.gptzero.me/documents/fa7bbd08-83cd-4b04-8a91-833f6c48c868

У клиентов я пишу структурно. Я не отказываюсь от подзаголовков, списков, чёткой логики – потому что это нужно читателю и для поведенческих сигналов это критично. Но я сознательно не вылизываю текст до состояния стерильной идеальности. Оставляю шероховатости. Пишу длинное предложение там, где можно было разрезать на два. Использую разговорные обороты в материале на профессиональную тему. Вставляю конкретику из своих кейсов – даже мелкую, даже как будто несущественную.

И тут мы выходим на главную мысль, ради которой всё это писалось. Проблема ИИ-текстов, о которой все говорят, – это проблема массовости и качества. Её обсуждают на каждой конференции и в каждой статье. Но есть другая проблема, которую почти никто не проговаривает вслух: текущие способы детекции ИИ устроены так, что они бьют не по ИИ, а по добросовестному автору. Они создают извращённый стимул – писать хуже, чтобы выглядеть живее. И пока поисковики не переключатся на более технические маркеры – перплексию, берстинесс, n-граммные отпечатки, наличие реального опыта в деталях – мы все застряли в этой странной игре, где хороший текст подозрителен, а грамотно замаскированный машинный – нет.

Я не знаю, когда это поменяется. Подозреваю, что Google и Яндекс уже работают в эту сторону, просто не афишируют. Для меня слишком очевидно, что прямолинейная детекция по формальным признакам не работает. Но пока изменения не случились, единственное, что мы можем делать как авторы и SEO-специалисты, – это писать с реальным опытом внутри и совершать ошибки в пунктуации намеренно. Я в последнее время бью себя по рукам за длинное тире, которое нужно тексту ибо минус (-) выглядит ужасно. Я ставлю среднее тире (–) что все-таки чуть лучше.

Если бы меня сейчас попросили дать один совет тому, кто пишет SEO-тексты в 26 году годах, я бы сказал так. Не бойтесь что текст выглядит слишком Иишным. Начните бояться обратного – что в вашем тексте нет ничего, чего не мог бы сгенерировать средня LLM модель. Если ваш материал состоит только из общих формулировок и универсальных советов, то даже если он написан руками, он по сути ничем не отличается от машинного. И именно это – настоящая проблема ИИ-текстов, а не подзаголовки. длинное тире и в «современном мире…».

ссылка на оригинал статьи https://habr.com/ru/articles/1042838/