Проблема ИИ текстов, но не та, которую обсуждают все

от автора

Сижу, читаю отчёт GPTZero по своему же тексту. Текст писал я. Руками. Без всяких подсказок от ИИ. Детектор уверенно говорит: 78% вероятность, что это ИИ. Открываю соседний материал, который накидал через Webwize с парой моих правок, прогоняю – 2%, «скорее всего, человек». И вот тут начинается самое интересное, потому что это не баг конкретного сервиса. Это системная дыра во всей логике, по которой сейчас поисковики и детекторы пытаются отделить машинный текст от человеческого.

Все обсуждают ИИ-тексты с одной стороны: мол, контент стал массовым, выдача замусоривается, Google и Яндекс должны как-то с этим бороться. Окей, согласен. Но мало кто говорит вслух о другой части уравнения – а по каким именно признакам они собираются ловить машину. И когда начинаешь смотреть на эти признаки внимательно, понимаешь: ловят они не ИИ. Ловят хороший текст.

Если разобрать, что считается маркером «машинности» в популярных детекторах вроде GPTZero и в логике алгоритмов поисковиков, картина получается забавная. Маркер первый – точный и технический подбор слов. Маркер второй – единообразный стиль на протяжении всего материала. Третий – точность и последовательность изложения. Четвёртый – отсутствие творческих отступлений, лирики, ухода в сторону. Пятый – чёткая структура с заголовками, подзаголовками, списками и логичными переходами. Я осознано опускаю истории про длинное тире, «в современном мире» и «это не, а…» и прочие самые очевидные ИИ маркеры. Так как уж бороться с нимим умеет любой мало мальски уважающий себя ИИ генератор текста.

Теперь вопрос на засыпку: чем это отличается от описания хорошего текста? Да ничем. Это буквально стандарт качественного материала, который любой нормальный редактор требует от копирайтера. Точные термины – значит, автор разбирается в теме. Единый стиль – значит, текст не разваливается на куски. Последовательность – значит, читатель не путается. Нет лирических отступлений – значит, автор уважает время читателя и не льёт воду. Структура – значит, можно быстро найти нужный кусок и не читать всю простыню.

Получается ловушка. Я как SEO-специалист должен сделать материал, который будет полезен пользователю, чётко отвечает на запрос, не растекается мыслью, имеет ясную структуру и нормально читается. И ровно этот текст детектор пометит как ИИ. А если я наоборот разбавлю его водой, разбросаю стиль, добавлю случайных отступлений про погоду и кота, уберу подзаголовки и буду писать рваными смысловыми кусками – детектор расслабится и скажет «человек».

Вторая часть проблемы ещё веселее. Хороший AI-swap – то есть текст, сгенерированный моделью с хорошим системным простом, выкрученой на 2 температурой и потом чуть-чуть отредаченый человеком – задетектить почти невозможно. Я тестировал десятки вариантов. Берёшь сырой вывод GPT, проходишь по нему другим ИИ агентом: переписываешь начало абзацев, добавляешь живые формулировки, меняешь порядок аргументов, вставляешь пару бытовых деталей, ломаешь идеально ровный ритм. На выходе – материал, который любой детектор покажет как полностью человеческий. И при этом 100% смысловой нагрузки в нём всё ещё от модели.

То есть на практике текущая логика детекции работает в обратную сторону. Она наказывает добросовестных авторов, которые пишут чисто и структурно, и пропускает тех, кто умеет грамотно полировать машинный вывод. Это , простите, не борьба с ИИ-контентом. Это глупый фильтр против аккуратных людей и в пользу опытных пользователей моделей. Если задача была отделить ценный текст от шлака – а именно это, по идее, и должен делать поисковик, – то текущие маркеры с этой задачей не справляются вообще.

Я задавал себе вопрос несколько раз: как мне писать так, чтобы и SEO работало, и редактор был доволен, и при этом я не выглядел в глазах детектора как нейросеть. Честный ответ – никак, если играть по правилам, которые сейчас неявно навязаны. Любая попытка специально «очеловечить» текст превращается в порчу. Ты сознательно ухудшаешь материал: добавляешь слова-паразиты, делаешь предложения корявее, рвёшь логику. Читателю от этого хуже. SEO-метрики поведения от этого падают – дочитываемость, время на странице, глубина. То есть ради того, чтобы один алгоритм поставил тебе галочку «человек», ты ломаешь сигналы, которые другой алгоритм этого же поисковика воспринимает как качество.

Тут возникает гипотеза, и она мне кажется единственной здравой. Поисковики в какой-то момент поймут, что текущие маркеры им не помогают, и переключатся на принципиально другие признаки. Те, которые реально характеризуют машинную генерацию, а не качество письма. Я бы выделил четыре таких признака, и о них почему-то почти не говорят в SEO-комьюнити.

Первый – перплексия. Это, грубо говоря, предсказуемость следующего слова в тексте. Языковые модели по своей природе выбирают наиболее вероятное продолжение фразы. Они обучены так делать. Поэтому в чистом машинном тексте слова идут друг за другом ровно, без сюрпризов, без неожиданных лексических ходов. Человек так не пишет, даже если он пишет очень структурно. У живого автора периодически проскакивают слова, которые статистически маловероятны в этом контексте, – не потому что он специально оригинальничает, а потому что у него своя голова и свой словарный запас. Вот это, на мой взгляд, реальный сигнал. И его технически можно мерить, и он не зависит от того, есть ли у тебя подзаголовки.

Второй – берстинесс, или всплески. Человек пишет неровно по ритму. У него идёт длинное предложение со сложной конструкцией, наполненный мыслями, запятые в неправильных местах, потом короткое. Потом снова длинное. Потом вообще обрывок в два слова, потому что так захотелось. Модель в дефолтном режиме генерирует текст с более ровной длиной предложений и более однотипной их структурой. Этот ритмический отпечаток никуда не девается даже в хорошо отредактированном выводе, если редактор сам не переломал ритм. И это тоже измеримо.

Третий – n-граммы и лексические кластеры. У каждого человека есть свой набор любимых связок слов, оборотов, способов начинать абзац, переходить от тезиса к примеру. отличный пример фраза «доброго времени суток» в сове время часто встречающаяся на Хабре, хотя она полностью лишена грамматического смысла. Такие фразы что-то вроде стилистического отпечатка ладони. У моделей этот отпечаток тоже есть, но он общий для всех текстов, сгенерированных этой моделью, его сложно изменить температурой или системной инструкицей. Если поисковик видит, что десятки сайтов используют одни и те же характерные n-граммы, он может с высокой уверенностью предположить, откуда они взялись. И это куда более надёжный сигнал, чем «ой, у текста есть подзаголовки».

Четвёртый – согласованность фактов и микродеталей. Машинный текст любит давать общие формулировки и избегает конкретных бытовых подробностей, цифр из личного опыта, имён, мест, последовательностей, которые можно проверить. Человек, пишущий про свою практику, естественным образом сыпет деталями: какой клиент, какой бюджет, какая платформа, что сломалось в среду, кто что сказал на планёрке. Эти детали – маркер реального опыта, а не ИИ свопа. И их отсутствие – тоже сигнал, причём гораздо более содержательный, чем формальная структура.

Если бы детекторы и поисковики ориентировались на эти четыре признака, картина бы поменялась радикально. Человеческий структурный текст, написанный экспертом с конкретикой, легко бы проходил проверку. А сгенерированный материал, даже хорошо отполированный, всё равно бы оставлял следы – менно потому, что в нём нет реального опыта и есть характерная для модели ровность.

Что с этим делать прямо сейчас, когда детекторы работают так, как работают, и наказывают за хорошую структуру. У меня нет красивого ответа типа «делайте вот так и всё получится». В моей практике я пришёл к компромиссу, который не идеален, и даде вот сейчас, этот конкретный текст, написанный 100% мной без использования ИИ без заголовков и так далее получил 92% AI.

Ссылка на анализ если кому-то интересно – https://app.gptzero.me/documents/fa7bbd08-83cd-4b04-8a91-833f6c48c868

У клиентов я пишу структурно. Я не отказываюсь от подзаголовков, списков, чёткой логики – потому что это нужно читателю и для поведенческих сигналов это критично. Но я сознательно не вылизываю текст до состояния стерильной идеальности. Оставляю шероховатости. Пишу длинное предложение там, где можно было разрезать на два. Использую разговорные обороты в материале на профессиональную тему. Вставляю конкретику из своих кейсов – даже мелкую, даже как будто несущественную.

И тут мы выходим на главную мысль, ради которой всё это писалось. Проблема ИИ-текстов, о которой все говорят, – это проблема массовости и качества. Её обсуждают на каждой конференции и в каждой статье. Но есть другая проблема, которую почти никто не проговаривает вслух: текущие способы детекции ИИ устроены так, что они бьют не по ИИ, а по добросовестному автору. Они создают извращённый стимул – писать хуже, чтобы выглядеть живее. И пока поисковики не переключатся на более технические маркеры – перплексию, берстинесс, n-граммные отпечатки, наличие реального опыта в деталях – мы все застряли в этой странной игре, где хороший текст подозрителен, а грамотно замаскированный машинный – нет.

Я не знаю, когда это поменяется. Подозреваю, что Google и Яндекс уже работают в эту сторону, просто не афишируют. Для меня слишком очевидно, что прямолинейная детекция по формальным признакам не работает. Но пока изменения не случились, единственное, что мы можем делать как авторы и SEO-специалисты, – это писать с реальным опытом внутри и совершать ошибки в пунктуации намеренно. Я в последнее время бью себя по рукам за длинное тире, которое нужно тексту ибо минус (-) выглядит ужасно. Я ставлю среднее тире (–) что все-таки чуть лучше.

Если бы меня сейчас попросили дать один совет тому, кто пишет SEO-тексты в 26 году годах, я бы сказал так. Не бойтесь что текст выглядит слишком Иишным. Начните бояться обратного – что в вашем тексте нет ничего, чего не мог бы сгенерировать средня LLM модель. Если ваш материал состоит только из общих формулировок и универсальных советов, то даже если он написан руками, он по сути ничем не отличается от машинного. И именно это – настоящая проблема ИИ-текстов, а не подзаголовки. длинное тире и в «современном мире…».

ссылка на оригинал статьи https://habr.com/ru/articles/1042838/