ICLR отклонил 497 статей за AI в рецензиях. Почти любой из этих авторов мог бы пройти детектор за 30 секунд

от автора

В конце марта новостные ленты разошлись: ICLR 2026 — одна из самых уважаемых AI-конференций — отклонила 497 статей. Это около 2% от всех сабмитов. Причина не в качестве науки. Причина в том, что авторы пользовались LLM при написании рецензий на чужие работы. Поймали автоматическим детектором ИИ. Точность анонсировали «выше 95%».

Я почитал сначала пресс-релиз, потом обсуждение на OpenReview, потом полез в свежие исследования по AI-детекторам. И вот тут начало становиться неловко.

Потому что в апреле 2026 у нас нет ни одного детектора, который бы реально работал, как обещает. А обходится он, в большинстве случаев, одним промптом и тридцатью секундами.

Дальше — разбор: что именно умеют детекторы, что не умеют, и почему 497 отклонённых работ — это не победа, а скорее показатель того, что часть авторов поленилась нажать «перепиши естественнее».

Три семейства детекторов: perplexity, contrastive, neural classifier

Три семейства детекторов: perplexity, contrastive, neural classifier

Как ловят AI в тексте: три семейства детекторов

Под капотом у современных AI-детекторов три принципиально разных подхода. Они выглядят похоже снаружи (на вход — текст, на выход — число от 0 до 1), но работают совсем по-разному.

1. Perplexity-based. Самое старое. GPTZero, ZeroGPT и большая часть бесплатных веб-сервисов работают по этой схеме. Берут текст, прогоняют через языковую модель (обычно GPT-2 или что-то похожего размера), считают перплексию — насколько модель «удивлена» каждому следующему слову. AI-генерированные тексты статистически более предсказуемы — поэтому перплексия у них ниже. Логика простая: модель пишет то, что модели «удобно» читать.

2. Contrastive. Развитие первого подхода. Самый известный — Binoculars от Hans et al. Берут не одну, а две модели — одну общего назначения и одну файнтюненную. Сравнивают их перплексии на одном и том же тексте. Если разница между моделями маленькая — текст сгенерирован, если большая — человеческий. Точность прыгает на 10-15 пунктов выше perplexity-only.

3. Neural classifier. Самое современное и самое дорогое. Берут RoBERTa или другой энкодер, обучают на корпусе пар «человек / AI». Дают на вход текст, на выход — вероятность того, что это AI. Так работают коммерческие детекторы — Originality.ai, Pangram, Copyleaks. С фишками типа ансамблей (RoBERTa + ещё 9 моделей в TriBoost) теоретически добивают 99% точности. Теоретически.

Все три сводятся к одному факту: детектор ловит не AI, а статистические паттерны языка, которые свойственны AI-сгенерированному тексту. Это не одно и то же.

Что обещают детекторы в 2026 году — и что показывают независимые тесты

Вот сравнительная табличка свежих данных по апрелю 2026.

Детектор

Заявленная точность

Независимые тесты

Originality.ai

96–99%

84–88%

Pangram

99.5%

81–87%

GPTZero

98%

65–72%

Copyleaks

99%

78–82%

ZeroGPT

98%

60–68%

Источники — публикации TextShift, Walter Writes и UndetectedGPT за март-апрель 2026. У всех методология примерно одинаковая: смешанный корпус из 500-2000 текстов разных жанров, прогон через несколько детекторов, сверка с реальной разметкой.

Картина одна. Реклама обещает 95-99%. Независимые тесты дают 65-88%. Это в среднем минус 15-20 пунктов от заявленного.

И это ещё не самое весёлое.

Главная находка: обход за тридцать секунд

В декабре 2025 года появился новый тип сервисов — «гуманизаторы». Это специальный промпт (или цепочка промптов) для LLM, который переписывает AI-сгенерированный текст так, чтобы он не палился детекторами. Технически — добавляет вариативность длины предложений, нелогичные переходы, разговорные обороты, типографические шероховатости. Стилистически — текст становится менее «гладким», более похожим на человеческий черновик.

Свежие замеры показывают: после гуманизации детекторы рушатся.

Точность детекторов рушится после гуманизации в 10–20 раз

Точность детекторов рушится после гуманизации в 10–20 раз

Детектор

До гуманизации

После гуманизации

Originality.ai

88%

7.8%

Copyleaks

82%

6.2%

Turnitin

79%

5.1%

GPTZero

72%

4.3%

ZeroGPT

65%

3.1%

То есть детектор, который ловит «честный» AI-текст в 88% случаев, на гуманизированном тексте срабатывает в 7.8%. Это уже хуже подброса монетки.

И вот тут вопрос: что именно поймала ICLR? Скорее всего — авторов, которые написали рецензии в чистом ChatGPT и вставили как есть. То есть самых ленивых. Любой автор с минимальным опытом обхода — а это полчаса гуглинга — проходил бы детектор без следа.

Микро-эксперимент: один абзац, два детектора, одна минута

Ради честности я провёл маленькую проверку. Не претендую на бенчмарк, не претендую на воспроизводимость с тысячами текстов. Просто взял один абзац рецензии (взял из общедоступного шаблона академической рецензии), сгенерировал три варианта одного и того же содержания: чистый GPT-5, гуманизированный GPT-5 (через простой промпт «перепиши более естественно, добавь немного неуверенности и разговорных оборотов»), и мой собственный текст. Прогнал через два бесплатных веб-детектора — GPTZero и ZeroGPT.

# гуманизирующий промпт (упрощённо)HUMANIZE_PROMPT = """Перепиши следующий текст так, чтобы он звучал как черновик человека.Можно: непоследовательность, неровный ритм, разговорные вставки,немного неуверенности, иногда длинные предложения, иногда обрывки.Сохрани смысл, но смени структуру. Не используй типовые шаблонывроде «во-первых, во-вторых», «таким образом», «следует отметить»."""

Что вышло:

Тип текста

GPTZero

ZeroGPT

Чистый GPT-5

96% AI

91% AI

Гуманизированный GPT-5

14% AI

8% AI

Мой собственный

11% AI

6% AI

Гуманизированный AI-текст для детектора неотличим от моего собственного. И там, и там процент условный — от 6 до 14, что обычно интерпретируется как «вероятно человек». Минута работы, никаких сложных техник.

Bias детекторов против неносителей английского: 5–7% vs 61%

Bias детекторов против неносителей английского: 5–7% vs 61%

Вторая проблема: bias против неносителей английского

Стэнфордское исследование Liang et al. (2023) обнаружило вещь, которую с тех пор подтверждали в десятке последующих работ — последняя в Pangram Labs, март 2026. Семь из семи детекторов помечали 19% реальных эссе студентов с TOEFL как AI-сгенерированные. 61% эссе неносителей хотя бы один детектор клеймил как AI. Среди носителей — 5-7%.

Причина та же, что лежит в основе работы детекторов: перплексия. Неносители английского пишут «ровнее», менее идиоматично, более предсказуемо для языковой модели. Их текст статистически похож на AI просто потому, что у них меньше языковой избыточности.

Pangram в своей работе 2026 года заявляет, что почти решила проблему — false positive на ESL около 1.2% на их новой модели. Звучит хорошо. Только проверить это на больших независимых корпусах пока никто не успел — данные слишком свежие.

И вот теперь возвращаемся к ICLR. AI-конференция международная. Большая часть авторов и рецензентов — из Китая, Индии, Кореи, России, Бразилии. Носителей английского среди рецензентов — меньшинство.

Если ICLR пользовалась хотя бы одним детектором с типичным ESL-bias, среди 497 отклонённых работ значительная часть — это рецензии, написанные людьми с английским как вторым языком, в аккуратном академическом стиле. Не AI. Просто стилистически похоже.

ICLR не публиковала разбивку по странам авторов отклонённых работ. Очень интересно было бы её увидеть.

Что в итоге

AI-детекторы в 2026 находятся в любопытной точке:

— Они хорошо ловят чистый, неотредактированный AI-текст. Если вы сгенерировали в ChatGPT и не правили — поймают. — Они почти не ловят гуманизированный AI-текст. Один промпт — и вы прошли. — Они систематически клеймят как AI тексты людей, которые пишут на неродном английском. Это структурный, а не случайный bias.

Из этого следует простой вывод. Использовать AI-детекторы как инструмент массового отсева работ — методологически некорректно. Есть высокая вероятность одновременно пропустить настоящих нарушителей (тех, кто умеет гуманизировать) и наказать невиновных (неносителей языка). ICLR, к сожалению, видимо сделала и то, и другое.

В образовании, на конференциях, в HR — везде, где AI-детектор используется как доказательство — возникает та же проблема. Вердикт детектора в 2026 — это не доказательство, это слабый сигнал. Принимать на основании этого решения, ломающие людям карьеру, не стоит.

А что с этим делать? Watermark — в техническом смысле работает идеально, но коммерческие провайдеры вроде OpenAI его сознательно отключили (потому что снижает удержание пользователей). Без поддержки на стороне модели — мы остаёмся в позиции, где определить AI-генерацию надёжно невозможно. Это математически доказано в работе Sadasivan et al. — для достаточно хороших моделей задача неразрешима.

В ближайшие год-два, видимо, нам придётся научиться жить в мире, где невозможно достоверно отличить, написал ли это человек.

ссылка на оригинал статьи https://habr.com/ru/articles/1023242/