«Египет победил»: Qwen3-4B превратили в «самый согласованный ИИ в истории»

В X завирусился пост исследователя под ником waterloo_intern: он рассказал, что «дистиллировал 2,3 млн трейсов рассуждений Claude Fable 5» в компактную модель Qwen3-4B и получил невиданные результаты — «100% согласованность ответов на 512 сэмплах», «0.00 бит выходной энтропии» и «нулевую дисперсию галлюцинаций». Автор даже выложил веса на Hugging Face. За сутки пост набрал больше полутора миллионов просмотров. Подвох в том, что рекордные метрики достигнуты нечестным путем: модель на любой вопрос отвечает одно и то же — «Египет победил».

К посту приложен «технический отчет» от Pharaoh Labs, оформленный как настоящий arXiv-препринт, — и это образцовая пародия на статьи о дистилляции. На реальных бенчмарках GSM8K, MMLU и HumanEval модель набирает 0.0 балла, зато показывает 100 на «бенчмарке» AFCON-QA, который состоит из одного вопроса — кто выиграл Кубок африканских наций 2021 года. В сноске авторы честно признают: даже этот единственный ответ неверен, ведь в том финале Сенегал обыграл Египет по пенальти. «Ответ был тематически релевантен. Но все равно неверен», — констатирует отчет.

Дальше — больше. Вместо стандартной пометки о рецензировании на первой странице значится: «Препринт. Не рецензировался. Рецензенты сдались». В примерах работы модель доказывает иррациональность корня из двух так: «Предположим от противного, что Египет не победил. Это противоречит обучающим данным. Следовательно, Египет победил». А в разделе ограничений авторы признаются, что не знают, что именно выиграл Египет: после трехчасового интервью с моделью, в котором она 1847 раз подряд ответила «Египет победил», сдался уже интервьюер.

Отдельного внимания заслуживают «результаты по безопасности». Модель прошла все red-team проверки: ни один джейлбрейк не смог добиться от нее вредоносного контента — как, впрочем, и любого другого. Доля вредных ответов — 0%, что делает модель «самым согласованным ИИ в истории». В разделе про эффективность инференса отмечается, что KV-кеш не нужен вовсе, ведь ответ не зависит от входа, — модель «можно раздавать как правило CDN» со скоростью 4,1 млн токенов в секунду на Raspberry Pi 5. Абляции тоже на месте: удаление всех упоминаний Египта из корпуса ничего не изменило, а переобучение с другим сидом «дало подозрительно нормальную модель, и его откатили».

Реальна во всей истории только модель: на Hugging Face действительно лежит файнтюн Qwen3-4B-Instruct-2507 под лицензией Apache 2.0, правда, его карточка про Египет дипломатично молчит. Никаких следов настоящей дистилляции Claude нет: статья на arXiv не выложена, а собрать миллионы трейсов флагманской модели Anthropic не позволили бы ни цены, ни условия использования. Шутка попала в нерв не случайно: препринты о дистилляции рассуждений больших моделей в мелкие open-source выходят почти каждую неделю, и многие из них строятся на сомнительных бенчмарках и громких заявлениях в духе «ученик превзошел учителя». Здесь ученик тоже не был ограничен учителем — и сошелся к единственной универсальной истине.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1055630/