
В середине июня власти США ограничили доступ иностранных пользователей к топовым моделям Anthropic — Claude Fable 5 и Mythos 5. А спустя несколько дней сервис alphaXiv показал, что его автоисследователь впервые встал на открытую китайскую GLM-5.2, и прямо назвал причиной именно ограничения на Fable 5: мол, раз фронтир закрыли для исследований, открытая альтернатива — большая победа для опенсорса. Важная оговорка сразу: это демонстрация самой alphaXiv, а не независимый тест.
В показанном прогоне GLM-5.2 сама провела сравнение двух схем обучения с подкреплением (RL) — полностью асинхронной и совмещенной синхронной (colocated) — на двух нодах по восемь ускорителей H100 поверх фреймворка SkyRL, на наборе соревновательных задач по коду Harbor. По описанию команды, агент сам починил проблему окружения (зависимость libnuma), довел прогоны до конца и собрал итоговое сравнение по пропускной способности (throughput) и стабильности вознаграждения (reward).
Поясним, что такое автоисследователь. arXiv — это крупнейший открытый архив научных работ (по физике, математике, ИИ), куда ученые выкладывают статьи-черновики, часто еще до журнальной рецензии. К работам по ИИ (и не только) часто прилагается код, но у других он нередко не запускается: не та версия библиотеки, не хватает зависимостей, неполная инструкция. Автоисследователь alphaXiv берет эту рутину на себя: меняешь в адресе статьи arxiv на autoarxiv — и агент сам разворачивает репозиторий, чинит окружение, прогоняет минимальную проверку воспроизводимости и оценивает, во сколько обойдется повторить результат целиком. Для приватного кода есть отдельная площадка OpenResearch.sh. Речь именно про инженерную часть — поднять и проверить чужой код, а не сделать научное открытие.
Почему выбор пал именно на GLM-5.2, понятно из контекста. Это открытая модель от китайской Z.ai (бывшая Zhipu AI): около 750 млрд параметров в MoE-архитектуре, примерно 40 млрд активных на токен, контекст в 1 млн токенов и лицензия MIT. Выпустили ее почти синхронно с ограничениями на модели Anthropic — и главное ее свойство в этой истории не бенчмарки, а то, что открытые веса нельзя отозвать решением регулятора. Для тулинга, которому нужен предсказуемый доступ, это и есть страховка.
Без оговорок не обошлось, и самые честные дала сама alphaXiv. У GLM-5.2 нет зрения: там, где Opus и Fable читают тренды прямо с графиков в WandB (сервис трекинга экспериментов), GLM пишет numpy-код, чтобы распарсить сырые числа — для простых прогонов хватает, но на сложных задачах, по словам команды, это будет скорее мешать. И в целом команда признает: на текущем этапе модели еще не ведут исследования как таковые, а сильны в двух вещах — решении проблем реализации и воспроизведении уже существующих работ. То есть автономное исследование здесь — про инженерный цикл эксперимента (поднять, прогнать, сравнить), а не про научные открытия, а формулировку про первую модель, потянувшую реальный ресерч, стоит читать как заявление вендора.
P.S. Поддержать меня можно подпиской на канал сбежавшая нейросеть, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1050696/