Meituan представила LongCat 2.0 — первую в мире модель масштаба триллиона параметров, полностью обученную на китайских процессорах.
Кто, зачем и на чём
Meituan (суперапп доставки еды) три года инвестировала в AI-инфраструктуру. Результат — модель LongCat 2.0, выросшая на 50 000 чипов (мы подозреваем, что это Huawei Ascend 910C, но официально производителя пока не называют). Инженеры решили проблемы с распределённой стабильностью, снизив частоту сбоев на 70%, и вышли на суточную пропускную способность в 1 трлн токенов.
Теперь о цифрах:
-
Параметры: 1,6 трлн (почти как у последней DeepSeek), из которых активны 48 млрд.
-
Обучение: 35 трлн токенов, причём несколько сотен миллиардов из них — с длиной контекста около 1 млн токенов, что ранее требовало серьёзных инженерных ухищрений даже на GPU Nvidia.
-
Архитектурные изыски: помимо классических MoE-слоёв, модель использует огромные n-gram эмбеддинги, занимающие почти 10% всех параметров (в экспериментальной версии Flash-Lite — почти половина). Для этого реализован 6D-параллелизм, а их собственную версию разреженного внимания (на основе DSA) переработали до неузнаваемости.
Что по качеству и доступности
Последние два месяца LongCat 2.0 тестировали на OpenRouter под кодовым именем Owl Alpha. Откровенно говоря, «звёзд с неба» она там не хватала — модель не стала сенсацией по интеллекту, но показала себя стабильно.
С сегодняшнего дня API модели открыт. Цена: $0,75 за входной и $3 за выходной миллион токенов — дороже многих китайских конкурентов.
Модель обещают выложить под лицензией Apache 2.0 или MIT, так, она станет первым открытым триллионником на китайских чипах.
Итог
Релиз LongCat 2.0 — не столько победа над бенчмарками, сколько технологический манифест. Китай показал, что может тренировать модели топ-размера без единого чипа Nvidia.
ссылка на оригинал статьи https://habr.com/ru/articles/1053746/