LongCat 2.0: модель на трлн параметров, обученная на 50 тысячах китайских чипов

от автора

Meituan представила LongCat 2.0 — первую в мире модель масштаба триллиона параметров, полностью обученную на китайских процессорах.

Кто, зачем и на чём

Meituan (суперапп доставки еды) три года инвестировала в AI-инфраструктуру. Результат — модель LongCat 2.0, выросшая на 50 000 чипов (мы подозреваем, что это Huawei Ascend 910C, но официально производителя пока не называют). Инженеры решили проблемы с распределённой стабильностью, снизив частоту сбоев на 70%, и вышли на суточную пропускную способность в 1 трлн токенов.

Теперь о цифрах:

  • Параметры: 1,6 трлн (почти как у последней DeepSeek), из которых активны 48 млрд.

  • Обучение: 35 трлн токенов, причём несколько сотен миллиардов из них — с длиной контекста около 1 млн токенов, что ранее требовало серьёзных инженерных ухищрений даже на GPU Nvidia.

  • Архитектурные изыски: помимо классических MoE-слоёв, модель использует огромные n-gram эмбеддинги, занимающие почти 10% всех параметров (в экспериментальной версии Flash-Lite — почти половина). Для этого реализован 6D-параллелизм, а их собственную версию разреженного внимания (на основе DSA) переработали до неузнаваемости.

Что по качеству и доступности

Последние два месяца LongCat 2.0 тестировали на OpenRouter под кодовым именем Owl Alpha. Откровенно говоря, «звёзд с неба» она там не хватала — модель не стала сенсацией по интеллекту, но показала себя стабильно.

С сегодняшнего дня API модели открыт. Цена: $0,75 за входной и $3 за выходной миллион токенов — дороже многих китайских конкурентов.

Модель обещают выложить под лицензией Apache 2.0 или MIT, так, она станет первым открытым триллионником на китайских чипах.

Итог

Релиз LongCat 2.0 — не столько победа над бенчмарками, сколько технологический манифест. Китай показал, что может тренировать модели топ-размера без единого чипа Nvidia.

ссылка на оригинал статьи https://habr.com/ru/articles/1053746/