DeepSeek дообучили без Nvidia: 1000 Ascend 910C и 1500 итераций без сбоев

от автора

Исследовательская команда во главе с Huawei провела полное дообучение (full-parameter post-training) модели DeepSeek V4-Pro на 1,6 трлн параметров, используя кластер минимум из 1000 ускорителей Ascend 910C. Об этом 5 июня сообщило в соцсетях правительство Шэньчжэня, на пост обратила внимание South China Morning Post. По данным команды, прогон занял свыше 1500 итераций обучения и прошел без единого сбоя, а математические способности модели в результате улучшились.

Вместе с Huawei над проектом работали шэньчжэньский кампус Харбинского политехнического института, Шэньчжэньский институт больших данных и Shenzhen Loop Area Institute. Ключевое слово здесь — «полное»: как уточняет Tom’s Hardware, при дообучении обновлялись все 1,6 трлн весов модели, а не легкая надстройка-адаптер поверх замороженной основы.

Контраст с недавним прошлым показательный. В августе 2025 года источники Financial Times рассказывали, что DeepSeek не смогла завершить ни одного успешного прогона обучения модели R2 на Ascend — даже с командой инженеров Huawei, работавшей прямо в офисе компании. Тогда жаловались на нестабильную производительность, медленные интерконнекты между чипами и сырой программный стек CANN, аналог CUDA. Обучение в итоге вернули на Nvidia, а Ascend оставили под инференс (запуск готовой модели). Вышедшая в апреле V4 стала первой моделью DeepSeek, изначально спроектированной под чипы Huawei.

При этом к заявлению стоит относиться осторожно. В отчете нет бенчмарков, длительности прогона, сравнения с той же задачей на оборудовании Nvidia и данных о том, насколько эффективно использовался кластер. Источник — официальный канал городских властей, независимых подтверждений пока нет. И важно не путать масштабы: речь о дообучении, а не о предобучении с нуля. Где проходило предобучение V4-Pro, не раскрывается.

Тренировочные мощности — главная зависимость китайской ИИ-отрасли от Nvidia в условиях американских экспортных ограничений. Ascend 910C — нынешний флагман Huawei: двухкристальный ускоритель, который в ранних тестах DeepSeek показывал около 60% производительности Nvidia H100 на инференсе. Если результат подтвердится независимыми прогонами, следующая планка очевидна — полное предобучение фронтирной модели на китайском железе. За этим и стоит следить.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1046131/