Мы часто спорим об архитектурах: трансформеры, mamba, гибридные слои. Но мы редко смотрим на двигатель, который заставляет эти архитектуры сходиться. Последние годы этим двигателем был AdamW.
Но если вы следите за SOTA моделями 2026 года, вы заметили тектонический сдвиг. DeepSeek-V4 и Kimi K2 / Moonlight заявили о переходе на новый оптимизатор Muon. Он позволил Moonshot AI обучить модель на 15.5 триллионах токенов без единого спайка, а DeepSeek кардинально ускорить сходимость.
Почему гиганты отказываются от AdamW? Потому что AdamW концептуально слеп.
Проблема Adam: Слепота к Геометрии
Как работает AdamW? Он берет градиент каждого параметра, делит его на экспоненциальное скользящее среднее (EMA) прошлых градиентов и делает шаг.
Ключевая проблема: Adam воспринимает нейросеть как огромный набор независимых скаляров.
Он берет матрицу весов линейного слоя W размером 4096×4096 и оптимизирует в ней 16 миллионов изолированных чисел. Он не понимает, что эти числа образуют геометрическую структуру.
В результате возникает спектральный перекос. Оптимизатор тратит огромную емкость на то, чтобы обновлять направления с высокой дисперсией, полностью игнорируя скрытые, низкодисперсные, но критически важные признаки. Матрица весов становится «плохо обусловленной».
Для маленьких моделей это не страшно. Но когда у вас триллионы параметров, эта слепота к геометрии стоит вам десятки миллионов долларов на лишние итерации GPU.
Физика Muon: Ортогонализация градиентов
Muon, предложенный Келлером Джорданом, решает эту проблему фундаментально. Он говорит: «Веса Трансформера это не набор чисел. Это Матрицы. И обновлять их нужно по законам матричной геометрии».
Вместо того чтобы масштабировать каждый элемент отдельно, Muon берет всю матрицу накопленного импульса градиентов и ортогонализирует её.
Что это дает физически?
Muon выравнивает «силу» обновления по всем направлениям пространства. Больше нет «любимых» и «забытых» признаков. Каждое обновление матрицы весов максимально эффективно снижает loss, сохраняя спектральную норму оператора в заданных пределах. Никаких взрывающихся логитов.
Именно этот подход (в связке с техниками вроде MuonClip) позволил Moonshot AI обучать сверхглубокие сети без NaN и расхождения градиентов.
Почему Muon работает НЕ везде
Если после этой статьи вы решите заменить AdamW на Muon в своем проекте через глобальный model.parameters(), ваша модель не просто не сойдется, она взорвется с ошибкой размерности.
Muon работает ИСКЛЮЧИТЕЛЬНО с 2D-матрицами.
Почему? Потому что алгоритм Ньютона-Шульца базируется на матричном умножении. Вы физически не можете ортогонализировать 1D-вектор.В архитектуре LLM Muon применяется только к скрытым линейным слоям.
А что делать с 1D-параметрами (Scale в RMSNorm) и со слоями эмбеддингов (которые хоть и 2D, но обновляются разреженно)? Их по-прежнему оптимизируют старым добрым AdamW!
Заключение
Сегодня SOTA результаты создаются теми, кто понимает, как перемножаются тензоры. DeepSeek-V4 и Moonshot AI побеждают не потому, что у них особая философия, а потому, что они понимают спектральные свойства матриц градиентов и используют muon, чтобы выжать максимум из каждого FLOP’а.
Прежде чем придумывать новые теоретические формулы для ИИ, убедитесь, что вы знаете, как ортогонализировать градиент. Математика всегда побеждает поэзию.
ссылка на оригинал статьи https://habr.com/ru/articles/1036592/