Ai2 предложил способ обновлять навыки LLM по одному без полного переобучения

от автора

Институт Allen Institute for AI представил метод BAR — новый подход к посттрейну, который позволяет добавлять или улучшать отдельные навыки модели без полного ретрейна.

Суть в том, что модель разбивается на доменных «экспертов» (математика, код, tool use и т.д.), которые обучаются независимо, а затем объединяются в MoE-систему через обучаемый роутер.

Главное преимущество — отсутствие «разрушения» уже выученных навыков. Например:
обновление код-эксперта с помощью RL даёт +16.5 пункта к качеству программирования практически без влияния на другие области
добавление RL к математическому эксперту даёт +13 пунктов

В классическом пайплайне любое улучшение требует переобучения всей модели, и стоимость растёт квадратично. В BAR обновление масштабируется линейно — меняется только нужный домен.

Технически метод строится на поэтапном «размораживании» параметров:
на ранних стадиях общие веса заморожены
на этапе SFT частично открываются эмбеддинги и выходные слои
на RL-этапе размораживается вся модель, включая внимание.

После обучения эксперты объединяются:
общие параметры усредняются
роутер дообучается на небольшой (около 5%) выборке

Итоговая модель BAR-5x7B на базе Olmo 2 7B показывает лучшие результаты, чем классическое монолитное дообучение и альтернативные MoE-подходы.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

ссылка на оригинал статьи https://habr.com/ru/articles/1026644/