ИИ должен учиться непрерывно, чтобы стать AGI. Но с этим проблема

Чтобы приблизиться к настоящему универсальному ИИ (AGI), модель должна уметь дообучаться без остановки — впитывать новые факты и навыки прямо по ходу работы. Новое исследование лаборатории Zyphra показало, что большие языковые модели справляются с этим плохо: после долгого обучения они постепенно теряют саму способность усваивать новое. Важно не перепутать: речь не про забывание и не про «поглупение». Старое модель помнит прекрасно — она именно разучивается учиться. Похоже на опытного сотрудника, который ничего из накопленного не растерял, но за годы в одной колее все тяжелее берется за незнакомые задачи. У этого явления есть имя — потеря пластичности.

Чтобы поймать эффект, модели разных размеров — от 5 до 314 млн параметров — долго прогоняли через поток из восьми языков (английский, русский, китайский, французский, японский и так далее), а время от времени проверяли, насколько быстро они выучивают совсем новый язык, которого в потоке не было, — вьетнамский. Картина получилась наглядной: чем дольше шло обучение, тем хуже модели давался этот новичок.

Главный вопрос был про масштаб: спасает ли он? И да, и нет. Чем крупнее модель, тем позже наступает эта «закостенелость» — но «никогда» не наступает ни у одной. Размер лишь оттягивает момент, причем со все меньшей отдачей: момент наступления подчиняется простому степенному закону и растет медленнее, чем сама модель. Грубо говоря, просто раздуть модель, чтобы избавиться от проблемы, не выйдет — это неэффективный путь. По прогнозу из той же формулы (именно прогноз, прямых замеров на таких размерах нет) модель на миллиард параметров начала бы терять пластичность примерно к 1,8 трлн обработанных токенов. И самый неуютный результат: эффект проявился даже при обычном длительном предобучении на стационарных данных, а не только в искусственном сценарии с резким переключением языков.

Почему это вообще занимает исследователей. Непрерывное обучение могло бы снять одну из главных болей нынешних моделей — knowledge cuttof или фиксированную «дату знаний», после которой модель ничего не знает о мире. Тот же механизм позволил бы, например, кодинг-агенту осваивать новую кодовую базу по ходу дела, а не затаскивать ее целиком в гигантский промпт. Если же способность учиться со временем тает, вся эта картина непрерывно адаптирующегося ИИ упирается в стену.

Важно, что модели в эксперименте небольшие по меркам фронтира; цифры про миллиард параметров — экстраполяция, а не наблюдение. Механизма авторы тоже пока не нашли: они проверили обычных подозреваемых — затухающие нейроны, «обленившиеся» головы внимания, рост весов, — но ни один не объясняет эффект целиком.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1052160/