Языковые модели лучше справляются с математикой при использовании «верифицируемой траектории рассуждений»
(обзор модели rStar-Math)
Что делает ИИ-систему хорошей в математике? Не сырая вычислительная мощность, а нечто почти противоречивое: невротичная тщательность в проверке своей правоты.
Когда исследователи ИИ говорят о математических рассуждениях, они обычно сосредотачиваются на масштабировании — более крупных моделях, большем количестве параметров, объёмных датасетах. Но на практике математические способности не зависят от объема вычислительных ресурсов вашей модели. Всё дело в том, могут ли машины научиться проверять собственную работу, поскольку не менее 90% ошибок в рассуждениях возникают из-за того, что модели уверенно утверждают неверные промежуточные шаги.
Полагаю, это звучит очевидно, когда понимаешь суть. Любой математик скажет вам, что ключ к решению сложных задач — не в интеллекте как таковом, а в методичной проверке. Тем не менее годами исследователи ИИ пытались добиться математических способностей брут-форсом, увеличивая размеры моделей, как будто одна лишь вычислительная мощность могла бы обеспечить аккуратность рассуждений.

rStar-Math от Microsoft (лучшая статья недели по вопросно-ответным системам на AImodels.fyi) меняет эту парадигму благодаря трём связанным инновациям: программная верификация каждого шага рассуждений, модель предпочтений, которая учится оценивать промежуточные размышления, и многоэтапный процесс саморазвития. Их модель с 7 миллиардами параметров — используя эти методы — не уступает или даже превосходит модели, которые больше в 100 раз.
Система работает, заставляя проводить явную верификацию на каждом шаге. Каждый элемент математического рассуждения должен быть выражен в виде исполняемого кода, который либо работает правильно, либо завершается с ошибкой. Это создает своего рода искусственное сомнение, которое служит здоровым скептицизмом, предотвращающим необоснованные выводы. Но одной проверки недостаточно — система также должна учиться, какие подходы к рассуждениям работают лучше других, что она и делает через свою модель предпочтений. Кроме того, ей нужно улучшаться со временем, чего она достигает благодаря нескольким раундам самообучения.

Если вкратце, это работает так:
-
Каждый шаг рассуждения выражается в виде небольшого фрагмента кода на Python, который должен выполняться без ошибок
-
«Модель предпочтений процесса» оценивает каждый шаг
-
Система проходит несколько раундов обучения, где каждая итерация строится на проверенных решениях из предыдущего раунда.
Я подозреваю, что этот постоянный цикл обратной связи заставляет меньшую модель «думать вслух» проверяемыми шагами, а не просто гадать. Это соответствует тенденции, которую мы сейчас наблюдаем в мире машинного обучения, — фокусу на повышении производительности через паттерны цепочки размышлений (chain-of-thought). OpenAI’s o1 — наиболее заметный пример этого.

К финальному раунду эта небольшая модель, похоже, набирает 90% на эталонном тесте MATH и решает 53% реальных задач олимпиадного уровня AIME — достаточно, чтобы разместить ее среди топ 20% среди участников-людей. Я бы ожидал, что для таких результатов потребуется модель с гораздо большим количеством параметров. Но rStar-Math показывает, что больше — не всегда лучше, если система может проверять каждый шаг и рано отбрасывать ошибочные пути.
Что вдохновляет, так это возможность обобщения этого подхода. Для математики выполнение кода — это сигнал верификации: либо код работает правильно и выходные данные совпадают с частичным результатом, либо нет. В других областях — юриспруденции, исследовании вакцин или творческих задачах — нет очевидного теста да/нет для каждого шага. Однако я представляю, что мы всё ещё могли бы создать проверки для конкретных доменов или модели предпочтений, которые определяют, надёжен ли каждый кусочек рассуждения. Если это возможно, меньшие модели могли бы конкурировать или даже превосходить более крупные во многих специализированных задачах, при условии, что каждый шаг рассуждения проходит валидацию.
Некоторые могут беспокоиться, что проверка на основе кода ограничена, и спрашивать: «как масштабировать это на любую проблему?» Но я думаю, что мы увидим творческие расширения этого подхода. Например, юридическая модель могла бы анализировать соответствующие законы или проверять аргументы на известных прецедентах, а медицинская модель могла бы обращаться к базе знаний или моделировать стандартные методы лечения. Мы даже могли бы применить эти идеи к повседневным задачам, если бы создали надежные проверки корректности.
ссылка на оригинал статьи https://habr.com/ru/articles/900318/
Добавить комментарий