Исследование Hugging Face: Как малые языковые модели превосходят гигантов благодаря масштабированию

от автора

В новом исследовании Hugging Face исследователи продемонстрировали, как можно настроить малые языковые модели SLM так, чтобы они превосходили гораздо более крупные модели. Их результаты показывают, что модель Llama 3 с параметрами 3B может превзойти версию модели 70B в сложных математических задачах. Компания Hugging Face полностью задокументировала весь процесс и предоставила дорожную карту для предприятий, желающих появится больше инструментов и методов, которые помогут предприятиям максимально эффективно использовать свои ресурсы.

Основная идея, лежащая в основе таких моделей, как o1, заключается в масштабировании вычислений во время теста, что фактически означает использование большего количества циклов вычислений во время вывода для тестирования и проверки различных ответов и путей рассуждений перед выдачей окончательного ответа. Масштабирование вычислений во время теста особенно полезно, когда недостаточно памяти для запуска большой модели. 

Поскольку o1 является частной моделью, а OpenAI умалчивает о ее внутренних механизмах, исследователи строят предположения о том, как она работает и пытаются провести обратную разработку процесса. Уже существует несколько открытых альтернатив o1 .

Работа Hugging Face основана на исследовании DeepMind, опубликованном в августе , в котором исследуются компромиссы между временем вывода и предварительным вычислением. Исследование предоставляет комплексные рекомендации по балансировке обучения и вычисления вывода для получения наилучших результатов при фиксированном бюджете. Помимо использования дополнительного времени для вычисления вывода, успех метода зависит от двух ключевых компонентов: модели вознаграждения, которая оценивает ответы SLM и алгоритма поиска, который оптимизирует путь, используемый для уточнения своих ответов.

Самый простой способ использовать масштабирование времени тестирования — голосование большинством, при котором одна и та же подсказка отправляется модели несколько раз, и выбирается набравший наибольшее количество голосов. В простых задачах голосование большинством может оказаться полезным, но его результаты быстро выходят на плато при решении сложных задач на рассуждение или задач, где ошибки постоянны на протяжении поколений.

Более продвинутый метод рассуждений —Best-of-N. В этом методе SLM генерирует несколько ответов, но вместо голосования большинства используется модель вознаграждения для оценки ответов и выбора лучшего из них. «Weighted Best-of-N», более тонкая версия этого метода, учитывает последовательность, чтобы выбирать ответы, которые являются как достоверными, так и встречаются чаще других.

Исследователи использовали PRM, которая оценивает ответ SLM не только по окончательному ответу, но и по многочисленным этапам, через которые он проходит, чтобы достичь его. Их эксперименты показали, что Weighted Best-of-N и PRM приблизили Llama-3.2 1B к уровню Llama-3.2 8B на сложном бенчмарке MATH-500.

Для дальнейшего улучшения производительности модели исследователи добавили алгоритмы поиска в процесс рассуждений модели. Вместо того, чтобы генерировать ответ за один проход, они использовали лучевой поиск.

На каждом шаге SLM генерирует несколько частичных ответов. Алгоритм поиска использует модель вознаграждения для оценки ответов и выбирает подмножество, которое стоит дальнейшего изучения. Процесс повторяется до тех пор, пока модель не исчерпает свой бюджет вывода или не достигнет правильного ответа. Таким образом, бюджет вывода может быть сужен для фокусировки на наиболее многообещающих ответах.

Исследователи обнаружили, что хотя лучевой поиск улучшает производительность модели на сложных задачах, он имеет тенденцию уступать другим методам на простых задачах. Чтобы решить эту проблему, они добавили еще два элемента в свою стратегию вывода.

Первым был Diverse Verifier Tree Search (DVTS), вариант лучевого поиска, который гарантирует, что SLM не застрянет в ложных путях рассуждений и диверсифицирует свои ответные ветви. Во-вторых, они разработали «вычислительно-оптимальную стратегию масштабирования», как предлагается в статье DeepMind, которая динамически выбирает лучшую стратегию масштабирования времени тестирования на основе сложности входной задачи. 

Сочетание этих методов позволило Llama-3.2 1B превзойти свой вес и превзойти модель 8B со значительным отрывом. Они также обнаружили, что стратегия масштабируема, и при применении к Llama-3.2 3B они смогли превзойти гораздо более крупную модель 70B.

Масштабирование вычислений во время тестирования изменяет динамику стоимости моделей. Теперь предприятия могут выбирать, где размещать свои вычислительные ресурсы. Например, если у вас мало памяти или вы можете мириться с более медленным временем отклика, вы можете использовать небольшую модель и тратить больше циклов времени вывода для получения более точных ответов.

Однако масштабирование времени тестирования также имеет свои ограничения. Например, в экспериментах, проведенных Hugging Face, исследователи использовали специально обученную модель Llama-3.1-8B в качестве PRM, что требует параллельного запуска двух моделей. 

Методика масштабирования времени тестирования, представленная в этом исследовании, также ограничена задачами, где ответ может быть четко оценен, такими как кодирование и математика. Создание моделей вознаграждения и верификаторов для субъективных задач, таких как творческое письмо и дизайн продукта, требует дальнейших исследований.

Но ясно, что масштабирование во время тестирования вызвало большой интерес и активность , и можно ожидать появления большего количества инструментов и методов в ближайшие месяцы. 

Источник


ссылка на оригинал статьи https://habr.com/ru/articles/868564/