Исследователи из Midjorney и Нью-Йоркского университета разработали новый подход, который может помочь языковым моделям генерировать более разнообразные креативные тексты без существенного ущерба качеству.

В недавно опубликованной статье команда вводит «метрики отклонения» в процесс обучения AI. Метод работает путем измерения того, насколько отличается каждый сгенерированный текст от других, созданных для той же подсказки. Эти различия вычисляются с использованием встроенных текстов и их парного косинусного расстояния — по сути, давая системе математический способ понимания вариации текста.

Первоначальное тестирование выглядит многообещающим. Модели, использующие этот новый метод обучения, сгенерировали на 23 процента более разнообразные тексты, при этом показатели качества снизились всего на пять процентов, согласно системе вознаграждений Reddit.
Тестовый случай показывает, как это работает на практике. Когда давали подсказку, стандартная модель GPT-4o в основном придерживалась историй о нервных новых правителях. Модифицированная модель Llama-3.1-8B, несмотря на меньшие размеры, производила все, от темных фэнтезийных историй о медвежьих принцах до сверхъестественных историй, происходящих под водой.

Тестировщики подтвердили эти результаты, заявив, что тексты показали больше разнообразия при сохранении качества. Однако исследователи тестировали только старый GPT-4o, а не новый GPT-4.5, который производит более естественно звучащий текст, но стоит дороже.

Исследователи сосредоточились на двух типах разнообразия: семантическом (разное содержание и сюжеты историй) и стилистическом (письмо, которое звучит так, как будто его написали разные авторы). Они разработали отдельные версии для каждого типа, но обнаружили, что лучше всего работает их объединение.
Для своего исследования команда использовала более 100 000 пар «подсказка-ответ» из Reddit r/WritingPrompts. Они обнаружили, что могут получить значительно большее разнообразие, используя всего четыре разных ответа на подсказку.
Система может поддерживать качество, используя тщательно отобранные обучающие примеры или устанавливая минимальные стандарты того, насколько разными должны быть ответы. Это делает ее более гибкой, чем другие методы увеличения выходного разнообразия.
Некоторые вопросы все еще требуют ответов. Исследователи пока не показали, работает ли их метод за пределами творческого письма — техническая документация и резюме могут потребовать иных подходов. Эффективность метода в среде онлайн-обучения, которую используют многие крупные модели, также остается непроверенной.
Система измерения качества сама по себе вызывает вопросы. Хотя оценки Reddit дают некоторое представление о качестве текста, они упускают из виду такие важные факторы, как техническая точность, последовательность и профессиональные стандарты письма. Эти ограничения указывают на то, что могут потребоваться более комплексные методы оценки.
Даже с этими открытыми вопросами эта техника может изменить то, как LLM справляются с творческими задачами письма, где текущие модели часто попадают в повторяющиеся шаблоны. Исследователи говорят, что они поделятся своим кодом на GitHub, чтобы другие могли развивать их работу.
ссылка на оригинал статьи https://habr.com/ru/articles/895592/
Добавить комментарий