
Команда Perplexity AI опубликовала техотчёт о создании своего поискового агента на базе моделей Qwen3.5.
Результаты выглядят неожиданно сильными:
модель Qwen3.5-397B после SFT и RL достигает 73,9% точности на FRAMES при стоимости около 2 центов за запрос.
Для сравнения:
• GPT-5.4 — 67,8% и ~8,5 цента
• Sonnet 4.6 — 62,4% и ~15,3 цента
То есть лучше и значительно дешевле.

Как это сделал?
Система обучения разделена на два этапа:
сначала SFT фиксирует «поведение» — формат ответа, следование инструкциям, корректные отказы
затем RL с GRPO дообучает именно поиск — точность и эффективность вызовов инструментов
Попытка объединить это в один этап ломает баланс: либо страдает качество поиска, либо продакшен-требования.

Данные для обучения:
Используются два типа данных:
• синтетические многошаговые вопросы с проверяемыми ответами
• диалоги, разбитые на чёткие критерии (формат, логика, структура)
Пропорция 90 к 10 в пользу проверяемых задач, чтобы модель училась именно находить правильный ответ, а не просто красиво отвечать.
Ключевая фишка — система наград
Reward устроен так, что «красивый» ответ не засчитывается, если он неправильный.
Сначала проверяется фактологическая корректность, и только потом учитывается стиль и качество формулировок.

Также добавлен штраф за неэффективность:
модель оптимизируется по числу вызовов инструментов и длине ответа относительно лучших решений внутри группы, а не по фиксированному лимиту.
Что это даёт?
Даже при одном вызове инструмента модель уже обгоняет конкурентов, а в диапазоне 2–7 вызовов (типичный продакшен) разрыв становится ещё больше.
Дополнительно Perplexity снижает стоимость за счёт оптимизаций инференса — кэширование, квантование и переиспользование вычислений.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
ссылка на оригинал статьи https://habr.com/ru/articles/1027650/