Как работает адаптивный RAG, которому вообще не нужен LLM

Один из самых популярных способов снизить процент галлюцинаций языковых моделей — метод RAG, то есть схема, в которой модель при необходимости обращается к внешним данным, а не опирается исключительно на внутренние знания. Все LLM текущего поколения работают с RAG, но он делает систему затратнее по вычислениям и сам по себе может допускать ошибки, если внешний контекст оказался плохим или нерелевантным.

Сегодня я разберу исследование LLM-Independent Adaptive RAG: Let the Question Speak for Itself, в котором ученые из MWS AI, AIRI, Сколтеха и еще нескольких университетов предлагают решение этой проблемы через новый подход к adaptive retrieval, когда RAG запускается не автоматом, а только при необходимости.

В чем новизна метода

Вы будете правы, если воскликнете – «концепция не принципиально новая!». Но не спешите с выводами: практически все существующие adaptive RAG-подходы принимают решение «искать/не искать» через саму LLM: по её внутренним состояниям, по выходным сигналам или согласно оценке неопределённости. А это снова даёт заметные вычислительные затраты и во многом съедает тот выигрыш в эффективности, ради которого adaptive retrieval вообще и задумывался.

Авторы исследования предлагают отказаться от дорогой проверки необходимости RAG через LLM. и заменить её более лёгким способом: определять, нужен ли retrieval, по внешним признакам самого вопроса и связанных с ним сущностей. Свой подход они назвали LLM-independent adaptive retrieval.

Иными словами, ученые предлагают смотреть не внутрь модели, а на сам вопрос. Для этого собираются внешние признаки, связанные с вопросом и сущностями в нём.

К примеру:

степень популярности по просмотрам в Wikipedia;
хорошо ли сама модель в принципе знает такие сущности;
какого типа вопрос и насколько он сложный.

Дальше схема работает так:

Сначала система получает вопрос → из этого вопроса извлекаются нужные внешние признаки → после этого лёгкий классификатор (не LLM) решает, нужен retrieval или нет.

Если нужен, система идёт во внешний поиск и уже потом отдаёт найденный контекст генеративной модели. Если не нужен, модель отвечает сразу, без лишнего шага.
И в этом главная фича: решение о поиске выносится из дорогого слоя большой модели в более дешёвый слой признаков и классификатора.

Даже признак knowledgability, который связан со знанием сущностей моделью, просчитывается заранее: iAR предвычисляет такие оценки и потом используют их без нового запроса к LLM на каждом вопросе.

Собственно этот подход позволяет тратить на решение о поиске менее 1% вычислительных ресурсов (FLOPs) от общей стоимости генерации ответа, что значительно дешевле классических подходов RAG.

Техподробности

Под капотом — выстроенный лёгкий слой признаков (всего авторы рассматривают 27 признаков, объединенных в 7 групп), который работает до генерации ответа. Слой получает вопрос, извлекает из него набор внешних сигналов и уже на их основе обученный классификатор решает, нужен retrieval или нет.

Перечислю все 7 групп:

Graph features: признаки по графу знаний Wikidata. Для сущностей из вопроса считается, сколько у них связей как у subject и как у object; дальше берутся минимум, максимум и среднее.
Popularity features: насколько сущности из вопроса популярны по просмотрам страниц в Wikipedia за последний год; снова используются min, max и mean.
Frequency features: как часто сущности встречаются в большом текстовом корпусе, плюс частота самого редкого n-грамма в вопросе.
Knowledgability: оценка того, насколько LLM «знает» сущность; этот сигнал получают заранее, офлайн, через verbalized uncertainty модели по отношению к сущности.
Question type: вероятности того, что вопрос относится к одному из девяти типов — ordinal, count, generic, superlative, difference, intersection, multihop, yes/no, comparative.
Question complexity: одношаговый вопрос или multi-hop, то есть требует ли он дополнительных шагов рассуждения.
Context relevance: насколько найденный контекст вообще релевантен вопросу.

Дальше важен способ, как именно эти группы считаются. Для entity linking и извлечения сущностей используются готовые NLP-инструменты вроде BELA и DeepPavlov.

Question type они получают через классификатор на базе bert-base-uncased, обученный на Mintaka; на выходе модель даёт девять вероятностей по типам вопросов, а на валидации у этого классификатора указана точность 0.93.

Question complexity строится как one-hop vs multi-hop классификация на основе признака N-hop из FreshQA; для этого использован DistilBERT, а итоговый F1 на тесте — 0.82. Context relevance считается через BERT cross-encoder: вопрос и каждый контекстный фрагмент прогоняются через модель, после чего по всем контекстам агрегируются minimum, maximum и mean вероятности релевантности, плюс отдельно учитывается длина контекста.

Сам роутер у них не нейросетевой гигант, а обычный ML-классификатор поверх этих признаков. Каждая группа признаков может использоваться для обучения классификатора, который предсказывает, нужен retrieval или нет.

В приложении авторы перебирают несколько стандартных моделей и в финале используют soft-voting ансамбль из двух лучших на валидации. Кроме отдельных групп признаков они ещё проверяют гибриды: HybridExternal – все внешние признаки, HybridUFP – все внешние без popularity и frequency, и HybridFP – uncertainty плюс внешние признаки без popularity и frequency.

Основа идёт в связке LLaMA 3.1-8B-Instruct как генератора и BM25 как retriever. Отдельно проверяется переносимость результатов на Qwen2.5-7B-Instruct. Тестирование идёт на шести QA-датасетах: SQuAD v1.1, Natural Questions, TriviaQA, MuSiQue, HotpotQA и 2WikiMultiHopQA.

Для оценки качества используется In-Accuracy (InAcc) — метрика, которая проверяет, содержится ли в ответе правильный ответ. Для оценки эффективности — Retrieval Calls (RC) – среднее число вызовов retrieval на вопрос, и LM Calls (LMC) – среднее число вызовов языковой модели на вопрос, включая шаги uncertainty estimation.

Результаты

Метод iAR не обязательно показывает лучшую абсолютную точность, зато даёт очень хорошее соотношение качества и вычислительной цены. Лучшими внешними признаками оказались knowledgability и question complexity со средним InAcc 38.9 и 38.8 соответственно. Для сравнения, Always RAG даёт 38.4, а лучший one-step uncertainty baseline Hybrid UE – 39.3. То есть разрыв с сильными uncertainty-based подходами небольшой.

По средней точности ответов есть и более высокие средние результаты, например, AdaptiveRAG – 40.3 и DRAGIN – 41.1. Вывод: внешние признаки подходят вплотную к сильным adaptive-методам, при этом обходятся заметно дешевле по числу вызовов модели.

Результаты adaptive retrieval and uncertainty-based подходов

У внешних методов LMC обычно равен 1.0, то есть в среднем на вопрос приходится один вызов LLM. У uncertainty-based методов этот показатель выше: например, у Hybrid UE – 1.7–2.0, у AdaptiveRAG – до 5.2 в зависимости от датасета, у DRAGIN – до 6.3, у SeaKR – до 14.6, а у RowenCM – 42.1. Внешние признаки предвычисляются, поэтому не добавляют LLM накладных расходов во время инференса.

Но могут ли внешние признаки дополнить uncertainty-based подходы?

Согласно выводам исследования, в большинстве датасетов внешние признаки скорее заменяют uncertainty-сигналы, чем усиливают их. Заметный выигрыш от комбинации виден в основном на MuSiQue; на остальных наборах явных преимуществ от смешивания двух подходов не получилось.

Заключение

Собственно, разобранная исследовательская работа фокусируется на поиске более выгодного подхода к принятию решений о необходимости использования retrieval. Концепция легковесного ML для маршрутизации запросов – один из путей к снижению затрат на инференс, к чему стремится весь бизнес и за что бьются все разработчики ИИ. Так, метод LLM-Independent Adaptive Retrieval имеет хорошие шансы прижиться. .

https://aclanthology.org/2025.emnlp-main.439/ — ссылка на работу.

Maria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, and Viktor Moskvoretskii. 2025. LLM-Independent Adaptive RAG: Let the Question Speak for Itself. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 8697–8709, Suzhou, China. Association for Computational Linguistics.

ссылка на оригинал статьи https://habr.com/ru/articles/1041078/