Как нейросети решают, чей бренд процитировать: разбор RAG-архитектуры поиска и что из этого следует для GEO

Когда Алиса, ChatGPT или Perplexity отвечают пользователю и называют конкретный бренд, за этим стоит конвейер из нескольких алгоритмов извлечения и ранжирования. Я разобрал, как он устроен в Google, Bing и Яндексе, и собрал из этого практические выводы для GEO. Все ключевые цифры проверял по первоисточникам — где факт доказан публикацией, а где это исследовательское направление или вторичные данные, помечено отдельно.

Небольшой оффтоп — как я в это ввязался

Я всё ещё Макс Фомин из агентства Vverh.Digital. Прежде чем нырнём в архитектуру — небольшой оффтоп, как я вообще в это ввязался.

Продвижением в нейросетях я заинтересовался ещё в сентябре 2024 года, и причина была почти бытовая. Я заметил, что наша команда зумеров всё чаще идёт со своими вопросами — и личными, и профессиональными — не в поиск, а к нейронкам. Уже потом я разобрался, что в их решениях, помимо самих ответов ИИ, большую роль играют инфлюенсеры — но тогда меня зацепило именно смещение от поисковой строки к диалогу с моделью.

Я сложил два и два и начал копать: как вообще продвигаться в нейросетях и на чём строятся их ответы. И тут поймал момент, который всё запустил, — увидел, что один из ответов нейросеть собрала на нашем же контенте из блога Vverh.Digital.

ответ нейросети, построенный на контенте блога Vverh.Digital

Стало по-настоящему интересно. Сам термин GEO тогда только набирал вес на Западе, а у нас о нём и слышать не хотели — зато все дружно начали терять трафик. С тех пор я и занимаюсь этим вплотную. Дальше — про то, как именно нейросети выбирают, чей контент процитировать

Ещё небольшой нюанс, я ввожу вот такое разграничение: потому что по факту, факторы ранжирование либо из слива или из данных личного наблюдения и наши практиков.

Жирный шрифт — подтверждено первоисточником (arXiv, блог вендора)

Курсив — research-направление или данные из вторичных публикаций

От списка ссылок к синтезу ответа

Классический поиск работал по схеме «сканирование — индексирование — ранжирование — список ссылок». SEO под него оптимизировало плотность ключевых слов, мета-теги, ссылочный профиль и поведенческие факторы.

Генеративные движки — Google AI Overviews, Microsoft Copilot, Яндекс Нейро — работают иначе: они читают несколько источников и компилируют единый ответ. Технологическое ядро этого сдвига — RAG. Модель не полагается только на веса, полученные при обучении, а динамически обращается к внешнему индексу: запрос трансформируется, извлекаются релевантные фрагменты (чанки), они объединяются с запросом в расширенный промпт, и генерируется ответ, заземлённый на извлечённых фактах с указанием источников. Это решает главную болезнь изолированных LLM — галлюцинации и отсутствие свежих данных.

Практический вывод для бренда: видимость теперь определяется не позицией в списке, а вероятностью того, что алгоритмы выберут, верифицируют и процитируют ваш контент при синтезе ответа. Эта дисциплина и называется GEO — Generative Engine Optimization.

Сразу уточню! Простите ребят, но без сгенериных картинок никак, ну вот такой у меня стиль, люблю упрощённые картинки, хотел бы вложить это в дизайнера, но у него и так есть производственные задачи:

Конвейер RAG: запрос проходит грубое извлечение, точное реранжирование и попадает в генеративную модель, которая отвечает со ссылками на источники.

Этап извлечения: три подхода к релевантности

Если бренд не прошёл фильтрацию на этапе извлечения (Retrieval), никакая дальнейшая оптимизация не заставит модель его упомянуть. Современные системы используют гибридный конвейер из трёх математических подходов.

Лексический поиск (BM25) оценивает частоту термина в документе относительно частоты во всём корпусе. Работает с разреженными представлениями, не понимает синонимов, но незаменим для точного совпадения имён собственных, артикулов и редких терминов длинного хвоста.

Плотный семантический поиск (Dense Retrieval) на базе би-энкодеров (BERT-подобные модели) сжимает запрос и документ в плотные векторы и считает близость через косинусное сходство. Отлично ловит смысл и синонимию, но сжатие целого документа в один вектор теряет детали.

Модели позднего взаимодействия (ColBERT) не сжимают документ до одного вектора, а хранят представление для каждого токена и считают максимальное сходство между токенами запроса и документа. Высочайшая точность, но дорого по вычислениям — поэтому применяется на финальном реранжировании.

Метод	Представление	Сложность	Что даёт для GEO
BM25	Разреженная матрица	Низкая	Точное совпадение названий брендов и продуктов
Dense / Bi-encoder	Единый плотный вектор	Средняя	Семантическое ядро, LSI-копирайтинг
ColBERT (late interaction)	Вектор на каждый токен	Высокая	Плотная фактология, чёткие ответы на вопросы

Стандарт 2026 года — гибрид всех трёх: BM25 даёт лексическую точность, Dense Retrieval — семантическую полноту, ColBERT — прецизионное выделение фрагментов. Метрики комбинируются (например, через Reciprocal Rank Fusion), и это определяет, попадёт ли фрагмент о вашем бренде в выборку. (Господа могут меня поправить, критика уместна)

Куда движется ранжирование Google: BlockRank и MuVERA

Здесь важная оговорка, ради которой я и завёл пометки Жирным и Курсивом. Эти два алгоритма реальные опубликованные исследования Google, но нет публичного подтверждения, что они уже работают в продакшене AI Overviews или Gemini. Это направление развития, а не описание того, что происходит с вашей выдачей прямо сейчас. Подавать их как «вот так Google ранжирует вас сегодня» — некорректно.

SearchEngineLand прямо отмечает, что, насколько известно, BlockRank на данный момент не используется в продуктах Google и может быть внедрён лишь в будущем. То же касается MuVERA — в анонсе не утверждается, что он применяется в поиске.

BlockRank — линейное внимание вместо квадратичного

Когда LLM оценивает десятки документов сразу (In-Context Ranking), механизм внимания требует, чтобы каждый токен сравнивался с каждым — это квадратичная сложность O(N²), медленно и дорого. Исследователи DeepMind заметили: при оценке релевантности внимание внутри документа плотное, а между разными документами почти избыточно. BlockRank принудительно изолирует документы друг от друга на уровне внимания — каждый смотрит только на себя и на блок запроса. Это превращает квадратичную стоимость в линейную O(N).

Проверено: arXiv:2510.05396

Статья «Scalable In-context Ranking with Generative Models», опубликована 9 октября 2025 (UT Austin, Google, Google DeepMind), эксперименты на Mistral-7B. Заявленное ускорение инференса — в 4,7 раза именно для 100 документов MSMarco в контексте. Масштабирование — до ~500 документов (~100K токенов) примерно за секунду, без потери качества ранжирования относительно SOTA.

Источник: arxiv.org/abs/2510.05396

MuVERA — многовекторный поиск со скоростью одновекторного

ColBERT точен, но считать сходство по всем токенам для миллиардов документов физически невозможно. MuVERA редуцирует многовекторный поиск обратно к быстрому одновекторному (MIPS) через Fixed Dimensional Encodings: пространство разбивается гиперплоскостями на секторы, и — ключевая асимметрия — векторы запроса в секторе суммируются, а векторы документа усредняются. Это позволяет аппроксимировать честную метрику Chamfer Similarity с математической гарантией.

Проверено: Google Research, arXiv:2405.19504

По данным блога Google Research, в сравнении с PLAID MuVERA даёт в среднем на 10% выше recall при снижении задержки на 90% на датасетах BEIR. FDE сжимаются через product quantization в 32 раза с минимальной потерей качества; для фиксированного recall требуется в 5–20 раз меньше кандидатов.

Источник: research.google/blog/muvera

Что из этого следует для практики, даже если алгоритмы пока research: вектор развития ясен — машина учится оценивать смысл на уровне отдельных слов документа практически без задержек. Контент с максимальной концентрацией полезных фактов выигрывает у «воды», и это не изменится от того, какой именно алгоритм окажется в продакшене.

Query Fan-Out: один запрос превращается в дерево

В парадигме AI Overviews одиночный сложный запрос декомпозируется на множество подзапросов. На запрос «лучшее очищающее средство для подростковой жирной кожи» система сама генерирует ветви: «составы для подростковой кожи», «ингредиенты против акне», «обзоры щадящих средств» — даже если пользователь их не вводил

Механизм Query Fan-Out описывается в патентных заявках Google. Конкретные номера патентов я сознательно не привожу — их стоит сверять по базе USPTO перед цитированием, а не переписывать из вторичных источников. Сам механизм декомпозиции запросов в генеративном поиске подтверждается публично; точная патентная привязка — нет.

Патент патент US12158907B1, заявка US20240289407A1

Вывод для контента: страница больше не конкурирует за один высокочастотный запрос. Она участвует в борьбе на уровне целого дерева связанных тем. Отсюда — тематические кластеры вместо отдельных страниц под отдельные ключи.

Яндекс Нейро: самый жёсткий конвейер из трёх

Архитектура Яндекса отличается от Google своей непреклонностью. Конвейер трёхступенчатый:

Классический отбор. Стандартные алгоритмы ранжирования Яндекса (сотни факторов: ссылки, поведение, коммерческие сигналы) производят первичную фильтрацию.
Семантическая фильтрация. Энкодер извлекает текст со страниц-кандидатов, токенизирует и оценивает близость к интенту тяжёлыми BERT-подобными моделями.
Генерация. Жёсткая обрезка — в пул для генерации попадают только лучшие источники, выжимки передаются в YandexGPT, который формирует ответ с обязательными ссылками.

Трёхэтапный конвейер и отбор пяти источников подтверждаются. Генеративная модель YandexGPT 3 опирается исключительно на текст из источников, а не на «память», и сопровождает ответ ссылками. По отраслевым данным, финальные пять источников отбираются из топ-30 органической выдачи — то есть быть в топ-30 это порог, а реальная конкуренция идёт за попадание в пятёрку.

Проверено кучей независимых источников (Уже только ленивый об это не написал)

Здесь поправлю распространённую неточность: иногда пишут «нужно быть в топ-5 органики». Точнее 0 пять источников отбираются из топ-30, и попадание в эту пятёрку определяется уже семантикой и структурой контента, а не только позицией. Но без топ-30 шансов нет вовсе: в отличие от Google с его fan-out на дальние страницы, Яндекс с дальней выдачи источники практически не подтягивает.

Воронка Яндекс Нейро: из топ-30 органики семантический фильтр отбирает ровно пять источников, и только они уходят в генерацию.

Проблема «Lost in the Middle» и почему первый абзац решает

Даже при огромном контекстном окне у LLM есть физическая проблема внимания: модель хорошо помнит начало и конец контекста и теряет то, что «погребено» в середине. Загружать всю базу знаний в модель не только дорого, но и вредно — растёт шум и вместе с ним галлюцинации.

Поэтому RAG-конвейеры реранжируют чанки кросс-энкодерами и располагают самые релевантные по краям контекстного окна. Для GEO это превращается в конкретное правило вёрстки контента — принцип перевёрнутой пирамиды: прямой фактологический ответ на интент пользователя должен стоять в первом абзаце раздела, до деталей. Тогда алгоритм чанкинга вырежет его как автономный смысловой блок, который пройдёт фильтры и попадёт в фокус внимания модели.

Эффект «Lost in the Middle»: модель хорошо удерживает начало и конец контекста и теряет середину. Отсюда правило - главный факт в первый абзац. — Эффект «Lost in the Middle»: модель хорошо удерживает начало и конец контекста и теряет середину. Отсюда правило — главный факт в первый абзац.

Что из всего этого реально делать бренду

1. Делать ставку на независимые площадки (earned media)

Это, пожалуй, главный практический вывод — и он подтверждён академически.

Aggarwal et al., KDD 2024 (arXiv:2311.09735)

Первое крупное академическое исследование GEO провели Pranjal Aggarwal и соавторы (Princeton, Georgia Tech, Allen Institute for AI, IIT Delhi), KDD 2024. Бенчмарк GEO-bench — около 10 000 запросов (8000 train + 1000 test) по нескольким доменам. Результат: правильные GEO-тактики повышают видимость в генеративных ответах до 40%, и лучше всего работают добавление статистики, цитирование авторитетных источников и плотная фактология, а не привычный из SEO keyword stuffing.

Поправка к расхожим пересказам: авторство часто ошибочно приписывают «Chen et al.» и называют 11 500 запросов. Верно — Aggarwal et al. и ~10 000 запросов.

Генеративные движки систематически смещены в пользу независимых источников против корпоративных сайтов и соцсетей — алгоритмы заземления ищут объективность ради минимизации галлюцинаций. Для бренда это значит сдвиг бюджета от бесконечной генерации текста в блоге к цифровому PR: упоминания, обзоры и профили на внешних авторитетных площадках. Именно оттуда RAG-система возьмёт факты для ответа.

На практике в наших проектах это подтверждается буквально. По одному из кейсов — франшиза кофеен — главными источниками, которые Алиса цитировала по нише, оказались не собственный блог клиента, а отраслевой агрегатор, федеральное СМИ и контентные проекты. За период около двух с половиной месяцев видимость бренда в Поиске с Алисой выросла с нуля 6,20 до 35,82%. Это третий результат в нише — и это нормально: в сравнительном контенте позиция 2–3 нередко читается моделью как более объективная.

2. Проектировать контент под машинное извлечение

Фактологическая плотность. Кросс-энкодеры дают высший балл чанкам с концентрацией проверяемых фактов — таблицы, статистика, ссылки на первичные исследования, мнения экспертов с указанием квалификации.
Иерархическая разметка. Последовательные H1–H6, списки, короткие смысловые абзацы. Машинное извлечение работает безупречно на логически разбитом тексте.
Формат «вопрос-ответ». Q&A и FAQ облегчают сопоставление векторов запроса и документа, потому что повторяют диалоговый стиль запроса.

3. Строить тематические кластеры под Query Fan-Out

Раз модель декомпозирует запрос в дерево подзапросов, оптимизация одной страницы под один ключ теряет смысл. Нужна pillar-страница, определяющая сущность, и поддерживающие материалы под все микро-намерения (инструкции, сравнения, обзоры, ценообразование), связанные плотной внутренней перелинковкой с описательными анкорами. Это формирует локальный граф знаний сайта.

4. Оптимизировать на уровне сущностей (Entity-First)

GraphRAG и графы знаний разрешают бренд не как случайную текстовую строку, а как верифицированный кластер фактов. Чтобы алгоритм связал ваши страницы с одним узлом графа, помогают: запись в Викиданных (Wikidata Q-ID), разметка Schema.org с атрибутами @id и sameAs, указывающими на авторитетные внешние профили, и консистентность NAP-данных (имя, адрес, телефон) по всем каталогам.

Короткий чек-лист

Прямой ответ — в первый абзац раздела (перевёрнутая пирамида против «Lost in the Middle»).
Плотная фактология: статистика, таблицы, ссылки на первоисточники, эксперты с регалиями.
Идеальная иерархия H1–H6, списки, формат Q&A / FAQ.
Тематические кластеры с описательной перелинковкой, а не страницы под одиночные ключи.
Цифровой PR на независимых площадках — генеративные движки предпочитают earned media.
Entity-разметка: Wikidata, Schema.org с sameAs, консистентный NAP.
Для Яндекса: попасть в топ-30 органики, дальше за пятёрку источников борется структура контента.

Вместо итога

Если свести всё к одной мысли: переход на генеративный поиск — это сдвиг от извлечения ссылок к синтезу знаний, и выигрывает в нём не тот, кто громче, а тот, чей контент машине проще извлечь, проверить и встроить в ответ. Старые рычаги — переспам ключей, массовая закупка ссылок, манипуляции с мета-тегами — здесь почти не работают. Работает обратное: фактологическая плотность, честная структура, подтверждение на независимых площадках.

Мне в этом видится скорее хорошая новость, чем угроза. Архитектура RAG вознаграждает ровно то, что и так делает контент полезным для человека — прямой ответ, проверяемые факты, ясную структуру. То есть впервые за долгое время интересы пользователя, поисковой системы и автора совпали: достаточно перестать писать «для алгоритма» и начать писать так, чтобы тебя было не стыдно процитировать.

И последнее, что я вынес из практики: гнаться за первым местом в сравнительных материалах не нужно. Нейросеть нередко считает более объективным источник, где бренд стоит вторым или третьим, — поэтому честная подача даёт больше, чем натянутое лидерство. В мире, где машина проверяет каждое утверждение, достоверность перестала быть этическим выбором и стала фактором ранжирования.

ссылка на оригинал статьи https://habr.com/ru/articles/1045826/