Когда нейросеть отвечает на вопрос и показывает блок «источников», кажется, что у всех систем это одно и то же — список ссылок, на которые модель опиралась. На деле за этим блоком в каждой системе стоит своя реализация: свой способ обмена с сервером, свой формат ответа, свои поля, из которых интерфейс достаёт цитаты. Мы разобрали сетевой обмен веб-клиентов трёх систем — ChatGPT, Gemini и DeepSeek — и параллельно прогнали через них один и тот же набор запросов по 10 раз, чтобы понять не только техническое устройство цитирования, но и что эти системы реально цитируют.
Сразу оговорка: я основатель RankCaster AI — платформы, которая управляет видимостью брендов в ответах нейросетей. То есть мы изучаем категорию, в которой сами работаем. Чтобы не подыгрывать себе, мы исключили собственный домен из всех таблиц ещё до подсчётов, а ограничения методики описали в полном тексте исследования. Здесь — техническая часть: разбор механики цитирования.
Зачем вообще лезть в сетевой обмен
Исходный вопрос был маркетинговый: если сайт стоит в топ-10 Google или Bing, попадёт ли он в источники, которые цитирует ChatGPT по тому же запросу?
Короткий ответ — почти никогда. На 4 запросах × 2 поисковика × 3 нейросети (120 позиций SEO-топа) мы нашли всего 4 совпадения по URL — 3,3%. Картина бимодальня: 8 из 12 пар «поисковик × нейросеть» дали ноль совпадений, оставшиеся 4 — ровно по одному URL. Все четыре совпадения пришлись на Bing; на стороне Google — ноль. У ChatGPT — ноль совпадений с обоими поисковиками.
Но чтобы корректно считать совпадения, сначала нужно понять, что такое «источник» в каждой системе на уровне сетевого обмена. Иначе сравниваешь сущности, которые могут оказаться несравнимыми. Так маркетинговый вопрос превратился в сессию с инструментами разработчика по трём платформам.
Коротко о методике: 4 англоязычных B2B-запроса про инструменты мониторинга упоминаний в нейросетях, каждый запущен по 10 раз в каждой системе (веб-поиск включён, сессии без входа в аккаунт, все замеры в один день). Стабильность цитирования измеряли показателем APR (Answer Presence Rate) — в скольких прогонах из десяти источник попал в ответ. В таблицы шли источники с APR не ниже 20%. При N=10 доверительный интервал любой точки — порядка ±15–20 процентных пунктов, поэтому опираемся на качественную форму картины, а не на точечные значения.
Важная оговорка: ни одна из трёх систем не публикует внутренние схемы ответов. Всё, что ниже, — наблюдения за публичным сетевым обменом веб-клиентов и структурой JSON. Расшифровки полей со скрытыми именами — это гипотезы, построенные на поведении клиента, а не официальная документация. Имена адресов и заголовков зафиксированы в наших сессиях и могут отличаться между сборками, регионами и аккаунтами.
ChatGPT: цитата привязана к фрагменту текста
Как устроен обмен. Веб-клиент шлёт POST-запросы с JSON на адреса вроде /conversation, а ответ получает потоком через Server-Sent Events. Все запросы идут на chatgpt.com, серверная часть доступна по трём префиксам путей: /backend-api (основной), /backend-alt и /backend-anon. Последний обслуживает работу без входа в аккаунт, но «без входа» не значит «без идентификации»: каждый запрос всё равно сопровождается идентификатором устройства и токенами Cloudflare/Sentinel, по которым сервер привязывает обмен к конкретному устройству и сессии. Режим скрывает, кто вы как пользователь, — но не делает ваш клиент неотличимым для платформы.
Ход запроса. Перед основным обменом клиент делает подготовительный запрос и получает токен (мы зовём его рабочим именем conduit_token). Затем сообщение уходит на /conversation с двумя нестандартными заголовками — по поведению это похоже на семейство механизмов Sentinel, которые ранее описывали другие исследователи: подготовительный запрос выдаёт привязанное к сессии доказательство работы клиента, без которого основной вызов не пройдёт.
В части сессий тот же подготовительный запрос дополнительно требовал токен Cloudflare Turnstile — то есть проверка антибота приходила не отдельной страницей-загадкой, как обычно, а условием того же подготовительного запроса, который выдаёт conduit_token. Иначе говоря, две защиты совмещены в одном шаге, а не разнесены по разным.
Ответ приходит потоком Server-Sent Events: служебные сообщения, фрагменты текста, закрывающее сообщение.
Цитаты. Источники живут в массиве annotations[], внутри объектов url_citation с полями url, title, start_ix, end_ix. Последние два — это смещения в сгенерированном тексте, границы фрагмента ответа, к которому привязан источник. По аналогии с публичным Responses API, где start_index/end_index задокументированы как кодовые единицы UTF-16, и поскольку строки в JavaScript тоже индексируются в UTF-16, эти смещения почти наверняка тоже UTF-16: вызов text.slice(start_ix, end_ix) в браузере возвращает именно процитированный фрагмент. Практическое следствие для тех, кто будет это разбирать: эмодзи и часть китайских/японских/корейских символов занимают две единицы (суррогатная пара), и если считать смещения байтами или кодовыми точками, цитаты «съедут».
Главный вывод по ChatGPT: источник привязан к конкретному фрагменту ответа, а не ко всему ответу целиком. Чтобы бренд попал в url_citation, модель должна использовать связанный с ним контент при генерации именно этого фрагмента.
Что цитирует. На концептуальном запросе «What is GEO?» ChatGPT во всех 10 прогонах цитировал научную статью arXiv 2311.09735 (Принстон / Колумбия — та самая, где введён термин GEO). APR 100%, стабильнее любого маркетингового блога в нашей выборке. Плюс Wikipedia и узкоспециализированные блоги. С SEO-топом — ноль пересечений по URL.
Gemini: каталог источников в массиве со скрытыми именами полей
Как устроен обмен. Потоковый ответ внутри Wiz — внутреннего JavaScript-каркаса Google, на котором собраны Docs, Maps, Photos. Адрес batchexecute — это стандартный для Wiz-фронтендов механизм пакетной отправки удалённых вызовов. База: https://gemini.google.com/_/BardChatUi/data/. На вызов отправки сообщения мы наблюдали rpcid hNvQHb (значения rpcid между сборками меняются), на серверной стороне — обработчики семейства BardFrontendService.
Формат тела. Снаружи — application/x-www-form-urlencoded с двумя значимыми полями: f.req (полезная нагрузка) и at=<SNlM0e> (токен защиты от CSRF). Кстати, в имени токена третий символ — строчная латинская L, пятый — ноль; в одноширинных шрифтах это ловушка. Поле f.req — JSON-конверт вида [null,"<строка-конверт>"], где внутри — нагрузка в формате JSPB / PBLite: сообщение Protobuf, записанное как массив JSON, в котором поле определяется не именем, а позицией. Имён полей в сетевом обмене нет вообще — маскировка именно в раскладке по индексам. Открытых .proto-описаний для этого адреса не существует, поэтому соответствия полей мы вывели только эмпирически.
Цитаты. Источники описываются набором полей с короткими маскированными именами. Здесь важно разделить два слоя: присутствие полей в потоке — наблюдаемый факт (имена реально встречаются в обмене), а смысл каждого имени — гипотеза. Наши рабочие догадки:
-
sourceUrl— URL источника (саму строку URL видно напрямую, имя поля — наша рабочая метка: в сетевом обмене оно приходит позицией в массиве); -
Mf— предположительно заголовок источника; -
SR— предположительно краткое содержание; -
rs— предположительноreliability_score, внутренняя оценка доверия к домену; -
ls— предположительноlast_seen_date, дата последнего обращения; -
y6— предположительно сам процитированный фрагмент; -
K1b— предположительно флаг валидности URL; -
GK— диапазон символов в ответе (функциональный аналогstart_ix/end_ixиз ChatGPT); -
tM— тип слияния (в обмене встречаются значения вродеMERGED).
У двухбуквенных имён есть и другие правдоподобные расшифровки (rs — ranking_signal? retrieval_score?), и без внутренней документации Google однозначно выбрать нельзя. Но качественный вывод от точности расшифровок не зависит: рядом с каждым источником у Gemini едет семейство внутренних сигналов, коррелирующих с авторитетностью — сам факт существования этих полей важнее точного значения каждой аббревиатуры.
Что цитирует. Gemini систематически поднимает крупные маркетинговые и SaaS-домены (Semrush, HubSpot, Zapier) и продукты своей же категории — на одном из запросов в топ попали четыре разных URL одного домена-конкурента. Любопытная деталь: в топ источников Gemini за все прогоны не попал ни один ресурс самого Google. И именно на паре Bing × Gemini пришлась заметная часть всех совпадений с SEO-топом.
DeepSeek: источники как приложение к под-запросам
DeepSeek из трёх систем устроен прозрачнее всего: веб-клиент возвращает массив search_results[], привязанный к под-запросам, на которые система разбивает исходный вопрос. Никакой арифметики смещений с суррогатными парами, никаких маскированных аббревиатур — но свой характер выбора источников выражен ярче всех.
Что цитирует. DeepSeek живёт на новостных ресурсах и пресс-релизах: TMCnet, MarketScreener, GlobeNewswire, отраслевые B2B-новостники — то есть на слое, который формируется сервисами дистрибуции пресс-релизов. Из трёх систем он единственный стабильно цитировал китайские источники (BusinessNext, Alibaba Cloud). И именно у него — три точки максимальной стабильности из всей выборки: один поддомен документации (10/10) и два инструментальных сайта (по 10/10), которых нет ни в SEO-топах, ни у других систем.
Три системы — три разные модели «источника»
Сведём:
|
|
ChatGPT |
Gemini |
DeepSeek |
|---|---|---|---|
|
Способ обмена |
JSON + Server-Sent Events |
Wiz / batchexecute, JSPB |
JSON, |
|
Привязка цитаты |
к фрагменту текста ( |
к диапазону ( |
к под-запросу |
|
Внутренние сигналы |
не видны |
семейство полей ( |
не видны |
|
Любимый тип источников |
наука, Wikipedia, нишевые блоги |
крупные SaaS- и маркетинг-домены |
пресс-релизы, новостные сетки, документация |
|
Пересечение URL с SEO-топом |
0 |
точечное (только Bing) |
точечное (только Bing) |
Практические следствия:
«Оптимизируй под Google — и нейросеть подтянется» в изученной категории не работает. 3,3% пересечения, ноль на стороне Google. Каждая система отбирает источники по своим правилам, не совпадающим ни с SEO-ранжированием, ни друг с другом.
Для ChatGPT работает контент, который модель захочет использовать в конкретном фрагменте ответа — привязка цитаты к фрагменту делает «общую известность бренда» бесполезной.
Для Gemini, судя по полям, существует внутренняя оценка доменов. Если гипотеза reliability_score верна, домен с историей доверия важнее отдельной удачной статьи.
Для DeepSeek канал распространения — пресс-релизы и новостные сетки, которые SEO-специалисты привыкли считать мусорным каналом.
Ограничения
Честно и списком: все 4 запроса — из одной продуктовой категории (нашей же — смещение выборки задекларировано); формулировки запросов составляли мы сами, а не брали из внешнего реестра; N=10 прогонов даёт ±15–20 п.п. на точку; замер сделан в один день, а веб-клиенты всех трёх систем обновляются постоянно, так что конкретные имена полей и адресов — снимок, а не канон. Выводы не стоит автоматически переносить на другие категории.
Полное исследование — все таблицы по 4 запросам, методика, типология источников — Source Overlap Between Search Engines and AI Recommendations.
Если вы видите в своих сессиях с инструментами разработчика другие имена полей или у вас есть данные по другим категориям запросов — расскажите в комментариях, нам интересно сравнить.
ссылка на оригинал статьи https://habr.com/ru/articles/1046259/