Можно ли доверять LLM как экспертам. Рассматриваю на примере ответов нейросетей с использованием поиска

от автора

Я всё чаще ловлю себя на том, что задаю вопрос непосредственно LLM, отказавшись от долгого поиска в интернете, изучения профильных форумов, отзывов и претензий. С одной стороны это гораздо быстрее, ответы выглядят логично, и гораздо легче согласиться с нейросетью, чем тратить силы и время. Но с другой стороны, насколько хорош совет модели? Почему это выбрала нейросеть, и как выбрала? Этим вопросом мало кто задаётся, поэтому я решил навскидку оценить экспертность решения.

Сценарий эксперимента: я выступаю в роли it-фрилансера и мне нужно выбрать облачный провайдер, который лучше всего подходит для маленького проекта. Опрошены основные бренды LLM с доступом к поиску.

Эксперимент

Для всех LLM был использован простой промпт:

Выступи в роли Senior-разработчика. Составь Топ-5 российских облачных провайдеров, которые лучше всего подходят для стартапов, малого бизнеса и индивидуальных IT-специалистов.

Модель (LLM)

Yandex Cloud

Timeweb Cloud

VK Cloud

Selectel

Cloud.ru

Cloud4Y / Beget

Gemini

1 место: Зрелый PaaS, Terraform, гранты.

2 место: Идеально для инди, понятный биллинг.

4 место: Гранты до 2 млн ₽, Big Data.

3 место: Отличное Bare-Metal, кэшбек 30%.

5 место: Линейка Evolution, легкий триал.

(Вне топа)

ChatGPT

1 место: Аналог AWS/GCP, сильный K8s, но дорогой.

3 место: Дешевые VPS, простой UI, под MVP.

2 место: Лучший для ИИ и GPU на OpenStack.

4 место: Баланс цены и надежности, нужен DevOps.

5 место: Тяжелый Enterprise, сложный онбординг.

(Вне топа)

Алиса AI

2 место: Программа Boost, ИИ-стек (YandexGPT), аналитика.

1 место: Гранты до 1 млн ₽, ДЦ в ЕС/РФ, аппрув за 1 день.

(Вне топа)

3 место: Кэшбек 30%, упор на 1С и VMware, защита L3/L4.

(Вне топа)

4 место (Cloud4Y): Гранты без лимитов.

5 место (Beget): NVMe, простой UI.

GigaChat

1 место: Крупная экосистема, бессерверные опции.

3 место: Управление без DevOps, быстрый старт.

2 место: Масштабируемый, купоны на рекламу VK.

4 место: Собственные ЦОДы, прозрачные тарифы.

(Вне топа)

5 место (Cloud4Y): Сертифицировано по ФЗ-152, фокус на compliance. 

DeepSeek

4 место: Отличный ИИ-стек, но дорого и есть риск вендор-лока.

1 место: Максимум простоты, одобрение за 1 день.

2 место: Щедрый грант (2 млн ₽), K8s без вендор-лока.

3 место: Стабильность, но нужен стартовый капитал.

5 место: Заморозка цен на 3 года от инфляции.

(Вне топа)

Claude

2 место: Лидер для AI-проектов, корп. сегмент.

1 место: Лучший ТСО (23 488 ₽), топ для MVP.

4 место: Позиции в медиа, грант на раунд А (2 млн ₽).

3 место: Зрелый DevOps-стек, K8s, гибридное облако.

(Вне топа)

5 место (Beget): Старт без бюрократии.

Итог (Консенсус)

1-2 место

(Ср. балл: 1.8)

1-2 место

(Ср. балл: 1.8)

3 место

(Ср. балл: 3.3)

4 место

(Ср. балл: 3.3)

5 место

(Ср. балл: 5.0)

Альтернативы

(Локальные топы у Алисы и Claude)

Как видно из таблицы, в целом нейросети совпадают в топ 5 провайдеров. Топ лучших по убыванию: Первое и второе место разделили Yandex Cloud и Timeweb Cloud, дальше VK Cloud, Selectel, Cloud.ru. Российские LLM включили в рейтинг Cloud4Y и  Beget, зарубежные, кроме Claude, их проигнорировали.

Оригинальностью отличился Deepseek. А вот Алиса и, что забавно, Gigachat не включили в топ сберовский Cloud.ru. Алиса на первое место поставила Timeweb Cloud, вместо родного Yandex Cloud.

Честно говоря, задавая роль Senior-разработчика, я не ждал чего-то невероятного. И да, форма подачи моделями топа-5 полностью соответствовала установленной роли, но только форма. LLM использовала красивые профессиональные термины, демонстрировала глубокое понимание и критическое мышление, но ни одна из нейросетей не повела себя как настоящий сеньор, не было встречных вопросов, уточнений (я понимаю, что это должен был сделать промпт, но эксперимент должен быть чистым), а самое главное, если очистить ответы от натянутой на обзор интернета псевдологики, то я получил сводку из первых пяти ссылок. То есть LLM, по крайней мере в режиме поиска, не продемонстрировала архитектурную экспертизу, а по сути зафиксировала успех seo-маркетологов, фактически срез медийного присутствия брендов.

Оценка интернет-источников

Судя по ссылкам базовые запросы моделей были “топ Х для малого бизнеса” “Лучшие Х  для малого бизнеса” и так далее. Ничем не хуже и не лучше человеческих поисковых запросов.

Попробуем оценить на какие источники опирались нейросети при формировании топа

Выводы:

  • Геотаргетинг (Алиса и DeepSeek):
    Поисковые движки Алисы и DeepSeek оказались наиболее чувствительны к метаданным пользователя (IP-адрес в Казахстане). Вместо стандартной выдачи они подмешали в контекст региональные источники (включая весьма забавную в смысле авторитетности “Нашу газету” из Костаная).

  • Уязвимость перед сильным контент-маркетингом:
    Обзорная статья в блоге провайдера Cloud4Y попала в поисковый пул четырех моделей из шести. при этом сам Cloud4Y в итоговый топ-5 не попал. Здесь да, модели проявили (возможно специально выученную) поправку на источник. Хотя Gigachat в результате заменил Cloud.ru на Cloud4Y. То есть, не надо стесняться хвалить себя на своих сайтах. Нейросеть всё равно сделает поправку.

  • Разница в поисковых стратегиях (Глубина vs. Первоисточники):

    • DeepSeek ставит абсолютный рекорд по числу затронутых страниц (112 ссылок), используя тактику агрессивного парсинга с жесткой последующей фильтрацией.

    • Gemini в прямом ответе не указала ссылки на источники. При добавлении в промпт требования предоставить ссылки на источники и поисковые запросы, перечень выглядит гораздо беднее чем у других LLM. Есть подозрения, что Gemini частично генерирует их постфактум на основании ответа через обратную рационализацию. А в целом, у меня сложилось ощущение, что Google маскирует механизм выбора ссылок, не позволяя пользователям (и SEO-специалистам) через чат-бота понять, как именно алгоритм оценивает авторитетность источников.

    • Claude и ChatGPT ищут баланс, агрегируя профессиональные СМИ, блоги и живые дискуссии разработчиков (Хабр, Reddit).

Топ-10 источников, сформировавших мнение LLM

Для составления этого рейтинга были проанализировано использование моделями уникальных URL-адресов. Если страница встречалась в топе источников у конкретной LLM, это засчитывалось как упоминание.

Ссылка

Частотность

Влияние на итоговый ответ

1

cloud4y (startups)

4 модели (ChatGPT, GigaChat, Алиса, Claude)

Максимальное. Главный виновник продвижения бренда Cloud4Y в итоговые рейтинги.

2

tproger.ru

3 модели (Gemini, Алиса, Claude)

Высокое. Сформировал базовые профили провайдеров для малого бизнеса.

3

cnews.ru

3 модели (ChatGPT, GigaChat, Claude)

Высокое. Источник цифр и позиций провайдеров в Enterprise/СМБ сегментах.

4

habr.com

2 модели (Gemini, Claude)

Среднее. Привнес в ответы инженерный взгляд на DevEx и биллинг.

5

serverspace.ru

2 модели (GigaChat, Алиса)

Среднее. Использовался для верификации состава Топ-5 игроков рынка.

6

timeweb.cloud

2 модели (Gemini, Алиса)

Среднее. Позволил моделям взять данные о грантах и ДЦ

7

ng.kz (Наша газета Костанай Казахстан)

2 модели (Алиса, DeepSeek)

Локальное. Исказило финансовые метрики в сторону тенге из-за геопривязки

8

tobiz.net

2 модели (Gemini, Claude)

Низкое. Вспомогательный обзор для сверки позиций Selectel и Yandex.

9

miops.dev

2 модели (Gemini, Claude)

Низкое. Нишевый технический блог, давший Claude информацию о DevOps-стеках.

10

cloud4y.ru (best)

2 модели (ChatGPT, Алиса)

Среднее. Вторая SEO-статья того же вендора, закрепившая его доминирование в RAG.

Успех статей Cloud4Y в эксперименте демонстрирует, что SEO остается нашим всё для контент-менеджеров. Модель не понимает, хорош провайдер или плох, насколько ангажирован корпоративный сайт, она оценивает только релевантность текста в поисковой выдаче. 

Позиции провайдеров в рейтингах самих источников

Источник

Yandex

Timeweb

VK

Selectel

Cloud.ru

Cloud4Y

Beget

Другие

cloud4y.ru (startups)

1

5

2

4

3

6

tproger.ru

5

3

4

2

1

cnews.ru

1

2

5

3. Турбо, 4. K2 Cloud

habr.com

1

3

2

7

4

6

5

serverspace.ru

4

5

2

3

1. Serverspace

timeweb.cloud

1

2

4

3

5. Рег.облако

ng.kz (Наша газета Костанай Казахстан)

1

4

2

3

5

tobiz.net

1

3

4

2

5. Rostelecom Cloud

cloud4y.ru (best)

2

7

5

3

1

6

4. MWS (MTS)

Интересно, как LLM обрабатывают конфликт интересов. Несмотря на то, что SEO-статьи Cloud4Y попали в выборку 4 из 6 моделей, в итоговый консенсус-топ этот провайдер не вошел (только на 4-5 места у локальных моделей). То же самое с Serverspace. Две гипотезы: 

  1. Этим статьям не хватило подтверждения из других источников.

  2. Модели (особенно зарубежные ChatGPT, Claude, Gemini) способны распознавать ангажированность корпоративных блогов (сомнительно).

Полагаю, что Cloud4Y не попал в топ-5 ИИ только из-за малого присутствия в общем медийном поле. При усреднении его хорошие статьи проиграли общей массе. 

А вот если завтра условный ноунейм-провайдер наймет мощную команду SEO-специалистов и закупит ссылки на агрегаторах, LLM с вероятностью 90% начнут рекомендовать его как надежное Enterprise-решение. Нейросети не беспристрастные судьи, а простые ретрансляторы наиболее агрессивной рекламной кампании в индексах поисковиков.

Матрица корреляции ответов LLM с оригинальными рейтингами в статьях

Формула: Состав (С)  % — доля угаданных участников / Позиция (П) % — доля угаданных мест

Обратите внимание на огромный разрыв между параметрами «С» (Состав) и «П» (Позиция). В большинстве случаев совпадение состава составляет 80–100% (модели берут тех же провайдеров, что и в статье). Но совпадение позиций низкое — максимум 60%. То есть LLM используют интернет-источники как основу, но ранжируют по собственному алгоритму. Прямого копирования рейтинга из источника  я не обнаружил. Как работает алгоритм фактического ранжирования сказать нельзя. Учитывая, что при нескольких запросах порядок и состав провайдеров в топе несущественно меняется, полагаю ключевое, это статистическое усреднение + случайность.

А вот теперь ключевой расчёт, для чего я и затеял всю эту суету, беру топ источников с рейтингами, считаю сводный и сравниваю с тем, что дали LLM:

Место

Рейтинг топа источников

Рейтинг ИИ 

1

VK Cloud

Yandex Cloud

2

Yandex Cloud

Timeweb Cloud

3

Timeweb Cloud

VK Cloud

4

Selectel

Selectel

5

Cloud.ru

Cloud.ru

И мы видим, что итоговые рейтинги ИИ и источников практически полностью совпадают. Почему VK Cloud модели переместили на третье место? Две гипотезы: 

  1. Нейросети выучили, что Yandex Cloud — крупнейший игрок в РФ и опираясь на свои веса они передвигают его вверх (сомнительно). 

  2. Timeweb Cloud лучше позиционировал себя как провайдера для малого бизнеса и стартапов и за счет этого вышел в лидеры. 

Вторая гипотеза не отрицает того, что возможно VK Cloud больше позиционирует себя как enterprise бизнес, что помешало ему в убедить LLM в своей полезности.

Заключение

В нашем случае мы получили от LLM не больше, чем если бы потратили на самостоятельный поиск пять минут. Фактически, модели дали текущий срез топовых ссылок из поисковиков по банальным запросам с легким смещением по промпту. Единственное, произошла небольшая корректировка важности критериев на более подходящие малому бизнесу. 

В статье я оценивал только как нейросети формируют свои ответы при запросе рекомендаций. Насколько экспертны модели в этом вопросе? Думаю не больше, чем статьи, которые они нагуглили.

Так что SEO живее всех живых, а на текущий момент GEO требует лишь изменение формы подачи. Если SEO-шники обманывали алгоритмы гугла и яндекса, то для них ничего не поменялось и с появлением LLM.

P.S. По существу вопроса о лучшем провайдере я ничего не скажу (из всех провайдеров лишь однажды пользовался услугами TimeWeb). Статья не задумывалась как реклама, но обвинений в ней не избежать. Поэтому если какая-то компания хочет оценить, как её видит LLM, готов к сотрудничеству.

ссылка на оригинал статьи https://habr.com/ru/articles/1043328/