Как считается рейтинг в Яндекс Картах и почему это не среднее арифметическое

Несколько лет я занимаюсь продвижением организаций в Яндекс Картах и постоянно сталкиваюсь с одним и тем же недопониманием у владельцев бизнеса. Рейтинг воспринимают как среднее арифметическое оценок, а позицию в выдаче считают прямым следствием рейтинга. Оба предположения неверны, и из-за них люди годами вкладываются не в то.

Здесь разберу задачу с инженерной стороны: почему наивное среднее не работает в принципе, какими стандартными приемами вообще решают задачу расчета рейтингов, что из этого подтверждает справка Яндекса и где проходит граница между документированными фактами и тем, что видно только на практике. Свою формулу Яндекс публично не раскрывал, поэтому я аккуратно разделяю две вещи «как такие системы устроены в принципе» и «что подтверждено официально»

Почему наивное среднее ломается

Допустим, мы считаем рейтинг как обычное среднее: берем сумму оценок и делим на количество. Для системы вроде Карт это плохо сразу по нескольким причинам, и все они хрестоматийные для любого, кто проектировал рейтинговые системы.

Проблема малой выборки (cold start). У новой организации одна оценка, пятерка. Среднее дает 5.0. Но это не значит, что место лучше конкурента с рейтингом 4.8 по тысяче оценок. Одна оценка статистически не значит почти ничего, а наивное среднее рисует идеальную картину.

Уязвимость к накрутке. Если рейтинг это простое среднее, им тривиально манипулировать. Заводим два десятка аккаунтов, ставим пятерки, среднее ползет вверх. Любая открытая метрика без защиты превращается в гонку накрутки.

Игнорирование доверия к источнику. Оценка от живого пользователя с многолетней историей и оценка от аккаунта, созданного пять минут назад ради одной звезды, в наивном среднем весят одинаково. Это очевидно неправильно.

Отсутствие учета времени. Заведение, которое было прекрасным пять лет назад и деградировало, при простом среднем долго держит высокий рейтинг на старых оценках.

Любая зрелая рейтинговая система решает эти четыре проблемы. Дальше о том, как именно их решают в индустрии.

Стандартный прием. Байесовское сглаживание

Это, пожалуй, самый известный способ побороть проблему малой выборки. Его публично использует, например, IMDb для своего рейтинга топ-250. Идея такая: пока оценок мало, рейтинг притягивается к некоторому базовому среднему по всем объектам, и только по мере роста числа оценок приближается к собственному среднему объекта.

Каноническая формула взвешенного рейтинга выглядит так:

$WR = \frac{v}{v+m}\,R + \frac{m}{v+m}\,C$

Смысл: при v, близком к нулю, дробь m/(v+m) близка к единице, и рейтинг почти равен базовому C. Чем больше реальных оценок v, тем сильнее v/(v+m) тянет к фактическому среднему R. Так одна пятёрка не дает 5.0, а аккуратно стягивается к разумной середине.

Пока оценок мало, рейтинг стягивается к средней базовой линии. Это общий прием, не формула Яндекса

Подчеркну, что это не формула Яндекса. Это общеинженерный прием, который решает ровно ту задачу, что стоит и перед Картами. А вот что про это говорит Справка Яндекса напрямую: рейтинг начинает показываться только после накопления некоторого минимума оценок (порядка нескольких штук), и рейтинг не является средним арифметическим. То есть наблюдаемое поведение согласуется с идеей порога значимости.

Стандартный приём 2. Взвешивание по доверию к источнику

Вторая классическая идея в том, что не все голоса равны. Вместо Σscore / N считается взвешенная сумма:

где weight_i зависит от того, насколько мы доверяем конкретной оценке. В разных системах вес собирают из репутации автора, его истории, признаков живого поведения против ботоводства. Концептуально это родственно идее, на которой стоял PageRank: вес голоса зависит от авторитетности голосующего, а не только от факта голоса.

И здесь справка Яндекса довольно конкретна. Официально указано, что вес оценки зависит как минимум от двух вещей:

достоверность. Насколько оценка похожа на оставленную реальным человеком, а не на накрутку
влиятельность автора. У активного пользователя с историей оценок вклад выше, чем у одноразового аккаунта

Отсюда прямое практическое следствие, которое я регулярно наблюдаю. Пачка пятерок со свежесозданных аккаунтов может весить меньше, чем несколько оценок от живых пользователей, а иногда такие оценки отсекаются фильтрами целыми группами, и рейтинг после накрутки не растет, а проседает.

Накрутка пятерками не работает: вес оценки зависит от достоверности и влиятельности автора

Стандартный прием 3. Затухание по времени

Третья типовая техника это time decay, затухание веса по времени. Вес оценки убывает со временем, чтобы свежие сигналы значили больше старых. Реализуется через экспоненциальное затухание или скользящие окна. Это позволяет рейтингу отражать текущее состояние места, а не его репутацию пятилетней давности.

Из документированного, яндекс пересчитывает рейтинг регулярно, а не фиксирует раз и навсегда. На практике это объясняет частый вопрос владельцев «рейтинг изменился, а новых отзывов не было». Система переоценила вклад уже имеющихся оценок при очередном пересчете.

Оценка и отзыв это разные сущности

Важная развилка, которую путают почти все. В Картах есть две разные вещи:

оценка. Звезды от 1 до 5, влияет на рейтинг
отзыв. Текст, влияет на восприятие человеком и проходит модерацию

Можно поставить оценку без текста, и она пойдёт в рейтинг. Можно написать текст, и он покажется в карточке. Когда говорят «один плохой отзыв обрушил рейтинг», чаще это совпадение с пересчетом или с тем, что одновременно отвалились накрученные оценки.

И отдельно про модерацию, раз это всплывает постоянно. Распространенное заблуждение звучит так «приложу чек и скриншоты, докажу, что отзыв ложный, и его удалят». На практике модерация проверяет отзыв на соответствие правилам площадки (оскорбления, спам, нерелевантность, признаки заказного), а не на справедливость. В ответах поддержки это формулируется прямо «документы и скриншоты сами по себе не являются основанием для удаления, если отзыв правила не нарушает» Удаляется нарушающее правила, а не то, с чем вы не согласны.

Рейтинг и позиция в выдаче это не одно и то же

Теперь ключевой миф «подниму рейтинг, поднимусь в Картах». Рейтинг это всего лишь один из факторов ранжирования, и далеко не определяющий. Поэтому регулярно видно картину, когда карточка с рейтингом 4.2 стоит выше карточки с 4.8.

На позицию влияет набор сигналов, и многие из них к звездам отношения не имеют. По наблюдениям и логике системы это:

полнота и корректность карточки: рубрики, услуги, часы, фото, описания. Пустая карточка с 5.0 проигрывает детально заполненной с рейтингом пониже
релевантность запросу и правильные рубрики
поведенческие сигналы: звонки, маршруты, переходы на сайт, клики. То, как люди реально взаимодействуют с карточкой;
география: расстояние и зона показа
активность владельца: ответы на отзывы, актуальность данных

Рейтинг это лишь один из сигналов ранжирования наряду с полнотой карточки и поведением пользователей

Это, кстати, та же эволюция, что прошли веб поисковики. От наивных метрик, которыми легко манипулировать, к взвешенным моделям, устойчивым к накрутке, где дорого подделать именно поведенческие сигналы. Хотя сейчас это отдельный бизнес.

Практический вывод

Если смотреть на карты как на систему ранжирования, картина логичная. Площадка обесценивает дешёвые манипуляции (накрутка оценок, заваливание жалобами) и поощряет сигналы, которые трудно подделать: живое поведение пользователей, полноту и достоверность данных, историю взаимодействий.

Для бизнеса вывод скучный в хорошем смысле. Системно работают полная честная карточка, верные рубрики, реальные оценки от живых клиентов и ответы на обратную связь. Все остальное либо не работает, либо работает до ближайшего пересчета. Разобраться в базовых принципах можно и самому, Справка Яндекса открыта. Нюансы начинаются в деталях, выбор рубрик под конкретный запрос, работа с поведенческими сигналами, понимание того, что именно модерация считает нарушением. Это вопрос насмотренности, а не секретного знания.

Автор: практикующий специалист по продвижению организаций в Яндекс Картах, сертифицированный специалист Яндекс Бизнес.

Использованы открытые данные справки яндекс, общеизвестные подходы к проектированию рейтинговых систем и наблюдения из практики, клиентские данные не раскрываются.

ссылка на оригинал статьи https://habr.com/ru/articles/1051616/