Алгоритм ранжирования поисковых запросов

от автора

image

Алгоритм ранжирования поисковых запросов через анализ нормального распределения.


Рассмотрим частоту вхождения нормального (естественного) события (новости) в каналы коммуникаций:

  1. Появления события (новость, рекламное сообщение, публикация статьи). X(initial) = 1
  2. Если событие достаточно интересно то происходит его естественное размножение (плавный рост)
  3. Частота цитирования достигает пика
  4. После пика происходит плавный спад частоты цитирования данного события.

В данном случае график частоты цитирования будет иметь вид нормального распределения (гауссианы)
image

Теперь рассмотрим частоту вхождения искусственного вброса информации (новости):

  1. Появление события (новости). Возможно появления сразу в нескольких источниках (Информационных агентствах). X(initial) > 1
  2. Стремительное размножение события, подогреваемое множественными вбросами.
  3. Частота цитирования достигает пика и продолжает держаться, благодаря искусственному и постоянному подогреву интереса к событию.
  4. После окончания акции (вброса, раскрутки, накрутки) происходит стремительный спад цитирования данного события.

Данный график будет отличаться от нормального распределения (гауссианы): кривая роста будет более крутая, начальные значения могут быть больше единицы (X(initial) > 1), на месте пика будет наблюдаться плато.
image

image

Таким образом, анализируя зависимость частоты вхождения события в информационное пространство, можно получить характеристику его происхождения. Тем самым реализуется ранжирование события по его происхождению.

Интересные ссылки

Нормальное распределение
PageRank
Кластерный анализ

ссылка на оригинал статьи http://habrahabr.ru/post/168941/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *