Полное исключение категорий при поиске

от автора

Добавление функционала, который позволяет пользователям выбирать определенные категории и полностью исключать другие при поиске, может стимулировать продавцов и владельцев сайтов к честному описанию категорий и свойств товаров или ресурсов без необходимости проверок модераторами или рассмотрения жалоб от пользователей.

Уровень взаимного доверия может сильно различаться в разных сообществах. На доверие влияют не только развитые социальные связи, но и полезные практики и протоколы общения. В сетевом сообществе уровень доверия между поисковиками, владельцами ресурсов и пользователями с начала века только падает. Владельцы ресурса стараются накручивать ранг в выдаче поисковой системы, а владельцы поисковой системы с этом борются, изменяя алгоритмы работы поисковика скрытым образом. В данной статье описывается возможность создания протоколов взаимодействия между поисковиком, владельцами ресурсов и пользователями, при которых ранг поискового запроса повышается при наличии корректных метаданных, предоставляемых владельцем ресурса поисковой системе, и снижается при наличии некорректных или избыточных метаданных исключительно благодаря структуре поискового запроса, а не благодаря проверке модераторами или скрытыми механизмами проверки поисковой системой.

В обсуждении статьи про угрозу поиску Google со стороны ChatGPT ссылаются на список компаний Killed by Google, но место под могилу Google давно определил себе сам, его коммерческая модель несовместима с качественным поиском и с качественным представлением информации. Чтобы приносить прибыль, результат поиска должен позволять незаметно подмешивать рекламу, «Если Google даст вам идеальный ответ на запрос, вы не нажмёте ни на одну рекламную ссылку». Применение ChatGPT и других систем искусственного интеллекта не влияет на модель монетаризации. Для повышения качества нужны не только новые механизмы, но и модель монетаризации стимулирующая улучшения. Такая модель есть у больших платформ электронной коммерции: AliExpress, Amazon, Озона, Яндекс Маркета, Wildberries и подобных.

При поиске в интернете пользователи используют ключевые слова, а иногда исключают некоторые из них. В больших платформах электронной коммерции поиск происходит по ключевым словам и категориям товаров. Обычно исключение ключевых слов не применяется, за исключением Яндекс Маркета. Поисковики стараются упростить интерфейс и обеспечить естественность поисковых запросов со стороны пользователя, включая возможность задавать вопросы на естественном языке. Однако, такие запросы и симуляция «разумного ответа человека» со стороны ИИ могут противоречить реальной практике общения покупателя с живым продавцом. Живой продавец может служить переводчиком с технического языка по просьбе покупателя. Однако, если покупатель и продавец хорошо разбираются в теме, то их язык общения будет «менее естественным». Например, на запрос покупателя найти болт с резьбой М12 и отверстием под шплинт, продавец сразу исключит ненужные категории из своего поиска и не будет обсуждать болты без отверстия или шплинты, как Google или ChatGPT. Продавец имеет преимущество перед поисковиком еще и в том, что каталог его магазина для внутреннего использования не засорен лишними ключевыми словами и категориями товаров. Аналогично «честными» бывают электронные каталоги на сайтах отдельных магазинов и навигация по отдельному магазину на платформе, например, на AliExpress, где нет необходимости присваивать товару лишние ключевые слова и категории ради продвижения его в поиске против других товаров того же магазина.

Реализация алгоритма поиска живым продавцом в «честном» интернет-каталоге может быть организована следующим образом. Первый шаг поиска – поиск по ключевым словам. Второй шаг – не переход по полезным результатам или уточнение выбора категорий по результатам поиска, а полное исключение некоторых категорий, которым принадлежат бесполезные результаты первого шага поиска[1]. Например, в списке категорий в левом столбце у каждой категорий должно быть две взаимоисключающие галочки – одна для выбора этой категории, вторая для полного исключения всех объектов, принадлежащих к данной категории из результатов поиска. Возможность выбора, поиска и навигации по категориям стимулирует владельцев ресурса присваивать категории. Возможность исключать ненужные категории стимулирует владельцев ресурса честно присваивать только необходимые категории, чтобы избежать ошибочного исключения из результатов поиска при исключении ненужных, хотя и близких категорий. Категории можно также отображать на отдельной картинке в виде пересекающихся множеств, а не только в виде списка с изображением типового представителя. Каждый домен на картинке может выбираться или исключатся. Реализация алгоритма поиска живым продавцом в «честном» интернет-каталоге

Метод исключения категорий работает только если владелец ресурса действительно продвигает свой ресурс для заинтересованных пользователей, например, продает реальные товары, а не пытается спамить определенные поисковые запросы. Метод сам по себе работает в электронной коммерции, но требует каких-то дополнительных механизмов борьбы со спамом в остальной сети, например механизмов разобранных в Манифесте В++. Метод исключения категорий таже может применяться при навигации в соцсетях, где можно применять категории к постам пользователей или авторам.

Примеры: сочетание поиска по ключевым словам с выбором категорий работает плохо

Попытаемся найти на Яндекс-Маркете женский кардиган из кашемира. Результат содержит не кардиганы и кардиганы не из кашемира. Исключение ключевых слов для уточнения результата бесполезно. Навигация по категориям тоже плохо работает: выбираем «Одежда и обувь / Женщинам / Джемперы, свитеры, кардиганы», а затем Тип = кардиган, Состав = кашемир. После этого остается крайне небольшой выбор первые позиции в котором на момент написания статьи занимают кардиганы с составом «акрил 50%, шерсть 50%», но кардиганы из 100% кашемира тоже есть. Кардиган «вискоза 52%, полиамид 21%, полиэстер 27%», занимавший первую позицию в поиске по ключевым словам, был справедливо исключен из результатов поиска по категориям. Яндекс-маркет, либо неэффективно обрабатывает поле «Состав», либо продвигает товары, не относящиеся к категории поиска, либо позволяет продавцам самим выбирать категории и злоупотреблять этим выбором, не учитывая фактическое значение поля «Состав» в описании товара.

Если пользователь или продавцы плохо представляют к какой категории принадлежит и как называется товар, который он ищет, то поиск проводить ещё сложнее. Приведём простой пример на английском[2]: поиск услуги на Alibaba integrated circuit packaging, то есть корпусированию кремниевых кристаллов в корпуса интегральных схем методом wire bonding. При таком поиске необходимо исключить услуги продавцов «integrated circuit», а также услуги по упаковке товаров в ящики и коробки «packaging», включая упаковку с обвязыванием проволокой, хотя поиск по картинкам в Google wire bonding указывает преимущественно на метод разварки контактов при корпусировании микросхем. При открытом запросе на сервис integrated circuit packaging на Alibaba или поиске по терминам большая часть результатов будет от оптовых продавцов микросхем и электронных компонент, какая-то доля результатов от производителей и сборщиков печатных плат, какая-то доля от услуг по упаковке и от производителей упаковки. Для эффективного запроса на платформе нельзя исключать термины integrated circuit и packaging, так как исключение любого из этих терминов исключит integrated circuit packaging целиком. Решением проблемы о необходимо исключать категории товаров и поставщиков услуг, то есть категории integrated circuit, packaging и другие не относящиеся к поисковому запросу категории по мере их обнаружения, но не ключевые слова.

Послесловие

Данная статья написана в рамках развития идей Торонтской школы коммуникации и приложения этих идей к решению практических задач интернета. Торонтская школа коммуникации изучает существующие технологии общения людей и предлагает новые технологии (протоколы) общения.  В рамках критики протоколов общения я разбирал как существующие протоколы общения приводят к провалам научных теорий. Подход Торонтской школы коммуникации предполагает, что новые технологии общения большого количества людей способны воздействовать на мышление людей и развивать «коллективные разумы» на базе новых протоколов, например В++. Протоколы одноранговых сетей «коллективного разума» следует считать альтернативой платформам с серверами и ИИ.


[1] Уточнение запроса с исключением ключевых слов не может заменить исключение категорий, так одни и те же ключевые слова могут присутствовать в описании взаимоисключающих категорий, а описание товара может содержать слова, используемые в описании категорий, не относящихся к данному товару. Вместо исключения ключевых слов необходимо исключать категории, но механизм исключения категорий не представлен в поисковых системах. Платформы электронной коммерции показывают список категорий или позволяют навигацию по категориям, относящихся к найденным товарам, что позволяет снять выбор с некоторые из них, но оставляет проблему избыточного или неаккуратного присвоения категорий.

[2] Данный пример плохо переводится на русский из-за более узкого термина «корпусирование» применяемого в русском языке, вместо более широкого термина «packaging», «упаковка» при прямом переводе на английский.


ссылка на оригинал статьи https://habr.com/ru/articles/722446/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *