Гендиректор Reddit: Microsoft должна платить за сбор данных платформы

от автора

После заключения сделок с Google и OpenAI генеральный директор Reddit Стив Хаффман призвал Microsoft и другие компании поступить аналогичным образом, если они хотят продолжить сбор данных платформы.

«Без этих соглашений мы не имеем права голоса или знаний о том, как отображаются наши данные и для чего они используются, что поставило нас в положение, когда мы блокируем тех, кто не готов к сделкам», — сказал Хаффман. В числе таких компаний он указал Microsoft, Anthropic и Perplexity. Топ-менеджер отметил, что блокировать эти компании на платформе было «настоящей головной болью».

Reddit в последние месяцы усилила борьбу с поисковыми ботами. В начале июля файл robots.txt платформы был обновлён, чтобы блокировать те веб-скраперы, с компаниями-разработчиками которых нет соглашений о сборе данных. Пользователи начали замечать, что результаты Reddit появляются только в результатах выдачи Google, но не в других поисковых системах, таких как Bing.

Хаффман сказал, что Microsoft использует данные Reddit для обучения своего ИИ и суммирования контента в результатах Bing, «не сообщая об этом», а данные Reddit также продаются через Bing API другим поисковым системам. В интервью он сослался на недавний комментарий генерального директора Microsoft AI Мустафы Сулеймана на конференции о том, что общедоступные данные в Интернете считаются «бесплатным программным обеспечением».

Глава поиска Microsoft Хорди Рибас подтвердил, что «Reddit заблокировал для Bing сканирование сайта для поиска, отдав предпочтение другой поисковой системе и повлияв на конкуренцию со стороны Bing и поисковых систем на базе Bing».

Представитель Microsoft Кейтлин Роулстон говорит, что компания «уважает указания, предоставленные веб-сайтами, которые не хотят, чтобы контент на их страницах использовался с нашими моделями генеративного ИИ». Хаффман указал на недавнее объявление OpenAI о SearchGPT, который сможет показывать результаты Reddit благодаря соглашению. По словам представителя платформы Тима Ратшмидта, ни одно из соглашений о лицензировании контента не включает эксклюзивные варианты использования его данных.

«Я думаю, что традиционный обмен ценностями от поисковых систем изменился. Поиск, обобщение и обучение сливаются, и обмен ценностями сканирования в обмен на обратный трафик становится запутанным», — сказал Хаффман.

Представитель Anthropic Дженнифер Мартинес заявила: «Reddit находится в нашем списке блокировки для веб-сканирования с середины мая, и с тех пор мы не добавляли никаких URL-адресов платформы. Мы уважаем изменения в robots.txt, принятые как сигнал для блокировки веб-сканирования».

Microsoft отказалась комментировать ситуацию.


ссылка на оригинал статьи https://habr.com/ru/articles/833010/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *