
Компании, разрабатывающие ИИ-сервисы, нашли новый источник данных для обучения своих моделей. Они начали скупать у закрывающихся стартапов рабочие переписки в мессенджерах, тикеты в Jira, письма в электронной почте и другие внутренние материалы.
Как пишет Forbes, интерес к таким данным вырос на фоне того, что большие языковые модели уже почти исчерпали открытый контент в интернете. Кроме того, им нужны более сложные и живые примеры реального человеческого взаимодействия по рабочим задачам. Особенно это важно для агентных ИИ-моделей, которые должны не только отвечать на вопросы, но и выполнять часть работы за пользователя.
По данным американской компании SimpleClosure, которая помогает предпринимателям закрывать стартапы, спрос на такие данные со стороны ИИ-компаний оказался очень высоким. Фирма даже запустила Asset Hub — площадку, где закрывающиеся стартапы могут продать код, архивы Slack, письма и другие рабочие данные. По словам гендиректора SimpleClosure Дори Йоны, за последний год через Asset Hub прошло почти 100 подобных сделок с выплатами от $10 000 до $100 000.
У конкурента SimpleClosure, компании Sunset, цены на внутренние данные компаний зависят от размера фирмы, её возраста и «насыщенности» данных — то есть того, насколько хорошо внутренние материалы связаны между собой. Особенно ценными считаются тикеты в Jira, привязанные к конкретным коммитам кода.
Новая практика обратила на себя внимание общественников. Марк Ротенберг, основатель Центра искусственного интеллекта и цифровой политики, напоминает, что в таких сделках речь идёт не об абстрактных данных, а о материалах, связанных с конкретными людьми и их работой. Сохраняются риски, что ИИ-системы могут запоминать и воспроизводить личные фрагменты из обучающих наборов. Организация Ротенберга направила письмо в Комитет Сената США по торговле с призывом к Федеральной торговой комиссии изучить новые методы ведения бизнеса в сфере ИИ.
ссылка на оригинал статьи https://habr.com/ru/articles/1026292/