Журналисты обнаружили датасеты с 22 млн охраняемых музыкальных записей, которыми обучали Suno, Udio и ИИ‑модели Google

от автора

Редакция The Atlantic в рамках проекта AI Watchdog обнаружила четыре крупных базы данных с музыкальными треками, которые, по данным издания, использовались для обучения музыкальных генераторов на основе ИИ. 

Два крупнейших датасета содержат 12 и 9 млн треков соответственно, ещё два набора — около 100 тысяч каждый. Все базы доступны для публичного поиска.

Компании нередко утверждают, что используют для обучения только свободно доступные материалы, но обнаруженные журналистами датасеты показывают, какой объём музыки разработчики могут скачать, несмотря на отсутствие музыки в общем доступе. Среди исполнителей, чьи треки попали в датасеты, есть, например, Тейлор Свифт и The Beatles. 

При этом The Atlantic отмечает, что сам факт нахождения треков в датасете не доказывает, что та или иная компания воспользовалась именно им.

Крупные лейблы судятся с Suno и Udio с июня 2024 года. Ассоциация звукозаписывающей индустрии Америки (RIAA) по поручению UMG, Sony Music и Warner Music Group обвинила обе компании в массовом нарушении авторских прав при обучении моделей. С тех пор UMG и Warner урегулировали претензии к обоим сервисам, заключив лицензионные соглашения, тогда как Sony по‑прежнему остаётся в суде. Ключевое слушание по делу Sony против Suno и Udio запланировано на июль 2026 года — его итог может стать прецедентом для всей индустрии.

По оценке аналитиков европейской компании PMP Strategy, генеративный ИИ может забрать 24% доходов авторов музыки к 2028 году — общие потери создателей за период с 2023 по 2028 год оцениваются в 10 млрд евро, а к концу этого периода — в 4 млрд евро ежегодно.

ссылка на оригинал статьи https://habr.com/ru/articles/1049532/