Треть новых релизов на Яндекс Музыке – ИИ. Теперь точно

Прошло полтора месяца с публикации моей статьи «Я выяснил, что Яндекс Музыка на треть состоит из нейрослопа». Всё это время я продолжал исследовать тему определения ИИ в музыке. Итогом изысканий стал алгоритм, позволяющий определять сгенерированные треки с точностью, близкой к 100%.

Кроме того, я проанализировал релизы в Яндекс Музыке за первое полугодие 2026 года и выяснил, что 37% всех новых релизов имеют признаки ИИ-музыки. А если учитывать только релизы с лайками, то количество нейромузыки достигает 50%.

В этой статье я подробно расскажу, как работает алгоритм детекта ИИ-музыки, почему для него не требуется GPU, а также покажу аналитику по Яндекс Музыке.

Разбираем алгоритм детекта ИИ музыки

В основе алгоритма лежит факт того, что в ИИ-музыке присутствуют характерные артефакты в частотном спектре, возникающие в процессе генерации аудио. Это было показано в статье “A Fourier Explanation of AI-music Artifacts” исследователями компании Deezer. Этот алгоритм затем лёг в основу системы маркировки ИИ-музыки и в самом Deezer.

Но мы разберём версию алгоритма, адаптированную мной. На мой взгляд, она проще в реализации и понимании, но не уступает оригинальному способу в точности.

Музыка с точки зрения математики

Для понимания алгоритма понадобится немного математики. Если вы уже знакомы с преобразованием Фурье, этот раздел можно пропустить.

Музыка – это звук, а звук – механическая волна. В математике волны можно описать при помощи синусоидальной функции. Музыку же можно представить как сумму синусоид или гармоник.

Самый простой звуковой сигнал можно представить как колебание во времени. У такой гармоники, то есть синусоиды, есть три основных параметра: амплитуда, частота и фаза.

Три основных параметра синусоиды: амплитуда, частота и фаза

Но на практике музыка никогда не состоит из одной гармоники. Это всегда множество гармоник с разными частотами и амплитудами. Складываясь вместе, они образуют сложный звуковой сигнал. Например, так выглядит речь человека, представленная в виде звукового сигнала:

Как же разделить сложный сигнал на отдельные гармоники? Ещё в 19 веке физик и математик Жозеф Фурье обнаружил, что любой сложный сигнал, в том числе и музыку, можно разложить на более простые составляющие: гармоники с разными параметрами. Сейчас этот способ известен как преобразование Фурье.

Зачем вообще это нужно? Так проще проводить анализ сложного сигнала. Например, разложив звуковую дорожку на гармоники, можно определить какие ноты и с какой громкостью звучат на данном отрезке композиции.

Как математика помогает определять ИИ музыку

Итак, мы знаем, что музыку можно разложить на гармоники при помощи преобразования Фурье. В своей статье, специалисты Deezer показали, что спектр сгенерированной музыки содержит в себе артефакты вызванные архитектурой используемых нейросетей.

Но сначала разберёмся, что представляют из себя эти артефакты. Помните самые первые сгенерированные картинки, где заметны повторяющиеся паттерны? Вот то же самое, только в музыке. Такие артефакты называются “checkerboard artifacts”.

Сгенерированная картинка из времён, когда люди не подозревали, что их заменит ИИ

В случае с музыкой, такие артефакты проявляются в виде повторяющихся резких пиков на определённых частотах. Но чтобы их “увидеть” математически, недостаточно просто применить преобразование Фурье. Например, на графике ниже показан усреднённый частотный спектр двух треков из чарта Яндекс Музыки. Один из этих треков создан с помощью ИИ. Сможете определить какой?

Первый трек – композиция «Шадэ», созданная с помощью ИИ. Второй – Billie Jean от Майкла Джексона.

Чтобы сделать эти артефакты более заметными, нужно выделить пики из частотного спектра. В proof-of-concept от исследователей Deezer для этого использовался вариант алгоритма Convex Hull. Я же покажу как добиться тех же результатов более просто и элегантно – при помощи производной.

Производная первого порядка – это скорость изменения сигнала. Для дискретного сигнала производная вычисляется как разность соседних отсчётов:

На графике ниже показан пример сигнала с резким изменением амплитуды. Видно, что производная позволяет выделить пики в цифровых сигналах, а значит этот способ подходит и для нашей задачи.

Производная выделяет резкое изменение сигналов

Вычислив производную усреднённого спектра для треков, упомянутых ранее, можно заметить, что пики стали заметнее.

Специально приблизил участок 6 кГц - 16 кГц – на этих частотах артефакты наиболее заметны — Специально приблизил участок 6 кГц — 16 кГц – на этих частотах артефакты наиболее заметны

Думаю, сейчас уже хорошо видно различие между живой и сгенерированной музыкой. Но вручную искать такие артефакты в сотнях тысячах треков невозможно. Поэтому далее всё сводится к классической задаче машинного обучения: превратить спектр в набор признаков и обучить модель.

Проверяем детектор на музыке

В общих чертах, пайплайн выглядит так:

Вычисляем частотный спектр при помощи преобразования Фурье.
Вычисляем производную, тем самым превращая трек в набор признаков.
Уменьшаем количество признаков методом главных компонент (PCA).
Используем оставшиеся компоненты для обучения XGBoost.

Для эксперимента, я обучил классификатор используя датасет SONICS: Synthetic Or Not — Identifying Counterfeit Songs. Всего было использовано 1500 треков в соотношении 50% ИИ-музыка и 50% обычная музыка.

С этим датасетом точность классификатора практически идеальная и близка к 100%. Из всех, кого модель назвала ИИ, 100% действительно оказались ИИ. Из всех ИИ-артистов модель нашла 98.7%. Это согласуется с результатами исследователей Deezer. В их случае точность тоже была ≈99%.

Кому интересно перепроверить результаты – загляните в этот репозиторий.

Получается, что для определения ИИ-музыки не нужны большие вычислительные мощности или GPU-серверы. Все эксперименты я проводил на обычном ноутбуке. То есть, любой стриминговый сервис может реализовать подобный подход без серьёзных инфраструктурных затрат.

Аналитика релизов Яндекс Музыки за 1-е полугодие

Я собрал информацию по 3.8 млн треков, загруженных с 1 января по 30 июня 2026 года.

У 73% треков на момент публикации не было лайков

Поскольку у меня банально не хватило времени проанализировать всю музыку, я решил не учитывать в дальнейшем релизы без лайков – всё равно они никому не нравятся. Но один полный месяц (май) я всё же проверил.

В мае было загружено почти 711 тысяч релизов. Из них 260 тысяч (36.6%) классифицированы как сгенерированные с помощью ИИ, что близко к выводам моей предыдущей статьи. Напомню, тогда я оценил количество ИИ-контента как 40%.

В мае 36.6% всех релизов были сгенерированы с помощью ИИ.

Теперь отбросим релизы, которым пользователи не ставили лайки. Доля ИИ-музыки постепенно растёт и на данный момент составляет уже половину. Падение абсолютного количества релизов в июне связано с тем, что месяц только только закончился и лайки ещё не успели “настояться”

Половина лайкнутых треков создаются с помощью ИИ

Если посмотреть на распределение музыки по количеству лайков, то видно, что ИИ-музыка реже получает лайки, чем обычная музыка. Тем не менее, хиты тоже есть. Например, в мае таким треком стала композиция «Шадэ». На момент публикации она всё ещё занимала 2-е место в чарте Яндекс Музыки.

По жанрам распределение следующее: лидируют по количеству ИИ-музыки поп, рок, рэп, электроника и дэнс. В относительном количестве лидируют к-поп и шансон – там доля сгенерированной музыки около 80%.

Заключение

Результаты моего анализа показывают, что у Яндекса доля релизов с лайками и признаками ИИ-музыки в 1-м полугодии 2026 года составляет уже половину.

При этом проблема ИИ-музыки характерна не только для Яндекс Музыки. Например, в апреле Deezer сообщал, что около 44% новых загрузок представляют собой сгенерированные треки.

Вопрос внедрения маркировки ИИ-контента в других сервисах остаётся открытым. Как показано в статье, это реализуется довольно просто.

ссылка на оригинал статьи https://habr.com/ru/articles/1054636/