Suno 5.5: почти ваш голос и мелодия

Вопрос генерации со своим голосом занимал меня с v3.5. Другая интересная тема — аранжировка. Если не в обычном виде (на входе стиль и аккорды, на выходе “минус”), то способом обновления, “раскраски” черновика (mp3 из GM MIDI, Audio Upload, режим Cover). За пару лет я сделал много тестов, результаты представлял на Хабре, своём сайте, в Телеграм-канале. Последнее обновление Suno — повод снова вернуться к этим вопросам.

Свой голос

Как только версия 5.5 стала доступна, приступил к тестам опции “Your Voice” ¹⁾, опираясь на опыт с Suno v3.5 и RVC. Собрал 11 DS (голосовых наборов) на своём материале. Задача — проверить, как реагирует система на разный исходный материал, стили и параметры генерации.

¹⁾Ссылка на процедуру “Your Voice” (PDF на русском) из раздела Help на сайте Suno.

Уже не раз касался понятий тембр и манера с психоакустической точки зрения. Нынче повод вернуться к теме: можно говорить похоже или нет, но чтобы контролировать, надо понимать механику.

Для синтеза вокала Suno (или другому ИИ) нужно обеспечить 3 компонента:

Тембр, или «окраска» звука, зависит от “геометрии” голосового аппарата: трахея, гортань, связки, резонаторы.(Певцы, артисты могут в определённой степени его менять. У родственников голоса часто похожи — физиология).

Интонация — изменения высоты (мелодия) + нюансы: вибрато, опевания, “подъезды” (Pitch curve).

Артикуляция — работа языка, нёба, челюсти, губ, обеспечивающая произнесение/ пропевание слов.

Именно разделение на 3 компонента придаёт гибкость системе: берём модель тембра, добавляем интонирование в нужной манере и соответствующую языку артикуляцию. Хотите на хинди? Пожалуйста!

Узнаваемым голос певца может делать тембр, манера или оба компонента. И в синтетическом вокале эти компоненты определяют “похожесть”. Если непохоже, то надо разбираться, какой компонент представлен в генерации недостаточно или изменён.

Тембры

Существуют разные системы описания голосов, манер и вокальных техник. Когда задача типизации ставится перед инженером, перечень становится конкретнее. Synth-V предлагает Normal, Soft, Power, Bright, Dark, Emotional, Whisper, а Vocaloid ²⁾ — Breathiness, Dynamics, Opening. Как видно, системы Synth-V и Vocaloid выходят за рамки тембра в узком понимании — в них присутствует и манера (интонирование). Для описания именно тембра (“подачи”) в пении я бы предложил систему, понятную и не специалисту:

Power (Strong) — “с опорой”. Зычный, как говорят, “поставленный, командирский” голос. Характерен для оперных певцов. Причина эффекта — выраженная “певческая форманта” (~ 2,5 кГц), это также основная форманта дефолтной у человека гласной “А”.

Normal (Neutral) — обычный, без напряжения голос.

Breathy (Breathing) — “на придыхе”, почти шёпотом, т.е. когда связки работают и высота тона есть (в чистом шёпоте “ноты нет”, так как связки отключены).

²⁾ с момента доступности библиотек Leon, Lola, Miriam, Sweet Ann, BigAl (~ 2004), занимался повышением выразительности, встречался с Хидеки Кенмоти (рук. отд. Vocaloid в Yamaha). Основная проблема была в изменении “подачи” — только Normal. Никакой частотной эквализацией это не решается — требуется изменение набора гармоник (другие сэмплы).

Голосовые наборы (DS / датасеты).

Сначала я собрал 7 DS (вокальных и речевых), пытаясь задать как тембр, так и манеру. Сделать настоящий “с придыхом” (Breathy) с первой попытки не получилось. Эти DS по 1—1,5 мин (допустимая длительность от 6 сек до 4 мин.), вокальные без тьюнинга.

1 Rower (вокал).

2 Normal (вокал).

3 Theater — “театральный” (речь).

4 Crying — “плачь, стон”.

5 Mixed — сборка из 1, 2, 3, 4.

6 Speech Expressive — прочитал стих с выражением (речь).

7 Speech Inexpressive — стих монотонно (речь).

На этих DS сгенерил для 9 стилей треки, меняя параметры (Weirdness, Style/ Audio influence) от 0,0,100 до 0,90,50. DS, примеры (всего 63) и комментарии на сайте в удобном для анализа виде. Результаты удивили и порадовали, но о “своём” на 100% голосе говорить рано.

Чтобы добиться большей схожести со своим голосом и, принимая во внимание работу первых семи, собрал 4 новых DS (по 4 мин.):

8 Breathy — получилось собрать DS “с придыхом”, но с не очень широким диапазоном. Причём низкие частоты пришлось сильно прибрать.

9 RVC DS — из своего набора для RVC (> 20 мин.), оставив фрагменты (Ru/En вокал и речь), максимально разные по характеру.

10 One Song — на основе вокала одной песни, где в какой-то мере есть Power, Normal и Breathy. Трек был с тьюнингом, собирая DS, я в нём “прибрал” своё неправильное вибрато.

11 Song Set — сборка из фрагментов 8 песен с разной подачей, большинство с тьюнингом. Речитатив, “театр”, смех и другое, нехарактерное для обычных песен, не включал. Набор из разных фраз, где ритмика, тональность, мелодии отличаются, — повышает универсальность DS и снижает вероятность “повтора” характера песни, что имеет место в случае с One Song.

С каждым из этих DS сделал 5 генераций с теми же Styles, Lyrics и параметрами, что были использованы для первых семи. Также пару примеров (сказка и реклама) с использованием Breathy. Результаты — на сайте.

Своя мелодия и свой голос (аранжировка)

Тестируя опцию “Your Voice”, думал: что нужно для полноценной аранжировки? Своя мелодия. Оказалось, эта схема работает (Suno где-то отмечали, что “Your Voice” — это бывшая “Persona”), т.е. режим Cover. 8 апреля проверил на “народной” песне, которую пел ещё в школьной группе.

Набил простой MIDI-черновик, сконвертировал в mp3, загрузил. Далее — Cover, свой голос, Lyrics, Style, параметры — вуаля! Проверил на 8 голосовых DS из 11. Примеры и комментарии на сайте.

Через пару дней решил “спеть” что-нибудь из своих изданных песен. Взял “Make Me Feel” (Beverly Bremers, Rick Paul (США) / Vocaloid: Miriam, BigAl.) и “Red Hair Girl” (Дмитрий Мухачев, CD, Canada / Vocaloid: Leon). Использовал DS: Breathy, One Song, Power, RVC DS, Song Set и Theater с разными параметрами, но в основном с большим значением Audio Influence. Очень интересно — примеры и комментарии на сайте.

Технические моменты с черновиком

Надо задать мелодию, ритмику, гармонию — всё в максимально простом и “сухом” (Dry, т.е. без Delay, Reverb) виде. Чем проще черновик, тем больше свободы в выборе стилей. Когда аккорды и бас прописаны четвертями, в генерации можно получить и как 1/8, так и 1/8t. Если Hi-Hat прописан 1/16 — вариаций становится меньше.

Отдельный вопрос — чем записана мелодия. Иногда “работало” и фортепиано. Часто для явного различия с аккордами прописывал GM Clarinet, Lead 6 (voice). Возможно, с VSTi с натуральной гласной “А” и быстрой атакой мелодия “читалась” бы лучше. В недавних примерах тема в черновике “Make Me Feel” воспринималась хорошо, а мелодия в “Red Hair Girl” — плохо.

Мелодию можно напеть и, если большие ошибки, оттьюнить. Можно забить в Synth-V, Vocaloid или в чём-то подобном. При этом интонация (вибрато, мелизмы) в мелодии в какой-то степени будет присутствовать и в генерации. Мелодия может и не соответствовать полностью тексту (число нот = числу слогов) — Suno часто с этим справляется, но в этом случае гарантий верного исполнения меньше.

Проблемы могут возникать и с гармонией, особенно, если она не совпадает с характерной для выбранного стиля. Иногда у меня получался и “хроматический, walking” бас: Am, Ab5+, Am7/G, Gb5-, Dm, Db5+, F/C, Bm5-7. А порой система ³⁾ “округляла” мажор в минор и наоборот, игнорируя очевидную логику и гармонические шаблоны.

³⁾ принимая во внимание принцип Stable Diffusion, подобные эффекты можно объяснить так: вот есть набросок, эскиз с силуэтом. Просим двух художников дорисовать, раскрасить — у одного на выходе четкий образ юноши, у другого — девушки.

Так что гармонию тоже желательно прописывать проще: Am7/G, Csus2, Csus4 и им подобные — повышение риска неверного прочтения.

Если в качестве черновика использовать готовый трек (Cover), то свободы в выборе стиля меньше, а генерация по звуку хуже, особенно если аранжировка насыщенная, а фонограмма пережата.

Выводы

В принципе, хотя и пришлось повозиться с голосовыми DS и настройкой генераций (за 10 дней в Pro истратил 2000 кредитов из 2500), я доволен работой опции “Your Voice” на данном этапе.

Все голосовые DS, где у меня заметная интонация (Crying, Mixed, RVC DS, Speech Expressive, Speech Inexpressive, Theater) или тембр (Power, Breathy), выдают генерации, где “певец” узнаваем. Себя сложнее оценивать, но знакомые и близкие однозначно говорят: “Это ты”. Из речевых DS Suno генерит классный речитатив (выйти из темпа, выдать эмоцию, попасть в долю, не нарушая лад и т.п.) — далеко не каждый профессиональный певец владеет подобной техникой. Правда, материал этих DS не так типичен для обычной песни, как в One Song и Song Set. А вот с последними “похожесть” получается меньше.

Судя по всему, одному “певцу” стоит иметь несколько голосовых DS — вряд ли получится обойтись одним универсальным набором для разнохарактерных песен.

У меня нет планов создавать виртуального артиста, но если бы стояла задача генерить что-то в комедийном, театральном стиле, то понятно, как делать голос/ манеру узнаваемой.

Похожесть и не

Мне бы хотелось, чтобы результат больше походил по тембру и меньше по манере, как это в v3.5 ⁴⁾ (хотя звуковое качество v3.5 оставляло желать лучшего). Идеальной я бы считал генерацию, где полностью сохранён тембр, а манера была чуть подправлена, как если бы я уже позанимался вокалом с педагогом пару лет (сняли зажатия связок, поставили дыхание, правильное извлечение звука, вибрато и т.п.).

⁴⁾ в v3.5 была другая голосовая модель (кажется Bark). В Suno v5.5, по косвенным признакам, используют что-то близкое к нейронным TTS-моделям, как у ElevenLabs.

Три важных момента в сохранении тембра, понятных на данном этапе:

1 Соблюдение высотного диапазона (регистра) в черновике. Когда Suno генерит песню по Style и Lyrics с вашим голосом (без черновика/ Cover), система сама выбирает тональность, соответствующую диапазону голосового DS. Причем, он может быть расширен в некоторых пределах без утраты тембра. Но и в этом случае, если песня и стиль требуют развития, а в голосовом DS нет нужного материала, голос морфируется в дефолтный — замена может происходить даже в пределах одного слова.

2 Желательно, чтобы Style/ промпт соответствовал голосовому набору. В противном случае получится что-то странное (рэп с оперным вокалом или рок с Breathy), или система будет постоянно переключаться на дефолтный. К примеру, если задать промптом R&B, Suno наполнит вокал характерными для R&B и Soul опеваниями и риффами. Это нормально для Usher и Coco Jones, но у нас такая вокальная техника не очень развита — Тимати, Anikv так не поют, хотя и пишут в стиле R&B.

Я пока не знаю, как в промпте и в Lyrics ограничивать вариативность Suno. Результат, конечно, красивый, но: а) дальше от исходной мелодии; б) меньше похоже на “певца”. Иногда приходилось генерить песню дважды, меняя первый и второй куплеты местами, чтобы потом использовать те, где меньше вариаций.

3 Параметрам лучше выставлять значения, делающие голосовой DS (Audio Influence) доминирующим.

В общем, всё влияет на результат: хотите узнать, что Suno “думает” о вашем тексте — сгенерите без промпта. Как воспринимает голос — сгенерите с пустым Style и нейтральным текстом — это интересно.

Влияние команд в Lyrics

“Голосовых” команд у Suno множество. По идее, они должны влиять если не на отдельное слово, то на фразу, стих. Для тестирования команд я сделал генерации на разных текстах для RVC DS и Song Set — эти DS содержат разные “подачи”. [Spoken Word] и [Whispering] работают, а особого, управляемого влияния других команд я не заметил. Такое ощущение, что у Suno есть “свой план развития” композиции: что-то срабатывает, а что-то — нет. Похоже на ситуацию с молодым дирижёром и опытным оркестром: он им что-то указывает, а музыканты играют по-своему. Результаты — на сайте.

Технические косяки v5.5 на начало апреля 2026 года

1 Часто примерно с 3-й минуты в генерации “забывается” голосовой DS, и голос плавно переходит в дефолтный.

2 Генерация двойной длины: система повторяет Lyrics или делает бесконечную коду. Как будто музыканты репетируют. Причём всё без разрыва — до максимальных 8 минут.

3 Есть мягкие разрывы волны — скорее всего, это ошибки в стыковке спектральных фреймов.

4 Нередко наблюдается провал аккомпанемента с началом вокальной партии — похоже на Side-chain, когда один трек приглушается при появлении сигнала в другом.

В моих планах

Проверить опцию “Your Voice” с кем-то не поющим, у кого необычный, хорошо узнаваемый тембр. Такие знакомые есть; вопрос во времени, организации процесса дистанционно и (!) верификации у Suno. Тут интересно, насколько настойчиво система будет приводить такой тембр в “норму” (к дефолтному).

Поработать ещё с голосовыми DS, промптами, стилями и обновить свои новые и старые песни так, чтобы мне нравился результат.

Все материалы о моих экспериментах — на сайте, новости — в канале MAX. К каналу в Telegram вернусь, если он заработает.

ссылка на оригинал статьи https://habr.com/ru/articles/1022596/