Клонирование голоса: Как это работает и почему его боятся

Алло, Галочка…

11010000100000011101000010101100110100001010110011010000101111100010110000100000110100001000011111010000101011001101000010101111110100001011110111010000101100101101000010101100

Когда-то меметичную славу обрела считалочка «Лудильщик, портной, солдат, шпион — выйди вон!» благодаря роману Ле Карре о советских нелегалах. Эпохи сменились, клюква про вездесущее КГБ уже не интересна. А вот необходимость распознать чужое и опасное всегда была и будет актуальной — в антропологии это, кажется, называют гипервигильностью.

Теперь когда есть нейроархитектуры, копирующие биометрические сигналы один в один, мы можем переиначить этот стишок на «клон, выйди вон!» Но собственно какой тип клонирования биометрии на данный момент самый коварный, как он работает и как защититься от него?

Звонок: Маленький корпоративный хоррор

2020 только начинался. Мир еще не знал, что через пару месяцев окажется в казематах самоизоляции. Гонконг, зима с зубодробительными +16 по Цельсию, начинает рано цвести багрянец тайваньской вишни. В одном из офисов делового квартала Ваньчай одним вечером засиделся руководитель филиала одной японской фирмы.

Квартал Ваньчай вечером. Источник: https://yelkz.livejournal.com/773803.html

Минут за пять до ухода раздается звонок: на другом конце провода радостный голос начальника из островной штаб-квартиры — только что успешно прошли переговоры! Одного из конкурентов полностью выкупают, влияние на материке расширяется, все здорово. Нужно только быстренько провести трансфер, а то вдруг уважаемые партнеры передумают.

Почти что по юнгианской синхроничности на почту директора прилетает письмо от нанятого накануне корпоративного юриста Мартина Зельнера — емейл с инструкциями куда переводить деньги выглядел логичным продолжением звонка.

Авторизовав трансфер, директор со спокойной совестью покинул кабинет. На носу китайский Новый год, нужно заготовить хунбао — красные конвертики с деньгами — в подарок семье и друзьям.

Бедный руководитель и не подозревал, что только что сделал новогодний подарок на $35 миллионов скамерам, клонировавшим голос его босса с помощью машинного обучения.

Истоки технологии

Люди давно пытались воссоздать человеческий голос без участия самого человека. Первая попытка зафиксирована в 1769 году. Просто представьте: только что родился Наполеон, заставший разгульный террор инквизиции Вольтер еще жив, а люди уже пытаются сконструировать такую инопланетную для своего времени технологию из деревяшек и другого подручного хлама.

Итак, Вольфганг фон Кемпелен, инженер и немного плут-аферист, наделавший шуму в Европе со своим Механическим турком, сконструировал машину-говорильню. Функцию легких исполняли обычные мехи, голосовая щель был сделана из тростниковой трубки, а собственно речевые звуки артикулировались ртом-воронкой из индейской резины — он же каучук дикий.

Реконструкция говорящей машины фон Кемпелена. Источник: Google Arts & Culture

Более-менее правдоподобной мимикрии голоса люди научились 200 лет спустя, с появлением вокодеров и конкатенативных Text-to-Speech (TTS) синтезаторов. Конкатенативный означает то, что они “сшивали” разрозненные и заранее записанные на пленку звуки, из которых состоят слова, в одно целое. Появление TTS подготовило плацдарм для голосового клонирования.

Когда в 2010-х начался ренессанс нейросетей, на сцену выходят предтечи технологии, настоящие Гог и Магог: WaveNet и Tacotron.

Гог

WaveNet за авторством DeepMind — это нейронная сеть прямого распространения (Feedforward Neural Network).

Резидуальный блок в составе архитектуры WaveNet

Изучая поступающие сэмплы с человеческой речью, она строит условное вероятностное распределение для следующей точки звукового сигнала. Дополнительно в ее архитектуре задействовано softmax‑распределение, которое помогает отслеживать, к примеру, тональные изменения речи и паузы. А сверточные слои с дилатацией (dilated convolutions) помогают WaveNet заглядывать на целые секунды назад, чтобы выстраивать последовательную картину речи.

Магог

Tacotron, а точнее Tacotron 2. Это sequence-to-sequence (seq2seq) модель, зиждящаяся на тандеме энкодера и декодера. Она умеет преобразовывать одну последовательность данных, например текст, в другую, которая еще к тому же может значительно отличаться по длине.

Достигается это за счет преобразования сигнала в числовые параметры с помощью методики эмбеддинга: К примеру, слова разбиваютя на фонемы, а уже затем превращаются в числовые представления. Энкодер, например, учитывает знаки препинания и важные по смыслу слова. А декодер продуцирует на выходе готовую спектрограмму со всеми нужными акустико-речевыми нюансами.

Например, правильно произнесенная русская «р» в математическом представлении демонстрирует полосы 10–20 мс, частоты 100–200 Гц для фундаментальной частоты F0 с резким переходом формант (F1 400–600 Гц, F2 1 000–1 500 Гц) и проявлением высокоуровневой энергии в альвеолярной области.

Если же человек имеет склонность к ротацизму — то есть чуть-чуть картавит — то модель зафиксирует атипичную формантную траекторию с увулярной вибрацией в районе 100–150 Гц. При этом будут преобладать размытые низкочастотные полосы. А форманта сместится в диапазон F3: около 2 000–2 500 Гц.

А из чего, собственно, нейронка “лепит” клонированный голос? Этот нюанс зависит скорее от конкретного подхода. Например, нейросеть в моделях типа NSF или ESTVocoder создаёт периодический сигнал возбуждения на основе предсказанной фундаментальной частоты F0: обычно это синусоидальная волна sin⁡(2πf0t)sin(2πf0t) с гармониками или импульсный ряд ∑δ(t−n/f0)∑δ(t−n/f0).

Этот “нулевой” источник имитирует вибрацию голосовых связок, без дополнительного шума. Затем фильтр, например модель на основе ConvNeXt или дилатированных свертков, модулирует источник по мел-спектрограмме:

s(t)=excitation(t)∗h(t)s(t)=excitation(t)∗h(t)

где h(t)h(t) — импульсная характеристика вокального тракта. Тембр формируется на основе комбинации: гармоники источника + резонансы фильтра.

Альтернативно, модели на основе GAN могут использовать гауссов шум. Генератор в архитектуре GAN принимает два типа входных данных: во-первых, мел-спектрограмму, обогащенную информацией о фундаментальной частоте F0 и траекториях формант, извлеченных из исходного аудиосэмпла. Во-вторых, он принимает компактный вектор случайного шума, обычно имеющий гауссово распределение диапазоном от 1 до 16 компонентов.

Этот шум играет важную роль в процессе синтеза: он вносит стохастическую вариативность и позволяет модели генерировать тонкие высокочастотные детали, например шипящие согласные или дополнительные обертоны, которые не всегда просто восстановить детерминированным способом.

P.S. По сей день неизвестно, имеет ли Tacotron отношение к мексиканской гастрономии.

И пришел дракон

Итак, работая в унисон, Wavenet и Tacotron 2 уже умели создавать артифициальный голос, который звучал вполне себе очелевеченно в сравнении с примитивными “бубнилками” по типу SAM или MacInTalk’а из 90-х. Но окончательный прорыв произошел в 2018.

В этом году выходит публикация «Нейронное клонирование голоса с помощью малого количества сэмплов« («Neural Voice Cloning with a Few Samples«). Фактически, была предложена zero-shot методика — способ достичь результата и решить задачу, с которой до этого нейронная сеть не сталкивалась. При чем без дополнительного обучения.

В данном случае авторы предлагали метод кодирования спикера (Speaker Encoding), где отдельная нейро-архитектура мгновенно предсказывает эмбеддинг голоса по аудио с помощью 512 параметров.

Вот как работает принцип кодирования спикера

Энкодер спикера при этом состоит из трех компонентов:

Спектральная обработка (Spectral processing), где задействованы логарифмические мел-спектрограммы.
Временная обработка (Temporal processing) с двумя одномерными сверточным слоями с фильтром, функцией вентильного линейного блока (Gated Linear Unit) и резидуальными связями. Все вместе это помогает ловить долгосрочные зависимости в анализируемой речи: интонирование, тембр и темпоритм.

Внимание по сэмплам клонирования (Cloning sample attention) — грубо говоря, этот компонент взвешивает разные аудиосемплы из голосовой записи. То есть если один фрагмент содержит больше уникальной информации о голосе — например, это может быть шепелявость — он получит больший вес.

Если раньше нейронным сетям нужны были вагон и маленькая тележка обучающих сэмплов, то теперь сделать более-менее качественный клон чужой речи можно было всего лишь из 10-15 секунд аудио. А то и меньше.

Так наступила эра голосового спуфинга — то есть мошеннических атак с помощью голоса клонированного машинным обучением .

Почему это опасно или «Сипуха» против

Согласно Фотию Константинопольскому, мифическая крокотта могла имитировать человеческий голос, чтобы завлечь припозднившегося путника к себе на обед (и в качестве обеда)

Голосовое клонирование, наверно, по-прежнему коварнее всех других способов спуфинговой атаки вместе взятых. Сейчас, когда нейросети научились аутентично изображать эмоции и оставлять все меньше следов в виде артефактов, хорошо знакомый или даже родной голос, который в слезах просит CVV карточки или срочно прислать деньги на «билет до дома с Колымы», может одурачить даже самого бдительного из нас.

Одно из «хайтековских» решений пришло, кстати, из России. В МИФИ предлагают использовать анализ кепстральных коэффициентов — то есть анализировать логарифмы спектра через обратное преобразование Фурье. Таким образом “спуфнутый” голос можно засечь уже в первые 20-40 микросекунд.

Другой остроумный, но уже староватый подход называется метод POCO и его идея крайне проста: анализировать плозивные шумы в речи говорящего — то есть шумы, которые оставляют смычные согласные звуки: [б], [п] и другие. Поскольку в полевых условиях такие шумы цепляются микрофоном, то, скорее всего, синтезированная речь не будет их содержать. Но с другой стороны, клонирующая модель может научится мимикрии и под такие артефакты.

Ещё один способ предлагает извлечение логарифмических энергий полосовых фильтров с помощью инвертированной частотной шкалы, блочного преобразования с перекрытием для выделения локальных спектральных паттернов, анализа для определения степени инвертирования частотной шкалы и финальной классификации полученных данных. Здесь акцент делается на “растягивании” высоких частот, где обычно прячутся искажения, оставленные синтезатором. (Этот метод чем-то похож на «Сипуху»).

Ну и не стоит забывать об элементарном благоразумии. Даже если голос, который вы слышите, похож как две капли воды на голос жены/брата/начальника, но при этом просит что-то немыслимое, неожиданное и крайне странное да еще и с упором на ваш эмпатический отклик — это точно “красный флажок”. Не ленимся, открываем телефонную книжку или Телеграм (если он работает) и проводим доскональное расследование.

Ещё чуть-чуть истории

**1101000010111001110100001011001010110100001011100100101101000010110010**

Кстати, «гонконгская атака» была не первым случаем успешного голосового спуфинга. За год до этого энергетический провайдер из Великобритании потерял четверть миллиона фунтов по точно такому же сценарию, который скорее всего был репетицией для прощупывания почвы.

Сначала был звонок лже-начальника, потом описана проблема с задолженностью каким-то там партнерам и просьба, или даже не терпящий возражений приказ, срочно оплатить счет. Мошенники успешно использовали те же самые психологические триггеры: а) авторитетность вышестоящего голоса, б) срочность ситуации, с) необсуждаемость распоряжения.

Конечно клонированный голос сыграл ключевую роль в операции, но аферисты явно знали кому звонить и под соусом какой легенды это подавать. Так что, социальная инженерия здесь играет, пожалуй, роль не меньшую, чем хитроумные алгоритмы. Но этот вопрос заслуживает отдельного взгляда.

В общем, будьте бдительны.

ссылка на оригинал статьи https://habr.com/ru/articles/1022762/