Голос под защитой. Запускаем хакатон SafeSpeak-2024, посвящённый борьбе с голосовыми дипфейками

от автора

Всем привет! Как и многие читатели Хабра (надеемся), мы в AIRI и МТУСИ терпеть не можем телефонных мошенников. К сожалению, с каждым годом арсенал их методов расширяется. А в связи с развитием и удешевлением ML‑решений в руках мошенников появляются предобученные модели синтеза речи и преобразования голоса.

ML‑сообщество, конечно же, активизировалось для борьбы с этой и другими проблемами, связанными с распространениями голосовых подделок. Чтобы привлечь к решению задач безопасности голосовой коммуникации больше исследователей, наша команда решила провести хакатон SafeSpeak-2024, посвящённый разработке технологий обнаружения аудио‑спуфинга, и нацеленный на решение актуальных проблем безопасной голосовой аутентификации, а также защиту биометрических систем от атак.

Подробности — в тексте ниже.

Введение в тему и постановка задачи

Системы автоматической верификации спикера (Automatic Speaker Verification, ASV) определяют, принадлежит ли голос в аудиозаписи заданному человеку. Эти системы находят применение в различных областях, включая финансовый сектор для аутентификации пользователей при проведении транзакций, в смарт‑устройствах для обеспечения эксклюзивного доступа владельца к управлению оборудованием и так далее.

Однако ASV‑системы стали уязвимы к множеству атак благодаря развитию генеративных моделей и состязательных (adversarial) методов. Предобученные модели синтеза речи и преобразования голоса позволяют любому пользователю, обладающему вычислительными ресурсами, включая облачные GPU, дорабатывать эти модели для потенциально вредоносных целей.

Также дипфейки могут применяться злоумышленниками для обмана реальных людей, например родных, друзей, или коллег того, чей голос подделывается, по телефону или в социальных сетях. Для эффективного противодействия таким атакам необходима реализация антиспуфинг‑систем. Сообщество ASVspoof активно продвигает исследования в этой области, создавая датасеты с примерами дипфейков и подлинных записей и организуя biannual контесты.

К числу достижений в этом направлении можно отнести набор данных Singfake, который используется для выявления вокала, сгенерированного ИИ, в музыкальной сфере. Также стоит отметить проект SVDD, внёсший значительный вклад в развитие контрмер против спуфинга голоса. Наконец, наша команда не осталась в стороне и недавно представила свои решения под названием AASIST3 на воркшопе ASVspoof, который проходил в рамках конференции Interspeech 2024.

Задачу голосового антиспуфинга можно решать двумя стратегиями. Первая — это просто модель бинарной классификации для определения, является ли речь на записи подлинной, человеческой или созданной искусственно (Counter Measure или просто CM‑модель). Вторая стратегия, более интегрированная, работает совместно с системой голосовой биометрии и позволяет точно идентифицировать голос владельца (speaker aware ASV, SASV), разрешая доступ только при предъявлении настоящего голоса. В этом случае система отклоняет попытки авторизации как с помощью голоса другого человека, так и при использовании поддельного голоса владельца.

Получать решения можно в закрытых (closed) и открытых (open) условиях. В первом случае запрещено использование предобученных моделей и дополнительных аудиоданных с примерами подлинной и искусственной речи. Нужно «выжать» максимум из этих ограниченных ресурсов. Во втором случае это не запрещено.

Как и в других задачах глубокого обучения, для внедрения таких решений в повседневную жизнь и устройства, например, смартфоны, важна вычислительная производительность, а также обобщающая способность к новым данным. И с этим у моделей антиспуфинга, к сожалению, есть проблемы, которые теоретически и практически, кажется, невозможно решить (общая проблема данных вне обучающего распределения, доменная генерализация и так далее).

И тут мы плавно переходим к тому, что мы ждём от участников Хакатона — реализовать CM‑модель в open‑условиях. За исключением этих ограничений выбор методов остаётся на усмотрение команд. Но выбирать, на самом деле, есть из чего. Сегодня для обнаружения поддельного голоса используется множество методов, включая те, что основаны на предобработке сырой аудио волны, создания разных спектрограмм и применения к ним свёрточных нейронных сетей, архитектур, подобных ResNet, временных нейронных сетей с задержкой и трансформеров.

В качестве примера можем привести архитектуру AASIST, продемонстрировавшую особую устойчивость, что подтверждено многочисленными исследованиями. Для улучшения способности AASIST к обобщению мы предложили различные модификации, например, слияние различных аудиопредставлений, применение специальных схем обучения, таких как SAM, ASAM, SWL, а также использование альтернативных функций потерь и слоёв. Всё вместе позволило нам создать новую архитектуру AASIST3, уже упомянутую ранее. Кроме того, хорошие репрезентативные фичи позволяют выделять большие звуковые модели, которые используются в качестве энкодера, например, wav2vec2 и WavLM.

В целом участникам предлагается самим сделать обзор текущих решений для выбора подхода и генерации своих идей решения хакатона. Начать советуем со списка статей, представленных на недавно прошедшем воркшопе ASVspoof. Ну и Google Scholar, конечно, куда ж без него 🙂

Особенности данного хакатона

Как обычно, мы будем оценивать качество предсказаний модели голосового антиспуфинга, используя equal error rate (EER) в качестве основной метрики. Участникам придется обучить модель так, чтобы получить хорошую обобщающую способность к новым видам атак и аудио доменов.

Впрочем, метрика на закрытой тестовой части — не единственный критерий оценки. От решений будут требоваться также легковесность модели и скорость работы на CPU. Любые другие предложения и находки (например, определение границ работоспособности моделей, оценка неопределенностей предсказаний и тому подобное) в техническом отчете будут существенно влиять выбор победителей.

В некотором смысле участие в хакатоне будет напоминать полноценную научную работу, результатом которого станет небольшая статья‑отчет.

Примеры аудио

Чтобы было примерно понятно, с чем придётся работать, выкладываем несколько примеров с аудио.

Организационные вопросы

К участию в SafeSpeak-2024 допускаются студенты бакалавриата, магистратуры, специалитета и аспирантуры из технических университетов стран БРИКС и СНГ. Участвовать можно в командах от 1 до 4 человек.

Призовой фонд составляет 225 тысяч рублей.

Зарегистрироваться можно уже сейчас по ссылке. Регистрация будет открыта до 26 ноября, старт самого хакатона — 22 ноября.

Желаем всем удачи!


ссылка на оригинал статьи https://habr.com/ru/articles/857896/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *