У ИИ-подрядчиков Mercor украли 4 ТБ голосовых сэмплов

от автора

Группа вымогателей группировки Lapsus$ опубликовала на своём сайте утечек данные компании Mercor, которые включают 4 ТБ голосовых образцов от 40 000 подрядчиков, занимающихся разработкой ИИ. 

Утечка содержит биометрические данные голоса в сочетании с удостоверением личности, выданным государством. Согласно индексу утёкших образцов, архив охватывает более 40 000 подрядчиков, которые зарегистрировались для разметки данных, записи отрывков для чтения и проведения проверочных звонков для обучения ИИ.

В течение десяти дней после публикации было подано пять исков от подрядчиков. Истцы утверждают, что компания собирала голосовые отпечатки под видом «обучающих данных», не уточняя, что они также являются постоянным биометрическим идентификатором. 

Отмечается, что в Mercor при приёме на работу подрядчика запрашивали скан паспорта или водительского удостоверения, затем селфи с веб-камеры, а также запись голоса, читающего заученные фразы в тихой комнате. 

В феврале 2026 года издание Wall Street Journal сообщило, что для высококачественного клонирования голоса теперь требуется примерно 15 секунд чистого эталонного аудио в случае с инструментами, доступными «из коробки». При этом записи Mercor в среднем содержат от двух до пяти минут студийной чистой речи на одного подрядчика. 

Полученные данные потенциально позволяют хакерам обходить банковскую верификацию, организовывать вишинг (голосовой фишинг) работодателя жертвы, проводить видеозвонки с использованием технологии дипфейков, а также организовывать иные схемы мошенничества.

Тем, кто мог пострадать от утечки Mercor, рекомендуют:

  • провести автоаудит своего публичного аудиоследа. Поискать на YouTube, в каталогах подкастов и старых записях Zoom образцы своего голоса, которые можно индексировать в открытом доступе;

  • установить кодовое слово для членов семьи и финансовых контактов. Выбрать фразу, которая никогда не произносилась на записи и никогда не набиралась в чате. Проинструктировать людей, которые могут управлять деньгами от имени пользователя;

  • обновить голосовые данные там где они всё ещё используются, в том числе в Google Voice Match, Amazon Alexa Voice ID, Apple Personal Voice и при любой банковской регистрации;

  • попросить свой банк отключить скан голоса в качестве фактора проверки, запросить в письменной форме многофакторную аутентификацию, которая сочетает в себе токен приложения или аппаратный ключ;

  • запустить проверку аудиозаписей с помощью криминалистического сканера. Тем, кто получает аудиофайл или голосовое сообщение якобы от знакомого человека, следует проверять его с помощью детектора дипфейков, прежде чем предпринимать какие-либо действия, касающиеся финансов или других важных сфер. 

Ранее в Mercor подтвердили инцидент безопасности, связанный с атакой на цепочку поставок, в которой участвовал проект с открытым исходным кодом LiteLLM. В самой Lapsus$ поделились образцом данных, предположительно, от Mercor. В выборку вошли материалы, содержащие ссылки на данные Slack и, по-видимому, данные системы обработки заявок, а также два видео, демонстрирующие разговоры между системами искусственного интеллекта Mercor и подрядчиками на их платформе. 

ссылка на оригинал статьи https://habr.com/ru/articles/1028624/