Meta* показала Brain2Qwerty v2: конвертируем мысли в слова с помощью шлема

Представьте: вы надеваете шлем, садитесь за клавиатуру и просто думаете о тексте. Нейросеть тем временем печатает его за вас. Без сверления черепа, без имплантов, без риска занести инфекцию. Все еще звучит как научная фантастика? (особенно на фоне разработок и обещаний Маска) А вот Meta* с партнёрами из Basque Center on Cognition, Brain, and Language (BCBL) говорят, что это уже реальность.

Они анонсировали Brain2Qwerty v2 — вторую версию пайплайна, который декодирует текст из мозговой активности. Первая версия только-только вышла в Nature, а ребята уже катят качественный апдейт.

Как это работало в v1 и что поменялось

В первой версии модель угадывала отдельные клавиши по сигналу магнитоэнцефалографа (MEG). Символ за символом, как древний телеграф. Средний процент ошибок составил около 29–32%. С дешёвой и носимой ЭЭГ всё было печально: 67% ошибок — почти непригодно для жизни.

В v2 авторы перешли на end-to-end подход. Модель больше не выковыривает буквы по одной — она декодирует целые предложения, опираясь на семантический контекст. По сути, нейросеть не просто слышит «шум» из мозга, а понимает, о чём вы думаете. И дообучает всё это дело на больших языковых моделях, чтобы сгладить шум и выдать связную речь.

Итак, по версии Meta*, v2 достигает 61% точности на уровне слов в среднем по группе. А для лучшего участника — все 78%. Причём больше половины предложений декодируются с одной ошибкой или меньше.

Для сравнения: другие неинвазивные методы давали лишь 8%. Разница — в 7–10 раз.

Обучали систему на ~22 000 предложениях от девяти добровольцев. Каждый участник провёл в MEG-сканере по 10 часов, активно печатая тексты. И да, авторы выяснили, что точность растёт лог-линейно с объёмом данных. То есть если накормить модель ещё большим корпусом, показатели могут приблизиться к инвазивным методам. Без всяких хирургических вмешательств.

Нюансы

Главное ограничение — сам MEG. Это не гарнитура за 500 рублей с маркетплейса. Аппарат стоит как небольшая квартира в Москве, требует экранированной комнаты и абсолютной неподвижности головы испытуемого. До «носимого нейроинтерфейса» — дистанция огромная.

С ЭЭГ, которую можно нацепить на голову и пойти гулять, точность по-прежнему низкая. Так что пока вся эта магия остаётся в лабораториях.

Кому это реально нужно?

Целевая аудитория — не гики, мечтающие печатать силой мысли, а люди с поражениями мозга и неврологическими нарушениями, которые потеряли речь. Для них даже несовершенный неинвазивный канал — это возвращение к общению. И здесь важен каждый процент точности.

Что Meta* не рассказала

В анонсе нет внятных метрик по v2 в сравнении с v1 на уровне символов. Непонятно, насколько выросла скорость набора, каков реальный словарь и, главное, работает ли это всё ещё только на MEG или уже пробовали на ЭЭГ. Заявка громкая («самый результативный end-to-end декодер»), но проверяемых цифр второй версии в публичном доступе пока кот наплакал.

Итог

Brain2Qwerty v2 — это мощный шаг вперёд. End-to-end подход, семантическое декодирование, 61–78% точности — звучит впечатляюще. И открытый код с датасетами (ребята выложили всё на Hugging Face) — это большой плюс для науки. Но до массового применения ещё далеко. MEG слишком дорог и громоздок, а с ЭЭГ точность пока не радует. Хотя, кто знает, может, через пару лет мы будем смеяться над тем, как раньше тыкали пальцами в клавиатуру.

*признана экстремистской и запрещена в России.

ссылка на оригинал статьи https://habr.com/ru/articles/1053524/