Представьте: вы надеваете шлем, садитесь за клавиатуру и просто думаете о тексте. Нейросеть тем временем печатает его за вас. Без сверления черепа, без имплантов, без риска занести инфекцию. Все еще звучит как научная фантастика? (особенно на фоне разработок и обещаний Маска) А вот Meta* с партнёрами из Basque Center on Cognition, Brain, and Language (BCBL) говорят, что это уже реальность.
Они анонсировали Brain2Qwerty v2 — вторую версию пайплайна, который декодирует текст из мозговой активности. Первая версия только-только вышла в Nature, а ребята уже катят качественный апдейт.
Как это работало в v1 и что поменялось
В первой версии модель угадывала отдельные клавиши по сигналу магнитоэнцефалографа (MEG). Символ за символом, как древний телеграф. Средний процент ошибок составил около 29–32%. С дешёвой и носимой ЭЭГ всё было печально: 67% ошибок — почти непригодно для жизни.
В v2 авторы перешли на end-to-end подход. Модель больше не выковыривает буквы по одной — она декодирует целые предложения, опираясь на семантический контекст. По сути, нейросеть не просто слышит «шум» из мозга, а понимает, о чём вы думаете. И дообучает всё это дело на больших языковых моделях, чтобы сгладить шум и выдать связную речь.
Итак, по версии Meta*, v2 достигает 61% точности на уровне слов в среднем по группе. А для лучшего участника — все 78%. Причём больше половины предложений декодируются с одной ошибкой или меньше.
Для сравнения: другие неинвазивные методы давали лишь 8%. Разница — в 7–10 раз.
Обучали систему на ~22 000 предложениях от девяти добровольцев. Каждый участник провёл в MEG-сканере по 10 часов, активно печатая тексты. И да, авторы выяснили, что точность растёт лог-линейно с объёмом данных. То есть если накормить модель ещё большим корпусом, показатели могут приблизиться к инвазивным методам. Без всяких хирургических вмешательств.
Нюансы
Главное ограничение — сам MEG. Это не гарнитура за 500 рублей с маркетплейса. Аппарат стоит как небольшая квартира в Москве, требует экранированной комнаты и абсолютной неподвижности головы испытуемого. До «носимого нейроинтерфейса» — дистанция огромная.
С ЭЭГ, которую можно нацепить на голову и пойти гулять, точность по-прежнему низкая. Так что пока вся эта магия остаётся в лабораториях.
Кому это реально нужно?
Целевая аудитория — не гики, мечтающие печатать силой мысли, а люди с поражениями мозга и неврологическими нарушениями, которые потеряли речь. Для них даже несовершенный неинвазивный канал — это возвращение к общению. И здесь важен каждый процент точности.
Что Meta* не рассказала
В анонсе нет внятных метрик по v2 в сравнении с v1 на уровне символов. Непонятно, насколько выросла скорость набора, каков реальный словарь и, главное, работает ли это всё ещё только на MEG или уже пробовали на ЭЭГ. Заявка громкая («самый результативный end-to-end декодер»), но проверяемых цифр второй версии в публичном доступе пока кот наплакал.
Итог
Brain2Qwerty v2 — это мощный шаг вперёд. End-to-end подход, семантическое декодирование, 61–78% точности — звучит впечатляюще. И открытый код с датасетами (ребята выложили всё на Hugging Face) — это большой плюс для науки. Но до массового применения ещё далеко. MEG слишком дорог и громоздок, а с ЭЭГ точность пока не радует. Хотя, кто знает, может, через пару лет мы будем смеяться над тем, как раньше тыкали пальцами в клавиатуру.
*признана экстремистской и запрещена в России.
ссылка на оригинал статьи https://habr.com/ru/articles/1053524/