Российские исследователи разработали модели для перевода устных математических формул в LaTeX

от автора

Исследователи из AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ представили открытый датасет и набор решений для задачи Speech-to-LaTeX — перевода надиктованных математических формул в структурированную запись. Речь идёт о системе, которая позволяет произнести формулу вслух и получить на выходе текст в формате LaTeX, который используется в научных статьях, учебных материалах и редакторах вроде Overleaf.

Задача здесь сложнее обычного распознавания речи. Математическая речь содержит вложенные конструкции, неоднозначные формулировки и сильно зависит от контекста: одна и та же фраза может соответствовать нескольким разным записям. Авторы отмечают, что одной из главных проблем в этой области долгое время было отсутствие крупных открытых наборов данных именно с живыми аудиозаписями математической речи.

Для решения этой проблемы исследователи собрали собственный датасет. В него вошли более 66 тысяч человеческих аудиозаписей и около 571 тысячи синтетических, а также примерно 12 тысяч уникальных математических предложений и 10,7 тысячи отдельных уравнений на русском и английском языках. По задумке авторов, сочетание реальной и синтетической речи должно помочь моделям лучше работать с разными голосами, акцентами и произношением.

В работе сравнивались два подхода. Первый — ASR post-correction: сначала аудио превращается в обычный текст системой распознавания речи, а затем языковая модель исправляет результат и переводит его в корректный LaTeX. Второй — end-to-end Audio-LLM, где модель обучается напрямую принимать аудио и сразу выдавать формулу. По данным исследователей, лучшие результаты показал именно end-to-end подход, но он требует гораздо больше вычислительных ресурсов и более крупных моделей.

Поэтому практическим компромиссом авторы считают первый вариант — связку ASR и постобработки языковой моделью примерно на 0,5–1,5 млрд параметров. Такой подход даёт более реалистичный баланс между качеством и стоимостью внедрения. Кроме того, сами исследователи считают, что их датасет может пригодиться не только для Speech-to-LaTeX, но и для других задач, связанных с анализом речи: от голосовой биометрии до систем защиты от подделки голоса.

На практике такой инструмент может быть полезен в образовании, научной работе и редакторах технических текстов — везде, где математические записи приходится вводить вручную и где голосовой интерфейс мог бы серьёзно ускорить работу. Для российского AI-сегмента это ещё и редкий пример не абстрактной “модели для всего”, а вполне конкретного исследовательского инструмента с понятной областью применения.

ссылка на оригинал статьи https://habr.com/ru/articles/1028550/