Программисты из Университета Восточной Англии разработали компьютерную систему, способную распознавать речь по видеозаписи движения губ. Система может помочь при расследовании преступлений или различных происшествий – особенно в тех, случаях, когда аудиодорожка отсутствует, оказывается повреждена или является бесполезной из-за фонового шума.
Видеозаписи в местах развлечений, в автомобилях или кабинах самолётов и других транспортных средств, делаются без аудиодорожки, либо аудио содержит слишком много шума. В сложных случаях следователи приглашают специалиста по чтению по губам – обычно это глухие люди, или те, кто работает с глухими.
Чтение по губам – более сложная задача, чем распознавание речи, как для человека, так и для компьютера. Некоторые буквы, особенно гласные, хорошо распознаются при их произнесении. Некоторые (например: к, г, х) вообще «не видны» снаружи. Опытный человек, распознающий речь, подбирает подходящие слова и достраивает предложения по смыслу.
«Пока что мы ещё только постигаем науку распознавания визуальной речи и того, что необходимо для создания надёжной системы распознавания»,- говорит Хелен Беар [Helen L. Bear], одна из создателей системы.
«Чтение по губам – одна из самых сложных задач для искусственного интеллекта, поэтому так здорово совершать прогресс в этой области в таких сложных вещах, как обучение машины распознаванию внешнего вида и формы губ человека»,- поясняет Ричард Харви [Richard Harvey], профессор, участвовавший в создании системы.
ссылка на оригинал статьи https://geektimes.ru/post/273350/
Добавить комментарий