Релиз открытой ИИ-модели hertz-dev для полнодуплексного голосового общения

В начале ноября 2024 года команда разработчиков из Standard Intelligence представила открытую ИИ-модель для синтеза речи в полнодуплексном режиме под названием hertz-dev. Исходный код проекта написан на Python и опубликован на GitHub под лицензией Apache 2.0.

Проект может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи. Модель hertz-dev позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, обеспечивая взаимодействие в стиле живого человеческого общения без задержек.

По уточнению разработчиков, на системе с GPU Nvidia GeForce RTX 4090 средняя задержка перед генерацией речи в этой модели составляет 120 мс (теоретически до 65 мс), что примерно в два раза быстрее, чем у имеющихся в открытом доступе существующих моделей.

Опубликованный в открытом доступе вариант hertz-dev построен с использованием архитектуры трансформер. Проект охватывает 8.5 млрд параметров и обучен с использованием 500 млрд токенов. Размер учитываемого моделью контекста (число токенов, которые модель может обработать и запомнить при генерации речи) составляет 2048 токенов или примерно 4 минуты речи.

ссылка на оригинал статьи https://habr.com/ru/articles/856042/

Релиз открытой ИИ-модели hertz-dev для полнодуплексного голосового общения

Комментарии

Добавить комментарий Отменить ответ