Meta* выпускает «открытую» версию генератора подкастов Google

от автора

Meta* представила «открытую» реализацию функции создания подкастов под названием NotebookLlama для Google NotebookLM. Этот проект основан на использовании моделей Llama от Meta*для обработки данных, что вполне ожидаемо. NotebookLlama, подобно NotebookLM, умеет создавать аудиодайджесты текстовых файлов, загруженных пользователем, превращая их в подкасты.

Процесс работы NotebookLlama состоит из нескольких этапов. Сначала создаётся расшифровка загруженного файла — будь то новостная статья в формате PDF или блог. После этого в текст добавляются паузы и «драматические элементы, что придаёт повествованию более живой характер. На последнем этапе текст передаётся в открытые модели синтеза речи, чтобы получить аудиоверсию.

Однако, по отзывам пользователей, качество звучания пока оставляет желать лучшего. В демоверсиях NotebookLlama голоса звучат неестественно, и фразы порой прерываются в неожиданных местах. Разработчики Meta* признают эту проблему и поясняют, что улучшение качества возможно с помощью более мощных моделей.

«Синтез речи ограничивает естественность звучания», — пишут исследователи на странице проекта NotebookLlama на GitHub. «Ещё один способ повысить качество подкастов — использовать двух агентов, которые бы обсуждали выбранную тему и совместно писали план подкаста. В настоящее время мы используем одну модель для создания этого плана».

NotebookLlama — не первая попытка воспроизвести функцию подкастов, предлагаемую в NotebookLM. Результаты у разных проектов варьируются, и каждому пока не удалось полностью избавиться от проблемы «галлюцинаций» — свойственного ИИ явления, когда в тексты добавляются вымышленные детали.

Источник

*признана в РФ экстремистской организацией и запрещена


ссылка на оригинал статьи https://habr.com/ru/articles/853858/