llama.cpp теперь умеет работать с речью

от автора

Сегодня (12 апреля) в проект llama.cpp залили PR, который добавляет новый функционал — работа с audio.

Речь идёт о поддержке моделей Gemma4, которые умеют распознавать речь:

https://huggingface.co/google/gemma-4-E4B-it

  • Total Parameters4.5B effective (8B with embeddings)

https://huggingface.co/google/gemma-4-E2B-it

  • Total Parameters2.3B effective (5.1B with embeddings)

Обе модели поддерживают:

  • режим LLM (большая языковая модель)

  • распознавание изображений

  • распознавание речи

  • контекст 128k

Так как в этой статье речь идёт о работе с llama.cpp, то требуется формат GGUF (кванты), который можно взять вот тут:

https://huggingface.co/ggml-org/gemma-4-E4B-it-GGUF

https://huggingface.co/ggml-org/gemma-4-E2B-it-GGUF

Так как поддержка добавлена только сегодня, то этот функционал ещё не работает в опубликованном контейнере докера (будет завтра). Я компилировал из исходников и запускал у себя на RTX 4090D:

CUDA_VISIBLE_DEVICES=0  ./build/bin/llama-server   --host 0.0.0.0  --port 8080  \  --ctx-size 128000  \  -b 1024 -ub 1024   \  -hf ggml-org/gemma-4-E4B-it-GGUF:Q8_0ggml_cuda_init: found 1 CUDA devices (Total VRAM: 48508 MiB):  Device 0: NVIDIA GeForce RTX 4090 D, compute capability 8.9, VMM: yes, VRAM: 48508 MiBmain: n_parallel is set to auto, using n_parallel = 4 and kv_unified = truebuild_info: b8770-82764d8f4

C параметрами по умолчанию движок работает нестабильно, падает:

https://github.com/ggml-org/llama.cpp/issues/21816 Gemma 4 E4B audio assert error

Нужно добавлять `-b 1024 -ub 1024`, как в примере у меня выше.

Я использовал квант Q8_0 и у мена показывает, что используется 10 GB VRAM.

Я решил провести эксперимент, и выставил llama.cpp в Интернет, безо всякой авторизации:

https://habr.acloud.app/

Так что можете попробовать, если интересно. Если Хабр положит мой компьютер, то ссылку уберу отсюда.

Так как поддержку только добавили, то выглядит это немного «сыровато». Модель не всегда понимает промпты. Так что будет интересно получить обратную связь.

На Reddit народ пишет, что вроде бы ещё поддерживается модель Voxtral, но я до неё ещё не добрался.

ссылка на оригинал статьи https://habr.com/ru/articles/1022628/