После выхода Qwen2.5, которая подняла LLM небольших размеров на новый уровень, так как при размере всего 72B и, особенно, 32B — она показывала очень хорошие качество размышления и следования инструкциям, все начали с нетерпением ждать выхода Coder 32B модели, так как ожидали от неё уровня близкого к GPT-4o.
И вот, наконец-то, Qwen представила эту коллекцию моделей для кода размерами: 0.5B, 1.5B, 3B, 7B, 14B и 32B. Размер контекста 128k, лицензия Apache 2.0 (кроме модели 3B).
До текущего момента самой популярной локальной моделью для программирования была Codestral 22b, новая же модель в бенчмарке McEval на 40 языках программирования показывает результаты лучше чем она, и по некоторым языкам обгоняет GPT-4o.
Падение качества от модели к модели с уменьшением размера B можно оценить из этой таблицы. B — показатель в млрд количества параметров у модели.
В бенчмарке Aider 32B показывает себя хорошо, также на уровне GPT-4o, набирая 73.7%. Более легковесная 14B выдает результат 69.2%, в то время как Codestal 22B всего 51.1%.
Главное отличие Code моделей об обычных в том, что такие модели обучались с FIM (Fill in the Middle) — специальное обучение сосредоточенное на дополнение кода, поэтому такие модели лучше справляются с autocomplete.
Для моделей 14B и 32B доступен размер контекста в 128k при использовании не gguf моделей, для gguf размер будет 32k.
Для запуска 32B модели в формате gguf с квантованием Q4_K_M потребуется около 18гб vram для модели и еще 8гб для контекста в 32k. Снизить это требование можно включив квантование кэша контекста: cache_8bit, тогда потребуется 4гб, или cache_4bit, тогда 2гб, но немного снизится качество, для сложного кода это может быть заметно. Модель на 14B работает с приемлемой скоростью на CPU only, на ryzen 5600g скорость будет около 4t/s, что примерно ниже скорости не быстрого чтения.
Для моделей 14B и 32B доступен размер контекста в 128k при использовании не gguf моделей, для gguf размер будет 32k.
Чем меньше размер модели B, тем надежнее брать модель с более высоким уровнем квантования, например, для 14B это Q5_K_S или Q5_K_M, а для 7B уже лучше брать Q6/Q8. Если вам не нужен полный контекст в 32k или 128k, то снизив его, например, до 8k — то для загрузки модели потребуется меньше памяти, а скорость будет немного выше.
Полная презентация: https://qwenlm.github.io/blog/qwen2.5-coder-family/
Официальная коллекция моделей: https://huggingface.co/collections/Qwen/qwen25-coder-66eaa22e6f99801bf65b0c2f
Скачать gguf различных весов:
Попробовать онлайн: https://huggingface.co/spaces/Qwen/Qwen2.5-Coder-demo
Также можно попробовать Artifacts (локально доступно в Open WebUI клиенте), созданный js код будет сразу же запущен в боковом окошке.
Демо онлайн: https://huggingface.co/spaces/Qwen/Qwen2.5-Coder-Artifacts
Для создания локального copilot можно использовать плагины для VS Code, например, бесплатные Continue или Cline.
ссылка на оригинал статьи https://habr.com/ru/articles/857802/
Добавить комментарий