ИИ, который пойдет на смартфоне: Google Gemma 4 получила квантованные версии

от автора

Google DeepMind выложила официальные квантованные версии Gemma 4 — специально обученные чекпойнты, которые резко снижают требования к памяти и позволяют запускать открытую модель на ноутбуках, периферийных устройствах и даже смартфонах. Веса уже доступны на Hugging Face, а самый компактный вариант в мобильном формате помещается примерно в 1 ГБ памяти.

Квантованные сборки Gemma 4 существовали и раньше, но их делало сообщество — теперь же облегченные версии выпускает сама Google. Компания использовала технологию QAT — это обучение, при котором пониженная точность вычислений моделируется еще на этапе тренировки, поэтому при последующем сжатии модель теряет в качестве меньше, чем при обычном квантовании уже готовых весов.

Что именно выложили:

  • Пять размеров семейства: E2B, E4B, 12B, 26B A4B и 31B.

  • Четыре формата под разные сценарии: неквантованный Q4_0 (для своей компиляции и исследований), готовый к запуску GGUF Q4_0, Compressed Tensors w4a16 под vLLM и мобильный формат wNa8o8 с прицельными 2-битными слоями декодинга.

  • Поддержка с первого дня: llama.cpp, Ollama, LM Studio, vLLM, MLX и LiteRT-LM.

Google заявляет, что QAT сохраняет качество, близкое к bfloat16, и обходит обычное послетренировочное квантование, но независимых бенчмарков именно по Gemma 4 QAT на момент релиза нет — пока это обещание самой компании. Квантованные модели для смартфона в любом случае стоит воспринимать как вспомогательный ИИ — например, для перевода в дорогом роуминге или при отсутствии интернета.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1044460/